1、上海证券交易所数据挖掘培训上海证券交易所数据挖掘培训 II概览概览 第1页,共58页。议程议程业务系统和数据仓库之间的关系业务系统和数据仓库之间的关系数据挖掘的方法和应用数据挖掘的方法和应用数据挖掘数据挖掘的具体的具体过程过程数据挖掘项目成功的要素数据挖掘项目成功的要素数据挖掘举例数据挖掘举例第2页,共58页。业务系统和数据仓库之间的关系第3页,共58页。业务系统和数据仓库业务系统和数据仓库 业务系统的主要功能是日常运作业务系统的主要功能是日常运作 数据仓库的目的是决策支持数据仓库的目的是决策支持 业务系统是数据仓库的数据源业务系统是数据仓库的数据源 数据仓库系统不是也不可能替代业务系统数据仓
2、库系统不是也不可能替代业务系统第4页,共58页。业务人员和技术人员的角色与职责业务人员和技术人员的角色与职责 第5页,共58页。数据仓库是为了最终用户的使用数据仓库是为了最终用户的使用而由最终用户和技术人员共同创建的而由最终用户和技术人员共同创建的 数据仓库不是一个技术项目数据仓库不是一个技术项目 数据仓库必须由技术人员和最终用户共同缔造数据仓库必须由技术人员和最终用户共同缔造 技术人员和最终用户必须技术人员和最终用户必须共同共同合作才能保证项目的成功合作才能保证项目的成功第6页,共58页。最终用户的职责最终用户的职责 业务目的确定业务目的确定(主导主导)用户需求用户需求(主导主导)设计设计
3、4逻辑模型4星形模型 实施实施 4测试4培训第7页,共58页。技术人员职责技术人员职责业务目的确定业务目的确定(主导主导)用户需求用户需求(主导主导)设计设计 4逻辑模型4物理模型 4星形模型实施实施 4设计4编程 4测试 4培训 第8页,共58页。数据挖掘的方法和应用第9页,共58页。数据挖掘的方法及典型应用数据挖掘的方法及典型应用时间序列时间序列预测预测交叉销售交叉销售相关分析相关分析购物篮分析购物篮分析市场分割市场分割个性化服务个性化服务欺诈行为检测欺诈行为检测股价预测股价预测收入预测收入预测风险值预测风险值预测风险评级风险评级信用评级信用评级客户流失预测客户流失预测关联分析关联分析相似
4、时间相似时间序列分析序列分析聚类分析聚类分析值预测值预测分类分析分类分析相关分析相关分析因子分析因子分析第10页,共58页。数据挖掘功能、算法及典型应用数据挖掘功能、算法及典型应用类别功能算法典型应用预测模型分类决策树,神经网络,差异分析,Logistic回归,Probit 回归目标化市场营销,质量控制,风险分析,客户维持度分析,医疗诊断数值预测线性回归,非线性回归,径向基函数盈利能力分析分割聚类分析K均值,Demographic,神经网络市场分割 客户分割链接分析关联发现统计,集合论购物篮分析、交叉销售序列关联发现统计,集合论时序购物篮分析相似时间序列发现统计,集合论销售流,股价波动预测时间
5、序列预测诸如ARIMA,Box-Jenkins,神经网络等的统计时间序列模型销售预测,利率预测,库存控制,信用降低导致的公司损失预测第11页,共58页。数据挖掘的具体过程第12页,共58页。数据挖掘流程数据挖掘流程1.业务目的确定业务目的确定7.数据挖掘数据挖掘8.结果解释结果解释3.数据数据收集收集Data SourceData Source2.数据源数据源识别识别4.数据选择数据选择9.应用建议应用建议10.结果结果应用应用实施实施5.数据质量审核数据质量审核6.数据转换数据转换第13页,共58页。业务目标确定业务目标确定 对于所有的数据挖掘项目,这并不是自动获得的。对于所有的数据挖掘项目
6、,这并不是自动获得的。许多数据挖掘项目的目标通常是模糊和不清晰的。对于许多数据挖掘项目的目标通常是模糊和不清晰的。对于分析人员和决策制定者来说,在任何数据挖掘项目的开分析人员和决策制定者来说,在任何数据挖掘项目的开始阶段,对业务问题、业务目标以及数据挖掘目的有一始阶段,对业务问题、业务目标以及数据挖掘目的有一个清晰而描述是至关重要的。个清晰而描述是至关重要的。涉及人员:高级管理人员,业务分析员和项目经理涉及人员:高级管理人员,业务分析员和项目经理 活动:与业务用户的会议和访谈活动:与业务用户的会议和访谈第14页,共58页。数据源识别数据源识别 给定一个业务目标,下一步就是找到可以回答和解决这给
7、定一个业务目标,下一步就是找到可以回答和解决这一业务问题的数据。所需要的数据可以来自操作型数据一业务问题的数据。所需要的数据可以来自操作型数据或者是公司内的数据库或者是公司内的数据库/数据仓库。数据仓库。涉及人员:业务分析员,数据挖掘分析员和涉及人员:业务分析员,数据挖掘分析员和IT人员人员 活动:与活动:与IT部门的会议和访谈部门的会议和访谈 第15页,共58页。数据收集数据收集 收集需要的数据有几种方式,这取决于数据需求和经济收集需要的数据有几种方式,这取决于数据需求和经济因素的综合考量。因素的综合考量。4在公司内部数据中提取4向数据公司购买4进行市场调研4从公告或媒体中获取 涉及人员:数
8、据挖掘分析员和涉及人员:数据挖掘分析员和IT人员人员 活动:确定及收集可能用于挖掘的数据活动:确定及收集可能用于挖掘的数据 第16页,共58页。数据选择数据选择从数据源选择将使用的数据类型从数据源选择将使用的数据类型4数据量大,采集时间长=数据抽样技术 平衡减少数据量和采样必须具有较全面的代表性 根据统计方法来计算样本的大小4了解数据的定义4数据的质量和可靠性数据的准确性数据的一致性 数据的完整性 数据的有效性数据的代表性 数据的非冗余性 涉及人员:数据挖掘分析员、涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员人员,有时还有业务分析员活动:确定及选择可能用于挖掘的数据活动:确定及选择可
9、能用于挖掘的数据 第17页,共58页。业务目标确定数据质量审核业务目标确定数据质量审核 对选择的数据进行审核对选择的数据进行审核4审核方法 离散数据频率分析 定量数据的分位数分析 图形分析包括柱状图、饼图、散点图,boxplots,和时间曲线。涉及人员:数据挖掘分析员、涉及人员:数据挖掘分析员、IT人员,有时还有业务分人员,有时还有业务分析员析员 活动:检测抽取数据的质量活动:检测抽取数据的质量第18页,共58页。数据转换数据转换 在选择并检验了需要的数据(表、变量)之后,多数情在选择并检验了需要的数据(表、变量)之后,多数情况下需要进行数据转换。特定的转换取决于数据挖掘类况下需要进行数据转换
10、。特定的转换取决于数据挖掘类型和数据挖掘工具,比如计算机软件和数据挖掘所使用型和数据挖掘工具,比如计算机软件和数据挖掘所使用的技术。的技术。典型的转换典型的转换4转换类别变量成数字变量4数学转换,如对数转换、次方转换4数字定义新变量 涉及人员:数据挖掘分析员涉及人员:数据挖掘分析员 活动:抽取信息的转换活动:抽取信息的转换 第19页,共58页。数据挖掘数据挖掘数据挖掘项目的核心部分数据挖掘项目的核心部分 尝试多种不同的数据挖掘技术以发现最优尝试多种不同的数据挖掘技术以发现最优数据挖掘方法数据挖掘方法4预测模型分类 值预测4分割4链接分析4时间序列预测涉及人员:数据挖掘分析员涉及人员:数据挖掘分
11、析员活动:挖掘数据活动:挖掘数据第20页,共58页。应用建议应用建议 把分析结果转化为业务利润。把分析结果转化为业务利润。4基于数据挖掘的知识发现,对在业务中运用数据挖掘结果,提出合理化建议 涉及人员:数据挖掘分析员和业务分析员涉及人员:数据挖掘分析员和业务分析员 活动:分析挖掘结果并考虑如何在业务环境中应用活动:分析挖掘结果并考虑如何在业务环境中应用第21页,共58页。结果应用结果应用 数据挖掘结果应用途径数据挖掘结果应用途径4将挖掘获得的知识直接发送给用户4将结果加入ODS,DDS甚至源系统以便利用。涉及人员:涉及人员:IT人员人员 活动:基于运行系统的建议,活动:基于运行系统的建议,IT
12、人员实施应用数据挖掘人员实施应用数据挖掘的结果的结果第22页,共58页。数据挖掘项目成功的要素第23页,共58页。好的数据源好的数据源 数据要准确数据要准确 数据要丰富数据要丰富 数据要经常更新数据要经常更新第24页,共58页。好的方案好的方案 方案必须紧密根据业务目的和数据挖掘目的来设计方案必须紧密根据业务目的和数据挖掘目的来设计 对数据挖掘技术要有全面而深刻的了解,从而保证方案对数据挖掘技术要有全面而深刻的了解,从而保证方案制订有较强的灵活性和先进性制订有较强的灵活性和先进性 对其它非数据挖掘方案来解决相同的课题也要有较强的对其它非数据挖掘方案来解决相同的课题也要有较强的认识,以备在制订数
13、据挖掘方案时做参考。克服缺陷,认识,以备在制订数据挖掘方案时做参考。克服缺陷,发扬优点。发扬优点。第25页,共58页。好的算法好的算法 好的算法能提高模型的准确性好的算法能提高模型的准确性 好的算法能为模型的调整提供更好的灵活性好的算法能为模型的调整提供更好的灵活性第26页,共58页。好的系统支持好的系统支持 好的系统能够为支持某些算法的运行提供可能好的系统能够为支持某些算法的运行提供可能4内存和硬盘空间不足会导致决策树模型不能运行 好的系统能提高数据挖掘的效率好的系统能提高数据挖掘的效率4好的系统增快数据挖掘的速度,从而减少等待时间第27页,共58页。好的团队合作好的团队合作 数据挖掘是跨多
14、部门数据挖掘是跨多部门(数据挖掘,数据挖掘,IT,业务部门业务部门)共同合共同合作的项目,因此需要各个部门的精诚合作作的项目,因此需要各个部门的精诚合作4业务部门提供详细的业务需求,实时的业务知识指导,和专业化的数据挖掘结果审核4IT部门提供数据源说明,数据提取和转换的支持,数据挖掘结果应用的实施4数据挖掘部门提供数据整理的建议,制定优秀的数据挖掘方案,灵活应用数据挖掘的算法,解释数据挖掘的结果,对结果的应用提出合理化的建议第28页,共58页。数据挖掘举例第29页,共58页。收集信用机构的数据资产是开发新产品的催化剂收集信用机构的数据资产是开发新产品的催化剂获取和管理获取和管理18个月的数据个
15、月的数据提供数据集市类的环境以用于支持构想测试的查询提供数据集市类的环境以用于支持构想测试的查询对时间分析和数据挖掘的分析可以导向用于开发新产品的见识对时间分析和数据挖掘的分析可以导向用于开发新产品的见识识别有倾向使用新产品的客户识别有倾向使用新产品的客户/消费者消费者第30页,共58页。数据流概述:从兆兆字节(Terabytes)-结果消费信贷数据 4 TB属性选择映射到普通表的消费者ID样本消费者数据库 375 GBUDB/Teraplex聚类模型输入表1.07 M households482 列 4 GB破产预测模型输入表1.07 M households280 列 1 GB普通表 75
16、 GB智能挖掘训练 数据KMAP ClusterVisualization Tool0.5%取样创建数据库(18 个快照)测试数据属性选择丰富破产模型IM 可视化树状分类IBM 研究13K 记录 110K 记录神经元聚类 神经元/树状分类36个输入字段41个输入字段+21 个supp 字段(从消费者来)SQL 查询SQL 查询lift curves分类分析(例如:小生意)第31页,共58页。这个项目的重点在信用卡客户消费模式分析这个项目的重点在信用卡客户消费模式分析.NoImage第32页,共58页。家 庭 对 信 用 卡 信 用 额 度 的 使用是 哪 些 人 因 信 用 卡 透 支 为 银
17、 行 带 来 了 利 润?其 风 险 度 是 多 少?时 间 序 列 分 析 能 够 使 我 们 发 掘 信 用 卡 透 支 者 .第33页,共58页。High End Dept Stores1.0%,$100K0.1%,$107KHigh End Dept Stores0.2%,$150K0.01%,$380KStudent Loans1.0%,$94KElectronics0.1%,$80KTrendy Clothes0.2%,$72KSecured Loans0.6%.$87KMainly Auto8.8%,$74KHome Loans0.3%,$144KSpecial Bankcard
18、 0.6%,$130KMiddle American Shoppers2.8%,$66KMiddle American Shoppers1.0%,$64KPersonal Loans4.6%,$67KSmall Business2.4%,$122KMiddle American Shoppers0.8%,$87KMiddle American Shoppers3.2%,$72KPersonal Loans0.1%,$84KPersonal Loans0.2%,$60KAppliance0.2%,$86KConservative Cards3.6%,$78KNot Players63.2%,$6
19、3K0.8%,$114KEverything in the home3.5%,$251KMiddle American Shoppers0.2%,$96K数据挖掘揭示了对信用的使用特点.(家庭所占百分比,屋主的平均房屋贷款)第34页,共58页。跟往常一样跟往常一样,我们发现很少的帐户占了消费量的很大一部分我们发现很少的帐户占了消费量的很大一部分高档消费商店的客户群体-仅占全部家庭的1.2%家庭消费额MacysBloomingdalesClothing Stores1.2%38%24%22%Other Dept Stores第35页,共58页。我们创造了我们创造了9种种250个变量,其中选用了个
20、变量,其中选用了36项去建造树型,逻辑型和神经型模型项去建造树型,逻辑型和神经型模型加速度加速度行为行为拖欠拖欠劣迹劣迹历史历史询查询查限制限制分割分割利用性利用性第36页,共58页。取得专利的破产模型方法取得专利的破产模型方法 用结合神经网络、逻辑回归和决策图表的新方法来开发用结合神经网络、逻辑回归和决策图表的新方法来开发破产破产/风险模型风险模型 新开发的变量选择过程新开发的变量选择过程 破产模型大大超过了一般商业模型破产模型大大超过了一般商业模型第37页,共58页。对于我们模型性能的测试结果明显高于其他商用同类产品对于我们模型性能的测试结果明显高于其他商用同类产品.Gains Chart
21、01020304050607080901000102030405060708090100Percent of HouseholdPercent of Bankruptcy IdentifiedRandomN.N.TreeLogisticB.Score第38页,共58页。预测股价的实例预测股价的实例第39页,共58页。“上升股票模型上升股票模型1”可以用来预测哪些股票价格会上升可以用来预测哪些股票价格会上升模型特征模型特征:4利用1993-1999所有美国股票市场的交易数据来创建重要特征4股票价格,股票价格浮动,收益的季节性特征4具体交易数据中的浮动特征“上升股票上升股票”定义定义:410天内至
22、少上涨30%模型测试模型测试:4从1993-1999数据中提取导致“上升股票”发生的特征库4采用时间窗口移动的方式来建立模型模型的模型的实际应用是每天根据实际应用是每天根据最最新新的交易数据对所有美国的交易数据对所有美国股市的股票进行预测股市的股票进行预测第40页,共58页。08/05/199908/18/199908/31/199909/14/199909/27/199910/08/199910/21/199911/03/199911/16/199911/30/199912/13/199912/27/1999010203040506070809010020002500300035004000
23、4500NASD Index pricedaily forecasts(number)我们已经观察到大量的上升股票模型1的事件上升股票模型1事件频率:第41页,共58页。-250255075100125150175Return(%)05101520253035Stocks(number)-250255075100125150175Return(%)05101520253035Stocks(number)Stocks(number)上升股票模型1对中大型上市公司的回报非常好从1999年8月20日到1999年12月15日,25天赢家模型回报如下(平均32%),市值$1B:Stocks(number
24、)上升股票模型1对中大型上市公司的回报非常好从1999年8月20日到1999年12月15日,25天赢家模型回报如下(平均32%),市值$1B:第42页,共58页。第二个第二个“上升股票上升股票”模型已经开发和实施了模型已经开发和实施了 确定长期购买行为确定长期购买行为 股票股票价格价格在未来在未来6-12月里稳步上升月里稳步上升 使用使用1993-1999每天的股票闭市价来构造模型每天的股票闭市价来构造模型 实施在一个包含最近实施在一个包含最近12月所有美国股票价格数据的实时月所有美国股票价格数据的实时系统上系统上第43页,共58页。-75-50-25025507510012515017520
25、0Return(%)0123456789Stocks(number)Stocks上升股票模型2 股票从1999年8月以来已经经历了平均27%的回报.1999年8月有27个“上升股票模型2”股票被识别出来,到2000年1月6日它们的回报如下:第44页,共58页。数学模型可以成功地发现待涨的股票数学模型可以成功地发现待涨的股票 股票的历史数据全面,包含不同情况下的数据股票的历史数据全面,包含不同情况下的数据 采用具体的交易数据采用具体的交易数据 更更多的时间的多的时间的股价,浮动,收益,以及市场状况特征股价,浮动,收益,以及市场状况特征 人通过对其它交易者交易行为人通过对其它交易者交易行为的模式总
26、结的模式总结来判定股市的来判定股市的走势走势-计算机能发现同样的计算机能发现同样的这些模式并可以应用在更多的这些模式并可以应用在更多的股票上股票上第45页,共58页。银行活动事例银行活动事例第46页,共58页。1998:我们需要利用提供出众的成员服务的名声来增长我们需要利用提供出众的成员服务的名声来增长但必须是有益的增长。但必须是有益的增长。我们需要维持成员满意度我们需要维持成员满意度4在价格上有竞争力的产品4广泛的产品和服务-金融服务的中心我们希望增长我们希望增长与同业大商家竞争!扩大市场份额与同业大商家竞争!扩大市场份额4扩大现有成员资产共享 4扩大成员范围给股东更高的回报给股东更高的回报
27、4快速,高效的操作4定价须符合用户价值及风险成为主要的金融服务提供商第47页,共58页。关键技术能力已开始显现出客观经济回报,他们也成为发展和创新的动力关键技术能力已开始显现出客观经济回报,他们也成为发展和创新的动力!利润业绩数据集市-(1999-2000)4收益报表 客户,家庭,产品,渠道4人口统计报告和分析4连接Harland MaxSell,Acxiom数据4市场营销排列市场分析-(2000)4地理(空间)分析4数据挖掘模型4下一步销售,交叉销售机会网上个人化的推销-(Initial study,March,2001)4企业范围的客户分析4个人化的推销和短信统一用户在分行,问讯中心,AT
28、M和家里银行的信息4最大化市场营销投入的回报市场营销业务-(1-2Q2002)4触发器引擎,喜好引擎,概括器第48页,共58页。公司继续平衡在收益数据集市的投资和更新先有商业操作上的投资公司继续平衡在收益数据集市的投资和更新先有商业操作上的投资.与CRM工具的连接 呼叫中心呼叫中心,ATM,互联网和分行系统互联网和分行系统4联系管理,销售自动化(2Q2002,NSS)市场活动管理系统4市场活动越来越受到重视加强和加强和风险管理应用的联系应用的联系4风险定价 (Dec,2001)增强对增强对人力资源的应用的应用 -(Sept,2001)4追踪奖励 呼叫中心,征收,分行业务,等.平衡的商业评分卡-
29、(July,2001)4在Texas的CU范围内进行高效的战略主动性沟通4业务目标报告4汇报和控制CEO 战略指挥台-(July,2001)4减少操作风险,投资风险,提高ROA效益4“sleep a little easier”第49页,共58页。CoreBankingSystem利润业绩利润业绩数据集市数据集市NoImage客户简介客户简介行为分析行为分析目标市场目标市场数据挖掘数据挖掘地理分析地理分析利润业绩数据集市是确保利润业绩数据集市是确保CRM,报告和计划功能的信息引擎。,报告和计划功能的信息引擎。NoImage监管与操作报告监管与操作报告接触管理接触管理SFA网点网点家中银行家中银
30、行Web siteATM无线无线Best&consistentmessage1234收益率报表收益率报表产品,客户,家庭,管道智能预测智能预测渠道优化渠道优化地区分析地区分析第50页,共58页。利润业绩数据集市是确保利润业绩数据集市是确保CRM,报告和计划功能的信息引擎。,报告和计划功能的信息引擎。接触管理接触管理市场活动管理市场活动管理客户喜好引擎客户喜好引擎金融、业务报告金融、业务报告市场分析市场分析数据挖掘数据挖掘空间分析空间分析高级管理员的高级管理员的战略指挥台战略指挥台E-关系分析关系分析(ECA*)销售自动化销售自动化利润业绩利润业绩数据集市数据集市平衡的平衡的商业平分卡商业平分卡
31、第51页,共58页。显示一个分行下所有客户的居住地显示一个分行下所有客户的居住地.第52页,共58页。最有价值客户所在地最有价值客户所在地?第53页,共58页。我们最佳的客户离他们所属网点的距离我们最佳的客户离他们所属网点的距离?第54页,共58页。去往所属网点的驱车行驶时间是决定分行位置和竞争境况的一个重要因素去往所属网点的驱车行驶时间是决定分行位置和竞争境况的一个重要因素.65%第55页,共58页。增长目标增长目标(根据客户分类根据客户分类/利润的排位利润的排位)新客户的增长百分比 每个客户的产品数量 利润借贷者满意度指数满意度指数 客户投诉率变化。在呼叫中心,等候超过 SLA(1 分钟)
32、的电话的等候时间客户流失目标客户流失目标(根据客户分类根据客户分类/利润的排位利润的排位)客户流失率 直接存款的客户百分比 资产回报率 收入增长 存款增长 效益率(总收入/(费用-投资成本))利润收入(资产收益 投资成本)逾期率(逾期/总贷款额)客户客户财政财政 流程 贷款的批准周转时间 FTE/资产 总收入流程流程CUTX选择使用关键性能指标来开始一个稳定的业务记分卡流程选择使用关键性能指标来开始一个稳定的业务记分卡流程.竞争竞争 批准率(批准但未放的贷款)被竞争对手抢走的资金额 从竞争对手哪儿赢得的资金额劳动力定位劳动力定位 流失率(辞职人数/总雇员数)年限 均值,标差 学习和增长学习和增
33、长第56页,共58页。CEO的第一重要工作是在对财务的有效控制下将企业增长放置在首位上。的第一重要工作是在对财务的有效控制下将企业增长放置在首位上。0.00%0.20%0.40%0.60%0.80%1.00%1.20%1.40%1.60%19951996199719981999200020018.40%8.60%8.80%9.00%9.20%9.40%9.60%9.80%10.00%10.20%10.40%DelinquencyROAROE第57页,共58页。完善的记分卡可以有效的显示企业高层的关系及各部门间的沟通完善的记分卡可以有效的显示企业高层的关系及各部门间的沟通.我们是否在制订企业战略时做了最正确、最好的决策我们是否在制订企业战略时做了最正确、最好的决策?我们假设了那些审批和价格风险我们假设了那些审批和价格风险?对于那些风险,我们有回报吗对于那些风险,我们有回报吗?我们的定价,信用制度,市场和决策会有那些长远的我们的定价,信用制度,市场和决策会有那些长远的影响影响?但是第58页,共58页。