数据挖掘基础培训讲义-数据挖掘概述课件.ppt

上传人(卖家):晟晟文业 文档编号:4477089 上传时间:2022-12-12 格式:PPT 页数:58 大小:976KB
下载 相关 举报
数据挖掘基础培训讲义-数据挖掘概述课件.ppt_第1页
第1页 / 共58页
数据挖掘基础培训讲义-数据挖掘概述课件.ppt_第2页
第2页 / 共58页
数据挖掘基础培训讲义-数据挖掘概述课件.ppt_第3页
第3页 / 共58页
数据挖掘基础培训讲义-数据挖掘概述课件.ppt_第4页
第4页 / 共58页
数据挖掘基础培训讲义-数据挖掘概述课件.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、2022-12-121DM基础-1数据挖掘概述教材内容来源于数据挖掘:概念与技术第1章 引言(Jiawei Han and Micheline Kamber)2022-12-122课程大纲n什么激发了数据挖掘?n什么是数据挖掘?n在何种数据上进行数据挖掘?n数据挖掘功能n所有模式都是有意义的吗?n数据挖掘系统的分类n数据挖掘中的主要问题2022-12-123动机:“需要是发明之母”n数据爆炸问题 n自动化的数据收集工具和成熟的数据库技术导致了数据库、数据仓库和其它信息仓库中储存了海量数据n数据丰富,但信息贫乏!n解决方案:数据仓库和数据挖掘n数据仓库和联机分析处理n从海量数据中抽取出有意义的知

2、识(规则、规律、模式、约束)2022-12-124数据库技术的演化(参见图1.1)n1960s:n数据集合,数据库创建,IMS和网络数据库n1970s:n关系数据模型,关系数据库系统实现n1980s:nRDBMS,高级数据模型(扩展关系模型,面向对象模型,演绎模型等)和面向应用的数据库管理系统(空间,科学,工程等)n1990s2000s:n数据挖掘和数据仓库,多媒体数据库和Web数据库2022-12-125什么是数据挖掘?n数据挖掘(数据库中的知识发现):n从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式n其它类似术语:n数据挖掘:是否用词不当?n数据库中

3、的知识发现(KDD),知识抽取,数据/模式分析,数据考古,数据捕捞,商业智能等n什么不属于数据挖掘?n(演绎)查询处理n专家系统或小型的机器学习/统计分析程序2022-12-126为何进行数据挖掘?潜在应用n数据库分析和决策支持n市场分析和管理n目标营销,客户关系管理,购物篮分析,交叉销售,市场分段n风险分析和管理n预测,客户保持,降低风险,质量控制,竞争力分析n欺诈检测与管理n其它应用n文本挖掘(新闻组,电子邮件,文档)和Web分析n智能询问解答(QA)系统2022-12-127市场分析和管理(1)n分析的数据源在哪里?n信用卡交易,积分卡,折扣优惠券,客户抱怨电话,以及(公众)生活方式研究

4、n目标营销n发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等n判别客户的序列购买模式n从单身账户到共有账户的转变:结婚n交叉销售分析n产品销售之间的关联n基于关联信息而进行的预测2022-12-128市场分析和管理(2)n构造客户特征n数据挖掘可以告诉您哪种客户会购买哪种产品(通过聚类或分类)n识别出客户需求n识别出适合不同客户的最佳产品n通过预测来发现吸引新客户的因素n提供综合信息n各种各样的多维综合报表n统计上的综合信息(数据的集中趋势和变化)2022-12-129集团分析和风险管理n财政计划和资产评估n现金周转分析和预测n资产评估中的相机要求分析n交叉组合分析和时间序列分析(财务

5、比率,趋势分析等)n资源规划n资源和开销的总结和比较n竞争力n监视竞争对手和市场导向n对客户分组并基于分类制定价格n在激烈的竞争市场中制定价格策略2022-12-1210欺诈检测和管理(1)n应用n广泛用于健康卫生,零售,信用卡服务,电信(电话卡欺诈)等行业n方法n使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识别出类似案例n示例n汽车保险:检测出那些伪造事故来骗取保险金的人群n洗钱:检测可疑的金钱交易(美国财政部的金融犯罪执行网络)n医疗保险:检测出职业病人2022-12-1211欺诈检测和管理(2)n检测出不必要的医疗处理n澳大利亚医疗保险委员会查出在许多案例中病人都要求blank

6、et screening tests (每年节省一百万澳元)n检测电话欺诈n通话模型:对端号码,通话时长,每天(周)通话次数。分析那些偏离预期的通话模式n英国电信检测出频繁进行集团内部通话(特别是用手机通话)的一些犯罪集团,成功避免了数百万美元的欺诈n零售n分析家估计大约38%的零售额减少是由于不诚实的员工造成的2022-12-1212其它应用n体育nIBM Advanced Scout分析了NBA比赛的统计数据(阻攻,助攻,犯规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势n天文学nJPL和Palomar天文台借助数据挖掘技术发现了22颗类星体n因特网冲浪辅助nIBM Surf-Aid利用数

7、据挖掘算法来分析与销售有关的Web访问日志,发现用户的偏好和行为,分析电子商务的有效性,改善网站的结构等2022-12-1213数据挖掘:一个KDD过程n数据挖掘:知识发现过程的核心数据清洗数据清洗数据集成数据集成数据库数据库数据仓库数据仓库任务相关的数据任务相关的数据选取选取数据挖掘数据挖掘模式评价模式评价2022-12-1214KDD过程的步骤n对应用领域的研究:n相关的预备知识和应用的目标n建立目标数据集:数据选取n数据清洗和预处理:(可能占据多达60%的工作量!)n数据归约和转换:n找出有用的特征,维度/变量归约,不变式转换n选择数据挖掘功能n综合,分类,回归,关联,聚类.n选择挖掘算

8、法n数据挖掘:找出有意义的模式n模式评价和知识表达n可视化,转换,消除冗余模式等等n利用发现的知识2022-12-1215数据挖掘和商业智能 增加支持增加支持商业决策商业决策的的潜能潜能最终用户最终用户业务业务分析师分析师数据数据分析师分析师DBA制定制定决策决策数据表达数据表达可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探索数据探索OLAP,MDA统计分析统计分析,查询和报表查询和报表数据仓库数据仓库/数据集市数据集市数据源数据源纸媒介纸媒介,文件文件,信息来源信息来源,数据库数据库,OLTP2022-12-1216典型数据挖掘系统的架构数据数据仓库仓库数据清洗数据清洗&数据集成

9、数据集成过滤过滤数据库数据库数据库或数据仓库 服务器数据挖掘引擎模式评价图形用户界面知识库2022-12-1217数据挖掘:在何种数据上进行?n关系数据库n数据仓库n交易数据库n高级数据库和信息仓库n面向对象和对象关系数据库n空间数据库n时间序列数据和时态数据n文本数据库和多媒体数据库n异构数据库和遗留数据库n因特网2022-12-1218数据挖掘功能(1)n概念描述:特征化和区分n泛化,综合,以及数据特征对比,例如,干旱和潮湿的地区n关联(相关性和因果关系)n多维关联和单维关联nage(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,co

10、nfidence=60%ncontains(T,“computer”)contains(x,“software”)1%,75%2022-12-1219数据挖掘功能(2)n分类和预测n找出能描述和区分分类或概念的模型(函数),用于以后的预测n例如,按气候来对国家进行分类,或者按每公里耗油量来对汽车分类n表达:决策树,分类规则,神经网络n预测:预测未知或缺失的数值n聚类分析n类标记是未知的:对数据进行分组以形成新类,例如,对房屋聚类以找出分布模式n聚类的原则:最大化类内相似性,并且最小化类间相似性2022-12-1220数据挖掘功能(3)n孤立点分析n孤立点:与数据的一般行为不一致的数据对象n常常

11、被视为噪声或异常而丢弃,但对于欺诈检测和稀有事件分析来说很有用n趋势和演变分析n趋势和偏差:回归分析n序列模式挖掘,周期分析n基于相似度的分析n其它模式分析或统计分析2022-12-1221所有“挖掘”的模式都是有意义的吗?n数据挖掘系统/查询可能产生成千上万个模式,但并非都有意义n建议的方法:以人为中心,基于查询,有目的的挖掘n兴趣度度量兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种程度上,对于新数据或测试数据有效,潜在有用,新颖,或者验证了用户渴望确认的某些假设n客观兴趣度和主观兴趣度度量客观兴趣度和主观兴趣度度量:n客观兴趣度:基于统计和模式的结构,例如,支持度,置信度,等等

12、n主观兴趣度:基于用户对数据的确信程度,例如,意外程度,新奇程度,可行动性,等等2022-12-1222能否只找出有意义的模式,能否找全?n找出全部有意义的模式:完备性n数据挖掘系统能否找出全部有意义的模式?n关联 vs.分类 vs.聚类n只找出有意义的模式:优化n数据挖掘系统能否只找出有意义的模式?n方法n首先生成全部模式,然后过滤无意义的模式n只生成有意义的模式挖掘的查询优化 2022-12-1223数据挖掘:多学科的汇合 数据挖掘数据库技术统计学其它学科信息科学机器学习可视化2022-12-1224数据挖掘:分类方案n一般功能n描述型数据挖掘 n预测型数据挖掘n不同角度,不同分类n挖掘的

13、数据库类型n挖掘的知识类型n所用的技术n应用的领域2022-12-1225数据挖掘分类的多维视图n挖掘的数据库类型挖掘的数据库类型n关系的、事务的、面向对象的、对象-关系的、空间的、时间序列的、文本的、多媒体的,WWW,等等n挖掘的知识类型挖掘的知识类型n特征、区分、关联、分类、聚类、趋势和演化分析、孤立点、偏差分析、类似性分析等n多重抽象层次的知识发现n所用的技术所用的技术n面向数据库,数据仓库(OLAP),机器学习,统计学,可视化,神经网络,等等n应用领域应用领域n零售,电信,银行,欺诈分析,DNA挖掘,股票证券,Web挖掘,Web日志分析,等等2022-12-1226OLAP挖掘:数据挖

14、掘和数据仓库的集成n数据挖掘系统数据挖掘系统,数据库管理系统数据库管理系统,数据仓库系统的耦合数据仓库系统的耦合n不耦合,松散耦合,半紧密耦合,紧密耦合n联机分析型数据挖掘联机分析型数据挖掘n数据挖掘和OLAP技术的集成n多层次知识的交互挖掘多层次知识的交互挖掘n有必要通过上卷/下钻,旋转,切片/切块来挖掘不同抽象层次的知识和模式n多种挖掘功能的集成多种挖掘功能的集成n基于特征化的分类,先聚类后关联分析2022-12-1227OLAM的架构数据仓库数据仓库元数据元数据MDDBOLAM引擎引擎OLAP引擎引擎图形用户界面图形用户界面API数据立方体数据立方体API数据库数据库API数据清洗数据清

15、洗数据集成数据集成第第3层层OLAP/OLAM第第2层层多维数据库多维数据库第第1层层数据存储数据存储第第4层层用户界面用户界面过滤过滤&集成集成过滤过滤数据库数据库挖掘查询挖掘查询挖掘结果挖掘结果2022-12-1228数据挖掘中的主要问题(1)n挖掘方法论和用户交互n在数据库中挖掘不同类型的知识n多层次知识的交互挖掘n结合背景知识n数据挖掘查询语言和特定数据挖掘n数据挖掘结果的表达和可视化n处理噪声和不完备的数据n模式评价:兴趣度问题n性能和缩放性n数据挖掘算法的效率和缩放性n并行的,分布式的和增量的挖掘算法2022-12-1229数据挖掘中的主要问题(2)n数据类型的多样性n关系型数据和

16、复杂类型数据的处理n异构数据库和因特网(WWW)的挖掘n应用领域和社会影响n知识发现的应用领域n领域相关的数据挖掘工具n智能询问解答(QA)系统n过程控制和决策制定n挖掘的知识和现有知识的集成:知识融合问题n数据的安全性,完整性,和隐私保护 2022-12-1230总结n数据挖掘:从大量数据中发现有意义的模式n数据库技术的自然演变,巨大的需求,广泛的应用nKDD过程包括数据清洗,数据集成,数据选取,转换,数据挖掘,模式评价,和知识表达n数据挖掘可以在多种数据存储上进行n数据挖掘功能:特征化,区分,关联,分类,聚类,孤立点和趋势分析等等n数据挖掘系统的分类n数据挖掘中的主要问题 NCR数据挖掘总

17、体介绍数据挖掘总体介绍Why?Which?Where?How?What?数据挖掘数据挖掘FAQ数据数据 =储藏室储藏室数据数据 +工具工具 =网吧网吧数据数据 +工具工具 +方法方法 =信息信息数据数据 +工具工具 +方法方法 +目标目标 =知识知识数据数据 +工具工具 +方法方法 +目标目标 +行动行动 =价值价值(Why)为何要数据挖掘?)为何要数据挖掘?Data Mining is forpower users to follow a proven methodology to discover action-oriented insights from detail operation

18、s data to improve business.数据数据挖掘是挖掘是分析专家分析专家用用已验证已验证的方法的方法在在业务细节数据业务细节数据中中发掘出发掘出可可采取行动的洞察力采取行动的洞察力,从而,从而改善企业运营改善企业运营。(What)什么是数据挖掘?)什么是数据挖掘?客户客户面向客户面向客户客户管理客户管理CRMCRM 客户关系管理客户关系管理 数据仓库数据仓库WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethodyTools

19、&TechniquesArchitect&OAMAd HocQueryWAR/FWAR/F(Which)在哪些方面进行挖掘?)在哪些方面进行挖掘?NCR DM in Telecommunication业务目标业务目标模型模型-钱包份额钱包份额/争取新客户争取新客户 (Wallet Wallet Share/Acquisition)Share/Acquisition)预测客户购买新产品的倾向Cross-Sell Response Model预测客户扩展服务用量的倾向Up-sell Response Model 预测客户升级服务的倾向Upscale Response Model客户挽留及保育客户挽

20、留及保育 (RetentionRetention)预测哪些客户会终止服务的使用Churnsentry Solution改善挽留行动的效率Response Model欺诈欺诈/拖欠侦测拖欠侦测 (Fraud/DelinquencyFraud/Delinquency)预测客户拖欠账单支付的倾向Propensity to Delinquent预测拖欠客户对催缴的响应Propensity to Collect欺诈侦测及管理Fraudsentry Solution基础基础/知识知识 (Infrastructure/KnowledgeInfrastructure/Knowledge)了解客户购买不同产品的

21、情况Product Affinity评估客户对运营商的利润贡献度Value Score评估客户的价格敏感度Price Sensitivity Profiling预测客户称为高价值客户的倾向Propensity to be VIP客户信用度评估Credit Scoring/Credit Model客户分群Psycho-demographic Profiling预测营收变化趋势Revenue Forecast预测客户的服务使用量变化趋势Usage Forecast分析专题示例分析专题示例分析型应用分析型应用业务问题业务问题业务价值业务价值客户分群客户如何分群以及各群组的特征?客户关系的个性化定制,

22、以便提高客户满意度,降低流失率购买倾向哪些客户最可能响应我的促销活动?有的放矢,锁定有需求的客户,提高客户忠诚度,提高营销活动的效率利润贡献度什么是客户的生命周期价值?基于客户的综合利润贡献度来有效决策欺诈侦测如何鉴别哪些交易可能会是欺诈行为?快速鉴别出欺诈行为,立即反应以避免损失客户流失哪些客户可能会弃我而去?避免高价值客户的流失,低价值客户随他去客户获取哪些人可能成为我的客户?哪些人可能带来最高的收益?最小化新客户的招揽成本渠道优化到达每个客户分群的最佳渠道是什么?基于客户偏好和企业需要与客户交互,从而控制成本采用抽样技术避免压力需要频繁耗时的数据迁移数据冗余/元数据管理问题Modeler

23、sBuild ModelsBusinessDeploys Models高性能、易扩展基本无需数据迁移避免过时数据避免抽样误差元数据共享,易于使用降低成本,节省投资!ModelersBuild ModelsBusinessDeploys Models 传统的数据挖掘传统的数据挖掘场内场内(In-DBS)挖掘挖掘(Where)在哪里挖掘?)在哪里挖掘?确定业务问题范围确定业务问题范围 (度量数称胜度量数称胜)Teradata Data WarehouseTeradata Data Warehouse选择抽样选择抽样 (必也正名乎必也正名乎)数据清洗数据清洗 (谨防假做真时真亦假谨防假做真时真亦假,

24、无为有处有还无无为有处有还无)数据探索数据探索 (月有阴月有阴晴晴圆缺圆缺)建模建模 (奇正之变奇正之变,不可胜数也不可胜数也)发布发布 (工欲成其事工欲成其事,必先利其器必先利其器)(How)NCR数据挖掘方法论数据挖掘方法论数据挖掘行动指南做什么?做什么?该项工作任务的内容是什么,要达到什么目标工作内容和工作目标工作内容和工作目标目标:数据挖掘是分析专家分析专家用已验证的方法已验证的方法在业务细节数据业务细节数据中发掘出可采取行动的可采取行动的洞察力洞察力,从而改善企业运营改善企业运营任务:遵循NCR数据挖掘方法论,实施数据挖掘专题(确定业务问题,数据准备,数据探索,建模,模型发布)向客户

25、提供业务咨询,帮助客户完善挽留,产品梳理和营销流程 跟踪实施效果,并改进挖掘模型,体现数据挖掘对ROI的提升 向客户提供数据挖掘培训课程,提高挖掘人员的综合能力工作内容和工作目标工作内容和工作目标数据挖掘可以应用在哪些方面数据挖掘可以应用在哪些方面客户客户面向客户面向客户客户管理客户管理CRMCRM 客户关系管理客户关系管理 数据仓库数据仓库WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethodyTools&TechniquesArchit

26、ect&OAMAd HocQueryWAR/FWAR/FNCR DM in Telecommunication业务目标业务目标模型模型-钱包份额钱包份额/争取新客户争取新客户 (Wallet Wallet Share/Acquisition)Share/Acquisition)预测客户购买新产品的倾向Cross-Sell Response Model预测客户扩展服务用量的倾向Up-sell Response Model 预测客户升级服务的倾向Upscale Response Model客户挽留及保育客户挽留及保育 (RetentionRetention)预测哪些客户会终止服务的使用Churns

27、entry Solution改善挽留行动的效率Response Model欺诈欺诈/拖欠侦测拖欠侦测 (Fraud/DelinquencyFraud/Delinquency)预测客户拖欠账单支付的倾向Propensity to Delinquent预测拖欠客户对催缴的响应Propensity to Collect欺诈侦测及管理Fraudsentry Solution基础基础/知识知识 (Infrastructure/KnowledgeInfrastructure/Knowledge)了解客户购买不同产品的情况Product Affinity评估客户对运营商的利润贡献度Value Score评估

28、客户的价格敏感度Price Sensitivity Profiling预测客户称为高价值客户的倾向Propensity to be VIP客户信用度评估Credit Scoring/Credit Model客户分群Psycho-demographic Profiling预测营收变化趋势Revenue Forecast预测客户的服务使用量变化趋势Usage ForecastFrequently used techniques业务目标业务目标分析方法分析方法/技术技术-钱包份额钱包份额/争取新客户争取新客户 (Wallet Wallet Share/Acquisition)Share/Acquis

29、ition)预测客户购买新产品的倾向决策树/对数回归预测客户扩展服务用量的倾向决策树/对数回归预测客户升级服务的倾向决策树/对数回归客户挽留及保育客户挽留及保育 (RetentionRetention)预测哪些客户会终止服务的使用决策树/对数回归改善挽留行动的效率描述型分析/响应模型欺诈欺诈/拖欠侦测拖欠侦测 (Fraud/DelinquencyFraud/Delinquency)预测客户拖欠账单支付的倾向对数回归预测拖欠客户对催缴的响应决策树欺诈侦测及管理规则归纳基础基础/知识知识 (Infrastructure/KnowledgeInfrastructure/Knowledge)了解客户购

30、买不同产品的情况关联规则评估客户对运营商的利润贡献度ABC成本核算评估客户的价格敏感度描述型分析/聚类预测客户称为高价值客户的倾向对数回归客户信用度评估描述型分析客户分群聚类预测营收变化趋势线性回归预测客户的服务使用量变化趋势线性回归由谁来做由谁来做由谁来负责执行该项工作任务,应具备什么资质和技能实施人员实施人员数据挖掘项目的时间计划要根据多个关键因素而定:挖掘专题的复杂程度 客户对挖掘结果性能评定的期望 可用的数据完备性及数据质量 项目人力资源是否充足以及人员能力等等以移动通信行业的客户流失预测分析为例,一般需要24个月不等(在数据已经准备就绪的情况下)数据挖掘项目需要如下的成员或角色来参与

31、完成:数据挖掘专家 PDM建模人员 ETL开发人员 AP开发人员(客户方)熟悉业务的人员以及熟悉数据仓库PDM的人员予以支持实施人员实施人员数据挖掘专家能力要求数据挖掘专家能力要求(基本要求基本要求)专业技能 硕士以上学历,数据挖掘、统计学、数据库相关专业 熟练掌握关系数据库技术,具有数据库系统开发经验 熟练掌握常用的数据挖掘算法 具备数理统计理论基础,并熟悉常用的统计工具软件行业知识 具有相关的行业知识,或者能够很快熟悉相关的行业知识合作精神 具有良好的团队合作精神,能够主动和项目中其他成员紧密合作客户关系能力 具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据

32、挖掘的误解和过高期望 具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力实施人员实施人员数据挖掘专家能力要求数据挖掘专家能力要求(进阶要求进阶要求)具有数据仓库项目实施经验,熟悉Teradata数据仓库技术及方法论熟练掌握SQL语言,包括复杂查询、性能调优熟练掌握ETL开发工具和技术熟练掌握Microsoft Office软件,包括Excel和PowerPoint中的各种统计图形技术善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案怎么做?怎么做?执行该项工作任务的方式、方法、工作流程和工作模板等工作流程和方法工作流程和

33、方法按照NCR的数据挖掘方法论,数据挖掘项目包含五个阶段:定义业务问题范围、选取和抽样、数据探索、建模和实施(评估和发布)工作流程和方法工作流程和方法阶段阶段1:定义业务问题范围定义业务问题范围在这个数据挖掘的初始阶段,需明确阐述项目目标和客户业务需求,目的是明确包括客户响应的数据挖掘问题。基于客户响应(如客户流失或产品购买趋势)特性,可以从概念上定义响应变量,与待选的预测变量没有直接的派生关系直接的派生关系意指响应变量可由一或多个预测变量直接计算出来。最终,为了这些目标可以必要地调整项目计划进程。阶段1的任务包括:明确业务目标 定义响应变量 项目计划必要的调整工作流程和方法工作流程和方法阶段

34、阶段2:选取和抽样选取和抽样在这一阶段,建模小组要搜寻并检查客户数据,做为未来的分析定义属性的简略一览表。在数据挖掘的子过程中,创建一个数据映射概念图以对应客户数据与建模相关的各个数据属性名。数据能被整合到一个适当的程度,省略不适当的记录(如商务客户,非居民客户,如果分析仅针对居民客户)、不完整的数据记录、训练数据、试验数据,等等。阶段2的任务包括:数据来源 数据映射 准备数据评估 数据的必要聚合 数据抽样工作流程和方法工作流程和方法阶段阶段3:数据探索数据探索在这个阶段中,建模小组核查目前的数据源并且努力去发现在每个待选的预测变量和响应变量之间是否有任何关系。数据转换通常在更进一步的范围中探

35、察数据关系。数据的派生方法被用来捕获和表现已发现的关系。通常,数值分析是为了全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分配的更好知识。如频率图、柱状图、条线图,散点图、框图和许多其他方式是典型的且很好的数据的图形化呈现工具,使为下一步建立模型准备数据来源变得容易很多。在数据挖掘过程中这是一个关键的阶段,通常随伴着由正式的数据探索报告来记录和呈现发现。阶段3的任务包括:数据质量检查 数据的必要整理 通过图形化呈现工具和其他的统计方法理解数据 分析待选预测变量和响应变量之间的关系 数据转换以辅助数据的分析 数据派生为建立模型做准备 整理和呈现数据探索的发现工作流程和方法工作流程和方

36、法阶段阶段4:建模建模在这一阶段,建模小组建立并确认分析模型。建模小组通常尝试不同的建模技术或结合不同数据集,并衡量模型性能的不同,选出最好的。来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动,即证明这些模型并在实际环境中实施。阶段4的任务包括:为模型的训练和验证准备数据集 在模型的建立中使用适当的建模技术 针对不同的建模技术测试模型性能 必要地精炼分析模型 和主题专家一起的检验分析模型 记录分析模型和结果工作流程和方法工作流程和方法阶段阶段5:实施实施(评估和发布评估和发布)在这一阶段,需要用模型的结果来帮助作出业务决定、战略设计和战

37、术实施。收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能。虽然能利用模型的结果,复杂的展示层界面通常是不必的,如果大量努力为了实施前端应用,或自动化的数据挖掘过程,这个阶段会变得非常IT导向。数据挖掘过程的自动化是CRM(客户关系管理)的解决方案中不可或缺的一部分,因此,是与典型的数据挖掘分开实施的项目。模型的现场测试也通常是一个单独的项目,它会花费时间在未来数月对模型性能的追踪上。阶段5的任务包括:客户模型评分如客户流失模型计算客户流失可能性的评分和存储模型结果,为性能跟踪和进一步整合其它业务系统,如客户接触渠道系统或更完整的CRM系统 数据挖掘过程的自动化是单独的项目 模型结果

38、的现场测试是单独的项目所需工具所需工具/产品产品/系统系统Teradata Warehouse Miner V4.0 产品线 Teradata Profiler(适用于数据质量评估和数据概括)Teradata ADS Generator(适用于和其它数据挖掘软件集成,提供所需的分析数据集)Teradata Warehouse Miner(主要部分,包含多种主流数据挖掘算法和分析模块)执行该项工作任务时要用到什么工具、产品和系统使用什么工具使用什么工具/系统?系统?所需工具所需工具/产品产品/系统系统Teradata Warehouse Miner v4.0模型发布模型发布分析型模型分析型模型的

39、建立、测试及校验的建立、测试及校验数据数据预处理预处理理解理解业务目标业务目标理解理解源数据源数据数据特征刻画及探索功能:可视化 描述性统计 数据探索器分析数据集创建功能:转换 矩阵功能 重组 派生变量分析型模型开发功能:分析型算法 高级统计功能分析型模型发布功能:模型转换为SQL 模型执行Teradata Model Manager 目标:运行企业内的业务人员访问和使用模型 目标用户:业务人员和挖掘专员Teradata Profiler 目标:数据探索,数据挖掘,数据质量评估 目标用户:DBA,数据架构师,挖掘专员,质量分析师Teradata ADS Generator 目标:简化分析数据集

40、的创建,用于建立分析型模型.同时包含Teradata Profiler的功能 目标用户:挖掘专员(支持SAS及其它挖掘工具).Teradata Warehouse Miner 目标:建立分析型模型.同时包含Teradata ADS Generator的功能 目标用户:挖掘专员/分析建模人员输入要求输入要求执行该项工作任务需要具备什么先决条件工作先决条件工作先决条件存在明确强烈的专题分析需求挖掘专题的数据准备就绪 足够好的数据质量(数据已经过清洗和集成)足够的可用数据及访问权限 足够的历史数据(至少3个月,建议612个月)数据可被转换为分析所需的宽表工作角色的支持 挖掘专家,PDM,ETL,AP人员 业务分析人员的全程参与输出结果输出结果/项目交付项目交付执行完该项工作任务后应有什么产出和交付输出结果输出结果/项目交付项目交付数据挖掘需求说明书数据挖掘技术说明书PDMETL脚本数据挖掘模型评估报告Questions?Questions?Questions?讨论及交流讨论及交流

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据挖掘基础培训讲义-数据挖掘概述课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|