数据挖掘技术概述及前景展望课件.ppt_163文库

资源描述

1、数据挖掘技术概述及前景数据挖掘技术概述及前景展望展望Data Mining and Prospect商业智能研讨沙龙上海站 ITPUB ChinaUnix IXPUB主办数据挖掘由来l产生背景Q随着数据库技术的飞速发展，快速增长的海量数据收集、存放在大量数据储存库中Q理解他们已经远远超出人的能力Q数据坟墓难得再访问的数据档案Q数据爆炸，但知识缺乏Q人们被数据淹没，却饥饿于知识数据挖掘的原由数据挖掘的原由可怕的数据可怕的数据数据挖掘数据挖掘有价值的知识有价值的知识商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘技术的由来网络之后的下一个技术热点网络之后的下一

2、个技术热点商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘概念的提出现在数据挖掘概念的首次国际学术会议1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI89)上，Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD：Knowledge Discovery in Database)专题讨论会，该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。相继开展的专题讨论会随后在1991、1993和1994年都举行了KDD专题讨论会，来自各个领域的研究人员和应用开

3、发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘概念的提出数据挖掘概念的提出第一届KDD国际学术会议随着参与科研和开发人员的不断增加，国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACM SIGKDD（Special Interested Group on Knowledge Discovery in Databases）International Conference on Knowledge Discovery

4、and Data Mining”在这次会议上“数据挖掘”(Data Mining)概念第一次由Usama Fayyad提出。Usama Fayyad 对数据挖掘概念的界定数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、有效的、新颖的、潜在有用的、并且最终可理解的模式的非平凡过程。lSAS 软件研究所对数据挖掘所下的定义是：数据挖掘是按照既定的业务目标，对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘的定义技术上的定义及含义技术上的定义及含义

5、商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘的定义技术上的定义及含义技术上的定义及含义商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘的定义商业角度的定义商业角度的定义商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办知识是什么DataInformationKnowledgeWisdom知识是对信息进行智能性加工所形成的对客观世知识是对信息进行智能性加工所形成的对客观世界规律性的认识界规律性的认识 Data+contextInformation+rulesKnowledge+experience 商业

6、智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办知识发现（KDD）的过程数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘数据挖掘数据库技术数据库技术统计学统计学其他学科其他学科信息科学信息科学机器学习机器学习可视化可视化数据挖掘是一个交叉学科领域商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办计费系统客服系统源数据源数据其他业务系统外部数据数据挖掘数据挖掘信用评分信用评分离网预警离网预警

7、客户细分客户细分交叉销售交叉销售OLAP多维分析多维分析数据访问数据访问数据分析数据分析报表报表查询查询中间层中间层中间件中间件多维数据库数据抽取、数据抽取、转换、装载转换、装载数据仓库管理工具抽取转换装载数据清洗工具数据建模工具中心元数据数据集市数据集市中心数据仓库中心数据仓库数据数据集市集市数据数据集市集市中心中心数据数据仓库仓库局部元数据局部元数据局部元数据元数据交换关系数据库关系数据库数据挖掘与数据仓库通用数据仓库技术架构商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据仓库与数据挖掘的关系数据仓库并不是数据挖掘必需的数据仓库汇总并清理数据，可

8、以作为数据挖掘的基础数据仓库与数据挖掘都是决策支持新技术。但它们数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。有着完全不同的辅助决策方式。数据仓库和数据挖掘的结合对支持决策会起更大的数据仓库和数据挖掘的结合对支持决策会起更大的作用。作用。数据存储、组织、管理分析、探索模型Data WarehouseData Mining$0.5-5M$30-200K 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘与OLAP数据挖掘与数据挖掘与OLAPOLAP的区别与联系的区别与联系 OLAPOLAP是先建立一系列的假设，然后通过分析来证实或推理是先建

9、立一系列的假设，然后通过分析来证实或推理这些假设来最终得到自己的结论，本质上是一个演绎推理过这些假设来最终得到自己的结论，本质上是一个演绎推理过程。程。数据挖掘是在数据库中自己寻找模型，本质上是一个归纳数据挖掘是在数据库中自己寻找模型，本质上是一个归纳过程。过程。两个相辅相成，可以利用两个相辅相成，可以利用OLAPOLAP验证验证DMDM的结果。的结果。例例：用数据挖掘工具的分析员想找到引起贷款拖欠的风险因：用数据挖掘工具的分析员想找到引起贷款拖欠的风险因素。然后利用素。然后利用OLAPOLAP加以验证结论的可靠性。加以验证结论的可靠性。商业智能研讨沙龙-上海站 ITPUB ChinaUnix

10、 IXPUB主办数据挖掘系统的组成数据库、数据仓库或其他信息库：是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库或数据仓库服务器：根据用户的挖掘请求，数据库或数据仓库服务器负责提取相关数据。知识库：是领域知识，用于指导搜索，或评估结果模式的兴趣度。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘引擎：数据挖掘系统的基本部分，由一组功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块：使用兴趣度量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上，可能使用兴趣度阈值过滤发现的模式。图形用户

11、界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘查询或任务，提供信息，帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办典型结构数据挖掘系统结构数据仓库数据仓库数据清理数据清理数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办分析问题数据数据数据数据仓库多维数据集创建和训练模型校验数据数据挖掘模型维护数据挖掘数据清洗和转换查询数据客户端数据查询OLAP数数据据挖挖

12、掘掘过过程程数据挖掘结果解释查询数据商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办挖掘项目工作流程商业目标确定确认数据源识别数据筛选数据收集数据质量检测结果应用结果解释应用建议模型构建数据转换商业智能研讨沙龙-上海站ITPUB ChinaUnix IXPUB主办数据挖掘过程数据挖掘过程u数据清理（消除噪声或不一致数据）数据清理（消除噪声或不一致数据）u数据集成（多种数据源可以组合在一起）数据集成（多种数据源可以组合在一起）u数据选择（从数据库中检索与分析任务相关的数数据选择（从数据库中检索与分析任务相关的数据）据）u数据变换（数据变换或统一成适合挖掘的形式）

13、数据变换（数据变换或统一成适合挖掘的形式）u数据挖掘（使用各种方法提取数据模式）数据挖掘（使用各种方法提取数据模式）u模式评估（使用某种度量，识别真正有趣的模式）模式评估（使用某种度量，识别真正有趣的模式）u知识表示（使用可视化和知识表示技术，向用户知识表示（使用可视化和知识表示技术，向用户提供挖掘的知识提供挖掘的知识data mining concepts and techniquesdata mining concepts and techniques从系统设计看数据挖掘过程模型从系统设计看数据挖掘过程模型u一种是一种是 Fayyad Fayyad 等人总结的过程模型等人总结的过程模型u另

14、一种是遵循另一种是遵循 CRISP-DM CRISP-DM 标准的过程模型标准的过程模型 FayyadFayyad过程模型过程模型 CRISP-DM CRISP-DM（Cross-Industry Standard Process Cross-Industry Standard Process for Data Miningfor Data Mining）过程模型过程模型数据挖掘方法论数据挖掘方法论lCRISP_DM CRISP_DM（Cross Industry Standard Process for DMCross Industry Standard Process for DM）l1

15、9981998年，由年，由NCRNCR、ClementineClementine、OHRAOHRA和和Daimler-BenzDaimler-Benz的的联合项目组提出联合项目组提出lSEMMASEMMAlSASSAS公司提出的方法公司提出的方法lSample,Explore,Modify,Model,AssessSample,Explore,Modify,Model,Assessl在战略上使用在战略上使用Crisp_DMCrisp_DM方法论，在战术上应用方法论，在战术上应用SEMMASEMMA方法方法论论商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办商业智能研

16、讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘的任务和方法数据挖掘的任务是从大量的数据中发现模式。根数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型，其中比较典据数据挖掘的任务可分为多种类型，其中比较典型的有：型的有：预测模型预测模型关联分析关联分析分类分析分类分析聚类分析聚类分析序列分析序列分析偏差检测偏差检测模式相似性挖掘模式相似性挖掘Web数据挖掘数据挖掘商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办预测模型预测模型（预测模型（Predictive Modeling）：所谓预测）：所谓预测即从数据库或数据仓库

17、中已知的数据推测未知的即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。数据或对象集中某些属性的值分布。建立预测模型的常用方法：建立预测模型的常用方法：回归分析线性模型关联规则决策树预测遗传算法神经网络商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办关联分析关联（关联（Association）分析：关联规则描述了一）分析：关联规则描述了一组数据项之间的密切度或关系。关联分析用于发组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中，现项目集之间的关联。在关联规则挖掘算法中，通常给出了置信度和支持度两个概念，对于置

18、信通常给出了置信度和支持度两个概念，对于置信度和支持度均大于给定阈值的规则称为强规则，度和支持度均大于给定阈值的规则称为强规则，而关联分析主要就是对强规则的挖掘。而关联分析主要就是对强规则的挖掘。关联分析算法：关联分析算法：APRIORI算法算法、DHP算法、算法、DIC算法、算法、PARTITION算法及它们的各种改进算法等。算法及它们的各种改进算法等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办分类分析分类（分类（Classification）分析：所谓分类是）分析：所谓分类是根据数据的特征为每个类别建立一个模型，根据数据的特征为每个类别建立一个模型，根据数据

19、的属性将数据分配到不同的组中。根据数据的属性将数据分配到不同的组中。分类分析的常用方法：分类分析的常用方法：粗糙（粗糙（Rough）集）集决策树决策树神经网络神经网络统计分析法统计分析法商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办聚类分析聚类聚类(Clustering)分析：所谓聚类是指一组分析：所谓聚类是指一组彼此间非常彼此间非常“相似相似”的数据对象的集合。的数据对象的集合。相似的程度可以通过距离函数来表示，由相似的程度可以通过距离函数来表示，由用户或专家指定。用户或专家指定。聚类分析的常用方法：聚类分析的常用方法：随机搜索聚类法随机搜索聚类法特征聚类特征聚

20、类CF树树(聚类特征数聚类特征数)商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办序列分析序列（序列（Sequence）分析：序列分析主要用于分）分析：序列分析主要用于分析数据仓库中的某类与时间相关的数据，搜索类析数据仓库中的某类与时间相关的数据，搜索类似的序列或子序列，并挖掘时序模式、周期性、似的序列或子序列，并挖掘时序模式、周期性、趋势和偏离等。趋势和偏离等。序列模式可以看成是一种特定的关联模型，它在序列模式可以看成是一种特定的关联模型，它在关联模型中增加了时间属性。关联模型中增加了时间属性。例如：在所有购买了彩色电视机的人中，有例如：在所有购买了彩色电视机的人中

21、，有60%的人再购买的人再购买VCD产品产品商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办偏差检测偏差检测（偏差检测（Deviation Detection）：用于检测并）：用于检测并解释数据分类的偏差，它有助于滤掉知识发现引解释数据分类的偏差，它有助于滤掉知识发现引擎所抽取的无关信息，也可滤掉那些不合适的数擎所抽取的无关信息，也可滤掉那些不合适的数据，同时可产生新的关注性事实。据，同时可产生新的关注性事实。偏差包括很多有用的知识，如以下偏差包括很多有用的知识，如以下4类：类：分类中的反常实例；分类中的反常实例；模式的例外；模式的例外；观察结果对模型预测的偏差；观

22、察结果对模型预测的偏差；量值随时间的变化。量值随时间的变化。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办模式相似性挖掘模式相似性挖掘：用于在时间数据库或空模式相似性挖掘：用于在时间数据库或空间数据库中搜索相似模式时，从所有对象间数据库中搜索相似模式时，从所有对象中找出用户定义范围内的对象；或找出所中找出用户定义范围内的对象；或找出所有元素对，元素对中两者的距离小于用户有元素对，元素对中两者的距离小于用户定义的距离范围。定义的距离范围。模式相似性挖掘的方法有相似度测量法、模式相似性挖掘的方法有相似度测量法、遗传算法等。遗传算法等。商业智能研讨沙龙-上海站 ITPUB

23、 ChinaUnix IXPUB主办Web数据挖掘 Web数据挖掘：万维网是一个巨大的、分数据挖掘：万维网是一个巨大的、分布广泛的和全球性的信息服务中心，其中布广泛的和全球性的信息服务中心，其中包含了丰富的超链接信息，为数据挖掘提包含了丰富的超链接信息，为数据挖掘提供了丰富的资源。供了丰富的资源。Web数据挖掘包括数据挖掘包括Web使用模式挖掘、使用模式挖掘、Web结构挖掘和结构挖掘和Web内容挖掘等。内容挖掘等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办1.分类与预测分类与预测分类和预测是两种重要的数据分析方法，在商业上的应用很多。分类和预测可以分类和预测是两种

24、重要的数据分析方法，在商业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。用于提取描述重要数据类型或预测未来的数据趋势。分类是找出一个类别的概念描述，它代表了这类数据的整体信息，既该类的内分类是找出一个类别的概念描述，它代表了这类数据的整体信息，既该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。到给定类别中的某一个。预测是利用历史数据找出变化规律预测是利用历史数据找出变化规律,建立模型建立模型,并用此模型来预测未来数据的种类并用此模型来预测未来数据的种类,特征

25、不等。典型的方法是回归分析，即利用大量的历史数据，以时间为变特征不等。典型的方法是回归分析，即利用大量的历史数据，以时间为变量建立线性或非线性回归方程。量建立线性或非线性回归方程。分类的方法主要有：分类的方法主要有：决策树决策树(C5或或CART)、贝叶斯分类、基于遗传算法分类贝叶斯分类、基于遗传算法分类预测的方法主要是回归统计，包括：预测的方法主要是回归统计，包括：线性回归、非线性回归、多元回归、泊松回线性回归、非线性回归、多元回归、泊松回归、对数回归等归、对数回归等。分类也可以用来预测。分类也可以用来预测。神经网络方法预测既可用于连续神经网络方法预测既可用于连续数值，也可以用于离散数值。数

26、值，也可以用于离散数值。常用的数据挖掘方法商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办2.2.关联分析关联分析关联分析关联分析-就是挖掘数据对象之间的相互依赖关系。就是挖掘数据对象之间的相互依赖关系。关联关联若两个或多个变量的取值之间存在某种规律性，若两个或多个变量的取值之间存在某种规律性，就称为关联。就称为关联。一个关联规则的形式为：一个关联规则的形式为：A1A1A2A2AiAiB1B1B2B2BjBj 其含义为：如果其含义为：如果A1A1A2A2AiAi，则一定出现，则一定出现B1B1B2B2BjBj数据中的关联可分为：数据中的关联可分为：简单关联简单关联

27、如：买面包的顾客中有如：买面包的顾客中有90%90%的人购买了牛奶。面包的人购买了牛奶。面包牛奶牛奶时序关联时序关联如：粮食涨价，不久副食品涨价。如：粮食涨价，不久副食品涨价。因果关联因果关联属条件与结论的依赖关系。属条件与结论的依赖关系。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办3.聚类分析聚类分析将数据点分组的过程，从而使得同一组内的数据点类似。检查一大群最初没有差异的顾客，看看能否把它们分在自然形成的组内。聚类不同于分类的区别在于结果是分析出来的而不是事先预定的。没有预先制定的设想，希望数据挖掘工具能够揭示某些有意义的结构。聚类技术主要包括：模式识别方

28、法、数学分类聚类技术主要包括：模式识别方法、数学分类法、概念聚类、神经网络的自组织模型等。法、概念聚类、神经网络的自组织模型等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办4.4.人工神经网络人工神经网络l人工神经网络人工神经网络，是对人类大脑系统机能的简单抽象和模是对人类大脑系统机能的简单抽象和模拟；拟；l神经网络是一组连接的输入神经网络是一组连接的输入/输出单元输出单元,其中每个连接都其中每个连接都与一个权相关联与一个权相关联,在学习阶段在学习阶段,通过调整神经网络的权通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习使得能够预测输入样本的正确类标号来

29、学习。l具有高度抗干扰能力和可以对未训练的数据分类的特点具有高度抗干扰能力和可以对未训练的数据分类的特点l激励函数的选择和权值的调整激励函数的选择和权值的调整将人工神经网络应用于数据挖掘的主要缺点是，通过人将人工神经网络应用于数据挖掘的主要缺点是，通过人工神经网络学习到的知识难于理解；学习时间太长，不工神经网络学习到的知识难于理解；学习时间太长，不适于大型数据集。适于大型数据集。神经网络商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办5.5.偏差检测偏差检测对数据库中的异常数据进行检测，称为偏差检测。对数据库中的异常数据进行检测，称为偏差检测。偏差检测的基本方法偏

30、差检测的基本方法：寻找观察结果与参照之间的：寻找观察结果与参照之间的差别。差别。观察观察：通常是某一个域的值或多个域值的汇总。：通常是某一个域的值或多个域值的汇总。参照参照：是给定模型的预测、外界提供的标准量或另：是给定模型的预测、外界提供的标准量或另一个观察。一个观察。偏差检测的数据模式偏差检测的数据模式有：极值点、断点、拐点、零有：极值点、断点、拐点、零点和边界等不同的偏差对象。点和边界等不同的偏差对象。偏差包括的规则知识偏差包括的规则知识有：分类中的反常实例；模式有：分类中的反常实例；模式的例外；观察结果对模型预测的偏差；量值随时间的例外；观察结果对模型预测的偏差；量值随时间的变化等。的

31、变化等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘常用的10大算法1.C4.5、C5.0算法：C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2)在树构造过程中进行剪枝；3)能够完成对连续属性的离散化处理；4)能够对不完整数据进行处理。优点：产生的分类规则易于理解，准确率较高。缺点：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。商业智能研讨沙龙-上

32、海站 ITPUB ChinaUnix IXPUB主办2.K-Means算法 k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。即每个簇用该簇中对象的平均值来表示.3.Support vector machines 支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量

33、映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办kcmc算法思想：Aprior算法思想基于如下定理：若ck频繁集，mk，则频繁集故可以用短的频繁集中元素构造长的频繁集元素算法目的：提高频繁集发现效率mcv5.最大期望(EM)算法v在统计计算中，最大期望（EM，ExpectationMaximization）算法是在概率（probabilistic）模型中寻找参数最

34、大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。v6.PageRankvPageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办v7.Naive Bayesv假定一个属性值对给定类的影响独立于其他属性的值v在众多的分类模型中，应

35、用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。v8.CART:分类与回归树分类与回归树vCART,Classification and Regression Trees。v算法采用一种二分递归分割的技术，将当前的样本集分为两个子样本集，使得生成的决策树的每个非叶子节点都有两个分支。因此，CART算法生成的决策树是结构简洁的二叉树。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数

36、据进行剪枝。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办v9.kNN:k-nearest neighbor classificationvK最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。v10.AdaBoostvAdaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)

37、。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具简介数据挖掘工具简介目前，世界上比较有影响的典型数据挖掘系统包括：lEnterprise Miner（SAS公司）lIntelligent Miner（IBM公司）lSetMiner（SGI公司）lClementine（SPSS公司）lWarehouse Studio（Sy

38、base公司）lSee5（RuleQuest Research公司）lCoverStorylEXPLORAlKnowledge Discovery WorkbenchlDBMinerlQuest等商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办功能功能总分总分软件软件 IBM SAS IntelligentEnterpriseSPSS权值权值MinerMinerClementine数据存取数据存取10%759080数据处理数据处理20%9310098模型算法模型算法30%919691自动建模自动建模10%9210086可视化可视化15%889591其它其它15%78

39、9256总分总分100%88 96 86 三大工具总体评分商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍Intelligent Minerl 美国IBM公司开发的数据挖掘软件，分别面向数据库和文本信息进行数据挖掘的，包括Intelligent Miner for Data和Intelligent Miner for Text。l Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息，帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。已经成功应用于市场分析、诈骗行为监测及客户联系管理等；l

40、Intelligent Miner for Text允许企业从文本信息进行数据挖掘，文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍SAS Enterprise Miner SAS 是一个庞大的系统，它多个功能模块组成，每个模块分别是一个庞大的系统，它多个功能模块组成，每个模块分别完成不同的功能。由于完成不同的功能。由于SAS最初是为专业统计人员设计的（这最初是为专业统计人员设计的（这一点和一点和SPSS已恰恰相反），因此使用上以编程为主。已恰恰相反），因此使用上以编程为主

41、。SEMMA方法 Sample数据取样(质量、目标)Explore数据特征探索、分析和预处理 Modify问题明确化、数据调整和技术选择 Model模型的研发、知识的发现 Assess模型和知识的综合解释和评价商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办SAS Enterprise Miner:scatter plots 商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍IBM Intelligent Minerl 美国IBM公司开发的数据挖掘软件，分别面向数据库和文本信息进行数据挖掘的，包括Intelligent Miner

42、 for Data和Intelligent Miner for Text。l Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息，帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。已经成功应用于市场分析、诈骗行为监测及客户联系管理等；l Intelligent Miner for Text允许企业从文本信息进行数据挖掘，文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍 Spss的 Clementine Clem

43、entine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了 ISL公司，对Clementine产品进行重新整合和开发。是一个开放式数据挖掘工具，曾两次获得英国政府SMART 创新奖。不但支持整个数据挖掘流程，从数据获取、转化、建模、评估到最终部署的全部过程，还支持数据挖掘的行业标准-CRISP-DM。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍 Spss的 Clementine 主要功能分类：类神经网络、决策树(C5或CART)、Logistic回归；聚类：K-Means算法

44、(一维聚类)、Kohonen算法(利用类神经网络自我组织的演算法进行二维聚类)、2-Step算法(可自动找出最适合的聚类数)；关联：Apriori算法(连续、类别变量都可用)、GRI算法(只能处理类别变量)、序列算法(只能处理类别变量，且考虑时间先后)。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘工具介绍 Spss的 ClementinelClementine数据源 ODBC(包括Excel)各种文本文件 Spss数据源 SAS数据源使用者输入lClementine可同时存取多种数据来源商业智能研讨沙龙-上海站ITPUB ChinaUnix IXPUB

45、主办 Clementine 操作界面商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办筛选潜在诈欺案例的两种方法筛选潜在诈欺案例的两种方法 -“异常检测异常检测”和基于和基于“神经网络神经网络”的建模方法。的建模方法。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办数据挖掘技术应用广泛数据挖掘技术从一开始就是面向应用的。由于现在各行业的业务操作都向着流程自动化的方向发展，企业内产生了大量的业务数据。数据挖掘技术应用很广，应用较好的领域有：金融保险业：Credit Scoring；Insurance Evaluation电信：Detecting

46、telephone fraud零售（如超级市场）等商业领域：Marketing Analysis医学：Detecting inappropriate medical treatment体育：IBM Advanced Scout analyzed NBA game statistics 在天文学、分子生物学等科学研究方面军事方面：使用DM进行军事信息系统中的目标特征提取、态势关联规则挖掘等。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办市场营销的应用v基于购买模型分析顾客行为；基于购买模型分析顾客行为；v识别顾客流失模型以及通过预防行为使顾客未流失的情况；识别顾客流失模

47、型以及通过预防行为使顾客未流失的情况；v广告、仓库位置等营销战略的确定；广告、仓库位置等营销战略的确定；v顾客、产品、仓库的划分；顾客、产品、仓库的划分；v目录设计、仓库布局、广告活动；目录设计、仓库布局、广告活动；v通过适当聚集和为前端销售、服务人员发送信息，提供优先通过适当聚集和为前端销售、服务人员发送信息，提供优先销售和顾客服务；销售和顾客服务；v鉴定市场高于或低于平均增长；鉴定市场高于或低于平均增长；v识别同时被购买的产品，或购买某种产品类别的顾客特征；识别同时被购买的产品，或购买某种产品类别的顾客特征；v市场容量分析。市场容量分析。商业智能研讨沙龙-上海站 ITPUB ChinaUn

48、ix IXPUB主办财务的应用v客户信誉价值分析；客户信誉价值分析；v帐户应收款项划分；帐户应收款项划分；v金融投资，如股票、共有基金、债券金融投资，如股票、共有基金、债券等的业绩分析；等的业绩分析；v风险评估和欺诈检测风险评估和欺诈检测商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办制造业的应用v优化资源，例如人力、机器、材料、优化资源，例如人力、机器、材料、能量等等；能量等等；v优化制造过程设计；优化制造过程设计；v产品设计；产品设计；v发现生产问题的起因；发现生产问题的起因；v识别产品和服务的使用模型。识别产品和服务的使用模型。商业智能研讨沙龙-上海站 ITPU

49、B ChinaUnix IXPUB主办银行业务的应用v检测欺诈性信用卡使用的模型；检测欺诈性信用卡使用的模型；v识别忠实顾客；识别忠实顾客；v预测可能改变他们的信用卡从属关系预测可能改变他们的信用卡从属关系的客户；的客户；v确定客户群体的信用卡消费。确定客户群体的信用卡消费。商业智能研讨沙龙-上海站 ITPUB ChinaUnix IXPUB主办医疗保健的应用v发现放射线图象的模型；发现放射线图象的模型；v分析药物的副作用；分析药物的副作用；v描述患者行为特征，预测外科手术观描述患者行为特征，预测外科手术观察；察；v标识对不同疾病的成功药物疗法。标识对不同疾病的成功药物疗法。商业智能研讨沙龙-

50、上海站 ITPUB ChinaUnix IXPUB主办v竞技运动中的数据挖掘大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排，在与迈阿密热队的比赛中找到了获胜的机会。-系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为17分,这意味着他俩在场上，本队输掉的分数比得到的分数多17分。然而，当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时，魔术队得分为正14分。商业

展开阅读全文