1、客户关系管理软件客户关系管理软件与数据挖掘与数据挖掘案例 卓越亚马逊的推荐系统学习目标通过本章的学习,将能够:理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用第第9章章 CRM与数据挖掘与数据挖掘9.1 数据挖掘概述数据挖掘概述9.2 数据挖掘的任务、技术和实施过程数据挖掘的任务、技术和实施过程9.3 数据挖掘在数据挖掘在CRM中应用中应用9.4 CRM数据挖掘应用实例数据挖掘应用实例9.5 数据挖掘软件在数据挖掘软件在CRM中的应用示例中的应用示例9.1.1 数据挖掘的产生数据挖掘的产生 数据爆
2、炸但知识贫乏 支持数据挖掘技术的基础 数据挖掘逐渐演变的过程 数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据爆炸但知识贫乏数据爆炸但知识贫乏数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定合适的决策!数据数据n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期 更大,更便宜的存储器 -磁盘密度以Moores law增长 -
3、存储器价格飞快下降更快,更便宜的信息处理器 -分析更多的数据 -适应更多复杂的模型 -引起更多查询技术 -激起更强的可视化技术 数据挖掘处理技术 -数理统计 -人工智能 -机器学习支持数据挖掘技术的基础支持数据挖掘技术的基础数据挖掘的演化数据挖掘的演化 机器学习 数据库中的知识发现 数据挖掘9.1.2 数据挖掘的定义数据挖掘的定义 SAS研究所(19910):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Hand et al(2000):“数据挖掘就是在大型数
4、据库中寻找有意义、有价值信息的过程”。数据挖掘的定义数据挖掘的定义 技术角度的含义 商业角度的含义 与传统方法的区别数据挖掘的技术上的定义数据挖掘的技术上的定义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘的商业角度的定义数据挖掘的商业角度的定义 按企业既定业务目标,
5、对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。客户接触客户接触 客户信息客户信息客户数据库客户数据库统计分析与数据挖掘统计分析与数据挖掘客户知识发现客户知识发现客户管理客户管理知识发现:从数据中深入抽取隐含的、未知的和有知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息潜在用途的信息从商业数据到商业智能数据挖掘与传统分析方法的区别数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三
6、个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系 9.1.3 数据挖掘的功能数据挖掘的功能 自动预测趋势和行为 关联分析 对象分类 聚类分析 概念描述 偏差检测 数据挖掘功能数据挖掘功能 预测预测 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最
7、大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。数据挖掘功能数据挖掘功能 关联分析关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变
8、化。数据挖掘功能数据挖掘功能分类分类 按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。数据挖掘功能数据挖掘功能聚类聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。数据挖掘功能数据挖掘功能 概念描述概念描述 概念描述就是对某类对象的内涵进行描述,并概
9、括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。数据挖掘功能数据挖掘功能 偏差检测偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500
10、例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。9.1.4 数据挖掘应用数据挖掘应用 应用领域:银行、电信、保险、交通、零售等商业领域 能解决的典型商业问题包括:数据库营销(Database Marketing)客户群体划分(Customer Segmentation&Classification)背景分析(Profile Analysis)交叉销售(Cross-selling)客户流失性分析(Churn Analysis)客户信用记分(Credit Scoring)欺诈发现(Fraud Detection)各行业电子商务网站各行业电子商务网站算算法法层层商商
11、业业逻逻辑辑层层行行业业应应用用层层商业应用商业模型挖掘算法CRM产品推荐产品推荐客户细分客户细分客户流失客户流失客户利润客户利润客户响应客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘挖掘网站结构优化网站结构优化网页推荐网页推荐商品推荐商品推荐。基因挖掘基因挖掘基因表达路径分析基因表达路径分析基因表达相似性分析基因表达相似性分析基因表达共发生分析基因表达共发生分析。银行银行电信电信零售零售保险保险制药制药生物信息生物信息科学研究科学研究。相关行业数据挖掘的应用Debt$40KQ QQ QQ QQ QI II I1 12
12、 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 Ass
13、ociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘的应用9.1.5 数据挖掘未来研究方向数据挖掘未来研究方向 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining;加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、
14、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。交互式发现和知识的维护更新。9.2 数据挖掘的任务、技术、数据挖掘的任务、技术、方法和实施过程方法和实施过程9.2.1 数据挖掘任务数据挖掘任务 数据总结 分类发现 聚类分析 关联规则发现9.2.2 数据挖掘技术数据挖掘技术 数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分
15、为:回归分析、判别分析、聚类分析、探索性分析以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。数据挖掘技术的分类数据挖掘技术的分类回顾分析:注重解决过去和现在的问题 如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析预测分析:在历史信息的基础上预测某些事件和行为 如:建立预测模型来描述客户的流失率分类:根据某种标准将数据库记录分类到许多
16、预先定义好的类别 如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。数据挖掘技术数据挖掘技术数据挖掘技术的分类数据挖掘技术的分类聚类:根据某些属性将数据库分割为一些子集和簇 如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联:通过考察记录来识别数据间的密切关系 关联关系常常表现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60同时包含C。时间序列:用于帮助识别与时间有关的模式 如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录
17、营销的分析数据挖掘的一般目的就是检测、解释和预测数据中定性的和或定量的模式数据挖掘的一般目的就是检测、解释和预测数据中定性的和或定量的模式数据挖掘技术数据挖掘技术数据挖掘方法学数据挖掘方法学模式模式 数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。模式是数据驱动的,一般只反映数据本身模型模型 对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式 模式可视化数据挖掘技术数据挖掘技术数据挖掘方法学数据挖掘方法学取样取样
18、 根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型 数据本身的处理过程需要验证验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。数据挖掘技术数据挖掘技术人工神经网络人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。决策树决策树
19、决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。决策树决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。决策树图决策树图决策树应用决策树应用 决策树也是分析消耗(流线性生产)、发
20、现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。聚类分析聚类分析 聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。聚类分析聚类分析 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析 把一个给定的数据对象集合分成不
21、同的簇;聚类是一种无监督分类法:没有预先指定的类别;典型的应用 作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;聚类分析应用聚类分析应用 市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;聚类分析的评判聚类分析的评判 一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:
22、高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;遗传算法遗传算法 遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。遗
23、传算法遗传算法 GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。规则推导规则推导 规则推导,从统计意义上对数据中的“如果-那么
24、”规则进行寻找和推导,得到关联规则。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。可视化技术可视化技术 用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。其他技术其他技术 近邻算法,将数据集合中每一个记录进行分类的方法。统计分析方法,在数据库字段项之间存在两种
25、关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。经典方法经典方法统计统计 统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式 统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。9.2.3 数据挖掘方法数据挖掘方法经典方法经典方法最近邻最近邻 通过检测与预测对象最接近的对
26、象的状况对预测对象进行预测 原理:某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近;相互之间“接近”的对象会有相似的取值 根据其中一个对象的取值,预测其最近邻对象的预测值 商业 应用:文献检索市场篮子分析 应用 评价:最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法数据挖掘方法现代方法现代方法基础理论有指导的学习(Supervised Learning)归纳 概念 分类标准与模型 分类有指导的学习的目的:建立分类模型用模型确定新数据实例的类别训练数据(Training Data)与检验集(Test Set)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例
27、称为检验集数据挖掘方法数据挖掘方法 有指导的学习有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿淋巴肿数据挖掘方法数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYe
28、s?13NoNoNoNoYes?有指导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴肿淋巴肿发发 烧烧No No Yes Yes 咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法数据挖掘方法 有指
29、导的学习有指导的学习(Supervised Learning)淋巴肿发 烧No No Yes Yes 咽炎敏感症感冒患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分类的数据实例(检验集)数据挖掘方法数据挖掘方法无指导的学习无指导的学习(Unsupervised Learning)为没有预先定义分类标准的数据建立模型客户ID客户类型交易保证金帐户交易方法交易数月性别年龄嗜好年收入1005联合NoOnline12.5F30-39网球45.9万1013委托保管NoBroke0.5F50-59滑雪89.9万124
30、5联合NoOnline3.6M20-29高尔夫23.9万2110个人YesBroke22.3M30-39钓鱼45.9万1001个人YesOnline5.0M40-49高尔夫69.9万ABC投资公司客户表数据挖掘方法数据挖掘方法无指导的学习无指导的学习(Unsupervised Learning)区分在线投资者和经纪人投资者的特征是什么一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数数 据据 挖挖 掘掘 问问 题题属属 性性哪些属性相似性决定ABC公司的客户分组属性值的哪
31、些不同之处分隔了客户数据库有指导有指导的学习的学习无指导无指导的学习的学习数据挖掘方法数据挖掘方法现代方法决策树(Decision Tree)决策树是一种有指导学习的数据挖掘方法决策树的组成决策节点、分支、叶子根节点分支叶子Debt$40K节点 决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。数据挖掘方法数据挖掘方法决决策策树树的的算算法法步步骤骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点,它的值为所选择的属性创
32、建该节点的分支,每个分支代表所选属性的一个唯一值使用分支的值,将数据实例分割为子类对于步骤5所创建的各个子类:如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据实例集合,返回步骤 2数据挖掘方法数据挖掘方法决策树的属性选取决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesN
33、oNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿淋巴肿发发 烧烧No No Yes Yes 咽炎敏感症感冒数据挖掘方法数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症10NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNo
34、YesYes感冒10yesYesnoYesYes感冒淋巴肿发 烧No No Yes Yes 敏感症敏感症咽炎No Yes 头 痛淋巴肿感冒发 烧淋巴肿No Yes 咽炎No Yes 数据挖掘方法数据挖掘方法决策树的属性选取决策树的属性选取属性选取标准:最大化反映数据差异,使树的层次和节点数最小信用卡促销数据库信用卡促销数据库收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M210
35、3-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19选取收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23万万34万万45万万56万万训练集分类的正确性为1115103数据挖掘方法数据挖掘方法决策树(Decision Tree):例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分支有两个类,选取最频繁出现的类信用卡保险信用卡保险6Yes6No3Yes
36、0NoNoYes训练集分类的正确性为91560数据挖掘方法数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19决策树(Decision Tree):例信用卡促销数据库选取数值型属性年龄
37、为根节点选取寿险促销为输出属性依照年龄排序,对照输出属性进行数据分割,选择数据分割点年年 龄龄9Yes3No0Yes 3No4343以年龄43结合寿险促销Yes,训练集分类的正确性为12158011021029353839404142434343455555YNYYYYYYNYYNNNN数据挖掘方法数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万No
38、No F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19决策树(Decision Tree):例信用卡促销数据库年 龄Yes(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树信用卡数据库的三节点决策树训练集分类的正确性为1315810数据挖掘方法数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM43
39、5-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19决策树(DecisionTree):例信用卡促销数据库收入收入段段寿险促寿险促销销信用卡保信用卡保险险性别性别年龄年龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万
40、NoNo M2103-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)信用卡数据库的两节点决策树信用卡数据库的两节点决策树训练集分类的正确性为121580数据挖掘方法数据挖掘方法决策树(Decision Tree):例信用卡促销数据库检验集收入段寿险促销信用卡保险性别年龄检验结果4-5万NoNoM42正确2-3万NoNoM210正确3-4万NoNoM43正确2-3万YesNoM29错误年 龄Ye
41、s(61)No(21)4343性 别F M信用卡保险Yes(20)No(30)No Yes信用卡数据库的三节点决策树信用卡数据库的三节点决策树数据挖掘方法数据挖掘方法现代方法现代方法K平均值算法 K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇算算 法法 步步 骤骤选择一个K值,用以确定簇的总数在数据集中任意选择K个数据实例,作为初始的簇中心试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心试用每个簇中的数据实例,计算每个簇的新的平均值如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤35。点A(x1,y1)与点B(x2
42、,y2)之间的欧氏距离计算式为Disce ABxxyytan()()()121222数据挖掘方法数据挖掘方法K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.选择K=2,即将所有数据实例分为两个簇2.选择实例1作为第1个簇的中心,实例3作为第2个簇的中心3.计算各数据实例与C1、C2之间的欧氏距离Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C1
43、4)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代结果得到以下两个簇簇C1包含实例1、2,簇C2包含实例3、4、5、6YX 数据挖掘方法数据挖掘方法K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.05.重新计算每个簇的中心 对于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 对于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=
44、(1.5+3.5+2.5+6.0)/4=3.3105 因此,新的簇中心为C1=(1.0,3.0)C2=(3.0,3.3105)YX 6.由于簇中心改变,进行第2次迭代K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.104 C1Dist(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 D
45、ist(C25)=0.8105 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的结果导致了簇的变化:C1包含实例1、2和3,C2包含4、5和6YX K平均值算法:例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.09.重新计算每个簇的中心 对于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 对于C2:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心为C1=(1.33,2.50)C2=
46、(3.33,4.00)8.由于簇中心改变,继续进行第3次迭代YX K平均值算法:例 数据实例与它们所对应的簇中心之间的误差平方和最小K平均值算法的几个应用K平均值算法的最优聚类标准输出结果簇中心簇点均方误差1(2.610,4.610)(2.00,1.83)2,4,61,3,514.502(1.5,1.5)(2.105,4.125)1,32,4,5,615.943(1.8,2.10)(5,6)1,2,3,4,569.60YX YX YX 现代方法关联规则(Association Rules)关联规则的表现形式 关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事
47、物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。“如果怎么样、怎么样、怎么样,那么就会怎么样”关联规则的构成 前件“如果怎么样、怎么样、怎么样”后件“那么就怎么样”如果买了西装,就会买领带 如果买精显彩电,就会买家庭影院系统规则的构成如果怎么样、怎么样、怎么样,就会怎么样如果怎么样、怎么样、怎么样,就会怎么样前件,激发条件前件,激发条件后件,结果后件,结果规则表现为在前件所有条件成立的前提下,规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现后件结果会以某一正确概率出现关联规则(Association Rules)规则的置信度和支持度关联规则(Associati
48、on Rules)规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率 规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比 例:如果客户买牛奶,那么他们也会买面包 置信度:在10000次交易中客户购买了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为50001000050 支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,支持度为6000060000010 规则的生成关联规则(Association Rules)决策树方法 规则1:如果客户参加了信用卡保险,那么他就会参加寿险促销(置信
49、度33100,支持度31520)规则2:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度4580,支持度51533)规则3:如果一个女性客户没有参加信用卡保险,那么她可能会参加寿险促销(置信度510101,支持度1015410)规则4:如果是一个女性客户,那么她可能会参加寿险促销(置信度68105,支持度81553)信用卡保险Yes(52)No(41)NoYes性 别F MYes(30)规则的生成现代方法关联规则(Association Rules)最近邻方法 规则:如果一个客户处于的状况,那么他可能是一个逃款者 关联规则可以使用传统的方法生成,但适当提供的属性很多时,因
50、为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。规则的生成现代方法关联规则(Association Rules)apriori方法 apriori方法步骤:1.设置最小的属性值支持度要求 apriori方法是通过生成条目集,按照一定的准则要求从中选择规则的方法。条目集是指符合一定支持度要求的“属性值”的组合 2.生成条目集 3.使用生成的条目集来创建规则规则的生成现代方法关联规则(Association Rules)杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法: