1、 第1章 引言 第2章 数据预处理 第3章 数据仓库与OLAP技术概述 第4章 数据立方体计算与数据泛化 第5章 挖掘频繁模式、关联和相关 第6章 分类和预测 第7章 聚类分析第8章 挖掘流、时间序列和序列数据第9章 图挖掘、社会网络分析和多关系数据挖掘第10章 挖掘对象、空间、多媒体、文本和Web数据第11章 数据挖掘的应用和发展趋势体系结构:典型数据挖掘系统数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据数据清洗、清洗、集成和选择集成和选择数据库数据仓库万维网其他信息库在何种数据上进行数据挖掘(数据源)关系数据库数据仓库事务数据库高级数据库系统和信息库 空间数据库 时间数据
2、库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和遗产(legacy)数据库 文本数据库和万维网(WWW)数据挖掘应用市场分析和管理(1)数据从那里来?信用卡交易,会员卡,商家的优惠卷,消费者投诉电话,公众生活方式研究目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征:兴趣爱好,收入水平,消费习惯,等等 确定顾客的购买模式交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测 数据挖掘应用市场分析和管理(2)顾客分析 哪类顾客购买那种商品(聚类分析或分类预测)客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供
3、概要信息 多维度的综合报告 统计概要信息(数据的集中趋势和变化)数据挖掘应用公司分析和风险管理财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等)资源计划 总结和比较资源和花费竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中数据挖掘应用欺诈行为检测和异常模式的发现方法:对欺骗行为进行聚类和建模,并进行孤立点分析应用:卫生保健、零售业、信用卡服务、电信等 汽车保险:相撞事件的分析 洗钱:发现可疑的货币交易行为 医疗保险 职业病人,医生以及相关数据分析 不必要的或相关的测试 电信:电话呼叫欺骗行为 电话呼叫模
4、型:呼叫目的地,持续时间,日或周呼叫次数.分析该模型发现与期待标准的偏差 零售产业 分析师估计有38的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义其他应用体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星网上冲浪 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为,分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究数据挖掘验证驱动挖掘发现驱动挖掘S
5、QLSQL生成器查询工具OLAP描述预测可视化聚类关联规则顺序关联汇总描述分类统计回归时间序列决策树神经网路数据挖掘的主要方法关联分析发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。关联规则是形如X Y,即”A1.Am B1.Bn”的规则;其中,Ai(i1,.,m),Bj(j1,.,n)是属性-值对。关联规则解释为“满足X中条件的数据库元组多半也满足Y中条件”。例1.6给定AllElectronics关系数据库,一个数据挖掘系统可能发现如下形式的规则age(X,“2029”)income(X,“2029K”)buys(X,“CD_
6、player”)support=2%,confidence=60%其中,X是变量,代表顾客。该规则是说,所研究的AllElectronics顾客2%(支持度)在20-29岁,年收入20-29K,并且在AllElectronics购买CD机。这个年龄和收入组的顾客购买CD机的可能性有60%(置信度或可信性)。关联规则挖掘在第6章详细讨论。数据挖掘的主要方法 分类和预测 通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示:决策树、IFTHEN规则、神经网络 预测(prediction)用来预测空缺的或不知道的
7、数值数据值,而不是类标号,在本书中,预测主要是指数值预测。可以用来预报某些未知的或丢失的数字值 第6章将详细讨论分类和预测数据挖掘的主要方法 聚类分析 与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。关于一个城市内顾客的2-D图,显示了3个聚类,每个聚类的“中心”用“+”标记2.1 为什么要预处理数据?现实世界中的数据是脏的 不完全:缺少属性值,缺少某
8、些有趣的属性,或仅包含聚集数据 例,occupation=“”噪音:包含错误或孤立点 例,Salary=“-10”不一致:编码或名字存在差异 例,Age=“42”Birthday=“03/07/1997”例,以前的等级“1,2,3”,现在的等级“A,B,C”例,重复记录间的差异数据为什么脏?不完全数据源于 数据收集时未包含 数据收集和数据分析时的不同考虑.人/硬件/软件问题 噪音数据源于 收集 录入 变换 不一致数据源于 不同的数据源 违反函数依赖为什么数据预处理是重要的?没有高质量的数据,就没有高质量的数据挖掘结果!高质量的决策必然依赖高质量的数据 例如,重复或遗漏的数据可能导致不正确或误导
9、的统计.数据仓库需要高质量数据的一致集成 数据提取,清理,和变换是建立数据仓库的最主要的工作第3章:数据仓库与OLAP技术 3.1什么是数据仓库?3.2多维数据模型 3.3数据仓库结构 3.4数据仓库实现 3.5从数据仓库到数据挖掘多维数据模型 数据仓库基于 多维数据模型,多维数据模型将数据视为数据方(data cube)形式 多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据方,可以将数据建模,并允许由多个维进行观察,由维和事实定义 维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字多维数据模型
10、 不同视角的数据立方分析 数据仓库、数据集市和数据立方之间的关系数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计其数据构成时一般采用星系模式。而数据集市是部门级的,具有选定的主题,可以采用星形或雪花模式。数据仓库的后端工具和实用程序 数据提取:由多个异种,外部数据源收集数据 数据清理:检测数据中的错误,可能时订正它们 数据变换:将数据由遗产或宿主格式转换成数据仓库格式 装载:排序,综合,加固,计算视图,检查整体性,并建立索引和划分 刷新 传播由数据源到数据仓库的更新 参考:数据仓库与数据仓库与OLAP实践教程实践教程 工具:工具:Microsoft Analysis Service
11、s显示的维度显示的维度隐藏的维度隐藏的维度显示的度量值显示的度量值图形化显示图形化显示(电子教案)(电子教案)1、创建、创建Excel数据透视表数据透视表2、使用、使用Excel透视表浏览数据透视表浏览数据3、使用、使用Excel透视图分析数据透视图分析数据第5章:挖掘频繁模式、关联和相关 本章主要讲解关联规则挖掘 关联规则挖掘是当前数据挖掘研究的主要方法之一,侧重于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阈值的多个域之间的依赖关系。例:在销售手机的商店中,70%的包含手机的交易中包含充电器,在所有交易中,有56%同时包含这两种物品。于是规则表示为手机 充电器(可信度70%,支
12、持度56%)购物篮分析 购物篮分析:通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的营销策略。n购物篮分析还可以应用在下列问题上:购物篮分析还可以应用在下列问题上:(1)针对信用卡购物,能够预测未来)针对信用卡购物,能够预测未来顾客可能购买什么。(顾客可能购买什么。(2)对于电信与)对于电信与金融服务业而言,经由购物篮分析能够金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。(设计不同的服务组合以扩大利润。(3)保险业能藉由购物篮分析侦测出可能不保险业能藉由购物篮分析侦测出可
13、能不寻常的投保组合并作预防。(寻常的投保组合并作预防。(4)对病)对病人而言,在疗程的组合上,购物篮分析人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症能作为是否这些疗程组合会导致并发症的判断依据。等等的判断依据。等等为什么频繁模式挖掘是数据挖掘的基本任务?许多基本的数据挖掘任务的基础 关联,相关,因果关系 序列模式,时间或周期关联,局部周期性,空间和多媒体关联 关联分类,聚类分析,冰山方,fascicles(语义数据压缩)广泛的应用购物篮数据分析,交叉销售,分类设计,销售活动分析Web 日志(点击流)分析,DNA 序列分析,等.Apriori -关联规则的一个算法 CAR
14、MACARMA算法简介CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的Christian Hidber教授提出来的。1234能够处理在线连续交易流数据仅需一次,最多两次对数据的扫描就可以构造出结果集允许在算法执行过程中按需要重新设置支持度占用内存少CARMAOn-linesupermarket关联规则:哪些商品会在一起被购买?在超市的促销中就应搭配在一起或摆放在相同的货架。此时关注的是商品而不是顾客个人信息。分类与预测6.1分类与预测概述16.2决策树分类算法26.3贝叶斯分类算法36.4关联分类46.5最近邻分类56.6其他分类方法66.1分类与预测概述分类分析
15、所谓分类,就是把给定的数据划分到一定的类别中。分类分析就是通过分析训练集中的数据,为每个类别建立分类分析模型;然后用这个分类分析模型对数据库中的其他记录进行分类。分类分析的输入集是一组记录集合和几种类别的标记。这个输入集又称示例数据库或训练集。训练集中的记录称为样本。在这个训练集中,每个记录都被赋予一个类别的标记。6.1分类与预测概述分类分析 分类分析方法的一个典型例子是信用卡核准过程。信用卡公司根据信誉程度,将一组持卡人记录分为良好、一般和较差三类,且把类别标记赋给每个记录。分类分析就是分析该组记录数据,对每个信誉等级建立分类分析模型。如“信誉良好的客户是那些收入在5万元以上,年龄在4050
16、岁之间的人士”。得出这个分类分析模型之后,就可根据这个分类分析模型对新的记录进行分类,从而判断一个新的持卡人的信誉等级是什么。6.1分类与预测概述分类与预测 分类:预测分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测:(prediction)是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)6.1分类与预测概述分类步骤 第一
17、步,学习过程,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组组成 训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、决策树或数学公式的形式提供6.1分类与预测概述第一步建立模型6.1分类与预测概述分类步骤 第二步,分类过程,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的情况6.1分类与预测
18、概述第二步用模型进行分类6.1分类与预测概述有指导的学习 VS.无指导的学习 有指导的学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类6.1分类与预测概述分类的主要算法(1)决策树算法(2)贝叶斯分类算法(3)神经网络分类算法(4)遗传算法(5)粗糙集分类算法 其他6.2 决策树分类算法什么是决策树(判定树,Decision Tree)?决策树是采用树状分岔的架构来产生规则,适用于所有
19、分类的问题。类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布 用途:提取分类规则,进行分类预测判定树分类算法output训练集决策树input6.2 决策树分类算法决策树的概念 如果每个内节点都恰好有两个分枝,则称为二叉树。如果内节点有多于两个的分枝,则称为多叉树。从根节点到每个叶节点的路径称为“决策规则”。决策树可用于对新样本的分类,即通过决策树对新样本属性值进行测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样本的类别,也能有效地识别新样本的类别。6.2 决策树分类算法决策
20、树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的通过选定的属性,来划分样本(必须是离散值)树的修剪 去掉一些可能是噪音或者异常的数据决策树使用:对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点6.2 决策树分类算法决策树算法 基本算法(贪婪算法)自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段(如果是连续的,将其离散化)所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)停止分割的条件 一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行分割6.2 决策
21、树分类算法常用的决策树演算法 ID3,C4,C4.5,C5,CART,CHAID,QUEST决策树分类算法ID3算法决策树方法中影响最大的是1986年提出的ID3方法。它是建立在推理系统和概念学习系统的基础上的算法。ID3算法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。首先检测训练数据集的所有特征,选择信息增益最大的特征A建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。6.2 决策树分类算法决策树的建立-决策树建立的关键建立一个好的决策树建立一个好的决策
22、树的关键是决定树根和的关键是决定树根和子树根的属性子树根的属性树根?树根?6.2 决策树分类算法决策树的建立-决策树建立的关键年龄年龄青中老6.2 决策树分类算法决策树的建立-对测试样例的信息期望让我们称所需要研究的属性为让我们称所需要研究的属性为“分类分类属性属性”。假设该属性共分。假设该属性共分m m类,而它类,而它们每一类在数据表中计数的总和分别们每一类在数据表中计数的总和分别为为s s1 1,s,s2 2,s,sm m。令令s=ss=s1 1+s+s2 2+s+sm m则对于任一样例,决定它所属类别的则对于任一样例,决定它所属类别的信息期望可以用下面的公式来计算:信息期望可以用下面的公
23、式来计算:I(sI(s1 1,s,s2 2,s,sm m)=-p)=-pi iloglog2 2(p(pi i)其中其中p pi i=s=si i/s/s6.2决策树分类算法决策树的建立-对测试样例的信息期望例:左表例:左表分类属性:买计算机?分类属性:买计算机?该属性共分两类该属性共分两类(m=2):(m=2):买买/不买不买s s1 1=641,s=641,s2 2=383=383s=ss=s1 1+s+s2 2=1024=1024p p1 1=s=s1 1/s=641/1024=0.6260/s=641/1024=0.6260p p2 2=s=s2 2/s=383/1024=0.3740
24、/s=383/1024=0.3740I(sI(s1 1,s,s2 2)=I(641,383)=I(641,383)=-(p=-(p1 1*loglog2 2(p(p1 1)+p)+p2 2*loglog2 2(p(p2 2)=0.9537=0.9537-(p1*log2(p1)+p2*log2(p2)在在Excel中写为:中写为:-(0.626*LOG(0.626,2)+0.374*LOG(0.374,2)6.2 决策树分类算法决策树的建立-对测试样例的信息期望平均信息期望,E E,是节点各直系分支的信息期望值的加权总和1.1.假定选择年龄作树根节点,则:青年组:I(128,256)=0.91
25、83:I(128,256)=0.9183 中年组:I(256,0)=0:I(256,0)=0 老年组:I(257,127)=0.9157:I(257,127)=0.9157 青年组比例:(128+256)/1024=0.375:(128+256)/1024=0.375 中年组比例:256/1024=0.25:256/1024=0.25 老年组比例:(257+127)/1024=0.375:(257+127)/1024=0.375 平均信息期望(加权总和):E(E(年龄)=0.375=0.375*0.91830.9183 +0.25 +0.25*0+0.3750+0.375*0.9157=0.6
26、8770.9157=0.6877信息增益信息增益:Gain(Gain(年龄)=I(641,383)-E()=I(641,383)-E(年龄)=0.9537 0.6877=0.2660 =0.9537 0.6877=0.26606.2 决策树分类算法决策树的建立-对测试样例的信息期望2.2.假定选择收入作树根节点,则:高收入组:I(160,128)=0.9911:I(160,128)=0.9911 中收入组:I(289,191)=0.9697:I(289,191)=0.9697 低收入组:I(192,64)=0.8133:I(192,64)=0.8133 高收入组比例:288/1024=0.28
27、13:288/1024=0.2813 中收入组比例:480/1024=0.4687:480/1024=0.4687 低收入组比例:256/1024=0.25:256/1024=0.25 平均信息期望(加权总和):E(E(收入)=0.2813=0.2813*0.9911 0.9911 +0.4687 +0.4687*0.9697 0.9697 +0.25 +0.25*0.8133=0.9361 0.8133=0.9361 Gain(Gain(收入)=I(641,383)-E()=I(641,383)-E(收入)=0.9537 0.9361=0.0176 =0.9537 0.9361=0.0176
28、6.2 决策树分类算法决策树的建立-对测试样例的信息期望3.3.假定选择学生作树根节点,则:学生组:I(420,64)=0.5635:I(420,64)=0.5635 非学生组:I(221,319)=0.9761:I(221,319)=0.9761 学生组比例:484/1024=0.4727:484/1024=0.4727 非学生组比例:540/1024=0.5273:540/1024=0.5273 平均信息期望(加权总和):E(E(学生)=0.4727=0.4727*0.5635 0.5635 +0.5273 +0.5273*0.9761 0.9761 =0.7811 =0.7811 Gai
29、n(Gain(学生)=I(641,383)-E()=I(641,383)-E(学生)=0.9537 0.7811=0.1726 =0.9537 0.7811=0.17266.2 决策树分类算法决策树的建立-对测试样例的信息期望4.4.假定选择信誉作树根节点,则:假定选择信誉作树根节点,则:良好组良好组:I(480,192)=0.8631:I(480,192)=0.8631 优秀组优秀组:I(161,191)=0.9948:I(161,191)=0.9948 良好组比例良好组比例:672/1024=0.6563:672/1024=0.6563 优秀组比例优秀组比例:352/1024=0.3437
30、:352/1024=0.3437 平均信息期望(加权总和):平均信息期望(加权总和):E(E(信誉)信誉)=0.6563=0.6563*0.8631 0.8631 +0.3437 +0.3437*0.9948 0.9948 =0.9048 =0.9048 Gain(Gain(信誉信誉)=I(641,383)-E()=I(641,383)-E(信誉信誉)=0.9537 0.9048 =0.9537 0.9048 =0.0453 =0.04536.2 决策树分类算法决策树的建立-对测试样例的信息期望 决定树根节点 E(年龄)=0.6877,Gain(年龄)=0.2660(此值最大,作为根节点)E(
31、收入)=0.9361,Gain(收入)=0.0176 E(学生)=0.7811,Gain(学生)=0.1726 E(信誉)=0.9048,Gain(信誉)=0.04536.2 决策树分类算法决策树的建立-决策树建立步骤(例)年龄年龄青中老树叶树叶6.2 决策树分类算法决策树的建立-决策树建立步骤(例)年龄年龄青中老买买6.2 决策树分类算法决策树的建立-决策树建立步骤(例)青年组数据表分析:1.假定选择收入作节点I(128,256)=0.9183I(0,128)=0I(0,128)=0比例比例:128/384=0.3333128/384=0.3333I(64,128)=0.9183I(64,1
32、28)=0.9183比例比例:192/384=0.5192/384=0.5I(64,0)=0I(64,0)=0比例比例:64/384=0.166764/384=0.1667平均信息期望(加权总和):平均信息期望(加权总和):E(E(收入)收入)=0.3333=0.3333*0+0.5 0+0.5*0.9183+0.1667 0.9183+0.1667*0=0.4592 0=0.4592Gain(Gain(收入收入)=I(128,256)-E()=I(128,256)-E(收入收入)=0.9183 0.4592=)=0.9183 0.4592=0.45910.45916.2 决策树分类算法决策树
33、的建立-决策树建立步骤(例)青年组数据表分析:2.假定选择学生作节点I(128,256)=0.9183I(128,0)=0I(128,0)=0比例比例:128/384=0.3333128/384=0.3333I(0,256)=0I(0,256)=0比例比例:256/384=0.6667256/384=0.6667平均信息期望(加权总和):平均信息期望(加权总和):E(E(学生)学生)=0.3333=0.3333*0+0.6667 0+0.6667*0=0 0=0Gain(Gain(学生学生)=I(128,256)-E()=I(128,256)-E(学生学生)=0.9183 0=)=0.9183
34、 0=0.91830.9183结论结论:不需要考虑属性信誉,决定选择属性学生不需要考虑属性信誉,决定选择属性学生6.2 决策树分类算法决策树的建立-决策树建立步骤(例)年龄年龄青中老买买学生学生是否树叶树叶6.2 决策树分类算法决策树的建立-决策树建立步骤(例)年龄年龄青中老买买学生学生是否买买不不买买6.2 决策树分类算法决策树的建立-决策树建立步骤(例)老年组数据表分析:1.假定选择收入作节点I(257,127)=0.9157I(64,64)=1I(64,64)=1比例比例:128/384=0.3333128/384=0.3333I(193,63)=0.8050I(193,63)=0.80
35、50比例比例:256/384=0.6667256/384=0.6667平均信息期望(加权总和):平均信息期望(加权总和):E(E(收入)收入)=0.3333=0.3333*1+0.6667 1+0.6667*0.8050=0.8700 0.8050=0.8700Gain(Gain(收入收入)=I(257,127)-E()=I(257,127)-E(收入收入)=0.9157 0.8700=)=0.9157 0.8700=0.04570.04576.2 决策树分类算法决策树的建立-决策树建立步骤(例)老年组数据表分析:2.假定选择学生作节点I(257,127)=0.9157I(196,64)=0.
36、8051I(196,64)=0.8051比例比例:260/384=0.6771260/384=0.6771I(61,63)=0.9998I(61,63)=0.9998比例比例:124/384=0.3229124/384=0.3229平均信息期望(加权总和):平均信息期望(加权总和):E(E(学生)学生)=0.6771=0.6771*0.8051+0.3229 0.8051+0.3229*0.9998=0.8680 0.9998=0.8680Gain(Gain(学生学生)=I(257,127)-E()=I(257,127)-E(学生学生)=0.9157 0.8680=)=0.9157 0.868
37、0=0.04770.04776.2 决策树分类算法决策树的建立-决策树建立步骤(例)老年组数据表分析:3.假定选择信誉作节点I(257,127)=0.9157I(256,0)=0I(256,0)=0比例比例:256/384=0.6667256/384=0.6667I(1,127)=0.0659I(1,127)=0.0659比例比例:128/384=0.3333128/384=0.3333平均信息期望(加权总和):平均信息期望(加权总和):E(E(信誉)信誉)=0.6667=0.6667*0+0.3333 0+0.3333*0.0659=0.0220 0.0659=0.0220Gain(Gain
38、(信誉信誉)=I(257,127)-E()=I(257,127)-E(信誉信誉)=0.9157 0.0220=)=0.9157 0.0220=0.89370.8937结论结论:决定选择属性信誉决定选择属性信誉6.2 决策树分类算法决策树的建立-决策树建立步骤(例)年龄年龄青中老买买学生学生是否买买不买不买信誉信誉良优树叶树叶6.2 决策树分类算法决策树的建立-决策树建立步骤(例)年龄年龄青中老买买学生学生是否买买不买不买信誉信誉良优买买依据收入、学生再进一步分类6.2 决策树分类算法由决策树提取分类规则可提取决策树表示的知识,并以IF-THEN形式的分类规则表示对从根到树叶的每条路径创建一个规
39、则沿着给定路径上的每个属性-值对形成规则前件(IF部分)的一个合取项叶节点包含类预测,形成规则后件(THEN部分)IF-THEN规则易于理解,尤其树很大时示例:IF age=“=30”AND student=“no”THEN IF age=“=30”AND student=“no”THEN buys_computer=“no”buys_computer=“no”IF age=“=30”AND student=“yes”THEN IF age=“40”AND credit_rating=“excellent”THEN IF age=“40”AND credit_rating=“excellent
40、”THEN buys_computer=“yes”buys_computer=“yes”IF age=“40”AND credit_rating=“fair”THEN IF age=“40”AND credit_rating=“fair”THEN buys_computer=“no”buys_computer=“no”6.2 决策树分类算法决策树分类作业 写出下表决策树分类步骤及图,并以IF-THEN形式的分类规则表示 6个变量依次为:编号、天气晴、阴、雨、温度热、冷、适中、湿度高、正常、风力强、弱以及最后是否去玩的决策是、否。CHAID模块简介 CHAID:又叫卡方自动交叉检验(CHi-sq
41、uared Automatic Interaction Detector)在1980年,由Kass等人提出,它在建立决策树过程中主要是利用卡方统计量来寻找最优的分支节点。CHAID可产生多分枝的决策树 CHAID是建立在因果关系的探讨中的,依据目标变量实现对输入变量众多水平的划分 CHAID是市场研究和社会调查研究中应用比较广泛的方法 例如:市场细分研究;信件回复率研究;满意度研究CHAID模块应用及简单示例 现有数据Newschan.sav 导入数据 查看数据形式本数据是一个市场研究案例,目的通过已知的7个变量age,sex,education,income category,hours s
42、pent watching television each day,number of Children,number of organization来预测哪一类人更倾向通过网络购买一交互式新闻服务CHAID模块应用及简单示例模型执行结果首先用年龄变量进行分类,分成4类在对年龄大于23小于37的用性别进行分支,分为两支若模型的错判概率在我们可以接受的范围之内,则我们可以应用决策树模型进行预测,如若已知一名潜在顾客的年龄为20岁,则我们应用此决策树可以判断他购买这项服务的概率仅为18.605%。另外,厂家还可以利用决策树判断哪些人更具有购买倾向,从而在进行广告宣传时,更具有针对性。比如对于本例,
43、年龄在2337之间的男性及年龄在60岁以上的人更具有购买倾向,因此厂家可以对这部分人群进行更多的广告宣传,从而具有更大的命中性。贝叶斯分类朴素贝叶斯分类与贝叶斯网目标概念PlayTennis的训练样例 DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalSt
44、rongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNosupermarket分类:假设超市要进行红葡萄酒的促销,当一个顾客进入超市时有针对性的分类:假设超市要进行红葡萄酒的促销,当一个顾客进入超市时有针对性的对其进行重点介绍,这就要事先知道是哪些人对其进行重点介绍,这就要事先知道是哪些人(哪
45、类人?什么特征?哪类人?什么特征?)最有可最有可能会购买红葡萄酒,此时关注的是商品(红葡萄酒)与顾客个人信息(如性能会购买红葡萄酒,此时关注的是商品(红葡萄酒)与顾客个人信息(如性别、收入、年龄等)之间的关系。在进行挖掘时就要对原始表进行加工处理,别、收入、年龄等)之间的关系。在进行挖掘时就要对原始表进行加工处理,只保留需要的信息,并对部分信息进行转换。要怎么处理?只保留需要的信息,并对部分信息进行转换。要怎么处理?(电子教案)(电子教案)第七章聚类分析第七章聚类分析二、二、k-k-均值聚类均值聚类三、分层聚类或系统聚类三、分层聚类或系统聚类1.1聚类的理解 聚类问题不属于预测性的问题,它主要
46、解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚,人以群分”,故得名聚类。聚类问题容易与分类问题混淆,主要是语言表达的原因,因为我们常说这样的话:“根据客户的消费行为,我们把客户分成三个类,第一个类的主要特征是”,实际上这是一个聚类问题,但是在表达上容易让我们误解为这是个分类问题。分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。1.1聚类的理解 什么是聚类 聚类(Clustering)就是将数据分组成为多个类(Clust
47、er)。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。首先,基于数据的相似性把数据集合划分成组,然后给这些组指定标号。聚类的方法可以适应变化,能够挑选出区分不同组的有用特征。比如,要想把中国的县分成若干类,就有很多种分类法:可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。1.2聚类的应用 聚类分析无处不在 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来
48、刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置 股票市场板块分析,找出最具活力的板块龙头股 企业信用等级分类 生物学领域 推导植物和动物的分类;对基因分类,获得对种群的认识1.2聚类的应用 谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以.识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)1.2聚类的应用 挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客
49、户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!1.2聚类的应用 谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以 制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!1.3聚类分析原理介绍 聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分 聚类的数目和结构都没有事先假定 聚类方法的目的是寻找数据中:潜在的自然分组结构 感兴趣的关系二、二、k-k-均值聚类均值聚类 Clementine C
50、lementine 聚类模型聚类模型 K-means K-means 聚类聚类三、分层聚类或系统聚类三、分层聚类或系统聚类 Clementine Clementine 聚类模型聚类模型 Two Step Two Step二阶聚类算法二阶聚类算法K-means聚类 K-means聚类简介 K-mean又称快速聚类,是由Macqueen 于1967年提出的。K-means 目的是:把样品聚集成K个类的集合,要求同一类中样品彼此相似,而不同类间的样品差异较大。K的大小是事先确定好的。K-means基本思想是:把每个样品聚集到其最近形心(均值)类中去 K-means聚类 建立K-means模型的要求: