1、数据挖掘分类方法2023年1月16日星期一DMKD Sides By MAO2分类是数据挖掘中重要的任务 n分类的目的是学会一个分类器(分类函数或模型),该分类器能把待分类的数据映射到给定的类别中。n分类可用于预测。从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行类预测。n分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。n分类器的构造依据的方法很广泛:n统计方法:包括贝叶斯法和非参数法等。n机器学习方法:包括决策树法和规则归纳法。n神经网络方法。n其他,如粗糙集等(在前面绪论中也介绍了相关的情况)。2023年1月16日星期一DMKD Sides
2、By MAO3分类方法的类型n从使用的主要技术上看,可以把分类方法归结为四种类型:n基于距离的分类方法n决策树分类方法n贝叶斯分类方法n规则归纳方法。n本章将择选一些有代表性的方法和算法来介绍这四类分类方法。2023年1月16日星期一DMKD Sides By MAO4分类问题的描述n定义定义4-1 4-1 给定一个数据库 D=t1,t2,tn和一组类 C=C1,Cm,分类问题是去确定一个映射 f:DC,使得每个元组ti被分配到一个类中。一个类Cj 包含映射到该类中的所有元组,即Cj=ti|f(ti)=Cj,1 i n,而且ti D。n例如,把学生的百分制分数分成A、B、C、D、F五类,就是一
3、个分类问题:D是包含百分制分数在内的学生信息,C=A、B、C、D、F。n解决分类问题的关键是构造一个合适的分类器:从数据库到一组类别集的映射。一般地,这些类是被预先定义的、非交叠的。2023年1月16日星期一DMKD Sides By MAO5数据分类的两个步骤1 1建立一个模型,描述预定的数据类集或概念集建立一个模型,描述预定的数据类集或概念集n数据元组也称作样本、实例或对象。n为建立模型而被分析的数据元组形成训练数据集。n训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。n通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。
4、n2 2使用模型进行分类使用模型进行分类n首先评估模型(分类法)的预测准确率。n如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。2023年1月16日星期一DMKD Sides By MAO6第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2023年1月16日星期一DMKD Sides By MAO7基于距离的分类算法的思路n定义定义4-2 4-2 给定一个数据库给定一个数据库 D D=t t1 1,t t2 2,t tn n 和一和一组类组类C C=C C
5、1 1,C Cmm。假定每个元组包括一些数。假定每个元组包括一些数值型的属性值:值型的属性值:t ti i=t ti1 i1,t ti2i2,t tik ik,每个类也包,每个类也包含数值性属性值:含数值性属性值:C Cj j=C Cj1 j1,C Cj2j2,C Cjk jk,则分,则分类问题是要分配每个类问题是要分配每个t ti i到满足如下条件的类到满足如下条件的类C Cj j:simsim(t ti i,C Cj j)=)=simsim(t ti i,C Cl l),C Cl lC C,C Cl lC Cj j,其中其中simsim(t ti i,C Cj j)被称为相似性。被称为相似
6、性。n在实际的计算中往往用距离来表征,距离越近,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。相似性越大,距离越远,相似性越小。n距离的计算方法有多种,最常用的是通过计算每距离的计算方法有多种,最常用的是通过计算每个类的中心来完成。个类的中心来完成。2023年1月16日星期一DMKD Sides By MAO8 基于距离的分类算法的一般性描述n算法 4-1通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。算法算法 4-1 基于距离的分类算法输入:每个类的中心C1,Cm;待分类的元组t。输出:输出类别c。(1)dist=;/距离初
7、始化(2)FOR i:=1 to m DO(3)IF dis(ci,t)dist THEN BEGIN(4)c i;(5)distdist(ci,t);(6)END.2023年1月16日星期一DMKD Sides By MAO9基于距离的分类方法的直观解释(a)类定义(b)待分类样例(c)分类结果2023年1月16日星期一DMKD Sides By MAO10K-近邻分类算法nK-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。算法算法
8、 4-2 K-近邻分类算法近邻分类算法输入:输入:训练数据训练数据T;近邻数目;近邻数目K;待分类的元组;待分类的元组t。输出:输出:输出类别输出类别c。(1)N=;(2)FOR each d T DO BEGIN(3)IF|N|K THEN(4)N=N d;(5)ELSE(6)IF u N such that sim(t,u)sim(t,d)THEN BEGIN(7)N=N-u;(8)N=N d;(9)END(10)END(11)c=class to which the most u N.2023年1月16日星期一DMKD Sides By MAO11KNN的例子姓名性别 身高(米)类别Kr
9、istina女 1.6矮Jim男 2高Maggie女 1.9中等Martha女 1.88中等Stephanie女 1.7矮Bob男 1.85中等Kathy女 1.6矮Dave男 1.7矮Worth男 2.2高Steven男 2.1高Debbie女 1.8中等Todd男 1.95中等Kim女 1.9中等Amy女 1.8中等Wynette女 1.75中等“高度”用于计算距离,K=5,对对分类分类。对T前K=5个记录,N=、和。对第6个记录d=,得到N=、和。对第7个记录d=,得到N=、和。对第8个记录d=,得到N=、和。对第9和10个记录,没变化。对第11个记录d=,得到N=、和。对第12到14个
10、记录,没变化。对第15个记录d=,得到N=、和。最后的输出元组是、和。在这五项中,四个属于矮个、一个属于中等。最终KNN方法认为Pat为矮个。2023年1月16日星期一DMKD Sides By MAO12第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2023年1月16日星期一DMKD Sides By MAO13决策树表示与例子n决策树(Decision Tree)的每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。
11、n buys_computer的决策树示意 第九条 本办法由印发之日起实行。(1)“合同”系指买方和卖方签署的、合同格式中载明的买卖双方所达成的协议,包括所有的附件、附录和上述文件所提到的构成合同的所有文件。评标委员会根据招标文件规定,首先对投标人进行资格审查,详细审阅各投标人提交的资格证明文件,资格审查不合格的投标人不再进入下一阶段评审。4、安全培训内容3.3使用通过受让或者租借等方式获取的资格、资质证书投标的,属于以他人名义投标。投标人有下列情形之一的,属于以其他方式弄虚作假的行为:34.2 在评标期间,投标人企图影响招标人、招标代理机构和评标委员会而获得评标信息的任何活动,都将导致其投标
12、被拒绝,并承担相应的法律责任。29.1 评标将严格按照招标文件第四章规定的评标标准及方法以及国家有关法律、法规的要求进行。3.2 国家水泥企业质量管理规程2、装修管理顾客满意是任何企业的核心价值,企业只有努力提供自身的服务能力,才能提高市场竞争力。服务能力的提高,有赖于顾客满意服务策略和制度的规划与执行。没有全面顾客服务制度的建立,相应的技术执行也就失去了方向。17.2 在履行合同过程中,如果卖方遇到妨碍按时交货和提供服务的情况时,应及时以书面形式将拖延的事实,可能拖延的时间和原因通知买方。买方在收到卖方通知后,应尽快对情况进行评价,并确定是否通过修改合同延长交货时间。2023年1月16日星期
13、一DMKD Sides By MAO14决策树分类的特点n决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分枝,在决策树的叶结点得到结论。所以从决策树的根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。n基于决策树的分类算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这同时也是它的最大的缺点),只要训练例子能够用属性-结论式表示出来,就能使用该算法来学习。n决策树分类模型的建立通常分为两个步骤:n决策树生成n决策树修剪。2023年1月16日星期一DMKD Sides By MAO15决
14、策树生成算法描述n构造好的决策树的关键在于如何选择好的属性进行树的拓展。研究结果表明,构造好的决策树的关键在于如何选择好的属性进行树的拓展。研究结果表明,一般情况下一般情况下,树越小则树的预测能力越强。由于构造最小的树是树越小则树的预测能力越强。由于构造最小的树是NP-NP-难问题,难问题,因此只能采取用启发式策略来进行。因此只能采取用启发式策略来进行。n属性选择依赖于各种对例子子集的不纯度(属性选择依赖于各种对例子子集的不纯度(ImpurityImpurity)度量方法,包括信息增)度量方法,包括信息增益(益(Informatin GainInformatin Gain)、信息增益比()、信
15、息增益比(Gain RatioGain Ratio)、)、Gini-indexGini-index、距离度量、距离度量(Distance MeasureDistance Measure)、)、J-J-measuremeasure、G G统计、统计、22统计、证据权重(统计、证据权重(Weight of Weight of EvidenceEvidence)、最小描述长度()、最小描述长度(MLPMLP)、正交法()、正交法(Ortogonality MeasureOrtogonality Measure)、相)、相关度(关度(RelevanceRelevance)和)和 ReliefRelie
16、f等。等。算法 4-3 Generate_decision_tree(samples,attribute_list)/*决策树生成算法*/输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list。输出:一棵决策树。(1)创建结点N;(2)IF samples 都在同一个类C THEN 返回N 作为叶结点,以类 C标记;(3)IF attribute_list为空 THEN 返回N作为叶结点,标记为samples中最普通的类;/多数表决(4)选择attribute_list中具有最高信息增益的属性test_attribute;(5)标记结点N为test_attr
17、ibute;(6)FOR each test_attribute中的已知值ai 由结点N长出一个条件为test_attribute=ai的分枝;(7)设si是samples 中test_attribute=ai的样本的集合;/一个划分(8)IF si 为空 THEN 加上一个树叶,标记为samples中最普通的类;(9)ELSE 加上一个由Generate_decision_tree(si,attribute_list-test_attribute)返回的结点;2023年1月16日星期一DMKD Sides By MAO16决策树修剪算法n基本的决策树构造算法没有考虑噪声,因此生成的决策树完全
18、与训练例子拟合。在有噪声情况下,将导致过分拟合(Overfitting),即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。n现实世界的数据一般不可能是完美的,可能缺值(Missing Values);数据不完整;含有噪声甚至是错误的。n剪枝是一种克服噪声的基本技术,同时它也能使树得到简化而变得更容易理解。有两种基本的剪枝策略:n预先剪枝预先剪枝(Pre-Pruning):在生成树的同时决定是继续对不纯的训练子集进行划分还是停机。n后剪枝后剪枝(Post-Pruning):是一种拟合+化简(fitting-and-simplifying)的两阶段方法。首先生成与训练数据完全拟合的一棵决
19、策树,然后从树的叶子开始剪枝,逐步向根的方向剪。剪枝时要用到一个测试数据集合(Tuning Set或Adjusting Set),如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),则剪去该叶子;否则停机。理论上讲,后剪枝好于预先剪枝,但计算复杂度大。n剪枝过程中一般要涉及一些统计参数或阈值(如停机阈值)。要防止过分剪枝(Over-Pruning)带来的副作用。2023年1月16日星期一DMKD Sides By MAO17ID3算法nID3是Quinlan提出的一个著名决策树生成方法:n决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表
20、从树根到叶结点之间的路径对应的记录所属的类别属性值。n每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。n采用信息增益来选择能够最好地将样本分类的属性。n为了聚焦重点,将对ID3算法采用如下方式讲解:n伪代码详细描述见课本;n给出信息增益对应的计算公式;n通过一个例子来说明它的主要过程。2023年1月16日星期一DMKD Sides By MAO18信息增益的计算n设S是s个数据样本的集合,定义m个不同类Ci(i=1,2,m),设si是Ci类中的样本数。对给定的样本S所期望的信息值由下式给出:其中pi是任意样本属于Ci的概率:si/s。n设属性A具有个不同值a1,a2,av,可以用属
21、性A将样本S划分为 S1,S2,Sv,设sij 是Sj中Ci类的样本数,则由A划分成子集的熵由下式给出:n有A进行分枝将获得的信息增益可以由下面的公式得到:miiimppsssI1221)(log),.,()s,.,s(Iss.sE(A)mjjvjmjj111E(A)s,.,s,I(sGain(A)m212023年1月16日星期一DMKD Sides By MAO19ID3算法例子样本数据warm_bloodedfeathersfurswimslays_eggs111001200011311001411001510010610100 假设目标分类属性是lays_eggs,计算Gain(lays
22、_eggs):warm_blooded=1,warm_blooded=0,类似的,Gain(feathers)=0.459;Gain(fur)=0.316;Gain(swims)=0.044。971.0)(2 321,112111ssIss,0)(0 122,122212ssIss,0.809)(61)(65)(22,1221,11ssIssIedwarm_bloodE189062log6264log64)24()(2221.IssI,162.0)()()(2,1edwarm_bloodEssIedwarm_bloodGain由于feathers在属性中具有最高的信息增益,所以它首先被选作测试
23、属性。并以此创建一个结点,数据集被划分成两个子集。2023年1月16日星期一DMKD Sides By MAO20ID3算法例子(续)n根据feathers的取值,数据集被划分成两个子集n对于feathers=1的所有元组,其目标分类属性=lays_eggs均为1。所以,得到一个叶子结点。n对于feathers=0的右子树,计算其他属性信息增益:nGain(Gain(warm_bloodedwarm_blooded)=0.918)=0.918nGain(Gain(furfur)=0.318)=0.318nGain(Gain(swimsswims)=0.318)=0.318n根据warm_blo
24、oded的取值,左右子树均可得到叶子结点,结束。2023年1月16日星期一DMKD Sides By MAO21ID3算法的性能分析nID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。nID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。nID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。nID3算法只能处理离散值的属性
25、。n信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,如果有一个属性为日期,那么将有大量取值,这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树,这棵树可以理想地分类训练数据,但是对于测试数据的分类性能可能会相当差。nID3算法增长树的每一个分支的深度,直到恰好能对训练样例完美地分类。当数据中有噪声或训练样例的数量太少时,产生的树会过渡拟合训练样例。2023年1月16日星期一DMKD Sides By MAO22C4.5算法对ID3的主要改进nC4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的
26、功能:n用信息增益比例的概念;n合并具有连续属性的值;n可以处理具有缺少属性值的训练样本;n通过使用不同的修剪技术以避免树的过度拟合;nK交叉验证;n规则的产生方式等。2023年1月16日星期一DMKD Sides By MAO23信息增益比例的概念n信息增益比例是在信息增益概念基础上发展起来的,一个属性的信息增益比例用下面的公式给出:其中假如我们以属性A的值为基准对样本进行分割的化,Splitl(A)就是前面熵的概念。)()()(ASplitIAGainAGainRatio)(log)(12jvjjppASplitI2023年1月16日星期一DMKD Sides By MAO24C4.5处理
27、连续值的属性n对于连续属性值,C4.5其处理过程如下:n根据属性的值,对数据集排序;n用不同的阈值将数据集动态的进行划分;n当输出改变时确定一个阈值;n取两个实际值中的中点作为一个阈值;n取两个划分,所有样本都在这两个划分中;n得到所有可能的阈值、增益及增益比;n在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。n简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j=1,2,n),将所有的记录进行划分:一部分小于vj;另一部分则大于或等于vj。针对每个vj计算划分对应的增益比率,选择增益最大的划分来对属性A进行离散化。2023年
28、1月16日星期一DMKD Sides By MAO25C4.5的其他处理 nC4.5处理的样本中可以含有未知属性值,其处理方法是用最常用的值替代或者是将最常用的值分在同一类中。n具体采用概率的方法,依据属性已知的值,对属性和每一个值赋予一个概率,取得这些概率,取得这些概率依赖于该属性已知的值。n规则的产生:规则的产生:一旦树被建立,就可以把树转换成if-then规则。n规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。3、不合格气瓶处理制度9.1 竞争性磋商响应人应提交一笔不少于本竞争性磋商文件规定的人民币金额的磋商保证金。成交供应商的磋
29、商保证金,在合同签订生效后五个工作日内退还,未成交者的磋商保证金在结果公告发布后的五个工作日内退还。药品销售的第一步是进入医院,药品进入医院应从以下几点进行:2、对用户进行多种形式的培训(2)在缺陷责任期结束之前,根据有关承包合同,负责督促承包方履行合同义务。(3)投标文件载明的设备包装方式、检验标准和方法等不符合招标文件的要求;“客户的难题就是我们的课题”服务要想做得好,就必须具备这样的观念和理念,没有这种理念、心态和气度,服务肯定是做不好的。17.3 如卖方无正当理由而拖延交货,将受到以下制裁:没收履约保证金,加收误期赔偿或违约终止合同。(1)对工作进行量化、细化、管理、监控。本次采购将依
30、法根据本次招标的特点抽选专家并组建评标委员会,其成员由抽选的技术和经济专家以及招标人代表等五人及以上单数组成。评标委员会负责对投标文件进行审查、质疑、评审,确定入围投标人、中标候选人。7.2 竞争性磋商响应最终报价为闭口价,即中标后在合同有效期内价格不变。2023年1月16日星期一DMKD Sides By MAO26C4.5算法例子样本数据OutlookTemperatureHumidityWindPlayTennisSunnyHot85falseNoSunnyHot90trueNoOvercastHot78falseYesRainMild96falseYesRainCool80falseY
31、esRainCool70trueNoOvercastCool65trueYesSunnyMild95falseNoSunnyCool70falseYesRainMild80falseYesSunnyMild70trueYesOvercastMild90trueYesOvercastHot75falseYesRainMild80trueNo(1)首先对Humidity进行属性离散化,针对上面的训练集合,通过检测每个划分而确定最好的划分在75处,则这个属性的范围就变为(75)。(2)计算目标属性PlayTennis分类的期望信息:(3)计算每个属性的GainRatio:(4)选取最大的GainRa
32、tio,根据Outlook的取值,将三分枝。(5)再扩展各分枝节点,得到最终的决策树(见课本图4-7)。940.0145log145149log149)5,9(),(2221 IssI0.0483 Humidity)GainRatio(0.0248 e)TemperaturGainRatio(049.0)(156.0577.12467.0)(;windyGainRatioOutlookGainRatio2023年1月16日星期一DMKD Sides By MAO27第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规
33、则归纳 n与分类有关的问题 2023年1月16日星期一DMKD Sides By MAO28贝叶斯分类n定义定义4-2 4-2 设设X X是类标号未知的数据样本。设是类标号未知的数据样本。设H H为某种假定,为某种假定,如数据样本如数据样本X X属于某特定的类属于某特定的类C C。对于分类问题,我们希望对于分类问题,我们希望确定确定P(H|X)P(H|X),即给定观测数据样本即给定观测数据样本X X,假定假定H H成立的概率。成立的概率。贝叶斯定理给出了如下计算贝叶斯定理给出了如下计算P(H|X)P(H|X)的简单有效的方法的简单有效的方法:nP(H)P(H)是先验概率是先验概率,或称或称H
34、H的先验概率。的先验概率。P(X|H)P(X|H)代表假设代表假设H H成立的情况下,观察到成立的情况下,观察到X X的概率。的概率。P(H|X)P(H|X)是后验概率是后验概率,或或称条件称条件X X下下H H的后验概率。的后验概率。n例如,假定数据样本域由水果组成,用它们的颜色和形状例如,假定数据样本域由水果组成,用它们的颜色和形状来描述。假定来描述。假定X X表示红色和圆的,表示红色和圆的,H H表示假定表示假定X X是苹果,则是苹果,则P(H|X)P(H|X)反映当我们看到反映当我们看到X X是红色并是圆的时,我们对是红色并是圆的时,我们对X X是是苹果的确信程度。苹果的确信程度。n贝
35、叶斯分类器对两种数据具有较好的分类效果:一种是完贝叶斯分类器对两种数据具有较好的分类效果:一种是完全独立的数据,另一种是函数依赖的数据。全独立的数据,另一种是函数依赖的数据。)()()|()|(XPHPHXPXHP2023年1月16日星期一DMKD Sides By MAO29朴素贝叶斯分类n朴素贝叶斯分类的工作过程如下:朴素贝叶斯分类的工作过程如下:n(1)(1)每个数据样本用一个每个数据样本用一个n n维特征向量维特征向量X X=x x1 1,x x2 2,x xn n 表示,分别描述对表示,分别描述对n n个属性个属性A A1 1,A A2 2,A An n样本的样本的n n个个度量。度
36、量。n(2)(2)假定有假定有mm个类个类C C1 1,C C2 2,C Cmm,给定一个未知的数据给定一个未知的数据样本样本X X(即没有类标号),分类器将预测即没有类标号),分类器将预测X X属于具有最高后属于具有最高后验概率(条件验概率(条件X X下)的类。也就是说,朴素贝叶斯分类将下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类未知的样本分配给类C Ci i(11i imm)当且仅当当且仅当P P(C Ci i|X X)P P(C Cj j|X X),对任意的对任意的j j=1=1,2 2,mm,j ji i。这样,最大化这样,最大化P P(C Ci i|X X)。其其P P(C
37、 Ci i|X X)最大的类最大的类C Ci i称为最大后验假定。根据贝称为最大后验假定。根据贝叶斯定理叶斯定理)()()|()|(XPCPCXPXCPiii2023年1月16日星期一DMKD Sides By MAO30朴素贝叶斯分类(续)(3)(3)由于由于P P(X X)对于所有类为常数,只需要对于所有类为常数,只需要P P(X X|C Ci i)*P P(C Ci i)最大即最大即可。如果可。如果C Ci i类的先验概率未知,则通常假定这些类是等概类的先验概率未知,则通常假定这些类是等概率的,即率的,即P P(C C1 1)=)=P P(C C2 2)=)=P P(C Cmm),因此问
38、题就转换为对因此问题就转换为对P P(X X|C Ci i)的最大化(的最大化(P P(X X|C Ci i)常被称为给定常被称为给定C Ci i时数据时数据X X的似然的似然度,而使度,而使P P(X X|C Ci i)最大的假设最大的假设C Ci i称为最大似然假设)。否则,称为最大似然假设)。否则,需要最大化需要最大化P P(X X|C Ci i)*P P(C Ci i)。注意,类的先验概率可以用注意,类的先验概率可以用P(P(C Ci i)=)=s si i/s s计算,其中计算,其中s si i是类是类C Ci i中的训练样本数,而中的训练样本数,而s s是训练是训练样本总数样本总数
39、。(4)(4)给定具有许多属性的数据集,计算给定具有许多属性的数据集,计算P P(X X|C Ci i)的开销可能非的开销可能非常大。为降低计算常大。为降低计算P P(X X|C Ci i)的开销,可以做类条件独立的朴的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样即在属性间,不存在依赖关系。这样 )|()|(1inkkiCxPCXP2023年1月16日星期一DMKD Sides By MAO31朴素贝叶斯分类(续)其中概率其中概率P P(x x1 1|C Ci i),P P(x x
40、2 2|C Ci i),P P(x xn n|C Ci i)可以由训练样本估值。可以由训练样本估值。n如果如果A Ak k是离散属性,则是离散属性,则P P(x xk k|C Ci i)=)=s sikik|s si i,其中其中s sikik是在属性是在属性A Ak k上具有值上具有值x xk k的的类类C Ci i的训练样本数,而的训练样本数,而s si i是是C Ci i中的训练样本数。中的训练样本数。n如果如果A Ak k是连续值属性,则通常假定该属性服从高斯分布。因而,是连续值属性,则通常假定该属性服从高斯分布。因而,是高斯分布函数,是高斯分布函数,而分别为平均值和标准差。而分别为平
41、均值和标准差。n(5)(5)对未知样本对未知样本X X分类,也就是对每个类分类,也就是对每个类C Ci i,计算计算P(P(X X|C Ci i)*P(P(C Ci i)。样本样本X X被指派到类被指派到类C Ci i,当且仅当当且仅当P(P(C Ci i|X X)P(P(C Cj j|X X),11j jmm,j ji i,换言之,换言之,X X被指派到其被指派到其P(P(X X|C Ci i)*P(P(C Ci i)最大的类。最大的类。22)(21),()|(iiiiicckccckikxexgCxP),(iicckxgiicc,2023年1月16日星期一DMKD Sides By MAO
42、32朴素贝叶斯分类举例样本数据 Ageincomestudentcredit_ratingbuy_computer=30 High NoFairNo40 Medium NoFairYes40 Low YesFairYes40 Low YesExcellentNo3140 Low YesExcellentYes=30 Medium NoFairNo40 Medium YesFairYes40 Medium NoExcellentNo(1)我们需要最大化P(X|Ci)*P(Ci),i=1,2。每个类的先验概率P(Ci)可以根据训练样本计算:P(buys_computer=”yes”)=9/14=0
43、.643,P(buys_computer=”no”)=5/14=0.357。(2)为计算P(X|Ci),i=1,2,我们计算下面的条件概率:P(age=30|buys_computer=”yes”)=2/9=0.222,P(age=30”|buys_computer=”no”)=3/5=0.600,P(income=”medium”|buys_computer=”yes”)=4/9=0.444,P(income=”medium”|buys_computer=”no”)=2/5=0.400,P(student=”yes”|buys_computer=”yes”)=6/9=0.677,P(stud
44、ent=”yes”|buys_computer=”no”)=1/5=0.200,P(credit_rating=”fair”|buys_computer=”yes”)=6/9=0.667,P(credit_rating=”fair”|buys_computer=”no”)=2/5=0.400。(3)假设条件独立性,使用以上概率,我们得到:P(X|buys_computer=”yes”P(X|buys_computer=”no”P(X|buys_computer=”yes”)*P(buys_computer=”yes”)=P(X|buys_computer=”no”)*P(buys_comput
45、er=”no”)=因 此,对 于 样 本 X,朴 素 贝 叶 斯 分 类 预 测buys_computer=”yes”。数据样本用属性ageage,incomeincome,studentstudent和credit_ratingcredit_rating描述。类标号属性buys_computerbuys_computer具有两个不同值(即yesyes,nono)。设C1对应于类buys_computer=”yes”,而C2对应于类buys_computer=”no”。我们希望分类的未知样本为:X=(age=”=30”,income=”medium”,student=”yes”,credit_
46、rating=”fair”)。2023年1月16日星期一DMKD Sides By MAO33第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n规则归纳 n与分类有关的问题 2023年1月16日星期一DMKD Sides By MAO34规则归纳n 常见的采用规则表示的分类器构造方法有:n利用规则归纳技术直接生成规则n利用决策树方法先生成决策树,然后再把决策树转换为规则;n使用粗糙集方法生成规则;n使用遗传算法中的分类器技术生成规则等。n 本节将只讨论规则归纳方法。我们这里讨论的规则归纳算法,可以直接学习规则集合,这
47、一点与决策树方法、遗传算法有两点关键的不同。n它们可学习包含变量的一阶规则集合:这一点很重要,因为一阶子句的表达能力比命题规则要强得多。n这里讨论的算法使用序列覆盖算法:一次学习一个规则,以递增的方式形成最终的规则集合。2023年1月16日星期一DMKD Sides By MAO35规则归纳(续)n规则归纳有四种策略:减法、加法,先加后减、先减后加策略。n减法策略减法策略:以具体例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了方便,我们不考虑增加析取项的推广),使推广后的例子或规则不覆盖任何反例。n加法策略加法策略:起始假设规则的条件部分为空(永真规则),如果该规
48、则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。n先加后减策略先加后减策略:由于属性间存在相关性,因此可能某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件。n先减后加策略先减后加策略:道理同先加后减,也是为了处理属性间的相关性。n典型的规则归纳算法有AQ、CN2和FOIL等。2023年1月16日星期一DMKD Sides By MAO36 AQ算法n AQ算法利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法,洪家荣改进的AQ15方法以及洪家荣的AE5方法。nAQR是一个基于最基本AQ算法的归纳算法。其实,在很
49、多的算法中,都采用了基本AQ算法,象AQ11和GEM。但和其它方法比较而言,AQR更加简单一些,如在AQ11中使用一种复杂的包括置信度的规则推导方法。下面我们首先对AQR算法进行概念描述,然后介绍算法描述和相关例子,最后分析其性能。2023年1月16日星期一DMKD Sides By MAO37AQR算法有关定义nAQR为每一个分类推导出一条规则,每一条规则形式如下:if then predict。n在一个属性上的基本测试被称为一个Selector。下面是一些Selector的例子:或60。nAQR允许测试做=,。Selectors的合取被称为复合(Complex),Complexes之间的析
50、取被称为覆盖(Cover)。如果一个表达式对某个样本为真,则我们称其为对这个样本的一个覆盖。这样,一个空Complex覆盖所有的样本,而一个空Cover不覆盖任何样本。n在AQR中,一个新样本被区分是看其属于哪个推导出来的规则。如果该样本只满足一条规则,则这个样本就属于这条规则;如果该样本满足多条规则,则被这些规则所预测的最频繁的分类被赋予这条规则;如果该样本不属于任何规则,则其分类为样本集中最频繁的分类。2023年1月16日星期一DMKD Sides By MAO38 AQR算法描述算法算法 4-5 AQR输入:正例样本POS;反例样本NEG。输出:覆盖COVER。(1)COVER=;/初始