分类-自然语言中的重要技术.ppt课件.ppt_163文库

资源描述

1、分类IRLAB1感谢你的观看2019年8月25大纲自然语言中的重要技术决策树最大熵模型 K近邻2感谢你的观看2019年8月25自然语言中的分类问题3感谢你的观看2019年8月25分类的一般过程训练集数学模型训练过程测试集评价精确率，宏平均，微平均4感谢你的观看2019年8月25本课介绍的几种方法决策树最大熵模型 K近邻5感谢你的观看2019年8月25决策树简介决策树表示法决策树学习的适用问题基本的决策树学习算法决策树学习中的假想空间搜索决策树学习的常见问题6感谢你的观看2019年8月25简介决策树方法的起源是概念学习系统CLS，然后发展到ID3方法而为高潮

2、，最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART和Assistant。是应用最广的归纳推理算法之一一种逼近离散值目标函数的方法对噪声数据有很好的健壮性且能学习析取表达式7感谢你的观看2019年8月25决策树的表示法决策树通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。树上的每一个节点说明了对实例的某个属性的测试，并且该节点的每一个后继分支对应于该属性的一个可能值8感谢你的观看2019年8月25图9感谢你的观看2019年8月25表达式10感谢你的观看2019年8月25决策树学习的适用问题实例是由属性-值对表示的目标函数具有离散的输出值

3、可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例11感谢你的观看2019年8月25属性选择构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子，可以有很多决策树能符合这组例子。人们研究出，一般情况下或具有较大概率地说，树越小则树的预测能力越强。要构造尽可能小的决策树，关键在于选择恰当的逻辑判断或属性。由于构造最小的树是NP-难问题，因此只能采取用启发式策略选择好的逻辑判断或属性。 12感谢你的观看2019年8月25用熵度量样例的均一性（纯度）熵的定义举例13感谢你的观看2019年8月2514感谢你的观看2019年8月25用信息增益度量期望熵最低1

4、5感谢你的观看2019年8月25举例16感谢你的观看2019年8月2517感谢你的观看2019年8月2518感谢你的观看2019年8月2519感谢你的观看2019年8月2520感谢你的观看2019年8月25ID3算法创建树的Root结点如果Examples都为正，那么返回label=+中的单结点Root如果Examples都为反，那么返回lable=-单结点树Root如果Attributes为空，那么返回单节点树Root，lable=Examples中最普遍的目标属性值否则开始AAttributes中分类能力最好的属性Root的决策属性A对于每个可能值在Root下加一个新的分支对应测试A=v

5、i令Example-vi为Examples中满足A属性值为vi的子集如果Examples-vi为空在这个新分支下加一个叶子结点，节点的lable=Examples中最普遍的目标属性值否则在这个新分支下加一个子树ID3(example-vi,target-attribute,attributes-|A|结束返回 Root21感谢你的观看2019年8月25C4.5 C4.5是对ID3的改进算法对连续值的处理对未知特征值的处理对决策树进行剪枝规则的派生22感谢你的观看2019年8月25决策树学习中的假设空间搜索假设空间 ID3算法中的假设空间包含所有的决策树当遍历决策树空间时，ID3仅

6、维护单一的当前假设。基本的ID3算法在搜索中不进行回溯 ID3算法在搜索的每一步都使用当前的所有训练样例23感谢你的观看2019年8月25决策树学习的常见问题(1) 避免过度拟合数据基本的决策树构造算法没有考虑噪声，生成的决策树完全与训练例子拟合。有噪声情况下，完全拟合将导致过分拟合（overfitting），即对训练数据的完全拟合反而不具有很好的预测性能。 24感谢你的观看2019年8月25解决方法剪枝是一种克服噪声的技术，同时它也能使树得到简化而变得更容易理解。向前剪枝（forward pruning）向后剪枝（backward pruning）理论上讲，向后剪枝好于向前剪枝，但计算

7、复杂度大。剪枝过程中一般要涉及一些统计参数或阈值，如停机阈值；有人提出了一种和统计参数无关的基于最小描述长（MDL）的有效剪枝法 25感谢你的观看2019年8月25决策树学习的常见问题（2）合并连续值属性属性选择的其他度量标准信息增益比（gain ratio）、Gini-index、距离度量（distance measure）等。不同的度量有不同的效果，特别是对于多值属性。26感谢你的观看2019年8月25决策树学习的常见问题（3）处理缺少属性值的训练样例处理不同代价的属性27感谢你的观看2019年8月25决策树的优点可以生成可以理解的规则；计算量相对来说不是很大；可以处理连续和离

8、散字段；决策树可以清晰的显示哪些字段比较重要28感谢你的观看2019年8月25不足之处对连续性的字段比较难预测当类别太多时，错误可能会增加的比较快一般的算法分类的时候，只是根据一个属性来分类。不是全局最优。29感谢你的观看2019年8月25举例：利用决策树进行文本分类30感谢你的观看2019年8月25最大熵模型熵定量的描述事物的不确定性熵定量的描述事物的不确定性设随机变量设随机变量，它有，它有A1，A2，An共共n n个个可能的结局，每个结局出现的机率分别为可能的结局，每个结局出现的机率分别为p1, ,p2 ，.，pn，则，则的不确定程度，即信息的不确定程度，即信息熵为熵为: :

9、熵越大，越不确定熵越大，越不确定熵等于熵等于0，变量是确定的，变量是确定的niippH1log)(31感谢你的观看2019年8月25最大熵思想最大熵思想由来已久，Occam在他著名的Occam剃刀理论中即体现了这种思想，对最大熵理论的系统论述出现在上世纪50年代中期，由E.T. Jaynes提出，其原理的基本思想是：我们从全部相容的分布预测中挑选这样的预测，它是在某些约束条件下（通常是给定的某些随机变量的分布）使信息熵达到极大值。这是因为信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势。 32感谢你的观看2019年8月25在自然语言中的应用 S.Pietra、V.Pietra等人提

10、出了一种基于最大熵原理的单词聚类方法，首次将最大熵理论应用于自然语言处理。 A.L.Berger、S.Pietra、V.Pietra等人比较详细地介绍了最大熵的理论框架，并介绍了其在基于统计的机器翻译领域的一些应用。 S.Abney在统计属性-值文法(Attribute-value Grammars)中使用最大熵进行参数估计。李涓子、黄昌宁改进了最大熵的特征选择策略，并将其应用于汉语的词义消歧，取得了较好的效果 A.Borthwick研究了基于最大熵的名实体(Named Entity)的识别 33感谢你的观看2019年8月25最大熵模型已知训练样本集(x1,y1),(x2,y2),(xN,y

11、N),其中x为输入，y为输出指x出现的情况下，y的经验概率，也就是y在样本集中的概率。指x出现的情况下，y的实际概率。随机事件的不确定性可以用条件熵来衡量：特征指x与y之间存在的某种特定关系，可以用一个输出为0或1的特征函数表示。 otherwise 0book NP,n n if 1),(的核心xxyyxfyxxypxypxppH,)|(log)|()()(34感谢你的观看2019年8月25最大熵模型特征的经验概率为所有满足特征要求的(x,y)的验概率之和,即：特征的期望概率,也就是特征在我们所学习的随机事件中的真实分布为： yxyxfxypxpfp,),()|()()(yxyxfxy

12、pxpfp,),()|()()(35感谢你的观看2019年8月25最大熵模型选定的特征的重要性可通过下式体现：上式表示，特征f的经验概率与期望概率一致，当样本足够多时，可信度高的特征的经验概率与期望概率是一致的 )()(fpfpyxyxyxfyxpyxfxypxp,),(),(),()|()(36感谢你的观看2019年8月25约束集根据随机事件的情况，约束等式可以有多组，约束等式的集合叫约束集，可表示为 ),.2 , 1 , )()(nifpfpCii37感谢你的观看2019年8月25最大熵模型最大熵模型，是满足约束集条件的所有模型中熵最大的模型，即：其中p为满足约束集C条件的某一统

13、计模型。因为约束集中的每一个特征的分布是最大似然估计，所以约束集中元素越多，统计模型从训练样本中学得的越多，其做出的预测也越依赖于样本集。选择特征较多时，满足约束集要求的统计模型个数较少，当把样本中的所有(x,y)都作为特征时，模型唯一，为用极大似然估计求p(y|x)所建立的模型。 )( maxarg*pHp 38感谢你的观看2019年8月25最大熵模型求解最大熵模型求解问题，实质是一个约束条件下求极值的问题。此类问题通常用拉格朗日乘子法确定。其中：iiiifpfppHp)()()(),(yxxypxypxppH,)|(log)|()()(yxyxfyxpfp,),(),()(yxyxfxy

14、pxpfp,),()|()()(39感谢你的观看2019年8月25 求导后变换得其中最大值可通过求 ) ),(exp()|()(1iiixZyxfxypyiiyxfxZ),(exp()()(maxarg*40感谢你的观看2019年8月25 没有解析解，Danroch 和Rateliff于1972年提出了一个称为GIS(Generalized Iterative Scaling Algorithm)算法133。D.Pietra等改进了原有的最大熵模型求解算法，降低了求解算法的约束条件，提出了IIS(Improved Iterative Scaling Algorithm)算法，增加了算法的适

15、用性，IIS算法是目前最大熵参数求解中的常用算法。 *41感谢你的观看2019年8月25IIS算法IIS算法如下：输入：约束集， x，y的经验概率分布输出：1、初始令，2、 for i=1 to n 循环a) 令为下面方程的解其中，由(3-3)对f的定义可知在本文中为某一实例(x,y)包含的特征数量。b) c) 重复 a)至收敛3、算法结束),.2 , 1 , )()(nifpfpCii),(yxp*0i,.,2 , 1niiyxiiifpyxfyxfxypxp,#)(),(exp(),()|()(niiyxfyxf1#),(),(iiiin,.,1*42感谢你的观看2019年8

16、月25 这里求解使用牛顿迭代法 yxininfpyxfayxfxypxpag,#)(),(exp(),()|()()(yxnnyxfafxypxpag,#),(exp()|()()(43感谢你的观看2019年8月25迭代算法1 初始令 i=0, ai=023 当 , i+, 循环至2，4 算法结束, 为方程解， = 。)()(1iiagagiiaa某一较小常数| )()(|1iiagagiaiia44感谢你的观看2019年8月25最大熵统计模型的优点最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型。其次最大熵统计模型可以灵活地设置约束条件。通过约束条件的多少可以调节模型对未知

17、数据的适应度和对已知数据的拟合程度。另外最大熵模型还自然地解决了统计模型中参数平滑的问题。 45感谢你的观看2019年8月25 K近邻（KNN）最近邻分类规则对于测试样本点x，在集合中距离它最近的的x1。最近邻分类就是把x分为x1 所属的类别最近邻规则的一个推广- KNN 没有好的相似度矩阵不能用 KNN46感谢你的观看2019年8月25方法目标：基于训练集N的对y分类确定在N中与y最相似的元素x 得到k个最相似的集合设n1,n2分别为集合中属于c1,c2的个数如果p(c1|y)p(c2|y),判为c1,否则判为c2( )( , )MAXx NsimyMAXsim x ymax|( , )( )AxN sim x ysimy11(| )12np cynn22(| )12np cynn47感谢你的观看2019年8月25特点其性能依赖于相似度矩阵效率问题48感谢你的观看2019年8月25Thanks!49感谢你的观看2019年8月25

展开阅读全文