1、分类技术概论及前沿问题分类技术概论及前沿问题2022-8-11知识管理与数据分析实验室知识管理与数据分析实验室2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室2数据分类技术概况数据分类技术概况1数据分类方法介绍数据分类方法介绍2 各种方法比较评述各种方法比较评述3 分类技术前沿问题分类技术前沿问题人脸识别人脸识别4数据分类的简含义数据分类的简含义我们都曾经有这样的经验,在人流攒动的电影院门口等待相约而至的朋友,通过找寻与识别,能够在人群中一下子发现熟悉的脸,其实这个过程就是一个数据分类的过程。相较于要发现的知识完全未知的无监督学习,数据分类是一种典型的有监督的机器学习方法,目的
2、是从一组已知类别的数据中发现分类模型,以预测新数据的未知类别。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室32022-8-1知识管理与数据分析实验室知识管理与数据分析实验室4用刚才我们提到的寻找朋友的过程举例,首先从自己熟知的朋友身上提取特点,比如脸型、身材、穿着等,这就形成了一个简单的分类模型。然后在电影院门前对每一个发现的陌生人进行判断,“是朋友”或者“不是朋友”,从而对新数据进行了预测。xx 分类技术的应用分类技术的应用2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室5信用卡审批科学研究银行医疗商业图形处理有效性分析故障检测医疗诊断目标市场定位工业数据
3、分类技术 数据分类的过程数据分类的过程2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室6 一个完整的数据分类过程一般包括模型构造、模型测试和模型应用三个步骤,具体来说,我们可以将数据分成两个数据集,分别是训练集和测试集,用于模型构造和模型测试。整体的步骤说明如下。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室71模型构造模型构造在这个阶段,分析样本的类别和其具备的一些特征之间的依赖关系,并将这种关系用特定的模型表示出来。2模型测试模型测试测试的过程是对测试数据依次进行检测,根据模型确定样本的类别,与实际类别相比较,相同即是结果正确。3模型应用模型应用这个过程与
4、模型测试基本相同,只是输入的数据是未知的,例如,在电影院门口观察陌生人,在其中寻找朋友。数据分类的过程详解数据分类的过程详解2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室8数据分类方法介绍数据分类方法介绍2数据分类方法介绍数据分类方法介绍1各种方法评述各种方法评述3分类技术前沿问题分类技术前沿问题人脸识别人脸识别4 数据分类方法介绍数据分类方法介绍 现在我们使用的分类方法中比较常用的有决策树方法、神经网络方法、遗传算法、支持向量机,除此以外还有粗糙集理论以及贝叶斯分类等方法,上图详细列出了现阶段正在使用的各种分类方法,下面将对重要方法进行介绍。2022-8-1知识管理与数据分
5、析实验室知识管理与数据分析实验室92022-8-1知识管理与数据分析实验室知识管理与数据分析实验室10决策树分类法决策树分类法 所谓“决策树”,顾名思义,它具有树树状结构,根据层次的不同,节点分为根节点、内部节点和叶节点三类,每个节点对应一个样本集,根节点作为“树根树根”,对应的是整个样本集,内部节点类似于树干枝杈枝杈,对应样本子集,叶节点就相当于树叶树叶了,对应一个类标志。根节点和内部节点含有一个对于样本属性的测试,根据测试的结果将样本集划分为两个或者多个子集,每个子集形成一个分支,由叶节点内的类标志来标识,就像树不断分散的枝杈茎叶一样,如右图所示。我们用制造厂商经常使用会员分类案例来进一步
6、说明决策树的使用方法,在分类模型中,以年龄作为属性,根节点对应的是整个样本集即所有参与某自行车厂商调查的顾客,内部节点对应样本子集,比如年龄在67岁以上的顾客群体。根节点和内部节点含有一个对于样本属性的测试,即对年龄加以限制的测试。使用1000个会员事例训练模型后得到的决策树分类如下:2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室11图中矩形表示一个拆分节点,矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。这样一
7、来,便可以通过条件得出在哪个年龄段的哪些地区的人,最容易购买自行车,至此建立了模型。随后可以从新导入一批已知数据进行模型测试,完成这个步骤,如果模型可用,便将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大,随后自行车厂商就可以有选择性的投递广告册。神经网络分类法神经网络分类法 人类的大脑有近1000亿个神经元和十倍于此的神经胶质细胞。神经网络是一种具有若干连续处理结点的并行计算系统,它建立了一种数学模型,试图去模仿人类的大脑。神经网络将每一个连接看作一个处理单元,这些处理单元结点通常称作神经元,来表明脑神经之间的关系。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验
8、室122022-8-1知识管理与数据分析实验室知识管理与数据分析实验室13 神经元采用一系列数学函数,通过汇总和转换对数据进行处理,一个神经元的功能有限,但若干个神经元连接起来形成系统后,就可以创建一个智能模型,神经元可以有许多种不同的方式互连,为了更精确地拟合需要对建立模型的数据反复训练若干次,甚至上千次。下图是神经网络算法模拟人类大脑神经元的详细示例。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室14 为了更具体地明确神经网络算法的概念,我们用银行对用户划分推广不同的信用卡案例做分析。下图中每个椭圆型节点接受输入数据,将数据处理后输出。输入层节点接受客户信息的输入,然后将
9、数据传递给隐藏层,隐藏层将数据传递给输出层,输出层输出客户属于哪类信用卡。这类似于人脑神经元受到刺激时,神经脉冲从一个神经元传递到另一个神经元。在大量客户事例输入后,模型会不断调整,使之更吻合真实情况,就像是人脑通过在同一脉冲反复刺激下改变神经键连接强度来进行学习。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室15遗传算法遗传算法 “物竞天择,适者生存”是达尔文生物进化论的基本原理,解释了物种总是向着更适应自然界的方向进化的规律,只有适应自然环境的个体才能幸存下来,繁衍后代,适应力差的会在竞争中被淘汰。遗传算法(Genetic Algorithms)从字面上看便是继承生物学的
10、,它模拟大自然中种群在选择压力下的演化,从而得到问题的一个近似解。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室16遗传算法流程遗传算法流程在遗传算法中,对于一个最优化问题,一定数量的候选解(称为个体)的抽象表示(称为染色体)使得种群向更好的解进化。进化从完全随机个体的种群开始,之后一代一代发生。在每一代中,整个种群的适应度被评价,从当前种群中随机地选择多个个体,通过自然选择和突变产生新的生命种群,该种群在算法的下一次迭代中成为当前种群,具体的流程见右图。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室17为了使理解更加容易,我们引用网络上面一个有趣的例子。首
11、先,我们知道生物个体长什么样子很大程度上是由染色体上的基因决定的。同样,如果我们把100个半透明三角形组成的东西看成一个生物个体,比如扇贝,我们也可以说它的样子是由这些三角形的具体位置和颜色决定的。所以,我们可以把一个一个的半透明三角形看作是这些扇贝的“基因”。而组成扇贝的这100个基因就组成了每个扇贝个体的“染色体”。程序的目的,是让由100个三角形组成的扇贝,最终看上去像是Firefox的图标,我们模拟生物界的繁衍行为,选择两个原有的扇贝,然后从这两个扇贝的染色体中随机选取一共100个基因组成新个体的染色体。在定义好基因,写好繁衍、变异、评价适应性、淘汰和终止的代码之后,我们随机产生一个适
12、当大小的种群,然后让它这样一代代的繁衍、变异和淘汰下去,到最后终止时会看到右上角图的结果。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室18支持向量机支持向量机简单概括,支持向量机用线性分类器划分样本空间,但是也可以处理线性不可分的情况。可分的时候存在超平面把训练集一分为二,支持向量机能找到一个最优的决策面,把训练集最好地分割成两类样本,对于线性不可分的情况则是用核函数把样本映射到一个高维空间中,然后在这个空间中寻找超平面分割两种类别,正如右图所示,左边的是复杂的低维空间样本分散,线性不可分,但通过核函数的映射,可以建立一个简单的高维空间,在里面寻找到超平面。2022-8-1
13、知识管理与数据分析实验室知识管理与数据分析实验室19统计分类法统计分类法统计分类贝叶斯分类算法回归算法贝叶斯网络线性回归逻辑回归朴素贝叶斯2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室20粗糙集理论粗糙集理论1982年,波兰科学家Z.Pawlak提出了粗糙集理论,用来表示不精确或者不确定的概念。众所周知,精确的概念有确定的边界或者说外延,比如说“人”,而不精确的概念外延是没有确定边界的,比如“发达国家”。粗糙集理论把一个集合的个体分为肯定属于、肯定不属于以及无法确定三类,通过上近似和下近似上近似和下近似(见下图)运算,一个不精确的概念可以用一组精确的概念表示出来。2022-8
14、-1知识管理与数据分析实验室知识管理与数据分析实验室21K-K-近邻算法近邻算法K-近邻算法把一组已知类别的历史数据作为训练样本集,根据已知样本的类别对新样本进行分类。它的思想如下:首先,计算新样本与训练样本之间的距离,找到距离最近的K个邻居,然后根据这些邻居所属的类别来判断新样本的类别,如果它们都属于同一个类别,那么新样本也是这个类别的,否则,对每个候选类别进行评分,按照某种规则确定新样本的类别。下图以不同像素焦距的相机价格举例,要求出新样本的价格,可以通过训练样本的值进行判断。邻邻居居新样本2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室22各种方法评述各种方法评述3数据分
15、类方法介绍数据分类方法介绍1数据分类方法介绍数据分类方法介绍2分类技术前沿问题分类技术前沿问题人脸识别人脸识别42022-8-1知识管理与数据分析实验室知识管理与数据分析实验室23评价分类方法的标准评价分类方法的标准上文中介绍了许多分类方法,不同的分类方法有自己的特点,分类的效果和数据有关,有的数据噪声大,有的存在缺失,有的分布系数,有的属性间的相关性强,有的属性是离散的,有的属性是连续的或者混合的,因此,通用的分类方法并不存在。对于一个分类方法进行评价要考虑一下几个方面的问题。准确度准确度效率效率鲁棒性鲁棒性扩展性扩展性可简单可简单表示表示数据质量不一数据质量不一提升分类效果提升分类效果20
16、22-8-1知识管理与数据分析实验室知识管理与数据分析实验室24常用分类方法评述常用分类方法评述分类方法分类方法优点优点缺点缺点具体算法具体算法决策树决策树分类的准确率高学习速度比较快能表示成容易理解的分类规则能够使用数据库的SQL语句来实现决策树很难基于多个变量的组合发现规则不同决策树分支之间的分裂不平滑当类别多时,准确度下降 ID3,CART,C4.5,SLIQSPRINT,CHAID,See5,SPSS,CBA,FACT,OCL等神经网络神经网络分类精度高能发现非线性的模式不需预先对试验样本的统计分布作假设良好的自组织自适应性、并行处理、分布存储和高度容错模型的构造是黑箱错做,学习与决策
17、过程难理解结果难表示为简单分类样本数据要求是数值类型,分类型数据要做离散化处理结果与网络的拓扑结构和权系数有关RBF,NeuroRule,ANFIS,FuNe,Fuzzy,RuleNet,Rule Miner,PNL,SNNSNeural Ware,brain maker等遗传算法遗传算法群体收缩,隐含的并行处理通用性和鲁棒性概率转移准则学习速度比较慢结果与编码方式、遗传算子、运行参数关系密切基因编码和目标函数的选择比较复杂D i s c i p u l u s,Evolver,GNU Evolver2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室25粗糙集粗糙集不需要预先知道
18、额外信息算法简单、易于操作基于集合论,难以直接处理连续属性当属性值的个数多时,规则表示复杂产生的规则需要合并处理Datalogic,K-DYS,Grobian,RosettaRough Enough,KDD-rLERS贝叶斯分类贝叶斯分类可以处理不完整和有噪声的数据,解决数据不一致问题用图形方法描述数据间的相互关系,可理解性强具有不确定的只是表达形式,丰富的概率表达能力简单贝叶斯分类假设属性是相互独立的NB,TAN,DxpressERGO,HUGIN等K-近邻近邻简单、应用范围广可以通过SQL语言实现模型不需要预先构造需要大量的训练集数据搜索邻居样本的计算量大距离函数的确定比较困难分类的结果与
19、参数有关TiMBL2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室26支持向量支持向量机机适合小样本给出学习结果的推广能力的界能有效地处理非线性分类和非线性回归计算量与样本向量的维数几乎无关解决多类别的分类比较困难核函数的选择和参数设定比较复杂KXEN,BSVM,LIBSVMKernel Machine回归分析回归分析有数学理论为依据需要确定模型的参数数据的分布不一定符合预先的假设不能处理离散型数据模型难以用简单的形式描述LDA,QDA,NN,LOGFDA,PDA,MDA,POL多策略分多策略分析析包括两种以上的分类方法大多有图形界面,使用方便由用户选择具体的分类方法,需要惊醒
20、多次测试MLC+,JAM等2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室27分类技术前沿问题分类技术前沿问题人脸识别人脸识别4数据分类方法介绍数据分类方法介绍1数据分类方法介绍数据分类方法介绍2各种方法评述各种方法评述32022-8-1知识管理与数据分析实验室知识管理与数据分析实验室28人脸识别系统定义人脸识别系统定义人脸识别作为图像分析与理解的一个应用领域,在近些年得到了研究界及向光领域的充分重视,在公安(罪犯识别等)、安全验证系统、信用卡验证、医学、档案管理、视频会议、人机交互系统等方面都有着巨大应用前景。特别是在奥运会中,人脸识别技术了很大发展。右图是北京奥运会中人脸识
21、别系统的日常运行。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室29人脸识别的步骤人脸识别的步骤输入图像预 处理:归 一化人脸辨识:确定眼睛位置,寻找验证人脸特征提取人脸识别识 别 结果在人脸识别领域内,近期比较前沿的技术为S.Rowels等人提出的LLE算法,此算法主要在特征提取中起作用,不仅能够有效地发现数据的非线性结构,同时还具有平移、旋转不变性。四川大学四川大学采用这种非线性降维方法提取人脸特征,然后将提取出来的特征输入到BP神经网络进行训练得到人脸的类间判别信息,最后进行人脸识别,该方法承接国家自然科学基金委的奥运重点项目,研究结果已经在北京奥运会中得以体现。202
22、2-8-1知识管理与数据分析实验室知识管理与数据分析实验室30四川大学四川大学LLELLE与与BPBP神神经网络算法流程经网络算法流程利用四川大学的新近研究方法进行人脸识别的流程图如右图:训练部分,将人脸库的图像进行光照预处理;再进行LLE 运算得到低维人脸特征,然后送到BP神经网络进行训练(三层BP神经网络)。识别部分,将待识别人脸预处理后,LLE降维后用BP网络识别得到结果。2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室31附录附录 最新前沿性工作介绍最新前沿性工作介绍(电子版电子版)基于LLE和BP神经网络的人脸识别 运用该方法的管理学博士硕士论文运用该方法的管理学博士硕士论文(代表性代表性)数据挖掘技术中分类算法的比较分析2022-8-1知识管理与数据分析实验室知识管理与数据分析实验室32