1、第二章分类2.1分类概述2.2贝叶斯决策与分类器2.3支持向量机2.4分类在实际场景中的应用案例作业与练习2.1 分类概述第二章 分类2.1.1 分类基本概念定义:分类是一种重要的数据分析形式。根据重要数据类的特征向量值及其他约束条件,建立分类函数或分类模型。分类模型可以用于描述性建模和预测性建模。2.1 分类概述第二章 分类2.1.2 解决分类问题的一般方法 分类法是一种根据输入数据集建立分类模型的系统方法。它包括决策树分类法、基于规则的分类法、支持向量机分类法、朴素贝叶斯分类法、神经网络等分类法。解决分类问题的一般方法。第一步,建立一个模型。这需要有一个训练样本数据集作为预先的数据集或概念
2、集,通过分析属性/特征描述等构成的样本(也可以是实体等)建立模型。2.1 分类概述第二章 分类2.1.2 解决分类问题的一般方法2.1 分类概述第二章 分类2.1.2 解决分类问题的一般方法 应用模2.1 分类概述第二章 分类2.1.3 决策树1.决策树工作原理 通过提出一系列精心构思的关于检验记录属性的问题,解决分类问题。类问题的决策树,树中包含三种节点:*根节点 没有进边,有0条或更多条出边;*内部节点 有一条进边,有2条或更多条出边;*叶节点有一条进边,没有出边。2.1 分类概述第二章 分类2.1.3 决策树2.1 分类概述第二章 分类2.1.3 决策树2.如何建立决策树3.决策树归纳算
3、法算法2.1给出了称作Treegrowth的决策树归纳算法的框架。该算法的输入是训练记录集A和属性集B。算法递归地选择最优的属性来划分数据(步骤7),并扩展树的叶节点(步骤11和步骤12),直到满足结束条件(步骤1)。2.1 分类概述第二章 分类2.1.3 决策树3.决策树归纳算法2.1 分类概述第二章 分类2.1.3 决策树4.决策树归纳的学习算法必须解决两个问题(1)训练记录分裂(2)停止分裂过程案例:Web 机器人检测2.1 分类概述第二章 分类2.1.3 决策树5.决策树归纳的特点(1)决策树归纳是不用假设类和其它属性服从某一分布概率,是一种构建分类模型的非参数方法。(2)找到最佳的决
4、策树即决策树获得的不是全局最优,是每个结点的局部最优决策。(3)决策树建立后,未知样本分类很快。而已开发构建的决策树技术计算成本不高,就算训练集很大,也能快速建立模型。(4)决策树相对其它分类算法更简便,特别是小型的决策树的准确率较高。冗余属性不会对决策树的准确率造成不利的影响。(5)决策树算法对于噪声干扰有较强的抗干扰性。(6)决策树算法通常采用自顶向下的递归划分方法,解决该问题通常是采用样本数小于某个特定阈值时停止分裂。2.1 分类概述第二章 分类2.1.4 模型的过分拟合1.模型过分拟合的形成所谓模型过分拟合是指训练数据拟合度过高的模型。2.处理决策树归纳中的过分拟合在这介绍两种决策树归
5、纳上避免过分拟合的策略:(1)先剪枝(提前终止)(2)后剪枝(过程修剪)第二章分类2.1分类概述2.2贝叶斯决策与分类器2.3支持向量机2.4分类在实际场景中的应用案例作业与练习大数据应用人才培养系列教材2.2 贝叶斯决策与分类器第二章 分类2.2.1 规则分类器 基于规则的分类器是使用一组“ifthen”规则来对记录进行分类的技术。基于规则的分类器产生的规则集有两个重要性质:1.互斥性 如果规则集中不存在两条规则被同一条记录触发,则称规则集中的规则是互斥的。2.穷举性 如果属性值任一种组合,规则集中都存在一条规则加以覆盖,则称规则集具有穷举覆盖。它确保每一条记录都至少被规则集里的一条规则覆盖
6、。2.2 贝叶斯决策与分类器第二章 分类2.2.1 规则分类器r1:(胎生=否)(飞行动物=是)鸟类r2:(胎生=否)(水生动物=是)鱼类r3:(胎生=是)(体温=恒温)哺乳动物r4:(胎生=否)(飞行动物=否)爬行类r5:(水生动物=半)两栖类2.2 贝叶斯决策与分类器第二章 分类2.2.2 分类中贝叶斯定理的应用 假设,是一对随机变量,联合概率P(=x,=y)是指取值x且取值y的概率,条件概率是指一随机变量在另一随机变量取值已知的情况下取某一特定值得概率。2.2 贝叶斯决策与分类器第二章 分类2.2.2 分类中贝叶斯定理的应用2.贝叶斯定理在分类中的应用先从统计学的角度对分类问题加以形式化
7、。设表示属性集,表示类变量。如果类变量和属性之间的关系不确定,可以把和看作随机变量,用(|)以概率的方式捕捉二者之间的关系,这个条件概率又称为的后验概率,对应(Y)称为的先验概率。在训练阶段,要根据从训练数据中收集的信息,对和的每一种组合学习后验概率(|)。知道这些概率后,通过找出使后验概率(|)最大的类可以对测试记录进行分类。2.2 贝叶斯决策与分类器第二章 分类2.2.2 分类中贝叶斯定理的应用2.2 贝叶斯决策与分类器第二章 分类2.2.3 分类中朴素贝叶斯的应用1.条件独立性在研究朴素贝叶斯分类法如何工作之前,先介绍条件独立概念。设,和表示三个随机变量的集合。给定,条件独立于,如果下面
8、的条件成立:2.朴素贝叶斯分类器如何工作分类测试记录时,朴素贝叶斯分类器对每个类计算后验概率:2.2 贝叶斯决策与分类器第二章 分类2.2.3 分类中朴素贝叶斯的应用3.朴素贝叶斯分类器特征1)在面对孤立的噪声点,朴素贝叶斯分类器性能影响不大;2)面对无关属性,朴素贝叶斯分类器性能同样影响不大;3)相关属性可能降低朴素贝叶斯分类器的性能。朴素贝叶斯分类法使用两种方法估计连续属性的类条件概率。(1)可以把每一个连续的属性离散化,然后用相应的离散区间替换连续属性值。(2)可以假设连续变量服从某种概率记录,然后使用训练数据估计分布的参数。第二章分类2.1分类概述2.3支持向量机2.2贝叶斯决策与分类
9、器2.4分类在实际场景中的应用案例作业与练习大数据应用人才培养系列教材2.3 支持向量机第二章 分类2.3.1 最大边缘超平面支持向量机(Support Vector Machine),以下简称SVM,成为最主要的模式识别方法之一,它可以在高维空间构造良好的预测模型,在OCR、语言识别、图像识别等广泛应用。它以扎实的统计学理论为基础,并在许多实际应用(如手写数字的识别、文本分类等)中展示了不俗的实践效果。一个数据集,包含两个不同类的样本,分别用小黑加号块和小圆圈表示。数据集是线性可分的,即能找到一个超平面,使得所有小黑方块位于这个超平面的一侧,所有小圆圈在它的另一侧。如图所示,可看到这种超平面
10、可能存在无穷多个。通过检验样本运行效果,分类器要从这些超平面中选一个作为它的决策边界。2.3 支持向量机第二章 分类2.3.1 最大边缘超平面 SVM最基本的任务就是在分开数据超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化,平行超平面间的距离或差距越大,分类器的总误差越小。分类的过程是一个机器学习的过程。设样本属于两个类,用该样本训练SVM得到的最大间隔超平面。在超平面上的样本点也称为支持向量。2.3 支持向量机第二章 分类2.3.2 线性支持向量机SVM SVM算法是从线性可分情况的最优分类超平面提出的。最优分类面是指要求分类超平面不但能将两类样本点无错误地分开
11、,而且要使两类的分类空隙最大。2.3 支持向量机第二章 分类2.3.2 非线性支持向量机SVMSVM应用到具有非线性决策边界数据集上的方法,关键是在于将数据从原先的坐标空间x变换到一个新的坐标空间(x)中,然后在新的坐标空间中使用一个线性的决策边界划分样本。1.属性变换2.非线性支持向量机3.核函数4.支持向量机的一般特征(1)SVM学习问题可表示为凸优化问题,利用已知的有效算法发现目标函数的全局最小值。(2)SVM通过最大化决策边界的边缘来控制模型。(3)通过对数据中每个分类属性值引入一个哑变量,SVM可应用于分类数据。第二章分类2.1分类概述2.2贝叶斯决策与分类器2.4分类在实际场景中的
12、应用案例2.3支持向量机作业与练习大数据应用人才培养系列教材2.4 分类在实际场景中的应用案例第二章 分类1案例:如何解决文章主题关键字与搜索引擎关键字带来的检索结果差异 2案例:甄别新金融交易方式的欺诈行为3案例:在线广告推荐中的分类2.4 分类在实际场景中的应用案例2.4 分类在实际场景中的应用案例第二章 分类1案例:如何解决文章主题关键字与搜索引擎关键字带来的检索结果差异 在网页学术性判定方面,提出了基于贝叶斯算法的网页学术性判断算法,通过对网页内容、格式、结构三个维度的分析,完成网页学术性的判定;在分类方面,以中图法的分类大纲作为分类目录,提出了基于改进空间向量模型的学术网页分类算法,
13、通过利用网页主题关键字构建网页向量空间,最后实现了网页的正确分类。通过两个关键算法,在系统中的网页主题提取部分,采用Html Parser技术与正则表达式相结合的网页主题提取算法,实现对抓取的网页主题内容的获取。2.4 分类在实际场景中的应用案例第二章 分类2案例:甄别新金融交易方式的欺诈行为中国工商银行建立基于大数据技术金融交易反欺诈系统,针对欺诈的不同场景,给系统采取不同的分析维度,在海量的基础数据池中,通过对客户、产品、商户、渠道等多维度,提炼出近1000个指标、3000多个特征量。让金融交易行为的流程数据化,构建智能模型,为精准打击欺诈交易奠定基础。在对每个客户的历史交易的行为数据,提
14、炼近3000多的风险特征,结合运用决策树、支持向量机、逻辑回归、神经网络等方法,构建出不同的欺诈识别模型、识别最新欺诈模型。如图反欺诈模型2013年12月5日,某客户的万事达卡短短15分钟内,在美国沃尔玛超市内发生非密码验证的POS刷卡交易14笔,累计交易金额10250美元。交易金额大、交易频繁等于客户日常行为习惯不符,14笔交易被系统拦截,后经核实发现这14笔交易系嫌疑人盗刷,不是客户本人消费。2.4 分类在实际场景中的应用案例第二章 分类3案例:在线广告推荐中的分类推荐系统具有用户需求驱动、主动服务和信息个性化程度高等优点,可有效解决信息过载问题。它研究大量借鉴了认知科学、近似理论、信息检索、预测理论、管理科学及市场建模等多个领域的知识,且已经成为数据挖掘、机器学习和人机接口领域的热门研究方向。推荐系统的工作原理与一般信息过滤系统比较类似,可以一种特殊形式的信息过滤系统推荐系统可以分为两种:一种是独立为信息服务系统,另一种是作为宿主信息服务系统的推荐子系统辅助信息、服务系统。第2章分类2.1分类概述2.2贝叶斯决策与分类器2.3支持向量机2.4分类在实际场景中的应用案例作业与练习大数据应用人才培养系列教材作业与练习:感谢聆听