ImageVerifierCode 换一换
格式:PPT , 页数:35 ,大小:1.43MB ,
文档编号:8242921      下载积分:15 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-8242921.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(kld)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(《大数据处理与智能决策 》课件_10-分类算法介绍.ppt)为本站会员(kld)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

《大数据处理与智能决策 》课件_10-分类算法介绍.ppt

1、1什么是监督学习和无监督学习?监督学习和无监督学习监督学习和无监督学习l 监督学习:监督学习:通俗来讲就是分类,就是把训练样本,在某种评价下得到最佳的模型,然后再利用这个模型将输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。例:在人对事物的认识中,我们从孩时就被大人们教授这是鸟,那是房子等等。我们所见到的景物就是输入数据,而大人们对这些事物的判断结果就是相应的输出。当我们见识多了以后,脑子就慢慢地得到了一些泛化的模型,这就是训练得到的那个函数,从而没有大人在旁边指点的时候,我们就可自己分辨哪些是房子,哪些是鸟。2监督学习和无监督学习监督学习和无监督学习l 无监督学习:无监督学习:

2、无监督学习与监督学习的不同之处,在于我们事先没有任何训练样本,而直接对数据进行建模。例:比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分成两个类。无监督学习的里典型的例子就是聚类聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法只需要知道如何计算相似度就可以开始工作了。3监督学习和无监督学习监督学习和无监督学习l 两种方式的主要对比关系:两种方式的主要对比关系:1、有标签vs无标签 有监督学习是“有老

3、师的学习”,所谓的老师就是标签;无监督学习是“没有老师的学习”,没有训练过程,而是直接拿数据进行建模分析,意味着需要通过机器自行探索完成。2、分类vs聚类 有监督学习的核心是分类,无监督学习的核心是聚类。有监督的工作是选择分类器和确定权值。无监督的工作时密度估计,意味着无监督算法只要知道如何计算相似度就可以开始工作。问题:人类识别猫狗的过程是有监督还是无监督学习?分类分类分类分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。把每个数据点分配到合适的类别中,即所谓的“分类”。分类算法邮件正常邮件垃圾邮件例如,邮

4、件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件。数值预测数值预测数值预测数值预测(numeric prediction)是预测一个连续值或有序是预测一个连续值或有序值,而不是类标号。值,而不是类标号。例如预测某同学在期末考试中的成绩为例如预测某同学在期末考试中的成绩为95分,分,95是一个数是一个数值,而不是值,而不是“树树”、“船船”这样的类标号。这样的类标号。分类和数值预测是分类和数值预测是“预测问题预测问题”的两种主要类型,简单起的两种主要类型,简单起见,在不产生混淆时,使用较短术语见,在不产生混淆时,使用较短术语“预测预

5、测”表示表示“数值数值预测预测”。相关应用相关应用垃圾邮件识别垃圾邮件识别信用卡用户分级,低风险优质客户给予较高的额度信用卡用户分级,低风险优质客户给予较高的额度手写字体识别、语音输入、图像识别手写字体识别、语音输入、图像识别.相关应用相关应用9月26日,石家庄市建华大街和裕华路交叉口西南角的行人闯红灯自动识别抓拍系统开始试用。如果行人指示信号灯为红灯时,仍有行人在斑马线上过马路,这套系统会自动将其中一个人的图像拍摄下来并形成照片。分类分类l输入数据是记录的集合。每条记录也称为样本或样例,用元组(x x,y)表示。x x是属性集合,y是类标号(分类属性或目标属性)。类标号是离散的。(回归的目标

6、属性y是连续的)。l分类:通过学习得到一个目标函数(分类函数)f,把每个属性集x x映射到一个预先定义的类标号y。l分类任务:确定对象属于哪个预定义预定义的目标类。脊椎动物的数据表名字名字体温体温冬眠冬眠有腿有腿胎生胎生类标号类标号人类恒温否是是哺乳类蝙蝠恒温是是是哺乳类青蛙冷血是是否两栖类蟒蛇冷血是否否爬行类分类的两个步骤分类的两个步骤训练模型:对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别或类标号模型使用:用创建的模型预测未来或者类别未知的记录分类分类分类分类分类性能分类性能预测的类预测的类类=1类=0实际的类类=1f11f10类=0f0

7、1f00使用性能度量来衡量分类模型性能的信息,如准确率和错误率。准确率=正确预测数/预测总数=(f11+f00)/(f11+f10+f01+f00)错误率=错误预测数/预测总数=(f10+f01)/(f11+f10+f01+f00)表1 二类问题的混淆矩阵分类的两个步骤分类的两个步骤训练模型:对一个类别已经确定的训练集创建模型。用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别或类标号测试模型:对于训练好的模型,进行测试。类似于考试。分类过程:训练模型分类过程:训练模型训练集天气气温湿度适合运动晴中中雨低高晴高低.是否否分类算法模型IF 气温低THEN 不适合运动.分类过程:测试模

8、型分类过程:测试模型分类算法模型预测结果:不适合运动真实结果:不适合运动测试集分类过程:训练集和测试集的划分分类过程:训练集和测试集的划分N-fold交叉验证留一法过拟合分类过程:使用模型分类过程:使用模型未分类数据(天气晴,温度高,湿度中等)分类算法模型不适合运动数值预测过程数值预测过程数值预测也是一个两步过程,和分类过程类似,只不过没有“类标号属性”,因为要预测的属性值是连续值,而不是分类的(离散值)例如预测某同学的期末考试成绩得分,如果转换成预测某同学的期末考试成绩“是否合格”,该数据挖掘任务就由数值预测变成了分类。模型模型可将模型看成一个映射或函数 y=f(X),其中X是特征向量给定未

9、知实例的特征向量X,算法即可得出其关联的y的值分类和预测算法的训练过程即是为了从训练数据中“学习”得到这个函数,进而用于未知数据分类算法的评价分类算法的评价预测的准确率 正确地预测新的或先前未见过的数据的类标号的能力速度 构造模型的速度、利用模型进行分类的速度强壮性 给定噪声数据或具有空缺值的数据,模型正确预测的能力可伸缩性 当给定大量数据时,有效地构造模型的能力可解释性 涉及学习模型提供的理解和洞察的层次分类算法预测准确率的指标分类算法预测准确率的指标两类错误查全率查准率精度主要内容主要内容分类和预测知识的表达基于距离的分类基于决策树的表达基于决策树的表达母亲:闺女,给你介绍个对象女儿:多大

10、年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。示例来源于July博客:http:/ 天气=多云 THEN 去玩IF 天气=晴 AND 温度 35 THEN 不要去玩IF 天气=小雨 AND 刮大风 THEN 不要去玩IF 天气=小雨 AND 没有刮大风 THEN 去玩基于实例的表达基于实例的表达直接将训练样本保存下来,使用实例本身来表达所学到的(知识),而不是推断出一个规则集或决策树,并保存它直接在样本上进行工作,而不是建立规则的学习称为基于实例的学习(instance-based

11、 learning)基于实例的学习也称为死记硬背式学习(rote learning),一旦“记住”了一个训练实例集,在遇到一个新的实例时,就会在“记忆”中找出与之最相似的一个训练实例基于实例的表达基于实例的表达在基于实例的学习中,对一个新的实例进行分类时,才进行实质性的工作,而不是处理训练集时进行和其它机器学习方法的区别在于“学习”发生的时间不同基于实例的学习是“懒惰”的,尽可能延缓实质性的工作,而其它学习方法是“急切”的,在训练样本时就进行学习并得到一个泛化的表达,例如生成决策树或规则主要内容主要内容分类和预测知识的表达基于距离的分类基于距离的分类基于距离的分类与一个类中的成员和另一个类中的

12、成员之间的相似性相比,同一个类中的成员彼此之间被认为是更加相似的相似性(距离)度量可以用来识别数据库中不同成员之间的“相似程度”基于距离的分类方法的直观解释基于距离的分类方法的直观解释(1)类定义(2)待分类样本(3)分类结果k-最近邻算法,kNN,k-Nearest Neighbor十大数据挖掘算法之一C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNave BayesCART应用示例应用示例:手写数字识别手写数字识别将训练样本中的每张图划分成5x5的网格,计算每个格子中黑色像素所占比例,形成5x5维特征向量,并以此训练分类算法将待识别的图片按同样的方式转换为5x5维特征向量,然后应用分类算法分类系统设计的基本步骤分类系统设计的基本步骤传感器特征提取特征选择分类器设计系统评估模式总结总结分类:将待分类实例划分到合适的类别中数值预测:预测数值属性,没有“类标号”知识的表达:线性模型、决策树、规则、基于实例的表达基于距离的分类:kNN算法谢谢!

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|