1、牛刀小试:查异辨花牛刀小试:查异辨花CONTENTS1分类任务介绍分类任务介绍2提取分类任务中的特征提取分类任务中的特征3分类器介绍分类器介绍分类器的测试和应用分类器的测试和应用4分类任务介绍4 鸢尾花的花瓣鲜艳美丽,叶片青翠碧绿,让人赏心悦目;全世界大约有30品种,常见的有变色鸢尾(Iris versicolor)和山鸢尾(Iris setosa);鸢尾花有着形状与色彩相似的花瓣和萼片,花瓣和花萼的位置如图所示。一个简单的分类任务一个简单的分类任务对鸢尾花对鸢尾花(iris)的两个品种进行分类的两个品种进行分类分类任务介绍l 人工智能系统处理的是各种各样的数据:图像、声音、文字、视频等等;l
2、 数据(data)是信息的载体;l 分类(classification)就是要根据所给数据的不同特点,判断它属于哪个类别。5 变色鸢尾有较大的花瓣,而山鸢尾的花瓣较小;构建一个简单的人工智能系统,能够像人类一样区分变色鸢尾和山鸢尾;这样完成分类任务的人工智能系统,被称为分类器(classifier)。分类器(分类器(classifier)分类任务介绍变色鸢尾山鸢尾分类流程分类流程 首先提取鸢尾花的特征;然后将特征输入到训练好的分类器中;分类器就能够根据特征做出预测,输出鸢尾花的品种。提取分类任务中的特征7特征特征特征指可以对事物的某些方面的特点进行刻画的数字或者属性;比如辨别不同鸢尾品种的时候
3、,依据的是鸢尾花的花瓣大小。提取分类任务中的特征得到可以被人工智能系统所使用的特征;用花瓣的长度和宽度作为鸢尾花的特征,可以让分类器有效地分类特征是在分类器乃至于所有人工智能系统中非常重要的概念;不同的特征对于分类器的准确分类会有很大的影响。需要根据物体和数据本身具有的特点,考虑不同类别之间的差异,并在此基础上设计出有效的特征;特征的质量很大程度上决定了分类器最终分类效果的好坏。8特征向量特征向量提取分类任务中的特征特征点和特征空间特征点和特征空间 有了特征的向量表示之后,可以把特征向量表示在直角坐标系中;坐标系中表示特征向量的点被称为特征点,所有这些特征点构成的空间称为特征空间;对于任意维数
4、的特征空间,我们都可以使用特征点之间的距离来衡量物体之间的相似程度。分类器介绍10 分类器就是一个由特征向量到预测类别并将样本正确分类的函数。定义定义鸢尾花分类问题鸢尾花分类问题 在区分鸢尾花品种的简单例子中,我们可以直接画出一条直线将两类点分开;实际情况中,特征点在特征空间种的位置非常复杂,采用观察和尝试来画出分类直线往往是不可能的,也是没有效率的;因此需要通过一些方法,让分类器自己学习得到分类直线。实际情况实际情况分类器介绍1101训练分类器训练分类器分类器介绍分类器介绍人工智能的学习过程被称为训练(training),考试过程被称为测试(testing,解决实际问题的过程,被称为应用(a
5、pplication)。数据集名称作用类比训练集用于调整参数到理想的结果,决定是否停止训练。学生的课本;学生 根据课本里的内容来掌握知识测试集用来评估最终模型的分类能力。但不能作为调参、选择特征等算法相关的选择依据。考试,考的题是平常都没有见过,考察学生举一反三的能力表一:训练集和测试集n 在一个数据集上,使用不同的算法可能会获得不同的分类器,需要设计一个算法以获得性能好的分类器;n 下图是分类的三种情况,这里将表示为山鸢尾,将表示为变色鸢尾:情况结果欠拟合欠拟合就是模型没有很好地捕捉到数据特征,不能够很好地拟合数据,即在训练集上表现不好。刚好过拟合过拟合就是模型把数据学习的太彻底,以至于把不
6、相关数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类1202感知器感知器分类器介绍分类器介绍010203监督学习监督学习无监督学习无监督学习强化学习强化学习使用有类标的训练数据构建模型,即在训练过程中,所有的数据都是知道它的类别的。监督学习监督学习在没有已知输出变量(分类问题中是数据的类标)和反馈函数指导的情况下提取有效信息来探索数据的整体结构。无监督学习无监督学习没有一个确定的类标或一个连续类型的值,而是一个通过反馈函数产生的一个反馈值强化学习强化学习机器学习的三种主要的学习方式1302感知器感知器分类器介绍分类器介绍感知器(perceptron)是一
7、种训练线性分类器的算法,由费兰克罗森布拉特基于MPC神经元模型提出,感知器可以看作一个处理二分类问题的算法。感知器模型结构12,a a b12,a a b1402感知器感知器分类器介绍分类器介绍12,a a b12,a a b优化(optimization)就是调整分类器的参数,使得损失函数最小的过程;通过一个直观的例子来理解优化过程,损失函数的最小点就是该函数值的最小点也就是函数的全局最低点。1503支持向量机支持向量机分类器介绍分类器介绍支持向量机(support vector machine,SVM)是在特征空间上分类间隔最大的分类器,它与感知器一样,是对两个类别进行分类。分类器的测试和应用17在分类器的测试阶段,它会面对批测试数据并要对每一个测试样本做出预测结果。如果分类的结果和测试样本的标注一样,那么分类正确,否则分类错误。01.测试测试 统计出分类器分类正确的样本数,它与测试样本总数的比率可以反映预测的准确程度,被称为分类准确率;分类准确率=(分类正确的样本数/测试样本总数)*100%02.应用应用 根据分类器的效果,在多个分类器之间进行比较,选择一个最好的分类器;测量参数,然后输入到训练好的分类器中,分类器就会输出预测结果,这个过程就是分类器的应用阶段。分类器的测试和应用分类器的测试和应用第二讲结束