1、人民邮电出版社 机器学习及应用教材配套课件目录第01章 导论第02章 Python初步第03章 决策树第04章 神经网络第05章 支持向量机第06章 贝叶斯分类器第07章 集成学习第08章 聚类第09章 降维第10章 概率图模型第11章 深度学习初步第01章 导论p机器学习的概念p机器学习基本术语p概念学习与假设空间p模型评估与选择1.1 引言n 机器学习机器学习(Machine Learning)是计算机程序随着经验积累自动提高性能或系统自我改进的过程,即通过经验提高性能的某类程序;n 以一个更形式化的定义来说,对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能,随着经验E而
2、自我完善,就称这个计算机程序从经验 E中学习。n 机器学习通常需要一定的算法,依据特定的指令序列,将输入变换得到输出,然而,对于现实中的很多任务,我们并没有确定的算法,我们希望计算机自动地为学习任务提取相应的算法;n 例如为每天收取的邮件进行分类,区分是垃圾邮件还是正常邮件。尽管我们知道输入/输出分别应该是邮件文档以及是否为垃圾邮件,然而并不知道应该按照怎样确定的规则将这种输入变换成输出。1.1 引言n 在计算机系统中,经验通常以数据的形式存在。为了能够自动地从经验中提取出学习算法,需要获得过去大量的邮件实例作为数据。从实例数据中学习出垃圾邮件的模型,以此作为判断的依据。n 机器学习所研究的主
3、要内容,是如何在计算机上从数据中产生模型的算法,即学习算法。n 有了学习算法,我们将经验以数据的形式提供给计算机,计算机就能基于这些数据产生相应的模型。继而在面对新的情况时,学习到的模型能够提供相应的判断,比如计算机能够正确分类一封新邮件是否是垃圾邮件。n 机器学习是研究学习算法的学问,机器学习的过程是从大量数据中自动地寻找有用模型的过程。1.2 基本术语1.2 基本术语1.2 基本术语1.2 基本术语n 机器学习算法可以表示为一个函数y=f(x),假设以手写体图像x作为输入,向量y作为输出,其中向量y的形式与目标向量的形式相同。在训练数据的基础上,函数f(x)的精确形式在训练阶段或学习阶段被
4、确定。一旦模型被训练出来,它就能确定新的手写体数字集合中的图像标签。这些新的手写体数字图像组成的集合称为测试集测试集(Test Set)。使用学习得到的模型进行预测的过程称为测试测试(Testing),被预测的样本称为测试样本测试样本(Testing Sample)。学习得到的模型适用于新样本的能力称为泛化泛化(Generalization)能力。n 如果希望预测的结果是离散值,此类学习任务称为分类分类(Classification);如果希望预测的结果是连续值,此类学习任务称为回归回归(Regression)。1.3 概念学习与假设空间1.4 归纳偏好n 机器学习算法在学习过程中对某种类型假
5、设的偏好,称为归纳偏好归纳偏好(Inductive Bias)。n 归纳学习的一个基本属性:学习器如果不对目标概念的形式做预先的假定,它从根本上就无法对未见实例进行分类。n 归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。n 引导学习算法确立“正确”偏好的一个一般性原则是“奥卡姆剃刀”(Occams razor)原则,即优先选择拟合数据的最简单的假设。n 学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。1.5 经验误差与过拟合n 把分类错误的样本数占样本总数的比例称为“错误率
6、”,即如果在m 个样本中有a个样本分类错误,则错误率E=a/m;n 1E称为“精度”,精度=1错误率。n 把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“测试误差”或“泛化误差”。n 过拟合:对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在包含训练集合以外的实例的整个分布上表现得却更好时,说这个假设过度拟合训练样例。欠拟合,是指学习器对训练样本的一般性质尚未学好。n 发生过拟合可能原因:训练样例含有随机错误或噪声、学习器的学习能力过于强大、训练样例太少。过拟合是无法彻底避免的。1.6 模型
7、评估与选择n 通过将已有的训练集划分为一部分来做训练,即拟合一个假设,而剩下的部分称作“验证集”,用来检验假设的泛化能力;n 交叉验证法称为“k折交叉验证”或“k倍交叉验证”,每次用 k-1个子集的并集作为训练集,余下的那个子集作为验证集。这样就可以获得 k个组训练/验证集,从而可进行k次训练和验证,最终返回的是这 k个验证结果的均值。n 验证集是在模型评估与选择中用于评估测试的数据集,而学得模型在实际使用中遇到的称为测试集。研究对比不同算法的泛化性能时,用测试集验证集上的性能来进行模型选择;“模型选择”(Model Selection):使用评估方法来对学习器的泛化误差进行评估。12kDDD
8、DijDDij 1.6 模型评估与选择1.7 性能度量1.7 性能度量n 对于数据分布D和概率密度函数,错误率可描述n 精确度可描述为n 在回归任务中,最常用的性能度量是“均方误差”,定义为n 对于数据分布和概率密度,均方误差可描述为(;)()()dE f DI fy pxx Dxxacc(;)()()d1(;)f DI fy pxE f D x Dxx211(;)()miiiE f Dfymx2(;)()()dE f Dfypxx Dxx1.7 性能度量n 误率和精度虽然常用,但是并不能满足所有任务需求。例如在信息检索中,经常会关心“检索出的信息中有多少比例是用户感兴趣的”、“用户感兴趣的信
9、息中有多少被检索出来了”。更为适用于此类需求的性能度量是查准率(Precision)与查全率(Recall)。n 对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(True Positive,TP)、假正例(False Positive,FP)、真负例(True Negative,TN)、假负例(False Negative,FN)四种情形。对于一个正实例,如果预测也是正的,则它是一个真正例;如果对正实例的预测是负的,则它是一个假负例。对于一个负实例,如果预测也是负的,则它是一个真负例;如果将负实例预测为正的,则它是一个假正例。在二分类问题中有两种类型的错误,即假正例和
10、假负例。n 例如,对于身份认证应用,用户通过声音登录他的账户。假正例是错误地允许冒名顶替者(模仿真实用户的声音)登录,而假负例是拒绝合法用户。1.7 性能度量n 对于二分类问题令 、分别表示真正例、假正例、真负例、假负例对应的样例数,则显然有 。n 查准率 与查全率 分别定义为:TPTPFPP TPTPFNR 一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。推荐系统中查准率更重要;逃犯信息检索系统查全率更重要。真实情况真实情况预测结果预测结果正例负例正例正例(真正例)(假负例)负例负例(假正例)(真负例)TP+=样例总数TP FP TN FNFNFPTNTPFPTNFNn
11、混淆矩阵PR1.7 性能度量1.8 发展历程1.8 发展历程人工智能领域发展到一定的阶段,机器学习应运而生。n 推理期:20世纪50年代到70年代初,逻辑推理能力,“逻辑理论家”程序、“通用问题求解”程序;n 知识期:20世纪70年代中期开始,专家系统,“知识工程”之父费根鲍姆;n 随着“知识工程瓶颈”的到来随之产生,让机器自己学习知识;n 1950年图灵提出了机器学习的可能性。20世纪50年代感知机自适应线性神经元。20世纪60年代至70年代,统计学习技术、强化学习技术,符号学习技术代表性工作主要有跳棋程序、学习机器、结构学习系统、基于逻辑的归纳学习系统、概念学习系统。1.8 发展历程机器学
12、习的发展离不开人工智能(Artificial Intelligence,AI)研究的推动。随着人工智能领域发展到一定的阶段,机器学习应运而生。n 20世纪80年代,机器学习成为一个独立的学科领域,作为解决“知识工程瓶颈”问题的关键;n 20世纪90年代中期之前,逻辑知识表示与归纳逻辑程序设计,与此同时,连接主义学习由于BP算法的成功而兴起;n 20世纪90年代中期,统计学习开始占据了机器学习的主流,支持向量机算法;n 21世纪初,连接主义学习以“深度学习”算法的形式卷土重来,严格的理论基础的缺乏,很难有效地表示出复杂数据之间的关系,深度学习为机器学习走向工程实践带来了极大的便利,在一定程度上缓
13、解了复杂模型下“过拟合”的问题。1.9 应用现状n 机器学习在模式识别方面应用,是光学字符识别(OCR),即从字符图像识别字符编码。这是多类问题的一个例子。n 对于人脸识别,输入是人脸图像,而类是需要识别的人,并且学习程序应当学习人脸图像与身份之间的关联性。n 医学诊断中,输入是关于患者的信息,而类是疾病。n 生物测定学使用人的生理和行为特征来识别或认证人的身份,它需要集成来自不同形态的输入。n 机器学习方法在大型数据库中的应用称为数据挖掘。零售业、金融业、制造业、医学领域、电信领域、科学研究领域;n 机器学习中的大多数方法来自统计学。关注的是统计模型的发展与优化,偏数学;机器学习者更关注的是能够解决问题,偏实践,重点研究学习算法在计算机上执行的效率与准确性的提升;1.9 应用现状n 计算机视觉涉及图像处理与机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。应用如百度识图、手写字符识别、车牌识别等;n 语音识别就是音频处理技术与机器学习的结合。相关应用有苹果的语音助手Siri等;n 自然语言处理让机器理解人类的语言的一门领域。大量使用了编译原理相关的技术,语义理解,机器学习等技术;n 2010年以后,机器学习大量的应用都与大数据高度耦合。1.9 应用现状