《统计学习方法》第2版课件-第1章-机器学习和统.pptx_163文库

资源描述

1、第一章统计学习方法概论提纲：1 大机器学习维基百科：维基百科：机器学习机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动自动“学习学习”的算法。机器学习算法机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的

2、，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。提纲：1 大机器学习维基百科：维基百科：机器学习有下面几种定义： “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 英文定义：A computer program is said to learn from experience E with respect to some class of tasks T a

3、nd performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.提纲：1 大机器学习应用数据挖掘计算机视觉自然语言处理生物特征识别搜索引擎医学诊断检测信用卡欺诈证券市场分析 DNA序列测序语音和手写识别战略游戏机器人提纲：1 大Game 深蓝是并行计算的电脑系统，建基于RS/6000 SP，另加上480颗特别制造的VLSI象棋芯片。下棋程式以C语言写成，运行AIX 操作系统。1997年版本的深蓝运算速度为每秒2亿步棋，是其199

4、6年版本的2倍。1997年 6月，深蓝在世界超级电脑中排名第259位，计算能力为11.38 gigaflops。提纲：1 大Text to speech and speech recognition提纲：1 大Computer vision提纲：1 大 Genebioinformatics提纲：1 大bioinformatics Gene提纲：1 大Financial Information提纲：1 大Robotic Control提纲：1 大Deep Learning提纲：1 大aerospace提纲：1 大机器学习的发展历程 “黑暗时代”，人工智能的诞生（1943年1956年） Warre

5、n McCulloch和Walter Pitts在1943年发表了人工智能领域的开篇之作，提出了人工神经网络模型。 John von Neumann。他在1930年加入了普林斯顿大学，在数学物理系任教，和阿兰图灵是同事。 Marvin Minsky和Dean Edmonds建造第一台神经网络计算机。 1956年：John McCarthy从普林斯顿大学毕业后去达特茅斯学院工作，说服了Marvin Minsky和Claude Shannon在达特茅斯学院组织一个暑期研讨会，召集了对机器智能、人工神经网络和自动理论感兴趣的研究者，参加由IBM赞助的研讨会。提纲：1 大机器学习的发展历程提纲：1 大

6、新的方向：集成学习可扩展机器学习（对大数据集、高维数据的学习等）强化学习迁移学习概率网络深度学习机器学习的发展历程提纲：1 大国内外的研究者 M. I. Jordan Andrew Ng Tommi Jaakkola David Blei Eric Xing。 D.Koller 2001年IJCAI计算机与思维奖:TerryWinograd、David Marr、Tom Mitchell、RodneyBrooks等人之后的第18位获奖者 Peter L. Bartlett J. D. Lafferty 国内：李航,周志华, 杨强,王晓刚，唐晓鸥，唐杰，刘铁岩，何晓飞，朱筠，吴军，

7、张栋，戴文渊，余凯，邓力，孙健。提纲：1 大卡内基梅隆大学的计算机科学学士学位，麻省理工学院的电子工程和计算机科学硕士学位，加州大学伯克利分校的计算机科学博士学位。在斯坦福大学计算机科学和电子工程学系担任教授，讲授机器学习课程吴恩达(Andrew Ng) 硅谷人工智能实验室北京深度学习实验室北京大数据实验室国内外的研究者提纲：1 大机器学习和数据挖掘的关系机器学习是数据挖掘的重要工具。数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪音等等更为实际的问题。机器学习的涉及面更宽，常用在数据挖掘上的方法通常只是“从数据

8、学习”，然则机器学习不仅仅可以用在数据挖掘上，一些机器学习的子领域甚至与数据挖掘关系不大，例如增强学习与自动控制等等。数据挖掘试图从海量数据中找出有用的知识。大体上看，数据挖掘可以视为机器学习和数据库的交叉，它主要利用机器学习界机器学习界提供的技术来分析海量数据，利用数据库界提供的技术来管理海量数据提供的技术来分析海量数据，利用数据库界提供的技术来管理海量数据。提纲：1 大机器学习和数据挖掘的关系提纲：1 大机器学习的一个形象描述提纲：1 大为什么要研究大数据机器学习？例“尿布啤酒”关联规则实际上，在面对少量数据时关联分析并不难，可以直接使用统计学中有关相关性的知识，这也正是机器学习界

9、没有研究关联分析的一个重要原因。关联分析的困难其实完全是由海量数据造成的，因为数据量的增加会直接造成挖掘效率的下降，当数据量增加到一定程度，问题的难度就会产生质变，例如，在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开销、可能产生在存储和计算上都无法接受的大量中间结果等。提纲：1 大机器学习相关学术期刊和会议机器学习学术会议：NIPS、ICML、ECML和COLT，学术期刊：Machine Learning和Journal of Machine Learning Research 数据挖掘学术会议：SIGKDD、ICDM、SDM、PKDD和PAKDD 学术期刊：Data

10、Mining and Knowledge Discovery和IEEE Transactions on Knowledge and Data Engineering 人工智能学术会议：IJCAI和AAAI、数据库学术会议：SIGMOD、VLDB、ICDE，其它一些顶级期刊如 Artificial Intelligence、 Journal of Artificial Intelligence Research、 IEEE Transactions on Pattern Analysis and Machine Intelligence、 Neural Computation等也经常发表

11、机器学习和数据挖掘方面的论文提纲：1 大机器学习相关学术期刊和会议提纲：1 大机器学习相关学术期刊和会议提纲：1 大机器学习相关学术期刊和会议提纲：1 大机器学习相关学术期刊和会议提纲：1 大机器学习相关学术期刊和会议提纲：1 大机器学习和统计学习维基百科：维基百科：机器学习机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动自动“学习学习”的算法。机器学习算法机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数

12、据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习机器学习与统计推断学联系尤为密切，也被称为统计学习理论理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。提纲：1 大统计学习和机器学习 Brendan OConnor的博文Statistics vs. Machine Learning, fight!，初稿是08年写的，或许和作者的机器学习背景有关，他在初稿中主要是贬低了统计学，思想和1有点类似，认为机器学习比统计学多了些Algorithm M

13、odeling方面内容，比如SVM的Max-margin，决策树等，此外他认为机器学习更偏实际。但09年十月的时候他转而放弃自己原来的观点，认为统计才是real deal: Statistics, not machine learning, is the real deal, but unfortunately suffers from bad marketing.提纲：1 大Glossary（Robert Tibshiriani）Machine learningStatisticsnetwork, graphsmodelweightsparameterslearningfittinggene

14、ralizationtest set performancesupervised learningregression/classificationunsupervised learningdensity estimation, clusteringlarge grant = $1,000,000large grant = $50,000nice place to have a meeting:Snowbird, Utah, French Alpsnice place to have a meeting:Las Vegas in August统计学习和机器学习提纲：1 大统计学习和机器学习 -

15、Simon Blomberg: From Rs fortunes package: To paraphrase provocatively, machine learning is statistics minus any checking of models and assumptions. -Andrew Gelman: In that case, maybe we should get rid of checking of models and assumptions more often. Then maybe wed be able to solve some of the prob

16、lems that the machine learning people can solve but we cant!提纲：1 大统计学习和机器学习研究方法差异统计学研究形式化和推导机器学习更容忍一些新方法维度差异统计学强调低维空间问题的统计推导（confidence intervals, hypothesis tests, optimal estimators）机器学习强调高维预测问题统计学和机器学习各自更关心的领域：统计学: survival analysis, spatial analysis, multiple testing, minimax theory, dec

17、onvolution, semiparametric inference, bootstrapping, time series. 机器学习: online learning, semisupervised learning, manifold learning, active learning, boosting.提纲：1 大统计学习和机器学习（专业术语）统计学机器学习Estimation LearningClassifier HypothesisData point Example/InstanceRegression Supervised LearningClassification

18、 Supervised LearningCovariate FeatureResponse Label提纲：1 大统计学习统计学习的对象 data ：计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。数据的基本假设是同类数据具有一定的统计规律性。统计学习的目的用于对数据（特别是未知数据）进行预测和分析。提纲：1 大统计学习统计学习的方法分类： Supervised learning Unsupervised learning Semi-supervised learning Reinforcement learning 监督学习：训练数据 training d

19、ata 模型 model - 假设空间 hypothesis 评价准则 evaluation criterion - 策略 strategy 算法 algorithm提纲：1 大统计学习的研究：统计学习方法统计学习理论（统计学习方法的有效性和效率和基本理论）统计学习应用统计学习提纲：1 大监督学习 Instance，feature vector，feature space 输入实例x的特征向量： x(i)与xi 不同,后者表示多个输入变量中的第i个训练集：输入变量和输出变量：分类问题、回归问题、标注问题提纲：1 大联合概率分布假设输入与输出的随机变量X和Y遵循联合概率分布P(

20、X,Y) P(X,Y)为分布函数或分布密度函数对于学习系统来说，联合概率分布是未知的，训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。假设空间监督学习目的是学习一个由输入到输出的映射，称为模型模式的集合就是假设空间（hypothesis space）概率模型:条件概率分布P(Y|X), 决策函数：Y=f(X)监督学习提纲：1 大问题的形式化监督学习提纲：1 大无监督学习训练集：模型函数：条件概率分布：提纲：1 大强化学习提纲：1 大强化学习状态转移概率函数：奖励函数：策略：给定状态下动作的函数或者条件概率分布状态价值函数：动作价值函数：提纲

21、：1 大强化学习方法无模型（model-free）基于策略（policy-based）：求解最优策略* 基于价值（value-based）：求解最优价值函数有模型（model-based）通过学习马尔可夫决策过程的模型，包括转移概率函数和奖励函数通过模型对环境的反馈进行预测求解价值函数最大的策略*提纲：1 大半监督学习少量标注数据，大量未标注数据利用未标注数据的信息，辅助标注数据，进行监督学习较低成本主动学习机器主动给出实例，教师进行标注利用标注数据学习预测模型提纲：1 大统计学习按算法分类：在线学习（online learning）批量学习（batch learn

22、ing）提纲：1 大统计学习按技巧分类：贝叶斯学习（Bayesian learning）提纲：1 大统计学习按技巧分类：贝叶斯学习（Bayesian learning）提纲：1 大统计学习按技巧分类：核方法（Kernel method）使用核函数表示和学习非线性模型，将线性模型学习方法扩展到非线性模型的学习不显式地定义输入空间到特征空间的映射，而是直接定义核函数，即映射之后在特征空间的内积假设x1，x2是输入空间的任意两个实例，内积为，输入空间到特征空间的映射为，核方法在输入空间中定义核函数 K(x1, x2)，使其满足 K(x1, x2) = 提纲：1 大统计学习三要素模

23、型：决策函数的集合：参数空间条件概率的集合：参数空间提纲：1 大统计学习三要素策略损失函数：一次预测的好坏风险函数：平均意义下模型预测的好坏 0-1损失函数 0-1 loss function 平方损失函数 quadratic loss function 绝对损失函数 absolute loss function提纲：1 大统计学习三要素策略对数损失函数 logarithmic loss function 或对数似然损失函数 loglikelihood loss function 损失函数的期望风险函数 risk function 期望损失 expected loss 由P

24、(x,y)可以直接求出P(x|y),但不知道，经验风险 empirical risk ，经验损失 empirical loss提纲：1 大统计学习三要素策略：经验风险最小化与结构风险最小化经验风险最小化最优模型当样本容量很小时，经验风险最小化学习的效果未必很好，会产生“过拟合over-fitting” 结构风险最小化 structure risk minimization，为防止过拟合提出的策略，等价于正则化（regularization），加入正则化项regularizer，或罚项 penalty term：提纲：1 大统计学习三要素求最优模型就是求解最优化问题：提纲：1 大统计学

25、习三要素算法：如果最优化问题有显式的解析式，算法比较简单但通常解析式不存在，就需要数值计算的方法提纲：1 大模型评估与模型选择训练误差，训练数据集的平均损失测试误差，测试数据集的平均损失损失函数是0-1 损失时：测试数据集的准确率：提纲：1 大模型评估与模型选择过拟合与模型选择假设给定训练数据集经验风险最小：提纲：1 大模型评估与模型选择提纲：1 大模型评估与模型选择提纲：1 大正则化与交叉验证正则化一般形式：回归问题中：提纲：1 大交叉验证：训练集 training set：用于训练模型验证集 validation set：用于模型选择测试集 test se

26、t：用于最终对学习方法的评估简单交叉验证 S折交叉验证留一交叉验证正则化与交叉验证提纲：1 大泛化能力 generalization ability 泛化误差 generalization error 泛化误差上界比较学习方法的泛化能力-比较泛化误差上界性质：样本容量增加，泛化误差趋于0，假设空间容量越大，泛化误差越大二分类问题期望风险和经验风险提纲：1 大泛化能力 generalization ability 经验风险最小化函数：泛化能力：定理：泛化误差上界，二分类问题，当假设空间是有限个函数的结合，对任意一个函数f，至少以概率1-，以下不等式成立：提纲：1 大生成模

27、型与判别模型监督学习的目的就是学习一个模型：决策函数：条件概率分布：生成方法Generative approach 对应生成模型：generative model，朴素贝叶斯法和隐马尔科夫模型提纲：1 大生成模型与判别模型判别方法由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型，即判别模型 Discriminative approach对应discriminative model K近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。提纲：1 大生成模型与判别模型各自优缺点：生成方法：可还原出联合概率分布P(X,

28、Y), 而判别方法不能。生成方法的收敛速度更快，当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，仍可以使用生成方法，而判别方法则不能用。判别方法：直接学习到条件概率或决策函数，直接进行预测，往往学习的准确率更高；由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习过程。提纲：1 大分类问题提纲：1 大分类问题二分类评价指标 TP true positive FN false negative FP false positive TN true negative 精确率召回率 F1值提纲：1 大标注问题标注：

29、tagging，结构预测：structure prediction 输入：观测序列，输出：标记序列或状态序列学习和标注两个过程训练集：观测序列：输出标记序列：模型：条件概率分布提纲：1 大回归问题回归模型是表示从输入变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。学习和预测两个阶段训练集：提纲：1 大回归问题例子：标记表示名词短语的“开始”、“结束”或“其他”（分别以B, E, O表示) 输入：At Microsoft Research, we have an insatiable curiosity and the desire to create new

30、 technology that will help define the computing experience. 输出：At/O Microsoft/B Research/E, we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.提纲：1 大回归问题回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由著名的最小二乘法(least squares)求解。股价预测提纲：1 大 Q&A？

展开阅读全文