《人工智能及其应用》课件第7章机器学习.pptx_163文库

资源描述

1、第第7 7章章机器学习机器学习 250250多年以来，经济增长的基本动力一直是多年以来，经济增长的基本动力一直是技术创新。其中最重要技术创新。其中最重要的正是的正是经济学家们提出经济学家们提出的所谓通用型技术，包括蒸汽机、电力与内燃的所谓通用型技术，包括蒸汽机、电力与内燃机等等。而我们这个时代下最重要的通用型技机等等。而我们这个时代下最重要的通用型技术正是人工智能，特别是机器学习。术正是人工智能，特别是机器学习。埃里克布林约尔松,20187.17.1基本概念基本概念7.17.1基本概念基本概念7.17.1基本概念基本概念7.17.1基本概念基本概念7.27.2机器学习的三个基本要素机器学习的

2、三个基本要素7.2.17.2.1模型模型7.2.17.2.1模型模型7.2.27.2.2学习准则学习准则7.2.27.2.2学习准则学习准则7.2.27.2.2学习准则学习准则7.2.27.2.2学习准则学习准则7.2.27.2.2学习准则学习准则根据根据大数定理可知，当训练集大小大数定理可知，当训练集大小|D D|趋向于无穷大时，经验风险就趋向趋向于无穷大时，经验风险就趋向于期望风险。然而通常情况下，我们无法获取无限的训练样本，并且训练样于期望风险。然而通常情况下，我们无法获取无限的训练样本，并且训练样本往往是真实数据的一个很小的子集或者包含一定的噪声数据，不能很好地本往往是真实数据的一个

3、很小的子集或者包含一定的噪声数据，不能很好地反映全部数据的真实分布。经验风险最小化原则很容易导致模型在训练集上反映全部数据的真实分布。经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高。这就是所谓的过拟合错误率很低，但是在未知数据上错误率很高。这就是所谓的过拟合（OverfittingOverfitting）。）。过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。为了解决过拟合问题，一般在经验风险最小化的基础上再引入参数的正则化为了解决过拟合问题，一般在经验风险最小化的基础上再引入参数的

4、正则化（RegularizationRegularization），来限制模型能力，使其不要过度地最小化经验风险。），来限制模型能力，使其不要过度地最小化经验风险。这种准则就是结构风险最小化（这种准则就是结构风险最小化（Structure Risk MinimizationStructure Risk Minimization，SRMSRM）准则。）准则。7.2.3 7.2.3 优化算法优化算法7.2.3 7.2.3 优化算法优化算法7.2.3 7.2.3 优化算法优化算法（2 2）提前停止）提前停止针对梯度下降的优化算法，除了加正则化项之外，还可以通过提前停止来针对梯度下降的优化算法，除了

5、加正则化项之外，还可以通过提前停止来防止过拟合。在梯度下降训练的过程中，由于过拟合的原因，在训练样本上防止过拟合。在梯度下降训练的过程中，由于过拟合的原因，在训练样本上收敛的参数，并不一定在测试集上最优。因此，除了训练集和测试集之外，收敛的参数，并不一定在测试集上最优。因此，除了训练集和测试集之外，有时也会使用一个验证集（有时也会使用一个验证集（Validation SetValidation Set）,也叫开发集（也叫开发集（Development Development SetSet）来进行模型选择，测试模型在验证集上是否最优。）来进行模型选择，测试模型在验证集上是否最优。7.2.3 7.

6、2.3 优化算法优化算法（3 3）随机梯度下降法）随机梯度下降法在机器学习中，我们假设每个样本都是独立同分布的从真实数据分布中在机器学习中，我们假设每个样本都是独立同分布的从真实数据分布中随机抽取出来的，真正的优化目标是期望风险最小。批量梯度下降相当于是随机抽取出来的，真正的优化目标是期望风险最小。批量梯度下降相当于是从真实数据分布中采集从真实数据分布中采集N N个样本，并由它们计算出来的经验风险的梯度来近似个样本，并由它们计算出来的经验风险的梯度来近似期望风险的梯度。为了减少每次迭代的计算复杂度，我们也可以在每次迭代期望风险的梯度。为了减少每次迭代的计算复杂度，我们也可以在每次迭代时只采集

7、一个样本，计算这个样本损失函数的梯度并更新参数，即随机梯度时只采集一个样本，计算这个样本损失函数的梯度并更新参数，即随机梯度下降法（下降法（Stochastic Gradient DescentStochastic Gradient Descent，SGDSGD），也叫增量梯度下降），也叫增量梯度下降。7.2.3 7.2.3 优化算法优化算法7.37.3机器学习的线性模型机器学习的线性模型7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归

8、线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.17.3.1线性回归线性回归7.3.2 Logistic7.3.2 Logistic回归回归7.3.2 Logistic7.3.2 Logistic回归回归7.3.2 Logistic7.3.2 Logistic回归回归7.3.2 Logistic7.3.2 Logistic回归回归7.3.3 7.3.3 SoftmaxSoftmax回归回归7.3.3 7.3.3 SoftmaxSoftmax回归回归7.3.3 7.3.3 Softma

9、xSoftmax回归回归7.3.3 7.3.3 SoftmaxSoftmax回归回归7.47.4机器学习算法的类型机器学习算法的类型7.47.4机器学习算法的类型机器学习算法的类型7.47.4机器学习算法的类型机器学习算法的类型2 2 无监督学习无监督学习无监督学习无监督学习（Unsupervised LearningUnsupervised Learning，ULUL）是指从不包含目）是指从不包含目标标签的训练样本中自动学习到一些有价值的信息。典型的无监标标签的训练样本中自动学习到一些有价值的信息。典型的无监督学习问题有聚类、密度估计、特征学习、降维等。督学习问题有聚类、密度估计、特征学习

10、、降维等。3 3 强化学习强化学习强化强化学习（学习（Reinforcement LearningReinforcement Learning，RLRL）是一类通过交互来）是一类通过交互来学习的机器学习算法。在强化学习中，智能体根据环境的状态做学习的机器学习算法。在强化学习中，智能体根据环境的状态做出一个动作，并得到即时或延时的奖励。智能体在和环境的交互出一个动作，并得到即时或延时的奖励。智能体在和环境的交互中不断学习并调整策略，以取得最大化的期望总回报。表中不断学习并调整策略，以取得最大化的期望总回报。表7.17.1给出给出了三种机器学习类型的比较。了三种机器学习类型的比较。7.5.17.

11、5.1传统的特征学习传统的特征学习7.5.27.5.2深度学习方法深度学习方法传统传统的特征抽取一般是和预测模型的学习分离的。我们会先通的特征抽取一般是和预测模型的学习分离的。我们会先通过主成分分析或线性判别分析等方法抽取出有效的特征，然后再过主成分分析或线性判别分析等方法抽取出有效的特征，然后再基于这些特征来训练一个具体的机器学习模型。基于这些特征来训练一个具体的机器学习模型。如果如果我们将特征的表示学习和机器学习的预测学习有机地统我们将特征的表示学习和机器学习的预测学习有机地统一到一个模型中，建立一个端到端的学习算法，可以有效地避免一到一个模型中，建立一个端到端的学习算法，可以有效地避免

12、它们之间准则的不一致性它们之间准则的不一致性。这种这种表示学习方法就称为深度学习（表示学习方法就称为深度学习（Deep LearningDeep Learning，DLDL）。）。深度学习方法的难点是如何评价表示学习对最终系统输出结果的深度学习方法的难点是如何评价表示学习对最终系统输出结果的贡献或影响，即贡献度分配问题贡献或影响，即贡献度分配问题。7.67.6评价指标评价指标7.67.6评价指标评价指标7.77.7小结小结7.77.7小结小结分别分别给出了线性回归和线性分类给出了线性回归和线性分类LogisticLogistic回归和回归和SoftmaxSoftmax回归学习模型和相应的学习

13、准则以及参数计算，回归学习模型和相应的学习准则以及参数计算，线性回归用于预测值为连续值的场合，而线性回归用于预测值为连续值的场合，而LogisticLogistic回归和回归和SoftmaxSoftmax回归用于预测值为离散值的分类。回归用于预测值为离散值的分类。最后最后列出了模型预测性能的评价指标，最为常用的就列出了模型预测性能的评价指标，最为常用的就是准确率。对于二分类情形还有查准率、查全率和是准确率。对于二分类情形还有查准率、查全率和F F值等值等常用的指标。对一些基础的算法给出了常用的指标。对一些基础的算法给出了PythonPython程序实现，程序实现，如线性回归、随机梯度下降、如线性回归、随机梯度下降、LogisticLogistic回归和评价指标等。回归和评价指标等。

展开阅读全文

《人工智能及其应用》课件第7章 机器学习.pptx

《人工智能及其应用》课件第7章机器学习.pptx