1、贝叶斯统计机器学习(贝叶斯统计机器学习(2)主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习问题实例机器学习的主要模型线性回归模型逻辑回归模型神经网络模型支持向量机模型参考讲义模式识别与机器学习第1章,1.2 概率论 1.5 决策论第3章 3.1第4章 4.3(4.3.1,4.3.2)第5章,5.1,5.2,5.3相关的基本概念训练集合x1,,xN目标向量 t 映射函数:y(x)推广性(举一反三)模型评估与模型选择 正则化与交叉验证 分类 回归(regression)reinforcement learning模式识别与机器学习的基本问题 监督学习:分类,回归(regressi
2、on)输入变量:x,目标变量:t给定训练样本:x,t目标:(学习出x 和t的函数关系)给定x 预测t模式识别与机器学习的基本问题学习数据学习数据算法:解释数据算法:解释数据结果:预测数据结果:预测数据衡量算法:推广能力衡量算法:推广能力理论原则:拟合训练数据理论原则:拟合训练数据+最简模型最简模型用用函数或其它模型表示数据函数或其它模型表示数据Polynomial Curve Fitting 多项式多项式曲线拟合曲线拟合-问题描述输入变量:x目标变量:t生成过程:给定训练样本:x x,t t sin(2)tx 实际问题中是未知的Polynomial Curve FittingPolynomia
3、l Curve Fitting目标:给定新的 ,预测的 值线性模型:利用训练样本,估计模型的参数方法:误差平方和最小:xtSum-of-Squares Error Function0th Order Polynomial1st Order Polynomial3rd Order Polynomial9th Order Polynomial模型评估与模型选择Polynomial Curve Fitting哪一个最好?训练误差测试误差过训练均方误差(root-mean-square)Over-fittingRoot-Mean-Square(RMS)Error:Polynomial Curve Fi
4、tting过训练的相关因素模型复杂度Polynomial Coefficients Polynomial Curve Fitting过训练的相关因素模型复杂度训练样本数Data Set Size:9th Order PolynomialData Set Size:9th Order Polynomial模型评估与模型选择过训练的相关因素模型复杂度训练样本数学习方法最大似然贝叶斯方法正则化与交叉验证Regularization:Penalize large coefficient valuesRegularization:Regularization:Regularization:vs.Poly
5、nomial Coefficients 正则化与交叉验证 交叉验证交叉验证:训练集 training set:用于训练模型 验证集 validation set:用于模型选择 测试集 test set:用于最终对学习方法的评估 简单交叉验证 S折交叉验证 留一交叉验证分类问题分类问题 二分类评价指标 TP true positive FN false negative FP false positive TN true negative 精确率 召回率 F1值回归问题 回归模型是表示从输入变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。学习和预测两个阶段 训练集:回归问题例子:标记
6、表示名词短语的“开始”、“结束”或“其他”(分别以B,E,O表示)输入:At Microsoft Research,we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.输出:At/O Microsoft/B Research/E,we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O new/B technolo
7、gy/E that/O will/O help/O define/O the/O computing/B experience/E.主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型线性回归模型逻辑回归模型神经网络模型支持向量机模型Linear Basis Function Models(1)Example:Polynomial Curve FittingLinear Basis Function Models(2)Generallywhere j(x)are known as basis functions.Typically,0(x)=
8、1,so that w0 acts as a bias.In the simplest case,we use linear basis functions:d(x)=xd.Linear Basis Function Models(3)Polynomial basis functions:These are global;a small change in x affect all basis functions.Linear Basis Function Models(4)Gaussian basis functions:These are local;a small change in x
9、 only affect nearby basis functions.j and s control location and scale(width).Linear Basis Function Models(5)Sigmoidal basis functions:whereAlso these are local;a small change in x only affect nearby basis functions.j and s control location and scale(slope).主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的
10、主要模型线性回归模型逻辑回归模型逻辑回归模型神经网络模型支持向量机模型固定基函数固定基函数 1Two Gaussian basis functions 1(x)and 2(x)固定基函数固定基函数2Two Gaussian basis functions 1(x)and 2(x)逻辑斯谛回归逻辑斯谛回归 logistic regressionadjustable parametersGaussian:M(M+5)/2+1logistic regression:Mlogistic sigmoidlogistic sigmoidnormalized exponential(softmax func
11、tion)补充补充:交叉熵损失函数相对平方损失过于严格,可使用更适合衡量两个概率分布差异的测量函数。其中,u 交叉交叉熵熵(cross-entropy)是个常用的衡量方法:由于向量 中只有第 个元素 为 1,其余全为 0,于是假设训练数据集的样本数为 n,交叉熵损失函数定义为 其中 代表模型参数。u同样地,如果每个样本只有个标签,那么交叉熵损失可以简写 。u从另个角度来看,我们知道最小化 等价于最大化 即最小化交叉熵损失函数等价于最化训练数据集所有标签类别的联合预测概率KL散度(Kullback-Leibler(KL)divergence)u 如果我们对于同一个随机变量 x 有两个单独的概率分
12、布 P(x)和 Q(x),可以使用 KL 散度来衡量这两个分布的差异:u 和 KL 散度密切联系的量是 交叉熵 它和 KL 散度很像但是缺少左边一项:补充:决策树中的信息增益例,信息增益比信息增益比主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型逻辑回归模型神经网络模型神经网络模型支持向量机模型神经元人工神经元结点这种模型所实现的功能正是前面提到的线性分类器。非线性的映射单元Feed-forward Network Functions 1training the basis functions人工神经元网络工作原理复杂一些的判别函数 将特
13、征空间划分成两个区域 两条射线组成的折线来划分在折线的一边为y=1,在折线的另一边y=0 显然用一个神经元是不行 人工神经元网络工作原理复杂一些的判别函数整个空间将因这两个函数值的极性不同分成四个区域y=0这个区域所具有的特点是 与 都小于零 需要增加一个逻辑运算才能解决问题三个运算可以通过三个神经元结点 人工神经元网络工作原理复杂一些的判别函数Whereas a two-layer network classifier can only implement a linear decisionboundary,given an adequate number of hidden units,t
14、hree-,four-and higher-layernetworks can implement arbitrary decision boundaries.The decision regions need notbe convex or simply connected.From:Richard O.Duda,Peter E.Hart,and David G.Stork,Pattern Classification.Copyright c 2001 by John Wiley&Sons,Inc.Parameter optimization参数最优化Local quadratic appr
15、oximation局部二次近似Use of gradient information使用梯度信息所有独立元素:W(W+3)/2 O(W2)非利用梯度信息:O(W2)function O(W)stepsO(W3)利用梯度信息:O(W)gradient evaluations O(W)stepsO(W2)Gradient descent optimization梯度下降最优化 batch methods批量优化l gradient descent,steepest descentlconjugate gradients lquasi-Newton methods 在线优化l sequential
16、gradient descent or stochastic gradient descentError Backpropagation误差反向传播 Error BackpropagationlIn the first stage计算权值导数使用于其他网络lIn the second stage计算权值调整量Evaluation of error-function derivatives 1error functionforward propagationeach unit computes a weighted sum of its inputsnonlinear activation fu
17、nctionEvaluation of error-function derivatives 2the derivative of Enwith respect to a weight wjifor the output unitsEvaluation of error-function derivatives 3for hidden unitsjjjkazzaEvaluation of error-function derivatives 4Error Backpropagation主要内容贝叶斯决策理论机器学习的几种方法机器学习问题实例机器学习的主要模型机器学习的主要模型线性回归模型逻辑回
18、归模型神经网络模型支持支持向量机模型向量机模型Maximum Margin Classifiers 1the two-class classification problemy(x)=wT(x)+btraining data setN input vectors x1,.,xNtarget values t1,.,tN tn 1,1new data pointsx are classified according to the sign of y(x)assume linearly separabletn y(xn)0Maximum Margin Classifiers 2many such
19、solutions existthe perceptron algorithmfind a solution in a finite number of stepsdependent on the (arbitrary)initial values chosen for w and bthe order which the data points are presentedwe should try to find the smallest generalization error oneThe support vector machinethe concept of the margin:d
20、efined to be the smallest distance between the decision boundary and any of the samplesMaximum Margin Classifiers 3Maximum MarginMaximum Margin Classifiers 3Maximum Marginy=0y=1y=-1y=0y=1y=-1Maximum Margin Classifiers 4the perpendicular distance of a point x from a hyperplane(y(x)=0):|y(x)|/|w|the distance of a point xn to the decision surface思考与讨论