1、人工智能-3贝叶斯统计机器学习2主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例机器学习问题实例 机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型参考讲义 模式识别与机器学习 第1章,1.2 概率论 1.5 决策论 第3章 3.1 第4章 4.3(4.3.1,4.3.2)第5章,5.1,5.2,5.3相关的基本概念训练集合x1,,xN目标向量 t 映射函数:y(x)推广性(举一反三)模型评估与模型选择 正则化与交叉验证 分类 回归(regression)reinforcement learning模式识别与机器学习的基本问题 监督学习:分类,回归(re
2、gression)输入变量:x,目标变量:t给定训练样本:x,t目标:(学习出x 和t的函数关系)给定x 预测t模式识别与机器学习的基本问题学习数据学习数据算法:解释数据算法:解释数据结果:预测数据结果:预测数据衡量算法:推广能力衡量算法:推广能力理论原则:拟合训练数据理论原则:拟合训练数据+最简模型最简模型用用函数或其它模型表示数据函数或其它模型表示数据Polynomial Curve Fitting 多项式多项式曲线拟合曲线拟合-问题描述输入变量:x目标变量:t生成过程:给定训练样本:x x,t t sin(2)tx 实际问题中是未知的Polynomial Curve FittingPol
3、ynomial Curve Fitting 目标:给定新的 ,预测的 值 线性模型:利用训练样本,估计模型的参数方法:误差平方和最小:xtSum-of-Squares Error Function0th Order Polynomial1st Order Polynomial3rd Order Polynomial9th Order Polynomial模型评估与模型选择 Polynomial Curve Fitting 哪一个最好?训练误差测试误差过训练均方误差(root-mean-square)Over-fittingRoot-Mean-Square(RMS)Error:Polynomia
4、l Curve Fitting 过训练的相关因素模型复杂度Polynomial Coefficients Polynomial Curve Fitting 过训练的相关因素模型复杂度训练样本数Data Set Size:9th Order PolynomialData Set Size:9th Order Polynomial模型评估与模型选择 过训练的相关因素模型复杂度训练样本数学习方法最大似然贝叶斯方法正则化与交叉验证 Regularization:Penalize large coefficient valuesRegularization:Regularization:Regulari
5、zation:vs.Polynomial Coefficients 正则化与交叉验证 交叉验证交叉验证:训练集 training set:用于训练模型 验证集 validation set:用于模型选择 测试集 test set:用于最终对学习方法的评估 简单交叉验证 S折交叉验证 留一交叉验证分类问题分类问题 二分类评价指标 TP true positive FN false negative FP false positive TN true negative 精确率 召回率 F1值回归问题 回归模型是表示从输入变量到输出变量之间映射的函数.回归问题的学习等价于函数拟合。学习和预测两个阶段
6、 训练集:回归问题 例子:标记表示名词短语的“开始”、“结束”或“其他”(分别以B,E,O表示)输入:At Microsoft Research,we have an insatiable curiosity and the desire to create new technology that will help define the computing experience.输出:At/O Microsoft/B Research/E,we/O have/O an/O insatiable/6 curiosity/E and/O the/O desire/BE to/O create/O
7、 new/B technology/E that/O will/O help/O define/O the/O computing/B experience/E.主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型线性回归模型 逻辑回归模型 神经网络模型 支持向量机模型Linear Basis Function Models(1)Example:Polynomial Curve FittingLinear Basis Function Models(2)Generally where j(x)are known as basis f
8、unctions.Typically,0(x)=1,so that w0 acts as a bias.In the simplest case,we use linear basis functions:d(x)=xd.Linear Basis Function Models(3)Polynomial basis functions:These are global;a small change in x affect all basis functions.Linear Basis Function Models(4)Gaussian basis functions:These are l
9、ocal;a small change in x only affect nearby basis functions.j and s control location and scale(width).Linear Basis Function Models(5)Sigmoidal basis functions:whereAlso these are local;a small change in x only affect nearby basis functions.j and s control location and scale(slope).主要内容 贝叶斯决策理论 机器学习的
10、几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型 逻辑回归模型逻辑回归模型 神经网络模型 支持向量机模型固定基函数固定基函数 1Two Gaussian basis functions 1(x)and 2(x)固定基函数固定基函数2Two Gaussian basis functions 1(x)and 2(x)逻辑斯谛回归逻辑斯谛回归 logistic regressionadjustable parametersGaussian:M(M+5)/2+1logistic regression:Mlogistic sigmoidlogistic sigmoidnor
11、malized exponential(softmax function)补充补充:交叉熵损失函数相对平方损失过于严格,可使用更适合衡量两个概率分布差异的测量函数。其中,u 交叉交叉熵熵(cross-entropy)是个常用的衡量方法:由于向量 中只有第 个元素 为 1,其余全为 0,于是假设训练数据集的样本数为 n,交叉熵损失函数定义为 其中 代表模型参数。u同样地,如果每个样本只有个标签,那么交叉熵损失可以简写 。u从另个角度来看,我们知道最小化 等价于最大化 即最小化交叉熵损失函数等价于最化训练数据集所有标签类别的联合预测概率 KL散度(Kullback-Leibler(KL)diver
12、gence)u 如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x)和 Q(x),可以使用 KL 散度来衡量这两个分布的差异:u 和 KL 散度密切联系的量是 交叉熵 它和 KL 散度很像但是缺少左边一项:补充:决策树中的信息增益 例,信息增益比信息增益比主要内容 贝叶斯决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型神经网络模型 支持向量机模型神经元人工神经元 结点这种模型所实现的功能正是前面提到的线性分类器。非线性的映射单元Feed-forward Network Functions 1training
13、 the basis functions人工神经元网络工作原理 复杂一些的判别函数 将特征空间划分成两个区域 两条射线组成的折线来划分在折线的一边为y=1,在折线的另一边y=0 显然用一个神经元是不行 人工神经元网络工作原理 复杂一些的判别函数整个空间将因这两个函数值的极性不同分成四个区域y=0这个区域所具有的特点是 与 都小于零 需要增加一个逻辑运算才能解决问题三个运算可以通过三个神经元结点 人工神经元网络工作原理 复杂一些的判别函数Whereas a two-layer network classifier can only implement a linear decisionbound
14、ary,given an adequate number of hidden units,three-,four-and higher-layernetworks can implement arbitrary decision boundaries.The decision regions need notbe convex or simply connected.From:Richard O.Duda,Peter E.Hart,and David G.Stork,Pattern Classification.Copyright c 2001 by John Wiley&Sons,Inc.P
15、arameter optimization参数最优化Local quadratic approximation局部二次近似Use of gradient information使用梯度信息所有独立元素:W(W+3)/2 O(W2)非利用梯度信息:O(W2)function O(W)stepsO(W3)利用梯度信息:O(W)gradient evaluations O(W)stepsO(W2)Gradient descent optimization梯度下降最优化 batch methods批量优化l gradient descent,steepest descentlconjugate gra
16、dients lquasi-Newton methods 在线优化l sequential gradient descent or stochastic gradient descentError Backpropagation误差反向传播 Error BackpropagationlIn the first stage计算权值导数使用于其他网络lIn the second stage计算权值调整量Evaluation of error-function derivatives 1error functionforward propagationeach unit computes a wei
17、ghted sum of its inputsnonlinear activation functionEvaluation of error-function derivatives 2the derivative of Enwith respect to a weight wjifor the output unitsEvaluation of error-function derivatives 3for hidden unitsjjjkazzaEvaluation of error-function derivatives 4 Error Backpropagation主要内容 贝叶斯
18、决策理论 机器学习的几种方法 机器学习问题实例 机器学习的主要模型机器学习的主要模型 线性回归模型 逻辑回归模型 神经网络模型 支持支持向量机模型向量机模型Maximum Margin Classifiers 1 the two-class classification problemy(x)=wT(x)+b training data set N input vectors x1,.,xN target values t1,.,tN tn 1,1 new data points x are classified according to the sign of y(x)assume line
19、arly separable tn y(xn)0Maximum Margin Classifiers 2 many such solutions exist the perceptron algorithm find a solution in a finite number of steps dependent on the (arbitrary)initial values chosen for w and bthe order which the data points are presentedwe should try to find the smallest generalizat
20、ion error one The support vector machine the concept of the margin:defined to be the smallest distance between the decision boundary and any of the samplesMaximum Margin Classifiers 3Maximum MarginMaximum Margin Classifiers 3Maximum Marginy=0y=1y=-1y=0y=1y=-1Maximum Margin Classifiers 4 the perpendicular distance of a point x from a hyperplane(y(x)=0):|y(x)|/|w|the distance of a point xn to the decision surface 思考与讨论
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。