统计学习理论本质-PPT精选课件.ppt

上传人（卖家）：三亚风情文档编号：3525745 上传时间：2022-09-11 格式：PPT 页数：15 大小：295.50KB

下载相关举报

第1页 / 共15页

第2页 / 共15页

第3页 / 共15页

第4页 / 共15页

第5页 / 共15页

点击查看更多>>

资源描述

1、第七章统计学习理论的本质7.1 统计学习的本质统计学习的本质n系统S为研究对象，通过一系列的观测样本来求得学习机LM，使得LM的输出能够尽量准确的预测S的输出y。(x1,y1)，(x2,y2)，(xn,yn)y风险风险n学习机LM的输出与输入x之间可以看作是一个函数关系：n一般需要将函数限定在特定的一组函数中求取。n定义风险：均方误差：似然函数：y yf x f x,f x w,L y f x w2,L y f x wyf x w,ln,L p x wp x w 期望风险期望风险ny与x之间存在一定的依赖关系，可以用一个未知的联合概率F(x,y)描述。n期望风险定义为：n统计学习的目

2、的就是要寻找到一个最优的函数f(x,w*)，使得R(w*)最小。,R wL y f x wdF x y经验风险经验风险n期望风险一般来说无法计算，在工程上转而计算经验风险：n求取最优参数w*，使得经验风险Remp(w*)最小。n当学习过程具有一致性时，统计学有如下关系：11,nempiiiRwL yf x wn limempnRwR w期望风险与经验风险的关系期望风险与经验风险的关系 empRwR w7.2 函数集的函数集的VC维与推广性的界维与推广性的界n统计学习的推广能力不仅同训练样本数n有关系，而且同学习机的函数集选择有关系，“简单的”的函数集合推广能力强，“复杂”的函数集合推广能力差。

3、n当函数集过于“复杂”时，很容易产生“过学习”现象：对于训练样本风险很小，而对非训练样本风险却很大。过学习过学习VC维维n打散：如果存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能的2h种形式分为两类，则称函数集能够将样本数为h的样本集打散；nVC维：如果函数集能够打散h个样本的样本集，而不能打散h+1个样本的样本集，则称函数集的VC维为h。d维空间中线性函数的VC维：h=d+1；1.正弦函数集合sin(wx)的VC维：h=。推广性的界推广性的界n函数集合的VC维描述了函数的复杂程度，利用VC维可以确定推广性的界，下列不等式右半部分至少以概率1-成立：其中h为函数集合的VC维，n

4、为训练样本数。n当n/h较小时，置信范围较大；n/h较大时，置信范围较小：ln 21ln4empemphn hRwR wRwn empempnRwR wRwh7.3 提高推广能力的方法提高推广能力的方法n提高推广能力的本质方法是由原来只优化经验风险变为优化期望风险的上界：empRwn h empRw过学习欠学习结构风险最小化原则结构风险最小化原则（SRM，Structural Risk Minimization）n首先把函数集分解为一个函数子集序列：各个子集按照VC维的大小排序：在子集序列中寻找经验风险与置信范围之和最小的子集，这个子集中使经验风险最小的函数就是所求的最优函数。,Sf x

5、 ww12kSSSS12khhhSRM在线性分类器上的应用（在线性分类器上的应用（SVM）nd维空间中的线性函数的VC维为d+1，但当限制判别界面的分类间隔时，其VC有可能更小。n定理定理：在d维空间中，设所有n个样本都在一个超球范围之内，超球的半径为R，那么-间隔分类超平面集合的VC维h满足如下不等式：n而间隔，因此根据SRM的原则，只需在保证经验风险为0的条件下（超平面能够正确分类全部训练样本），最小化权值矢量的长度。22min,1Rhn1 ww验证技术（验证技术（Validation）n当无法计算函数集的VC维时，可以采用验证技术。将样本集分为训练集和验证集，用训练集的样本训练网络，用验证集的样本测试网络，寻找一个验证集风险最小的模型和参数。权值衰减权值衰减n实验表明，多层感知器网络中比较小的权值往往能够提高系统的推广能力，因此在训练过程中可以有意地衰减权值：n或者采用一个等价的目标函数：1newoldww 2TefJJww w

展开阅读全文