1、西安交通大学西安交通大学 数学与统计学院数学与统计学院张讲社张讲社 西安交通大学统计系西安交通大学统计系主要内容主要内容324151.1 1.1 深度学习的背景及意义深度学习的背景及意义最多含单个将原始信号转换到特定问题空间最多含单个将原始信号转换到特定问题空间特征的简单结构,特征的简单结构,。浅层学习的局限性浅层学习的局限性 在有限的样本和计算单元的情况下在有限的样本和计算单元的情况下对复杂函数的表示能力有限对复杂函数的表示能力有限 缺乏发现数据中复杂结构的能力缺乏发现数据中复杂结构的能力 针对复杂分类问题其针对复杂分类问题其泛化能力受到泛化能力受到一定限制一定限制 GoogleGoogle
2、的语音识别实验证明,面对的语音识别实验证明,面对大数据大数据,浅层结构算法,浅层结构算法经常处于严经常处于严重的欠拟合状态重的欠拟合状态。n 机器学习是使计算机具有人工智能的根本途径机器学习是使计算机具有人工智能的根本途径人类大脑的信息处理系统人类大脑的信息处理系统是一多层是一多层并行系统,它利用逐层的方式对数并行系统,它利用逐层的方式对数据进行特征提取,从低层到高层的据进行特征提取,从低层到高层的特征表示越来越抽象。抽象层面越特征表示越来越抽象。抽象层面越高,越能表现语义或者意图。高,越能表现语义或者意图。人类的认知过程是以深度的方式呈现的,层次化地人类的认知过程是以深度的方式呈现的,层次化
3、地组织思想和概念:首先学习简单的概念,然后使用组织思想和概念:首先学习简单的概念,然后使用学习到的简单概念表示抽象层面更高的概念。学习到的简单概念表示抽象层面更高的概念。面对复杂的感知数据,人类总能做出合理的判断面对复杂的感知数据,人类总能做出合理的判断n 人类大脑的结构和信息处理机制人类大脑的结构和信息处理机制n 人类的认知过程人类的认知过程1.1 1.1 深度学习的背景及意义深度学习的背景及意义提取抽象水平提取抽象水平较低的特征较低的特征提取抽象水平提取抽象水平较高的特征较高的特征1.1 1.1 深度学习的背景及意义深度学习的背景及意义深度学习的概念起源于人工神经网络的研究深度学习的概念起
4、源于人工神经网络的研究基于数据处理基于数据处理群方法训练群方法训练的网络模型的网络模型1965年年1979年年卷积神经卷积神经网络模型网络模型多层前向多层前向网网1986年年2006年年1.2 1.2 深度学习的发展深度学习的发展u 复兴复兴BPBP方法的局限性方法的局限性*深度结构的新发展深度结构的新发展8l 深度学习成熟条件深度学习成熟条件1 1数据集的增大数据集的增大图 6 数据集与年份9l 深度学习成熟条件深度学习成熟条件2 2神经元之间的连接数增大(本质原因神经元之间的连接数增大(本质原因是计算机硬件技术的飞速发展)是计算机硬件技术的飞速发展)图 7 神经元连接与年份10l 深度学习
5、成熟条件深度学习成熟条件3 3神经元个数的增加(本质原因是神经元个数的增加(本质原因是计算机硬件技术的飞速发展)计算机硬件技术的飞速发展)图 8 神经元个数与年份11l 好算法的出现:好算法的出现:2006 2006年,年,Geoffrey HintonGeoffrey Hinton在在ScienceScience上发表了一篇名为上发表了一篇名为Reducing with Reducing with Dimensionality of Data with Neural NetworksDimensionality of Data with Neural Networks的文章,从此,神经网络的
6、文章,从此,神经网络(主要是深度学习)便有焕发了新的青春。(主要是深度学习)便有焕发了新的青春。图 9 Geoffrey Hinton与他的学生在Science上发表文章1.2 1.2 深度学习的发展深度学习的发展u 在学术界的研究现状及应用在学术界的研究现状及应用子模型的选子模型的选取与建立取与建立深度结构的深度结构的整体训练整体训练语音和音频语音和音频信号处理信号处理图像识别图像识别和检索和检索自然语言处理自然语言处理和信息检索和信息检索 1.2 1.2 深度学习的发展深度学习的发展u 在工业界的发展在工业界的发展l 互联网界巨头进入深度学习领域互联网界巨头进入深度学习领域图 15 机器学
7、习界的执牛耳者与互联网的大鳄的联姻18(Hinton et al.2006,(Hinton et al.2006,BengioBengio et al.2007)et al.2007)1.3 1.3 深度信念网深度信念网RBMRBM(Hinton et al.2006,(Hinton et al.2006,BengioBengio et al.2007)et al.2007)1.4 1.4 深度信念网深度信念网RBMRBM(Hinton et al.2006,(Hinton et al.2006,BengioBengio et al.2007)et al.2007)1.4 1.4 深度信念网深
8、度信念网RBMRBM(Hinton et al.2006,(Hinton et al.2006,BengioBengio et al.2007)et al.2007)1.4 1.4 深度信念网深度信念网1.4 1.4 深度信念网深度信念网提出了一种用于训练多层前向网的新算法提出了一种用于训练多层前向网的新算法建立了基于率失真理论的深度学习模型建立了基于率失真理论的深度学习模型提出了对图像变换稳定的分类提出了对图像变换稳定的分类RBMRBM模型模型提出了用于训练提出了用于训练RBMRBM的等能量并行回火算法的等能量并行回火算法主要工作主要工作22稀疏连接稀疏连接稀疏响应稀疏响应神经元群神经元群刺
9、激刺激(Morris et al.2003(Morris et al.2003 Barlow,1972 Barlow,1972 OlshausenOlshausen et al.2004)et al.2004)(连接稀疏连接稀疏)(响应稀疏响应稀疏)2.1 2.1 稀疏响应稀疏响应训练方法训练方法稀疏响应稀疏响应BPBP网的结构网的结构输入向量输入向量隐隐 层层输出向量输出向量后向传播后向传播误差信号误差信号前向传播信息,计前向传播信息,计算网络的实际输出算网络的实际输出稀疏响应稀疏响应BPBP网网(SRBP)2.2 2.2 基于稀疏响应的多层前向网基于稀疏响应的多层前向网xy输入层输入层 隐
10、层隐层网络结构网络结构两类数据(红色,蓝色)两类数据(红色,蓝色)样本数:样本数:384384双螺旋数据双螺旋数据2.3 2.3 实验实验2.3 2.3 实验实验训练误差线训练误差线隐层神经元隐层神经元(第二个隐第二个隐层层)在所有样本上响应在所有样本上响应的直方图的直方图BP(Hinton et al.1986)RoBP(Hirasawa 2009)GaBP(Girosi et al.1995)LaBP(Williams 1995)EnBP2(Chauvin 1995)EnBP3(Chauvin 1995)EnBP1(Chauvin 1995)SaBP第第二二个个隐隐层层在在整整个个数数据据
11、区区域域上上的的响响应应情情况况SRBPBP2.3 2.3 实验实验2.3 2.3 实验实验Iris datasetHepatitis datasetGlass datasetWine datasetDiabetesUCIUCI数据集数据集2.3 2.3 实验实验2.3 2.3 实验实验Iris隐层神经元在四个训练样本上的响应柱状图隐层神经元在四个训练样本上的响应柱状图HepatitisClassWineDiabetesIrisHepatitisGlassWineDiabetes隐层神经元在所有训练样本上的响应直方图隐层神经元在所有训练样本上的响应直方图2.3 2.3 实验实验数据集数据集BP
12、GaBPLaBpRoBPEnBP1EnBP2EnBP3SRBPIris96.93%96.67%95.60%96.53%96.93%97.07%97.07%97.33%(4.90)(4.71)(7.08)(5.59)(0.24)(0.24)(0.24)(0.22)Hepatitis72.25%75.25%78.00%78.00%81.50%79.75%80.25%84.25%(22.77)(21.35)(15.48)(17.05)(1.61)(1.59)(1.22)(1.33)Glass93.75%93.37%93.85%93.65%92.88%93.26%93.55%94.01%(5.67)(
13、5.90)(5.88)(5.78)(0.28)(0.24)(0.24)(0.26)Wine97.52%97.63%97.86%98.08%98.08%97.97%98.19%98.19%(3.43)(3.03)(3.18)(2.70)(0.00)(0.10)(0.14)(0.14)Diabetes74.93%75.97%74.43%75.40%76.49%77.17%77.17%77.40%(6.14)(5.32)(7.47)(5.71)(0.26)(0.17)(0.18)(0.17)测试集分类精度,测试集分类精度,5050次实验的平均结果次实验的平均结果2.3 2.3 实验实验2.3 2.3
14、 实验实验2.3 2.3 实验实验大脑中每个大脑中每个神经元在响应时都会比不响应时消耗更多的能量神经元在响应时都会比不响应时消耗更多的能量。我们用新模型中所有隐层神经元的响应值与我们用新模型中所有隐层神经元的响应值与BPBP网隐层神经元的响应值的比值网隐层神经元的响应值的比值来判断在来判断在BPBP网中引入稀疏响应限制是否节省网络处理数据所需要的能量。网中引入稀疏响应限制是否节省网络处理数据所需要的能量。数据集数据集Two-spiralIrisHepatitisGlassWineDiabetesGaBP/BP1.00051.00730.83840.97370.99980.9981RoBP/BP
15、1.97821.26672.57480.97530.99310.0999LaBP/BP1.22790.99740.94590.97690.99600.9994EnBP1/BP0.28900.19030.02900.11060.35670.0544EnBP2/BP0.37660.19190.03330.25800.45860.0603EnBP3/BP0.28080.19220.03040.13650.40470.0565SRBP/BP0.22020.14580.02110.06790.24210.02062.3 2.3 实验实验2.4 2.4 本章小结本章小结基于人类神经系统中对于某一个刺激只有
16、少量神经元基于人类神经系统中对于某一个刺激只有少量神经元同时响应的机制,提出用于训练多层前向网的新算法同时响应的机制,提出用于训练多层前向网的新算法实验结果表明实验结果表明333.1 3.1 率失真理论率失真理论等价问题等价问题n 编码率编码率编码机制为确定型时编码机制为确定型时在在RBMRBM中,隐层神经元的响应中,隐层神经元的响应概率概率(数据的表示数据的表示)是确定的是确定的n 失真水平失真水平RBMRBM是概率模型,因此使用输入数据分是概率模型,因此使用输入数据分布与模型分布之间的布与模型分布之间的Kullback-Kullback-LeiblerLeibler散度作为失真函数散度作为
17、失真函数在在RBMRBM中中,RD-DBN模型模型(RD-RBM)(RD-RBM)3.2 3.2 基于率失真理论的深度信念网基于率失真理论的深度信念网1000010000张图,每张像素为张图,每张像素为12X1212X12网络共有两个隐层,第一个隐层有网络共有两个隐层,第一个隐层有144144个神经元,第二个隐层有个神经元,第二个隐层有5050个神经元个神经元自然图像自然图像3.3 3.3 实验实验1000010000张图,每张像素为张图,每张像素为12X1212X12网络共有两个隐层,第一个隐层有网络共有两个隐层,第一个隐层有144144个神经元,第二个隐层有个神经元,第二个隐层有5050个
18、神经元个神经元DBN学到的学到的W1RD-DBN学到的学到的W1自然图像自然图像3.3 3.3 实验实验1000010000张图,每张像素为张图,每张像素为12X1212X12网络共有两个隐层,第一个隐层有网络共有两个隐层,第一个隐层有144144个神经元,第二个隐层有个神经元,第二个隐层有5050个神经元个神经元自然图像自然图像RD-DBN学到的学到的W23.3 3.3 实验实验第一个样本所引起的隐层第一个样本所引起的隐层(第一个隐层第一个隐层)神经元响应概率的柱状图神经元响应概率的柱状图DBNRD-DBN手写体数据,手写体数据,1010类,每类取类,每类取20002000个数据作为实验数据
19、个数据作为实验数据网络共有两个网络共有两个隐层,第一个隐层,第一个隐层有隐层有196196个个神经元,第二神经元,第二个隐层有个隐层有5050个个神经元神经元手写体数据手写体数据3.3 3.3 实验实验3.3 3.3 实验实验3.3 3.3 实验实验分类误判率分类误判率(从每类数据中随机抽取从每类数据中随机抽取100100,500500,10001000个样本作为训练数据,个样本作为训练数据,5050次实验平均结果次实验平均结果)3.3 3.3 实验实验MNISTMNIST数据集:水平轴为所选取的神经元个数(在训练数据上响应次数较多),垂直轴为具数据集:水平轴为所选取的神经元个数(在训练数据上
20、响应次数较多),垂直轴为具有部分隐层神经元的网络在训练集(每类分别取有部分隐层神经元的网络在训练集(每类分别取100100,500500和和10001000个样本作为训练集)和测试个样本作为训练集)和测试集上的分类误差率(集上的分类误差率(%)。)。3.3 3.3 实验实验5 5类,每类取类,每类取20002000个数据作为训练数据个数据作为训练数据1010类,每类取类,每类取20002000个数据作为训练数据个数据作为训练数据CIFARCIFAR数据数据NORBNORB数据数据3.3 3.3 实验实验3.3 3.3 实验实验3.3 3.3 实验实验3.3 3.3 实验实验NORB分类误判率分
21、类误判率(从每类数据中随机抽取从每类数据中随机抽取200200,500500个样本作为训练数据,个样本作为训练数据,5050次实验平均结果次实验平均结果)分类误判率分类误判率(从每类数据中随机抽取从每类数据中随机抽取10001000个样本作为训练数据,个样本作为训练数据,5050次实验平均结果次实验平均结果)CIFAR-10基于率失真理论的思想提出了新的深度信念网模型基于率失真理论的思想提出了新的深度信念网模型实验结果表明实验结果表明3.4 3.4 本章小结本章小结5 4Gibbs抽样抽样 极大似然的困境极大似然的困境 基于模型的期望难以计算!基于模型的期望难以计算!无数次交替无数次交替Gib
22、bsGibbs采样的时间开销大采样的时间开销大!4.1 RBM4.1 RBM训练的困境训练的困境梯度计算的难梯度计算的难点:如何抽取点:如何抽取模型分布的样模型分布的样本?本?对比散度对比散度(contrastive divergence)持续对比散度持续对比散度(persistent contrastive divergence)快速持续对比散度快速持续对比散度(fast persistent contrastive divergence)经典的马尔科夫经典的马尔科夫链蒙特卡洛链蒙特卡洛(MCMC)方方法法以训练数据作为马尔科夫以训练数据作为马尔科夫链的初始状态,且只进行链的初始状态,且只进
23、行k步步Gibbs采样采样马尔科夫链的初始状态为上马尔科夫链的初始状态为上一步更新参数时的最终状态一步更新参数时的最终状态在在CD的负项中添加的负项中添加“fast weights”集集4.2 4.2 几种经典的训练方法几种经典的训练方法 从从理论理论上讲,人们总能通过上讲,人们总能通过MCMCMCMC采集到符合目标分布的样本采集到符合目标分布的样本 实际应用实际应用中,人们通常不了解中,人们通常不了解多少次转移是足够多少次转移是足够的。这个问题很大程的。这个问题很大程度上受到度上受到目标分布陡峭目标分布陡峭程度的影响。程度的影响。低概率区域典型的双峰分布以及典型的双峰分布以及MCMC可能面临
24、的问题可能面临的问题4.2 4.2 几种经典的训练方法几种经典的训练方法借助多个辅助的借助多个辅助的GibbsGibbs链链,将,将低温分布下的状态转移到高温分布低温分布下的状态转移到高温分布中,实现中,实现目标分布中不同峰值状态的转移,达到对整个分布采样的目的。目标分布中不同峰值状态的转移,达到对整个分布采样的目的。高温高温低温低温温度越高,温度越高,分布越均匀分布越均匀Gibbs抽样抽样Gibbs抽样抽样局部转移局部转移全局跳转全局跳转4.2 4.2 几种经典的训练方法几种经典的训练方法相邻相邻GibbsGibbs链间的状态交换概率依赖于链间的状态交换概率依赖于GibbsGibbs链的温度
25、和状态的能量链的温度和状态的能量4.2 4.2 几种经典的训练方法几种经典的训练方法在在PTPT中,使用中,使用过少的过少的辅助分布辅助分布或者使用或者使用不不合适的辅助分布合适的辅助分布都会都会导致相邻导致相邻GibbsGibbs链的状链的状态拥有较大差异的能态拥有较大差异的能量,从而产生量,从而产生极低的极低的交换概率,不利于交换概率,不利于RBMRBM的训练的训练0容易容易困难困难4.3 4.3 等能量抽样等能量抽样Kou于于2006年提出等能量抽样年提出等能量抽样利用温度和能量截尾的方法构造多个辅助分布利用温度和能量截尾的方法构造多个辅助分布等能量抽样直接用于等能量抽样直接用于RBMR
26、BM训练的难点训练的难点在在RBMRBM中,基于以上辅助分布,可以推导出模型的条件分布为中,基于以上辅助分布,可以推导出模型的条件分布为为了得到较高的状态交换概率,我们采用为了得到较高的状态交换概率,我们采用等能量跳转等能量跳转5.4 5.4 用等能量跳转的并行回火算法训练用等能量跳转的并行回火算法训练RBMRBMPTEE局部转移局部转移全局跳转全局跳转Gibbs sampling划分划分第一个能第一个能量集量集第第d个能个能量集量集状态交换状态交换状态交换状态交换每个链的状态转移每个链的状态转移过程不受其它链的过程不受其它链的影响影响状态被划分到多个能状态被划分到多个能量集中,并在能量集量集
27、中,并在能量集内部进行状态交换内部进行状态交换4.4 4.4 用等能量跳转的并行回火算法训练用等能量跳转的并行回火算法训练RBMRBM 基于四个基本模型基于四个基本模型(模型模型之间的差异性比较大之间的差异性比较大)而而产生的数据集。对于每一产生的数据集。对于每一个基本模型,以个基本模型,以0.0010.001的的概率转换模型中的像素概率转换模型中的像素(0(0变成变成1 1,1 1变成变成0)0),从而生,从而生成成25002500张与该基本模型相张与该基本模型相似的图片。似的图片。4.5 4.5 实验实验某步参数更新时,有可能进行全局跳转的马尔科夫链状态的能量某步参数更新时,有可能进行全局
28、跳转的马尔科夫链状态的能量:(左左)PT)PT;(右右)PTEE)PTEE4.5 4.5 实验实验整个训练过程中,每个整个训练过程中,每个马尔科夫链与其它链交马尔科夫链与其它链交换状态的平均交换概率。换状态的平均交换概率。4.5 4.5 实验实验4.5 4.5 实验实验5 5次实验的平均结果,小数据集次实验的平均结果,小数据集4.5 4.5 实验实验5 5次实验的平均结果,次实验的平均结果,MNISTMNIST数据集数据集5 5次实验的平均结果,小数据集次实验的平均结果,小数据集4.5 4.5 实验实验结合等能量抽样和并行回火抽样方法提出了用于训练结合等能量抽样和并行回火抽样方法提出了用于训练
29、RBMRBM的新算法的新算法实验结果表明实验结果表明4.6 4.6 本章小结本章小结5 55.1 5.1 结果结果5.2 5.2 进一步的研究问题进一步的研究问题Pattern RecognitionPattern RecognitionKnowledge-Based SystemsKnowledge-Based Systems Pattern Recognition LettersPattern Recognition Letters NeurocomputingNeurocomputingIn Proceedings of IEEE In Proceedings of IEEE International Joint Conference on Neural NetworksInternational Joint Conference on Neural Networks主要研究成果主要研究成果致谢致谢:研究受科技部研究受科技部973973项目项目国家自然科学基金委面上项目国家自然科学基金委面上项目重大研究计划资助重大研究计划资助研究工作主要参加者:研究工作主要参加者:姬楠楠、张春霞、刘军民姬楠楠、张春霞、刘军民协助协助PPTPPT制作:姬楠楠制作:姬楠楠73 以上有不当之处,请大家给与批评指正,以上有不当之处,请大家给与批评指正,谢谢大家!谢谢大家!