1、第十章深度学习前沿发展of29110.1增强学习10.2迁移学习10.3记忆网络10.4深度学习的硬件实现习题10.1增强学习第十章 深度学习前沿发展of292 根据经典的教科书上的定义,Reinforcement Learning is learning what to do how to map situations to actions,so as to maximize a numerical reward signal.cite David Sutter。即增强学习关注于智能体(智能体)做什么,如何从当前的状态中找到相应的动作,从而得到更好的奖赏。增强学习的学习目标,就是Reward
2、,即奖赏。增强学习就是基于奖赏假设。所有的学习目标都可以归结为得到累计的最大奖赏。1增强学习的基本概念10.1增强学习第十章 深度学习前沿发展of293 增强学习是一种试错(trial-and-error)的学习方式,从不断尝试的经验中发现一个好的policy,从而在这个过程中获取更多的reward。在学习过程中,会有一个在Exploration(探索)和Exploitation(利用)之间的权衡。2增强学习的过程 Exploration(探索)会放弃一些已知的reward信息,而去尝试一些新的选择即在某种状态下,算法也许已经学习到选择什么action让reward比较大,但是并不能每次都做出
3、同样的选择,也许另外一个没有尝试过的选择会让reward更大,即Exploration希望能够探索更多关于environment的信息。Exploitation(利用)指根据已知的信息最大化reward。10.1增强学习第十章 深度学习前沿发展of2943增强学习的应用智能机器人Atari游戏围棋无人驾驶。第十章深度学习前沿发展全国高校标准教材云计算姊妹篇,剖析深度学习核心技术和实战应用of29510.1增强学习10.2迁移学习10.3记忆网络10.4深度学习的硬件实现习题10.2迁移学习第十章 深度学习前沿发展of2961迁移学习的定义 迁移学习涉及到域和任务的概念。一个域 D 由一个特征空
4、间 X 和特征空间上的边际概率分布 P(X)组成,其中 X=。对于有很多词袋表征(bag-of-words representation)的文档分类,X 是所有文档表征的空间,是第 i 个单词的二进制特征,X 是一个特定的文档。给定一个域 D=X,P(X),一个任务 T 由一个标签空间 y 以及一个条件概率分布 P(Y|X)构成,这个条件概率分布通常是从由特征标签对 X,Y 组成的训练数据中学习得到。在文档分类中,Y 是所有标签的集合(即真(True)或假(False),要么为真,要么为假。给定一个源域,一个对应的源任务,还有目标域,以及目标任务,迁移学习的目标就是:在,的情况下,在具备来源于
5、 Ds 和 Ts 的信息时,学习得到目标域 Dt 中的条件概率分布 P(Yt|Xt)。绝大多数情况下,假设可以获得的有标签的目标样本是有限的,有标签的目标样本远少于源样本。由于域 D 和任务 T 都被定义为元组(tuple),所以这些不平衡就会带来四个迁移学习的场景。10.2迁移学习第十章 深度学习前沿发展of2972迁移学习的分类 按照迁移学习的数据域与任务的分类,有4种分类方式。给定源域和目标域 Ds 和 Dt,其中,D=X,P(X),并且给定源任务和目标任务 Ts 和 Tt,其中 T=Y,P(Y|X)。源和目标的情况可以以四种方式变化。(1)XSXT。源域和目标域的特征空间不同,例如,文
6、档是用两种不同的语言写的。在自然语言处理的背景下,这通常被称为跨语言适应(cross-lingual adaptation)。(2)P(Xs)P(Xt)。源域和目标域的边缘概率分布不同,例如,两个文档有着不同的主题。这个情景通常被称为域适应(domain adaptation)。(3)YSYT。两个任务的标签空间不同,例如,在目标任务中,文档需要被分配不同的标签。实际上,这种场景通常发生在场景4中,因为不同的任务拥有不同的标签空间,但是拥有相同的条件概率分布,这种情况非常少见。(4)P(Ys|Xs)P(Yt|Xt)。源任务和目标任务的条件概率分布不同,例如,源和目标文档在类别上是不均衡的。这种
7、场景在实际中是比较常见的,诸如过采样、欠采等情况。10.2迁移学习第十章 深度学习前沿发展of2983迁移学习的应用场景从模拟中学习域适应跨语言迁移知识深度学习的fine-tuning从模拟中学习并将学到的知识应用在现实世界。例如自动驾驶汽车。域适应在视觉中是一个常规的需求。另一个常见的域适应场景涉及到适应不同的文本类型。将知识从一种语言迁移到另一种语言。以 zero-shot学习方法进行翻译为例,此方法在该域取得了快速的进步。迁移学习在深度学习中的fine-tuning,即微调。微调的意思是稍微调整一下。第十章深度学习前沿发展全国高校标准教材云计算姊妹篇,剖析深度学习核心技术和实战应用of2
8、9910.1增强学习10.2迁移学习10.3记忆网络10.4深度学习的硬件实现习题10.3记忆网络第十章 深度学习前沿发展of29101循环神经网络 人类在思考问题的时候,并不是每次都是从头开始,而是常常建立在某个基础之上开始的。循环神经网络也具有这样的特点。由于在网络中具有循环结构,其能够持续保存输入的信息。这种链状的性质表明,循环神经网络与序列密切相关。这是处理这种数据所使用的神经网络的自然结构。10.3记忆网络第十章 深度学习前沿发展of29112长期依赖关系问题 RNNs的特点是将前期信息与当前任务连接,例如,使用前面的视频帧可能得出对当前帧的理解。如果相关信息与预测位置间隔较小,RN
9、Ns可以学会使用之前信息 如果相关信息与预测位置的间隔很大。随着这种间隔的拉长,RNNs就会无法学习连接信息。10.3记忆网络第十章 深度学习前沿发展of29123长短期记忆网络 长短期记忆网络(Long Short-Term Memory,LSTM)是一种特殊的RNN,能够学习长期依赖关系。它们由Hochreiter和Schmidhuber(1997)提出,在后期工作中又由许多人进行了改进,LSTMs明确设计成能够避免长期依赖关系问题。记住信息很长一段时间几乎是它们固有的行为,而不是去学习得到的。10.3记忆网络第十章 深度学习前沿发展of29134长短期记忆变体 一种流行的LSTM变种,由
10、Gers和Schmidhuber(2000)提出,加入了“窥视孔连接”(peephole connections)。这意味着门限层也将单元状态作为输入。另一个变种就是使用耦合遗忘和输入门限。再一种变种是门限递归单元或GRU,由Cho等人(2014)提出所有门限中都加入窥视孔第十章深度学习前沿发展全国高校标准教材云计算姊妹篇,剖析深度学习核心技术和实战应用of291410.1增强学习10.2迁移学习10.3记忆网络10.4深度学习的硬件实现习题10.4深度学习的硬件实现第十章 深度学习前沿发展of2915 FPGA(可编辑门阵列,Field Programmable Gate Array)基本原
11、理是在芯片内集成大量的数字基本门电路以及存储器,用户可以通过烧写FPGA配置文件来来定义这些门电路以及存储器之间的连线。1FPGA10.4深度学习的硬件实现第十章 深度学习前沿发展of2916 这一基准着重衡量的是基本计算的硬件性能,旨在找到使计算变慢或低效的瓶颈,以及设计一个对于深层神经网络训练的基本操作执行效果最佳的架构。2ASIC10.4深度学习的硬件实现第十章 深度学习前沿发展of2917 TPU(Tensor Processing Unit,张量处理单元)是Google为机器学习应用TensorFlow打造的一种定制ASIC芯片,能在相同时间内处理更复杂、更强大的机器学习模型并将其更
12、快地投入使用。TPU架构主要模块包括片上内存,256x256个矩阵乘法单元,非线性神经元计算单元(activation),以及用于归一化和池化的计算单元。3TPU10.4深度学习的硬件实现第十章 深度学习前沿发展of2918 “寒武纪”是中国科学院计算技术研究所发布的能够“深度学习”的“神经网络”处理器芯片。该系列包含三种原型处理器结构:寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构);寒武纪2号(英文名DaDianNao,面向大规模神经网络);寒武纪3号(英文名PuDianNao,面向多种机器学习算法)。4寒武纪10.4深度学习的硬件实现第十章 深度学习前沿发展of2919
13、IBM TrueNorth芯片11从一个神经形态内核着手,将许多神经树突(输入)和轴突(输出)连在一起。每个神经元都可以向另一个神经元发出(称之为“尖峰”的)信号,信号可为一或零(电压脉冲或“尖峰”)。芯片上的神经元可以发信号给同一芯片上的其他神经元或是接受来自同一芯片其他神经元的信号。TrueNorth芯片主要依赖于对卷积神经网络的层、节数据的过滤和计算以完成深度学习。它不仅能够实现卷积网络的功能,而且还能够支持多样的连接形式(反馈、横向反馈和正向反馈),并能同时执行各种不同的其他算法。5TrueNorth习题:1增强学习包括哪些内容?2迁移学习的定义是什么?3LSTM 的原理是什么?4增强学习与其他学习范式有哪些异同之处?5增强学习的应用领域有哪些?6增强学习的过程是什么?7迁移学习分为哪几个类别?8迁移学习的应用领域有哪些?9记忆网络与循环神经网络有哪些区别?10记忆网络有哪些变种?11FPGA 与GPU 有什么区别?12TPU 的主要组成是什么?感谢聆听