深学习循环神经网络课件.pptx_163文库

资源描述

1、目录1：深度学习发展史2：从神经网络到深度学习3：循环神经网络基础4：自然语言处理基础（扩充知识）11：深度学习发展史2深度学习发展史SVMBoostingDecision treeKNNNeural networkBack propagation19862006Deep belief netScienceSpeech2011 2012Computer visionNLPSpeech 2014Geoffrey Hinton 1949Learning model of neurons1958PerceptronHebbRosenblattGeoffrey Hinton DBNCNNRBMRNN机

2、器学习第一次浪潮：机器学习第二次浪潮浅层学习模型(Shallow Learning)深度学习模型(Deep Learning)First Winter of NNSecond Winter of NN3深度学习（多层神经网络）神经网络神经元4synapse dendriteCell bodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xn线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cell body树突dendrite突触synapse轴突Axon来自其它神经元神经元模型5yyaxo x2x1

3、xnw1w2wnNNxwxwu11uifuifay0w1x1xn激励函数o=f(net)wnnet=WTX)(TnetfoxwXWnetii 典型的激励函数(Activation Function)：线性函数，非线性斜面函数，阶跃函数，S型函数等。神经元模型6Input LayerHidden LayerOutput Layerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLNmmlThhxwXWnetll)(lhlnetfh llnToohvHVnetnn)(nonnetfo 神经网络一般形式 Nonlinearity 非线性 Parallel Proces

4、sing 并行处理 InputOutput Mapping 输入输出匹配 Adaptivity 自适应性ocx2x1xnw1w2wnckfonet)net(NNwxwx11net7因此，当我们计算对于W 的偏As soon as the firstNegative SamplingOutput Layer气象观测数据，股票交易数据等等，也都是序列数据。将一个单词表示成固定维度（小维度）向量Rosenblatt,1957基于Hierarchical SoftMax策略Rosenblatt,1957Computer visionImage Captioningimage-sequence of w

5、ords(Shallow Learning)则对于brown单词而言1：什么是自然语言处理？先求 E3 对于V 的梯度:4：自然语言处理基础（扩充知识）Back propagation例子：0,0,0,0,0，1，0changes of the vector.最简单的神经网络：Perceptrons8Single Layer Perceptronsybx2x1xMw1w2wMbxwsignufyii)(0101uifuifyRosenblatt,19570101)(2211uifuifbxwxwufu0u sequence of wordse.g.Sentiment Classificatio

6、nsequence of words-sentimente.g.Machine Translationseq of words-seq of wordse.g.Video classification on frame levelRecurrent Neural Network27典型典型应用：应用：图像标注Recurrent Neural Network28典型应用：语言生成典型应用：语言生成Recurrent Neural Network29典型应用：音乐作曲典型应用：音乐作曲循环循环神经网络模型神经网络模型30激活函数激活函数lRNN常用的激活函数是tanh和sigmoid。循环循环神经

7、网络模型神经网络模型31softmaxlSoftmax函数是sigmoid函数的一个变种，通常我们将其用在多分类任务的输出层，将输入转化成标签的概率。本质就是将一个K维的任意实数向量压缩（映射）成另一个K维的实数向量，其中向量中的每个元素取值都介于（0，1）之间。循环循环神经网络模型神经网络模型32简单简单循环循环网络网络SRN神经元之间的连接权重连接权重在时域上不变不变。循环循环神经网络模型神经网络模型33随随时间反向传播算法时间反向传播算法BPTTBPBP回顾回顾：定义损失函数 E E 来表示输出和真实标签y y的误差，通过链式法则自顶向下求得 E E 对网络权重的偏导偏导。沿梯度的反方

8、向更新权重的值，直到 E E 收敛。BPTT的本质其实和BP很像，就是加上了时序演化。定义权重U，V，W。定义损失函数:我们将整个序列作为一次训练，所以需要对每个时刻的误差进行求和。（3）求 E 对于U 的梯度。Nonlinearity 非线性基于Negative Sampling策略Rosenblatt,1957根据采用的策略和模型我们主要分为以下几类就可以构成一个两级网，该网络可以被用来在平面上划分出一个封闭则对于brown单词而言根据采用的策略和模型我们主要分为以下几类Single Layer Perceptrons：迭代过程当前（2010-）应用广泛：Parallel Processi

9、ng 并行处理word2vec中的基于Negative Sampling模型的两种方法。沿梯度的反方向更新权重的值，直到 E 收敛。分布式假设（distribute）:上下文相似的词，其语义也相似Video classification on frame levelSchmidhuber注意到：Rosenblatt,1957bh:隐含层的偏移量,bo输出层的偏移量，现在常用的工具是Google2013年开源的Word2Vec：主要思想：重新使用参数和计算随时间反向传播算法BPTT循环循环神经网络模型神经网络模型34随随时间反向传播算法时间反向传播算法BPTT目前的任务是求 E E 对于U，V，

10、W 的梯度。定义E对于W 的梯度(U，V 同理):（1）求 E E 对于V 的梯度。先求 E E3 对于V 的梯度:W VU其中：求和可得。其中：依赖于，而又依赖于和W，依赖关系一直传递到 t=0 的时刻。因此，当我们计算对于因此，当我们计算对于W W 的偏的偏导数时，不能把导数时，不能把看作是常数项！看作是常数项！循环循环神经网络模型神经网络模型35随随时间反向传播算法时间反向传播算法BPTT（2）求 E E 对于W 的梯度。注意，现在情况开始变得复杂起来。先求 E E3 对于W 的梯度:W VU当我们求对于W 的偏导时。注意到：求和可得。同样：依赖于，而又依赖于和U。类似求

11、类似求W W，当我们计算对于，当我们计算对于U U 的偏导数时，也不的偏导数时，也不能把能把看作是常数项！看作是常数项！循环循环神经网络模型神经网络模型36随随时间反向传播算法时间反向传播算法BPTT（3）求 E E 对于U 的梯度。情况与W 类似。先求 E E3 对于U 的梯度:W VU当我们求对于W 的偏导时。注意到：求和可得。循环循环神经网络模型神经网络模型37随随时间反向传播算法时间反向传播算法BPTT参数意义:Whv:输入层到隐含层的权重参数，Whh:隐含层到隐含层的权重参数，Woh：隐含层到输出层的权重参数，bh:隐含层的偏移量,bo输出层的偏移量，h0:起始状态的隐含层的输出

12、，一般初始为0。递归神经网络模型递归神经网络模型38随时间反向传播算法随时间反向传播算法BPTT面临的问题：l 梯度消失问题l 梯度爆炸问题解决方案：l 选择其他的激活函数。例如ReLU。l 引入改进网络结构的机制，例如LSTM，GRU。l 现在在自然语言处理上应用十分广的的就是现在在自然语言处理上应用十分广的的就是LSTM。4：自然语言处理基础394.1：什么是自然语言处理？概念：研究人和计算机之间用自然语言进行通信的各种理论和方法40先求 E3 对于V 的梯度:(Shallow Learning)Rosenblatt,1957Skip-gram模型后脑皮层的不同视觉神经元，与瞳孔所受刺激之

13、间，存在某种对应关系。分布式假设（distribute）:上下文相似的词，其语义也相似注意到：根据采用的策略和模型我们主要分为以下几类后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。Rosenblatt,1957导数时，不能把看作是常数项！根据采用的策略和模型我们主要分为以下几类3：循环神经网络（RNN）Skip-gram模型：深度学习（多层神经网络）当前（2010-）应用广泛：Back propagation基于Hierarchical SoftMax策略负样本:(brown,dog)后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。优化目标为：最大化正样本的

14、概率，同时最小化负样本的概率。因此，当我们计算对于W 的偏4.2：词向量：词向量411：传统的One-Hot Encode离散单独符号表示单词将一个单词转换成一个很长的向量。例子：0,0,0,0,0，1，0缺点：A：维数灾难，稀疏B：不能反映出单词之间的相似性 2：分布式表示将一个单词表示成固定维度（小维度）向量分布式假设（distribute）:上下文相似的词，其语义也相似相近的词相近的词投影投影到高维空间后距离很近到高维空间后距离很近词的表示-词向量4.3：Word2Vec42现在常用的工具是Google2013年开源的Word2Vec：根据采用的策略和模型我们主要分为以下几类框架框架模

15、型模型基于Hierarchical SoftMax策略 CBOW模型Skip-gram模型基于Negative Sampling策略 CBOW模型Skip-gram模型我们主要介绍架是我们主要介绍架是Negative Sampling（负采样）模型（负采样）模型4.4：工作原理：工作原理43Negative Sampling概念：把语料中一个词替换为别的词，构造语料D中不存在的词串作为负样本优化目标为：最大化正样本的概率，同时最小化负样本的最大化正样本的概率，同时最小化负样本的概率概率。例子：假设我们的目标是根据目标词汇预测该目标词汇的上下文语料：The quick brown fox jum

16、ped over the lazy dog这里我们的上下文长度取1；则对于brown单词而言正样本:(brown,quick),(brown,fox)负样本:(brown,dog)4.4：工作原理：工作原理44对于一个给定的样本（w,Context(w)）,我们使用二项逻辑回归对其样本样本进行建模得Negative Sampling原理原理则其全部正样本的似然函数为则其全部负样本的似然函数为4.4：工作原理：工作原理45我们同时最大化正样本概率最小化负样本的概率就得到下式对这个函数（模型）采用梯度下降算法进行训练4.5：工作模式：工作模式46word2vec中的基于Negative Sampl

17、ing模型的两种方法。例子：I am a student;CBOW：知道am，student，去预测aSkip-gram模型：知道 a，去预测am，student4.6：实验步骤：实验步骤47原始语料生成样本训练模型参数最终模型生成结果THANKS48深度学习（多层神经网络）神经网络神经元49synapse dendriteCell bodySynapticterminalsAxon轴突末梢突触树突细胞体轴突w1x1xn线性动态系统激励函数own神经元是构成神经网络的最基本单元(构件),因此,首要任务是构造人工神经元模型。细胞体Cell body树突dendrite突触synapse轴突A

18、xon来自其它神经元神经元模型50Input LayerHidden LayerOutput Layerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLNmmlThhxwXWnetll)(lhlnetfh llnToohvHVnetnn)(nonnetfo 神经网络一般形式 Nonlinearity 非线性 Parallel Processing 并行处理 InputOutput Mapping 输入输出匹配 Adaptivity 自适应性ocx2x1xnw1w2wnckfonet)net(NNwxwx11net51深度学习思想起源：人脑视觉机理后脑皮层的不同

19、视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。52后脑皮层的不同视觉神经元，与瞳孔所受刺激之间，存在某种对应关系。Computer vision同样：依赖于，而又依赖于和U。Whh:隐含层到隐含层的权重参数，Negative Sampling原理Rosenblatt,1957RNN常用的激活函数是tanh和sigmoid。例如文本，是字母和词汇的序列；一种是结构递归神经网络（recursive neural network）；导数时，不能把看作是常数项！例子：假设我们的目标是根据目标词汇预测该目标词汇的上下文Video classification on frame levelRe

20、current Neural Network Parallel Processing 并行处理Input Layer当我们求对于W 的偏导时。根据采用的策略和模型我们主要分为以下几类就可以构成一个两级网，该网络可以被用来在平面上划分出一个封闭基于Hierarchical SoftMax策略is not an optimization method.solution weights vector,which separates all theSingle Layer Perceptrons：迭代过程为什么需要深度？深层网络具有刻画复杂函数的能力53常见深度学习网络一览54循环循环神经网络模型神

21、经网络模型55激活函数激活函数lRNN常用的激活函数是tanh和sigmoid。data pairs corretly,is found,there will be no furtherCBOW：知道am，student，去预测aRecurrent Neural NetworkGeoffrey Hinton因此，当我们计算对于W 的偏(Shallow Learning)Schuster&Paliwal概念：把语料中一个词替换为别的词，构造语料D中不存在的词串作为负样本Video classification on frame level1：什么是自然语言处理？bh:隐含层的偏移量,bo输出层的

22、偏移量，根据采用的策略和模型我们主要分为以下几类Rosenblatt,1957深度学习思想起源：人脑视觉机理using differentiable activation function;现在常用的工具是Google2013年开源的Word2Vec：Back propagationSkip-gram模型(Deep Learning)Single Layer Perceptrons这里我们的上下文长度取1；随时间反向传播算法BPTT或者开放的凸域来；先求 E3 对于V 的梯度:4：自然语言处理基础（扩充知识）Output Layer随时间反向传播算法BPTTA：维数灾难，稀疏Negative

23、Sampling原理基于Negative Sampling策略Softmax函数是sigmoid函数的一个变种，通常我们将其用在多分类任务的输出层，将输入转化成标签的概率。随时间反向传播算法BPTT抽象层面越高，存在的可能猜测就越少，就越利于分类；bh:隐含层的偏移量,bo输出层的偏移量，Neural networkNeural turing machineRosenblatt,1957一种是结构递归神经网络（recursive neural network）；随时间反向传播算法BPTT现在常用的工具是Google2013年开源的Word2Vec：Input Layer先求 E3 对于W 的梯

24、度:基于Negative Sampling策略早期（80、90年代）神经网络的隐藏层结构能够更好的表达有限的观察值背后的复杂分布。深度学习起源：人脑视觉机理同样：依赖于，而又依赖于和U。随时间反向传播算法BPTT基于Hierarchical SoftMax策略根据采用的策略和模型我们主要分为以下几类其中：依赖于，而又依赖于和W，依赖关系RNN是一类扩展的人工神经网络，它是为了对序列数据进行建模而产生的。Neural turing machine随时间反向传播算法BPTT深度学习起源：人脑视觉机理离散单独符号表示单词CBOW：知道am，student，去预测a类似求W，当我们计算对于

25、U 的偏导数时，也不导数时，不能把看作是常数项！bh:隐含层的偏移量,bo输出层的偏移量，(Deep Learning)深度学习起源：人脑视觉机理概念：把语料中一个词替换为别的词，构造语料D中不存在的词串作为负样本深度学习思想起源：人脑视觉机理Single Layer Perceptrons：迭代过程Recurrent Neural Network4.3：Word2Vec56现在常用的工具是Google2013年开源的Word2Vec：根据采用的策略和模型我们主要分为以下几类框架框架模型模型基于Hierarchical SoftMax策略 CBOW模型Skip-gram模型基于Negative Sampling策略 CBOW模型Skip-gram模型我们主要介绍架是我们主要介绍架是Negative Sampling（负采样）模型（负采样）模型

展开阅读全文