1、第第9章章 深度学习深度学习n了解人脑神经元的结构及特点,熟悉人工神经元模型。了解人脑神经元的结构及特点,熟悉人工神经元模型。n掌握感知机的基本原理,熟悉前馈神经网络的特征以及反向传播的思想。掌握感知机的基本原理,熟悉前馈神经网络的特征以及反向传播的思想。n熟悉熟悉Sigmoid、Tanh、ReLU、LReLU等激活函数的特点及应用。等激活函数的特点及应用。n熟悉卷积神经网络的基本结构以及局部连接和权重共享等特点,掌握卷积、熟悉卷积神经网络的基本结构以及局部连接和权重共享等特点,掌握卷积、池化操作。池化操作。n熟悉熟悉LSTM中的输入门、遗忘门和输出门的工作机制和作用。中的输入门、遗忘门和输出
2、门的工作机制和作用。n掌握生成式对抗网络的基本原理,熟悉生成器和判别器的作用。掌握生成式对抗网络的基本原理,熟悉生成器和判别器的作用。n了解原始了解原始GAN的优缺点以及各种衍生模型的特点及应用。的优缺点以及各种衍生模型的特点及应用。本章学习目标本章学习目标第第9章章 深度深度学习学习n9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习n人工神经网络发展史(人工神经网络发展史(第一第一阶段阶段)l1943年年,McCulloch和和Pitts 提出第一个神经元数学模型提出
3、第一个神经元数学模型,即即M-P模型模型,并从原理并从原理上证明了人工神经网络能够计算任何算数和逻辑函数。上证明了人工神经网络能够计算任何算数和逻辑函数。l1949年年,Hebb 发表发表The Organization of Behavior一书一书,提出生物神经元学提出生物神经元学习的机理习的机理,即即Hebb学习规则。学习规则。l1958年年,Rosenblatt 提出提出感知机感知机(Perceptron)模型和其学习规则。)模型和其学习规则。l1960年年,Widrow和和Hoff提出提出自适应线性神经元自适应线性神经元(Adaline)模型和)模型和最小均方学最小均方学习算法。习算
4、法。l1969年年,Minsky和和Papert 发表发表Perceptrons一书一书,指出指出单层神经网路不能解单层神经网路不能解决非线性问题决非线性问题,多层网络的训练算法尚无希望多层网络的训练算法尚无希望。这个论断导致神经网络进入这个论断导致神经网络进入低谷。低谷。9.1 人工神经网络基础人工神经网络基础l1982年年,物理学家物理学家Hopfield提出了一种具有联想记忆、优化计算能提出了一种具有联想记忆、优化计算能力的递归网络模型力的递归网络模型,即即Hopfield网络。网络。l1986年年,Rumelhart 等编辑的著作等编辑的著作Parallel Distributed P
5、rocessing:Explorations in the Microstructures of Cognition报报告了告了反向传播算法反向传播算法l1987年年,IEEE在美国加州圣地亚哥召开第一届神经网络国际会议在美国加州圣地亚哥召开第一届神经网络国际会议(ICNN)。)。l1990年代初年代初,伴随统计学习理论和伴随统计学习理论和SVM的兴起的兴起,神经网络由于理论神经网络由于理论不够清楚不够清楚,试错性强试错性强,难以训练难以训练,再次进入低谷。再次进入低谷。9.1 人工神经网络基础人工神经网络基础n人工神经网络发展史(人工神经网络发展史(第二阶段第二阶段)l2006年年,Hint
6、on提出了深度信念网络提出了深度信念网络(DBN),通过通过“预训练预训练+微调微调”使得使得深度学习深度学习模型的最优化变得相对容易。模型的最优化变得相对容易。l2012年年,Hinton 组参加组参加ImageNet 竞赛竞赛,使用使用 CNN 模型以超过第二模型以超过第二名名10个百分点的成绩夺得当年竞赛的冠军。个百分点的成绩夺得当年竞赛的冠军。l伴随云计算、大数据时代的到来,计算能力的大幅提升,使得伴随云计算、大数据时代的到来,计算能力的大幅提升,使得深度深度学习学习模型在计算机视觉、自然语言处理、语音识别等众多领域都取模型在计算机视觉、自然语言处理、语音识别等众多领域都取得了较大的成
7、功。得了较大的成功。9.1 人工神经网络基础人工神经网络基础n人工神经网络发展史(人工神经网络发展史(第三阶段第三阶段)9.1 人工神经网络基础人工神经网络基础9.1.1 人脑神经元结构及特点人脑神经元结构及特点图9-1 人脑神经元结构9.1 人工神经网络基础人工神经网络基础9.1.2 人人工工神经元神经元模型模型n人工神经元模型人工神经元模型的建立来源于的建立来源于生物神经元结构生物神经元结构的仿生模拟,用来模拟的仿生模拟,用来模拟人工神经网络。人工神经网络。n人们提出的神经元模型有很多,其中最早提出并且影响较大的是由心人们提出的神经元模型有很多,其中最早提出并且影响较大的是由心理学家理学家
8、 W.McCulloch 和数学家和数学家 W.Pitts 于于1943年提出的模型。该模型年提出的模型。该模型称为称为McCulloch-Pitts神经元模型,简称神经元模型,简称MCP 神经元模型神经元模型。nMCP 神经元以人脑神经元为原型,受到了其激活机制的启发和影响。神经元以人脑神经元为原型,受到了其激活机制的启发和影响。nMCP 神经元模型经过不断改进后,形成现在广泛应用的神经元模型经过不断改进后,形成现在广泛应用的BP神经元模神经元模型型。9.1 人工神经网络基础人工神经网络基础n一个简单的人工神经元模型可以表示为一个简单的人工神经元模型可以表示为n一个典型的人工神经元的模型一个
9、典型的人工神经元的模型:图图9-2 人工神经元模型人工神经元模型9.1.2 人人工工神经元神经元模型模型l输入输入:来自其他:来自其他 n 个神经元个神经元传递过来的输入信号传递过来的输入信号l处理处理:输入信号通过带权重的:输入信号通过带权重的连接进行传递,神经元接受到连接进行传递,神经元接受到总输入值将与神经元的阈值进总输入值将与神经元的阈值进行比较行比较l输出输出:通过:通过激活函数激活函数的处理以的处理以得到输出得到输出9.1 人工神经网络基础人工神经网络基础9.1.2 人人工工神经元神经元模型模型9.1 人工神经网络基础人工神经网络基础n1958年,年,Rosenblatt 提出了由
10、提出了由两层两层神经元神经元组成的神经网络,组成的神经网络,称为称为感知感知机(机(Perceptron)。n输入层输入层接受外界输入信号传递给接受外界输入信号传递给输输出层出层,输出层是,输出层是MCP神经元(阈值神经元(阈值逻辑单元)。逻辑单元)。n感知机能够容易地实现逻辑感知机能够容易地实现逻辑“与与”、“或或”、“非非”运算运算 9.1.3 感知机感知机9.1 人工神经网络基础人工神经网络基础n单层感知机只有输出层神单层感知机只有输出层神经元进行激活函数处理,经元进行激活函数处理,即只有一层功能神经元,即只有一层功能神经元,学习能力非常有限,只能学习能力非常有限,只能解决线性可分问题。
11、解决线性可分问题。n可以求解线性可分的逻辑可以求解线性可分的逻辑“与与”、“或或”、“非非”问题,不能求解线性不可问题,不能求解线性不可分的分的“异或异或”问题。问题。n单层单层感知机感知机的局限性的局限性n解决异或问题的多层感知机解决异或问题的多层感知机l输出层与输入层之间的一层神经元,被称之为输出层与输入层之间的一层神经元,被称之为隐层或隐含层隐层或隐含层,隐含层和,隐含层和输出层神经元都是具有激活函数的功能神经元。输出层神经元都是具有激活函数的功能神经元。9.1 人工神经网络基础人工神经网络基础9.1 人工神经网络基础人工神经网络基础n前馈神经网络前馈神经网络(FNN)是一种)是一种单向
12、单向的的多层感知机多层感知机,即信息是从输入层开,即信息是从输入层开始,逐层向一个方向传递,一直到输出层结束。始,逐层向一个方向传递,一直到输出层结束。n所谓的所谓的“前馈前馈”是指输入信号的传播方向为前向,在此过程中并不调整是指输入信号的传播方向为前向,在此过程中并不调整各层神经元连接的权值参数各层神经元连接的权值参数。n反向传播时是将误差逐层向后传递,通过反向传播时是将误差逐层向后传递,通过反向传播反向传播(BP)方法来调整各)方法来调整各层网络中神经元之间连接的权重参数。层网络中神经元之间连接的权重参数。9.1.4 前馈神经网络前馈神经网络9.1 人工神经网络基础人工神经网络基础9.1.
13、4 前馈神经网络前馈神经网络n前向传播过程:前向传播过程:输入已知学习样本,通过设置的网络结构和前一次迭代输入已知学习样本,通过设置的网络结构和前一次迭代的权值和阈值,从网络的第一层向后计算各神经元输出。的权值和阈值,从网络的第一层向后计算各神经元输出。n反向传播过程:反向传播过程:反向传播时,对权值和阈值进行修改:从最后一层向前反向传播时,对权值和阈值进行修改:从最后一层向前计算各权值和阈值对总误差的影响(梯度),据此对各权值和阈值进行计算各权值和阈值对总误差的影响(梯度),据此对各权值和阈值进行修改。修改。以上两个过程反复交替,直到达到收敛为止。以上两个过程反复交替,直到达到收敛为止。由于
14、误差逐层往回传递,以修正层与层间的权由于误差逐层往回传递,以修正层与层间的权值和值和阈值,所以阈值,所以称该算法为称该算法为误差反向传播误差反向传播(Back Propagation,BP)算法,这种误算法,这种误差反传学习算法差反传学习算法可以推广可以推广到有若干个中间层的多层网络,因此该多到有若干个中间层的多层网络,因此该多层网络层网络常常称之为称之为 BP 网络网络。标准的。标准的BP 算法算法,其权值,其权值的修正的修正是沿着误是沿着误差性能函数梯度的反方向进行的。差性能函数梯度的反方向进行的。9.1.4 前馈神经网络前馈神经网络9.1 人工神经网络基础人工神经网络基础9.1 人工神经
15、网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数n激活函数模拟了人脑神经元特性:接受一组输入信号并产生输出。激活函数模拟了人脑神经元特性:接受一组输入信号并产生输出。l理想的激活函数是理想的激活函数是阶跃函数阶跃函数,0表示抑制神经元,表示抑制神经元,1表示激活神经元。表示激活神经元。l阶跃函数具有不连续、不光滑等不好的性质。阶跃函数具有不连续、不光滑等不好的性质。l下面介绍几种较有代表性的激活函数。下面介绍几种较有代表性的激活函数。9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nSigmoid 函数函数:Sigmoid 函数也
16、称为函数也称为Logistic函数函数9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nTanh 函数函数:Tanh 函数是双曲正切函数,其数学表达式为函数是双曲正切函数,其数学表达式为 2Tanhsinhee21coshee1 exxxxxxfxx9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nReLU 函数函数:修正线性单元(修正线性单元(Rectified Linear Unit,ReLU)函数函数,又,又称整流线性单元或称整流线性单元或线性整流函数。线性整流函数。ReLU,00,0max 0,xxfxxx
17、9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nLReLU 函数函数:带泄露的修正线性单元带泄露的修正线性单元(LReLU)函数函数 LReLU,0,0 xxfxxx9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nPReLU 函数函数:参数化修正线性单元参数化修正线性单元(PReLU)函数函数 PReLU,0,0max,iixxfxxxx x9.1 人工神经网络基础人工神经网络基础9.1.5 神经网络的激活函数神经网络的激活函数nELU函数函数:指数线性单元指数线性单元(ELU)函数)函数 ELU,0e1,0m
18、ax 0,min 0,e1xxxxfxxxn9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习9.2 卷积神经网络卷积神经网络9.2.1 引言引言n卷积神经网络卷积神经网络(CNN)是一种具有是一种具有局部连接局部连接、权重共享权重共享等特性的前馈神经网络。等特性的前馈神经网络。n20世纪世纪80 年代中期日本学者福岛邦彦等提出的年代中期日本学者福岛邦彦等提出的“神经认知机神经认知机”(Neocognition)模型,是第一个基于神经元之间的局部连接性和层次结构组织的人工
19、神经网络,模型,是第一个基于神经元之间的局部连接性和层次结构组织的人工神经网络,可以被视可以被视为为卷积神经网络的雏形。卷积神经网络的雏形。n1989年,年,YannLeCun等对权重进行随机初始化后使用了等对权重进行随机初始化后使用了反向传播反向传播算法对网络进行算法对网络进行训练,并首次使用了训练,并首次使用了“卷积卷积”一词,将卷积神经网络成功应用到美国邮局的手写一词,将卷积神经网络成功应用到美国邮局的手写字符识别系统中。字符识别系统中。n1998年,年,YannLeCun等人在之前卷积神经网络的基础上构建了经典的卷积神经网等人在之前卷积神经网络的基础上构建了经典的卷积神经网络模型络模型
20、LeNet-5,并再次提高手写字符识别的准确率。,并再次提高手写字符识别的准确率。n2006年逐层训练参数与预训练方法使得卷积神经网络可以设计得更复杂,训练效年逐层训练参数与预训练方法使得卷积神经网络可以设计得更复杂,训练效果更好。果更好。1981 年的诺贝尔医学奖,颁发给了年的诺贝尔医学奖,颁发给了 David Hubel、Torsten Wiesel以及以及 Roger Sperry。前两位的主要贡献是前两位的主要贡献是“发现了视觉系统的信息处理机制发现了视觉系统的信息处理机制”:视觉皮层是视觉皮层是分级的。分级的。人脑人脑中有中有150150多亿个神经元多亿个神经元9.2 卷积神经网络卷
21、积神经网络9.2.2 视觉皮层的工作机理视觉皮层的工作机理n上述发现激发了人们对于神经系统的进一步思考。神经上述发现激发了人们对于神经系统的进一步思考。神经-中枢中枢-大脑的大脑的工作过程,或许是一个不断工作过程,或许是一个不断迭代迭代、不断、不断抽象抽象的过程。的过程。n人类的逻辑思维,经常使用高度抽象的概念。从原始信号做低级抽人类的逻辑思维,经常使用高度抽象的概念。从原始信号做低级抽象,逐渐向高级抽象迭代。象,逐渐向高级抽象迭代。n人人的视觉系统的信息处理是分级的。的视觉系统的信息处理是分级的。从从V1区区提取提取低级的低级的边缘边缘特征,特征,再到再到V2区提取形状区提取形状或者目标的部
22、分等,再到更高层,整个目标、目或者目标的部分等,再到更高层,整个目标、目标的行为等标的行为等。n这个发现促成这个发现促成了计算机人工智能在了计算机人工智能在40年后的突破性发展。年后的突破性发展。9.2 卷积神经网络卷积神经网络9.2.2 视觉皮层的工作机理视觉皮层的工作机理9.2 卷积神经网络卷积神经网络9.2.2 视觉皮层的工作机理视觉皮层的工作机理减少参数的方法:减少参数的方法:每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。nC
23、NN依旧是层级网络依旧是层级网络n但层的功能和形式做了变化但层的功能和形式做了变化9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n数据输入层数据输入层/Input layern卷积层卷积层/CONV layernReLU激励层激励层/ReLU layern池化层池化层/Pooling layern全连接层全连接层/FC layer9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n数据输入数据输入层层/Input layer 有有3种常见的图像数据处理种常见的图像数据处理方式方式n去均值去均值n把把输入数据各个维度
24、都中心化到输入数据各个维度都中心化到0n归一化归一化n幅度幅度归一化到同样的归一化到同样的范围范围nPCA/白化白化n用用PCA降降维维n白化是对数据每个特征轴上的幅度白化是对数据每个特征轴上的幅度归一化归一化9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n卷积层卷积层/CONV layern局部关联,每个神经元看做一个局部关联,每个神经元看做一个filter。n窗口窗口(receptive field,局部感受野局部感受野)滑动,滑动,filter对局部数据计算对局部数据计算n权值共享机制,即每个神经元连接数据窗的权重是固定的权值共享机制,即每个神经
25、元连接数据窗的权重是固定的n固定每个神经元连接权重,固定每个神经元连接权重,可以看做模板可以看做模板n需要估算的权重个数减少需要估算的权重个数减少:AlexNet 1亿亿=3.5wn一组固定的权重和不同窗口内数据做内积一组固定的权重和不同窗口内数据做内积:卷积卷积9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n卷积层卷积层/CONV layer9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n激励层激励层/ReLU layer 把卷积层输出结果做非线性映射把卷积层输出结果做非线性映射nSigmoidnTanh(双
26、曲正切双曲正切)n ReLU(The Rectified Linear Unit,修正线性单元,修正线性单元)n Leaky ReLUn ELUn Maxout9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n激励激励层层/ReLU layer 9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n池池化层化层/Pooling layer n位于相邻的卷积层中间位于相邻的卷积层中间n压缩压缩数据和参数的量数据和参数的量,特征降维特征降维9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本
27、结构n池化层池化层/Pooling layer 9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构n全全连接层连接层/FC layer n两两层之间所有神经元都有权重层之间所有神经元都有权重连接连接n通常通常全连接全连接层位于卷积层位于卷积神经网络尾部神经网络尾部9.2 卷积神经网络卷积神经网络9.2.3 卷积神经网络的基本结构卷积神经网络的基本结构9.2 卷积神经网络卷积神经网络9.2.4 卷积卷积操作操作9.2 卷积神经网络卷积神经网络9.2.4 卷积卷积操作操作9.2 卷积神经网络卷积神经网络9.2.4 卷积卷积操作操作9.2 卷积神经网络卷积神经网
28、络9.2.5 卷积神经网络的特点卷积神经网络的特点图9-20 全连接(左图)与局部连接(右图)的对比示意图n9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习9.3 循环神经网络循环神经网络9.3.1 基本的循环神经网络基本的循环神经网络9.3 循环神经网络循环神经网络9.3.1 基本的循环神经网络基本的循环神经网络9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-24 R
29、NN简化模型9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-25 LSTM单元结构图9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-26 LSTM中单元格状态9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-27 LSTM中门的结构9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-28 遗忘门结构1,tfttffWhxb9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-29 输入门结构1,tittiiWhxb1tanh,tCttCCWhxb9.3 循环
30、神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-30 更新单元格状态9.3 循环神经网络循环神经网络9.3.2 长短期记忆网络长短期记忆网络图9-31 输出门结构1,tottooWhxbtanhttthoCn9.1 人工神经网络基础人工神经网络基础n9.2 卷积神经网络卷积神经网络n9.3 循环神经网络循环神经网络n9.4 生成式对抗网络生成式对抗网络第第9章章 深度深度学习学习9.4 生成式对抗网络生成式对抗网络9.4.1 生成式对抗网络基本原理生成式对抗网络基本原理n生成式对抗网络(生成式对抗网络(GAN)是通过)是通过“对抗对抗”的方式去学的方式去学习数据分布的习数据分
31、布的“生成式生成式”模型。模型。n生成式对抗网络由生成器生成式对抗网络由生成器G(Generator)和判别器)和判别器D(Discriminator)两个相互对抗的模型组成)两个相互对抗的模型组成。9.4 生成式对抗网络生成式对抗网络9.4.1 生成式对抗网络基本原理生成式对抗网络基本原理图9-33 GAN工作原理框图9.4 生成式对抗网络生成式对抗网络9.4.1 生成式对抗网络基本原理生成式对抗网络基本原理图9-34 GAN训练过程的参数优化示意图 datazmin max,min maxloglog 1xpxzpzGGDDVD GED xED G z 9.4 生成式对抗网络生成式对抗网络
32、9.4.3 条件生成式对抗网络条件生成式对抗网络图 9-35 条件生成式对抗网络模型示意图 datazminmax,minmaxloglog 1x pxz pzGGDDV D GED x yED G z y y9.4 生成式对抗网络生成式对抗网络9.4.4 深度卷积生成式对抗网络深度卷积生成式对抗网络图9-36 DCGAN生成器结构示意图9.4 生成式对抗网络生成式对抗网络9.4.4 深度卷积生成式对抗网络深度卷积生成式对抗网络图9-37 DCGAN判别器结构示意图9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-38 图像翻译的实例9.4
33、生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-39 CycleGAN 结构示意图 datadataGAN,loglog 1YYYypyxpxLG DX YEDyEDG x datadataGAN,loglog 1XXXxpxypyLF DY XEDxEDF y 9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-40 前向循环一致性损失示意图9.4 生成式对抗网络生成式对抗网络9.4.6 循环一致性生成式对抗网络循环一致性生成式对抗网络图9-41 反向循环一致性损失示意图9.4 生成式对抗网络生成式对抗网络9.4.7 最小二乘生成式对抗网络最小二乘生成式对抗网络图9-42 交叉熵损失函数和最小二乘损失函数曲线图 datazz22211min221min2xpxzpzDzpzGED xaED G zbED G zc 9.4 生成式对抗网络生成式对抗网络9.4.8 半监督生成式对抗网络半监督生成式对抗网络图9-43 SGAN结构示意图Question?