1、第八章第八章 深度神经网络基础深度神经网络基础卷积神经网络卷积神经网络(上上)2023-2-42第一节提要第一节提要 传统人工神网络在图像处理上的问题描述传统人工神网络在图像处理上的问题描述 卷积神经网络的特点与基本架构卷积神经网络的特点与基本架构2023-2-43前景回顾:传统神经网络前景回顾:传统神经网络v 前端输入层:前端输入层:一个单向量的数据表示一个单向量的数据表示v 中间隐含层中间隐含层:一系列神经元组成,将前层输出转换至另一向量空间:一系列神经元组成,将前层输出转换至另一向量空间 神经元全连接、各连接独立不共享神经元全连接、各连接独立不共享v 末端输出层:末端输出层:在图像分类任
2、务表达为各类别的分数在图像分类任务表达为各类别的分数2023-2-44问题问题:当神经网络遇见图像数据?当神经网络遇见图像数据?飞机飞机汽车汽车小鸟小鸟猫猫鹿鹿狗狗狐狸狐狸马马轮船轮船卡车卡车图像数据示例 CIFAR-10 Dataset-60000 32x32 color images in 10 classes-6000 images per class-50000 training images/10000 test images.Meet2023-2-45问题问题:当神经网络遇见图像数据?当神经网络遇见图像数据?v总共有多少连接?多少待训练参数?总共有多少连接?多少待训练参数?v这些多
3、重连接是否有冗余?是否可被共享这些多重连接是否有冗余?是否可被共享?v如何降低神经网络模型的参数?使模型变如何降低神经网络模型的参数?使模型变“小小”?一个全连接人工神经网络模型:输入层输入层隐隐 藏藏 层层 3 3输出层输出层2023-2-46问题问题:当神经网络遇见图像数据?当神经网络遇见图像数据?传统人工神经网络面对图像数据的表现:v 面对32323的输入图像数据,单个全连接神经元有3072个权重待训练。v 若输入图像维度增加或神经元数目增加,则待训练参数呈高数量级快速上升。v 引起训练负担+过拟合风险不适用于图像数据的处理!2023-2-47传统神经网络传统神经网络 vs vs 卷积神
4、经网络卷积神经网络v采用三维的形式(采用三维的形式(widthwidthheightheightdepthdepth)v神经元局部区域连接(局部感知),非全局连接神经元局部区域连接(局部感知),非全局连接v神经元共享参数,非完全独立神经元共享参数,非完全独立v输出端的维度可相应地匹配输入的任务输出端的维度可相应地匹配输入的任务卷积神经元特点:卷积神经网络传统神经网络2023-2-48传统传统神经网络神经网络 vs vs 卷积神经网络卷积神经网络嘴部探测器detectorCan represent a small region with fewer parameters卷积神经元特点之一:局部感
5、知在图像理解任务中,一些重要模式的尺寸往往小于整个图像,采用对图像局部进行神经元映射2023-2-49传统传统神经网络神经网络 vs vs 卷积神经网络卷积神经网络左上部嘴探测器 detector中间部位嘴探测器不同空间位置的同类特征不同空间位置的同类特征可共享同样的感知神经元可共享同样的感知神经元卷积神经元特点之二:参数共享2023-2-410卷积神经网络的基本架构卷积神经网络的基本架构v 由三种类型的功能层组成:由三种类型的功能层组成:卷积层(卷积层(convolutional layerconvolutional layer)、池化层()、池化层(pooling layerpooling
6、 layer)、全连接层()、全连接层(fully-connected layerfully-connected layer)2023-2-411卷积神经网络的基本功能层卷积神经网络的基本功能层输入层输入层卷积层卷积层激活函数激活函数池化层池化层全连接层全连接层输出层输出层输入层:匹配原始图像的维度输入层:匹配原始图像的维度323232325;5;卷积层:面向局部图像的神经元映射卷积层:面向局部图像的神经元映射;激励层:神经元级的非线性激活映射激励层:神经元级的非线性激活映射;池化层:在二维空间维度(长、宽)上进行下采样池化层:在二维空间维度(长、宽)上进行下采样;全连接层:映射至类别的分数,
7、维度可适应类别数目。全连接层:映射至类别的分数,维度可适应类别数目。2023-2-412卷积神经网络的基本功能层卷积神经网络的基本功能层全局分析:全局分析:v卷积神经网络将输入原始像素经由多功能层映射为最终的类别分数。卷积神经网络将输入原始像素经由多功能层映射为最终的类别分数。v可训参数:卷积层和全连接层可训参数:卷积层和全连接层(含)(含);激活层和池化层(不含);激活层和池化层(不含)v超参数:卷积超参数:卷积/全连接全连接/池化(含);激活层(不含)池化(含);激活层(不含)2023-2-413卷积神经网络的基本功能层卷积神经网络的基本功能层卷积神经网络基本架构运行总览:2023-2-4
8、14卷积神经网络的基本功能层卷积神经网络的基本功能层卷积神经网络基本架构运行总览:2023-2-415小结小结1、卷积神经网络的引入:图像数据2、卷积神经网络对比传统神经网络的特点3、卷积神经网络的基本架构2023-2-416第二节提要第二节提要 卷积层功能概述卷积层功能概述 卷积映射与传统人工神经元的类比分析卷积映射与传统人工神经元的类比分析卷积层卷积层 基本基本 CNNCNN滤波器(卷积核)滤波器(卷积核)输入图像输入图像3 3通道通道输入图像输入图像输出结果输出结果滑动的卷积核滑动的卷积核2023-2-418卷积层卷积层卷积核:待训练的滤波器(filters),各滤波器维度在空间上适应输
9、入图像数据。滤波器(卷积核)滤波器(卷积核)输入图像输入图像3 3通道通道18卷积:卷积核与局部图像区域的卷积:卷积核与局部图像区域的点乘运算点乘运算e.g.5e.g.55 53 3维度的点乘维度的点乘+1+1偏置偏置 6 628282828卷积操作:以滑动的方式在图像的空间维度上进行,计算滤波器和图像邻域的点乘之和。输出结果:三维的空间矩阵,包含多个激活映射图(map),每个图是卷积层在图像各位置的响应。2023-2-419卷积卷积操作操作 每个不同的滤波器均可每个不同的滤波器均可卷积出一个激活映射图卷积出一个激活映射图 2 2个个5 55 53 3的滤波器卷积的滤波器卷积出出2 2个激活映
10、射图个激活映射图2023-2-420卷积操作卷积操作 假设采用6个55的滤波器,输出6个单独的激活映射图 累积所有的激活映射图,即为维度28286的新图像6 6个个5 55 5的滤波器的滤波器2023-2-421卷积卷积操作操作 卷积计算后跟随非线性激活函数,增强映射能力卷积计算后跟随非线性激活函数,增强映射能力2023-2-422卷积计算的神经元类比分析卷积计算的神经元类比分析每个输出的三维立体神经元均为局部输入图像的转换映射各三维立体神经元与输入层的局部区域发生连接各三维立体神经元之间共享滤波器参数2023-2-423卷积计算的神经元类比分析卷积计算的神经元类比分析 卷积计算的感受野卷积计
11、算的感受野当处理高维度输入数据时,采用局部连接的方式。该种局部连接的空间维度是CNN的一个超参数感受野(Receptive Field),实质为滤波器的尺寸Note:感受野只是在长与宽的维度上,深度上保持和输入数据相通。For Example:输入为32 32 3维度的图像,感受野维度为55,则卷积层的各神经元的权重为553,共75个可训练参数+1个偏置参数。2023-2-424卷积计算的神经元类比分析卷积计算的神经元类比分析 卷积计算的权值共享卷积计算的权值共享科学假设:一个滤波器在空间某个位置的滤波结果,在其他位置应同样适用图像意义:检测图像中的水平边缘所使用的滤波器应在图像各位置都使用图
12、图.同一水平边缘滤波器(探测器)在图像上多个局部区域的作用结果同一水平边缘滤波器(探测器)在图像上多个局部区域的作用结果2023-2-425卷积计算的神经元类比分析卷积计算的神经元类比分析 卷积计算的权值共享卷积计算的权值共享作用:控制卷积神经网络的待训练参数的数量,减小训练负担,减小模型过拟合风险。共享方式:在同一深度切片depth slice内共享滤波器的参数。深度内涵:正因为权值共享,各深度切片才以卷积核在输入图像数据上滑动(卷积)的计算形式进行。2023-2-426卷积操作的几种类型卷积操作的几种类型扩张卷积(Dilated Convolution)一般卷积(General Convo
13、lution)反卷积(Transposed Convolutions)2023-2-427卷积操作卷积操作DemoDemo 蓝色为输入层 红色为卷积层 绿色为输出层2023-2-428多层卷积操作在图像识别上可视化多层卷积操作在图像识别上可视化2023-2-429小结小结 卷积层的功能 卷积操作的过程 卷积操作在神经元角度的类比分析2023-2-430第三节提要第三节提要 池化层功能详解池化层功能详解 全连接层功能详解全连接层功能详解 全连接层与卷积层的联系与转换全连接层与卷积层的联系与转换2023-2-431池化层和全连接层池化层和全连接层 LeNet卷积神经网络池化层池化层全连接层全连接层
14、 A AlexNetlexNet卷积神经网络卷积神经网络2023-2-432池化层池化层(Pooling)(Pooling)作用:连接在卷积层后,减少模型参数,减小训练负担,控制过拟合问题。操作:在各深度的特征映射图上独立进行,空间缩减分辨率,缩减方式为有多种:max,average,L2-norm等。2023-2-433池化层池化层(Pooling)(Pooling)超参数:空间覆盖度 Spatial Extent、步长 Stride 输 入:三维数据(W1,H1,D1)输 出:三维数据(W2,H2,D2)W2=(W1-F)/S+1H2=(H1-F)/S+1D2=D1空间窗口尺寸空间窗口尺寸
15、F=2F=2,步长,步长S=2S=22023-2-434全连接层(全连接层(Fully-connectedFully-connected)该层各神经元与前层所有神经元均相连接一个权重向量一个权重向量w w和同和同维度输入数据的点维度输入数据的点乘结果乘结果2023-2-435全连接层和卷积层的转换全连接层和卷积层的转换 主要区别:主要区别:卷卷 积积 层:局部连接层:局部连接/共享参数共享参数 全连接层:整体连接全连接层:整体连接/参数独立参数独立共共 同同 点:点:点乘计算,功能形式相同点乘计算,功能形式相同含含全全连连接接层层全全卷卷积积层层2023-2-436全连接层和卷积层的转换全连接
16、层和卷积层的转换含含全全连连接接层层全全卷卷积积层层可通过滑动的形式在一可通过滑动的形式在一次正向传播中计算输出次正向传播中计算输出参数量没有改变参数量没有改变计算方式没有改变计算方式没有改变将全连接层的权重矩将全连接层的权重矩阵改变为卷积层滤波阵改变为卷积层滤波器器2023-2-437全连接层和卷积层的转换全连接层和卷积层的转换 转换的优势:面对更大尺寸的输入图像数据时全连接层需让整个网络迭代N遍,每一次的输入为初始图像的大小全卷积网络可在一次前向中实现,提升了效率2023-2-438全连接层和卷积层的转换全连接层和卷积层的转换 全卷积神经网络(FCN)适应任何尺寸的输入图像数据可用于更精细
17、的像素级的图像识别任务(图像分割)2023-2-439功能层在案例中的解析功能层在案例中的解析LenetLenet 最早的深度卷积神经网络模型,用于字符识别:最早的深度卷积神经网络模型,用于字符识别:卷积神经网络使用三个层作为一个系列:卷积神经网络使用三个层作为一个系列:卷积,池化,非线性卷积,池化,非线性使用卷积提取空间特征使用卷积提取空间特征使用映射到空间均值的下采样(使用映射到空间均值的下采样(mean-poolingmean-pooling)双曲线(双曲线(tanhtanh)或)或S S型(型(sigmoidsigmoid)形式的非线性)形式的非线性多层神经网络(多层神经网络(MLPM
18、LP)作为最后的分类器)作为最后的分类器(Fully connected layers)(Fully connected layers)LeNetLeNet提供了利用卷积提供了利用卷积层堆叠进行特征提取层堆叠进行特征提取的框架,奠定了深度的框架,奠定了深度卷积神经网络的重要卷积神经网络的重要基础。基础。1 Y.1 Y.LecunLecun,L.,L.BottouBottou,Y.,Y.BengioBengio and P.Haffner.and P.Haffner.Gradient-Based Learning Applied to Document Recognition.Gradient-
19、Based Learning Applied to Document Recognition.Proceedings of Proceedings of the IEEE,vol.86,no.11,1998.the IEEE,vol.86,no.11,1998.2023-2-440功能层在案例中的解析功能层在案例中的解析 LeNetLeNet中的卷积层中的卷积层可视化解析可视化解析可训练参数:可训练参数:(5 5*5+15+1)*6 6(每个滤波器(每个滤波器5 5*5=255=25个个unitunit参数和参数和一个一个biasbias参数,共参数,共6 6个滤波器)个滤波器)连接数:连接数
20、:(5 5*5+15+1)*6 6*2828*28=28=122304122304个连接个连接超参数:超参数:输入图片:输入图片:3232*3232卷积核大小:卷积核大小:5 5*5 5卷积核种类:卷积核种类:6 6输出输出 feature map feature map 大小:大小:(32-5+132-5+1)=28=28*2828神经元数量:神经元数量:2828*2828*6 62023-2-441功能层在案例中的解析功能层在案例中的解析 LeNetLeNet中的池化层中的池化层输入:输入:2828*2828;采样区域:采样区域:2 2*2 2;采样种类:采样种类:6 6采样方式:采样方式
21、:4 4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过结果通过sigmoidsigmoid函数函数输出输出FeatureMapFeatureMap大小:大小:1414*1414(28/228/2)神经元数量:神经元数量:1414*1414*6 6可训练参数:可训练参数:2 2*6 6(加和的权重(加和的权重+偏置)偏置)连接数:连接数:(2 2*2+12+1)*6 6*1414*1414可视化解析可视化解析2023-2-442功能层在案例中的解析功能层在案例中的解析 LeNetLeNet中的全连接层中的全连接层输入:输入:C5C5层层 120 120维向量维向量计算方式:计算方式:计算输入向量和权重向量之间的点积,计算输入向量和权重向量之间的点积,再加上一个偏置,结果通过再加上一个偏置,结果通过sigmoidsigmoid函数函数可训练参数可训练参数:8484(120+1)=10164(120+1)=10164可视化解析可视化解析2023-2-443小结小结BTBU-CIE 池化层和全连接层操作 全连接层和卷积层的转换 各功能层的案例分析