1、深度学习与计算机视觉综述胡玉针 170219 模式识别 施杰 170236 检测1ppt课件n本报告主要讲述在计算机视觉领域深度学习如何逐渐占据主流以及传统的识别算法的优缺点,较为详细的介绍了CNN卷积神经网络的架构,简单介绍了深度学习在视觉领域的应用范围。希望让大家了解这个领域的一些基本概念。水平有限,难免有错误的见解,希望不要误导大家。2ppt课件一概述 人工智能是人类一个非常美好的梦想,跟星际漫游和长生不老一样。我们想制造出一种机器,使得它跟人一样具有一定的对外界事物感知能力,比如看见世界。图灵在 1950 年的论文里,提出图灵测试的设想,即,隔墙对话,你将不知道与你谈话的,是人还是电脑
2、。这无疑给计算机,尤其是人工智能,预设了一个很高的期望值。但是半个世纪过去了,人工智能的进展,远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们,心灰意冷,认为人工智能是忽悠,相关领域是伪科学。50多年时间有无数科学家提出很多机器学习的算法,试图让计算机具有与人一样的智力水平,但直到2006年深度学习算法的成功,才带来了一丝解决的希望。3ppt课件二二众星捧月的深度学习众星捧月的深度学习 深度学习在很多学术领域,比非深度学习算法往往有20-30%成绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己的深度学习团队,其中投入最大的就是谷歌,2008年6月披露了谷歌脑项目。2014年1月
3、谷歌收购DeepMind,然后2016年3月其开发的Alphago算法在围棋挑战赛中,战胜了韩国九段棋手李世石,证明深度学习设计出的算法可以战胜这个世界上最强的选手。4ppt课件 在硬件方面,Nvidia最开始做显示芯片,但从2006及2007年开始主推用GPU芯片进行通用计算,它特别适合深度学习中大量简单重复的计算量。目前很多人选择Nvidia的CUDA工具包进行深度学习软件的开发。微软从2012年开始,利用深度学习进行机器翻译和中文语音合成工作,其人工智能小娜背后就是一套自然语言处理和语音识别的数据算法。百度在2013年宣布成立百度研究院,其中最重要的就是百度深度学习研究所,当时招募了著名
4、科学家余凯博士。不过后来余凯离开百度,创立了另一家从事深度学习算法开发的公司地平线。Facebook和Twitter也都各自进行了深度学习研究,其中前者携手纽约大学教授Yann Lecun,建立了自己的深度学习算法实验室;2015年10月,Facebook宣布开源其深度学习算法框架,即Torch框架。Twitter在2014年7月收购了Madbits,为用户提供高精度的图像检索服务。5ppt课件机器学习需要解决的问题?6ppt课件三三传统计算机视觉算法传统计算机视觉算法 特征感知图像预处理特征提取特征筛选推理预测与识别。中间的特征提取,特征筛选主要是人工选取特征:传统的计算机识别方法把特征提取
5、和分类器设计分开来做,然后在应用时再合在一起,比如如果输入是一个摩托车图像的话,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学习。7ppt课件 最著名的SIFT算子,即所谓的对尺度旋转保持不变的算子。它被广泛地应用在图像比对,特别是所谓的structure from motion这些应用中,有一些成功的应用例子。另一个是HoG算子,它可以提取物体,比较鲁棒的物体边缘,在物体检测中扮演着重要的角色。这些算子还包括Textons,Spin image,RIFT和GLOH,都是在深度学习诞生之前或者深度学习真正的流行起来之前,占领视觉算法的主流。8ppt课件几
6、个(半)成功例子几个(半)成功例子 一是八九十年代的指纹识别算法,它已经非常成熟,一般是在指纹的图案上面去寻找一些关键点,寻找具有特殊几何特征的点,然后把两个指纹的关键点进行比对,判断是否匹配。然后是2001年基于Haar的人脸检测算法,在当时的硬件条件下已经能够达到实时人脸检测,我们现在所有手机相机里的人脸检测,都是基于它或者它的变种。第三个是基于HoG特征的物体检测,它和所对应的SVM分类器组合起来的就是著名的DPM算法。DPM算法在物体检测上超过了所有的算法,取得了比较不错的成绩。9ppt课件人工选择特征存在的问题:大量的经验,需要你对这个领域和数据特别了解 大量的调试工作。说白了就是需
7、要一点运气 另一个难点在于,你不只需要手工设计特征,还要在此基础上有一个比较合适的分类器算法。同时设计特征然后选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。10ppt课件是否可以自动的选择特征?即输入某一个模型的时候,输入只是图片,输出就是它自己的标签。比如输入一个明星的头像,出来的标签就是一个50维的向量(如果要在50个人里识别的话),其中对应明星的向量是1,其他的位置是0。11ppt课件人类又是怎么识别物体的?1981年诺贝尔医学生理学奖颁发给了David Hubel,一位神经生物学家。他的主要研究成果是发现了视觉系统信息处理机制,证明大脑的可视皮层是分级的。他的贡献主
8、要有两个,一是他认为人的视觉功能一个是抽象,人的视觉功能一个是抽象,一个是迭代一个是迭代。抽象就是把非常具体的形象的元素,即原始的光线像素等信息,抽象出来形成有意义的概念。这些有意义的概念又会往上迭代,变成更加抽象,人可以感知到的抽象概念。像素是没有抽象意义的,但人脑可以把这些像素连接成边缘,边缘相对像素来说就变成了比较抽象的概念;边缘进而形成球形,球形然后到气球,又是一个抽象的过程,大脑最终就知道看到的是一个气球。12ppt课件再谈如何识别摩托车?看到图片中的摩托车,我们可能在脑子里就几微秒的时间,但是经过了大量的神经元抽象迭代。对计算机来说最开始看到的根本也不是摩托车,而是RGB图像三个通
9、道上不同的数字。所谓的特征或者视觉特征,就是把这些数值给综合起来用统计或非统计的形式,把摩托车的部件或者整辆摩托车表现出来。深度学习的流行之前,大部深度学习的流行之前,大部分的设计图像特征就是基于此,即把一个区域内的像素级别的信息综合表现分的设计图像特征就是基于此,即把一个区域内的像素级别的信息综合表现出来,利于后面的分类学习。出来,利于后面的分类学习。如果要完全模拟人脑,我们也要模拟抽象和递归迭代的过程如果要完全模拟人脑,我们也要模拟抽象和递归迭代的过程,把信息从最细琐的像素级别,抽象到“种类”的概念,让人能够接受。13ppt课件四四CNNCNN卷积神经网络卷积神经网络1.1.概述概述 典型
10、的深度学习模型就是很深层的神经网络,包含多个隐含层,多隐层的神经网络很难直接使用BP算法进行直接训练,因为反向传播误差时往往会发散,很难收敛 CNN节省训练开销的方式是权权值值共享共享weight sharingweight sharing,让一组一组神经元使用相同的权值 主要用于图像识别图像识别领域14ppt课件2.2.卷积(卷积(ConvolutionConvolution)特征提取)特征提取 卷积核(Convolution Kernel),也叫过滤器filter,由对应的权值W和偏置b体现 下图是3x3的卷积核在5x5的图像上做卷积的过程,就是矩阵做点乘点乘之后的和 第i个隐含单元的输入
11、就是:,其中 就是与过滤器filter过滤到的图片 另外上图的步长stride为1,就是每个filter每次移动的距离15ppt课件卷积特征提取的原理 卷积特征提取利用了自然图像的统计平稳性,这一部分学习的特征也能用在另一部分上,所以对于这个图像上的所有位置,我们都能使用同样的学习特征。当有多个filter时,我们就可以学到多个特征,例如:轮廓、颜色等 多个过滤器filter(卷积核)16ppt课件17ppt课件3.3.池化(池化(PoolingPooling)也叫做下采样下采样 Pooling过程 把提取之后的特征看做一个矩阵,并在这个矩阵上划分出几个不重合的区域,然后在每个区域上计算该区域
12、内特征的均值均值或最大值最大值,然后用这些均值或最大值参与后续的训练18ppt课件 最大Pooling的方法之后的结果 Pooling的好处 很明显就是减少参数 Pooling就有平移不变性((translation invariant)如图feature map是12x12大小的图片,Pooling区域为6x6,所以池化后得到的feature map为2x2,假设白色像素值为1,灰色像素值为0,若采用max pooling之后,左上角窗口值为1 Pooling的方法中average方法对背景保留更好,max对纹理提取更好 深度学习可以进行多次卷积、池化操作19ppt课件4.4.激活层激活层
13、在每次卷积操作之后一般都会经过一个非线性层,也是激活层 现在一般选择是ReLu,层次越深,相对于其他的函数效果较好,还有Sigmod,tanh函数等 sigmod和tanh都存在饱和的问题,如上图所示,当x轴上的值较大时,对应的梯度几乎为0,若是利用BP反向传播算法,可能造成梯度消失的情况,也就学不到东西了20ppt课件5.5.全连接层全连接层 Fully connected layerFully connected layer 将多次卷积和池化后的图像展开进行全连接,如右图所示。接下来就可以通过BP反向传播进行训练了 所以总结起来,结构可以是这样的 21ppt课件五五操作的实例:操作的实例:
14、LeNetLeNet网络网络 Le顾名思义就是指人工智能领域的大牛Lecun。这个网络是深度学习网络的最初原型,因为之前的网络都比较浅,它较深的。LeNet在98年就发明出来了,当时Lecun在AT&T的实验室,他用这一网络进行字母识别,达到了非常好的效果。怎么构成呢?输入图像是3232的灰度图,第一层经过了一组卷积和,生成了6个28X28的feature map,然后经过一个池化层,得到得到6个14X14的feature map,然后再经过一个卷积层,生成了16个10X10的卷积层,再经过池化层生成16个55的feature map。22ppt课件 从最后16个5X5的feature map
15、开始,经过了3个全连接层,达到最后的输出,输出就是标签空间的输出。由于设计的是只要对0到9进行识别,所以输出空间是10,如果要对10个数字再加上26个大小字母进行识别的话,输出空间就是62。62维向量里,如果某一个维度上的值最大,它对应的那个字母和数字就是就是预测结果。23ppt课件六六压在骆驼身上的最后一根稻草压在骆驼身上的最后一根稻草 从98年到本世纪初,深度学习兴盛起来用了15年,但当时成果泛善可陈,一度被边缘化。到2012年,深度学习算法在部分领域取得不错的成绩,而压在骆驼身上最后一根稻草就是AlexNet。AlexNet由多伦多大学几个科学家开发,在ImageNet比赛上做到了非常好
16、的效果。当时AlexNet识别效果超过了所有浅层的方法。此后,大家认识到深度学习的时代终于来了,并有人用它做其它的应用,同时也有些人开始开发新的网络结构。24ppt课件 其实AlexNet的结构也很简单,只是LeNet的放大版。输入是一个224X224的图片,是经过了若干个卷积层,若干个池化层,最后连接了两个全连接层,达到了最后的标签空间。去年,有些人研究出来怎么样可视化深度学习出来的特征。那么,AlexNet学习出的特征是什么样子?在第一层,都是一些填充的块状物和边界等特征;中间的层开始学习一些纹理特征;更高接近分类器的层级,则可以明显看到的物体形状的特征。最后的一层,即分类层,完全是物体的
17、不同的姿态,根据不同的物体展现出不同姿态的特征了。可以说,不论是对人脸,车辆,大象或椅子进行识别,最开始学到的东西都是边缘,继而就是物体的部分,然后在更高层层级才能抽象到物体的整体。整个卷积神经网络在模拟人的抽象和迭代的过程。25ppt课件七七为什么时隔为什么时隔2020年卷土重来?年卷土重来?我们不禁要问:似乎卷积神经网络设计也不是很复杂,98年就已经有一个比较像样的雏形了。自由换算法和理论证明也没有太多进展。那为什么时隔20年,卷积神经网络才能卷土重来,占领主流?首先,卷积神经网络的深度太浅的话,识别能力往往不如一般的浅层模型,比如SVM或者boosting。但如果做得很深,就需要大量数据
18、大量数据进行训练,否则机器学习中的过拟合将不可避免。而2006及2007年开始,正好是互联网开始大量产生各种各样的图片数据的时候。另外一个条件是运算能力运算能力。卷积神经网络对计算机的运算要求比较高,需要大量重复可并行化的计算,在当时CPU只有单核且运算能力比较低的情况下,不可能进行个很深的卷积神经网络的训练。随着GPU计算能力的增长,卷积神经网络结合大数据的训练才成为可能。最后一点就是人才人才。卷积神经网络有一批一直在坚持的科学家(如Lecun)才没有被沉默,才没有被海量的浅层方法淹没。然后最后终于看到卷积神经网络占领主流的曙光。26ppt课件八八深度学习在视觉上的应用深度学习在视觉上的应用
19、计算机视觉中比较成功的深度学习的应用,包括人脸识别,图像问答,物体包括人脸识别,图像问答,物体检测,物体跟踪检测,物体跟踪。1.1.人脸识别人脸识别 这里说人脸识别中的人脸比对,即得到一张人脸,与数据库里的人脸进行比对;或同时给两张人脸,判断是不是同一个人。这方面比较超前的是汤晓鸥教授,他们提出的DeepID算法在LWF上做得比较好。他们也是用卷积神经网络,但在做比对时,两张人脸分别提取了不同位置特征,然后再进行互相比对,得到最后的比对结果。最新的DeepID-3算法,在LWF达到了99.53%准确度,与肉眼识别结果相差无几。27ppt课件2.2.图片问答问题图片问答问题 这是2014年左右兴
20、起的课题,即给张图片同时问个问题,然后让计算机回答。比如有一个办公室靠海的图片,然后问“桌子后面有什么”,神经网络输出应该是“椅子和窗户”。这一应用引入了LSTM网络,这是一个专门设计出来具有一定记忆能力的神经单元。特点是,会把某一个时刻的输出当作下一个时刻的输入。可以认为它比较适合语言等,有时间序列关系的场景。因为我们在读一篇文章和句子的时候,对句子后面的理解是基于前面对词语的记忆。图像问答问题是基于卷积神经网络和LSTM单元的结合,来实现图像问答。LSTM输出就应该是想要的答案,而输入的就是上一个时刻的输入,以及图像的特征,及问句的每个词语。28ppt课件3.3.物体检测问题物体检测问题
21、Region CNNRegion CNN 深度学习在物体检测方面也取得了非常好的成果。2014年的Region CNN算法,基本思想是首先用一个非深度的方法,在图像中提取可能是物体的图形块,然后深度学习算法根据这些图像块,判断属性和一个具体物体的位置。29ppt课件 为什么要用非深度的方法先提取可能的图像块?因为在做物体检测的时候,如果你用扫描窗的方法进行物体监测,要考虑到扫描窗大小的不一样,长宽比和位置不一样,如果每一个图像块都要过一遍深度网络的话,这种时间是你无法接受的。所以用了一个折中的方法,叫Selective Search。先把完全不可能是物体的图像块去除,只剩2000左右的图像块放
22、到深度网络里面判断。那么取得的成绩是AP是58.5,比以往几乎翻了一倍。有一点不尽如人意的是,region CNN的速度非常慢,需要10到45秒处理一张图片。30ppt课件 Faster R-CNNFaster R-CNN方法方法 2015年NIPS上,我们看到的有Faster R-CNN方法,一个超级加速版R-CNN方法。它的速度达到了每秒七帧,即一秒钟可以处理七张图片。技巧在于,不是用图像块来判断是物体还是背景,而把整张图像一起扔进深度网络里,让深度网络自行判断哪里有物体,物体的方块在哪里,种类是什么?经过深度网络运算的次数从原来的2000次降到一次,速度大大提高了。Faster R-CNN提出了让深度学习自己生成可能的物体块,再用同样深度网络来判断物体块是否是背景?同时进行分类,还要把边界和给估计出来。Faster R-CNN可以做到又快又好,在VOC2007上检测AP达到73.2,速度也提高了两三百倍。31ppt课件3.YOLO v1v332ppt课件4.4.物体跟踪物体跟踪 所谓跟踪,就是在视频里面第一帧时锁定感兴趣的物体,让计算机跟着走,不管怎么旋转晃动,甚至躲在树丛后面也要跟踪。参考链接:https:/