1、深度学习智慧融入街镇1目录 content深度学习概述第一章深度学习应用研究第二章总结与展望第三章2深度学习概述第一章 历史与背景 基本思想 经典模型31-1 历史与背景假设我们要让程序判断下面的图像是否为猫:判断图像是否为猫的规则该怎么描述?用枚举的方法,即为每张可能的图像对应一个结果(是猫,不是猫),根据这个对应规则进行判定。对于高度和宽度都为256像素的黑白图像,如果每个像素值的值是0-255之间的整数,根据排列组合原理,所有可能的图像数量为:所以,与其总结好知识告诉人工智能,还不如让人工智能自己去学习知识。要识别猫的图像,可以采集大量的图像样本,其中一类样本图像为猫,另外的不是猫。然后
2、把这些标明了类别的图像送入机器学习程序中进行训练。机器学习41-1 历史与背景机器学习发展阶段1980s:登上历史舞台1990-2012:走向成熟和应用2012:深度学习时代神经网络卷土重来1980年机器学习作为一支独立的力量登上了历史舞台。典型的代表是:1984:分类与回归树1986:反向传播算法1989:卷积神经网络代表性的重要成果有:1995:支持向量机(SVM)1997:AdaBoost算法1997:循环神经网络(RNN)和LSTM2000:流形学习2001:随机森林在与SVM的竞争中,神经网络长时间内处于下风,直到2012年局面才被改变。由于算法的改进以及大量训练样本的支持,加上计算
3、能力的进步,训练深层、复杂的神经网络成为可能,它们在图像、语音识别等有挑战性的问题上显示出明显的优势。5 1958:Perceptron(linearmodel) 1969:Perceptronhaslimitation 1980s:Multi-layerperceptron DonothavesignificantdifferencefromDNNtoday 1986:Backpropagation Usuallymorethan3hiddenlayersisnothelpful 1989:1hiddenlayeris“goodenough”,whydeep? 2006:RBMinitial
4、ization 2009:GPU 2011:Starttobepopularinspeechrecognition 2012:winILSVRCimagecompetition 2015.2:Imagerecognitionsurpassinghuman-levelperformance 2016.3:AlphaGObeatsLeeSedol 2016.10:SpeechrecognitionsystemasgoodashumansUps and downs of Deep Learning1-1 历史与背景61-1 历史与背景71-1 历史与背景81-1 历史与背景91-1 历史与背景10S
5、tep1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickthebestfunction深度学习原理NeuralNetwork1-2 基本思想11Neural Network z z z z“Neuron”DifferentconnectionleadstodifferentnetworkstructuresNeural Network1-2 基本思想128layers19layers22layersAlexNet(2012)VGG(2014)GoogleNet(2014)16.4%7.3%6.7%Deep=Manyhiddenlay
6、ers1-2 基本思想13AlexNet(2012)VGG(2014)GoogleNet(2014)152layers3.57%ResidualNet(2015)Taipei101101layers16.4%7.3%6.7%Deep=ManyhiddenlayersSpecialstructure1-2 基本思想141x2xNxy1y2yMNeural Network W1W2WLb2bLxa1a2yyxb1W1x+b2W2+bLWL+b11-2 基本思想15y1y2yMKxOutput LayerHidden LayersInput Layerx1x2xFeatureextractorrep
7、lacingfeatureengineering=Multi-classClassifierSoftmax1-2 基本思想16Step1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickthebestfunctionNeuralNetwork1-2 基本思想171x2x256xy1y2y10CrossEntropy“1”100targetSoftmaxGivenasetofparameters1-2 基本思想18Step1:defineasetoffunctionStep2:goodnessoffunctionStep3:pickth
8、ebestfunctionNeuralNetwork1-2 基本思想19Gradient Descent0.150.050.20.2-0.10.3gradient1-2 基本思想20NeuralNetworkGoodResultsonTestingData?GoodResultsonTrainingData?Step3:pickthebestfunctionStep2:goodnessoffunctionStep1:defineasetoffunctionYESYESNONOOverfitting!Deep Learning1-2 基本思想211-3 经典模型DNN 深层神经网络深层神经网络C
9、NN 卷积神经网络卷积神经网络RNN 循环神经网络循环神经网络GAN 生成对抗网络生成对抗网络.22 SomepatternsaremuchsmallerthanthewholeimageAneurondoesnothavetoseethewholeimagetodiscoverthepattern.“beak”detectorConnectingtosmallregionwithlessparameters1-3 经典模型-CNN23 Thesamepatternsappearindifferentregions.“upper-leftbeak”detector“middlebeak”det
10、ectorTheycanusethesamesetofparameters.Doalmostthesamething1-3 经典模型-CNN24 SubsamplingthepixelswillnotchangetheobjectsubsamplingbirdbirdWecansubsamplethepixelstomakeimagesmallerLessparametersforthenetworktoprocesstheimage1-3 经典模型-CNN25FullyConnectedFeedforwardnetworkcatdogConvolutionMaxPoolingConvolut
11、ionMaxPoolingFlattenCanrepeatmanytimes1-3 经典模型-CNN26ConvolutionMaxPoolingConvolutionMaxPoolingFlattenCanrepeatmanytimes SomepatternsaremuchsmallerthanthewholeimageThesamepatternsappearindifferentregions.SubsamplingthepixelswillnotchangetheobjectProperty1Property2Property31-3 经典模型-CNN27FullyConnected
12、FeedforwardnetworkcatdogConvolutionMaxPoolingConvolutionMaxPoolingFlattenCanrepeatmanytimes1-3 经典模型-CNN281-3 经典模型-CNN29Deep Dream Givenaphoto,machineaddswhatitseesCNNModifyimageCNNexaggerateswhatitsees1-3 经典模型-CNN30Deep Dream Givenaphoto,machineaddswhatitsees1-3 经典模型-CNN31Deep Style Givenaphoto,make
13、itsstylelikefamouspaintings1-3 经典模型-CNN32Deep Style Givenaphoto,makeitsstylelikefamouspaintings1-3 经典模型-CNN33Deep StyleDeep StyleCNNCNNcontentstyleCNN?A Neural Algorithm of Artistic Style1-3 经典模型-CNN34More Application: SpeechTimeFrequencySpectrogramCNNImageThefiltersmoveinthefrequencydirection.1-3 经
14、典模型-CNN35More Application: Text?1-3 经典模型-CNN36深度学习应用第二章 机器视觉 智能语音 .372-1 机器视觉(1)机器视觉用机器的眼睛理解世界机器视觉是指通过用计算机或图像处理器及相关设备来模拟人类视觉,以让机器获取相关的视觉并加以理解,它是将图像转换成数字信号进行分析处理的技术。机器视觉技术流程图像采集目标提取目标识别目标分析图像捕获图像压缩图像存储图像预处理图像分割特征提取目标分类判断匹配模型建立行为识别382-1 机器视觉关键技术与应用关键技术与应用A)生物特征识别技术安全领域应用广泛生物特征识别技术是一种通过对生物特征识别和检测,对身伤实行
15、鉴定的技术。从统计意义上讲人类的指纹、虹膜等生理特征存在唯一性,可以作为鉴另用户身份的依据。目前,生物特征识别技术主要用于身份识别,包括语音、指纹、人脸、静脉,虹膜识别等。392-1 机器视觉关键技术与应用关键技术与应用B)光学字符文本识别一一智能物流的核心技术光学字符文本识别技术(OpicalCharacterReconrition),是指计算机通过光学设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻泽成计算机文字的过程,从而完成计算机对文字的阅读。OCR技术具体到场景就是通过扫描,将各类印刷体的文档证件(名片,银行卡、财务单据等)自动识别录入电脑等终端,让
16、大量信息的高效录入成为可能。物物品品包包装装检检测测系系统统402-1 机器视觉关键技术与应用关键技术与应用C)物体与场紧识别一机器人和自动驾驶使用最广物体、场景识别是指计算机将图片内容与数据库中的资料进行比对,进而识别图片或视频中的物体与场景。识别过程与人脸识别类似,即通过检测定位、特征提取、3D建模、模型比对对物体进行识别。机器人机器规觉技术的应用打破了传统机器入应用的局哏性。以检测服务为例,在未配备机器视觉的条件下,由于被检产品规格的多样,用户需要使用大量的专用工具来实现产品位置的固定,成本过高,更换工具的工作量目大。而机器视觉技术具有位置无需固定、精度与J靠性的协调统一非接触式定位与测
17、量全面观量、随动检测等特点,因此使用视觉系统定位仅需更换产品的检测文件,机械成本及更换工具时间大为降低。自动驾驶机器视觉技术在自动驾驶中可以识别、发现周遭环境和各类物体的运动状态;定位车道、检测坡度与弯度;自动规划行车路线井控制车辆到达的地。目前,技术方面E实现从感知到控制的飞跃,辅助驾驶成熟度大幅提升。深度学习的出现提高了对环境感知的精度,提供更全面的环境信息,提示危险,辅助驾驶。基于机器视觉的无人驾驶感知系统使用了多种规觉传感器,包括毫米波雷达、激光雷达和摄像头等。毫米波雷达用于测距;激光雷达用于感知环境;摄像头用来识别交通信号和其他物体标准的数据集用来开发、验证基于视觉的算法;底层的Op
18、ticalFlow与立体视觉技术对车辆定位和物体的识别与跟踪都至关重要。412-2 智能语音语音识别的目标是将人类语音表达的内容转换为机器可读的输入,是构建机器的“听觉系统”。语音识别技术经历了长达60年的发展,近年来机器学习和深度神经网络的引入,使得语音识别的准确率提开到足以在实际场景中应用。(1)深度神经网络声学模型发展回顾2006年GoeaffreyHinton提出深度置信网络(DBN)。促使了深度神经网络(DNN)研究的复苏。2009年GoffreyHinton将DNN应用于语音的声学建模,在TMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNIN技术应用在了大
19、词汇最连续语音识别任务上,大大降低了语音识别错误率。从此以后基于DNN声学模型技术的研究变得异常火热。微软去年10月发布的Switchboard语音别测试中,更是取得了5.9%的词错误率,第一次实现了和人类一样的i别水平,这是一个历史性突破。1语音识别技术已趋于成熟语音识别技术已趋于成熟422-2 智能语音(2)语音识别技术流程语音识另整个过程包含语音信号预处理、声学特征提取、声学和语言模型建模、解码等多个环节,简单来说,声学模型用来模拟发音的概率分布,语言模型用来模拟词语之间的关联关系。而解码阶段就是利用上述两个模型,将声音转化为文本。1语音识别技术已趋于成熟语音识别技术已趋于成熟语音/语言
20、学知识数据挖掘技术信号处理技术统计建模方法训练语言/语音数据库语音信号端点检测降噪特征提取解码识别结果语音/语言模型432-2 智能语音简单地说,自然语言处理(NaturalLanguageProcessing,简称Nl.P)就是用计算机来处理、理解以及运用人类语言,它属于人工智能的一个分支,是计算机科学与语言学的交叉学科。实现人机间自然语言通信意味着要使机器既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。2自然语言处理自然语言处理(NLP )发展现状发展现状Word2vecRNNGRUWord2vec 可以在百万数量级的词典
21、和上亿的数据集上进行高效地训练;Word2vec 该工具得到的训练结果词向量,可以很好地度量词与词之间的相做性。RNN现在已经是NLP任务最常用的方法之一。RNN模型的优势之一就Recurrent Noural Networks ) 是可以有效利用之前传入网络的信息。目的是为RNN模型在计算隐层状态时提供一种更复杂的方法,这种方法GatedRecurrentUnit 将使模型能够保持更久远的信息。几种常用的深度神经网络NLP模型442-2 智能语音A)问答系统问答系统能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。基本工作原理是在线
22、做匹配和排序。比如IBM的Watson,典型的力法是把问答用FAQ索起来,与搜索引擎相似。对每一个新可题进行检索,再将答按匹配度进行排序,把最有可能的答案排在前面,往往就取第一个作为答案返回给用户,B)图像检索同样也是基于深度学习技术,跨模态地把文本和图片联系起来。C)机器科译机器翻译的历史被认为与自然语言处理的历史是一样的。最近,深度学习被成功地运用至机器翻译里,使得机器翻译的准确率大幅度提升。比如谷歌的神经机器翻译系统,就是一个非常强大的系统,需要很多训练数据和强大计算资源,加上各种各种新技术的用,翻译的准确率超过传统的统计机器翻译。D)对话系统对话系统的回复是完全开放的,要求机器能准确地
23、理解|可题,并且基于自身的知识系统和对于对话目标的理解,去生成一个C复。因此,虽然人机对话在2016年随着cho的成功已经被炒得火热,但效果并不尽如人意。2自然语言处理主要应用场景自然语言处理主要应用场景452-2 智能语音A)问答系统问答系统能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。基本工作原理是在线做匹配和排序。比如IBM的Watson,典型的力法是把问答用FAQ索起来,与搜索引擎相似。对每一个新可题进行检索,再将答按匹配度进行排序,把最有可能的答案排在前面,往往就取第一个作为答案返回给用户,B)图像检索同样也是基于深度学
24、习技术,跨模态地把文本和图片联系起来。C)机器科译机器翻译的历史被认为与自然语言处理的历史是一样的。最近,深度学习被成功地运用至机器翻译里,使得机器翻译的准确率大幅度提升。比如谷歌的神经机器翻译系统,就是一个非常强大的系统,需要很多训练数据和强大计算资源,加上各种各种新技术的用,翻译的准确率超过传统的统计机器翻译。D)对话系统对话系统的回复是完全开放的,要求机器能准确地理解|可题,并且基于自身的知识系统和对于对话目标的理解,去生成一个C复。因此,虽然人机对话在2016年随着cho的成功已经被炒得火热,但效果并不尽如人意。2自然语言处理主要应用场景自然语言处理主要应用场景462-2 智能语音2自
25、然语言处理主要困难自然语言处理主要困难语言的特点语言的特点语言是不完全有规律的,会出现功能冗余,逻辑不一致等情况。语言可以构建出非常复杂的表达,能把词形成句子。语言是开放的系统,新词新义无穷无尽。语言要和世界知识相联系。语言的使用和理解要结合上下文,结合语境。47总结与展望第三章48人工智能产业链分析人工智能产业链分析4 总结与展望人工智能产业链可以分为基础设施层、应用技术层和方案集成层。A)基础设施层主要有基础数据提供商、半导体芯片供应商、传感器供应商和云服务商。在过去的5-10年,人工智能技术得以商业化,主要得益于传感器等硬件价格快速下降,云服务的普及,以及GPU等芯片使大规模并行计算能力
26、得以提升。人工智能产业在基础施层面的搭建已经基本形成。B)在应用技术层,主要有语音识别、自然语言处理、计算机视觉、深度学习技术提供商。与其他技术相比,语音识别在技术和应用方面都已经较为成熟,谷歌、亚马逊、苹果、百度、阿里等巨头的布局很深,科大讯飞和出门问问等企业也显示了良好的增长势头。另外,计算机视觉尤其是人脸识别、自然语言处理等方向也将是技术和应用较快发展的领域。C)处于方案集成层的企业,主要是把人工智能相关技术集成到自己的产品和服务中,然后切入特定场景(金融、家居、医疗、安防、车载等)。未来场景数据完整(信息化程度原本就比较高的行业或者数据洼地行业)厅馈机制清晰、追求效率动力比较强的场景或将率先实现Al技术的大规模商业化。目前来看,自动驾驶、医疗、安防、金融、营销等领域是业内人士普遍比较看好方向。方案集成层应用技术层基础设施层智能金融个人助理无人驾驶智能安防智能医疗智能家居计算机视觉大数据机器人自然语言处理语音识别深度学习半导体芯片云服务传感器49感谢各位领导莅临指导!50