1、深度学习技术介绍Deep Learning Technology1n深度学习是机器学习中表征学习方法的一类。一个观测值(例如一幅图像)可以使用多种方式来表示,而某些特定的表示方法可以让机器学习算法更加容易进行学习。表征学习的目标是寻求更好的表示方法并建立更好的模型来学习这些表示方法;n通俗来讲,机器学习是一种算法框架,通过此算法框架,需要让机器具有类似人类的智慧,学会认识世界的一种方式;n为人类提供“大数据+简单模型”的实现方式。什么是深度学习2n语音识别n图像识别n自然语言处理深度学习的实际应用类型3论点:机器学习是要制造一个超级大脑,能够具有人类一样的智慧。论点:机器学习是要制造一个超级大
2、脑,能够具有人类一样的智慧。这是一个非常典型的错误。机器学习是一个古老的计算机学科,而深度学习正是机器学习的一个狭窄领域,并非新生事物。持此观点的人一般都是对此学科一知半解的人。在工程上,深度学习的目的不是理解人脑的本质,也不是需要制造一个类人的生命体,而是构建有用的机器。神经网络(artificial neural networks)能够帮助我们建立更好的计算机系统,用以处理信息。人脑也是一种处理信息的装置,具有非凡的鞥努力并且在视觉、语音、语义等方面都超过了目前的工程产品,目前研究的方向是用形式算法定义人脑处理这些任务的解,并在计算机上实现此过程。纠正一个错误4n1989年,计算机已经可以
3、学习识别人类讲话,并且用到了神经网络学习方法和隐马尔科夫模型学习方法;n1989年,机器学习方法已经被用于训练计算机控制车辆,实现无人驾驶;n1995年,决策树学习算法已经被NASA用来分类天体;n1995年,计算机已经可以通过学习,在博弈类游戏中击败人类。n人工神经网络的研究历史和数字计算机一样长。1943年,McCulloch和Pitts提出了人工神经网络的第一个数学模型。1962年提出了感知器和学习算法。1969年有人指出了单层感知器的局限性。1986年后,后向传播被发明,单层感知器局限性不复存在。由于深度学习是机器学习的一个子集,讨论时我们混用这两个名词。为什么说机器学习是一个古老的学
4、科5n人工智能n贝叶斯方法n计算复杂性理论n控制论n信息论n哲学n心理学和神经生物学n统计学和机器学习相关的学科6根据根据Marr(1982)Marr(1982)年理论,理解一个信息处理系统,具有三个被称为分析层面的内容:年理论,理解一个信息处理系统,具有三个被称为分析层面的内容:n计算理论(computational theory)对应计算目标和任务的抽象定义。n表示和算法(representation and algorithm)是关于输人和输出如何表示和从输入到输出变换的算法说明。n硬件实现(hardware implementation)是系统的实物物理实现。理解人脑处理信息的过程7什
5、么是感知器(perceptron)8最简单的分离器设计9n感知器定义了一个超平面,而神经网络感知器事不过是实现超平面的一种方法。给定数据样本,权重可以离线计算,并且将其带入后,感知器就可以用来计算输出的值。n在训练神经网络时,若果未提供全部样本,而是逐个提供实例,则我们通常使用在线学习,并且在每个实例之后更新网络参数,让给网络缓慢的及时调整。这是目前比较常见的一种训练方式。n对于在线学习,不需要全部样本而是需要单个实例上的误差函数。从随机初始权重开始,每次迭代中,我们都对参数稍作调整,以最小化误差,而不是忘记先前学习的。若误差函数可微,则可以使用梯度下降方法。n具有单层权重的感知器,只能逼近输
6、入的线性函数,不能解决XOR类型的问题,这些问题的判别式是非线性的。类似的,这种感知器也不能用于非线性回归。鉴于此,MLP可以实现非线性的判别。训练感知器10n这是在训练多层感知器时提出的一个概念。n训练多层感知器与训练感知器是一样的。唯一区别是现在的输出是输入的非线性函数,这要归咎于隐藏单元中的非线性偏倚函数。n在对于多层感知器,计算梯度时误差就向传回到输出一样,所以创造了这个术语。后向传播算法(back propagation,1986)11n 对于人脸识别(face recognition)。输入是人脸图像,类是需要识别的人,并且学习程序应当学习人脸图像与身份之间的关联性。人脸会有更多的
7、类,输入图像也更大一些,并且人脸是三维的,不同的姿势和光线等都会导致图像的显著变化。另外,对于特定人脸的输人也会出现问题,比如说眼镜可能会把眼睛和眉毛遮住,胡子可能会把下巴盖住等。具体应用-人脸识别12n对于医学诊断(medical diagnosis)。输人是关于患者的信息,而类是疾病。输入包括患者的年龄、性别、既往病史、目前症状等。当然,患者可能还没有做过某些检查,因此这些输入将会缺失。检查需要时间,还可能要花很多钱,而目、也许还会给患者带来不便。因此,除非我们确信检查将提供有价值的信息,否则我们将不对患者进行检查。在医学诊断的情况下,错误的诊断结果可能会导致我们采取错误的治疗或根本不进行
8、治疗。在不能确信诊断结果的情况下,分类器最好还是放弃判定,而等待医学专家来做决断。具体应用-医学诊断13n在语音识别(speech recognition),输人是语音,类是可以读出的词汇。这里要学习的是从语音信号到某种语言的词汇的关联性。由于年龄、性别或口音方面的差异,相同词汇的读音不同,这使得语音识别问题相当困难。语音识另的另一个特点是其输入信号是时态的,词汇作为音素的序列实时读出,而且有些词汇的读音会较长一些。具体应用-语音识别14n在语音识别中,“语言模型”的集成是至关重要的,而且提供一语言模型的最好方法仍然是从实例数据的大型一语料库中学习。机器学习在自然语言处理(natural la
9、nguage processing)方面的应用与日俱增。垃圾邮件过滤就是一种应用,其中垃圾邮件的制造者为一方,过滤者为另一方,一直都在寻找越来越精巧的方法以便超越对方,也许最吸引人的是机器翻译(machine translation),经历了数十年手工编写翻译规则的研究之后,最近人们认识到最有希望的办法是提供大量翻译文本实例对,并且让程序自动地提取,一个字符串映射到另一个字符串的规则。自然语言处理15n生物则定学(biometrics)使用人的生理和行为特征来识别或认证人的身份,需要集成来自不同形态的输人。生理特征的例子是面部图像、指纹、虹膜和手掌;行为特征的例子是签字的力度、嗓音、步态和击键
10、。与通常的鉴别过程(照片、印刷签名或门令)相反,会有许多不同的(不相关的)输人,伪造(欺骗)更困难并且系统更准确,不会对用户太不方便。机器学习既用于针对这些不同形态而构建不同的识别器,也考虑这些不同数据源的可靠性,用于组合它们的决策,以便得到接受或拒绝的总体决策。生物测定学16n从数据中学习规则也为知识抽取知识抽取(knowledge extraction)knowledge extraction)提供了可能性。规则是一种解释数据的简单模型,而观察该模型我们能得到潜在数据处理的解释。例如,一旦我们学会了区分低风险客户和高风险客户的判别式,我们就拥有了关于低风险客户特性的知识。然后,我们就能够利
11、用这些知识,通过比如广告等方式,更有效地争取那些潜在的低风险客户。n机器学习还可以进行压缩压缩(compression)(compression)。用规则拟合数据,我们能得到比数据更简单的解释,需要的存储空间更少,处理所需要的计算更少,例如,一旦你掌握了加法规则,你就不必记忆每对可能数字的和是多少。n机器学习的另一种用途是离群点检测离群点检测(outlier detection)(outlier detection),即发现那些不遵守规则的例外实例。在这种情况下,学习规则之后,我们感兴趣的不是规则,而是规则未能覆盖的例外,他们可能暗示出我们需要注意的异常,如诈骗等。机器学习的额外用途17nAL
12、VINN系统是ANN学习的一个典型实例,这个系统使用一个学习到的ANN以正常速度在高速公路上驾驶汽车。ANN的输入是一个30*32像素的网格,像素的亮度来自于一个安装在车辆上的前向摄像头。ANN的输出是车辆行进的方向。这个ANN通过模仿驾驶时的操纵命令进行训练,持续约5分钟。ALVINN用学到的网络在高速公路上以70英里的时速成功行驶了90英里。案例-ALVINN系统18ALVINN系统的神经网络19形而下者谓之器20n人工智能每一次沉寂后的爆发,有两个条件p理论算法的突破p计算能力的提升nHPC是深度学习的引擎深度学习对计算的依赖21nVidia Tesla GPU22GPU的发展趋势23G
13、PU产品路线24GPU市场区分25计算专用GPU可选型号特性特性Tesla M40Tesla M40Tesla K80Tesla K80Tesla K40Tesla K40GPU GPU 数量数量类型类型GM2002Kepler GK2101 个GK110双精双精浮点峰值浮点峰值-2.91 T(提速)1.87 T(基础)1.66 T(提速)1.43 T(基础)单单精精浮点峰值浮点峰值7 T8.74 T(提速)5.6 T5 T(基础)4.29 Tflops存储器带宽存储器带宽(ECC(ECC关闭关闭)288 GB/s480 GB/s288 GB/s存储器容量存储器容量(GDDR5)(GDDR5)
14、12GB24GB(2 12GB)12 GBCUDA CUDA 核心核心数数30724992288026主流GPU产品对比27主流GPU产品对比28GPU Boost 技术29K80性能提升30M40 GPU加速特性31GPU与CPU连接通过PCIe与CPU连接,最大理论带宽8GB/s(gen2.0)、16GB/s(gen3.0)CPU称为主机(host),显卡(GPU)称为设备(device)32最优连接数量:433目前的GPU使用方案34CPU困境34358块热插拔3.5寸 SATA硬盘16根内存槽,支持1TB DDR4内存两两颗颗 Intel 160W Intel E5-2600 v3 f
15、amily 2000W 白金级高效电源,1+1冗余 3 x 5 外设仓位最优的制冷方案最多4个全高全长双宽GPU卡(PCIe x16 3.0)+3 个标准PCIe卡XMachine W580-G20机塔互换36XMachine W740-G20服务器天阔W740-G20服务器是专为高性能计算设计的高密度异构计算节点,在2U空间内置4颗主流加速卡,并支持Infiniband高速互联接口。W740I-G20适合在Deep Learning、Machine Learning环境下的应用。2U高度,两颗Intel Intel E5-2600 V3系列 CPU,最大支持145W支持4颗GPU/MIC加速
16、单元,4根PCI-E 3.0 16+1根PCI-E 3.0 8(in X16 slot)最大支持1TB DDR4 Reg.ECC 内存(16DIMM)10个热插拔2.5寸SAS/SATA硬盘可配置2000W 1+1冗余电源37XMachine W780-G20服务器天阔W780-G20服务器是专为Machine Learning市场设计的高密度异构计算节点,在4U空间内置8颗主流加速卡,每个CPU之间的GPU卡可以实现P2P。4U高度,两颗Intel Intel E5-2600 V3系列 CPU,最大支持160W支持8颗GPU/MIC加速单元,8根PCI-E 3.0 16+3根PCI-E 3.
17、0 8扩展槽最大支持2TB DDR4 ECC 内存(24DIMM)24个热插拔2.5寸SAS/SATA硬盘可配置1600W 2+2冗余电源38n深度学习是一种处理大数据的工具,应对大数据时代信息处理的难题。让”信息资产”成为企业的重要资源。nXSystem以”HPC+BigData+Cloud”为设计理念,结合深度学习XSharp深度学习软件栈和XMachine深度学习一体机。为用户提供深度学习一体化解决方案。帮助用户快速进入 Deep Learning 领域,实现企业应用快速成长,将科研成果快速转化为第一生产力。深度学习XSystem39nXSharp软件平台,分别从分布式并行系统优化,分布式并行机器学习执行模式优化,大规模机器学习算法工具集三个层面提供Deep Learning优化策略,帮助用户实现应用优化。n整个框架面向用户应用,以加速应用效率为目标,提供基于流水线、模型以及数据层面的并行优化处理工作。n用户可以根据自身需求对软件框架进行自由裁剪,以取得最优的应用效果。XSharp深度学习软件框架40n黑天鹅n大数据n On Intelligence Jeff Hawkins深度学习能做什么计算决定未来,软件创造价值计算决定未来,软件创造价值