1、人工智能技术介绍PPT人工智能技术概述第一节深度学习与智能围棋第二节深度学习与国际象棋第三节人工智能3.0第四节目录 contentcontent人工智能的新革命第一节 人工智能技术简述 深度学习算法 知识图谱人工智能将引领人类第四次工业革命 智能化时间时间1818世纪末世纪末工业工业1.01.0创造了机器工厂的创造了机器工厂的“蒸汽时代蒸汽时代”2020世纪初世纪初电力广泛应用电力广泛应用蒸汽机蒸汽机信息物联系统信息物联系统19701970年代初年代初今天今天工业工业2.02.0将人类带入分工明将人类带入分工明确、大批量生产的确、大批量生产的流水线模式和流水线模式和“电电气时代气时代”工业工
2、业3.03.0应用电子信息技术,应用电子信息技术,进一步提高生产自进一步提高生产自动化水平动化水平自动化、信息化自动化、信息化工业工业4.04.0开始应用信息物理开始应用信息物理融合系统(融合系统(CPSCPS)复复杂杂度度互联网时代人工智能机器人交通工具(即无人机、无人驾驶等)VR(虚拟现实)AIAI将催生“无用阶层”吗?什么是人工智能(AI)?(AI)? 全面实施战略性新兴产业发展规划,加快人工智能等技术的研发和转化,做大做强产业集群 把发展智能制造作为主攻方向,推进国家智能制造示范区、制造业创新中心建设人工智能:国家战略(2017年政府工作报告) 人工智能(Artificial Inte
3、lligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。 人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。什么是人工智能?人工智能有那些类型? 弱人工智能弱人工智能,包含基础的、特定场景下角色型的任务,如Siri等聊天机器人和AlphaGo等下棋机器人; 通用人工智能通用人工智能,包含人类水平的任务,涉及机器的持续学习;
4、 强人工智能强人工智能,指比人类更聪明的机器;195619741980198719932006AI的诞生的诞生1956达特矛斯达特矛斯 会议,会议,“人工智人工智 能能”正式诞生正式诞生孕育期孕育期电子计算机电子计算机 机机器翻译与器翻译与NLP 图灵测试图灵测试 计算计算机下棋机下棋 早期神早期神经网络经网络搜索式推理搜索式推理聊天机器人聊天机器人乐观思潮乐观思潮所有的所有的AI程序程序 都只是都只是“玩具玩具”运算能力运算能力计算复杂性计算复杂性常识与推理常识与推理专家系统专家系统知识工程知识工程五代机五代机神经网络重生神经网络重生未达预期未达预期 削减投入削减投入摩尔定律摩尔定律统计机器
5、学习统计机器学习AI广泛应用广泛应用大数据大数据计算能力计算能力应用增多应用增多深度学习深度学习人工智能人工智能2016人工智能发展历程人机交互人机交互 主要运用到的技术包括机器人学和模式识别技术,机器人可以模拟人的行为,而模式识别则能使用计算机模拟人类器官对外界的各种感知。知识和数据智能处理知识和数据智能处理 知识处理时通常使用专家技术,它能运用特定领域中专家提供的专门知识和经验,通过智能推理求和,便可解决只有专家才能解决的问题。数据挖掘与分析数据挖掘与分析 面临大数据深度挖掘与分析时,通常采用机器学习,是基于人工神经网络的深度学习。可针对海量数据进行分析计算,并创建相应模型。核心技术核心技
6、术010102020303人工智能核心技术是在多层神经网络发展的深度学习和深度神经网络的基础上,被运用于虹膜识别、步态识别、身份识别等方面。模式识别模式识别主要目标是让机器能够识别、操作人类语言,主要包括信息抽取、机器翻译、摘要、搜索及人机交互等。自然语言处理自然语言处理在工业、农业、商务、科技、教育、服务等领域被广泛应用,如农业方面的作物病虫预测专家系统等。专家系统专家系统其两个核心问题是图像分类和物体检测。在围绕图像内容的信息检索、广告投放、用户分析、商品推荐等互联网应用在应用广泛。图像识别图像识别四、人工智能的应用领域四、人工智能的应用领域人工智能应用领域手机中的AIAI 人工智能相关技
7、术刚刚越过曲线高峰(处于狂热期),是推动透明化身临其境体验技术发展的人工智能相关技术刚刚越过曲线高峰(处于狂热期),是推动透明化身临其境体验技术发展的主要动力主要动力 涉及透明化身临其境体验的人本技术(如智能工作空间、互联家庭、增强现实、虚拟现实、脑涉及透明化身临其境体验的人本技术(如智能工作空间、互联家庭、增强现实、虚拟现实、脑机接口)是拉动另外两大趋势的前沿技术机接口)是拉动另外两大趋势的前沿技术 数字平台在曲线上处于快速上升期,其中的量子计算和区块链将在今后数字平台在曲线上处于快速上升期,其中的量子计算和区块链将在今后510510年带来变革性的年带来变革性的影响影响AIAI处于什么阶段?
8、AI RoadmapAI Roadmap国人为什么要关注AIAI?为什么人类能成为地球的主宰?基因:人和大猩猩的基因,有基因:人和大猩猩的基因,有98.4%98.4%都是完都是完全一样的,只有全一样的,只有1.6%1.6%有区别有区别“符号语言符号语言”(口头语言和书面文(口头语言和书面文字):传递、保存、共享知识字):传递、保存、共享知识“集体知识集体知识”:人类的大脑可以相互:人类的大脑可以相互共享信息,交换知识共享信息,交换知识人类个体比其他动物没有多大优势,掌握人类个体比其他动物没有多大优势,掌握了符号语言,人类社会的结构发生了突变,了符号语言,人类社会的结构发生了突变,有了一个连接在
9、一起的集体大脑。这种物有了一个连接在一起的集体大脑。这种物种之间相互关联、相互作用的方式,才是种之间相互关联、相互作用的方式,才是我们和其他物种的真正区别我们和其他物种的真正区别脑容量:历史上的脑容量:历史上的“尼安德特人尼安德特人”和我们和我们的祖先脑容量是一样的。但后来尼安德特的祖先脑容量是一样的。但后来尼安德特人就没留下来,只有我们这一支留下来了人就没留下来,只有我们这一支留下来了知识和创新是推动人类发展的动力知识和创新是推动人类发展的动力AIAI学科结构常常识识性性推推理理演演绎绎、问问题题求求解解逻逻辑辑心心理理学学知知识识的的模模型型化化和和表表示示认认识识论论心心理理学学A AI
10、 I系系统统和和语语言言系系统统程程序序设设计计计计算算机机语语言言启启发发式式搜搜索索现现代代控控制制理理论论图图论论运运筹筹学学基基本本方方法法和和技技术术近近期期主主要要应应用用领领域域近近期期主主要要应应用用领领域域信信息息处处理理心心理理学学逻逻辑辑控控制制理理论论心心理理学学语语言言学学自自然然语语言言系系统统声声学学语语音音学学机机器器视视觉觉光光学学模模式式识识别别心心理理学学 图图示示学学机机器器人人工工业业自自动动化化控控制制理理论论 空空间间研研究究自自动动程程序序设设计计系系统统程程序序设设计计算算法法分分析析计计算算原原理理逻逻辑辑自自动动定定理理证证明明数数学学逻逻
11、辑辑学学教教学学、科科学学和和工工程程辅辅助助博博弈弈管管理理科科学学有有关关学学科科符符号号操操作作图图示示学学AIAI的几大门派符号学派符号学派联结学派联结学派行为学派行为学派神经网络神经网络知识表示知识表示机器人机器人模拟人的心智模拟脑的结构模拟人的行为聪明的AI有学识的AI深度学习深度学习知识图谱知识图谱感知感知识别识别判断判断思考思考语言语言推理推理贝叶斯学派贝叶斯学派进化学派进化学派类推学派类推学派人工智能人工智能产业生态产业生态的三层基本架构的三层基本架构u基础资源层基础资源层:主要是:主要是计计算平台算平台和和数据中心数据中心,属于,属于计算智能;计算智能;u技术层技术层:通过
12、机器学习:通过机器学习建模,开发面向不同领域建模,开发面向不同领域的的算法算法和和技术技术,包含,包含感知感知智能智能和和认知智能认知智能;u应用层应用层:主要实现人工:主要实现人工智能在不同场景下的应用。智能在不同场景下的应用。基础资源支基础资源支撑撑AIAI生态逐步形成:基础资源+ +技术+ +应用人工智能系统的技术架构智能终端智能终端智能云平台智能云平台人工智能的新革命第一节 人工智能技术简述 深度学习算法 知识图谱推理期推理期知识期知识期机器学习期机器学习期人工智能的三个研究阶段人工智能的三个研究阶段1950s1950s1970s1970s1980s1980s基于基于符号符号知识表示知
13、识表示 通过演绎推理技术通过演绎推理技术基于基于符号符号知识表示知识表示 通过通过获取和利用领域知识获取和利用领域知识 建建立专家系统立专家系统神经网络第二个高潮神经网络第二个高潮 N NP(P(n no on n- -dedet te er rm miniinis st ti ic c p po olynlynomomi ia al l-t-ti im me e) )难题难题 中获重大进展中获重大进展 助力大助力大量现实问题量现实问题神经网络神经网络第一个高潮期第一个高潮期神经网络以深度学神经网络以深度学 习之名再次崛起习之名再次崛起 大幅提升感知智能大幅提升感知智能 准确率准确率20172
14、0179090s s中期中期统计学习登场并占据主流统计学习登场并占据主流,支支持向量机、核方法为代表性技术持向量机、核方法为代表性技术提出支持向量、提出支持向量、V VC C维等概念维等概念统计学的研究成果经由机器学习统计学的研究成果经由机器学习 研究,形成有效的学习算法研究,形成有效的学习算法联结学派联结学派对大脑进行逆向分析对大脑进行逆向分析 灵感来自于神经科学和物理学灵感来自于神经科学和物理学 产生的是产生的是“黑箱黑箱”模型模型 神经神经网络可归置此类网络可归置此类符号学派符号学派将学习看作逆向演绎将学习看作逆向演绎 并从哲并从哲学、心理学、逻辑学中寻求洞见学、心理学、逻辑学中寻求洞见
15、 代表代表包括决策树和基于逻辑的学习包括决策树和基于逻辑的学习机器学习& &深度学习 从以“推理”为重点到以“知识”为重点,再到以“学习”为重点 机器可以自动“学习”的算法,即从数据中自从数据中自动分析获得规律,并利用规律对未知数据进行动分析获得规律,并利用规律对未知数据进行预测的算法预测的算法。目前,机器学习机器学习= =“分类分类” 人工智能 机器学习 深度学习 深度学习是使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法 深度学习是一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特
16、定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征用数据优化用数据优化计算机程序计算机程序的模型参数的模型参数通过经验自通过经验自动改进的计动改进的计算机算法算机算法深度学习算法简介:机器学习 机器学习的基本定理机器学习的基本定理 模型的出错率模型的出错率 推论:推论: 模型复杂模型复杂- -大样本大样本 样本小样本小- -简化模型简化模型)(xFxyClass label(Classification)Vector(Estimation)机器学习实施过程特征提取
17、特征1样本数据样本数据样本数据n预处理特征样本集原始样本集机器学习算法训练预测输出验证集评价目标特征1n目标特征1n目标特征1n训练集目标特征1n目标特征1n目标特征1n验证集目标特征1n目标特征1n目标预测目标预测目标预测目标改进特征提取特征提取特征1样本数据样本数据样本数据n特征样本集原始样本集目标特征1n目标特征1n目标统计分析变换特征运算特征选取是成败的关键人脑是通过分级的、多层网络模型来识别减少数据量,保留物体的有用信息低层信息预处理特征提取识别分类 对效果影响极大对效果影响极大 手动化特征工程手动化特征工程 非常耗时非常耗时图像识别的一般流程人脑识别图像的过程第一个模型是一个线性模
18、型,低度拟合,不能很好地适应训练集;第三个模型是一个四次方的第一个模型是一个线性模型,低度拟合,不能很好地适应训练集;第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集,但在新输入变量进行预测时可能会效果模型,过度拟合,虽然能非常好地适应我们的训练集,但在新输入变量进行预测时可能会效果不好;中间的模型似乎最合适不好;中间的模型似乎最合适经过算法预测的结果是一个连续的值,经过算法预测的结果是一个连续的值,我们称这样的问题为回归问题。我们称这样的问题为回归问题。算法能够学会如何将数据分类到不同的类算法能够学会如何将数据分类到不同的类里,我们称这样的问题为分类问题。里,我们称这样
19、的问题为分类问题。深度学习算法简介:数学基础 当感知器用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开当感知器用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开 神经网络的学习过程就是神经网络参数的设定过程神经网络的学习过程就是神经网络参数的设定过程 一个神经元网络结构确定之后,需要对一系列参数(权重、阈值等)进行有效的设定。这个过一个神经元网络结构确定之后,需要对一系列参数(权重、阈值等)进行有效的设定。这个过程叫做学习或训练过程,此时的方法叫学习算法程叫做学习或训练过程,此时的方法叫学习算法 是一个由线性阈值元件组成的单层(或多层)神经元的神经
20、网络是一个由线性阈值元件组成的单层(或多层)神经元的神经网络 当输入的加权和大于或等于阈值时,输出为当输入的加权和大于或等于阈值时,输出为1 1,否则为,否则为0 0 模型假定神经元中间的耦合程度(即加权系数模型假定神经元中间的耦合程度(即加权系数W W)可变,这样,该模型可以学习)可变,这样,该模型可以学习深度学习算法简介:感知器监督学习通过已有的训练样本(即已知数据以训练样本(即已知数据以及其对应的输出)训练及其对应的输出)训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目
21、的,从而也就具有了对未知数据进行分类的能力各种神经网络类型LogisticRBMAuto EncoderSparse CodingConvolutional(卷积)强化学习类似人类与环境交互的方式,智能系统从环境到行为映射的学习,以使奖励信号函数值最大。环境对产生动作环境对产生动作的好坏通过奖励信号作评价的好坏通过奖励信号作评价,而不是告诉强化学习系统如何去产生正确的动作。强化学习不能立即得到标记,强化学习不能立即得到标记,而只能得到一个反馈而只能得到一个反馈,因此可以说强化学习是一种具有“延迟标记信息”的监督学习典型案例典型案例:AlphaGo深度学习的训练方法20062006年,年,Geo
22、ffrey HintonGeoffrey Hinton在在科学科学上发上发表论文提出深度学习主要观点:表论文提出深度学习主要观点: 多隐层的人工神经网络具有优异的特征多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类本质的刻画,从而有利于可视化或分类 深度神经网络在训练上的难度,可以通深度神经网络在训练上的难度,可以通过过“逐层初始化逐层初始化”(layer-wise pre-layer-wise pre-trainingtraining)来有效克服,逐层初始化可)来有效克服,逐层初始化可通过无监督学习实现的
23、通过无监督学习实现的 在著名的在著名的ImageNetImageNet问题上将错误率从问题上将错误率从2626降低到了降低到了1515,并且输入没有用到其,并且输入没有用到其他任何人工特征,仅仅是图像的像素他任何人工特征,仅仅是图像的像素迁移学习将从拥有大数据的源领域上学习到的东西应用到仅有小数据的目标领域上去,实现个性化迁移,即举一反三、触类旁通。典型案例典型案例:斯坦福学者使用卫星图像获取的灯光信息来分析非洲大陆的贫穷情况深度学习的神经网络训练方法LeNet-5:卷积神经网络手写数字识别的应用卷积过程包括:用一个可训练的滤波器fx去卷积一个输入的图像,然后加一个偏置bx,得到卷积层Cx。子
24、采样过程包括:每邻域四个像素求和变为一个像素,加权再增加偏置,通过一个激活函数,产生一个缩小四倍的特征映射图C1C1层:层:输入图片大小:输入图片大小:3232* *3232卷积窗大小:卷积窗大小:5 5* *5 5卷积窗种类:卷积窗种类:6 6输出特征图数量:输出特征图数量:6 6输出特征图大小:输出特征图大小:2828* *2828(32-5+1)(32-5+1)神经元数量:神经元数量:4707 (284707 (28* *28)28)* *6)6)连接数:连接数:12304 (512304 (5* *5+1)5+1)* *66* *(28(28* *28)28)可训练参数:可训练参数:1
25、56 (5156 (5* *5+1)5+1)* *66局部感受 - - 卷积FeatureMap池化原理:根据图像局部相关的原理,图像某个邻域内只需要一个像素点就能表达整个区域的信息常见的方法:最大值池化(max-pooling)L2池化(L2 pooling)均值池化(Mean Pooling)LeNet-5LeNet-5 Yann Lecun,1989年用美国邮政系统提供的近万个手写数字的样本来训练神经网络系统,在独立的测试样本中,错误率只有5% 进一步运用CNN,开发出LeNet-5用于读取银行支票上的手写数字,这个支票识别系统在九十年代末占据了美国接近20%的市场深度学习的训练方法 H
26、inton in ImageNet 比赛 140万图像, 1000类 图库 1000万图像 20000类 7层CNN 准确率74%-85%深度学习的成功应用 AlphaGo战胜李世乭 图像识别全面超越人类 语音识别接近人类 将声学模型中混合高斯模型替换为DNN模型 获得30%+ 相对提升 Tesla Autopilot投入商用 Google Translate投入商用 它把原文例如中文词先翻成一个词向量,变成一个数字向量。 它对这个词向量再编辑,变成一个语义表示的方式。 再把它翻译成它的目标语言,例如英文。人工智能的新革命第一节 人工智能技术简述 深度学习算法 知识图谱知识图谱(Knowled
27、ge Graph)(Knowledge Graph) 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,一般用三元组表示 知识图谱亦可被看作是一张巨大的图,节点表示实体或概念,边则由属性或关系构成中国国家美国日本英国北京9,634,057平方公里13.5404亿2069.3万北纬3856东经116203.1525亿华盛顿9,629,091平方公里 北纬3853西经7702178平方公里16410平方公里1.26亿377835平方公里东京2188平方公里东经14050北纬3544面积人口首都纬度经度面积人口知识图谱构建WebWeb字典字典, , 术语表术语表, , 百科百科, ,书本书本知
28、知识识获获取取+已有知识库已有知识库知知识识融融合合知知识识验验证证知识图谱知识图谱名称规模Yago1千万实体,35万类别,1.8亿事实,100种属性,100语言Dbpedia4千万实体,250类别,5亿事实,6000种属性,Freebase2千5百万实体,2000主题,1亿事实,4000种属性谷歌知识图谱5亿实体名字,35亿条事实NELL3百万实体名字,300类别500属性,100万事实1千5百万学习规则基于人工规则的语义理解神话是孙楠和谁合唱的?文法解析知识库查询SPARQL查询语句生成答案生成孙楠和韩红合唱了神话韩红歌手 6万歌曲 260万专辑 44万标签 2000类param:sing
29、er孙楠#param:song神话#predicate:chorusWith神话是孙楠和谁合唱的查询神话这首歌曲的演唱者,演唱者要包括孙楠,输出还包括的另外一个演唱者文法规则模板歌手 6万歌曲 260万专辑 44万标签 2000类互联网各种音乐相关信息下载融合知识图谱的成功应用:现代搜索引擎半结构化信息半结构化信息抽取抽取半结构化数据半结构化数据结构化数据结构化数据文本数据文本数据实体对齐实体对齐推理补充数据推理补充数据异构数据整异构数据整合合重要度计算重要度计算实体抽取属性实体抽取属性抽取抽取属性值决策属性值决策关系建立关系建立知立方数据知立方数据本体本体生成系统生成系统索引生成索引生成检索
30、系统检索系统实体识别实体识别本体库本体库PatternPattern挖掘挖掘标签消岐标签消岐SPARQLSPARQL查询语句查询语句排序排序推理推理推荐推荐统计统计QueryQuery展现展现检索系统检索系统索引生成索引生成面向知识图谱的SogouSogou搜索技术Gene OntologyLOD企业对知识图谱根据内部数据有大量的业务需求从两方面来建设知识图谱体系: 知识实体,算法企业知识图谱的建立语义理解智能检索与问答数据关联探索业务动态扩展非结构化数据计算机难以理解数据使用专业程度过高多元异构数据难以融合数据模式动态变迁困难结构化数据 数据融合自由扩展数据模式行业智能问答业务需求技术方案数
31、据挑战知识图谱助力企业商业智能通用知识图谱 + + 行业知识图谱l 通用知识图谱的广度,行业知识图谱的深度,相互补充,形成更加完善的知识图谱l 通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中通通用用知知识识图图谱谱行行业业知知识识图图谱谱通用知通用知识图谱识图谱创投创投专利专利深度学习与智能围棋第二节 从AlphaGo Lee/Master讲起 蒙特卡洛树式搜索 AlphaGo的实现原理 AlphaGo Zero01人机大战:深度学习算法的标志性成果最复杂(注:状态复杂度与博弈复杂度)的智力游戏:看似简单,实为复杂,具有10的170次方状态复
32、杂空间涉及逻辑推理,形象思维,涉及逻辑推理,形象思维,优化选择等多种人类智能优化选择等多种人类智能(注:国际象棋只有逻辑推(注:国际象棋只有逻辑推理,没有形象思维)理,没有形象思维)02接近人类公认是人工智能领域长期公认是人工智能领域长期以来的重大挑战以来的重大挑战03标志性国际学术界曾经普遍认为解国际学术界曾经普遍认为解决围棋问题需要决围棋问题需要15-2015-20年时间年时间04挑战为什么做围棋AIAI? 创新性投入力度业内龙头 目前技术优势:起步早,算法新,技术强,资源雄厚 最近一年专注于强化学习研究 拟于近期公布新论文和数据,并从此退出围棋AI领域Google Google Deep
33、mindDeepmind 简介深度学习与智能围棋第二节 从AlphaGo Lee/Master讲起 蒙特卡洛树式搜索 AlphaGo的实现原理 AlphaGo Zero传统围棋AIAI算法 MCTS MCTS (蒙特卡洛树搜索) 双人 一人一步 双方信息完备(棋类完全信息,牌类不完全信息) 零和动态博弈问题计算机下棋 棋类要素的数字化恰当的数据结构 棋盘、棋子、棋规(着法规则,胜负规则) 用着法推演局面博弈树展开 从有利局面选择当前着法博弈搜索 局面评估指标定义与综合展开深度为4 4的博弈树 本方本方本方本方本方本方对方对方对方对方Ply 1Ply 3Ply 4Ply 2Ply 0根节点为当前
34、局面根节点为当前局面叶节点为展开终点叶节点为展开终点双方轮流出手双方轮流出手偶数层为本方偶数层为本方奇数层为对方奇数层为对方围棋落子蒙特卡洛数学模型及评估 围棋对弈过程可以看做一个马尔科夫过程: 五元组:T,S,A(i),P(|i,a),r(i,a) T:决策时刻 S:状态空间,S=i A(i):可行动集合(可落子点) P(|i,a):状态i下选择行动a的概率 r(i,a):状态i下选择行动a后课获得的收益 从当前局面的所有可落子点中随机(或者给胜率高的点分配更多的计算力)选择一个点落子 重复以上过程 直到胜负可判断为止 经多次模拟后(计算越多越精确),选择胜率最大的点落子传统围棋AIAI算法
35、 数学模型 MCTSMCTS (蒙特卡洛树搜索)基本思想与特点:- 将可能出现的状态转移过程用状态树表示- 从初始状态开始重复抽样,逐步扩展树中的节点- 某个状态再次被访问时,可以利用已有的结果,提高了效率- 在抽样过程中可以随时得到行为的评价选择选择 - - 从根节点出发自上而下地选择一个落子点从根节点出发自上而下地选择一个落子点扩展扩展 - - 向选定的点添加一个或多个子节点向选定的点添加一个或多个子节点模拟模拟 - - 对扩展出的节点用蒙特卡洛方法进行模拟对扩展出的节点用蒙特卡洛方法进行模拟回溯回溯 - - 根据模拟结果依次向上更新祖先节点估计值根据模拟结果依次向上更新祖先节点估计值深度
36、学习与智能围棋第二节 从AlphaGo Lee/Master讲起 蒙特卡洛树式搜索 AlphaGo的实现原理 AlphaGo Zero1313个卷积层,每层个卷积层,每层192192个卷积核,个卷积核,每个卷积核每个卷积核3 3* *3 3,参数个数,参数个数800800万万+ +GPU 3ms/GPU 3ms/步步预测准确率预测准确率 57%57%Policy Policy NetworkNetwork(策略网络)(策略网络)在每个分支节点直接判断形势在每个分支节点直接判断形势与与RolloutRollout随机模拟相结合,互为补充随机模拟相结合,互为补充Value NetworkValue
37、 Network(价值网络)(价值网络)给胜率高的点分配更多的计算力给胜率高的点分配更多的计算力任意时间算法,计算越多越精确任意时间算法,计算越多越精确1 1、选取、选取 2 2、展开、展开 3 3、评估、评估 4 4、倒传、倒传MCTSMCTS(蒙特卡洛树搜索)(蒙特卡洛树搜索)通过随机模拟走子胜率来判定形势通过随机模拟走子胜率来判定形势速度很快(速度很快(1ms/1ms/盘)盘)随机性与合理性的平衡随机性与合理性的平衡RolloutRollout(随机模拟走子)(随机模拟走子)AlphaGoAlphaGo的实现原理控制宽度(250)控制深度(150)基本算法快速模拟围棋是完全信息博弈,从理
38、论上来说围棋是完全信息博弈,从理论上来说可以通过暴力搜索所有可能的对弈过可以通过暴力搜索所有可能的对弈过程来确定最优的走法程来确定最优的走法Policy NetworkPolicy Network策略网络:落子棋感 深度神经网络的有监督学习,目标是获得在围棋盘面下的落子棋感 学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式) 把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数 用Policy Network作为第一感,将计算力分配到最有希望的选点 分枝数从上百个减少到几个 优先计算PolicyNetwork分数高的点,计
39、算力充沛时,适当分配到其他分值较低的点PolicyNetworkPolicyNetwork输入特征32242485521282721921321921321281322048 20482048 2048192321923212832485231121923219232192132192132128132128272485248552128321000局部感知域权重共享特征训练卷积层+池化层 模型结构模型结构 1313个卷积层,每层个卷积层,每层192192个个3 3* *3 3卷积核卷积核 数百万个参数数百万个参数 训练数据训练数据 KGS 6dKGS 6d以上对局,以上对局,1717万,职业
40、对局万,职业对局8 8万。万。 训练数据量训练数据量50005000万万+ + 训练时间几十天训练时间几十天 运算速度运算速度 GPUGPU,3ms3ms 预测准确率预测准确率 57%57%左右互博,自我进化 Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。 根据游戏结果迭代更新转移概率和评估函数 神经网络结构与策略网络相同 训练方法:自我对局 目标:校正价值导向 将策略网络权值作为初始值,自我对弈更新权值,从而提升棋力 Pros: 棋艺更高(win 80% of the games with SL polic
41、y network) Cons: 走法集中,不适应MCTS多搜索范围的需求强化学习(RL)Fast-Rollout Fast-Rollout 快速走子 RolloutRollout(随机模拟走子)(随机模拟走子) 通过随机模拟走子胜率来判定形势通过随机模拟走子胜率来判定形势 速度快速度快 随机性,合理性的平衡随机性,合理性的平衡 原因:原因:1. 1. 策略网络的运行速度较慢策略网络的运行速度较慢 (3ms)(3ms) 快速走子在快速走子在2us2us 2. 2. 用来评估盘面。用来评估盘面。 在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模在同等时间下,模拟走子速
42、度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。提升棋力拟几次算平均值,效果未必不好。提升棋力 结构:局部特征匹配结构:局部特征匹配 + + 线性回归线性回归 特征:围棋专业知识特征:围棋专业知识Value NetworkValue Network:胜负棋感 深度神经网络的增强型学习(DeepMind独创) 通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局) 获取在围棋盘面的胜负棋感(注:对每一个落子点给一个当时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的)形势判断:形势判断:-1
43、:白棋必胜:白棋必胜0:黑棋优势:黑棋优势1:黑棋必胜:黑棋必胜Value Network Value Network 模型 模型结构模型结构 13个卷积层,每层个卷积层,每层192个卷积核,每个卷积核个卷积核,每个卷积核3*3 数百万个参数数百万个参数 训练数据训练数据 Policy Network自我对弈棋谱。自我对弈棋谱。3000万万+ 特定盘面特定盘面+胜负结果胜负结果 训练时间几十天训练时间几十天 运算速度运算速度 GPU,3ms 方法:方法: 在每个分支节点,使用在每个分支节点,使用Value Network直接判断形势直接判断形势 与与Rollout随机模拟相结合,互为补充随机模
44、拟相结合,互为补充 效果:效果: 职业水平,职业水平,AlphaGoMCTS在对局中实时搜索Step 1:基于策略网络落子,可能性大的落子拓展节点Step 2:对未来走势进行评估,同时使用估值网络和快速走子,综合两者预测未来走法Step 3:评估结果作为下一步走法的Q值。重新模拟。Step 4:结合下一步走法的Q值和策略网络进行再一次模拟。如果出现同样走法,Q值起平均。新分数= 调整后的初始分+ 0.5 * 通过模拟(策略网络+快速走棋)得到的赢棋概率 + 0.5 * 估值网络的局面评估分Step 5:反复循环直到n次,或者timeout,选择被选择次数最多的走法作为下一步Put-Togeth
45、erPut-Together深度学习与智能围棋第二节 从AlphaGo Lee/Master讲起 蒙特卡洛树式搜索 AlphaGo的实现原理 AlphaGo ZeroAlphaGoAlphaGo Zero Zero第第3 3天,下了天,下了490490万局棋,打败老大万局棋,打败老大老老三三战战绩绩老老三三学学棋棋过过程程刚开始,随刚开始,随机下子机下子热衷于吃子,热衷于吃子,完全不顾死活完全不顾死活发现了如果先占发现了如果先占住棋盘的边和角,住棋盘的边和角,后面占便宜后面占便宜学会了如何学会了如何打劫、打劫、征子征子懂得看懂得看棋形棋形第第2121天,败了老二天,败了老二第第4040天,完整
46、走过了一个人类棋手学棋的全过程天,完整走过了一个人类棋手学棋的全过程棋盘棋盘/黑子黑子/白子白子棋子被围起来就死棋子被围起来就死规则规则棋士柯洁棋士柯洁 1010月月1919日日 02:2202:22 一 个 纯 净 、 纯 粹 自 我 学 习 的一 个 纯 净 、 纯 粹 自 我 学 习 的AlphaGoAlphaGo是最强的是最强的.对于对于AlphaGoAlphaGo的的自我进步来讲自我进步来讲.人类太多余了人类太多余了 老大AlphaGo Lee,2016年3月 4:1 打败韩国棋手李世石 老二AlphaGo Master,2017年5月 3:0 打败中国棋手柯洁 老三AlphaGo
47、Zero,2017年10月宣布 自学围棋40天,打败所有人AlphaGoAlphaGo Zero Zero解析人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现)人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),阿法元不再被人类认知所局限,而能够发现新知识,发展新策略阿法元不再被人类认知所局限,而能够发现新知识,发展新策略 区别1:特征提取层采用40个残差模块,每个模块包含2个卷积层。运用残差模块提升了网络深度,更深的网络能更有效地直接从棋盘上提取特征 区别2:同时训练走子策略(policy)网络 和胜率值(value)网络启示启示 深度学习训练
48、过程需要消耗大量人类标注样本,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以减少样本和人类标注的方法非常重要 开局和收官和专业棋手的下法并无区别,但是中盘难于理解;机器经验与人类经验有很大差别,我们又该如何去选择和利用呢?智能围棋与蒙特卡洛树搜索 没有棋感直觉不行,完全依赖棋感直觉也不行 直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证 AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负感进行计算验证。蒙特卡洛树搜索:搜索验证 基于数学期望的胜负评估模型(胜率) 基于蒙特卡洛模拟进行胜负结果采样(模拟采样比直觉更可靠) 根据模拟采样结果验证盘面胜负的数学期望 可靠程度与
49、采样规模相关(采样越大,离真理会更近些)蒙特卡洛模拟采样:胜负棋感验证智能围棋与神经网络 谷歌的谷歌的AlphaGoAlphaGo是深度学习算法的标志性成果;是深度学习算法的标志性成果; 深度卷积神经网络深度卷积神经网络 (Deep Convolutional Neural (Deep Convolutional Neural Network,DCNNNetwork,DCNN),),是近年发展起是近年发展起来,并引起广泛重视的一种高效识别方法。来,并引起广泛重视的一种高效识别方法。 围棋算法具有高度的复杂性和代表性(围棋算法具有高度的复杂性和代表性(1010808808,两个,两个3030年)
50、。由于天文数字的状态空年)。由于天文数字的状态空间和搜索空间,蛮力计算无法解决围棋问题(注:解决国际象棋的间和搜索空间,蛮力计算无法解决围棋问题(注:解决国际象棋的IBMIBM深蓝是用蛮深蓝是用蛮力方法,就是靠计算,这种方法在围棋这么大的计算与搜索空间是无法进行的)力方法,就是靠计算,这种方法在围棋这么大的计算与搜索空间是无法进行的) 从围棋算法可以推广到深度学习应用的一般情形。从围棋算法可以推广到深度学习应用的一般情形。 围棋职业棋手的解决方法:棋感直觉围棋职业棋手的解决方法:棋感直觉+ +搜索验证搜索验证 AlphaGoAlphaGo的核心方法完全类似于完全职业棋手的解决方法的核心方法完全