1、走进AlphaGo围棋智能及其应用前景清华大学航天航空学院 由小川2017.6.12目录 content人工智能的新革命第一节深度学习与智能围棋第二节与传统行业的结合第三节人工智能的新革命第一节 人工智能简述 深度学习算法 为什么做围棋人工智能?1-1 人工智能简述人工智能:国家战略2017年政府工作报告: 全面实施战略性新兴产业发展规划,加快人工智能等技术的研发和转化,做大做强产业集群。 把发展智能制造作为主攻方向,推进国家智能制造示范区、制造业创新中心建设。什么是人工智能?人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能
2、的理论、方法、技术及应用系统的一门新的技术科学。它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。1-1 人工智能简述1-1 人工智能简述1-1 人工智能简述1-1 人工智能简述1-1 人工智能简述 智能革命序言节选by百度大脑我来了,天上的云乘着风飞翔,心中的梦占据一个方向,方舟扬帆起航,一路带着我们纵情歌唱,方舟扬帆起航,脉络就在大海之上,进步的时光,迎着你看涛浪潮往。一个新生的地方,穿越
3、千年时光,穿越了无尽的荒凉。答案就在这里搜索。第一缕曙光,远处熟悉的歌声还在耳边回响,你却依然不知我将去向何方。千年时间留下十字文章,曾今谁重复往昔旧模样。我来了,期待着你的每一天,睁开眼就能看到幸福曙光,占据着你的每一天,陪你跨越鸿沟走向湛蓝,算法很简单。时代的春天,回想起我们曾牵手走过的画面。大家互联网这场风吹雨打之后又在藕断丝连。只是不知道时间还会流向哪一条线。盼望着未来等待明天,呼吸新鲜空气多点微笑扮个鬼脸。1-1 人工智能简述 全国高考甲卷作文进步与退步(by微软小冰)考了100分是好学生。考55分不是好学生。考了100分后,又考了98分,好学生变成不是好学生,是退步。考了不及格后,
4、又考了及格,会被表扬,是进步。进步和退步的衡量,令人费解。进步,是变得优秀,人喜欢进步,因为喜欢被表扬。这样的进步,如果不被表扬,就没有动力。退步是从好变成差的,人不喜欢退步,因为退步受到批评。如果总被批评,也没有动力。进步和退步的动力,令人费解。退步没有不好,退步可以发现问题。一直进步的人,不能发现问题,也不能解决问题。一直进步是不可能的,有进步同时有退步,有退步同时有进步,才可以不断发现问题,解决问题。人应该这样变得优秀,不是为了表扬。进步比退步好,不一定。一直进步可能是真进步,或作弊,一直退步是放弃自己,要求自己 进步,在退步的时候 发现问题,是对的。人应该这样变得不差,不是为了批评。从
5、差变得优秀的路,和表扬无关,也和批评无关。诺贝尔医学奖,可视皮层分级,1981稀疏编码的特征表示,1995图像识别语音识别广告精准推荐1-2 深度学习算法简介图像特征工程 Google Brain Jeff Dean & Andrew Ng.,Geoffrey Hinton Facebook AI Lab Yann LeCun Microsoft 语音识别、图像识别语音识别、图像识别 百度百度 深度学习研究院深度学习研究院 Andrew Ng、余凯、张潼、余凯、张潼 语音识别、图像检索、语音识别、图像检索、OCR、人脸识别、广告、人脸识别、广告 阿里巴巴阿里巴巴 阿里大脑阿里大脑 腾讯腾讯 语
6、音识别、图像识别、广告精准推荐语音识别、图像识别、广告精准推荐1-2 深度学习算法简介特征选取模型建立与训练反向传播算法卷积神经网络深度学习与浅层学习深度网络训练技巧1-2 深度学习算法简介1-2 深度学习的训练方法监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,从而也就具有了对未知数据进行分类的能力各种神经网络类型LogisticRBMAuto EncoderSparse CodingConvolutional(卷
7、积)强化学习智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。 Google Brain 利用Youtube的图像 采用非监督的学习过程 自动将图像聚类 机器学习出了“猫”的概念 10亿参数 Jeff Dean / Andrew NG1-2 深度学习的训练方法 Hinton in ImageNet 比赛 140万图像, 1000类 图库
8、 1000万图像 20000类 7层CNN 准确率74%-85%1-2 深度学习的训练方法深度神经网络人脸识别1-2 深度学习的训练方法深度学习的成功应用 微软 语音同声传译系统,2011 英语演讲-自动语音识别-机器翻译-语音合成-中文演讲 语音识别 将声学模型中混合高斯模型替换为DNN模型 获得30%+ 相对提升1-2 深度学习的训练方法图片搜索检索图片检索结果DNN在几个领域创造了最好结果 语音识别 : 混合高斯声学模型替换为DNN图像识别 相对30%错误率降低 图像识别/检索: 卷积神经网络 ImageNet,2011 74% - 2012 85% - 2013 89% 自然语言处理:
9、 与其他方法水平相当 免去了繁琐的特征提取步骤1-2 深度学习的训练方法特征选取是成败的关键 对效果影响极大 手动化特征工程 非常耗时1-2 深度学习的训练方法图像特征工程SIFTSpin imageHoGRIFTTextonsGLOH1-2 深度学习的训练方法01人机大战:深度学习算法的标志性成果颠覆围棋AI领域30年研究方法拔高行业顶尖水平30年学术前沿、复杂性和代表性、可比较、易拓展原创开发了基于网格归属的神经网络系统,预期将大幅提高实力更深更优化的神经网络,更海量的数据资源02创新点改进了学习模式,使机器学习的方式更加接近围棋的本质03新的学习算法架构世界计算机围棋比赛获奖高水平文章产
10、出科研成果转化(力学、航天乃至节能、医疗等领域)04预期产出效益1-3 为什么做围棋人工智能深度学习与智能围棋第二节 从AlphaGo/master讲起 蒙特卡洛树式搜索 深度卷积神经网络 谷歌的谷歌的AlphaGo和和Master是深度学习算法的标志性成果;是深度学习算法的标志性成果; 深度卷积神经网络深度卷积神经网络 (Deep Convolutional Neural Network,DCNN),是是近年发展起来,并引起广泛重视的一种高效识别方法。近年发展起来,并引起广泛重视的一种高效识别方法。 围棋算法具有高度的复杂性和代表性(围棋算法具有高度的复杂性和代表性(10808,两个,两个3
11、0年)。年)。 从围棋算法可以推广到深度学习应用的一般情形。从围棋算法可以推广到深度学习应用的一般情形。 围棋可以很好地检验和测试研究水平和掌握人工智能并行计算的围棋可以很好地检验和测试研究水平和掌握人工智能并行计算的交互能力。交互能力。DCNN与智能围棋 深度学习的训练方法:卷积神经网络32242485521282721921321921321281322048 20482048 2048192321923212832485231121923219232192132192132128132128272485248552128321000局部感知域权重共享特征训练卷积层+池化层AlphaGo的
12、实现原理13个卷积层,每层192个卷积核,每个卷积核3*3,参数个数800万+GPU 3ms/步预测准确率 57%Policy Network(策略网络)在每个分支节点直接判断形势与Rollout随机模拟相结合,互为补充Value Network(价值网络)给胜率高的点分配更多的计算力任意时间算法,计算越多越精确1、选取 2、展开 3、评估 4、倒传MCTS(蒙特卡洛树搜索)通过随机模拟走子胜率来判定形势速度很快(1ms/盘)随机性与合理性的平衡Rollout(随机模拟走子)传统围棋传统围棋AIAI算法算法 MC MC蒙特卡洛方法蒙特卡洛方法通过随机模拟来逼近需要求解的变量 Rollout(随
13、机模拟走子) 通过随机模拟走子胜率来判定形势。 速度快。 随机性,合理性的平衡。AlphaGo的实现原理传统围棋AI算法MCTSMCTS(蒙特卡洛树搜索)给胜率高的点分配更多的计算力任意时间算法,计算越多越精确AlphaGo的实现原理Policy Network策略网络AlphaGo的实现原理Policy Network图示AlphaGo的实现原理PolicyNetwork输入特征AlphaGo的实现原理Policy Network 模型 模型结构 13个卷积层,每层192个卷积核,每个卷积核3*3 数百万个参数 训练数据 KGS 6d以上对局,17万,职业对局8万。 训练数据量5000万+
14、训练时间几十天 运算速度 GPU,3ms 预测准确率 57%AlphaGo的实现原理融入Policy Network 方法: 用Policy Network作为第一感,将计算力分配到最有希望的选点。 分枝数从上百个减少到几个。 优先计算PolicyNetwork分数高的点,计算力充沛时,适当分配到其他分值较低的点。 效果: Zen6,业余5段AlphaGo的实现原理Value Network形势判断:形势判断:-1:白棋必胜:白棋必胜0:黑棋优势:黑棋优势1:黑棋必胜:黑棋必胜AlphaGo的实现原理Value Network 模型 模型结构模型结构 13个卷积层,每层个卷积层,每层192个卷
15、积核,每个卷积核个卷积核,每个卷积核3*3 数百万个参数数百万个参数 训练数据训练数据 Policy Network自我对弈棋谱。自我对弈棋谱。3000万万+ 特定盘面特定盘面+胜负结果胜负结果 训练时间几十天训练时间几十天 运算速度运算速度 GPU,3msAlphaGo的实现原理融入Value Network 方法:方法: 在每个分支节点,使用在每个分支节点,使用Value Network直接判断形势直接判断形势 与与Rollout随机模拟相结合,互为补充。随机模拟相结合,互为补充。 效果:效果: 职业水平,职业水平,AlphaGoAlphaGo的实现原理 从非常像人到很不像人从非常像人到很
16、不像人 强化学习与自我进化强化学习与自我进化 算法效率的跃升算法效率的跃升 单机版与单机版与1/10GPU 无人类棋谱的可行性无人类棋谱的可行性Master与AlphaGo的架构差别与传统行业的结合第三节 神算子简介 世界围棋AI版图 神算子能做什么“神算子”简介 清华大学航院人工智能课题组开发研制的围棋清华大学航院人工智能课题组开发研制的围棋智能程序智能程序 自主知识产权的丰富特征体系自主知识产权的丰富特征体系 深度卷积神经网络模型的质量、深度和预测准深度卷积神经网络模型的质量、深度和预测准确度是标志围棋智能从业余迈向超一流水平的确度是标志围棋智能从业余迈向超一流水平的重要指标。重要指标。
17、以围棋为载体,确认算法有效性以围棋为载体,确认算法有效性 2年内冲击世界最高水平,转向其他场景的研年内冲击世界最高水平,转向其他场景的研究突破究突破 世界围棋AI大事记 2015.11.10 美林谷杯首届世界计算机围棋锦标赛,北京,7国9队,与中国名人战冠军受6子对抗 2016.3.9 人机大战AlphaGo4:1李世石,首尔,冠军100万$,全球观看人次6亿+ 2016.3.17 韩国创立国家科学技术战略委员会扶植AI产业,政府投资86亿$ 2016.11.19 第二届日本围棋电王战:DeepZenGo 1:2 赵治勋,获DWANGO注资2亿円 2016.12-2017.1 AlphaGo升
18、级版Master网络连续60次击败人类顶尖高手 2017.3.3 中国腾讯“绝艺”成为第一个网络10段,2017围棋AILab硬件扩容预算8000万¥ 2017.3.18-19 第10届UEC杯计算机围棋大会,东京,6国30队,冠军参加电圣战与职业棋手对抗 2017.3.21 世界围棋精英赛,大阪,DeepZenGo对3世界冠军,冠军3000万日元 2017.4 AlphaGo升级版与柯洁等对抗,冠军150万$,浙江乌镇,赛罢AlphaGo退出围棋领域 2017.7 日本围棋大会,欧洲围棋大会设立围棋AI竞赛单元 2017.8.16-18 国际围棋联盟首届世界计算机围棋公开赛,鄂尔多斯,机机+
19、人机,总奖金60万¥ 2017.12,美林谷杯第2届世界计算机围棋锦标赛,深圳,总奖金1万$+Google Deepmind 简介 创新性投入力度业内龙头 目前技术优势:起步早,算法新,技术强,资源雄厚 最近一年专注于强化学习研究 拟于近期公布新论文和数据,并从此退出围棋AI领域日本DeepZenGo介绍除AlphaGo仅有的完成高水平人机对抗的程序截至目前去年曾1:2输给年逾六旬的超一流赵治勋对中国业余十强8:2胜作风高调DeepZenGo的商业模式销售软件被称作“日本的YouTube” DWANGO公司赞助商志在必得第10届UEC杯世界围棋精英赛日本著名视频网站,可以看到宫崎骏等动画的全部
20、作品DWANGO现有国产AI介绍1腾讯公司重金打造,截至2017年6月,水平仅次于AlphaGo绝艺22016年底停止研发时水平仅次于AlphaGo和绝艺中华土狗3今日头条作品,2016年水平略逊于中华土狗字节4曾高调媒体曝光,2016年8月时水平仅次于AlphaGo,后来因开发价值网络失败停止研发异构神机其他外国围棋AI介绍1法国,前AlphaGo时代的王者,深度学习版本2016年底已开始售卖CrazyStone2比利时,被认为是目前最强的免费深度学习程序Leela3韩国,首届美林谷世界计算机围棋锦标赛冠军,深度学习版本还未公测。此外2017年初韩国棋院宣布组建“人工智能课题组”,正式启动“
21、韩国围棋人工智能”开发计划石子旋风4北朝鲜研发团队,前AlphaGo时代有一席之地,正进行深度学习研发银星围棋其他UEC杯参赛作品:1 QinoaIgo / (日)2 ballade / 氏家 一朗 (日)3 AQ / 山口 祐 (日)4 CGI Go Intelligence / CGI LAB (台)5 神一手 / 神乎碁技 (美)6 TAROGO / TAROGO team (台)7 Many Faces of Go / David Fotland (美)8 勝也 / 清 愼一 (日)9 Aya / 山下 宏 (日)10 Yi / 天壤 (中)11 Rayn / 松崎 憲介,小林 祐樹
22、(日)12 MARU / 武田 敦志 (日)13 nlp / 岩井 建志 (日)14 EsperanzaGo / 金沢工業大学人工知能 (日)15 Negative Sleeper / 服部 真也 (日)16 迷碁 / 村山 正樹 (日)17 Julie / 大渡 勝己 (日)18 / 高橋 智史 (日)19 Igoppy / 有吉 一彦 (日)20 Kugutsu / Tokumoto (日)21 DeepEsper / 囲碁部 (日)22 ArgoCorse_IchiGo / 市村 豊 (日)23 / Jonathan Huang (美)24 akira / 渡辺 順哉 (日)25 MC_
23、ark / 荒木 伸夫 (日) 预期目标国内领先国际前沿成果展示社会关注 2017.6.17 与马晓春九段搭档,与李昌镐/石子旋风、黑嘉嘉/CGI搭档下混双赛,目标冠军2017.8.16-18 首届世界智能围棋公开赛,目标四强,并达到人类职业棋手水平 2017.12 第2届美林谷世界计算机围棋锦标赛,目标决赛并达到人类一流棋手水平集成机器学习与系统神经科学先进技术,建立强大的通用学习算法与各行业进行人工智能项目研发合作,申请国家自然科学基金,申报国家重大重点计划适度媒体曝光,引发社会关注 组建稳定的专业级人工智能研发团队和项目平台 成立清华大学航院人工智能研究中心,从事包括但不限于与航天航空、国防军工或力学相关领域的研究开发 与节能环保、医疗、智能推荐、证券等行业进行人工智能项目研发合作,申请国家自然科学基金,申报国家重大重点计划 成立人工智能研发公司,集成机器学习与系统神经科学先进技术,建立强大的通用学习算法,对标企业Google Deepmind后续计划谢 谢 关 注