从神经网络到深度学习-AI视野课件.ppt_163文库

资源描述

1、从神经网络到深度学习大数据催生的新智慧物种自然语言处理怎样用神经网络处理离散（符号）数据？嵌入（Embedding）2怎样学习词嵌入？ Neural Language Model & word2vec3word2vec词嵌入的性质向量空间中的距离 = 词义相似性4word2vec词嵌入的性质捕获语言的某些规律5嵌入空间可视化6从单词到句子CNN 7序列学习问题序列识别和生成语音、时间序列、文本. 注意控制按顺序决定下一时刻注意什么运动控制、玩游戏。共同模式历史状态（可变长度）- 内部状态表示（短时记忆） - 下一步动作传统序列学习模型“无记忆”Autoregressive

2、 modelsFeed-forward NN“简单记忆”Linear dynamical systems (LDS)Hidden Markov Models (HMM)FNN - RNNForward propagationRNN for 语言模型/序列生成常用的训练目标：预测下一时刻的输入训练RNN：Backpropagation through time (BPTT) 优化目标最大对数似然（在整个序列上累加） TttkyL1logA toy problem for RNN：二进制加法问题 train a neural net to do binary addition by givi

3、ng it many 01 string as examples 方案1：FNN 需要预先确定最大位数对不同的位使用不同的权重泛化能力差二进制加法的算法方案2：RNN网络结构 2 ins, 3 hiddens, 1 out h(t) = f(Wihx(t) + Whhh(t-1)(前一时刻的隐状态，当前时刻的输入) - 下一时刻的隐状态2个时间步的延迟输入-隐单元隐单元-输出网络学到了什么？自动学习出3个隐单元的4种不同的激活模式，用以完成加法运算模拟有限状态自动机，但能力更强 N个隐单元，2N种激活模式，N2个参数(权重) 对比HMMRNN训练的难题：梯度爆炸与消失if for

4、all m: gradient explodeif for all m: gradient vanish在包含长时关联(dt 10)的序列上很难有效训练RNNLong Short-Term Memory (LSTM) Two types of memory in RNN Short-term memory: encoded in activity patterns of hidden units Long-term memory: encoded in weights不同类型的记忆LSTM cell Input gate: scales input to cell (write) Output

5、 gate: scales output from cell (read) Forget gate: scales old cell value (reset) Cell Cell outputLSTM怎样保持梯度信息(works like a mini-computer with read/write units)LSTM学到了什么？例子：字符级语言模型RNN vs LSTM：一个核心区别隐状态更新方式：替换 - 累加更加稳健的动力学特性，减轻梯度爆炸和消失端到端的机器翻译将源句子的编码为向量表示，然后将向量解码为目标句子网络学到了什么？源语言和目标语言的词法、语法、短语搭配、

6、语义。基于短语的统计机器翻译网络结构：A deep and big LSTM networkGoogle神经网络翻译基于注意力的神经机器翻译注意力机制的其他应用 “看图说话”：为图片自动生成文本描述记忆增强的神经网络：NTM、MemNN、DNC等提纲为什么要深度学习？背景和动机怎样深度学习？基本学习算法有什么应用？典型网络结构和应用举例反思和展望反思和展望32对ImageNet网络的反思大量有标签训练数据在两块GPU上训练使用多个大隐层更好的神经元（Rectified linear）用dropout正则化33对深层神经网络的重新认识数据获取问题数据获取问题没有足够多的有标

7、签数据梯度弥散问题梯度弥散问题没有足够快的计算机局部极值问题局部极值问题没有合适的参数初始化方法 1986年以来有标签数据变得更多计算机变得更快找到了更好的参数初始化方法 34对深层神经网络的重新认识数据获取问题数据获取问题没有足够多的有标签数据梯度弥散问题梯度弥散问题没有足够快的计算机局部极值问题局部极值问题没有合适的参数初始化方法 1986年以来有标签数据变得更多大数据：燃料大数据：燃料计算机变得更快 GPU：催化剂：催化剂找到了更好的参数初始化方法算法：导火索算法：导火索深层神经网络的复兴35 深度学习为什么这么火？一个生态学视角不挑食图像识别、

8、语言识别、NLP、生物医药。大脑用同一套算法解决视觉、听觉、嗅觉等感知问题胃口大喂的数据足够大就会变得非常聪明，只会吃不饱，不会消化不良动物通过大量经验而不是精巧的数学公式学习36 深度学习为什么这么火？一个生态学视角不挑食图像识别、语言识别、NLP、生物医药。大脑用同一套算法解决视觉、听觉、嗅觉等感知问题胃口大喂的数据足够大就会变得非常聪明，只会吃不饱，不会消化不良动物通过大量经验而不是精巧的数学公式学习有了充足的食物供应（大数据），并进化出了极强劲的消有了充足的食物供应（大数据），并进化出了极强劲的消化系统（化系统（GPU、云计算），、云计算），deep learni

9、ng怪兽终于崛起，怪兽终于崛起，并逐渐淘汰其他物种（浅层学习算法），称霸地球并逐渐淘汰其他物种（浅层学习算法），称霸地球原始数据原始数据对数据的对数据的理解（表示）理解（表示）和判断（分类）和判断（分类） 37深度模型成功仅仅是因为“深”吗？大而深的网络具有强大的拟合能力记忆换计算过拟合？（智能度 = 拟合能力 / 参数个数）将世界的普适规律“硬编码硬编码”到网络结构中CNN：空间平移对称性和层次结构（标度对称性）RNN：时间平移对称性和层次结构（标度对称性）Attention & Memory：(生物世界和信息世界中)信息处理资源受限时的时间换空间策略，序列化产生复杂性（例如生命）的普适规律

10、：？物理学：非平衡态统计物理、耗散结构计算理论：自指、自复制、代码/数据混淆深度神经网络与“元编程” “可微函数式编程” = 函数式编程确定骨架 + 神经网络学习内容例子：编码器-解码器架构智能进化的旅程从脑到神经网络到计算机感知问题：基本解决 Pretty much anything that a normal person can do in 1 sec, we can now automate with AI. AndrewYNg 认知问题：尚未解决真正理解语言、自我意识、learning to learn等低级感知高级认知感知皮层-运动皮层-工作记忆-长时记忆-前额叶-聪明的你函数 - 类程序-程序+寄存器-程序+内存-解释器-OSCNN - RNN - LSTM - Attention - ? - ?谢谢每当我审视自己的思维过程，并发现和AI的思维过程越来越像时，都为自己的进步感到欣喜。聪明的AI和聪明的人类是相似的，愚蠢的AI和愚蠢的人类各有各的愚蠢。

展开阅读全文