1、从神经网络到深度学习大数据催生的新智慧物种自然语言处理 怎样用神经网络处理离散(符号)数据? 嵌入(Embedding)2怎样学习词嵌入? Neural Language Model & word2vec3word2vec词嵌入的性质 向量空间中的距离 = 词义相似性4word2vec词嵌入的性质 捕获语言的某些规律5嵌入空间可视化6从单词到句子CNN 7序列学习问题 序列识别和生成 语音、时间序列、文本. 注意控制 按顺序决定下一时刻注意什么 运动控制、玩游戏 。 共同模式 历史状态(可变长度)- 内部状态表示(短时记忆) - 下一步动作传统序列学习模型“无记忆”Autoregressive
2、 modelsFeed-forward NN“简单记忆”Linear dynamical systems (LDS)Hidden Markov Models (HMM)FNN - RNNForward propagationRNN for 语言模型/序列生成 常用的训练目标:预测下一时刻的输入训练RNN:Backpropagation through time (BPTT) 优化目标 最大对数似然(在整个序列上累加) TttkyL1logA toy problem for RNN:二进制加法 问题 train a neural net to do binary addition by givi
3、ng it many 01 string as examples 方案1:FNN 需要预先确定最大位数 对不同的位使用不同的权重 泛化能力差二进制加法的算法方案2:RNN网络结构 2 ins, 3 hiddens, 1 out h(t) = f(Wihx(t) + Whhh(t-1)(前一时刻的隐状态,当前时刻的输入) - 下一时刻的隐状态2个时间步的延迟 输入-隐单元 隐单元-输出网络学到了什么? 自动学习出3个隐单元的4种不同的激活模式,用以完成加法运算 模拟有限状态自动机,但能力更强 N个隐单元,2N种激活模式,N2个参数(权重) 对比HMMRNN训练的难题:梯度爆炸与消失if for
4、all m: gradient explodeif for all m: gradient vanish在包含长时关联(dt 10)的序列上很难有效训练RNNLong Short-Term Memory (LSTM) Two types of memory in RNN Short-term memory: encoded in activity patterns of hidden units Long-term memory: encoded in weights不同类型的记忆LSTM cell Input gate: scales input to cell (write) Output
5、 gate: scales output from cell (read) Forget gate: scales old cell value (reset) Cell Cell outputLSTM怎样保持梯度信息(works like a mini-computer with read/write units)LSTM学到了什么?例子:字符级语言模型RNN vs LSTM:一个核心区别 隐状态更新方式:替换 - 累加 更加稳健的动力学特性,减轻梯度爆炸和消失 端到端的机器翻译 将源句子的编码为向量表示,然后将向量解码为目标 句子 网络学到了什么? 源语言和目标语言的词法、语法、短语搭配、
6、语义。基于短语的统计机器翻译网络结构:A deep and big LSTM networkGoogle神经网络翻译基于注意力的神经机器翻译注意力机制的其他应用 “看图说话”:为图片自动生成文本描述记忆增强的神经网络:NTM、MemNN、DNC等提纲 为什么要深度学习?背景和动机 怎样深度学习?基本学习算法 有什么应用?典型网络结构和应用举例 反思和展望反思和展望32对ImageNet网络的反思 大量有标签训练数据 在两块GPU上训练 使用多个大隐层 更好的神经元(Rectified linear) 用dropout正则化33对深层神经网络的重新认识 数据获取问题数据获取问题 没有足够多的有标
7、签数据 梯度弥散问题梯度弥散问题 没有足够快的计算机 局部极值问题局部极值问题 没有合适的参数初始化方法 1986年以来 有标签数据变得更多 计算机变得更快 找到了更好的参数初始化方法 34对深层神经网络的重新认识 数据获取问题数据获取问题 没有足够多的有标签数据 梯度弥散问题梯度弥散问题 没有足够快的计算机 局部极值问题局部极值问题 没有合适的参数初始化方法 1986年以来 有标签数据变得更多 大数据:燃料大数据:燃料 计算机变得更快 GPU:催化剂:催化剂 找到了更好的参数初始化方法 算法:导火索算法:导火索 深层神经网络的复兴35 深度学习为什么这么火?一个生态学视角 不挑食 图像识别、
8、语言识别、NLP、生物医药。 大脑用同一套算法解决视觉、听觉、嗅觉等感知问题 胃口大 喂的数据足够大就会变得非常聪明,只会吃不饱,不会消化不良 动物通过大量经验而不是精巧的数学公式学习36 深度学习为什么这么火?一个生态学视角 不挑食 图像识别、语言识别、NLP、生物医药。 大脑用同一套算法解决视觉、听觉、嗅觉等感知问题 胃口大 喂的数据足够大就会变得非常聪明,只会吃不饱,不会消化不良 动物通过大量经验而不是精巧的数学公式学习 有了充足的食物供应(大数据),并进化出了极强劲的消有了充足的食物供应(大数据),并进化出了极强劲的消化系统(化系统(GPU、云计算),、云计算),deep learni
9、ng怪兽终于崛起,怪兽终于崛起,并逐渐淘汰其他物种(浅层学习算法),称霸地球并逐渐淘汰其他物种(浅层学习算法),称霸地球原始数据原始数据对数据的对数据的理解(表示)理解(表示)和判断(分类)和判断(分类) 37深度模型成功仅仅是因为“深”吗?大而深的网络具有强大的拟合能力记忆换计算过拟合?(智能度 = 拟合能力 / 参数个数)将世界的普适规律“硬编码硬编码”到网络结构中CNN:空间平移对称性和层次结构(标度对称性)RNN:时间平移对称性和层次结构(标度对称性)Attention & Memory:(生物世界和信息世界中)信息处理资源受限时的时间换空间策略,序列化产生复杂性(例如生命)的普适规律
10、:?物理学:非平衡态统计物理、耗散结构计算理论:自指、自复制、代码/数据混淆深度神经网络与“元编程” “可微函数式编程” = 函数式编程确定骨架 + 神经网络学习内容 例子:编码器-解码器架构智能进化的旅程从脑到神经网络到计算机 感知问题:基本解决 Pretty much anything that a normal person can do in 1 sec, we can now automate with AI. AndrewYNg 认知问题:尚未解决 真正理解语言、自我意识、learning to learn等低级感知 高级认知感知皮层-运动皮层-工作记忆-长时记忆-前额叶-聪明的你函数 - 类程序-程序+寄存器-程序+内存-解释器-OSCNN - RNN - LSTM - Attention - ? - ?谢谢每当我审视自己的思维过程,并发现和AI的思维过程越来越像时,都为自己的进步感到欣喜。聪明的AI和聪明的人类是相似的,愚蠢的AI和愚蠢的人类各有各的愚蠢。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。