深度学习在自然语言处理的应用v076课件.ppt_163文库

资源描述

1、1深度学习在自然语言处理的应用张俊林畅捷通股份有限公司2014.10.32大纲深度学习简介基础问题：语言表示问题 Word Embedding 不同粒度语言单元的表示字符/单字/单词/短语/句子/文档值得重点关注的模型 RAE/Tensor Network/卷积网络NLP的应用语言模型中文分词知识挖掘情感计算机器翻译 Paraphrase IR探讨与思考3深度学习（表示学习）4深度学习（表示学习）5Layer-Wise Pre-Training6Denoising Autoencoder7自然语言交互的时代8大纲深度学习简介基础问题：语言表示问题 Word Embedding 不同

2、粒度语言单元的表示字符/单字/单词/短语/句子/文档值得重点关注的模型 RAE/Tensor Network/卷积网络NLP的应用语言模型中文分词知识挖掘情感计算机器翻译 Paraphrase IR探讨与思考9One-Hot 表示 One Hot表示在传统NLP中很常用Similarity(dog,cat)=010Word Embedding 词向量：单词的分布向量表示（Distributional Representation）词向量表征了单词使用上下文中的句法语义特征 One-Hot的字面匹配到DR的语义匹配Similarity(dog,cat)Similarity(dog,t

3、he)Similarity(“the dog smiles.”,“one cat cries.”）11无监督训练获得单词的WE-word2vec单词：苹果12无监督训练获得单词的WE-word2vec单词：长颈鹿13无监督训练获得单词的WE-word2vec单字：张14无监督训练获得单词的WE-word2vec单字：雯15无监督训练获得单词的WE-word2vec单字：葱16Word2vecCBOW：17word2vecSkip-Gram:18word2vecCBOW+Hierarchical Softmax19word2vecCBOW+Negative Sampling最大化：st：正例负例

4、20不同粒度语言单元的表示-字符/单字字符上下文向量英文：捕获构词法中文：捕获字搭配英文拓展：字符N-Gram 中文拓展：单字N-Gram？21不同粒度语言单元的表示-短语/句子/文档方法一：单词词向量取和（Summrization）很多情况都做此种简化处理过于简单,但是仔细思考有一定道理方法二：单词词向量加权求和Huangs Work权重：类似于IDF方法三：RNN22不同粒度语言单元的表示-短语/句子/文档方法四：Matrix-Vector NN23不同粒度语言单元的表示-短语/句子/文档方法五：卷积神经网络24大纲深度学习简介基础问题：语言表示问题 Word Embedding 不同

5、粒度语言单元的表示字符/单字/单词/短语/句子/文档值得重点关注的模型 RAE/Tensor Network/卷积网络NLP的应用语言模型中文分词知识挖掘情感计算机器翻译 Paraphrase IR探讨与思考25RAE(Recursive AutoEncoders)推导短语及句子级别的Word Embedding表示26Neural Tensor Networks 表达多个实体之间的关系/两个单词之间某种操作27Neural Tensor Networks28卷积网络（Convolutional Deep Neural Network）全局特征选择与融合/不定长转换为定长表示29大

6、纲深度学习简介基础问题：语言表示问题 Word Embedding 不同粒度语言单元的表示字符/单字/单词/短语/句子/文档值得重点关注的模型 RAE/Tensor Network/卷积网络NLP的应用语言模型中文分词知识挖掘情感计算机器翻译 Paraphrase IR探讨与思考30语言模型31语言模型Bilinear-LM32语言模型RNNLM33深度学习用于中文分词-思路134深度学习用于中文分词-思路235深度学习用于中文分词两者思路基本相同基于字的Word Embedding+三层神经网络+BEMS标记序列分类思路2引入全局的Viterbi解码（分类后处理）效果：和主

7、流分词算法效果接近 CRF/Maxent+二元特征类似思路同样可以套用到POS/NER/Parser等场景这是利用Word Embedding解决NLP问题最直观的NLP应用思路考虑探索下非标准三层神经网络结构的复杂模型36深度学习用于知识挖掘两大类问题现有知识库的新知识推理 CYC,WordNet,FreeNet 目前的文献做法大思路基本一致已知实体用Word Embedding表示实体关系用Tensor Network建模后向传播+SGD训练从自由文本中挖掘结构化知识37现有知识库的新知识推理38现有知识库的新知识推理最小化目标函数：正例：负例：39从自由文本中挖掘结构化知识整

8、体结构词法级特征40从自由文本中挖掘结构化知识句子级特征抽取：卷积网络41机器翻译（通用模型）最常见的通用模型：Encoder-Decoder ModelEncoderDecoder语义向量42机器翻译（Encoder-Decoder具体例子）ACL2014 Best Paper：Fast and Robust Neural Network Joint Models Joint Models for Statistical Machine Translation网络结构语言模型翻译模型43机器翻译-很多地方可以引入DL 单词对齐短语对齐短语重排序语言模型翻译模型联合模型翻译结果重排

9、序单词对齐44情感计算核心的两个问题句子级的Word Embedding表示前面讲过这个问题如何将情感倾向编码到各级Word Embedding中半监督或者监督学习：通过训练过程将情感倾向编码到WE结构中45Paraphrase(整体框架)S1：The judge also refused to postpone the trial date of Sept.29.S2：Obus also denied a defense motion to postpone the September trial date.Paraphrase的问题：Semantic(S1)=Semantic(

10、S2)?46Paraphrase（RAE）Darling!Im here!Darling!Im here!47Paraphrase（Dynamic Pooling）应用拓展：很明显这个方法可以照搬不动放到应用拓展：很明显这个方法可以照搬不动放到QA问题匹配中问题匹配中（一篇灌水论文就此诞生了！）（一篇灌水论文就此诞生了！）欧式距离：越小越好48DL for IR一种直观的方法49DL for IR一种没那么直观的方法50大纲深度学习简介基础问题：语言表示问题 Word Embedding 不同粒度语言单元的表示字符/单字/单词/短语/句子/文档值得重点关注的模型 RAE/Tensor Net

11、work/卷积网络NLP的应用语言模型中文分词知识挖掘情感计算机器翻译 Paraphrase IR探讨与思考51探讨与思考与传统方法比较DL的优势所在抛掉特征选择步骤简洁地融入语义级特征很多应用可以直接绕过NLP的中间场景比如POS，句法，减少错误累加语言长程依赖容易建模：词向量+卷积网络可以解决语言模型的数据稀疏问题：15-Gram 很多场景如果优化速度非常快，方便应用的工程化实用化52探讨与思考目前研究模式中最基础和重要的问题短语、句子、段落、文档级别的有效Word Embedding表示文档级别表示很多应用直接受益:分类，IR等问题：文档级别采用低维表示，是

12、否丢失细节信息？只能作为辅助手段？句子级别的低维表示很有意义，最关键。如何更能体现“深度”的思想目前还说不上很Deep：WE为主是否有除了“Word Embedding”外更Deep的模式？目前看DL在NLP哪些方面好哪些一般？涉及语义处理的应用：表现好不涉及太多语义的应用：State-of-the-art 说明什么？Word Embedding已经把传统ML方法使用特征融合进去了语义级别特征效果体现明显53探讨与思考与CRF的比较及区别与联系 CRF:线性 VS DL:非线性 CRF:高维离散特征 VS:DL:低维连续特征结论：非线性模型对于低维连续特征有效，对高维离散特征无效 DL在推荐系统方面应用方法的思考不成熟的初步思路我个人看好DL在NLP方面的作用与传统方法比有明显优点发展初期：机会多、挑战大 NLP方向博士生的黄金时代非常容易想到很多New Idea 一把新的锤子，很多钉子可以去敲54广告时间55Thanks!

展开阅读全文