1、深度学习在自然语言处理中的应用目录自然语言处理深度学习深度学习在自然语言处理中的应用自然语言处理Natural Language Processing自然语言的概念什么是自然语言 语言是人类交际的工具,是人类思维的载体 人造语言:编程语言,包括C+,BASIC等 自然语言:形式:口语、书面语、手语 语种:汉语、英语、日语、法语语言学是研究语言规律的科学NLP 的应用NLP应用前景 据统计,日常工作中80%的信息来源于语言,处理文本的需求在不断增长 文本是人类知识最大的存储源,并且文本的数量在不停地增长 电子邮件、新闻、网页、科技论文、用户抱怨信NLP典型应用 智能搜索引擎、自动问答、信息获取、
2、语义网 语音识别,文字识别、输入法 机器翻译,自动文摘,跨语言检索 文本分类、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪)、文本过滤自然语言处理的层次语音分析:从语音流中区分出一个一个声音单元-音素词法分析:从句子中切分出单词、找出词汇的各个词素,确定单词的词性、词义等。句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系及在句子中的作用等。语义分析:识别一句话所表达的实际意义。语用分析:研究语言所在的外界环境对语言使用所产生的影响。语义与语用同一词语在不同的“语境”中具有不同“语义”例如:中国奥运史上十大女杰的精彩“转身”病毒计算机领域:计算机病
3、毒医学领域:生物学病毒内容层的信息处理形态丰富的语言(inflecting language):处理难形态不丰富的语言(analytic language):处理更难中文英文学生们都来了All thestudentsarehere.Even Prof.Li is here.Editing isverydifficult.Howtobeagoodeditor?李教授都来了编辑工作很难怎样成为一个好的编辑机器能够理解人的语言吗?可以,但有难度!什么是理解?结构主义:机器的理解机制与人相同(白盒)问题:人类语言理解机理尚未清楚功能主义:机器的表现与人相同即可(黑盒)图灵测试如果通过自然语言的问答,一
4、个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能理解自然语言的准则给计算机输入一段自然语言文本,计算机能问答(question-answering)机器能正确地回答输入文 本中的有关问题;文摘生成(summarizing)机器有能力产生输入文本 的 摘要;复述(paraphrase)机器用不同的词语和语句复述输入文本;翻译(translation)机器把一种语言(源语言)翻译为 另一种语言(目标语言)自然语言处理的研究目标弱人工智能目标:建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等;强人工智能目标:让用户能通过
5、自然语言与计算机自由对话;NLP研究内容应用系统数字图书馆、电子商务、电子政务、远程教育、语言学习软件企业NLP研究者语言学家应用技术研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等资源建设语料库资源建设语言学知识库建设自动分词主要分词算法:1.基于词表的分词-最大匹配即“长词优先”原则,来进行分词2.基于统计的分词分词的难点歧义字段处理未登入词处理:人名识别,地名识别,译名识别,新词识别分词歧义例:南京市长江大桥南京|市长|江大桥南京市|长江|大桥例:我们研究所有东西 我们-研究所-有-东西(交叉歧义)我们-研究-
6、所有-东西把手放在桌上 把-手-放在-桌上(组合歧义)把手-放在-桌上分词歧义新词名词:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、白骨精动词:打的、埋单、买单、给力形容词:酷、小资、爽命名实体时间、地名、人名、组织机构名商标、公司名、电话号码、电子邮件地址等等合成词,简称,派生词三个代表、十六大牛市、熊市微博词义消歧机器翻译中最难的问题之一是词义的二义性(歧义性)问题。比如 Bush 一词可以是美国总统的名字,也可以是灌木丛。一个实用的方法是使用互信息。互信息(Mutual Information)是信息论里一种有用的信息度量,它是指两个事件集合之间的相关性 首先从大量文本中找出和总统布什一
7、起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译 Bush 时,看看上下文中哪类相关的词多就可以了。深度学习Deep Learning什么是深度学习?深度学习:一种基于无监督特征学习和特征层次结构的学习方法。本质:通过构建多隐层的模型和海量训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。含多隐层的多层感知器就是一种深度学习结构。真实神经元 VS 人工神经元人工神经网络 VS 深度学习深度学习是模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,处理数据。传
8、统神经网络深度神经网络深度学习发展历程20151986,B P,2011DeeperNetworkNaturePhDcandidateofHinton,MSRImageNetClassificationRumelhart,Hinton,WilliamsSpeech2006DBN2012DNNImageNetClassificationScienceG.E.Hinton深度学习 2013年十大突破性技术之首500亿美元的市场规模传统学习方法的缺点过拟合(Overfitting)合适的拟合过拟合过拟合往往源自特征空间分布过于复杂,使得模型的复杂度提高,泛化能力较差。深度学习优点深度学习在自然语言处
9、理DCNN(DeepConvolutionalNeuralNetworks)深度卷积神经网络向量空间模型Vector space model123 维度高一词多意和多词一意缺乏词和词之间的相关性 Timeconsuming Mis-classification Poorperformance?“Car”“Automobile”?“Tank”OneHotWo rd Embedding词向量:单词的分布向量表示(Distributional Representation)Similarity(dog,cat)Similarity(dog,the)Similarity(“the dog smiles
10、.”,“one cat cries.”)词向量表征了单词使用上下文中的句法语义特征One-Hot的字面匹配到DR的语义匹配30word2vec原理word2vec实战训练数据集:经过分词后的新闻数据,大小184MB查看“中国”,“钓鱼岛,旅游,苹果几个词语的相似词语如下所示word2vec原理向量加减法中国+北京-日本,中国+北京-法国,家庭+孩子-学校深度学习的局限1.适用于大数据,由于网络结构复杂,小数据集往往会造成训练结果过拟合。2.可解释性不强,即便是一流的学者也很难对效果超群的深度学习算法在具体问题上给出具体解释。这有可能成为产品迭代过程中的阻碍。3.理论尚不完善,大多数研究仍集中在
11、调整参数和结构。4.计算量大,算法调整费劲。深度学习在自然语言处理中的应用机器翻译(通用模型)Decoder语义向量Encoder最常见的通用模型:Encoder-Decoder Model机器翻译(Encoder-Decoder具体例子)语言模型翻译模型网络结构机器翻译-很多地方可以运用到深度学习单词对齐短语对齐短语重排序语言模型翻译模型联合模型翻译结果重排序单词对齐人工客服or智能客服?人工客服智能客服无法数据分析无法控制时长顶级语义分析高成本高峰期排队7*24小时工作高智商高情商响应慢易出错1100用户知识培训频繁大数据分析多平台支持不能全时段覆盖回复口径不一极速响应低效率提升客服价值智
12、能知识库管理人员流失率大人工客服&智能客服智能客服业务流程传统客服业务流程Teddy客服客服培训学习人工录入问答提问大量业务数据用户客服Data用户人工复杂的业务知识用户提问智能应答智能客服智能客服人工服务知识库更新秒智 级响应能检索处理8590%的问题人工客服工单经验积累知识查询准确率超过85%知识库管理语义模型成本80%深度学习在客服机器人上的应用流程中文分词命名实体识别用户意图识别深度学习自动问答深度学习用于中文分词深度学习用于中文分词中文分词思路:基于字的Word Embedding+三层神经网络+BMES标记序列分类类似思路同样可以套用到POS/NER/Parser等场景这是利用Wo
13、rd Embedding解决NLP问题最直观的NLP应用思路命名实体识别文本人名地名命名实体对用户的输入进行识别识别对识别后的命名实体进行抽取更好地理解用户语言和意图商品名机构名命名实体识别后的文本用户意图识别意图识别是智能客服系统里面非常重要的一部分,它首先要通过用户的问话,知道用户想要做什么,只有意图识别对了,才能在相应的类别里面反馈用户的答案文本订单售后用户意图识别商品闲聊意图识别后的文本自动问答问题1问题2问题3问题4对用户的问题进行意图识别确定问题的分类答案匹配,抽取和排序给用户反馈最佳答案和建议自动问答系统答案1答案2答案3答案4答案1答案2答案3答案4答案匹配,候选答案抽取和排序智能聊天机器人泰迪 机器人IBMWatson微软小冰小 i机器人特定领域下问题匹配的准确度机器人转人工的策略,及灵活性、可扩展性上下文理解能力(场景)如何选择智能客服知识的积累和扩展性(智能管理)用户意图识别的准确性和其他业务系统可集成性深度定制开发大数据人工智能服务提供商47问答实例
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。