第13章:理解单元-自然语言处理课件.pptx

上传人(卖家):三亚风情 文档编号:3403787 上传时间:2022-08-28 格式:PPTX 页数:26 大小:2.52MB
下载 相关 举报
第13章:理解单元-自然语言处理课件.pptx_第1页
第1页 / 共26页
第13章:理解单元-自然语言处理课件.pptx_第2页
第2页 / 共26页
第13章:理解单元-自然语言处理课件.pptx_第3页
第3页 / 共26页
第13章:理解单元-自然语言处理课件.pptx_第4页
第4页 / 共26页
第13章:理解单元-自然语言处理课件.pptx_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、时间:2020-9-8理解理解单元单元自然语言处理自然语言处理第1 3章NLP应用场景NLP常见任务TF-IDF算法NLP基础理解13.113.213.313.413.1 NLP基础理解 语言是人类区别于其他动物的本质特征。自然语言处理(NLP,Natural Language Processing)也是人工智能的一个重要、甚至核心的部分。NLP是一门融语言学、语音学、计算机科学、数学于一体的科学。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。自然语言处理大体包括了自然语言理解和自然语言

2、生成两个部分。什么是自然语言处理?1NLP认知过程2NLP三个层次313.1 NLP基础理解5自然语言处理(NLP)是指机器理解并解释人类写作、说话方式的能力。NLP 的目标是让计算机机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。什么是自然语言处理?16(1)自然语言理解(NLU)NLU 是要理解给定文本的含义。文本内每个单词的特性与结构需要被理解。接下来,通过使用词汇和语法规则,理解每个单词的含义。NLP认知过程2(2)自然语言生成(NLG)NLG 是从结构化数据中以可读地方式自动生成文本的过程。难以处理是自然语言生成的主要问题。7 句

3、法学:给定文本的哪部分是语法正确的。语义学:给定文本的含义是什么?语用学:文本的目的是什么?NLP三个层次313.2 TF-IDF算法l TF-IDF(term frequencyinverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。l TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。l TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以词频衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。分词1词编码211.3

4、NLP常见任务自动文摘3实体及实体关系识别4文本分类510 由于中文不像英文那样词与词之间用空格隔开,计算机无法区分一个文本有哪些词,所以要进行分词。目前分词常用的方法有两种:基于规则:Heuristic(启发式)、关键字表 基于机器学习/统计方法:HMM(隐马尔科夫模型)、CRF(条件随机场)分词111 把词转换成计算机能理解的方式,即词编码。现在普遍是将词表示为词向量,来作为机器学习的输入和表示空间。词编码2 一个词用一个维度表示One-hot表示 将所有词的向量直接加和作为一个文档的向量bagofword 考虑了词的顺序,用词组合表示一个词的向量Bi-gram和N-gram(语言模型)w

5、ord2vec,表示一个共现矩阵向量分布式表示12自动文摘是指在原始文本中自动摘要出关键的文本或知识。为什么需要自动文摘?有两个主要的原因:(1)信息过载,我们需要在大量的文本中抽出最有用、最有价值的文本;(2)人工摘要的成本非常高。目前自动文摘有两种解决思路:第一种是extractive(抽取式),从原始文本中找到一些关键的句子,组成一篇摘要;第二种是abstractive(摘要式),计算机先理解原始文本的内容,再用自己的意思将其表达出来。自动文摘313实体识别是指在一个文本中,识别出具体特定类别的实体,例如人名、地名、数值、专有名词等。它在信息检索、自动问答、知识图谱等领域运用的比较多。实

6、体识别的目的就是告诉计算机这个词是属于某类实体,有助于识别出用户意图。实体及实体关系识别414文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合,其应用非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。此外,NLP常见的任务还有:主题识别、机器翻译、文本生成、情感分析、关键字提取、文本相似度等。文本分类513.4 NLP应用场景聊天机器人13.4.1机器翻译13.4.2垃圾邮件过滤13.4.3信息提取13.4.4情感分析13.4.5自动问答13.4.6个性化推荐13.4.7聊天机器人的重要性1聊天机器人的工作机制213.4.1 聊天机器人自动文摘3实体及

7、实体关系识别4文本分类5机器翻译基本原理1机器翻译发展历程213.4.2 机器翻译18 机器翻译是人工智能的终极目标之一,面临如下国际公认的挑战。挑战一,译文选择。在翻译一个句子的时候,会面临很多选词的问题,因为语言中一词多义的现象比较普遍。第二个挑战,是词语顺序的调整。由于文化及语言发展上的差异,我们在表述的时候,有时候先说这样一个成份,后面说另外一个成份,但是,在另外一种语言中,这些语言成分的顺序可能是完全相反的。机器翻译基本原理119 基于规则的翻译,翻译知识来自人类专家。大约到了上世纪九十年代出现了基于统计的方法,我们称之为统计机器翻译。神经网络翻译近年来迅速崛起。相比统计机器翻译而言

8、,神经网络翻译从模型上来说相对简单,它主要包含两个部分,一个是编码器,一个是解码器。机器翻译发展历程213.4.3 垃圾邮件过滤 自然语言处理通过分析邮件中的文本内容,能够相对准确地判断邮件是否为垃圾邮件。目前,贝叶斯(Bayesian)垃圾邮件过滤是备受关注的技术之一,它通过学习大量的垃圾邮件和非垃圾邮件,收集邮件中的特征词生成垃圾词库和非垃圾词库,然后根据这些词库的统计频数计算邮件属于垃圾邮件的概率,以此来进行判定。13.4.4 信息提取 信息提取(IE)的目标是将文本信息转化为结构化信息,起初用于定位自然语言文档中的特定信息,属于自然语言处理的一个子领域。随着网页文本信息的急剧增长,越来

9、越多的人投入到信息提取(IE)领域的研究。13.4.5 情感分析 文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。13.4.6 自动问答 自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务,在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。242011年,又是IBM,这次是人类的常识智力问答,在综艺竞答类节目危险边缘中,IBM的沃森系统与真人一起抢答竞猜,虽然沃森的语言理解能力也闹出了一些小笑话,但凭借其强大的知识库仍然最后战胜了两位人类冠军而获胜。自动问答13.4.7 个性化推荐 自然语言处理可以依据大数据和历史行为记录,学习出用户的兴趣爱好,预测出用户对给定物品的评分或偏好,实现对用户意图的精准理解,同时对语言进行匹配计算,实现精准匹配。感谢您的聆听时间:2020-9-8

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第13章:理解单元-自然语言处理课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|