1、Chapter 8:Text Data Analysis第八章 文本数据分析目 录概述PART1向量化PART2分词PART3关键词提取PART4知识图谱PART5其他文本处理技术简介PART6定义定义以字符串形式存在的数据,对之的处理称为自然语言处理(NLP)概述背景背景文本数据是非结构化数据,数据,统计、多维、空间、时间、网状,这些数据整齐而具有内在逻辑,只需要沿用计算机时代前的思路进行处理即可,但非结构化数据的增长更快、蕴含更多价值自然语言是复杂的系统,英语中有二十万个词汇,许多词汇有多义性,句子的语法种类也非常多,和机器语言的翻译汇编难度完全不一样自然语言是模糊的系统,对一句话的理解要
2、考虑上下文语境,要考虑被缩略掉的成分,还有可能有表面含义下的隐藏含义(讽刺、疑问表请求)自然语言是变化的系统,语言是使用者的表达共识,新的含义和使用方法随着人们的表达不断产生特点一特点一特点二特点二特点三特点三NLP发展趋势:发展趋势:基于语法规则基于统计学模型定义定义文本向量化就是一种映射方法,即用向量来表达文本,以便机器学习算法进行处理。向量化词袋模型词袋模型词袋模型(bag of words)是最早的以词为基本处理单元的文本向量化方法,词袋模型通过先构建一个包含语料库中所有词的词典,然后根据词典完成对每个词的向量化,进而完成文本向量化。用0和1元素指代词典中的某个词。以watch为例,w
3、atch在词典中的位置是4,那么用来表示watch的向量中,第四个位置是1,其余都是0,即:watch=0,0,0,1,0,0,0,0,0,0这种表示方法称为one-hot向量表示。完成对所有词的向量化之后,就可以得出两个文本的向量化结果,每个文本的向量长度都是词典的大小,向量中的每个位置的元素代表词典中该位置的词在文本中出现的次数。缺点缺点首先是维度灾难。由于词典的维度等于语料库中包含的词汇数,假如文本的词汇量很大,维度就会成千上万,这样的数据是难以处理的。从词汇的角度来说,向量化后并没有保存它的语义,也就是相近的单词从其向量表达中是看不出来的。从文本的角度来说,向量化后并没有保存它的语序,
4、也就是从向量表达中看不出单词间的顺序。向量化Word2Vec Word2Vec 模型模型为了解决词袋模型维度大的问题,通过语言模型构建词向量的方式出现了。Word2Vec模型中,主要有Skip-Gram和CBOW两种模型。从直观上理解,Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文,来预测input word。本篇文章仅讲解Skip-Gram模型。这种表示方法称为one-hot向量表示。完成对所有词的向量化之后,就可以得出两个文本的向量化结果,每个文本的向量长度都是词典的大小,向量中的每个位置的元素代表词典中该位置的词在文本中出现的次数。定义定义由于中文的最小
5、组成单元:中文分词字字不总具有独立完整的表意能力,而有明确分隔符的结构句句复杂性高难以复用,需要首先对汉字进行组合,将文本切分为带空格的、由词组成的格式所以中文分词一直是中文自然语言处理的最基本环节最基本环节。随着数据量和算力增长推动深度学习时代来临,直接以字为单元进行的NLP也逐渐出现,但分词工作对于关键概念提取和命名实体识别等任务的完成依然很重要。发展发展分词算法基于词典匹配基于词典匹配核心是构建词典,可以有不同的具体算法,比如逐字读取,寻找其能组合成的最长的词汇,如果读取后没有可以组成的词汇,则回退,切分,如此循环速度快优点优点主要取决于词典质量,泛用性差,无法根据上下文消除歧义缺点缺点
6、分词算法基于统计模型基于统计模型基本思想是将词定义为稳定的字的组合,那么通过统计文本中出现频率高的字的组合,然后在分词时对目标文本进行概率计算从而得到结果。领域适应性强优点优点无法区分稳定的字的组合与词的组合,可能会划分出无意义的常用的词的连接,如“这一”缺点缺点分词算法基于字的标注基于字的标注给训练数据进行标注,对所有的字,根据其在词中的位置来贴上标签,比如设计四种标签:B(词首),M(词中),E(词尾),S(单独成词),标注所有训练集后对词位特征进行学习,获得一个概率模型。不需要区分词典的词和特殊名词,处理过程简单,结果良好优点优点再应用到目标文本中,直接得到词位的标注结果,进而得到分词结
7、果。中文分词案例词性分析定义定义词性是根据词的特点对词的类别划分,从而便于进一步的句子结构分析和句意理解。中文词性首先并没有特别统一的标准,其次从构造来说没有词的形态变化作为判别标准,常用词总是可以被随心所欲的作为各种词性来使用难点分类分类词性标注同样可以分为三种思路先查词典确定那些只有一种词性的词,然后按照语法规则确定其旁边的兼类词规则法规则法根据一个词的前N个词的词性来计算这个词的各词性概率统计法统计法使用大量标注词性标签的数据进行学习深度学习深度学习词性分析案例词性分析案例关键词提取-词云定义定义根据词汇分配的权重来决定其大小,绘制成图案来显而易见的表现出不同词(标签)的重要程度。词云的
8、权重可以根据联系直接赋予,比如以国家人口作为国家名称的权重。对于文本数据的处理,词云一般是以词的出现频率作为其权重,则可以利用词云找出高频词汇来迅速对文本内容产生概览,并可以对不同文本进行比较。在这种用途中,对文本的自动分词以及正确的词性标注(以便过滤掉常用无意义衔接词以及按需筛选词性)就尤为重要。知识图谱定义定义网络结构的知识库,由实体和实体之间的关系,以及实体所拥有的属性组成。比如对于实体“罗纳尔多”,其属性可能有生日、身高、很多照片等,而与其有关系的其他实体则包括“国籍是”“巴西”,“效力于”“皇家马德里足球俱乐部”“巴西国家男子足球队”等等。知识图谱知识图谱的设计目的在于让计算机理解语
9、义,通过网状的知识结构,计算机得以将一些字符串形式的文本与其背后的含义连接起来。通过知识图谱,Google得以提供更加符合用户需求的搜索结果,淘宝得以推荐更相似的商品,Facebook也得呈现给用户更感兴趣的内容。此外,还可以通过给文本自动的生成知识图谱,来将非结构化的文本数据转换为结构化的网络数据,从而进行建模分析,知识图谱已经成为一种基础工具。设计目的设计目的其他文本处理技术简介-情感分析定义定义对文本进行一定程度的语义理解以分析出其蕴含的情感。要素实体,属性,情感,情感主体,时间实体,属性,情感,情感主体,时间根据不同分析系统的设计而涉及不同的要素哪个情感主体在什么时候对什么实体的什么属
10、性产生了什么样的情感情感维度:情感维度:只分为积极消极;分为快乐、悲伤、愤怒等多类;或是按照消极积极、唤起程度构建多维描述分析方法:分析方法:对显性的情绪词进行捕捉和衡量,和对隐性情感表达的理解情感分析案例其他文本处理技术简介-自动文摘定义定义利用计算机将冗长文本压缩成摘要文字,并保证原始文本的重要信息不丢失步骤内容表述权重计算内容选择内容组织自动文摘的最早思路是对文章中的句子进行打分来衡量其重要程度,比如根据关键词的出现或者根据文章的网络结构等。接下来为了减少冗余而设计各种优化算法,比如根据已经选取的句子涵盖的信息而调整打分。接着通过基于语法规则的语句压缩技术来缩短摘要的篇幅,从而完成抽取式的摘要生成。算法思路算法思路自动文摘案例其他文本处理技术简介-故事流定义基于情感分析与自动文摘,数值化故事发展过程并可视呈现的方法。对故事文本进行切割,然后对每个部分进行情感分析和自动文摘,组合为故事流。