1、第四节第四节 文本挖掘概述文本挖掘概述v文本挖掘是数据挖掘的一个分支。文本挖掘是数据挖掘的一个分支。v将文本型信息源作为分析对象,利用智能算法,将文本型信息源作为分析对象,利用智能算法,如神经网络、基于案例的推理等,并结合文字处如神经网络、基于案例的推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、理技术,分析大量的非结构化文本源(如文档、网页、企业管理日志等),从中寻找信息的结构、网页、企业管理日志等),从中寻找信息的结构、模型、模式等各种隐含的知识。模型、模式等各种隐含的知识。v文本挖掘就是利用计算机的高速度和海量处理能文本挖掘就是利用计算机的高速度和海量处理能力,来帮助人们处
2、理文本信息。力,来帮助人们处理文本信息。v文本挖掘(文本挖掘(text mining):):是指抽取有效、新颖、是指抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。识,并且利用这些知识更好地组织信息的过程。vText data mining、knowledge discovery from textual databasesv提高了海量非结构化信息源的利用价值;提高了海量非结构化信息源的利用价值;v使得人们能够更加方便地从海量文本中发现隐含使得人们能够更加方便地从海量文本中发现隐含的知识;的知识;v为
3、企业的战略决策提供竞争情报的支持为企业的战略决策提供竞争情报的支持文本挖掘的过程文本挖掘的过程v相对于数据挖掘而言,文本挖掘技术还不成熟。相对于数据挖掘而言,文本挖掘技术还不成熟。v文本数量巨大,结构不统一,处于动态变化中;文本数量巨大,结构不统一,处于动态变化中;v自然语言理解理论在语言的深层理解方面没有根自然语言理解理论在语言的深层理解方面没有根本性的突破,致使文本处理的准确度不高,文本本性的突破,致使文本处理的准确度不高,文本挖掘的效果不够理想。挖掘的效果不够理想。v计算机理解语言的能力非常有限!计算机理解语言的能力非常有限!文本预处理文本分类文本聚类文本自动摘要文本的向量空间表示文本特
4、征提取文本相似度v文本文本是以文字串形式表示的数据文件。是以文字串形式表示的数据文件。v文本分析文本分析过程即通过文本分析,从中找出一些特过程即通过文本分析,从中找出一些特征以便将来使用。征以便将来使用。v文本分析文本分析包括语种识别、特征提取、文本聚类和包括语种识别、特征提取、文本聚类和文本分类等。文本分类等。把从文本中抽取出的把从文本中抽取出的特征词进行量化特征词进行量化来表示文本来表示文本信息。将它们从一个无结构的原始文本转化为信息。将它们从一个无结构的原始文本转化为结结构化构化的计算机可以识别处理的信息,即对文本进的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用
5、以描述和行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。和操作来实现对文本的识别。v 文本表示是指用文本的特征信息集合来代表原来文本表示是指用文本的特征信息集合来代表原来的文本。的文本。v 目前,在信息处理领域,文本的表示方法主要是目前,在信息处理领域,文本的表示方法主要是采用采用向量空间模型向量空间模型(Vector Space Model,VSM)。)。v 向量是既有大小又有方向的量。向量是既有大小又有方向的量。v向量空间模型向量空间模型的基本思想是以向量来表示文本:的基本思想是以向量来
6、表示文本:(W1,W2,W3Wn),其中),其中Wi 为第为第i个特个特征项的权重。征项的权重。v特征项一般选用特征项一般选用字、词或词组字、词或词组。因此要将文本表。因此要将文本表示为向量空间中的一个向量,就首先将文本分词,示为向量空间中的一个向量,就首先将文本分词,用这些词作为向量的维数来表示文本。用这些词作为向量的维数来表示文本。v最初的向量表示完全是最初的向量表示完全是0、1的形式。但这种形式的形式。但这种形式无法体现词在文本中的作用程度,故无法体现词在文本中的作用程度,故0、1逐渐被逐渐被更精确的词频代替。更精确的词频代替。语种识别工具语种识别工具能自动发现文本使用的语种。这类能自动
7、发现文本使用的语种。这类工具应用文本内容的一些线索来识别语种。通常工具应用文本内容的一些线索来识别语种。通常用机器领域里的算法,利用相应语种的训练文本用机器领域里的算法,利用相应语种的训练文本进行训练,最终实现识别的目的。进行训练,最终实现识别的目的。v 用于表示文本的基本单位通常称为用于表示文本的基本单位通常称为文本的特征文本的特征或或特征项特征项。v 在中文文本中可以采用字、词或短语作为表示文本的特征在中文文本中可以采用字、词或短语作为表示文本的特征项。项。v 特征提取特征提取主要是使用自动的提取过程,识别文本中词项的主要是使用自动的提取过程,识别文本中词项的意义。意义。v 特征提取特征提
8、取对掌握该文本的内容很重要,是一种强有力的对掌握该文本的内容很重要,是一种强有力的文本挖掘工具。文本挖掘工具。v 在一篇文本中,标题是该文本的高度概括,文本中的特在一篇文本中,标题是该文本的高度概括,文本中的特征,如人命、地名、组织名等是文本中的主体信息。征,如人命、地名、组织名等是文本中的主体信息。v特征是概念的外在表现形式,特征提取是识别潜特征是概念的外在表现形式,特征提取是识别潜在概念结构的重要基础。在概念结构的重要基础。v利用自动标引技术可以对文本进行特征标引。利用自动标引技术可以对文本进行特征标引。v对汉语文本进行特征抽取时,需要先对文本进行对汉语文本进行特征抽取时,需要先对文本进行
9、分词处理。分词处理。分词实例分词实例v和平民主和平民主 和平、民主 和、平民、主v提高人民生活水平提高人民生活水平 提高、高人、人民、民生、生活、活水、水平v利用计算机抽取西文关键词,首先要建立一个以利用计算机抽取西文关键词,首先要建立一个以介词、冠词、连词等无实质意义的单词组成的介词、冠词、连词等无实质意义的单词组成的停停用词表用词表(stop words),然后利用创建的停用词),然后利用创建的停用词表,从被标引的文本中筛去停用词,抽取关键词表,从被标引的文本中筛去停用词,抽取关键词。v一般采用一般采用keyword,无需分词,单词之间有空格分开。,无需分词,单词之间有空格分开。vstop
10、 words:指文档中出现的连词,介词,冠词等并:指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有无太大意义的词。例如在英文中常用的停用词有the,a,it等;在中文中常见的有等;在中文中常见的有“是是”,“的的”,“地地”等。等。v索引词(标引词,关键祠)索引词(标引词,关键祠):可以用于指代文档内容可以用于指代文档内容的预选词语的预选词语,一般为名词或名词词组。一般为名词或名词词组。A dog is chasing a boy on the playgroundDetNoun AuxVerbDet Noun PrepDetNounNoun PhraseCompl
11、ex VerbNoun PhraseNoun PhrasePrep PhraseVerb PhraseVerb PhraseSentenceDog(d1).Boy(b1).Playground(p1).Chasing(d1,b1,p1).语义分析语义分析词汇分析词汇分析(词性标注词性标注)语法分析语法分析A person saying this maybe reminding another person toget the dog back 语用分析语用分析(语言行为语言行为)Scared(x)if Chasing(_,x,_).+Scared(b1)推理、推断推理、推断(Taken fro
12、m ChengXiang Zhai,CS 397cxz Fall 2003)标引源标引源数据库数据库一条待标引的记录一条待标引的记录英语单词英语单词遇空分词遇空分词停用词表停用词表存储存储剔除剔除去除重复关键词去除重复关键词词频统计,保留高频词词频统计,保留高频词利用词表确定标引词或直接选择关键词利用词表确定标引词或直接选择关键词标引标引西文文本标引流程图西文文本标引流程图19v 利用计算机抽取西文关键词,首先要建立一个以介词、冠利用计算机抽取西文关键词,首先要建立一个以介词、冠词、连词等无实质意义的单词组成的停用词表,然后利用词、连词等无实质意义的单词组成的停用词表,然后利用创建的停用词表,
13、从被标引的文本中筛去停用词,抽取关创建的停用词表,从被标引的文本中筛去停用词,抽取关键词。键词。v(1 1)从文本中取出一个单词从文本中取出一个单词:西文中每两个单词间有空:西文中每两个单词间有空格间隔,可通过空格取词。格间隔,可通过空格取词。v(2 2)确定候选关键词确定候选关键词:利用取出的词去搜索停用词表,:利用取出的词去搜索停用词表,如是停用词则舍去;否则,则作为候选词。如是停用词则舍去;否则,则作为候选词。v(3)分析候选关键词分析候选关键词:对于重复的候选关键词,删除重复词,同时:对于重复的候选关键词,删除重复词,同时累计词频。如果标引对象是全文,还可以根据位置给候选关键词赋予累计
14、词频。如果标引对象是全文,还可以根据位置给候选关键词赋予权重,例如,权值最高的位置是标题,其次是文摘、首尾段、首尾句、权重,例如,权值最高的位置是标题,其次是文摘、首尾段、首尾句、其他位置,然后计算每个被取出词的权值之和,并将它们按其他位置,然后计算每个被取出词的权值之和,并将它们按权值权值从大从大到小排序,根据排序结果决定所取出的词是否作为标引词。到小排序,根据排序结果决定所取出的词是否作为标引词。v(4 4)确定标引词确定标引词:如果标引:如果标引对象是标题对象是标题,只需判断所取出的候选词,只需判断所取出的候选词是否重复,去重后,这些词可以全部作为标引词。如果标引是否重复,去重后,这些词
15、可以全部作为标引词。如果标引对象是文对象是文摘或全文摘或全文,抽出的候选关键词会很多,需要对它们进行进一步筛选,抽出的候选关键词会很多,需要对它们进行进一步筛选,具体的方法:根据词频统计的结果,去除低频词,将高频词作为标引具体的方法:根据词频统计的结果,去除低频词,将高频词作为标引备用词,然后根据系统规定的标引词的数量,最终确定标引词。备用词,然后根据系统规定的标引词的数量,最终确定标引词。v文本聚类是把一个文本集合分成几组的过程。对文本聚类是把一个文本集合分成几组的过程。对于文本标题中的关键词的相似匹配是对文本进行于文本标题中的关键词的相似匹配是对文本进行聚类的一种简单方法。聚类的一种简单方
16、法。v分类工具是把文本集合中的文本分配到已经存在分类工具是把文本集合中的文本分配到已经存在的类别中,即,已存的的类别中,即,已存的“主题主题”中。中。v将文本分类到各文本类中,一般需要一个算法。将文本分类到各文本类中,一般需要一个算法。这些算法包括决策树分类器、近郊算法和休眠专这些算法包括决策树分类器、近郊算法和休眠专家算法等。家算法等。v文本分类通过自动组织,把文本分到相应的主题文本分类通过自动组织,把文本分到相应的主题中,能够使文本数据库更易于浏览和查询。中,能够使文本数据库更易于浏览和查询。系统结构系统结构标注工具模型数据标注的样本类别预处理预处理训练数据文本新数据文本Multimedi
17、aGUIGarb.Coll.SemanticsMLPlanningplanningtemporalreasoningplanlanguage.programmingsemanticslanguageproof.learningintelligencealgorithmreinforcementnetwork.garbagecollectionmemoryoptimizationregion.“planning language proof intelligence”训练数据训练数据测试数据测试数据类别类别(AI)文本分类示例文本分类示例(Programming)(HCI).文本自动摘要文本自动
18、摘要v文本自动摘要文本自动摘要能够生成简短的关于文本内容的指能够生成简短的关于文本内容的指示性信息,将文本的主要内容呈现给用户,以判示性信息,将文本的主要内容呈现给用户,以判断是否要阅读文本的原文,这样能够节省大量的断是否要阅读文本的原文,这样能够节省大量的浏览时间。浏览时间。v文本自动摘要文本自动摘要就是利用计算机自动地从原始文本就是利用计算机自动地从原始文本中提取全面准确地反映该文本中心内容的简单连中提取全面准确地反映该文本中心内容的简单连贯的短文。贯的短文。v按照生成文摘的句子来源,自动文摘方法可分为按照生成文摘的句子来源,自动文摘方法可分为两类,一类是两类,一类是完全使用原文中的句子来生成文摘完全使用原文中的句子来生成文摘;另一类是可以另一类是可以自动生成句子来表达文档的内容。自动生成句子来表达文档的内容。