1、 1自然语言理解自然语言理解 2主要内容 自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理 Web信息抽取 3自然语言理解的一般问题自然语言理解的一般问题(1)(1)自然语言自然语言自然语言:人类交流的语言自然语言:人类交流的语言,口语、书面语、手语、口语、书面语、手语、旗语等旗语等人造语言:机器语言,包括人造语言:机器语言,包括C+,BASICC+,BASIC等等 世界语世界语到目前为止的人类知识有到目前为止的人类知识有80%80%以上使用自然语言文字记载下来的。以上使用自然语言文字记载下来的。但将来
2、,可能用计算机语言形式记载的知识将会越来越多。因此说但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。现代化水平的重要标志之一。相比较人工智能其它领域,自然语言理解是难度大,进展小的。至相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。今为止未能达到很高的水平。4自然语言理解的一般问题自然语言理解的一般问题(2)2)什么是“自然语言理解”?与“智能”一样,存在各种各样的理解和解释。利用计算机对自然语言进行理解 自
3、然语言“理解”的准则:给计算机输入一段自然语言文本,如果计算机能问答(question-answering)机器能正确地回答输入 文本中的有关问题;文摘生成(summarizing)机器有能力产生输入文本 的摘要;释义(paraphrase)机器用不同的词语和语句复述输入文本;翻译(translation)机器把一种语言(源语言)翻译为 另一种语言(目标语言)5自然语言理解的一般问题自然语言理解的一般问题(3)3)自然语言理解自然语言理解自然语言理解是语言信息处理技术的一个高层次的重要自然语言理解是语言信息处理技术的一个高层次的重要方向。是人工智能领域关注的核心问题之一。方向。是人工智能领域关
4、注的核心问题之一。自然语言理解的困难原因:自然语言理解的困难原因:目标表示的复杂性目标表示的复杂性 映射类型的多样性映射类型的多样性 源表示中各元素间交互程度的差异性源表示中各元素间交互程度的差异性 6自然语言理解的一般问题自然语言理解的一般问题(4)4)语言学的研究语言学的研究 自然语言理解是哲学自然语言理解是哲学(philosophy)philosophy),语言学语言学(linguistics),linguistics),语言心理学语言心理学(psycholinguistics),psycholinguistics),认知科学认知科学(cognitive cognitive scienc
5、e),science),计算机科学计算机科学(computer science)computer science),数学数学(mathematics)mathematics),逻辑学逻辑学(logic)logic)及相关学科发展和结合而及相关学科发展和结合而形成的一门交叉学科。形成的一门交叉学科。7自然语言理解的一般问题自然语言理解的一般问题(5)5)语言学的研究语言学的研究 语言学家:只关心词组成短语,短语组成句子,句法如何。即语言语言学家:只关心词组成短语,短语组成句子,句法如何。即语言理论理论 哲学家:词怎么能表示万物万事。如何用词来描述。哲学家:词怎么能表示万物万事。如何用词来描述。心
6、理学家:语言产生的机制,人怎么能理解句子的意思。神经网络心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络。计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自然语言相关的各项任务。然语言相关的各项任务。8自然语言理解的一般问题自然语言理解的一般问题(6)6)语言学的研究理解的层次语言学的研究理解的层次语音分析:找出最小可独立的声音单元语音分析:找出最小可独立的声音单元-音素音素词法分析:找出词汇的各个词素(
7、词根),从中获得语词法分析:找出词汇的各个词素(词根),从中获得语言学信息言学信息例:我们研究所有东西例:我们研究所有东西;把手放在桌上把手放在桌上我们我们-研究所研究所-有有-东西东西(交叉歧义)(交叉歧义)我们我们-研究研究-所有所有-东西东西把把-手手-放在放在-桌上桌上(组合歧义)(组合歧义)把手把手-放在放在-桌上桌上 9自然语言理解的一般问题自然语言理解的一般问题(7)7)语言学的研究理解的层次语言学的研究理解的层次句法分析:对句子和短语的结构进行分析,找出词、短句法分析:对句子和短语的结构进行分析,找出词、短语等的相互关系以及各自在句子中的作用等。在语言自语等的相互关系以及各自在
8、句子中的作用等。在语言自动处理的研究中,句法分析的研究是最为集中的,这与动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(乔姆斯基(ChomskyChomsky)的贡献是分不开的。主要方法有的贡献是分不开的。主要方法有:短语结构语法、格语法、扩充转移网络、功能语法等:短语结构语法、格语法、扩充转移网络、功能语法等。语法分析:将单词之间的线性次序变换成一个显示单词语法分析:将单词之间的线性次序变换成一个显示单词如何与其它单词相关联的结构。确定语句是否合乎语法如何与其它单词相关联的结构。确定语句是否合乎语法 10自然语言理解的一般问题自然语言理解的一般问题(8)8)语言学的研究理解的层次语
9、言学的研究理解的层次语义分析:通过分析找出词义,结构意义及其结合意义,从而确定语义分析:通过分析找出词义,结构意义及其结合意义,从而确定语言所表达的真正(实际)含义或概念。在语言自动理解中,语义语言所表达的真正(实际)含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。(尤其是对话系统)越来越成为一个重要的研究内容。(尤其是对话系统)你打我你打我我打你我打你语用分析:研究语言所在的外界环境对语言使用所产生的影响。描语用分析:研究语言所在的外界环境对语言使用所产生的影响。描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关述语言的环境知识、语言与语言使用者在某个给定语言环境中
10、的关系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块)11自然语言理解的一般问题自然语言理解的一般问题(9)9)研究目标研究目标建立一个足够精确的语言数学模型使计算机通过编程来建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务。如:听、读、写、说,释义完成自然语言的相关任务。如:听、读、写、说,释义,翻译,回答问题等。通过语言索取信息,由此能力则,翻译,回答问题等。通过语言索取信息,由此能力则说明该系统对语言已理解了说明该系统对语言已理解了 。12自然语言理解的一般问题自然语言理解的一般问题(10)10)自
11、然语言的层次划分及对应技术自然语言的层次划分及对应技术理论理论层次结构层次结构实现技术实现技术模板匹配、基于规则模板匹配、基于规则语音语音 模式匹配模式匹配基于词素、词汇基于词素、词汇词汇词汇词典结构词典结构转换生成、词汇功能语法转换生成、词汇功能语法语法语法 扩 展 转 移 网 络扩 展 转 移 网 络(ATN),CFATN),CF规则规则 格语法、语义基元理论、模型理论格语法、语义基元理论、模型理论语义语义 产生式规则、概念相产生式规则、概念相依理论、脚本、框架依理论、脚本、框架、语义网络、逻辑、语义网络、逻辑 基于记忆的推理、语言行为理论、基于记忆的推理、语言行为理论、篇章语法篇章语法语
12、用语用 13自然语言理解的一般问题自然语言理解的一般问题(11)11)应用应用 机器翻译或机器辅助翻译。机器翻译或机器辅助翻译。文本理解:将输入文本转换成某种数据库格式。文本理解:将输入文本转换成某种数据库格式。文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内的各种信息。的各种信息。自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机交互。交互。14自然语言理解的一般问题自然语言理解的一般问题(12)12)应用应用 网络方面:信息检索(网络方面:信息检索(
13、information retrievalinformation retrieval),提出(提出(extractionextraction),过滤(过滤(filteringfiltering),分类(分类(classificationclassification),),汇总汇总 (summarizationsummarization)等等如:网上信息检索,电子图书馆(如:网上信息检索,电子图书馆(digital librarydigital library),电子商务电子商务(e-commercee-commerce)等等例:例:和服和服|务务|于三日后裁制完毕。于三日后裁制完毕。(kimo
14、no must)这个酒店的设施这个酒店的设施|和和|服务服务|是一流的。是一流的。(and service)未登录词未登录词(unknown word processing):如:高如:高海燕海燕 (storm petrel)15自然语言理解的一般问题自然语言理解的一般问题(13)13)自然语言理解的研究大体上经历了三个 时期萌芽时期萌芽时期 发展时期发展时期 早期:60年代以关键词匹配为主流 中期:70年代以句法语义分析为主流 近期:80年代以来开始走向实用化和工程化大规模真实文本处理时期大规模真实文本处理时期 比较成功的系统处理都是受限的自然语言子集句法受限:句子结构的复杂性方面受到限制语
15、义受限/领域受限:所表达的事物的数量方面受到限制 16自然语言理解的一般问题自然语言理解的一般问题(14)14)60年代以关键词匹配为主流 特点:没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误 17自然语言理解的一般问题自然语言理解的一般问题(15)15)70年代句法语义分析为主流 采用句法-语义分析技术典型例子 LU
16、NAR允许用普通英语和数据库对话的人机接口句法分析句法分析语义解释语义解释数据检索数据检索ATN语法语法词典词典语义规则语义规则数据库数据库 18自然语言理解的一般问题自然语言理解的一般问题(16)16)80年代以来的实用化和工程化 主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。另一方面,人们已经开始对大规模真实文本进行理解 句法语义分析为主的思想来自于规则的方法,而规则不可能把所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。19自然语言理解的一般问题自然语言理解的一般问题(17)17)语料库语言学(cor
17、pus linguistics)语言学知识的源泉是大规模活生生的语料,要想让计算机理解自然语言,首先要让计算机能从库存的大规模语料中自动或半自动地获取语言理解所需的各种知识,对语言现象作出客观的、细致的描述。目前采用的主要手段是建立各种统计模型,可用于词类的自动标注,以及句法语义的更高层次的分析。该方法可以和规则方法相互补充。20自然语言理解的一般问题自然语言理解的一般问题(18)18)在当今计算技术条件下,要想把处理自然语言所需在当今计算技术条件下,要想把处理自然语言所需要的知识都用现有的知识表示技术明确表达出来,要的知识都用现有的知识表示技术明确表达出来,是不可能的。这既是由于这种知识的是
18、不可能的。这既是由于这种知识的“数量数量”巨大巨大,有时由于它们在,有时由于它们在“质质”的方面高度的不确定性和的方面高度的不确定性和模糊性。模糊性。最近十几年来新提出的语料库语言学,它顺应了大最近十几年来新提出的语料库语言学,它顺应了大规模真实文本处理的需要,提出了以计算机语料库规模真实文本处理的需要,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。为基础的语言学研究及自然语言处理的新思想。21自然语言理解的一般问题自然语言理解的一般问题(19)19)基于语料库的处理思想能够在工程上、在宽广的语言覆盖基于语料库的处理思想能够在工程上、在宽广的语言覆盖面上解决大规模真实文本处理这
19、一极其艰巨的课题,对传面上解决大规模真实文本处理这一极其艰巨的课题,对传统的处理方法的一个强有了的补充。统的处理方法的一个强有了的补充。新型的智能计算机和多媒体计算机均要求设计出更为友好新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。和生成能力。22自然语言理解的一般问题自然语言理解的
20、一般问题(20)20)发展快的原因:发展快的原因:计算机的发展计算机的发展:高速、统计处理。高速、统计处理。需求需求:机器人能听懂人的话,与人交谈,自动学习机器人能听懂人的话,与人交谈,自动学习。但是,因为自然语言是开放集,每天都有新词产生,用规但是,因为自然语言是开放集,每天都有新词产生,用规则描述马上可以找出反例。则描述马上可以找出反例。所以,很难。所以,很难。23主要内容 自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理 Web信息抽取 24词法分析词法分析(1)(1)词法分析是理解单词的基础,其
21、主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义 例如unchangeable是由un-change-able构成的,其词义由这三个部分构成。25词法分析词法分析(2)2)语言构成语言构成语言词汇语法词熟语句法词素词法构形法构词法词组构造法造句法 26词法分析词法分析(3)3)在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素就复杂的多,需要对词尾或词头进行分析。如importable,它可以是im-port-able或import-a
22、ble,这是因为im、port、able这三个都是词素。汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们研究所有东西”,也可以是“我们研究所有东西”。27主要内容 自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理 Web信息抽取 28句法分析(1)句法分析的主要任务:确定输入句子的结构:识别句子的各个成分及其之间的关系句子结构的规范化:目的是简化后续处理 分析自然语言的方法主要分
23、为两类:基于规则的方法:如短语结构语法和Chomsky语法体系 基于统计的方法 29短语结构语言(1)定义句子:一个符号串语言:句子的集合语法:对一个句集一种有限的形式化描述 描述一般语言的方法:识别器:由程序判断读入的符号串是不是一个句子短语结构语法:一种基于产生式的形式化工具,也称为产生式语法 30短语结构语言(2)定义:短语结构语法定义为:G(T,N,S,P)T是终结符集合,即被定义的语言的所有词 汇(或符号)N是非终结符集合,这些符号用于描述语法 成分,并不出现于句子中。则有:VTN,TN(空集),V是属于该语法的全部符号。S是起始符号,它是N中的一个成员。P是一个产生式规则集。ab(
24、ab,aV+,bV*)31短语结构语言(3)在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,每条语法规则也叫重写规则 一个句子的产生就是从S符号到词汇串的推导过程 如果一个程序能够根据一个短语结构语法来确定一个句子的推导,则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)=W|WT*,S*GW 32短语结构语言(4)刻画语言的形式体系的强和弱 递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的 递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递
25、归 33短语结构语言(5)正则语法:正则语法有两种形式:左线性语法:如 A a|Ba 右线性语法:如 A a|aB可以表示如下的句子:a*b*语法例子:S a|S1|a S S1 b|b S1与有限状态机等价 34短语结构语言(6)上下文无关语法:语法规则形式为:A x 即左边为一非终结符,右边没有限制可以表示的句子如:anbn语法例子:S a|S b S 该文法应用于程序设计语言中 35短语结构语言(7)上下文有关语法:语法规则:规则右边的符号数不能少于左边符号数 右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的可以表示的语言:anbncn语法例子:AB BA 36短语结构语言(
26、8)无约束短语结构语法:语法规则是没有限制的:左边可以是任意多个终止符或非终止符 右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言与图灵机等价语法例子:A B C 37短语结构语言(9)Chomsky体系无约束语法无约束语法上下文有关语法上下文有关语法上下文无关语法上下文无关语法正则语法正则语法 38CFG的分析算法(1)用一个短语结构语法对一个句子进行语法分析,意味着寻找一个从起始符到该句子的推导,这个推导一般可以表示为一棵句法树 一般一棵句法树对应的推导不是唯一的,但是如果在推导过程中每次总是重写最左边的非终止符,则称该推导为最左推导。Mary Mary Mary eats M
27、ary eats cheese 39CFG的分析算法(2):=:=John|Marry:=:=eats|drinks :=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMary 40CFG的分析算法(3)句法分析器分为:从推导方向来分:自顶向下:从树顶的根结点开始推导建立句法树,方向是从起始符S到句子 自底向上:从树底部的叶结点(词或词类)规约,建立句法树,方向是从句子到S 从算法上分:回溯算法:每次只尝试一种推导,当这种推导失败时便返回以尝试另一种推导 并行算法:同时进行所有的推导 41CFG的分析算法(4)自顶向下的回溯算法
28、 该方法逐个地枚举推导直到找到一个能生成句子的推导 一般,对具有左递归的语法,该方法需要增加某些测试以避免陷入死循环 对于”Mary eats cheese”的句法和推导为:SNP+VP (1)SNP+VP (1)NP N (2)N+VP (2)VP V (3)N+V+NP (4)VP V+NP (4)N+V+N (2)42转移网络转移网络(1)转移网络在自动机理论中用来表示语法。句法分析中的转移网络由结点和带有标记的弧组成,结点表示状态,弧对应于符号,基于该符号,可以实现从一个给定的状态转移到另一个状态。句 子:图 16.2(a)S NP+VP 的 转 移 网 络 开 始 状 态 中 间 状
29、 态 终 止 状 态 NP VP NP:N 图图 16.2(b)NP ART+N 和和 NP N 的的 转转 移移 网网 络络 开开 始始 状状 态态 中中 间间 状状 态态 终终 止止 状状 态态 ART N 43Dog bitesDog bites 44转移网络转移网络(2)扩充转移网络扩充转移网络ATNATN ATNATN是是2020世纪世纪7070年代由年代由W.WoodsW.Woods提出来的提出来的 ATNATN语法属于一种增强型的上下文无关语法,即用上下文无语法属于一种增强型的上下文无关语法,即用上下文无关文法描述句子文法结构,并同时提供有效的方式将各种关文法描述句子文法结构,并
30、同时提供有效的方式将各种理解语句所需要的知识加到分析系统中,以增强分析功能理解语句所需要的知识加到分析系统中,以增强分析功能,从而使得应用,从而使得应用ATNATN的句法分析程序具有分析上下文有关语的句法分析程序具有分析上下文有关语言的能力。言的能力。ATNATN主要是对转移网络中的弧附加了过程而得到的。当通过主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候,附加在该弧上的过程就会被执行。这些过一个弧的时候,附加在该弧上的过程就会被执行。这些过程的主要功能是(程的主要功能是(I I)对文法特征进行赋值;对文法特征进行赋值;(II)II)检查数(检查数(numbernumber)或人
31、称(第一、二或三人称)条件是否满足,并或人称(第一、二或三人称)条件是否满足,并据此允许或不允许转移。据此允许或不允许转移。45转移网络转移网络(3)表示句子的框架表示句子的框架 46转移网络转移网络(4)表示句子的框架表示句子的框架 47转移网络转移网络(4)表示句子的框架表示句子的框架 48非确定性算法与确定性算法非确定性算法与确定性算法(1)上面介绍的算法是非确定性的,分析过程中常常要进行回溯。上面介绍的算法是非确定性的,分析过程中常常要进行回溯。这就降低了算法的效率。这就降低了算法的效率。实际上,在特定的上下文中,除了某些固有的歧义外,自然语实际上,在特定的上下文中,除了某些固有的歧义
32、外,自然语言的句法分析绝大多数都是确定的。言的句法分析绝大多数都是确定的。1977年年MIT的的Marcus提出了句法分析的确定性提出了句法分析的确定性 算法。算法。该算法的最大特点是确保在任何情况下,一旦一个输入句子的该算法的最大特点是确保在任何情况下,一旦一个输入句子的部分结构被分析出来,便不再更改,一直保持到最后成为句子部分结构被分析出来,便不再更改,一直保持到最后成为句子最终分析的一部分。最终分析的一部分。49非确定性算法与确定性算法非确定性算法与确定性算法(2)Marcus的确定性算法的确定性算法 该句法分析系统具有如下三个特点:该句法分析系统具有如下三个特点:(1)由数据驱动由数据
33、驱动(2)已分析出来的部分结构可以成为对后继分析已分析出来的部分结构可以成为对后继分析 过程的预期过程的预期(3)通过通过“向前看向前看”(look-ahead)来代替回溯来代替回溯特点特点(1)和和(2)反映了自底向上和自顶向下分析相结合的策略。反映了自底向上和自顶向下分析相结合的策略。特点特点(3)则是要通过引入句子中的上下文约束来决定分析规则是要通过引入句子中的上下文约束来决定分析规则,保证句法分析器则,保证句法分析器“看准了看准了”以后再操作,从而避免了以后再操作,从而避免了回溯回溯 50非确定性算法与确定性算法非确定性算法与确定性算法(3)汉语的特点汉语的特点汉语的词类缺乏形式标注汉
34、语的词类缺乏形式标注汉语词类跟句法成分之间不存在简单的一一对应关系汉语词类跟句法成分之间不存在简单的一一对应关系.汉语的句子的构造原则跟短语的构造原则基本一致汉语的句子的构造原则跟短语的构造原则基本一致 汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和句法结构的递归嵌套性。这些必然要导致大量的回溯,增加计句法结构的递归嵌套性。这些必然要导致大量的回溯,增加计算的开销算的开销 采用确定性分析策略则可以解决这种问题。采用确定性分析策略则可以解决这种问题。51主要内容 自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分析
35、句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理 Web信息抽取 52语义分析(1)语义分析的任务:输入句子的句法结构和句子中每个实词的词义推导出能反映该句子意义的某种形式化表示 对语义现象作形式化处理要比句法现象困难得多,主要原因有语义和句法系统的界限很难划清楚语义及其他认知系统的界限也难以划清楚。用于计算机语义处理的计算语义学还远未成熟 53语义分析(2)格文法 格语法是格语法是Filmore于于1968年提出来的,曾年提出来的,曾 经对自然语言理解经对自然语言理解技术的发展产生过较技术的发展产生过较 大的影响,直到现在不少研究仍在使用大的影响,直到现在不少研究仍在使用
36、 格语法。因为人们认识到格关系确实是格语法。因为人们认识到格关系确实是 描述语言语义描述语言语义(包括和包括和语法的关系语法的关系)的一种很好的形式,当然在实际应用过程中不的一种很好的形式,当然在实际应用过程中不 可可避免地要有些修改。避免地要有些修改。54语义分析(3)格文法 格文法的特点是允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却相应于语义关系,而非严格的句法关系如句子:Mary hit Bill 的格文法分析结果可以表示为 (hit (Agent Mary)(Dative Bill)在格文法中,格表示的语义方面的关系,反映的是句子中包含的思想、观念等,称
37、为深层格。和短语结构语法相比,格文法对于句子的深层语义有着更好的描述。55语义分析(3)如果两个句子的底层的语义关系一致,各名词成分所代表的格关系不会发生相应的变化。例如,被动句“Bill was hit by Mary”与上述主动句具有不同的句法分析树,但格表示完全相同。S S NP VP NP VP Mary V NP Bill V PP hit Bill was hit by Mary Mary hit Bill Bill was hit by Mary 图 16.12 主动句和被动句的句法分析树 56 57主要内容 自然语言理解的一般问题自然语言理解的一般问题 词法分析词法分析 句法分
38、析句法分析 语义分析语义分析 大规模真实文本的处理大规模真实文本的处理 Web信息抽取 58大规模真实文本的处理(大规模真实文本的处理(1 1)语料库语言学及其特点语料库语言学及其特点 传统的句法传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法语义分析技术,所采取的主要研究方法是基于规则的方法 由于自然语言理解的复杂性,各种知识的由于自然语言理解的复杂性,各种知识的“数量数量”浩瀚无际,而且具有高度的浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识,而且,规则实际上
39、面向语言的使用者人的,将它面向机器则分析结果始知识,而且,规则实际上面向语言的使用者人的,将它面向机器则分析结果始终不尽如人意。终不尽如人意。研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库 59大规模真实文本的处理(大规模真实文本的处理(2 2)传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释,包括拼音、读传统的词典通常是把各类不同的信息放入一个词汇单元中加以解释,包括拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义
40、词、反义词、特殊用法注释,偶尔还有图示或插图,包含着相当可观的信息存储。但是,它还有特殊用法注释,偶尔还有图示或插图,包含着相当可观的信息存储。但是,它还有一些不足,特别是用在自然语言理解时更显得不够一些不足,特别是用在自然语言理解时更显得不够 例如,对于名词例如,对于名词“树树”,传统的词典一般解释为:一种大型的、木制的、多年生长,传统的词典一般解释为:一种大型的、木制的、多年生长的、具有明显树干的植物。基本上是上位词加上辨别特征。但是,这还不够,还缺的、具有明显树干的植物。基本上是上位词加上辨别特征。但是,这还不够,还缺少一些信息少一些信息 第一,它没有谈到树有根,有植物纤维壁组成的细胞,
41、甚至也没有提及它们是生命第一,它没有谈到树有根,有植物纤维壁组成的细胞,甚至也没有提及它们是生命的组织形式。但是在的组织形式。但是在WordNetWordNet中,只要查一下它的上位词中,只要查一下它的上位词“植物植物”,就可以找到这,就可以找到这些信息。些信息。第二,树的定义没有包括对等词的信息,不能推测其他种类的植物存在的可能性。第二,树的定义没有包括对等词的信息,不能推测其他种类的植物存在的可能性。第三,对于各种树都感兴趣的读者,除了查遍词典,没有别的办法。第三,对于各种树都感兴趣的读者,除了查遍词典,没有别的办法。第四,每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的定义中。
42、第四,每个人对树都有自己的认识,而词典的编撰者又没有将其写在树的定义中。如树包括树皮、树枝;树由种子生长而成,等等。如树包括树皮、树枝;树由种子生长而成,等等。可以看出,普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息可以看出,普通词典中遗漏的信息中大部分是关于构造性信息而不是事实性的信息 60大规模真实文本的处理(大规模真实文本的处理(3 3)WordNetWordNet是按一定结构组织起来的义类词典,主要特征表现在是按一定结构组织起来的义类词典,主要特征表现在 第一,整个名词组成一个继承关系。第一,整个名词组成一个继承关系。WordNet WordNet有着严格的层次关系,这
43、样一个单词可以把它所有的前辈的一般有着严格的层次关系,这样一个单词可以把它所有的前辈的一般性的上位词的信息都继承下来,可以提供全局性的语义关系,具有性的上位词的信息都继承下来,可以提供全局性的语义关系,具有IS-AIS-A关关系系 第二、动词是一个语义网第二、动词是一个语义网 动词大概是最难以研究的词汇,在动词词典中,很少有真正的同义动词。动词大概是最难以研究的词汇,在动词词典中,很少有真正的同义动词。表达动词的意义对任何词汇语言学来说都是困难的。表达动词的意义对任何词汇语言学来说都是困难的。WordNetWordNet不做成分分析不做成分分析,而是进行关系分析。这一点是计算语言学界所热衷的课
44、题,与以往的语,而是进行关系分析。这一点是计算语言学界所热衷的课题,与以往的语义分析方法不同。这种关系讨论的是动词间的纵向关系,即词汇蕴涵关系义分析方法不同。这种关系讨论的是动词间的纵向关系,即词汇蕴涵关系 WordNetWordNet基于名词和动词以及其他词性的关系进行词类间的纵向分析,在国际基于名词和动词以及其他词性的关系进行词类间的纵向分析,在国际计算语言学界有很大的影响。但是,它也有不足之处,如对横向关系还没计算语言学界有很大的影响。但是,它也有不足之处,如对横向关系还没有考虑。有考虑。61大规模真实文本的处理(大规模真实文本的处理(4 4)大规模真实文本处理的数学方法主要是统计方法大
45、规模真实文本处理的数学方法主要是统计方法 基于语料库的统计模型(如基于语料库的统计模型(如MarkovMarkov模型、向量空间模型)不模型、向量空间模型)不仅能胜任词类的自动标注任务,而且也能够应用到句法和语义仅能胜任词类的自动标注任务,而且也能够应用到句法和语义等更高层次的分析上来。等更高层次的分析上来。62大规模真实文本的处理(大规模真实文本的处理(5 5)汉语自动分词汉语自动分词 由于汉语句子的最小构成单位是字,有由于汉语句子的最小构成单位是字,有 意义的最小单位却是意义的最小单位却是词,而汉语词与词词,而汉语词与词 之间又没有分割符号(英语词和词之间之间又没有分割符号(英语词和词之间
46、 是是空格)。因此,汉语理解首先要进行空格)。因此,汉语理解首先要进行 汉语自动分词。汉语自动分词。可以概括为两大类方法,可以概括为两大类方法,无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出成词无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出成词可能可能 有词典分词,是一种更有普遍意义的分词方法。有词典分词主要有最有词典分词,是一种更有普遍意义的分词方法。有词典分词主要有最大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标志法,以大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标志法,以及正向最佳匹配和逆向最佳匹配法,而这些方法的一个基本思想都是及正向最佳匹配和逆向最佳匹
47、配法,而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词要依次分出待切分串的可能最长成词 63大规模真实文本的处理(大规模真实文本的处理(6 6)基于统计结果的分词算法基于统计结果的分词算法 首先,根据汉语词典首先,根据汉语词典(有有56800条词汇条词汇)进进 行统计,发现:虽然行统计,发现:虽然词典中的最长词可词典中的最长词可 以达到为以达到为20多个字节(十几个汉字),多个字节(十几个汉字),但但是大多数汉语词都可以由前两字唯一是大多数汉语词都可以由前两字唯一 确定,这样的词占绝大确定,这样的词占绝大多数多数(如在上述词典中占总词汇量的如在上述词典中占总词汇量的85以上以上)。
48、64大规模真实文本的处理(大规模真实文本的处理(7 7)两个首字相同的词的个数的统计两个首字相同的词的个数的统计根据前两字可确定的词个数根据前两字可确定的词个数词总数词总数 所占百分比所占百分比()148431 85.22 228012 9.86 35143 2.71 41184 0.83 5 465 0.40 6 306 0.32 7167 0.20 868 0.08 9 89 0.13 10510 0.09 14214 0.05 15 315 0.08 18118 0.03 65大规模真实文本的处理(大规模真实文本的处理(8 8)机械分词机械分词 主要是在字典索引的支持下进行的,索引结构可
49、以分为两级。主要是在字典索引的支持下进行的,索引结构可以分为两级。一级索引就用汉字内码,查找算法用散一级索引就用汉字内码,查找算法用散 列方法。列方法。而二级索引采用整个词长。而二级索引采用整个词长。66大规模真实文本的处理(大规模真实文本的处理(8 8)最大匹配法。最大匹配法简称最大匹配法。最大匹配法简称MMMM方法。其思想是:在计算机磁盘中存放一方法。其思想是:在计算机磁盘中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字串,通常为为词典中的最大词长,这个字符串的长度称作最大词长。将这串,通常为为词典中的
50、最大词长,这个字符串的长度称作最大词长。将这个具有最大词长的字符串与词典中的词进行匹配,若匹配成功,则可确定个具有最大词长的字符串与词典中的词进行匹配,若匹配成功,则可确定这个字符串为词,计算机程序的指针向后移动与给定最大词长相应个数的这个字符串为词,计算机程序的指针向后移动与给定最大词长相应个数的汉字,继续进行匹配;否则,把该字符串从右边逐次减去一个汉字,再与汉字,继续进行匹配;否则,把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。词典中的词进行匹配,直到成功为止。逆向最大匹配法。逆向最大匹配法简称逆向最大匹配法。逆向最大匹配法简称RMMRMM法。这种方法的基本原理与