1、第五章第五章 中文信息处理的学科理论中文信息处理的学科理论授课时间:2007年1月9日 授 课 人:徐艳华 信息处理的句法理论信息处理的句法理论 信息处理的语义理论信息处理的语义理论 中国计算语言学的理论影响中国计算语言学的理论影响 一、短语结构语法 语言知识的形式化表达手段主要有三种:形式语法、状态转移网络以及特征结构与合一运算。以这些表达手段为基础,对具体的一种自然语言(如汉语)的语言知识进行系统的整理,就得到了关于这种语言的形式语法理论体系。目前基于规则的自动句法分析的形式语法理论主要有短语结构语法、转换生成语法、管辖约束理论、广义的短语结构语法、功能合一语法、词汇功能语法、中心词驱动的
2、短语结构语法、范畴语法、依存语法、树连接语法、链语法等。这些理论都是在计算语言学中经常使用的,它们是学习和研究时应该具备的计算语言学的基础知识。其中,短语结构语法是各种理论和方法的基础。1、短语结构语法的形式化定义 短语结构语法PSG可以定义为一个四元组:G=其中,T是终结符号(terminal symbols)的集合,任何一部现代汉语词典中的词都可以成为这部语法中的终结符号。N是非终结符号的集合,包括词类标记(如名词N,动词V等等)和短语功能标记(如名词性短语NP,动词性短语VP等等)。S是N中的一个元素,称作起始符,语言中的每个句子都是从这个起始符开始推导。P代表一组式子组成的集合,P中的
3、式子具有这样的形式:。一般把具有上面这种形式的式子称为“产生式规则”(production rule)或“重写规则”(rewriting rule),式子中的箭头“”表示替换的意思,即将左边的字符串替换为箭头右边的字符串。产生式需要满足下面三个条件:可以是T和N上的任意字符串,但不能是空字符;可以是T和N上的任意字符串,也可以是空字符;P中至少有一个产生式中的必须由S来充当。一条“产生式”就是一条句法规则。不同类型的语法对规则的形式有不同的限制,句法分析前首先要确定使用什么类型的语法。2、短语结构语法的乔姆斯基分类 乔姆斯基对短语结构语法的重写规则给予不同的限制,得到了4种不同的语法,由于它们
4、是一层套一层的,所以被人们成为“乔姆斯基层级”(1)无约束短语结构语法 又叫0型语法或无限制语法,对于该语法中的每一条产生式,没有任何限制,那么它就成为乔姆斯基层级中生成能力最强的一种形式体系,即0型语法。被这种无约束短语结构语法所定义的语言叫0型语言。(2)上下文有关语法如果语法中的每一条产生式都满足|,即规则左部的符号个数少于或等于规则右部的符号个数(如ABCAbC或者ABCADEC),这种语法就称为上下文有关语法或1型语法。由这种语法产生的语言成为1型语言。是抽象的产生式,其中和都是变量,我们不妨以具体的产生式为例来理解这种语法。如产生式:aXcabc 这条产生式的意思是:如果X出现在上
5、下文“a/c”中,即上文紧挨着符号串a,下文紧挨着符号串c,则非终结符X可以重写为终结符b。因为一个符号的重写依赖于其上下文,这就是这种语法被称为上下文有关语法的原因。(3)上下文无关语法如果一个短语结构语法中的每条规则都采用A的形式,其中,AN,(TN),即每条产生式的左侧必须是一个单独的非终结符,规则右部是非终结符和终结符的组合或者是终结符。在这种形式体系中,规则被应用时不依赖于符号A所处的上下文,因此称为上下文无关语法,又叫2型语法。由这种语法产生的语言叫2型语言比如规则集:S(S)Sx所生成的语言就是一个上下文无关语言。它可以生成成对的括号表达式:x,(x),(x)(4)正则语法又称3
6、型语法,它有两种形式:左线性语法(left-linear grammars)和右线性文法(right-linear grammars)。在一部左线性语法中,所有规则必须采用如下形式:AB或者A;而在一部右线性语法中,所有规则必须如下书写:AB 或者A。其中,A,BN,T,即A和B都是单个非终结符,是终结符的组合。以上四种形式语法,无约束短语结构语法由于不受任何约束限制,生成能力太强,因此无法设计一个程序来判别输入的字符串是不是0型语言中的一个句子,所以0型语法一般很少被使用,也未被用来描写自然语言;上下文有关语法的分析算法过于复杂,尽管1993年周明等用这种语法标注了1300个汉语简单陈述句,
7、但获取的规则数量太大,不便于实际应用;正则语法通常用于词法分析;上下文无关语法的规则体系便于构造,其生成的语言与自然语言最相近,被广泛应用于程序设计语言和自然语言的描写中。所以,一般意义上的短语结构语法专指上下文无关语法 3、短语结构语法的分析能力 短语结构语法的设计思想:句子是由短语结构组成的,从整体句子开始,到句子符号序列的产生,可以通过短语结构规则一步步推导出来,所以用短语结构语法来对句子进行句法分析,就意味着是寻找一个从起始符到该句子的推导,这个推导通常表现为一颗句法树。如果句子是歧义的,也就是说它存在几种推导,那么它会给出所有可能的句法树。假如我们有这样的一部语法:1.S NP VP
8、2.NPn3.NPn n4.VPvt n5.VPvt VP6.VPvt NP7.n学生8.n学习9.n文件10.vt喜欢11.vt学习那么句子“学生喜欢学习文件”的推导过程是:Step0 S初始Step1 NP VP用规则1Step2 n VP用规则2Step3 n vt VP用规则5n vt NP用规则6Step4 n vt vt n用规则4n vt n n用规则3Step5 学生 vt vt n用规则7学生 vt n nStep6 学生 喜欢 vt n用规则10学生 喜欢 n nStep7 学生 喜欢 学习 n用规则11学生 喜欢 学习 n用规则8Step8 学生 喜欢 学习 文件用规则9
9、 S S NP VP NP VP n vt VP n vt NP vt n n n 学生 喜欢 学习 文件 学生 喜欢 学习 文件二、格语法理论 格语法(Case Grammar)是美国语言学家菲尔墨(C.J.Fillmore)在60代中期提出来的着重探讨句法结构与语义之间关系的一种语法理论和语义学理论。它有三部分组成:基本规则,词汇部分和转换部分。基本规则:S=MP,S代表句子(sentence),M代表情态(Medalitv),情态指句子的时态、语态等;P代表命题(Proposition),命题指体词和谓词之间的及物关系,即句子的核心谓词与周围体词的关系,即格关系。词汇部分(1)词库词库是
10、语言中词汇的集合。在词库中除了要标明每一个词条在句法、语义和语音方面的特征外,还需标明它们的底层格的特征。(2)词汇插入格语法中词汇插入问题主要是名词和动词的选择问题。对于名词来说,把词库中每一个名词的特征与格范畴联系起来。转换部分格的转换部分操作与转换生成语法大同小异,大致采用移动、删除、插入、复写等方法。菲尔墨主要研究了有关格的形式和主语确定的转换规则。他认为深层格所体现的语义关系是一个固定而统一的概念,而在表层结构中的表现形式则因语言而异。有些语言主要通过介词来表现,有些语言用屈折变化和词汇变化来表现,有些语言则主要采用次序来表现,有个语言综合采用上述各种形式。从上述这个简单的推导过程中,我们不难发现,短语结构语法存在一个最严重的问题,那就是区分歧义结构的能力很差,连该语法的创始者乔姆斯基本人都认为短语结构文法不适宜描述自然语言,所以他又提出了转换语法和管辖约束理论(GB)来克服短语结构语法的种种局限性。然而,由于转换生成语法通常要涉及到若干个句子之间的关系,强调句法有三个平面:深层、浅层和表层,在机器翻译和自然语言处理中使用起来很不方便,所以没有被研究者广泛应用。三、汉语名词的语义分类名词的语义角色分类.doc