1、中文信息处理介绍中文信息处理介绍 Introduction to Chinese Information Processing YU Shiwen ZHU XuefengInstitute of Computational Linguistics,School of electronics engineering and computer science,Peking University ( ICL/PKU )April, 23, 2007, Moscow 北京大学计算语言学研究所http:/主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合
2、型语言知识库介绍综合型语言知识库介绍研究中的课题研究中的课题与与 CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/*主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合型语言知识库介绍综合型语言知识库介绍研究中的课题研究中的课题与与 CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/* *相关的术语及其所指相关的术语及其所指 Chinese Information Processing(CIP) 中文信息处理中文信息处理 Chinese character Informat
3、ion Processing 汉字信息处理汉字信息处理CIP Chinese character (IT) = Chinese ideograph (Sinology) Chinese language Information Processing 汉语信息处理汉语信息处理 Natural Language Processing(NLP) 自然语言处理自然语言处理L Language Information Processing 语言信息处理语言信息处理(1) (1) NLP/ CIP(2) (2) Chinese-centered Multi-lingual Information Proc
4、essing 以汉语为核心的多语言以汉语为核心的多语言信息处理信息处理北京大学计算语言学研究所http:/* *相关的术语及其所指相关的术语及其所指 Natural Language Understanding 自然语言理解自然语言理解自然语言处理的最高境界自然语言处理的最高境界Computational Linguistics 计算语言学计算语言学ABBYY Headquarters V. Selegey:“both linguistic and computational aspects of Chinese modeling”ICL/PKUICL/PKU 以文科学科命名,设在理科的信息科
5、学以文科学科命名,设在理科的信息科学技术学院,正好显著地反映了文理交叉的特点。技术学院,正好显著地反映了文理交叉的特点。 北京大学计算语言学研究所http:/* *“汉语信息处理汉语信息处理” ” 在研究什么?在研究什么?实用系统:实用系统: (1 1)人工系统的自然语言界面(问答系统)人工系统的自然语言界面(问答系统) (2 2)机器翻译与机器辅助翻译)机器翻译与机器辅助翻译 (3 3)信息检索、信息提取与搜索引擎)信息检索、信息提取与搜索引擎 (4 4)文本管理(文本分类与聚类、文献摘要与述评、)文本管理(文本分类与聚类、文献摘要与述评、OCROCR后处理)后处理) (5 5)词典计算机辅
6、助编纂)词典计算机辅助编纂 (6 6)领域知识工程(术语提取、知识元数据库、百科全书编撰)领域知识工程(术语提取、知识元数据库、百科全书编撰) (7 7)语音接口技术(语音识别的后处理、语音合成的预处理)语音接口技术(语音识别的后处理、语音合成的预处理) (8 8)自然语言处理系统评测技术)自然语言处理系统评测技术 (9 9)面向语言本体研究与语言教学的应用)面向语言本体研究与语言教学的应用 汉语信息处理既立足于汉字信息处理,汉语信息处理既立足于汉字信息处理,又区别于汉字信息处理。又区别于汉字信息处理。处理对象不再是单个的汉字或字符串,处理对象不再是单个的汉字或字符串,而是语言学的单位:词、短
7、语、句子乃至篇章、文档集合。而是语言学的单位:词、短语、句子乃至篇章、文档集合。两者之间也有联系两者之间也有联系: :拼音汉字转换、简繁转换、拼音汉字转换、简繁转换、OCR OCR 后处理、后处理、 文献检索、语音识别与合成等等。文献检索、语音识别与合成等等。北京大学计算语言学研究所http:/* *关于关于“汉语信息处理汉语信息处理”的基本认识的基本认识自然语言处理是数值型计算机在非数值领域最早的自然语言处理是数值型计算机在非数值领域最早的应用(应用(MT)。但在)。但在“自然语言理解自然语言理解” 的层次上,的层次上,至至今没有突破今没有突破:(1 1)依据对人类语言机制的认识)依据对人类
8、语言机制的认识(2 2)语言既是对象,又是工具)语言既是对象,又是工具 (3 3)依据对当代计算机能力的认识)依据对当代计算机能力的认识(4 4)依据)依据NLPNLP技术发展的历史经验技术发展的历史经验汉语理解研究和其他语言一样困难。汉语理解研究和其他语言一样困难。需要交流。希望与俄国同行交流。需要交流。希望与俄国同行交流。在技术层面上,汉语信息处理又有在技术层面上,汉语信息处理又有特殊的课题。特殊的课题。北京大学计算语言学研究所http:/*主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合型语言知识库介绍综合型语言知识库介绍研究中的课题研
9、究中的课题与与 CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/实例之一实例之一关于自动升降晾衣架的对话关于自动升降晾衣架的对话Husband丈夫理解了妻子的意思吗?丈夫理解了妻子的意思吗?虚词词义:才(数量词前后,意义不同)虚词词义:才(数量词前后,意义不同)背景知识:保修期背景知识:保修期知识激活机制?知识激活机制? 自然语言(汉语)理解的困难自然语言(汉语)理解的困难北京大学计算语言学研究所http:/实例之二实例之二关于关于“沙漠化沙漠化”的文章的文章 “几年前由于种植籽瓜有利可图,使大批的种植者几年前由于种植籽瓜有利可图,使大批的种植者就到过渡就
10、到过渡带来开垦,带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易造。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。成风蚀。” 2001年年9月号月号就就/ 到到/ 就到就到/ 到到/ 到过到过/ 过过/ 过渡过渡/ 带带/ 来来/ 带来带来/未登录词的识别未登录词的识别知识背景知识背景认知机制认知机制 *自然语言(汉语)理解的困难自然语言(汉语)理解的困难北京大学计算语言学研究所http:/汉语信息处理的主攻方向汉语信息处理的主攻方向自然语言理解研究特别困难,目前难以突破。自然语言理解研究特别困难,目前难以突破。退而求其次:自然语言处理(退而求其次:自然语言处理(汉语信息处理汉语信息处理)。)。计
11、算机处理自然语言的第一个障碍计算机处理自然语言的第一个障碍是是歧义歧义问题。问题。人能够利用语言知识、语境信息、人能够利用语言知识、语境信息、背景知识消解歧义。背景知识消解歧义。计算机进行机械式的分析,计算机进行机械式的分析,面临的困难要大得多。面临的困难要大得多。以下介绍信息处理所遇到的以下介绍信息处理所遇到的汉语歧义的类型汉语歧义的类型和和 求解之道。求解之道。北京大学计算语言学研究所http:/词语切分问题词语切分问题: 白天鹅白天鹅可能的切分:可能的切分:白天鹅白天鹅/-/-白白/ / 天鹅天鹅/-/-白天白天/ / 鹅鹅/-/-白白/ / 天天/ / 鹅鹅/ /计算机程序可以按某种算
12、法实现这种切分,给出一种或多种结果。对否?计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?白天鹅飞过来了白天鹅飞过来了白白/ / 天鹅天鹅/ / 飞飞/ / 过来过来/ / 了了白天鹅可以看家白天鹅可以看家白天白天/ / 鹅鹅/ / 可以可以/ / 看看/ / 家家/ /白天鹅在湖里游泳白天鹅在湖里游泳白白/ / 天鹅天鹅/ / ?白天?白天/ / 鹅鹅/ / ?同形词辨析:同形词辨析:只只量词量词 q zhi1 ?副词?副词 d zhi3?这只会测水温的鸭子这只会测水温的鸭子这这/ / 只只/ / 会会/ / 测测/ / 水温水温/ / 的的/ / 鸭子鸭子/ / (切分无歧
13、义)(切分无歧义)这这/r /r 只只/q /q 会会/v /v 测测/v /v 水温水温/n /n 的的/u /u 鸭子鸭子/n , /n , 挺有用的挺有用的这这/r /r 只只/d /d 会会/v /v 测测/v /v 水温水温/n /n 的的/u /u 鸭子鸭子/n /n ,没什么用,没什么用汉语信息处理主攻方向汉语信息处理主攻方向歧义消解歧义消解北京大学计算语言学研究所http:/读音相同的读音相同的“连连”也有不同的词性(意义)也有不同的词性(意义): 一个连有三个排一个连有三个排“连连”是名词是名词 n 我们兄弟心连心我们兄弟心连心“连连”是动词是动词 v 苹果可以连皮吃苹果可以
14、连皮吃“连连”是介词是介词 p词义辨析:词义辨析:讲真话讲真话 / / 讲卫生讲卫生短语结构的歧义短语结构的歧义: m + q + n + “的的” + n三个大学的老师三个大学的老师 三三/m 个个/q 大学大学/n 的的/u 老师老师/n 三三/m 个个/q 大学大学/n 的的/u 老师老师/n 三三/m 个个/q 大学大学/n 的的/u 老师老师/n 三所大学的老师三所大学的老师 三三/m 所所/q 大学大学/n 的的/u 老师老师/n 三位大学的老师三位大学的老师 三三/m 位位/q 大学大学/n 的的/u 老师老师/n 汉语信息处理主攻方向汉语信息处理主攻方向歧义消解歧义消解北京大学
15、计算语言学研究所http:/ 句子结构的歧义句子结构的歧义例例1 1 会员会员 选举选举 他他 当当 主席主席 例例2 2 学生学生 认为认为 他他 是是 校长校长 n v r v nn v r v n (切分、标注无歧义)(切分、标注无歧义) S S NP VP NP VP NP VP S NP VP n v r v n n v r v n 图 5.2 句法树 1 图 5.3 句法树 2 句法结构(树)不同北京大学计算语言学研究所http:/汉语语义分析汉语语义分析(切分、标注、句法分析都无歧义)(切分、标注、句法分析都无歧义) 熊猫熊猫/n /n 吃吃/v /v 竹笋竹笋/n /n 学生学
16、生/n /n 吃吃/v /v 食堂食堂/n /n 民工民工/n /n 吃吃/v /v 大碗大碗/n/n 老师老师/n /n 写写/v /v 毛笔毛笔/n/n汉语语义指向分析汉语语义指向分析 写写/v /v 好好/a /a 了了/u /u (文章文章) 写写/v /v 累累/a /a 了了/u /u (老师老师) 写写/v /v 秃秃/a /a 了了/u /u (毛笔毛笔)汉语语境分析汉语语境分析 小张小张/n /n 打针打针/v /v 去去/v /v 了了/u /u (护士?病人?)(护士?病人?) 语义歧义以及依赖语境的歧义消解语义歧义以及依赖语境的歧义消解北京大学计算语言学研究所http:
17、/ 其他:长句与句号、逗号其他:长句与句号、逗号 中文中常有长句子,一逗到底。例:中文中常有长句子,一逗到底。例:“新一届测绘学名词审定委员会的主要特点是年青化,吸新一届测绘学名词审定委员会的主要特点是年青化,吸收收了一些工作在教学、科研前沿的青年专家学者,充分发挥了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对名词工作热情高、活力大的特长,他们接触新知识多,对名词工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。同中老年专家共同做好新一届委员会的名词审定工作。” 形式上的一句话包含形式上的一句话包含100100多个汉字。多个汉字。除第一个分句外,
18、后面的分句都没有主语。除第一个分句外,后面的分句都没有主语。 北京大学计算语言学研究所http:/ 1. 你得藏在一个你得藏在一个你看得见他,可是你看得见他,可是 他看不见你的他看不见你的地方。地方。(逗号断开了结构)(逗号断开了结构)2. 车臣武装分子和世界其他地区的车臣武装分子和世界其他地区的 恐怖分子是一丘之貉,应该合力恐怖分子是一丘之貉,应该合力 打击他们。打击他们。 (分句的主语省略,(分句的主语省略,“他们他们”又指谁?)又指谁?)其他:长句与句号、逗号其他:长句与句号、逗号北京大学计算语言学研究所http:/小明要求小明要求他他爸爸给爸爸给他他弟弟买一件弟弟买一件他他喜欢的衣服,
19、喜欢的衣服,他他同意了。同意了。(4 个个 “ “他他” ” ,各指谁?),各指谁?)重庆队得重庆队得8888分,客场负于台湾队分,客场负于台湾队2 2分。分。(CBA, , 台湾队和重庆队各得多少分?比赛地点?)台湾队和重庆队各得多少分?比赛地点?) 其他:指代与省略其他:指代与省略北京大学计算语言学研究所http:/ 我在家里。我在家里。(be)(be) 我在家里看书。我在家里看书。(in)(in) 我在看书。我在看书。 (-ing(-ing) ) 你在干什么?你在干什么?看书。看书。 你喜欢干什么?你喜欢干什么?看书。看书。 如果我是你,我就去了。如果我是你,我就去了。 如果我有时间,我
20、就去。如果我有时间,我就去。 其他:时态、语态、语气其他:时态、语态、语气北京大学计算语言学研究所http:/汉语信息处理还有其他障碍汉语信息处理还有其他障碍 隐喻隐喻 幽默幽默 夸张夸张 双关双关 影射影射 20062006年年1111月月“中国中文信息学会二十五周年学术会议中国中文信息学会二十五周年学术会议”俞士汶报告:俞士汶报告:“文学语言与自然语言理解研究文学语言与自然语言理解研究” 北京大学计算语言学研究所http:/*主要内容主要内容中文信息处理概要中文信息处理概要 汉语信息处理的主攻方向汉语信息处理的主攻方向 综合型语言知识库介绍综合型语言知识库介绍研究中的课题研究中的课题与与
21、CIP 相关的信息相关的信息结语与致谢结语与致谢 北京大学计算语言学研究所http:/关于一般的自然语言处理系统关于一般的自然语言处理系统语言知识库应用程序应用程序-语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的语言知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然规模和质量在很大程度上决定了自然语言处理系统的成败。面向自然语言处理的语言知识库对语言本体研究和语言教学也有重要意义。语言处理的语言知识库对语言本体研究和语言教学也有重要意义。自然语言处理系统自然语言处理系统NLP是世界性难题北京大学计算语言学研究所ht
22、tp:/语言单位不清晰语言单位不清晰: :语素、词、短语、句子语素、词、短语、句子词缺乏形态变化词缺乏形态变化: :词类多功能与词的兼类词类多功能与词的兼类虚词虚词: : 词形与实词无区别、隐现不定词形与实词无区别、隐现不定 句子与句法结构:句子与句法结构:嵌套不需要附加成分嵌套不需要附加成分 主谓结构作谓语主谓结构作谓语 不完整,缺省主语不完整,缺省主语 时态、语态和语气的表现缺乏形式标记时态、语态和语气的表现缺乏形式标记形式和意义之间的对应关系复杂形式和意义之间的对应关系复杂 (吃香蕉、吃筷子、吃食堂)(吃香蕉、吃筷子、吃食堂) *书面汉语特点及其对信息处理的影响书面汉语特点及其对信息处理
23、的影响北京大学计算语言学研究所http:/ 吕叔湘:吕叔湘:“有了形态变化,语法分析就比较容有了形态变化,语法分析就比较容易进行。没有严格的形态变化,在语法分析上就比易进行。没有严格的形态变化,在语法分析上就比较容易引起问题。较容易引起问题。” 汉语缺乏形态变化,缺乏形式标记,自动分析汉语缺乏形态变化,缺乏形式标记,自动分析也就缺少可以把握的线索。汉语自动分析如果不比也就缺少可以把握的线索。汉语自动分析如果不比其他的语言更困难,至少不会比其他的语言更容易。其他的语言更困难,至少不会比其他的语言更容易。 汉语信息处理尤其需要汉语信息处理尤其需要 大规模的高质量的大规模的高质量的 语言知识库的支持
24、。语言知识库的支持。 书面汉语特点及其对信息处理的影响书面汉语特点及其对信息处理的影响北京大学计算语言学研究所http:/ICL/PKU的现代汉语语言知识库的现代汉语语言知识库基于上述认识,积基于上述认识,积2020余年之努力,余年之努力,ICL/PKUICL/PKU已经开发:已经开发:(1 1)现代汉语语法信息词典现代汉语语法信息词典(8 8万词语)万词语)(2 2)面向汉英机器翻译的)面向汉英机器翻译的现代汉语语义词典现代汉语语义词典(6 6万记录)万记录)(3 3)面向跨语言文本处理的)面向跨语言文本处理的中英文概念词典中英文概念词典 (约(约1010万概念)万概念)(4 4)大规模现代
25、汉语)大规模现代汉语基本标注语料库基本标注语料库(60006000多万汉字)多万汉字)(5 5)句子对齐的)句子对齐的双语语料库双语语料库 (8080万英汉句对)万英汉句对)(6 6)多个专业领域的)多个专业领域的术语库术语库 (3535万条英汉对照术语)万条英汉对照术语)(7 7)现代汉语)现代汉语短语结构规则库短语结构规则库(600600条规则)条规则)(8 8)用于语言知识库开发的)用于语言知识库开发的各种工具软件各种工具软件 规模大、种类多、质量上乘,已经在诸多实用系统的开发规模大、种类多、质量上乘,已经在诸多实用系统的开发中得到应用,产生了广泛影响,仍期待合作与进一步发展中得到应用,
26、产生了广泛影响,仍期待合作与进一步发展。 北京大学计算语言学研究所http:/(1 1)现代汉语语法信息词典现代汉语语法信息词典GKB “现代汉语语法信息词典现代汉语语法信息词典是一部面向语言信息是一部面向语言信息处理的大型电子词典。它按照语法功能和意义相结合的处理的大型电子词典。它按照语法功能和意义相结合的准则收录了准则收录了7.37.3万余词语。依照语法功能分布的原则,建万余词语。依照语法功能分布的原则,建立了词类体系,完成了这立了词类体系,完成了这7.37.3万词语的归类。并在此基础万词语的归类。并在此基础上,分类描述每个词语的各种语法属性。上,分类描述每个词语的各种语法属性。” 引自中
27、国工程院编引自中国工程院编2020世纪我国重大工程技术成就世纪我国重大工程技术成就之第二项汉字信息处理之第二项汉字信息处理与印刷革命(暨南大学出版社与印刷革命(暨南大学出版社20022002年第一版年第一版3131页)页) 清华大学出版社出版了介绍这部电子词典的专著清华大学出版社出版了介绍这部电子词典的专著现代汉语语法信息词典详解现代汉语语法信息词典详解第一版第一版19981998年,第二版年,第二版20032003年年词典采用数据库文件格式。目前已扩充到词典采用数据库文件格式。目前已扩充到8 8万词语。万词语。北京大学计算语言学研究所http:/北京大学计算语言学研究所http:/北京大学计
28、算语言学研究所http:/北京大学计算语言学研究所http:/现代汉语语法信息词典详解北京大学计算语言学研究所http:/现代汉语语法信息词典现代汉语语法信息词典 GKB词类体系与词典结构词类体系与词典结构人称人称代词库代词库指示和疑问指示和疑问代词库代词库体宾体宾动词库动词库谓宾谓宾动词库动词库离合离合动词库动词库总库总库名词库名词库动词库动词库形容词库形容词库代词库代词库 量词库量词库 总共总共3434个库文件,通过个库文件,通过“词语词语+ +词类词类+ +同形同形”连接,构成上下位继承关系的树。连接,构成上下位继承关系的树。采用采用19801980年代当时先进的数据库技术,编制机器词典
29、。年代当时先进的数据库技术,编制机器词典。技术路线、总体设计、规格说明已经受了历史的考验。技术路线、总体设计、规格说明已经受了历史的考验。北京大学计算语言学研究所http:/现代汉语语法信息词典现代汉语语法信息词典总库之样例总库之样例“词语词语 词类词类 同形同形” ” 是主关键项是主关键项 词语词语词类词类同形同形拼音拼音注注 挨挨v vA Aai1ai1触,碰,靠近触,碰,靠近 挨挨v vB Bai2ai2遭受,忍受遭受,忍受 安装安装v v an1zhuang1an1zhuang1 保管保管v v1 1bao3guan3bao3guan3保存保存 保管保管v v2 2bao3guan3b
30、ao3guan3担保担保抄抄v vA Achao1chao1照原稿写照原稿写抄抄v vB Bchao1chao1走近道走近道地道地道a a di4dao5di4dao5正宗正宗 地道地道n n di4dao4di4dao4 叫叫v vA1A1jiao4jiao4人或动物发出的较大声音人或动物发出的较大声音叫叫v vA2A2jiao4jiao4呼唤,招呼;雇呼唤,招呼;雇叫叫v vA3A3jiao4jiao4称为称为叫叫v vB Bjiao4jiao4使,让,命令使,让,命令北京大学计算语言学研究所http:/G K BG K B 动词库样例动词库样例(数据库文件主关键词还是(数据库文件主关键词
31、还是“词语词语+v+v+同形同形”)北京大学计算语言学研究所http:/G K BG K B 体宾动词分库样例体宾动词分库样例(主关键词仍是(主关键词仍是“词语词语+v+v+同形同形”)词语词语同形同形受事受事格标格标1与事与事格标格标2施事施事备备 注注得到受得到可靠的数据告诉受把与把好消息告诉他去A1受把把苹果皮去了去A2受去封信/去香港去B受去白娘子支持1受把把顶棚支持住支持2与对对模范要支持坐受把施前排坐嘉宾北京大学计算语言学研究所http:/(2 2)现代汉语语义词典)现代汉语语义词典 CSDCSD 机器翻译要求(更精细的)词义消歧机器翻译要求(更精细的)词义消歧 例例1 1 她的她
32、的仪表仪表很精密。很精密。 例例2 2 她的她的仪表仪表很端庄。很端庄。例例1 1和例和例2 2的句法结构完全一样,对的句法结构完全一样,对“仪表仪表”的词义消歧无贡献,只能的词义消歧无贡献,只能根据与其搭配的形容词对其根据与其搭配的形容词对其“主体主体”语义的选择特性。语义的选择特性。“精密精密(precise)”的的 “主体主体”是是“器具器具 (instrument)”,“端庄端庄(decorous)”的的 “主体主体”是是“品貌品貌 (appearance)”。北京大学计算语言学研究所http:/现代汉语语义词典(含现代汉语语义词典(含6 6万实词万实词)现代汉语语法信息词典现代汉语语
33、法信息词典的扩充,面向机器翻译。的扩充,面向机器翻译。词词语语词词类类同同形形义义项项码码语义语义类类释义释义英译英译配配价价主主体体客客体体与与事事冲冲v vA A1 1创造创造冲茶冲茶makemake(teatea)2 2人人固固饮饮冲冲v vA A2 2促变促变冲胶冲胶卷卷developdevelop(a filma film)2 2人人材材料料冲冲v vA A3 3促变促变冲盘冲盘子子RinseRinse(the platethe plate) 2 2人人器器皿皿冲冲v vB B位移位移冲锋冲锋chargecharge1 1动动物物动词库部分信息样例(动词库部分信息样例(“义项码义项码
34、”是细化的词义信息)是细化的词义信息)北京大学计算语言学研究所http:/(3 3)中英文概念词典)中英文概念词典 CCDCCD 汉外翻译既提出了词义消歧的需求,也是检验词义消歧汉外翻译既提出了词义消歧的需求,也是检验词义消歧的手段,不过这个手段并不是充分的。的手段,不过这个手段并不是充分的。 “病毒病毒” “ “virus” (1 1)“生命体生命体”(生物学领域)(生物学领域)(2 2)“恶意代码恶意代码”(信息技术领域)(信息技术领域) 在海量信息的环境中,要提高(跨语言)信息检索、信在海量信息的环境中,要提高(跨语言)信息检索、信息提取的查准率,区分这两个概念是必要的。息提取的查准率,
35、区分这两个概念是必要的。 中英文概念词典(中英文概念词典(CCD: Chinese Concept Dictionary)从另一个视角组织词汇语义知识。从另一个视角组织词汇语义知识。面向(跨语言)信息面向(跨语言)信息 提取提取/ /检索检索 和和 文本处理。文本处理。 概念由同义词集合概念由同义词集合(Synset(Synset) )来表示,概念即同义词集。来表示,概念即同义词集。 教师、教员、老师、先生、导师、老板、师傅、孩子王、教师、教员、老师、先生、导师、老板、师傅、孩子王、臭老九、臭老九、 就是一个概念。就是一个概念。北京大学计算语言学研究所http:/(3 3)中英文概念词典)中英
36、文概念词典 CCD CCD 是是一个双语一个双语词典词典 以英文以英文Wordnet 1.6版版 为基础,实现了近为基础,实现了近1010万个概念从英语到汉万个概念从英语到汉语的对应;对语的对应;对英文英文Wordnet 1.6版的覆盖面达版的覆盖面达90%90%以上,就规模和深度以上,就规模和深度而言,是全球多语而言,是全球多语Wordnet建设中一件带标志性的事件。建设中一件带标志性的事件。 在在CCD中,中,“先生先生”反映的不同概念(反映的不同概念(教师教师/ /丈夫丈夫/ /师傅师傅)或者说)或者说“先先生生”的不同义项的不同义项(word sense)分别用不同的分别用不同的 Sy
37、nset表示,放在表示,放在“树树”的两的两个个不同的节点中。各个概念之间有如下关系:不同的节点中。各个概念之间有如下关系: 上下位(上下位(HypernymyHypernymy)、整体)、整体- -部分(部分(HolonymyHolonymy)、)、 反义(反义(AntonymyAntonymy)、)、 致使(致使(CauseCause)、蕴涵)、蕴涵 (EntailmentEntailment)。)。 GKB,CSD主要反映词与词的组合关系,而主要反映词与词的组合关系,而CCD则主要则主要反映词义间的反映词义间的聚合关系。聚合关系。 北京大学计算语言学研究所http:/“先生”表示的概念之
38、一 OffsetSynsetCsynsetHypernymHyponymDefinitionCdefinition07632177teacherinstructor教师教员老师先生导师老板孩子王臭老九07235322070863320716230407209465072437670727965907297622073411760740109807414251074251800749402507520938075336740755140407551581075611510763262407632736a person whose occupation is teaching以教学为职业的人北京大
39、学计算语言学研究所http:/“先生”表示的另外两个概念OffsetSynsetCsynsetHypernymHyponymDefinitionCdefinition07331418husband hubby married_man丈夫先生夫君夫婿爱人老公郎君驸马驸马爷0760285307109482071959680725572607328008a married man;a womans partner in marriage已婚男子;婚姻中女性一方的伴侣 OffsetSynsetCsynsetHypernymHyponymDefinitionCdefinition07414666Mist
40、erMr.先生师傅同志大哥老兄老弟07391044 a form of address for a man对男子的一种称呼北京大学计算语言学研究所http:/中英文概念词典可视化表示中英文概念词典可视化表示(树之节点(树之节点同义词集合)同义词集合)已有英语,已有英语,再加入韩语、再加入韩语、再加入日语再加入日语北京大学计算语言学研究所http:/(3 3)中英文概念词典)中英文概念词典 CCD CCD 不仅仅是双语不仅仅是双语 WordNet它反映汉语的特点,面向中文信息处理的需求。它反映汉语的特点,面向中文信息处理的需求。(1 1)对概念、概念关系有调整和发展)对概念、概念关系有调整和发展
41、 汉语有汉语有“叔父,伯父,姑父,姨夫,舅父叔父,伯父,姑父,姨夫,舅父”,英语中没有分别,英语中没有分别对应的概念,对应的概念,CCD 的解决办法是让这些概念对应英语中的的解决办法是让这些概念对应英语中的“uncle”。汉语中有汉语中有“笔笔”这个概念,英语中没有,只有这个概念,英语中没有,只有“pen, pencil, ” 设立设立“虚概念节点虚概念节点”(writing tool) (2 2)增添汉语特有的特征属性)增添汉语特有的特征属性 褒贬义、汉语反义词的音节褒贬义、汉语反义词的音节限定特征(限定特征(暗暗- -亮,黑暗亮,黑暗- -明亮明亮)(3 3)增添)增添词义分析必要的组合关
42、系词义分析必要的组合关系 搭配信息(搭配信息(锻炼身体,锻炼意志,锻炼身体,锻炼意志,* *锻炼道德锻炼道德)北京大学计算语言学研究所http:/(4 4)大规模现代汉语基本标注语料库)大规模现代汉语基本标注语料库 原始语料原始语料例例1 1:此类编著内容抄自别人的多,多到被人告到了法庭。此类编著内容抄自别人的多,多到被人告到了法庭。例例2 2:炮兵学院原来围墙残缺,周边群众进城,习惯抄近道。炮兵学院原来围墙残缺,周边群众进城,习惯抄近道。加工后的语料加工后的语料例例1 1: 此类此类/r /r 编著编著/v /v 内容内容/n /n 抄抄/v /v 自自/p /p 别人别人/r /r 的的/
43、u /u 多多/a /a ,/w /w 多多/a /a 到到/v /v 被被/p /p 人人/n /n 告告/v /v 到到/v /v 了了/u /u 法庭法庭/n /n 。/w/w 例例2 2: 炮兵炮兵/n /n 学院学院/n /n 原来原来/d /d 围墙围墙/n /n 残缺残缺/v /v ,/w /w 周边周边/n /n 群众群众/n /n 进城进城/v /v ,/w /w 习惯习惯/v /v 抄抄/v /v 近道近道/n /n 。/w/w 词典中的语言知识词典中的语言知识(静态、显性、不确定)(静态、显性、不确定)与语料库中的语言知识与语料库中的语言知识(动态、隐性、确定)(动态、隐
44、性、确定)实现语料库基本标注使词汇知识、词性知识显性化实现语料库基本标注使词汇知识、词性知识显性化知识显性化的目的之一便于实现机器学习(知识显性化的目的之一便于实现机器学习(Learning from DataLearning from Data) 北京大学计算语言学研究所http:/北大语料加工中的规范北大语料加工中的规范重要性重要性大型语言工程不可或缺大型语言工程不可或缺科学性科学性词组本位语法体系词组本位语法体系 实践性实践性指导实践,接受检验,加以修订指导实践,接受检验,加以修订适用性适用性标记集的慎重选择标记集的慎重选择 (两套标记集,先后发表,接受广泛的检验)(两套标记集,先后发表
45、,接受广泛的检验) 稳定性稳定性一定时期内相对稳定一定时期内相对稳定北京大学现代汉语语料库基本加工规范北京大学现代汉语语料库基本加工规范中文信息学报中文信息学报, 2002. No.52002. No.5,pp.49-64pp.49-64;No.6No.6,pp.58-65pp.58-65北大语料库加工规范:切分北大语料库加工规范:切分词性标注词性标注注音注音新加坡:新加坡:汉语与语言计算学报,汉语与语言计算学报,2003. 2003. No.2No.2,pp.121-158pp.121-158 台湾中研院语言学研究所黄居仁研究员台湾中研院语言学研究所黄居仁研究员20062006年年8 8月在
46、第三届学生计算语言学研讨会月在第三届学生计算语言学研讨会(沈阳)作(沈阳)作 “ “语言学理论与分析在计算语言学中的应用语言学理论与分析在计算语言学中的应用”之特邀报告:之特邀报告:“因此,因此,北大的整套语料库标记系统,就是一个语言学理论。有了这个认识,任何自然语北大的整套语料库标记系统,就是一个语言学理论。有了这个认识,任何自然语言处理,当然必须建立在好的语言学理论上。言处理,当然必须建立在好的语言学理论上。” 北京大学计算语言学研究所http:/北京大学计算语言学研究所http:/(5 5)汉英双语平行语料库汉英双语平行语料库 BAC由篇章到句子级对齐,英汉由篇章到句子级对齐,英汉808
47、0万句对,万句对,日汉约日汉约3 3万句对。用途广泛。万句对。用途广泛。样例:样例:XML XML 标记文件。也有纯文本文件。标记文件。也有纯文本文件。系统的流程,深入的加工系统的流程,深入的加工相关句列相关句列(Concordance)检索)检索北京大学计算语言学研究所http:/ 平行相关句列平行相关句列 Parallel Concordance北京大学计算语言学研究所http:/n信息科学技术领域术语库信息科学技术领域术语库 中英文对照中英文对照, ,条目约条目约1515万对万对n体育、商务、餐饮、旅游领域术语库体育、商务、餐饮、旅游领域术语库领域领域汉英版汉英版 (术语对)(术语对)英
48、汉版(术语对)英汉版(术语对)体育体育术语术语 37,832 36,640缩略语缩略语 1,305 1,232专名专名 3,302 3,304商务商务107,962118,498餐饮餐饮 17,969 22,555旅游旅游 25,501 28,711(6)多个专业领域的术语库)多个专业领域的术语库 北京大学计算语言学研究所http:/体育术语1北京大学计算语言学研究所http:/体育术语2北京大学计算语言学研究所http:/(7 7)现代汉语短语结构规则库)现代汉语短语结构规则库(1)汉语中短语(词组)的地位)汉语中短语(词组)的地位(2)短语分类体系,重点是功能分类,与词类)短语分类体系,重
49、点是功能分类,与词类体系一致。体系一致。(3)短语结构描述:)短语结构描述:在面向计算机时,笼统地谈在面向计算机时,笼统地谈“动动宾结构宾结构”是不够的,需要更明确地指出哪个子类的或具有什是不够的,需要更明确地指出哪个子类的或具有什么属性的动词和哪个子类的或具有什么属性的名词能构成什么属性的动词和哪个子类的或具有什么属性的名词能构成什么样的短语,这个短语的特性如何,它继承了构成成分的哪么样的短语,这个短语的特性如何,它继承了构成成分的哪些属性,丢失了哪些属性,又派生了哪些新的属性些属性,丢失了哪些属性,又派生了哪些新的属性 。 北京大学计算语言学研究所http:/(7 7)现代汉语短语结构规则
50、库)现代汉语短语结构规则库(4)短语结构数据库()短语结构数据库(675条规则)条规则)名称代码名称代码 表达式表达式 自粘自粘 功用功用 粘组粘组 线层线层 结构结构 中心中心 例例 zzaap a(状状=“可可”)+a 自自 谓谓 粘粘 线线 状中状中 后后a 绝对可靠绝对可靠zwaap a+a 自自 线线 主谓主谓 谦虚好谦虚好aaccp a 自自 谓谓 线线 多多aaccp a+ 自自 谓谓 粘粘 层层 词串词串 多快好省多快好省 dzccp aa+n 自自 体体 粘粘 线线 定中定中 n 新衣服新衣服(5)数据库记录到产生式规则)数据库记录到产生式规则(扩充的上下文无关语法)(扩充的
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。