1、语料库第1页,共52页。什么是语料库 n语料库是语言材料的集合n语料库的特点n必须是真实语言环境中出现过的语言材料n必须是以电子计算机为载体n必须经过一定的分析、加工和处理第2页,共52页。语料库的类型1 n按来源分类n口语语料库n书面语语料库n按语言分类n单语语料库n双语语料库n按加工分类n生语料库n熟语料库第3页,共52页。语料库的类型2n按加工方式分n单语n原始语料库n切分标注语料库n句法树库n语义标注语料库nn双语n篇章对齐语料库n句子对齐语料库n词语对齐语料库n结构对齐语料库n第4页,共52页。语料库研究的历史n第一代(197080年代)n百万词级n以语言研究为导向n第二代(1980
2、90年代)n千万词级n词典编纂应用导向n第三代(1990年代)n超大规模(上亿词级)n标准编码体系n深度标注/多语种nNLP应用n第四代(?)n互联网作为语料库第5页,共52页。第一代语料库1 nBrown语料库n始建于1960年代初nW.N.Francis和H.Kucera发起n美国Brown大学建立n世界上第一个根据系统性原则采集样本的标准语料库n主要代表当代美国英语n规模100万词次第6页,共52页。第一代语料库2nLOB语料库n始建于1970年代初n由英国Lancaster大学著名语言学家Geoffrey Leech倡议n挪威Oslo大学StigJohansson主持完成n安装在挪威B
3、ergen大学挪威人文科学计算中心n规模于Brown语料库相当n主要代表当代英国英语第7页,共52页。第一代语料库3nLLC语料库n1960年代初,由Randolph Quirk主持n收集2000小时的谈话和广播等口语素材并整理成书面材料n由瑞典Lund大学J.Svartvik主持全部录入计算机n1975年建成第8页,共52页。第二代语料库1nCOBUILD语料库n建于1980年代n以词典编撰为应用背景n有英国Birminghan大学与Collins出版社合作完成n规模达2000万词次n基于该语料库出版的Collins Cobuild词典(1987)受到了广泛的好评第9页,共52页。第二代语料
4、库2 nLongman语料库n建于1980年代n包括三个语料库nLLELC语料库(Longman/Lancaster英语语料库)nLSC语料库(Longman口语语料库)nLCLE(Longman英语学习语料库)n目标是编撰英语学习词典,为外国人学习英语服务n词典规模达5000万词次第10页,共52页。第三代语料库2 nPennTreeBank(宾州大学树库)n美国Pennsylvania大学1980年代末开始发起n由该校计算机系M.Marcus主持n1993年,完成了对近300万英语词的句子语法结构标注n2000年完成了中文树库(第一版):10万词次,4185个句子第11页,共52页。第三代
5、语料库1 nACL/DCI语料库n美国ACL倡议发起n收集语料范围广泛n华尔街日报nCollins英语词典nBrown语料库nPennTreeBankn一些双语或多语文本等n既有已标注的语料,也有未标注语料n制定了语料库文件的格式标注n采用统一的SGML标注语言n语料标注依照TEI(Text Encoding Initiative)标准 第12页,共52页。语料库的收集、整理和应用 第13页,共52页。语料的选取 nSummers,Longman/Lancaster English Corpus:Criteria and Design,Harlow:Longmann精品原则n有影响力原则n随机
6、挑选原则n高流通度原则n典型性原则n易于获得原则n具有统计样本意义原则n符合语言规范原则n平衡性:主观性强第14页,共52页。语料库的加工n语料库标注(Annotation)n1)词性标记(Part-of-speech tagging)n2)句法层次和范畴标记(Grammatical parsing)n3)词义标记(Word sense tagging)n4)篇章指代标记(Anaphoric annotation)n5)韵律标记(Prosodic annotation)第15页,共52页。语料库加工工具 n分类工具名称功能描述nA.文件处理工具n文本过滤器将不同的文件格式转成为纯文本文件格式n
7、文本分类器自动判别文本领域n语料库辅助校对工具及一致性检查工具按照语料库加工规范,对语料质量进行管理nB.语言处理工具n分词与词性标注工具对语料进行词语识别,词性标记处理n词义标注工具 对词义进行标注n浅层分析工具对语块(chunk)进行标注n句法分析工具对句子进行完全句法分析n双语语料对齐工具对双语语料进行各个层级(段落、句子、小句、词的对齐加工第16页,共52页。双语语料库(Bilingual Corpora)加工 n段落对齐n句子对齐n词对齐n短语对齐第17页,共52页。双语句子对齐 n基于长度(length-based)的对齐方法Gale&Church(1993)n纯粹基于句子的长度来
8、估计对齐可能性资源要求少,算法效率相对较高n基于词(word-based)的对齐方法n一般要依赖词典资源,算法效率相对较低 第18页,共52页。人民日报语料库1 n北京大学、富士通公司、人民日报社共同开发n含人民日报1998年上半年全部文本(约1千7百万字)n完整的词语切分和词性标注信息n高准确率第19页,共52页。人民日报语料库2n样例历史/n 将/d 铭记/v 这个/r 坐标/n:/w 北纬/b/m 度/q、/w 东经/b/m 度/q;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n:/w 年/t 月/t 日/t 时/t 分/t。/w 中国/ns 政府/nnt 顺利/ad 恢复/
9、v 对/p 香港/ns 行使/v 主权/n,/w 并/c 按照/p“/w 一国两制/j”/w、/w“/w 港人治港/l”/w、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an。/w第20页,共52页。London-Lund英语口语语料库1 what a_bout a cigarette#./*(4 sylls)*/*I wont have one th/anks#*-/arent you.going to sit d/own#-/m#-/have my _coffee in p=eace#-/quite a nice.room to!sit in
10、(actually)#/*isnt*it#/*y/es#*-/n转引自Tony McEnery&Andrew Wilson,1996,Corpus Linguistics,p55,第21页,共52页。London-Lund英语口语语料库2 第22页,共52页。语料库的编码体系 n冯志伟,标准通用置标语言SGML及其在自然语言处理中的应用,载当代语言学1998年第4期。nSGML(标准置标语言)http:/www.w3.org/MarkUp/SGML/nXML(可扩展的置标语言)http:/www.w3.org/TR/REC-xmlnTEI(文档编码计划)http:/www.tei-c.org/
11、nCES(语料库编码标准)http:/www.tei-c.org/Applications/index-co02.html 第23页,共52页。语料库检索 n通常倒排表实现词语到文本的快速检索n演示:语料库检索和集列(concordance)第24页,共52页。语料库检索(Demo)第25页,共52页。语料库应用 n支持自然语言处理应用系统开发n支持语言学研究和语言教学研究第26页,共52页。语料库对NLP的支持 n基于大规模语料库的语音识别;n基于大规模语料库的音字转换技术(中文输入);n基于大规模语料库的自动文本校对技术;n利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;n基于
12、语料库的句法分析;n基于语料库的机器翻译;n基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;n基于语料库的语言模型训练和语法模型评价;第27页,共52页。应用:词频统计与Zipf定律n1998全年人民日报语料中频度最高的28个词(带词性)北京大学计算语言学研究所俞士汶教授提供第28页,共52页。齐普夫(Zipf)定律 n齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,频次最
13、小的词等级为。若用f表示频次,r表示等级序号,则有f(r)=cr-,1,c是常数人们称该式为齐普夫定律。第29页,共52页。齐普夫(Zipf)定律 第30页,共52页。词语分布均匀度n1998年人民日报语料库部分词语分布北京大学计算语言学研究所俞士汶教授提供第31页,共52页。词语分布均匀度:如何衡量?n熵?n北大提出流通度公式:第32页,共52页。词语均匀度Word POS Frequency DC中 f 44418 0.99989的 u 736812 0.99988在 p 154681 0.99985为 p 31394 0.99971等 u 35223 0.99970上 f 40645 0
14、.99968个 q 35769 0.99968了 u 141789 0.99968能 v 19574 0.99966也 d 37295 0.99964从 p 26576 0.99960大 a 27858 0.99952和 c 147835 0.99951并 c 18585 0.99950Word POS Frequency DC都 d 24309 0.99949人 n 36128 0.99949对 p 54411 0.99946不 d 62676 0.99942把 p 19989 0.99942是 v 138767 0.99942到 v 30611 0.99940记者 n 28324 0.99
15、936地 u 28010 0.99935有 v 60901 0.99935一 m 90038 0.99934结束 v 3255 0.99931通过 p 8174 0.99928那些 r 1871 0.99928第33页,共52页。汉语语料库建设规范汉语语料库建设规范语料库分词和标注规范语料库分词和标注规范第34页,共52页。语料库建设规范n选材规范n文本描述规范n加工规范n体系构造规范第35页,共52页。主要内容n已有的相关内容已有的相关内容n语料库的加工规范的总原则语料库的加工规范的总原则n结构化词表构造原则结构化词表构造原则n切分标注原则切分标注原则第36页,共52页。已有的相关研究成果
16、1信息处理用现代汉语分词规范 中国国家标准GB13715,1992年2信息处理用现代汉语词类标记集规范 教育部语言文字应用研究所 2002年第37页,共52页。已有的相关研究成果3现代汉语语料库文本分词规范现代汉语语料库文本分词规范 北京语言文化大学语言信息处理研究所北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系清华大学计算机科学与技术系 1998年年4北大语料库加工规范:北大语料库加工规范:切分、词性标注、注音切分、词性标注、注音 北京大学计算语言学研究所北京大学计算语言学研究所 2003年年5資讯处理用中文分词标准資讯处理用中文分词标准 台湾计算语言学学会台湾计算语言学学会
17、,1996年年第38页,共52页。语料库加工规范的总原则 n不矛盾性原则:指切分标注时不能出现两可的情况,即可以同时适用两条或两条以上的规则的情况。n完备性原则:指规范能够覆盖文本的全部,即不能出现没有适用的规则的情况。第39页,共52页。词表原则n切分标注一般都遵循一个原则词表原则n把词表中已经收录的词语都作为一个分词单位,不再切分,n所以几乎每一个规范的背后都有一个相应的词表。n此外切分标注要做的事情主要就是未登录词的处理。n未登录词包括词的重叠形式(如“点点头、高高兴兴”)、附加形式构成的词(用前后缀构成的词,如“阿明、花儿、人民性、大众化”)、离合形式的词(词的离合形式,如“睡了一觉、
18、理了个发”)、合成数词(如“三千四百五十六”)、新词。新词主要是人名、地名等专有名词和未收入词表中的一些低频词。第40页,共52页。词表的构造原则(已有成果)n孙宏林在谈谈汉语分词的标准(语言文字应用,1997.4)中提出确定词表的优先顺序:单用标准扩展标准语义标准音节标准频度标准。n孙茂松、张磊在人机并存,“质”“量”合一(语言文字应用,1997.1)中,强调人的理性判断与机器的在“量”上的经验约定。n孙宏林在现代汉语语料库分词中的若干问题(陈力为、袁琦:计算语言学进展与应用,1995)中,提出了指导分词的三个原则:词是一个句法语义范畴;词的划分是相对的;应该区分语料中的不同层次。第41页,
19、共52页。词表与收词原则词表分为通用词表、专名词表和领域词表。通用词表又分为原子词表、扩展词表 收词原则 高频原则 叠置原则第42页,共52页。叠置原则n叠置原理是指复合成分的意义等于成分意义的组合。“复合”是指句法上的规则,“组合”是语义上的规则,这两者必须保持一一同构对应。凡是符合这个原则的就是复合结构“短语”,否则就是转指义、特指义,只能作为“词”。第43页,共52页。收词原则n高频原则指收入词表的词必须首先是个高频词或高通用度的词。n叠置原则指符合叠置原理的不收入到原子词表中,不符合叠置原理的才收入到原子词表中。如原子词表收录“白菜、小鞋”而不收录“白纸、大鞋”。第44页,共52页。关
20、于词的定义及认定n词是最小的能够独立运用的语言单位。n“最小的”是以符不符合叠置原理作为标准即凡是符合叠置原理的语言单位就是可分的,就不是最小的。第45页,共52页。词表的确定n在确定通用词表时n首先依据高频原则,确定要收录的词n然后再依据叠置原则来确定这个词是收入原子词表还是扩展词表n符合叠置原理的高频词收入扩展词表n不符合叠置原理的高频词收入原子词表n对于收入原子词表的高频词,在词表中要标注其词性n对于收入扩展词表的高频词,依据系统对分词单位的定义,在词表中标注其处理方式 第46页,共52页。切分标注原则切分标注原则n对登录词根据词表来进行切分标注具体是:凡属于基本词表中的词,按词表给定的
21、词性进行标注 凡属于扩展词表中的词,按词表提供的处理方式切分标注。n对未登录词:见相应的规范 第47页,共52页。结构化标注方法n结构化标注方法:对扩展词采取先切分后(用方括号)组合的切分标注方法其中包含:n最小标注:方括号内的标注,适用于语义分析n最大标注:方括号外的标注,适用于句法分析第48页,共52页。结构化标注的意义这种或分或合的标注问题,直接影响到语料库加工的质量以及加工的语料库的应用问题。比如,在信息检索中,有时希望有很高的精确率,这就要求切词标注系统的颗粒度大一些,而有的时候又希望有很高的查全率,这就要求切词标注系统的颗粒度小一些.第49页,共52页。结构化分词词表的构成结构化分
22、词词表的构成分类分类例词例词现代汉语分词词表 通用词表原子词表(或称核心词表)单纯词(自由语素)、粘着语素、前后缀我、人、去、家、学、民、鸭、巧克力、玫瑰、葡萄、阿-、老-、-家、-学、-者、-儿、-子、-们 合成词(不符合叠置原理)科学、主义、语言、物理叠合词表一级叠合词(由原子词构成)科学家、物理学二级叠合词(由原子词和一级叠合词构成)物理学家专名词表(人名、地名等)领域词表(各学科术语)第50页,共52页。结构化分词词表结构序号 词 拼音 义项 频率 词性 扩展 成分1成分1词性成分2 成分2词性成分3 成分3词性 1人ren2n0101学xue21v0102学xue22k01001物理wu4li3n020001物理学 wu4li3xue2 n1物理n学 k30001 物理学家 wu4li3xue2jia1 n2物理学 n家 k第51页,共52页。例子例如:玫瑰花 标注成 玫瑰/n花/n 玫瑰花/n 玫瑰/n花/nn第52页,共52页。