1、基于上下文和语义信息的跨领域基于上下文和语义信息的跨领域中文分词中文分词 报告人:张婧导师:黄德根教授学校:大连理工大学研究领域:自然语言处理主要内容主要内容l中文分词概况l中文分词的一大挑战l本文主要方法l参考文献中文分词概况中文分词概况中文分词的主要技术中文分词的主要技术:基于规则的方法 基于统计的方法 规则与统计相结合的方法基于序列标注的机器学习方法基于序列标注的机器学习方法1-2 基于字标注的方法基于字标注的方法3-5 基于子词标注的方法基于子词标注的方法6-8中文分词的技术难点:中文分词的技术难点:未登录词、歧义、规范等本文所用的方法本文所用的方法主要内容主要内容l中文分词概况l中文
2、分词的新挑战l本文主要方法l参考文献中文分词的一大挑战中文分词的一大挑战 跨领域分词的一个显著特点是:跨领域分词的一个显著特点是:一个特定领域文章中的通用词和术语较多,这些领域性OOV是基于某个特定领域的,并且可能会在其所属领域的某一上下文内多次出现。因此,领域适应性领域适应性已经成为中文分词面临的一大挑战9。l在现实应用中,需要分词的绝大部分文本并不带有来源、并不带有来源、主题等标记数据主题等标记数据9。l分词系统不能预先把所有可能的文本种类都训练好都训练好9。l分词系统能贡献最高价值,发挥最高效益时,是针对新主新主题,新来源题,新来源,带有许多未登录词的文本9。主要内容主要内容l中文分词概
3、况l中文分词的新挑战l本文主要方法l参考文献模型及特征模型及特征上下文及语义信息上下文及语义信息分词算法流程分词算法流程实验结果及总结实验结果及总结本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结本文主要方法本文主要方法 模型及特征模型及特征 本文采用字词联合的CRFs模型。先将使用基于字的CRFs获得的候选词放入词图,然后再使用基于词的CRFs模型对词图中的词进行标注。训练时,使用最大似然估计,为了避免训练过载,使用高斯先验对参数进行规格化。解码时,用Viterbi算法。模型:模型:特征模板:特征模板:基于字的CRFs特征模板 基于词的CRFs特征模板本文
4、主要方法本文主要方法 模型及特征模型及特征基于字的基于字的CRFs:使用的特征模板:C-1,C0,C1,C-1C0,C0C1,C-1C1,T-1T0T1,并且加入AV16特征。表表1 基于字的基于字的CRFs特征模板特征模板本文主要方法本文主要方法 模型及特征模型及特征基于词的基于词的CRFs:采用的具体特征模板有:W0,T0,W0T0,T0T1,W0W1,其中,W表示词形,T表示词性,下标0和1分别表示相邻两个词的前词和后词。表表2 基于词的基于词的CRFs特征模板特征模板本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结本文主要方法本文主要方法 上下文及语
5、义信息上下文及语义信息l“日本金融特任大臣龟井龟井静香静香(Shizuka Kamei)周五(3月19日)发表讲话龟井静香龟井静香此前就一直呼吁推出新一轮的大规模经济刺激计划龟井静香龟井静香表示,昨日发布的土地价格调查报告显示龟井静香龟井静香还呼吁日本央行直接买入国债来为政府赤字提供融资金融市场对龟井静香龟井静香的评论应该不会有太大反应”.l提出假设:如果某个词在篇章中出现了一次,那么将会增加它下一次出现的可能性。l也就是说,若某个字串在上下文中多次被当作候选词,则它很可能就是一个词。对此,本文用上下文变量来量化这个假设。l上下文变量记录候选词的词形(w),词性(t),词出现的难易程度(Cos
6、t),该词作为候选词的频数(Frequency),该词作为最终切分路径中词节点的频数(rNum)。上下文信息:上下文信息:本文主要方法本文主要方法 上下文及语义信息上下文及语义信息Al05A01=模范 标兵 表率 榜样 师表 轨范 楷范 英模 典型 丰碑Al05A02=劳模 劳动模范在查找某个候选词在词林中的同义词时,遵循着就近原则,因为两个同义词集合距离越近,其词义信息越接近。表表3 同义词词林编码规范同义词词林编码规范语义信息:语义信息:本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结跨领域分词的分词算法流程分词算法流程如下:本文主要方法本文主要方法 分
7、词算法流程分词算法流程Step1.使用基于字的CRFs得到3-Best路径,并且将路径中所有的节点加入到词图中。图图1 词图示例词图示例本文主要方法本文主要方法 分词算法流程分词算法流程Step2.为词图中的每个候选词赋予属性和代价。具体步骤为:若候选词为系统词典系统词典中的词,则直接将该词在系统词典中的属性及词代价赋给该候选词;若候选词不在系统词典中,但在上下文信息词典上下文信息词典中,则采用公式(1)对该候选词的出现代价进行加权;001.0()1()0.20.8()log(2)costwrNumrNumcost wcostwrNumfrequency 0=0(1)其中,frequency是
8、该候选词出现的频率;rNum是候选词作为正确结果的频率;cost(w)是分词路径中候选词的出现难易程度;cost0(w)为上下文变量表中词条的原始代价。本文主要方法本文主要方法 分词算法流程分词算法流程若候选词不在上述两个词典中,则到同义词词林同义词词林中查找该候选词的同义词,若能在系统词典中找到其同义词,则用系统词典中该同义词的相关信息代替该候选词相对应的信息;若无法通过上述方法找到或代替该候选词,则用未登录词分类未登录词分类处理该候选词。具体分为四类:汉字,字母,数字,标点符号。它们的词性,分别赋为名词,字符串,数字,标点,而词出现的代价为词典中该类词性词语代价的平均值。Step3.构建词
9、图后,用Viterbi算法根据公式(4)计算每条路径的分词代价,找到一条最佳路径,即代价最小的分词路径。公式(4)中的Cost(wi)和TransCost(ti,ti+1)分别通过公式(2)和公式(3)计算得到。()()kkffU wCost wfactor(2)本文主要方法本文主要方法 分词算法流程分词算法流程12(,)1 2(,)kffB t tkTransCost t tfactor(3)其中,U(w)为关于当前词w的一元特征集合,B(t1,t2)是关于相邻的两个词的属性(这里仅为词性)的二元特征集合,fk为特征fk在模型文件中的相应权重,变量factor为将特征权重转换为代价的放大系数
10、。从以上公式可以看出,由于所有的特征函数都为二值特征函数,所以在计算词条的代价时,词出现的代价等于该词能表示的所有一元特征权重之和,属性集之间的转移代价为两属性集所能表示的二元特征函数的权重之和。#10()Cos(,)()YiiiiScoreYTranst t tCost w()(4)本文主要方法本文主要方法l模型及特征l上下文及语义信息l分词算法流程l实验结果及总结实验数据:实验数据:l系统词典系统词典是从2000年1-6月份的人民日报中抽取出来的,词性体系为相应的北大词性体系,词典中共含有85,000个词。l本文采用的语义资源是同义词词林同义词词林(扩展版),共包含77,343条词语。ht
11、tp:/lSIGHAN 2010的跨领域简体中文训练和测试语料训练和测试语料。l训练基于词图的词图的CRFs模型模型时,所用的语料是有词性标注的评测语料(1998年1月份人民日报)。本文主要方法本文主要方法 实验结果及总结实验结果及总结本文主要方法本文主要方法 实验结果及总结实验结果及总结l该方法用基于字标注的CRFs模型得到3-Best路径,将路径中包含的所有候选词添加到词图中,充分利用篇章的上下文信息和同义词语义信息,在词的层面上从词图中选择代价最小的路径作为最终的分词结果。l该方法很好地发挥了基于字标注的方法在发现未登录词上的能力,而且在分词过程中充分利用词汇的领域性信息,提高了领域性分
12、词的分词结果。l用Bakeoff 2010简体中文测试语料进行开式测试,结果表明:该方法在四个测试领域中的三个领域的F值和OOV的召回率好于2010参加评测的最好成绩。l本文获国家自然科学基金(No.61173100,No.61173101)资助。本文主要方法本文主要方法 实验结果及总结实验结果及总结主要内容主要内容l中文分词概况l中文分词的新挑战l本文主要方法l参考文献参考文献参考文献1Xue Nianwen.Chinese word segmentation as character tagging.Computational Linguistics,2003,8(1):29-48.2La
13、fferty J,McCallum A,Pereira F.probabilistic models for segmenting and labeling sequence data/Proceedings of ICML2001.Conditional Random Fields:San Francisco:Morgan Kaufmann,2001:282-2893Tseng H,Chang Pichuan,Andrew G,et al.A conditional random field word segmenter for SIGHAN bakeoff 2005/Proc of the
14、 4th SIGHAN Workshop on Chinese Language Processing.Jeju Island:ACL,2005:1681714Peng Fuchun,Feng Fangfang,McCallum A.Chinese segmentation and new word detection using conditional random fields/Proc of COLING 2004.San Francisco:Morgan Kaufmann,2004:562-5685Low J K,Ng H T,Guo Wenyuan.A maximum entropy
15、 approach to Chinese word segmentation/Proc of the 4th SIGHAN Workshop on Chinese Language Processing.Jeju Island:ACL,2005:1611646Huang Degen,Tong Deqin.Context Information and Fragments Based Cross-Domain Word Segmentation.China Communications,2012,9(3):49-577Zhang Ruiqiang,Kikui Genichiro,Sumita E
16、iichiro.Subword-based tagging by conditional random fields for Chinese word segmentation/Proc of HLT-NAACL-2006.Morristown,NJ:ACL,2006:193-1968黄德根,焦世斗,周惠巍.基于子词的双层CRFs中文分词.计算机研究与发展,2010,47(5):962-9689黄居仁.瓶颈_挑战_与转机_中文分词研究的新思维/中国计算机语言学研究前沿进展(2007-2009):北京:中国中文信息学会,2009:14-1910 Gao Qin,Vogel S.A Multi-l
17、ayer Chinese Word Segmentation System Optimized for Out-of-domain Tasks/Proc of CIPS-SIGHAN Joint Conference on Chinese Processing.Beijing:ACL,2010:210-21511 Huang Degen,Tong Deqin,Luo Yanyan.HMM Revises Low Marginal Probability by CRF for Chinese Word Segmentation.C/Proc of CIPS-SIGHAN Joint Confer
18、ence on Chinese Processing.Beijing:ACL,2010:216-22012 Zhang Chongyang,Chen Zhigang,Hu Guoping.A Chinese Word Segmentation System Based on Structured Support Vector Machine Utilization of Unlabeled Text Corpus/Proc of CIPS-SIGHAN Joint Conference on Chinese Processing.Beijing:ACL,2010:221-22713 Zhang Huaping,Gao Jian,Mo Qian,et al.Incporating New Words Detection with Chinese Word Segmentation/Proc of CIPS-SIGHAN Joint Conference on Chinese Processing.Beijing:ACL,2010:249-251感谢各位专家请批评指正