1、教育部文科基地重大课题“大规模中文树库建设及其应用研究”(项目编号:06JJD740001)http:/:8080/WebTreebank/软件:分词/词性标注/句法分析器/树结构编辑器语言学理论:词类|短语类|层次结构分析 从“串分布”到“树分布”成分省略 与 功能变异时间:1993 语种:英语、德语、中文、阿拉伯语 标注深度:树库 命题库 篇章库标注体系:生成语法 HPSG 依存语法http:/en.wikipedia.org/wiki/TreebankMarcus(1993)Xue,Nianwen(2005)36 种细化98 个标记结构类结构类仿照词类确定的短语功能类功能类19 个标记句
2、数:55,161词数:882,326字数:1,281,16957.95%12.96%9.64%9.63%5.86%3.96%语文课本新闻语料机译评测语料科技语料白皮书语料句型语料北北大大中中文文树树库库短短语语类类和和词词类类统统计计短语TYPETOKENfj37243672np364261756dj256101198vp254211357tp12720446ap11754550zj11554637sp8726581pp7125522qp7133818mp4230835dp3963943STARTSTART19195574255742yj192823ypc181693hl13428npr108
3、31npz998yph2747vn11合计202006990678词类词类TYPETYPETOKENTOKENn n2042320423159710159710v v1123311233178341178341a a309830983474534745m m283528352932529325nrnr238123811039110391vnvn1602160273557355d d149414945860758607t t134513451228712287iviv98598513291329b b85885844724472nznz85885819441944nsns850850630263
4、02z z75975919541954ngng65265224182418lvlv502502668668wfswfs1 14301343013wscwsc1 169796979ydeyde1 1582582yleyle1 137963796合计合计95955630456304899373899373Upenn中文树库中文树库5.0大 眼睛 姑娘大 钢铁 公司小王 和 小李是 个 老人 买买 本本 瞧瞧你 再 坐坐 会儿会儿甲甲乙乙丙丙v q np按 甲 方式 分析:造成“个”后接复数结构按 丙 方式 分析:造成 vp 和 np 并列构造选择:按 乙 方式分析“q np”的分布:1)v 后宾语
5、位置2)“把、被”后宾语位置3)联合结构前项位置层次分析所得的单位应层次分析所得的单位应“分布最大化分布最大化”X 所 Y?X 所 Y?X 所 Y?他 所 写 的 文章 今天 所 讲 的 内容例1:“所”字结构“所”字短语的功能类别与内部层次构造2.所 需需所 说说“所+Y”前面可以没有成分“所+Y”后面可以没有“的”,直接修饰np“所+Y”前面可以是vp,pp,dp等成分例1-3例2-3例4-8 X 的 Y?X 的 Y?X 的 Y?X 的 Y?甲例2:“的”字结构乙丙丁句数:55,161 25,726(46.64%)词数:882,326 43,563(4.94%)字数:1,281,169 (
6、3.40%)的的地地2447(4.44%)2644(0.30%)(0.21%)?X 的 的 X X 的 Y?2 例5801例13.32%37758例86.67%乙丙甲丁“的”(di)2 例1.左邻右舍(的人),都捡了东西。2.两边的机关枪(的射击声)稍一停歇,大门外面的赤卫队就冲进了公安局。丙1.“有的放矢”中的“的”丁ap X 的dp X 的np X 的vp X 的252 例390 例4598 例274 例 tp X 的1例dj X 的286 例慢腾腾的晕头晕脑的真够瞧的不住的又一次的俨然的红的成套的天蓝色的是的会着凉的眨呀眨的你一定喜欢的他肺病死的我报了名的深更半夜的(4.34%)(6.7
7、2%)(79.26%)(4.72%)(4.93%)(0.02%)ap X 的dp X 的np X 的vp X 的252 例390 例4598 例274 例 tp X 的1例dj X 的286 例慢腾腾的晕头晕脑的真够瞧的不住的又一次的俨然的红的成套的天蓝色的是的会着凉的眨呀眨的你一定喜欢的他肺病死的我报了名的深更半夜的(4.34%)(6.72%)(79.26%)(4.72%)(4.93%)(0.02%)X 的X “的”1203例非指称用法中,750 例(62.34%)为陈述表达功能,且“的”位于句尾“的”更多的是跟在“非指称性成分”后面“X 的”短语整体更多的是用作“指称性表达”有些句尾“的”
8、有明显语气词化倾向1:48:112345a5b他 的 情绪他 的 紧张情绪紧张 的 情绪时间 的 推移器官 的 生长发育校长 的 尽力撮合自己 的 莽撞经济形势 的 逐步稳定他 的 不诚实说不出 的 兴奋愉快改革 的 深入彻底 的 失败越来越多 的 重视16358例例 94.29%667例例 3.84%93例例 0.54%145例例 0.84%15例例 0.09%71例例 0.41%有组织 的 游说可持续 的 增长部分树库语料统计结果phraserootleftrightfreqnp(np ude1 vp)vpvp#283np(np ude1 vp)ppp#87np(np ude1 vp)dj
9、#vp68np(np ude1 vp)dj#wco vp37np(np ude1 vp)np#c np30np(np ude1 vp)npnp c#23np(np ude1 vp)sp#f21np(np ude1 vp)npnp#12np(np ude1 vp)pppf11宾语主语并列项5828/6252658/66793.2%98.7%84225结构种数:2.97%结构例数:203962667 3.30%X 的 YX 所有短语类型均可。np占41.57%“的”Y 除 pp外其他短语类型均可。np占绝大多数(89.66%)。短语整体用作“指称性表达”占绝对多数;有少数“的”用在vp后,np前,
10、整体是“陈述性表达”有极少量“的”相当于“得”。n3.1 从“串分布”到“树分布”n3.2 成分省略 与 功能变异w在参与序列组合时朝哪个方向组合?a.要求跟几个成分组合?b.要求跟什么类型的语言成分组合?wwABw?w?甲乙?b:区别词 d:副词 u:助词 v:动词 a:形容词 n:名词 b,d 是功能(分布)比较确定的词类;u 是组合方向相对确定,但组合对象不确定的词类;n,v,a等是组合方向和组合对象都不大确定的词类;1.原本 抽烟 的 不怕烟味 2.也许 抽烟 的 不怕烟味3.一直 抽烟 的 不怕烟味 甲乙甲乙就 抽烟原本 抽烟就 抽烟 的原本 抽烟 的句法约束条件改变语义约束条件改变
11、句法成分与句法位置中心成分与从属成分体词性成分占据谓词性位置谓词性成分占据体词性位置中心成分缺省从属成分缺省论元数发生变化论旨角色的约束条件发生变化功能变异的后果功能变异3.2.13.2.2ABCDEFA3.2.1B(静止)向前?(运动)向前?不时 发出/发生CD想家 想 得被他们 吵 得的的“把”“被”结构后面的vp不能是简单动词形式“的”的困境找:二价动词?三价动词?他 找 我 打 球他 找 我 借 了 一 些 钱你 找 我 干/做 什么事?他 找 你 三 件 事*他 找 你 几/多少/哪 件 事*他 找 你 那 件 事 他 找 你 就 三 件 事 他 找 你 就 这 件 事E带给1:_
12、np np带给2:_ np djD造成“带给”为4价动词“我们一人”不能成立维持“带给”的论元结构不变?“每人一本书”是np,则维持了“带给”的论元结构,但这个np太特别!“每人一本书”是dj,则造成dj能进入“带给”的论元位置!n 带给 他们 每人 一本书n 他 八 岁 那年n*带给 他们 每人 分/发/买 一本书n*他 是 八 岁 那年省略(转指)造成的短语,即便归入“已有”的短语类,其功能跟“省略前”的构造也不可能完全相同。此外,我们认为,“省略式”理应比“原式”受到更多限制,因而分布功能较窄,除非“省略式”使用日久,不再被看作是“省略”,成为新的“常规格式”。3.2.2 m q nm q nm q nm q n先规则4,再规则3先规则2,再规则1 造成更多潜在歧义ap qp !apdj qp !apnp qp !npdp 的 vpvp 的 vp欢迎交流