1、文本结构化技术的初步实现与中文缩略语还原技术初探 指导教师:俞士汶教授学生:支流 2022年12月14日内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设综合型语言知识库简介语法词典标注语料库句法知识句法知识语义词典语义词典概念词典概念词典语义知识语义知识词库词库短语规则库短语规则库日常用语日
2、常用语术语库专业用语术语库专业用语单语单语平行语料库双语平行语料库双语现代汉语现代汉语古诗古代汉语古诗古代汉语语法词典语法词典标注语料库标注语料库语法信息词典与语料库之间的缝隙词语词语词类词类同形同形拼音拼音频次频次例句例句注注抄抄vAchao1 照原稿写照原稿写抄抄vBchao1 走近道走近道此类此类/r /r 编著编著/v /v 内容内容/n /n 是是/v /v 抄抄/v/v 自自/p /p 别人别人/r /r 的的/u/u 炮兵炮兵/n /n 学院学院/n /n 原来原来/d /d 围墙围墙/n /n 残缺残缺/v /v ,/w /w 周边周边/n /n 群众群众/n /n 进城进城/
3、v /v ,/w /w 习惯习惯/v /v 抄抄/v/v 近道近道/n /n 。/w/w 文本文件与数据库文件的对应较麻烦文本文件与数据库文件的对应较麻烦“词语词类同形”为主关键项的数据库文件进行了词语切分和词类标注的文本文件结构化语料库的格式切分单位切分单位长长年年月月日日版版篇篇段段句句位位19981201-01-002-001/m211998120101020010100圆满圆满/ad071998120101020010101结束结束/v061998120101020010102对对/p041998120101020010103俄罗斯俄罗斯/ns091998120101020010104
4、和和/c041998120101020010105日本日本/ns071998120101020010106的的/u041998120101020010107访问访问/vn07199812010102001010819981201-01-002-002/m211998120101020020100江江/nr051998120101020020101泽民泽民/nr071998120101020020102结构化语料库可以方便地进行语料库上的各项数据统计。结构化语料库可以方便地进行语料库上的各项数据统计。例如统计某个时间段某个词出现的频度。例如统计某个时间段某个词出现的频度。内容提要l文本结构化技术
5、l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设结构化文本技术的实现l结构化文本技术的实现几大特点 可以让用户自主选择需要的属性项有两种输出文件格式供用户选择结构化文本技术的实现结构化文本技术的实现内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议全国计算语言学
6、联合学术会议”录用录用中文缩略语的研究意义l缩略语是自然语言的重要组成部分,缩略语规律的探索和缩略语还原是973项目“文本内容理解的数据基础”的重要组成部分l与香港大学合作项目,为多语言缩略语共同规律研究提供数据基础和技术借鉴中文缩略语的研究意义(二)l研究达到的最终目标的缩略语的还原和生成,即为缩略语的解码和编码l近期目标是切分标注好的语料中的缩略语还原内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选
7、已经被第八届“全国计算语言学联合学术会议全国计算语言学联合学术会议”录用录用l根据缩略语和全称的对应方式分类一对一:北大 北京大学一对多:人大 人民大学 全国人民代表大会多对一:电扇 电风扇 风扇多对多:南开 南京大学 南大 南开大学中文缩略语分类框架中文缩略语分类框架(二)从缩略语的形成方式分类l字面与全称无关l多为地名型:云南黔,上海沪l字面与全称有关l在简称中间有()出现的:乡(镇),厅(局)长,寒(暑)假,出国(境)l在简称中没有()出现的中文缩略语分类框架(三)l缩合:大中小学生,乡镇企业l提取l北京大学北大l婚姻介绍所婚介所l欧洲中部中欧(倒序情况)l节略:清华大学清华,复旦大学复
8、旦l提取和节略结合:全国人民代表大会人大 l总结性:三个代表,三好,五好l特殊缩略语l局部近义词替代:浮式起重机浮吊 l局部上位词替代:中华人民共和国教育委员会国家教委 内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议全国计算语言学联合学术会议”录用录用测试语料:1998年1月1日至3日的人民日报切分标注好语料,共有33450个词语,其中缩略语97个朴素的缩略语还
9、原技术l缩略语数据库l简称略语库中 608条缩略语作为 种子。l全文索引l规则排序在文件中找到匹配词组在文件中找到匹配词组60%在文件中在文件中未找到匹未找到匹配词组配词组40%全文索引l仅仅6个缩略语的匹配结果唯一个缩略语的匹配结果唯一l52个缩略语都至少有个缩略语都至少有2个匹配结果个匹配结果l其中仅其中仅“中中”匹配出匹配出57个不同的词组。个不同的词组。规则排序是否出现在数据库中距离缩略语的远近备选全称的内部结构匹配出匹配出31个缩略语,其中正确的个缩略语,其中正确的30个,正确率个,正确率51.7%匹配出匹配出45个缩略语,其中正确的个缩略语,其中正确的42个,正确率个,正确率72.
10、4%正确匹配出正确匹配出51个缩略语个缩略语,正确率为正确率为87.9%实验结果实验结果统计:扩大缩略语数据库的规模扩大缩略语数据库的规模缩略语对应的全称的筛选缩略语对应的全称的筛选方式仍不完善。下一步在方式仍不完善。下一步在使用规则的方法的同时将使用规则的方法的同时将加入统计的方法,缩略语加入统计的方法,缩略语知识库的建设将是下一步知识库的建设将是下一步工作的重中之重。工作的重中之重。全国人民代表大会人大人民大学内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议全国计算语言学联合学术会议”录用录用缩略语知识库的建设缩略语全称前接词后接词属性3属性4一国两制一个国家,两种制度人大人民大学学生,校长人大人民代表大会全国上海沪谢谢