ImageVerifierCode 换一换
格式:PPT , 页数:45 ,大小:242KB ,
文档编号:5185783      下载积分:25 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-5185783.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(汉语分词分词的提出和定义课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

汉语分词分词的提出和定义课件.ppt

1、2019年8月251汉语分词汉语分词感谢你的观看2019年8月252主要内容n分词歧义n分词规范n主要分词方法n生词识别感谢你的观看2019年8月253分词的提出和定义n汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题n添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词感谢你的观看2019年8月254分词的意义n正确的机器自动分词是正确的中文信息处理的基础n文本检索n 和服|务|于三日后裁制完毕,并呈送将军府中。n 王府饭店的设施|和|服务|是一流的。如果不分词或者“

2、和服务”分词有误,都会导致荒谬的检索结果。n文语转换n 他们是来|查|金泰|撞人那件事的。(“查”读音为cha)n 行侠仗义的|查金泰|远近闻名。(“查”读音为zha)感谢你的观看2019年8月255分词面临的主要难题 n如何面向大规模开放应用是汉语分词研究亟待解决的主要问题n如何识别未登录词n如何低廉地获取语言学知识n词语边界歧义处理n实时性应用中的效率问题 感谢你的观看2019年8月256分词歧义n交集型切分歧义n组合型切分歧义感谢你的观看2019年8月257交集型切分歧义n汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。n

3、例“结合成分子”n结合|成 分|子|n结合|成|分子|n结|合成|分子|n例“美国会通过对台售武法案”n例“乒乓球拍卖完了”感谢你的观看2019年8月258组合型切分歧义n汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词n例组合型切分歧义:“起身”n他站|起|身|来。n他明天|起身|去北京。感谢你的观看2019年8月259“真歧义”和“伪歧义”n真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义n伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民

4、”、“各/地方”、“本/地区”等感谢你的观看2019年8月2510未登录词n虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词n分类:n专有名词:中文人名、地名、机构名称、外国译名、时间词 n重叠词:“高高兴兴”、“研究研究”n派生词:“一次性用品”n与领域相关的术语:“互联网”感谢你的观看2019年8月2511分词规范n词是自然语言的一种客观存在n汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异n汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理n信息处理用现代汉语分词规范及自动分

5、词方法:结合紧密、使用频繁 感谢你的观看2019年8月2512具体的分词标准实例n二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素n四字成语一律为分词单位:胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见 n五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分:时间/就/是/生命/失败/是/成功/之/母 感谢你的观看2019年8月2513具体的分词标准实例n结合紧密、使用稳定的词组则不予切分:不管三七二十一 n惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位:妇女能顶/半边天/他真小气,象个/铁公

6、鸡/n略语一律为分词单位:科技 奥运会 工农业 n分词单位加形成儿化音的“儿”:花儿 悄悄儿 玩儿感谢你的观看2019年8月2514具体的分词标准实例n阿拉伯数字等,仍保留原有形式:1234 7890 n现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普 n不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分:把/手/抬起来 这个/把手/是木制的 感谢你的观看2019年8月2515常见的动词分词规范 n动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成n用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分:说/没/说 看/不/看 相信/不/相信 n动

7、宾结构的词或结合紧密、使用稳定的:开会 跳舞 解决/吃饭/问题 孩子该/念书/了n结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼 学/滑冰 写/信 感谢你的观看2019年8月2516常见的动词分词规范n动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞n动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分:打倒 提高 加长 做好n“2十1,1”或“1十2”结构的动补词组一律切分:整理/好 说/清楚 解释/清楚 打/得/倒 提/不/高 n偏正结构的词,以及结合紧密的词不予切分:胡闹 瞎说 死记 感谢你的观看2019年8月2517常见的动词分词规范

8、n复合趋向动词一律为分词单位:出去 进来 当插入“得、不”时应予切分:出/得/去 进/不/来n动词与趋向动词结合的词组一律切分:寄/来 跑/出去n多字动词无连词并列,一律切分:调查/研究 宣传/鼓动 感谢你的观看2019年8月2518主要的分词方法n简单的模式匹配:正向最大匹配、逆向最大匹配法、双向匹配法n基于规则的方法:最少分词算法n基于统计的方法:统计语言模型分词、串频统计和词形匹配相结合的汉语自动分词、无词典分词感谢你的观看2019年8月2519正向最大匹配分词(Forward Maximum Matching method,FMM)n基本思想:n设自动分词词典中最长词条所含汉字个数为I

9、;n取被处理材料当前字符串序数中的I个字作为匹配字段,查找分词词典。若词典中有这样的一个I字词,则匹配成功,匹配字段作为一个词被切分出来,转6;n如果词典中找不到这样的一个I字词,则匹配失败;n匹配字段去掉最后一个汉字,I-;n重复2-4,直至切分成功为止;nI重新赋初值,转2,直到切分出所有词为止。感谢你的观看2019年8月2520分析n“市场/中国/有/企业/才能/发展/”n对交叉歧义和组合歧义没有什么好的解决办法n错误切分率为1169n往往不单独使用,而是与其它方法配合使用感谢你的观看2019年8月2521逆向最大匹配分词(Backward Maximum Matching method

10、,BMM法)n分词过程与FMM方法相同,不过是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字n“市场/中/国有/企业/才能/发展/n实验表明:逆向最大匹配法比最大匹配法更有效,错误切分率为1245感谢你的观看2019年8月2522双向匹配法(Bi-direction Matching method,BM法)n比较FMM法与BMM法的切分结果,从而决定正确的切分n可以识别出分词中的交叉歧义感谢你的观看2019年8月2523最少分词问题n分词结果中含词数最少n等价于在有向图中搜索最短路径问题 发 展 中 国 家 1 2 3 4 5 6 感谢你的观看2019年8月2524最少匹

11、配算法(Fewest Words Matching,FWM)n分段n逐段计算最短路径(Dijkstra算法)n得到若干分词结果n统计排歧 发展中国家 发展中国家n算法复杂性与FMM相当感谢你的观看2019年8月2525基于统计的词网格分词n第一步是候选词网格构造:利用词典匹配,列举输入句子所有可能的切分词语,并以词网格形式保存n第二步计算词网格中的每一条路径的权值,权值通过计算图中每一个节点(每一个词)的一元统计概率和节点之间的二元统计概率的相关信息n根据图搜索算法在图中找到一条权值最大的路径,作为最后的分词结果 感谢你的观看2019年8月2526字串“中华人民共和国”的切分词网格 字节点 中

12、 华 人 民 共 和 国 词节点 中华 人民 共和国 华人 共和 时 间 感谢你的观看2019年8月2527分析n可利用不同的统计语言模型计算最优路径n具有比较高的分词正确率n算法时间、空间复杂性较高感谢你的观看2019年8月2528一种基于N-gram信息的生词获取 n基本思想:N元对词频过滤互信息过滤校正生词获取n词频n互信息(Mutual Information)n词频与互信息的关系n候选生词的校正)()(),(log);(212121wpwpwwpwwI感谢你的观看2019年8月2529一些抽取出的新词(三元组)字数 抽取出的新词 3 阿拉伯(地名)、艾滋病、白求恩(人名)、独联体(组

13、织名)、洞庭湖(地名)、工商局(机构名)、摄氏度(计量单位)、世乒赛(缩略名)、塔利班(组织名)4 标本|兼|治(成语)、求|真|务实、萨|马兰|奇(人名)、神|州|大地、升|旗|仪式、体制|转|轨、政企分开、通|货|膨胀(术语)、玩|忽|职守、新闻|媒|体、音|像|制品、优胜|劣|汰 5 奥地利|先|令(货币名)、波|黑|穆斯林(地名)、抽样|合格|率(术语)、电视|连续|剧 6 反|法西斯|战争、高|新技术|产业、工商|行政|管理、股份|有限|公司、国民|生产|总值(术语)7 农村|剩余|劳动力、全国|人大|常委会(机构名)、香港|特别|行政区(地名)、常驻|联合国|代表 感谢你的观看20

14、19年8月2530一些抽取出的新词(二元组)字数 抽取出的新词 2 芭蕾、搬迁、北约(组织缩略名)、波黑(地名)、车臣(地名)、扶贫、乔石(人名)、印度(地名)、空调、欧盟(组织缩略名)、环保、媒体、拚搏、研讨 3 菜|篮子、反应|堆、党|组织、房|地产、副|主席(职位名)、国库|券、核|电站、价值|观、乒乓|球、食用|菌、实验|室、市|政府(机构名)、舒|马赫(人名)、消费|者、许可|证 4 百货|大楼、博士|学位、长篇|小说、犯罪|分子、改革|开放、高速|公路、国有|资产、绿色|食品、外汇|储备、知识|产权 5 供销|合作社(机构名)、天安门|广场(地名)、珠江|三角洲(地名)、最惠国|待

15、遇、博士生|导师(职位名)、赤道|几内亚(地名)、钢筋|混凝土、三军|仪仗队、唯物|辩证法 6 辩证|唯物主义、工农业|总产值、国务院|副总理(职位名)、外交部|发言人、义勇军|进行曲、犹太人|定居点、计划经济|体制、联合国|安理会(机构名)、内蒙古|自治区(地名)7 劳动人民|文化宫、塞尔维亚|共和国(地名)、无产阶级|革命家、中共中央|政治局(机构名)感谢你的观看2019年8月2531人名识别n规则方法:利用语言规则来进行人名识别。优点:识别较准确;缺点:很难列举所有规则,规则之间往往会顾此失彼,产生冲突,系统庞大、复杂,耗费资源多但效率却不高n统计方法:一种是仅从字、词本身来考虑,通过计

16、算字、词作人名用的概率来实现,另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高,但准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。n混合方法:取长补短感谢你的观看2019年8月2532一种基于统计和规则的人名识别方法n中文姓名用字特点(82年人口普查结果)n729个姓氏用字n姓氏分布很不均匀,但相对集中 n有些姓氏可用作单字词 n名字用字分布较姓氏要平缓、分散 n名字用字涉及范围广 n某些汉字既可用作姓氏,又可用作名字用字感谢你的观看2019年8月2533人名识别系统资源n语料库:95、96两

17、年的人民日报语料全集。共约4000万字。n人名库:包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。n人名库和语料库的一致性对保证统计数据的准确性至关重要。感谢你的观看2019年8月2534人名识别系统知识库n姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 的总出现次数用作姓氏的次数作为姓氏cccp)(的总出现次数用作名字用字的次数作为名字用字cccp)(感谢你的观看2019年8月2535人名识别系统知识库n名字常用词表 朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军 红旗 光明感谢你的观看

18、2019年8月2536人名识别系统知识库n称谓库n三种类型 n只能用于姓名之前,如:战士、歌星、演员等;n只能用于姓名之后,如:阁下、之流等;n姓名前后皆可,如:先生、主席、市长等。n称谓前缀表:“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等 感谢你的观看2019年8月2537人名识别系统知识库n简单上下文n指界词表:约110个词n动词:说、是、指出、认为、表示、参加等;n介词:在、之、的、被、以等;n正在、今天、本人、先后等。n标点符号集n人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。n顿号一边是人名时,另一边的候选人名的可靠性高

19、。感谢你的观看2019年8月2538人名识别系统知识库n非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。例:“做这件事花了我们一段时间。”感谢你的观看2019年8月2539中文人名识别过程 待处理文本 潜在姓名表 切分预处理 校正 识别结果 系统资源表知识库 中文人名识别 感谢你的观看2019年8月2540人名识别的具体实现 n姓氏判别n名字识别n概率判断候选字符串为人名的概率为:P=姓氏部分为姓氏的概率P1*余下部分的汉字作名字用字的概率P2*P3(单名时,为P2)感谢你的观看2019

20、年8月2541校正(对潜在人名的后处理)n当两个已辨识的人名相似时,需要检查是否要更正 nC1C2C3与C1C2C4同时存在,C1C2正确;nC1C2C3与C1C2C4同时存在,C1C2C3正确;nC1C2C3与C1C2同时存在,C1C2正确;nC1C2C3与C1C2同时存在,C1C2C3正确 感谢你的观看2019年8月2542校正(对潜在人名的后处理)n自动校正:n如果两个潜在人名相似,考察它们的权值。n一高一低时,将低权值的潜在人名清除(李文常、李文);n都为高权值时,两者都认为是人名(刘文军、刘文俊);n都是低权值时,则各自通过第三个字作名字用字的概率大小来判断。概率够高,识别为人名。否

21、则将第三个字去掉(李文常、李文及)。n人工校正感谢你的观看2019年8月2543人名识别结果与分析 n实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。召回率=文本中的中文人名辨识正确的比例=267/270*100%=98.89%准 确 率=真 正 辨 识 正 确 的 人 名 的 比 例=267/330*100%=80.91%准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。感谢你的观看2019年8月2544人名识别结果与分析n产生错误的主要原因n被未识别的地名干扰。“湖北英山县詹家河乡陶家河村,”n受非中式人名的干扰。“司马义艾买提”n分词结果不理想。“为迎接香港回归送贺礼”n规则不准确。“南宋大诗人杨万里“惊如汉殿三千女,”n其他。“全世界每年影片产量高达两三千部,”感谢你的观看2019年8月2545改进措施n采用更好的分词系统 n构建更准确的姓名用字库、指界词库等 n识别时结合一些语法、语义知识 n采用更合理的大规模人名语料进行训练,使阈值确定得更合理 n增加一些校正措施感谢你的观看

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|