全信息自然语言理解方法论课件.ppt

上传人(卖家):晟晟文业 文档编号:4354149 上传时间:2022-12-01 格式:PPT 页数:20 大小:130.50KB
下载 相关 举报
全信息自然语言理解方法论课件.ppt_第1页
第1页 / 共20页
全信息自然语言理解方法论课件.ppt_第2页
第2页 / 共20页
全信息自然语言理解方法论课件.ppt_第3页
第3页 / 共20页
全信息自然语言理解方法论课件.ppt_第4页
第4页 / 共20页
全信息自然语言理解方法论课件.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、钟义信钟义信北京邮电大学智能研究中心北京邮电大学智能研究中心yxzhongieee.orgNLP:对自然语言所进行的对自然语言所进行的任何有意义的任何有意义的操作。操作。NLU:为了理解自然语言为了理解自然语言而进行的各种操作。而进行的各种操作。NLP 是实现是实现NLU的手段,的手段,NLU是进行是进行NLP的目的的目的。社会全球化:人社会全球化:人-人多语言沟通人多语言沟通先进生产力:人先进生产力:人-机自然语言沟通机自然语言沟通理性主义(规则方法)理性主义(规则方法)基本信念:基本信念:“有限语言规则覆盖无限语言现象有限语言规则覆盖无限语言现象”。然而,然而,(1)语言现象无限丰富和动态

2、开放,语言现象无限丰富和动态开放,“规则有限性和规则有限性和 封闭性封闭性”受到质疑;受到质疑;有限性有限性与与可实现性可实现性 (2)随着规则数量增多,可能经常产生规则之间的随着规则数量增多,可能经常产生规则之间的 矛盾冲突矛盾冲突 (3)人工提取规则费时费事,机器提取规则的质量人工提取规则费时费事,机器提取规则的质量 还难以保证还难以保证NLP-NLU:方法论的困惑(:方法论的困惑(2)经验主义(统计方法):经验主义(统计方法):基本信念:基本信念:“多者为真多者为真”然而,然而,(1)统计特性的统计特性的假设假设(符号独立或(符号独立或Markov阶数固定)阶数固定)在实际语言现象中难以

3、成立,先天不足在实际语言现象中难以成立,先天不足 (2)何谓何谓“足够大足够大”?即使语料库的规模很大,往往也即使语料库的规模很大,往往也 难以保证语料统计结构的遍历性(数据稀疏)难以保证语料统计结构的遍历性(数据稀疏)(3)统计方法本身的统计方法本身的“统计平均性质统计平均性质”,不保证实际结,不保证实际结 果的正确性;果的正确性;“多者为真多者为真”信念受到挑战信念受到挑战 理想的东西都不现实;现实的东西都不理想。理想的东西都不现实;现实的东西都不理想。理性主义和经验主义虽然在理想条件下都有无穷的理性主义和经验主义虽然在理想条件下都有无穷的威力,但都受到实际条件的限制,不可能包打天下威力,

4、但都受到实际条件的限制,不可能包打天下 理性主义和经验主义恰具互补特性,于是出路只有理性主义和经验主义恰具互补特性,于是出路只有互相结合,实现优势互补。互相结合,实现优势互补。问题:怎样互补?问题:怎样互补?语言学规则框架,统计学处理手段;语言学规则框架,统计学处理手段;底层统计,高层理解;多层嵌套,互动互补。底层统计,高层理解;多层嵌套,互动互补。科学方法论的变迁科学方法论的变迁全信息:全信息:主体关于主体关于“事物运动状态及其变化方式事物运动状态及其变化方式”的表述,的表述,包括包括“状态状态-方式方式”的的形式形式、内容内容和和价值价值的表述。的表述。现代科学:现代科学:信息科学、系统科

5、学、认知科学、智能科学信息科学、系统科学、认知科学、智能科学,现代科学方法论特点现代科学方法论特点:(1 1)信号与)信号与信息信息,(2)形式与)形式与内容内容 (3)客观与客观与主观主观,(,(4)确定与)确定与不定不定 (4)分解与)分解与综合综合,(,(6)局部与)局部与整体整体现代科学方法论意义:现代科学方法论意义:二元科学二元科学 三元三元科学;科学;物质结构能量转换物质结构能量转换 信息机制信息机制 分解分析方法分解分析方法 分合互动方法分合互动方法系统:系统:相互作用的要素的有机整体;相互作用的要素的有机整体;整体大于部分和整体大于部分和自然语言是自然语言是认识论信息认识论信息

6、(而不是本体论信息)(而不是本体论信息)的载体。的载体。因此,对自然语言的理解应是因此,对自然语言的理解应是对对它所载荷的它所载荷的认识论信息认识论信息的理解的理解。认识论信息是认识论信息是形式形式-内容内容-价值价值三位一体三位一体。因此,理解信。因此,理解信息需要利用息需要利用全信息全信息理论。理论。(Comprehensive Information Theory)Shannon信息论是全信息理论的信息论是全信息理论的特例特例,它主要,它主要适用于通信等场合。适用于通信等场合。Shannon信息的概念信息的概念Shannon信息论信息论(Mathematical Theory of Co

7、mmunication)(;)()(|)I X YH XH X YY XD()lognnnH Xpp 信息论的信息概念:消除随机波形不定型的东西。信息论的信息概念:消除随机波形不定型的东西。是随机型的语法信息是随机型的语法信息信息论在解决信息论在解决通信通信问题方面是完美的(问题方面是完美的(Perfect)理论)理论;但在解决但在解决智能智能问题方面却无能为力(问题方面却无能为力(Problematic)。)。符号符号主体主体客体客体含义含义效用效用语义信息语义信息语法信息语法信息语用信息语用信息形式形式详见详见信息科学原理信息科学原理,第三版,第三版,20022002年年.语义信息涉及事物

8、和语义信息涉及事物和公共主体公共主体语用信息才关注语用信息才关注效用主体效用主体语义信息不能代替语用信息语义信息不能代替语用信息语法信息只涉及语法信息只涉及事物事物本身本身语法信息参量语法信息参量:Certainty(C)语义信息参量语义信息参量:Logic Truth(T)语用信息参量语用信息参量:Utility(U)X x1 x2 xn xNC c1 c2 cn cNT t1 t2 tn tNU u1 u2 un uN 状态矢量状态矢量肯定度肯定度真实度真实度效用度效用度I(T;X)=log 2+t log t +(1-t )log(1-t )1/Nn=1NnnnnI(U;X)=log 2

9、+u log u +(1-u )log(1-u )1/Nn=1Nnnnn I(C;X)=log N+c log c nn n=1N=log 2+(1/N)Nn=1c log c +(1-c )log(1-c )nnnnif X is random/Incidental;If X is fuzzy in nature.理解语法信息(理解结构)理解语法信息(理解结构):浅层次浅层次理解语法理解语法-语义信息(理解结构语义信息(理解结构-内容):中层次内容):中层次理解语法理解语法-语义语义-语用信息(理解结构语用信息(理解结构-内容内容-价值):深层次价值):深层次理解全信息的最小单位是语句;准确

10、的理解往往要涉及更理解全信息的最小单位是语句;准确的理解往往要涉及更大的范围:语段,语篇大的范围:语段,语篇。预处理预处理语用语用分析分析语义语义分析分析语法语法分析分析全信息库全信息库合法合法?有用有用?真实真实?+YYYNNN人工人工建构建构机器机器学习学习后处理后处理宏观框架的完备性宏观框架的完备性:理性主义理性主义 -语法信息分析语法信息分析 -语义信息分析语义信息分析 -语用信息分析语用信息分析微观实现的灵活性:经验主义微观实现的灵活性:经验主义/理性主义理性主义 -可用统计学方法(如可用统计学方法(如VSM)-可用规则推理方法可用规则推理方法 -可用混合方法可用混合方法理性主义与经验主义:优势互补理性主义与经验主义:优势互补 三位一体三位一体根据问题确定理解深度根据问题确定理解深度全信息与特征矢量全信息与特征矢量全信息辞典与全信息辞典与Ontology预处理预处理后处理后处理语用语用分析分析语义语义分析分析语法语法分析分析全信息库全信息库合法句合法句?要过滤要过滤?相关类相关类?+YYYNNN人工人工创建创建机器机器学习学习Internet搜索引擎搜索引擎 摘要摘要分类分类安全分析安全分析 对话对话翻译翻译检索检索全信息自然语言理解方法论全信息自然语言理解方法论信息信息-知识知识-智能转换理论智能转换理论知识知识管理管理

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(全信息自然语言理解方法论课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|