1、绪论计算机科学与技术学院信息检索研究室1感谢你的观看2019年8月182019年8月18感谢你的观看2大纲n语言处理中的知识n歧义n模型和算法n语言、思维和理解n学科现状与近期发展n语言处理简史2019年8月18感谢你的观看3自然语言Dave Bowman:Open the pod bay doors,HAL.HAL:Im sorry Dave.Im afraid I cant do that.2019年8月18感谢你的观看4语言处理中的知识n自然语言处理n把处理口语和书面语(统称为“语言”)的计算技术称为语音和语言处理,简称自然语言处理n自然语言处理和其他处理系统的区别n是否使用语言知识n例
2、如:unix系统中的wc应用程序nwc用来计算文本文件中的字节数、词数或行数2019年8月18感谢你的观看5语言处理中的知识Open the pod bay doors,HAL.Im sorry Dave.Im afraid I cant do that.语音学(phonetics)和音系学(phonology)的知识:帮助我们建立词如何在话语中发音的模型2019年8月18感谢你的观看6语言处理中的知识Open the pod bay doors,HAL.Im sorry Dave.Im afraid I cant do that.形态学(morphologic)方面的知识:能够产生并识别单词
3、的这样或那样的变体,需要形态学方面的知识,这些知识能够反映关于上下文中词的形态和行为的有关信息。2019年8月18感谢你的观看7语言处理中的知识Open the pod bay doors,HAL.Im sorry Dave.Im afraid I cant do that.Im I do,sorry that afraid Dave Im cant.句法(syntax):关于组词成句的知识。2019年8月18感谢你的观看8语言处理中的知识Open the pod bay doors,HAL.Im sorry Dave.Im afraid I cant do that.词汇语义学(lexica
4、l semantics):为了理解Dave的请求事实上是关于要求关闭分离舱门的一个命令,而不是讲关于当天中饭的菜单的事情,就要有复合词的语义知识、词汇语义学的知识。2019年8月18感谢你的观看9语言处理中的知识Open the pod bay doors,HAL.Im sorry Dave.Im afraid I cant do that.这种礼貌和委婉语言的用法属于语用学(pragmatics)的研究领域。2019年8月18感谢你的观看10语言处理中的知识Open the pod bay doors,HAL.Im sorry Dave.Im afraid I cant do that.正确
5、地把这样的会话组织成结构,需要话语规约(discourse convention)的知识。2019年8月18感谢你的观看11语言处理中的知识n语音学与音系学研究语言的语音n形态学研究词的有意义的组合n句法学研究词与词之间的结构关系n语义学研究意义n语用学研究如何用语言来达成一定的目的n话语学研究大于段的语言单位2019年8月18感谢你的观看12歧义n语言信息处理的绝大多数或者全部研究都可以看成是在其中某个层面上的消解歧义nI made her ducknI cooked waterfowl for her.(我给她烹饪鸭子)nI cooked waterfowl belonging to he
6、r.(我烹饪属于她的鸭子)nI created the(plaster?)duck she owns.(我把她的石膏(?)鸭子作了创新)nI caused her to quickly lower her head or body.(我使她很快地把她的头或身体放低一些)nI waved my magic wand and turned her into undifferentiated waterfowl.(我挥动魔杖把她变成了一只人们一点儿也看不出破绽的鸭子)2019年8月18感谢你的观看13模型和算法n状态机(state machine)n包括状态、状态之间的转移、输入表示等n形式规则系统
7、(formal rule system)n正则语法、正则关系、上下文无关语法n逻辑(logic)n逻辑表达方法是处理语义学、语用学和话语分析等方面知识的选择工具n概率论(probability theory)n其他的各种模型都可以使用概率得到进一步提高n也是一种机器学习(machine learning)的模型2019年8月18感谢你的观看14语言、思维和理解n图灵测试n计算机对于语言的使用情况来作为判断计算机是否能进行思维的依据n参加测试者:两个人,一台计算机nELIZA(1966年)n用户:你看起来有些像我的父亲nELIZA:你认为我那些特点像你的父亲呢?2019年8月18感谢你的观看15
8、学科现状与近期发展n目前的研究领域n信息检索n机器翻译n文语转换nn近期发展n数字图书馆n电子学习n残疾人帮助n2019年8月18感谢你的观看16语言信息处理简史n基础研究:20世纪40年代50年代n两个阵营:1957年1970年n四个范型:1970年1983年n经验主义和有限状态模型的复苏:1983年1993年n不同领域的合流:1994年2019年8月18感谢你的观看17基础研究:20世纪40年代50年代n自动机的研究n图灵(Turing)提出了自动机理论现代计算机科学的基础nMcCulloch-Pitts的神经元(neuron)理论nKleene关于有限自动机和正则表达式的研究nShann
9、on把离散马尔可夫过程的概率模型应用于描述语言的自动机nChomsky把有限状态自动机作为一种工具来刻画语言的语法,把有限状态语言定义为由有限状态语法生成的语言2019年8月18感谢你的观看18基础研究:20世纪40年代50年代n概率或信息论模型的研究nShannon用于语音和语言处理的概率算法的研制n把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道(noisy channel)或解码(decoding)。n利用术语“熵”(entropy)来作为测量信道的信息能力或者语言的信息量的一种方法。2019年8月18感谢你的观看19两个阵营:1957年1970年n符号派(symbol
10、ic)nChomsky等形式语言理论和生成句法研究n人工智能的研究n随机派(stochastic)n贝叶斯方法开始用于解决最优字符识别问题2019年8月18感谢你的观看20四个范型:1970年1983年n随机范型(stochastic paradigm)n隐马尔可夫模型和比喻为噪声信道与解码的模型n基于逻辑的范型(logic-based paradigm)n基于自然语言理解的范型(Natural Language Understanding)n话语模型范型(discourse model paradigm)2019年8月18感谢你的观看21经验主义和有限状态模型的复苏:1983年1993年n过
11、去chomsky对于Skinner的“言语行为”(Verbal Behavior)的很有影响的评论在这时遭到了理论上的反对n受IBM的Thomas J.Watson研究中心的语音识别概率模型的影响,提出了语音和语言处理的概率模型。2019年8月18感谢你的观看22不同领域的合流:1994年n概率和数据驱动的方法几乎成为了自然语言处理的标准方法n由于计算机的速度和存储量的增加,使得在语音和语言处理的一些子领域,有可能进行商品化的开发nWeb的发展使得进一步加强基于语言的信息检索和信息抽取的需求变得更加突出2019年8月18感谢你的观看23主要的会议和杂志nACL(Association for Computational Linguistics)美国计算语言学会nCOLING(International Conference on Computational Linguistics)国际计算语言学会议2019年8月1824谢谢!感谢你的观看