1、自然语言理解上海交通大学计算机系上海交通大学计算机系陈玉泉陈玉泉联系方式联系方式n陈玉泉:陈玉泉:chen-yqcs.sjtu.edu34204406闵行电院闵行电院3-525参考文献参考文献俞士汶主编(俞士汶主编(2019)计算语言学概论计算语言学概论,商务印书馆,商务印书馆刘颖(刘颖(2019)计算语言学计算语言学,清华大学出版社,清华大学出版社James Allen(2019),Natural Language Understanding The Benjamin/Cummings Publishing Company,Inc.翁富良、王野翊(翁富良、王野翊(2019)计算语言学导论计算
2、语言学导论,中国社会科学出版社中国社会科学出版社Christopher D.Manning and Hinrich Schutze(2019),Foundations of Statistical Natural Language Processing,The MIT Press,Cambridge,Massachusetts参考文献参考文献刘开瑛、郭炳炎(刘开瑛、郭炳炎(1991)自然语言处理自然语言处理,科学出版社,科学出版社冯志伟(冯志伟(1991)数学与语言数学与语言,湖南教育出版社,湖南教育出版社冯志伟(冯志伟(2019)自然语言机器翻译新论自然语言机器翻译新论,语文出版社,语文出版
3、社2019年版。年版。姚天顺等(姚天顺等(2019)自然语言理解自然语言理解一种让机器懂得人一种让机器懂得人类语言的研究类语言的研究,清华大学出版社、广西科学技术出版社,清华大学出版社、广西科学技术出版社冯志伟(冯志伟(2019)自然语言的计算机处理自然语言的计算机处理,上海外语教,上海外语教育出版社育出版社俞士汶等(俞士汶等(2019)现代汉语语法信息词典详解现代汉语语法信息词典详解,清华,清华大学出版社、广西科学技术出版社大学出版社、广西科学技术出版社陈小荷(陈小荷(2000)现代汉语自动分析现代汉语自动分析,北京语言文化大,北京语言文化大学出版社学出版社网络资源网络资源ACL主页:主页:
4、aclweb.orgNLP新闻组:新闻组:comp.ai.nat-langLDC:ldc.upenn.edu中文自然语言处理开放平台:中文自然语言处理开放平台:nlp.org计算所自然语言处理研究组:计算所自然语言处理研究组:mtgroup.ict.ac北京大学计算语言学研究所:北京大学计算语言学研究所:icl.pku.edu中国语言文字网:中国语言文字网:china-language.govlinguitics_links.html期刊期刊计算语言学外文期刊名计算语言学外文期刊名.doc中文期刊:中文期刊:语言文字学语言文字学 语言文字应用语言文字应用 中国语文中国语文 中文信息学报中文信息
5、学报 当代语言学当代语言学 现代外语现代外语 课程说明课程说明上课:上课:1-8周,周,4学时学时/周,周,32学时学时考核:开卷考试考核:开卷考试 致谢致谢本课程讲义(包括后续各节)直接引用本课程讲义(包括后续各节)直接引用了下面几位同行的课程讲义中的部分内了下面几位同行的课程讲义中的部分内容,在此深表感谢!容,在此深表感谢!刘群:刘群:计算语言学计算语言学詹卫东:詹卫东:计算语言学概论计算语言学概论白硕:白硕:计算语言学计算语言学刘颖:刘颖:计算语言学计算语言学冯志伟:冯志伟:机器翻译研究的历史和现状机器翻译研究的历史和现状 依存语法在机器翻译中的应用依存语法在机器翻译中的应用第一章 概论
6、问题驱动的学习问题驱动的学习要了解一门学科,首先要知道这门学科所要了解一门学科,首先要知道这门学科所要解决的问题。只有了解了一门学科所要解要解决的问题。只有了解了一门学科所要解决的问题,才能真正理解一门学科的内在逻决的问题,才能真正理解一门学科的内在逻辑,才能不仅知其然,而且知其所以然。在辑,才能不仅知其然,而且知其所以然。在学习一门学科之前,不妨抛开这门学科的所学习一门学科之前,不妨抛开这门学科的所有知识,直接面对这门学科所面对的最基本有知识,直接面对这门学科所面对的最基本的问题,想一想如果要你来解决这个问题,的问题,想一想如果要你来解决这个问题,你会用什么办法。然后在学习的过程中,不你会用
7、什么办法。然后在学习的过程中,不断地用你学到的知识来印证你所要解决的问断地用你学到的知识来印证你所要解决的问题,才能深刻地理解你所学到的知识,真正题,才能深刻地理解你所学到的知识,真正做到融会贯通。做到融会贯通。问题之一:自动翻译问题之一:自动翻译 n自动翻译问题自动翻译问题 n人类最古老的问题之一:圣经上巴比伦塔的传人类最古老的问题之一:圣经上巴比伦塔的传说说n计算机发明以来,几乎是人类首先想到的计算机的计算机发明以来,几乎是人类首先想到的计算机的应用之一应用之一n困难比人们想像的大得多,至今没有找到理想的解困难比人们想像的大得多,至今没有找到理想的解决办法决办法n是推动计算语言学研究的永恒
8、动力是推动计算语言学研究的永恒动力n是计算语言学的终极目标是计算语言学的终极目标n自动翻译研究,几乎触及到计算语言学研究的所有自动翻译研究,几乎触及到计算语言学研究的所有方方面面方方面面问题之一:自动翻译(续)问题之一:自动翻译(续)n一个经典的例子(早期的英俄翻译系统):一个经典的例子(早期的英俄翻译系统):n源文:源文:The spirit is willing,but the flesh is weak.n正确的译文:心有余而力不足正确的译文:心有余而力不足n机器的译文:酒是好的,但肉是馊的机器的译文:酒是好的,但肉是馊的n又一个经典的例子(一个笑话)又一个经典的例子(一个笑话)n源文:
9、源文:How are you?n正确的译文:你好吗?正确的译文:你好吗?n逐字翻译的译文:怎么是你?逐字翻译的译文:怎么是你?n源文:源文:How old are you?n正确的译文:你多大了?正确的译文:你多大了?n逐字翻译的译文:怎么老是你?逐字翻译的译文:怎么老是你?问题之一:自动翻译(续二)问题之一:自动翻译(续二)n演示演示nLight英汉机器翻译系统英汉机器翻译系统nTransEasy汉英机器翻译系统汉英机器翻译系统n目前的水平:目前的水平:nLogMedia:https:/logomedia/nWordLingo:worldlingo/n看世界看世界:readworldn金桥译
10、港:金桥译港:netat/问题之二:自动问答问题之二:自动问答 n图灵测试图灵测试n用于判断用于判断“机器是否具有智能机器是否具有智能”n一个封闭的小屋一个封闭的小屋n屋外一个人屋外一个人n屋内依次进入一个人和一台计算机屋内依次进入一个人和一台计算机n屋外的人并不知道屋内的是人还是计算机屋外的人并不知道屋内的是人还是计算机n屋外的人向屋内的人和计算机提出各种问题屋外的人向屋内的人和计算机提出各种问题n屋外的人根据回答来判断屋内是人还是计算机屋外的人根据回答来判断屋内是人还是计算机n如果判断不出来,那么可以认为计算机具有了智能如果判断不出来,那么可以认为计算机具有了智能交谈 n甲:听说吴妈打赢了
11、阿甲:听说吴妈打赢了阿Q Q。n乙:不错,阿乙:不错,阿Q Q确实被吴妈打败了。确实被吴妈打败了。n甲:这个结果有些出人意料。甲:这个结果有些出人意料。n乙:阿乙:阿Q是大意失荆州,怪不得别人。是大意失荆州,怪不得别人。A.M.Turing n我们可以期待,总有一天机器会同人在所有的智能领我们可以期待,总有一天机器会同人在所有的智能领域里竞争起来。但是,如何开始呢?这是一个很难决域里竞争起来。但是,如何开始呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,还有一种办法也应加活动作为最好的出发点,不过,还有一
12、种办法也应加以考虑,就是为机器配备具有智能的、可用钱买到的以考虑,就是为机器配备具有智能的、可用钱买到的意识器官,然后,教这种机器理解并且说英语。这个意识器官,然后,教这种机器理解并且说英语。这个过程可以仿效通常小孩子学话的方式进行。我不能确过程可以仿效通常小孩子学话的方式进行。我不能确定到底哪个出发点更好,但应该都值得一试。定到底哪个出发点更好,但应该都值得一试。A.M.Turing,Computing Machinery and Intelligence,Mind Vol.59,1950.阿兰阿兰.图灵(英国数学图灵(英国数学家)计算装置与智能家)计算装置与智能 关于语言,可以问些什么?n
13、人用来交际的人用来交际的“语言语言”具有什么样的性质?这具有什么样的性质?这些性质又是如何影响交际过程的?些性质又是如何影响交际过程的?n人用来交际的人用来交际的“语言语言”跟机器可以跟机器可以“理解理解”的的语言有什么样的关系?语言有什么样的关系?n人是如何运用人是如何运用“语言语言”进行交际的?进行交际的?n人运用语言进行交际的过程是否可以描述为一人运用语言进行交际的过程是否可以描述为一个机械的过程?个机械的过程?n什么叫做什么叫做“理解理解”一种语言?一种语言?n其它问题其它问题n音字转换:语音识别、拼音输入音字转换:语音识别、拼音输入n自动文摘:自动给出一篇或多篇文章的摘要自动文摘:自
14、动给出一篇或多篇文章的摘要n信息检索:在海量的信息准确找到你所需要的信息检索:在海量的信息准确找到你所需要的信息信息n信息过滤:从信息流中筛选出你所感兴趣的信信息过滤:从信息流中筛选出你所感兴趣的信息息n信息抽取:从海量的信息中抽取出你所需要的信息抽取:从海量的信息中抽取出你所需要的(结构化)信息(结构化)信息n定义 n计 算 语 言 学(计 算 语 言 学(C o m p u t a t i o n a l C o m p u t a t i o n a l LinguisticsLinguistics)指的是这样一门学科,它指的是这样一门学科,它通过建立形式化的数学模型,来分析、通过建立形
15、式化的数学模型,来分析、处理自然语言,并在计算机上用程序来处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部器来模拟人的部分乃至全部语言能力的语言能力的目的。目的。NLP/NLU/CIPn计算语言学(计算语言学(Computational Linguistics)广义的计算语言学几乎包括了与计算机(或广义的计算语言学几乎包括了与计算机(或计算机科学)和语言学相关的所有方面;狭义计算机科学)和语言学相关的所有方面;狭义的计算语言学一般等同于自然语言理解的计算语言学一般等同于自然语言理解(NLU),),也就是通过建立形式化
16、的计算模型也就是通过建立形式化的计算模型来分析、理解和处理语言。来分析、理解和处理语言。n中文信息处理(中文信息处理(Chinese Information Processing,CIP):):又称汉语信息处理,又称汉语信息处理,是汉语的自然语言处理(是汉语的自然语言处理(NLP)。)。L 语言学CS 计算机科学ML 数理逻辑ABCDECL 计算语言学计算语言学是三个学科的交叉领域计算语言学是三个学科的交叉领域常规统计方法:其中常规统计方法:其中A:统计语言学,统计语言学,B:机器学习,机器学习,C:人工神经元网络人工神经元网络 非常规方法:非常规方法:其中其中D:模型论,情景理论模型论,情景
17、理论E:非单调逻辑,模糊逻辑,博弈论语义,似然推理非单调逻辑,模糊逻辑,博弈论语义,似然推理计算语言学与语言学计算语言学与语言学 语言学语言学 计算机科学计算机科学 教学对象教学对象 人人 机器机器理解依据理解依据 人类活动人类活动说话环境说话环境 形式描述形式描述情景知识情景知识最基本语言条件最基本语言条件 语感语感语料、加工平台语料、加工平台例句判断的例句判断的基本假设基本假设 单说单说分解过程中任意出现:分解过程中任意出现:“合法合情合理合法合情合理”计算语言学的研究手段计算语言学的研究手段 n计算语言学的研究手段是计算计算语言学的研究手段是计算n计算的基础是冯计算的基础是冯诺依曼结构的
18、计算机诺依曼结构的计算机n计算的表现形式是算法计算的表现形式是算法n算法:一组有穷的操作规则算法:一组有穷的操作规则n确定性:每一个步骤的结果都是确定的确定性:每一个步骤的结果都是确定的n可行性:每一个步骤可在有限时间内完成可行性:每一个步骤可在有限时间内完成n输入:有输入输入:有输入n输出:有输出输出:有输出n有穷性:可在有限步骤内停止有穷性:可在有限步骤内停止n算法和程序的联系与区别算法和程序的联系与区别 计算语言学的研究对象计算语言学的研究对象 n计算语言学的研究对象是自然语言计算语言学的研究对象是自然语言n自然语言与形式语言的本质区别自然语言与形式语言的本质区别:歧义性歧义性n自然语言
19、是一种符号系统自然语言是一种符号系统n语言符号的特点(索绪尔)语言符号的特点(索绪尔)n任意性:语言符号的选择是任意的任意性:语言符号的选择是任意的n线条性:语言符号的排列是线性的线条性:语言符号的排列是线性的语言、思维与客观世界语言、思维与客观世界 思维思维自然语言自然语言 客观世界客观世界语言的层面语言的层面 n语言研究的层面语言研究的层面n语音语音n语法(包括词汇层和句法层)语法(包括词汇层和句法层)n语法研究要回答的问题是:一句话为什么可以这语法研究要回答的问题是:一句话为什么可以这么说而不能那么说?么说而不能那么说?n语义语义n语义研究要回答的问题是:这句话说了什么?语义研究要回答的
20、问题是:这句话说了什么?n语用语用n语用研究要回答的问题是:为什么要说这句话?语用研究要回答的问题是:为什么要说这句话?语言的层面(续)语言的层面(续)n语言各层面之间的关系语言各层面之间的关系n语言层面的划分反映了语言在不同层次上的语言层面的划分反映了语言在不同层次上的规律性规律性n语言的各个层面是互相交织密不可分的,语语言的各个层面是互相交织密不可分的,语言层面的划分只是为了研究方便,对任何一言层面的划分只是为了研究方便,对任何一个层面的研究都不能忽略其他层面所起的作个层面的研究都不能忽略其他层面所起的作用用语言在不同层面的歧义性语言在不同层面的歧义性 n.语音层面:多音字,同音词语音层面
21、:多音字,同音词n施氏食狮史(赵元任)施氏食狮史(赵元任)n石室诗士施氏,嗜狮,誓食十狮。氏时时适市视石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮,十时,适十狮适市,是时,适施氏适市,施狮,十时,适十狮适市,是时,适施氏适市,施氏视是十狮,拭矢试,使是十狮逝世,适石室,氏视是十狮,拭矢试,使是十狮逝世,适石室,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,始识是十狮尸,实十石狮尸,试释是事。始识是十狮尸,实十石狮尸,试释是事。语言在不同层面的歧义性(续)语言在不同层面的歧义性(续)n语法层面语法层面n词法歧义词法歧义n词性兼类:工作(动名兼类),在(动
22、副兼类)词性兼类:工作(动名兼类),在(动副兼类)n词语切分歧义:乒乓球拍卖完了,鱼在长江中游词语切分歧义:乒乓球拍卖完了,鱼在长江中游n句法歧义句法歧义n结构歧义:张三和李四的朋友结构歧义:张三和李四的朋友n组合关系歧义:观赏鱼组合关系歧义:观赏鱼语言在不同层面的歧义性(续二)语言在不同层面的歧义性(续二)n.语义层面语义层面n一词多义:后门,人大,一词多义:后门,人大,nI can can the can in the can.n结构语义歧义:吃饭,吃食堂,吃大碗结构语义歧义:吃饭,吃食堂,吃大碗n.语境层面语境层面n鸡蛋!鸡蛋!n他去修车了。他去修车了。汉语的特点汉语的特点 n语言的分类
23、语言的分类n汉语:孤立语(分析语)汉语:孤立语(分析语)n英语:屈折语英语:屈折语n日语:粘着语日语:粘着语n基本单位基本单位n汉语:汉字(单音节,不用空格分隔)汉语:汉字(单音节,不用空格分隔)n英语:词(多音节,用空格分隔)英语:词(多音节,用空格分隔)n词语形态变化词语形态变化n汉语:弱(重叠、离合)汉语:弱(重叠、离合)n英语:强(屈折)英语:强(屈折)汉语的特点(续)汉语的特点(续)n语言的层次划分语言的层次划分n汉语:不明显:字与词、词与语、语与句、汉语:不明显:字与词、词与语、语与句、句与段,都没有明确的界限句与段,都没有明确的界限n英语:明显:词、短语、子句、句子、段落英语:明
24、显:词、短语、子句、句子、段落之间界限分明之间界限分明n词类与句法功能的对应词类与句法功能的对应n汉语:多对多汉语:多对多n英语:一对一英语:一对一 计算语言学的研究对象 n从计算的角度来研究语言的性质从计算的角度来研究语言的性质n将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法 从计算角度研究语言 n所谓从计算的角度来看语言的性质,就所谓从计算的角度来看语言的性质,就是要求将人们对语言的结构规律的认识是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,现出来,而不是像其他语言学研究那样,
25、在表述语言的结构规律时一般采用非形在表述语言的结构规律时一般采用非形式化的式化的表达形式。表达形式。例子例子n.张三赶跑了李四张三赶跑了李四n.张三把李四赶跑了张三把李四赶跑了n.李四被张三赶跑了李四被张三赶跑了n.吴妈以前很喜欢阿吴妈以前很喜欢阿Q Q的理论的理论n.*吴妈把阿吴妈把阿Q Q的理论以前很喜欢的理论以前很喜欢n.*阿阿Q Q的理论被吴妈以前很喜欢的理论被吴妈以前很喜欢语法规律 n汉语中的一个基本句型是:汉语中的一个基本句型是:P0:X P0:X 动动词词Y YnP0P0可以变换为可以变换为“把把”字句或字句或“被被”字句字句P1:X+P1:X+把把+Y+Y+动词动词P2:Y+P
26、2:Y+被被+X+X+动词动词n有些时候有些时候P0P0可以变换为可以变换为P1,P2;P1,P2;有些时候有些时候P0P0不可以变换为不可以变换为P1,P2;P1,P2;将语言作为计算对象 n所谓将语言作为计算对象来研究相应的算法,所谓将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单片断(比如词组、句子或篇章)中大小语言单位的识
27、别,该语言片断的结构和意义的分析位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片(自然语言理解),以及如何生成一个语言片断来表断来表达确定的意思(自然语言生成),等等达确定的意思(自然语言生成),等等 过程 nS1:研究者以特定的方式对自然语言(NL0)的规律进行抽象,以计算机能够处理的形式来表述关于自然语言的规律得到语言知识K;nS2:针对特定的语言知识表示形式,研制适合的分析和处理算法;nS3:根据算法编制计算机可执行的自然语言处理程序P。这样的程序加上语言知识,加上计算机硬件系统,共同构成一个自然语言处理系统(NLPs);nS4:用这样一个自然语言处理系统对
28、自然语言NL0进行分析处理,根据反馈的结果调整原来的设计,改进NLPs。计算语言学的应用领域 n机器翻译(机器翻译(Machine TranslationMachine Translation)n文本分类(文本分类(Text ClassificationText Classification)n信息检索(信息检索(Information RetrievalInformation Retrieval)n信息提取(信息提取(Information ExtractionInformation Extraction)n语音合成(语音合成(Speech SynthesisSpeech Synthesis
29、)n语音识别(语音识别(Speech RecognitionSpeech Recognition)n人机接口(人机接口(Human-Machine InterfaceHuman-Machine Interface)n 计算语言学研究的基本方法 n理性主义研究方法理性主义研究方法 基于规则的方法基于规则的方法n经验主义研究方法经验主义研究方法 统计学方法统计学方法 基于转换的错误驱动学习基于转换的错误驱动学习 神经网络学习方法神经网络学习方法n理性主义研究方法与经验主义研究方法理性主义研究方法与经验主义研究方法的结合的结合计算语言学的发展简史 n19501960年代Turing Test(1950)n19601970年代nThe first MTs(1954)nALPAC(1964-1966)n19701990年代nSearles Chinese Room(1980)nThe first PC version of MTs(1983)nMT is available on the Web(1994)n1990 至今