1、关于汉语作为第二语言教学研究中关于汉语作为第二语言教学研究中语料库利用的两个问题语料库利用的两个问题福建师范大学 沙平第1页,共55页。一、语料库与语料库语言学1.1 语料库(语料库(corpus/corpora):):是存储语料的数据库,是以电子文本或其它电子介质形式存贮在计算机中的、借助计算机软件进行管理并可以通过计算机软件进行查询、检索、统计的一定数量的语言材料的集合,是进行语言研究的一种普遍资源。第2页,共55页。一、语料库与语料库语言学1.2 语料库语言学语料库语言学(corpus linguistics):包含两个方面:(1)语料库建设,包括对自然语料进行加工、标注;(2)语料库应
2、用,用已经标注好的语料进行语言研究和应用开发。是以现实生活中人们运用语言的实例为基础进行的语言研究,可以在研究中发现某些语言规律,也可以对语言假说进行验证。第3页,共55页。一、语料库与语料库语言学1.3 汉语中介语语料库建设汉语中介语语料库建设 汉语中介语语料库的建设是在国内外语料库语言学和母语语料库建设的影响下开始的。国外第一代计算机语料库(196070年代):小规模(百万词级),以语言研究为导向,词法级。Brown、LOB、London-Lund Corpus。第4页,共55页。一、语料库与语料库语言学 第二代计算机语料库(1980年代):大规模(千万词级),词典编纂应用导向,句法级。B
3、ank of English、Longman、ICE(The International corpus of English)。第5页,共55页。一、语料库与语料库语言学 第三代计算机语料库(1990年代):超大规模(上亿词级),标准编码体系深度标注/多语种NLP应用,语义和语用级。BNC(The British National corpus)、LDC(Linguistic data Consortium,语言学资料共享计划)、法兰西语料库、俄语国家语料库、NERC(Network of European Reference Corpora,欧洲参考资料语料库网/欧洲语料库网(Europea
4、n Corpora Network)。第6页,共55页。一、语料库与语料库语言学 第四代语料库:互联网作为语料库。可以把不断发展的因特网作为虚拟语料库。第7页,共55页。一、语料库与语料库语言学 中国大陆的语料库建设中国大陆的语料库建设:始于80 年代初期,发展迅速。例如:“汉语词频统计语料库”为200万字次;“现代汉语语料库”为7000万字次;“中文五地区共时语料库”每年收入的语料达6亿至8亿多字次;“面向语言教学研究的汉语语料检索系统CCRL”为8亿多字次。第8页,共55页。一、语料库与语料库语言学 在这种背景下,从上世纪90年代开始,中国大陆开始建设外国人学习汉语的中介语语料库。经过10
5、多年的发展,汉语中介语语料库建设已初具规模,并在汉语作为第二语言教学与习得等研究领域发挥了重要的作用。第9页,共55页。一、语料库与语料库语言学1.4 已建成的主要汉语中介语语料库已建成的主要汉语中介语语料库 北京语言大学:汉语中介语语料库系统(1995)、HSK动态作文语料库(2006)、首都外国留学生汉语文本语料库(2010)、汉语学习者口语语料库(2007)南京师范大学:外国学生汉语中介语偏误信息语料库 中山大学:留学生中介语语料库 暨南大学华文学院:留学生汉语中介语语料库第10页,共55页。一、语料库与语料库语言学 上海交通大学、厦门大学、北京大学、中国人民大学、北京师范大学、鲁东大学
6、、苏州大学、四川外国语学院、华中师范大学等,也都已经建成或正在建设自己的汉语语料库。但是,现有的语料库绝大多数都是书面语语料库,口语语料库很少,多模态语料库尚无建成者。第11页,共55页。一、语料库与语料库语言学 1.5 作用与成果作用与成果 通过对语料库中较大规模真实语料的考察,研究者发现了前人未曾发现的一些汉语中介语现象。语料库为定量分析奠定了坚实的基础,研究者可以把定性研究与定量研究相结合,从而使得出的研究结论具有较强的客观性、普遍性和科学性,这在一定程度上改变了汉语教学与习得研究的模式,极大地提高了汉语作为第二语言教学研究的水平。第12页,共55页。一、语料库与语料库语言学 研究案例一
7、:关于汉语补语的习得难度与研究案例一:关于汉语补语的习得难度与习得顺序习得顺序 一般认为有复杂的补语系统是汉语语法的一个特点,也是外国学习者习得汉语的一个难点。但是,北京语言大学的课题组利用“汉语中介语语料库”对带“得”字补语句的习得状况进行了考察,发现学习者习得“得”字补语句的偏误率没有人们想象的那么高。(见下表)。第13页,共55页。“得”字程度补语句的习得状况形形 式式词词 次次正误比正误比 +得得+多多3228/4 +得得+很很1712/5 +得得+不得了不得了87/1 +得得+厉害厉害22/0 +得得+慌慌22/0 +得得+要命要命11/0 +得得+远远11/0第14页,共55页。“
8、得”字情状补语句的习得状况一级一级二级二级三级三级四级四级五级五级六级六级合计合计正413140311922184误614764239 (孙德金2002,赵金铭 2008)第15页,共55页。一、语料库与语料库语言学 这一研究结果促使研究者利用相同语料库对不带“得”字补语句(如趋向补语)的习得情况进行考察,结果发现学习者习得不带“得”字补语句偏误率整体高于带“得”补语句。通过进一步的深入考察,研究者大体构拟出了英、日、韩(朝)等母语学习者对汉语不同类型补语的习得顺序。(杨德峰2003、2008)第16页,共55页。一、语料库与语料库语言学 中国大陆近年来基于语料库的具有代表中国大陆近年来基于语
9、料库的具有代表性的研究成果:性的研究成果:赵金铭教授:“基于中介语语料库的汉语句法研究”(2008)张博教授:“基于中介语语料库的汉语词汇专题研究”(2008)肖奚强教授:“外国学生汉语句式学习难度及分级排序研究”(2009)第17页,共55页。二、关于语料库利用的两个问题 2.1 利用语料库已经成为汉语作为第二语言利用语料库已经成为汉语作为第二语言教学研究的教学研究的主流方法主流方法 语料库以其语料的充分性、客观性、可验证性、使用的便捷性,正在使语言学的研究与应用产生量与质的飞跃。语料库语言学将数据收集与理论论述有机地结合在一起,使我们对语言的理解发生了质的变化.(Halliday1991)
10、基于语料库的研究方法,已经成为当代语基于语料库的研究方法,已经成为当代语言学和应用语言学研究中的一种言学和应用语言学研究中的一种主流方法。主流方法。(王建新2005)第18页,共55页。二、关于语料库利用的两个问题 语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言“直觉”和“内省”判断,从而克服研究者本人的主观性和片面性,逐渐成为语言学研究的主流方法。从某种意义上说,语料库的使用,是语言学研究语料库的使用,是语言学研究的一次革命性的进步。的一次革命性的进步。(冯志伟2006:14)第19页,共55页。二、关于语料库利用的两个问题 以北语开发的以北语开发的“HSK动态作文语料库
11、动态作文语料库”为为例例 为海内外众多硕士生、博士生所使用,为他们的研究及论文写作提供帮助。学术期刊、学术会议及网上可以看到众多利用该语料库的研究成果。注册用户众多,一旦发生故障会引起全球性反应。但是,我们发现在利用语料库进行汉语习得和教学的研究中,有两个问题值得我们有两个问题值得我们注意。注意。第20页,共55页。二、关于语料库利用的两个问题2.2 要注意研究对象的要注意研究对象的“同质同质”性性 欧美现代语言学之父、瑞士语言学家费尔迪南德索绪尔索绪尔(ferdinand de saussure 1857-1913)十分重视语言研究的“同质”问题。他提出了区分语言/言语、历时/共时、能指/所
12、指、组合关系/聚合关系等一系列二分的语言学概念,就是为了确保语言研究对象和语言研究的同质性。第21页,共55页。二、关于语料库利用的两个问题 研究案例二:关于汉语形容词的语法分布研究案例二:关于汉语形容词的语法分布 在英语中,修饰名词作定语是形容词的专利;但在汉语中,对形容词修饰名词作定语的语法功能却有着截然相反的论述,对形容词充当谓语也有不同的看法:第22页,共55页。二、关于语料库利用的两个问题 “形容词能作谓语或谓语中心语和定语,多数能够直接修饰名词。”(黄伯荣、廖序东主编现代汉语,高等教育出版社,2004年。已发行500多万册)“在不带的的格式里,形容词和名词的配合受到限制,比如可以说
13、白纸、白头发,但是不说或不太说白手、白家具。”(朱德熙语法讲义,商务印书馆,1982年。)第23页,共55页。二、关于语料库利用的两个问题 “性质形容词单独作谓语也有一定的限制,一般只能用于对照、比较的情况。在没有比较意味的句子里,一般要在前面加上程度副词很。”(刘月华等主编实用现代汉语语法,商务印书馆,2002年。)有学者利用语料库对汉语形容词在书面语和口语中的分布进行了统计(张宝林2011):第24页,共55页。二、关于语料库利用的两个问题 形容词的主要语法功能:定语说形容词的主要语法功能:定语说+谓语说。谓语说。语料语料形容词形容词谓语谓语频率频率定语定语频率频率口语50429859.1
14、%10821.4%书面语61110717.5%38563.0%口+书111540536.3%49344.2%第25页,共55页。二、关于语料库利用的两个问题 口语和书面语是不同质的研究对象,基本义相同的口语词和书面语词经常不能替换:如“帮”、“帮助”、“帮忙”基本意义相同,“你帮我买张票”,不说“帮助”和“帮忙”;“他欺骗我的感情”、“他骗我的钱”,“欺骗”和“骗”也不能互换。这和书面语与口语有关,也和汉语的节律有关。结论:对汉语形容词语法分布的论述应区结论:对汉语形容词语法分布的论述应区分口语体与书面语体。分口语体与书面语体。第26页,共55页。二、关于语料库利用的两个问题研究案例三:研究案
15、例三:“把把”字句习得的字句习得的“回避回避”说与说与“不回避不回避”说说 量词的用法、形容词谓语句、无标记的被动句、带各种补语的句子、“把把”字句(多数学生难点中的难字句(多数学生难点中的难点点)、“了”“着”“过”的用法(“了”也是难点中的难点)、比较句、方位词的用法、长定语、三位数以上的大数目。怎么知道什么是难点,什么不是难点呢?一是通过语言语言对比对比研究来发现,二是靠教学经验。到底什么到底什么是真正的难点,最终还要靠教学经验来检验。是真正的难点,最终还要靠教学经验来检验。(吕必松1992:110)第27页,共55页。二、关于语料库利用的两个问题 如以英语为母语的学习者的语法难点有:形
16、容词谓语句、无标记被动句、带各种补语的句子、“把把”字句字句、“是的”句、比较句以及“了”“着”“过”的用法、量词用法、方位词用法、长定语、大数目称数法以及话语连接等。其中的大部分,对任何母语背景的学习者来说也都是难点。通过语言对比突出语法的重点和难点通过语言对比突出语法的重点和难点。对外汉语语法教学的一大特点是学习者会受到其第一语言迁移作用的影响。作为第二语言的汉语对所有学习者都有共同的难点,对不同母语背景的学习者又有特殊的难点。(刘珣2000:366)第28页,共55页。二、关于语料库利用的两个问题 对欧美学生来说,受事主语句、存现句、主谓谓语句,以及时间、地点状语的位置,始终是学习的难点
17、,同时也体现汉语语法特点。而带有普遍性的语法难点,则是“把把”字句字句、各类补语以及时态助词“了”“着”等。至于我们所认为的特殊句式,其实并非学习的难点并非学习的难点,比如连动句、兼语句、“是”字句、“有”字句以及名词谓语句、形容词谓语句形容词谓语句。这也是从多年。这也是从多年教学中体味出的。教学中体味出的。(赵金铭 2006)第29页,共55页。二、关于语料库利用的两个问题 学界共识:1)最大难点:“多数学生难点中的难点”。2)回避:外国学习者对把字句采取了回避的学习策略,尽量不用,用则必错。证据:1)外国人对把字句的使用率不足百分之一。2)谈话一小时,没用一个把字句。第30页,共55页。二
18、、关于语料库利用的两个问题 有学者利用语料库对把字句使用情况进行有学者利用语料库对把字句使用情况进行了考察了考察 偏误率:在“HSK动态作文语料库”(1.0版)中,共有把字句3682句,其中正确句3221句,在把字句总数中所占比例约为87.48%;偏误句461句,在把字句总数中所占比例约为12.52%。第31页,共55页。二、关于语料库利用的两个问题 使用率:外国学习者:3682/40000000.0921%。汉语母语者:张黎2007:46/2100000.0219%李宁、王小珊2001:335万字,0.0894%人民日报:俞士汶(98/1-6):9801/130000000.0754%CCR
19、L(2000):1498/19300000.07762%CCRL(2012):18413/240000000.0767%“比较大的样本可以减低样本统计量的变异”(戴维S穆尔2003:162)。第32页,共55页。二、关于语料库利用的两个问题 由此得出结论:由此得出结论:外国汉语学习者对把字句外国汉语学习者对把字句的的使用率和偏误率使用率和偏误率都仅次于都仅次于“是是的的”句、是字句、有字句,而句、是字句、有字句,而高于其他句式,高于其他句式,不存在回避问题。不存在回避问题。第33页,共55页。二、关于语料库利用的两个问题 我们认为,大规模书面语语料库检索的结果尚不足以推翻外国汉语学习者回避“把
20、”字句的成说,他仅仅能证明外国汉语学习者在书面语体的汉语测试中“把”字句的使用频率略高于国内汉语书面语体语料库“把”字句的出现频率,而在口语中由于没有思考斟酌的余地,出于交际策略,规则复杂的“把”字句不排除被回避的可能。当然,这也只是经验主义的推测。第34页,共55页。二、关于语料库利用的两个问题 要推翻回避说,还必须有平行的口语语料库检索、分析结果的支持,而目前中国大陆的语料库绝大部分都是书面语语料库,口语语料库刚开始建设(北语的“汉语学习者口语语料库”,“HSK动态口语语料库”;香港中文大学的“语言习得汉语口语语料库(LAC/SC)”,苏州大学的“小型外国学生口语中介语语料库”),多模态语
21、料库则还处于理论探索阶段。第35页,共55页。二、关于语料库利用的两个问题为求同质李菡幽自建语料库为求同质李菡幽自建语料库 厦门大学海外教育学院讲师李菡幽在其博士论文基于学习策略的汉语作为第二语言语法偏误研究中自创了20万字的汉语作为第二语言习得和汉语作为第一语言习得的平行语料库,观察留学生使用汉语13种特殊句型的偏误情况,并进行了统计分析。因为语料来源于两类学生对同一幅图画的看图作文,即要表达的客观内容是一致的,通过对比,可以更好地呈现出留学生使用汉语13种特殊句式的特点。第36页,共55页。二、关于语料库利用的两个问题 调查对象:中高级留学生和中国初三年级的学生。选择初三学生作为参照系有三
22、个考虑:一是从思维形式和心智发展角度看。初三学生的认知系统已经趋于成熟完善。这样就避免了因为心智发展等问题引起的语言表达错误,从而使得他们与作为成人的第二语言学习者的语法偏误更具有可比性。二是从二者写作能力的发展特点看。初三学生的写作正处于一个阅读向写作过渡的阶段,也是形成内部差异的重要阶段。而中高级留学生的二语写作能力也处在过渡阶段,内部差异明显。所以,从这个角度来说,二者也具备了很强的可比性。三是词汇量大体相当。第37页,共55页。二、关于语料库利用的两个问题 留学生和中国学生汉语特殊句型使用率比较留学生和中国学生汉语特殊句型使用率比较 第38页,共55页。二、关于语料库利用的两个问题 李
23、菡悠结论结论:从使用率来看,留学生对大部:从使用率来看,留学生对大部分的汉语特殊句式的使用频次均低于中国学分的汉语特殊句式的使用频次均低于中国学生。我们认为这在一定程度上说明了留学生生。我们认为这在一定程度上说明了留学生对大部分的汉语特殊句式的使用仍存在一定对大部分的汉语特殊句式的使用仍存在一定的回避倾向。的回避倾向。第39页,共55页。二、关于语料库利用的两个问题2.3 要注意对语料库定量分析结果的要注意对语料库定量分析结果的“解释解释”千百年的西方哲学史总是演绎着经验主义(empiricism)和理性主义(rationalism)的轮回。经验主义哲学重视经验,主张归纳法;理性主义哲学崇尚理
24、性,提倡演绎法。语言学研究也不例外,上个世纪前半叶的结构主义语言学是经验主义的。崇尚对语言事实的客观描写,有一套严格的形式描写程序和方法,从对客观语言事实的描写中归纳语言规则。第40页,共55页。二、关于语料库利用的两个问题 上个世纪中叶,乔姆斯基的转换生成语言学兴起,乔姆斯基在其著作中明确地采用理性主义的方法,完全排斥经验主义的描写方法,主张采用公理化、形式化的方法,严格地按照一定的规则来描述自然语言的特征,试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的“普遍语法”。第41页,共55页。二、关于语料库利用的两个问题 语料库语言学属于经验主义的描写语言学范畴,它的优势
25、在于客观、精确和可验证性。但是,我们研究语言和语言教学问题的目的不仅在于了解问题,更重要的是要解决问题,这就需要解释,对客观描写(统计)所揭示的语言事实和语言习得现象作出科学合理的解释,这就是语言教学研究和硕博士论文撰写中所谓的定量研究与定性研究相结合的原则。第42页,共55页。二、关于语料库利用的两个问题研究案例四:研究案例四:“有界有界”与与“无界无界”陆俭明先生在上个世纪陆俭明先生在上个世纪80年代从描写语法学的视年代从描写语法学的视角敏锐地揭示汉语中某些句法组合没有数量词就不角敏锐地揭示汉语中某些句法组合没有数量词就不能成立或是不自由的,还有一种情况是某些句法组能成立或是不自由的,还有
26、一种情况是某些句法组合排斥数量词。(陆俭明合排斥数量词。(陆俭明1988)例如:)例如:1.某些句法组合没有数量词就不能成立(用*标示)或是不自由的(用(*)标示)。(1)双宾语结构,如果间接宾语是表示位移终点的处所或是表示“给予”的对象,那么直接宾语得带数量词。*盛碗里鱼 盛碗里两条鱼 (*)送学校油画 送学校一幅油画第43页,共55页。二、关于语料库利用的两个问题(2)双宾语结构,如果直接宾语是结果宾语,那么这个结果宾语得带数量词。*(蚊子)叮了小王大包 叮了小王两个大包 *捂了孩子痱子 捂了孩子一身痱子(3)带结果补语或趋向补语的动补结构后面带上名词性宾语(包括施事宾语)形成的这种动宾结
27、构,宾语得带数量词。(*)打破玻璃(打破玻璃的人找到了吗?)/打破两块玻璃 (*)飞进来苍蝇(飞进来苍蝇就打)/飞进来一只苍蝇第44页,共55页。二、关于语料库利用的两个问题(4)“动词+了+名词”这种动宾结构,作宾语的名词得带数量词。(*)吃了苹果(吃了苹果又吃梨)吃了一个苹果(5)非谓形容词(状态形容词)作定语(不带“的”)的偏正结构,其中心语一定得带数量词。*雪白衣服 雪白一件衣服 *白花花胡子 白花花一大把胡子 *热热儿茶 热热儿一碗茶 *干干净净鞋 干干净净一双鞋第45页,共55页。二、关于语料库利用的两个问题2.某些句法结构排斥数量词。(6)表示动态行为的处所主语句“主处所+动词+
28、着+宾”,其宾语成分排斥数量词。例如,“山上架着炮”如果是表示“山上正在架炮”的动态行为(而不是“山上有炮”的静态存在),那么“炮”不能带数量词。*山上架着两门炮 山上架着炮 其实不仅是处所主语句,表示动态行为的“动词+着”后面的宾语一般不能带数量词,例如:*他正吃着三碗饭 他正吃着饭 *他正写着五行字 他正写着字第46页,共55页。二、关于语料库利用的两个问题(7)性质形容词作定语(不带“的”)的偏正结构,其中心语也不能带数量词。这正好与(5)状态形容词作定语的偏正结构得有数量词的情形相反。*白一只孔雀 白孔雀 *干净一件衣服 干净衣服 吕叔湘先生在怎样学习语法一文和石毓智(1992a)还指
29、出两种排斥数量词的句法结构:第47页,共55页。二、关于语料库利用的两个问题(8)“动词重叠式+名词”这种动宾结构,宾语不能带数量词。(*)今天要谈谈两个问题 今天要谈谈问题 *星期天在家洗洗一件衣服 星期天在家洗洗衣服(9)在用“不”否定的结构里,动词即使不是重叠式,其宾语一般也排斥数量词:(*)今天不谈两个问题 今天不谈问题 (*)这个月不演三场电影 这个月不演电影第48页,共55页。二、关于语料库利用的两个问题 沈家煊先生在90年代从认知语法学的视角用“有界无界”这一对概念对陆先生揭示的语法规律做出了解释由于述语部分是个有界的行为动作,所以要求宾语部分也得是有界的(光杆儿名词作宾语表示通
30、指,即类指,是无界的,加上数量词就表示专指,是有界的)。(沈家煊1995)这个解释让我们对汉语语法事实的认识显然深入了一步。第49页,共55页。二、关于语料库利用的两个问题 沈家煊先生还试图将有界/无界的理论认识运用到汉语的词类分析,以实现汉语词类分析从传统语法的概念意义标准到描写语法的形式标准再到认知语法的抽象语义标准的轮回。去年陆先生在商务印书馆“中国语言学书院揭牌仪式暨研讨会”上的讲话中指出:“我们还可以追究,为什么行为动作是有界的,它的宾语也必须要求是有界的?我们对各种各样的语法现象,对各种各样的语法问题,都要去思考为什么?的问题”。也就是提示我们在语言研究中要重视解释,当然描写是基本
31、功。第50页,共55页。二、关于语料库利用的两个问题 2.4 对把字句对把字句“不回避说不回避说”的的解释解释 对把字句的“回避说”和“不回避说”,除了可以用语料“不同质”来解释外,还可以用“语言习得理论”来解释。克拉申(Krashen)的“语言控制调节”理论严格区分第二语言获得的两条截然不同的路径“习得”和“学习”。习得是在自然交际中产生的下意识的过程,而学习则是在课堂上进行的一种有意识的过程。简单地说,克拉申认为习得是语言理解和表达的主要来源,而课堂上学习到的知识只有在控制调节系统下才能使用,其中最符合克拉申提出的3个使用条件的场合就是考试。第51页,共55页。二、关于语料库利用的两个问题
32、“不回避”说利用的语料库是“HSK动态作文语料库”存储的恰恰是书面考试语料,按照克拉申的“语言控制调节”理论,留学生在课堂学习中被反复强化的“把字句”在考试中派上了用场,所以使用率略高于非考试的汉语书面语语料库。这一解释如果成立的话,可以反馈于我们的把字句教学,给我们两条启示:1.在汉语作为第二语言的课堂教学中不必刻意强化把字句及其使用规则的教学;2.应通过大量接近真实或真实的课堂交际活动让学生习得把字句。最后,我想和大家分享一个研究心得:第52页,共55页。二、关于语料库利用的两个问题2.5“科学革命的结构科学革命的结构”与语料库利用的两个与语料库利用的两个问题问题 “范式”是美国科学史学家
33、和科学哲学家库恩(Thomas Samuel Kuhn)在他的科学革命的结构(芝加哥大学出版社1962年版)一书中提出的一个科学哲学的基本概念。按照库恩的论述,科学发展的模式就是由一个常规科学系统(范式)转变到另一个常规科学系统。即:前科学常规科学反常危机科学革命新的前科学新的常规科反常第53页,共55页。二、关于语料库利用的两个问题 库恩的基于“范式”更迭的科学发展理论给了我们一个启示:当一种理论和方法趋于成熟、为大家所公认和使用的时候,同时也就预示着危机的到来,作为一个有远见和创见的研究者就应该改变思路,换一个角度来研究和解决问题,这就是研究和硕博论文写作中至关重要的创新精神。前面讲的“同质”是追求语料库利用的科学性,而“解释”则是期冀语料库利用的创新性,希望在座的研究生们都能希望在座的研究生们都能成成为科学和创新精神兼备的研究者!为科学和创新精神兼备的研究者!第54页,共55页。谢 谢!第55页,共55页。