1、语料库(corpus,复数为corpora)一词来源于拉丁语,本意为body。一般情况下,语料库往往指的是一个“电子文本集”(a collection of texts stored in an electronic database)。真正意义上,语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。以一个语料库为数据源(data source)进行的研究可以看作是对该语料库所代表语肓、语言变体或文类的研究,研究所得到的结论可以推广到整个语言、语言变体或文类。语料库(corpus)是语言材料的仓库,是计算机进行语言检索、比较、分析等处理的重要基础。
2、(张普1999)语言学名词审定委员会2011年推出的语言学名词中,对语料库的定义、作用及应用领域的阐述为:(语料库是)为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注,具有适当规模的语科库能够反映和记录语言的实际使用恃况。通过语科库能够观察和把握语言事实,分析和研究语言系统的规律。语料库可以应用于语言学理论研究、语言应用和语言工程。由此可见,语料库并不是语言材料的简单堆砌或随意集合。而是有着严格要求的有序的语料集合。对语料库语言学(corpus linguistics)的两种看法:语料库语言学是一个独立
3、的学科,它有自己独到的理论体系和操作方法。语科库语言学并非语言学的又一个分支学科,而是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题,从而极大地丰富已有的研究方法。语料库语言学以大量精心采集而来的真实文本(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。统计语言学 使用概率论、数理统计等统计学的方法来对语言进行研究。(冯志伟 2012)计量语言学 计量语言学(quantitative linguistics)以真实的语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它
4、们之间的相互关系作为研究对象,通过概率论、随机过程、微分与微分方程、函数论等数学的定量方法(与代数等数学的定性方法相对)对其进行精确的测量、观察、模拟、建模和解释,寻找语言现象背后的数理规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。(刘海涛 2012)计算语言学“计算语言学是研究用机器来处理自然语言的学科。它是由信息技术和语言学交叉而成的”(CuS:1)。SLP没有直接提出计算语言学的确切定义。SLP的作者在开篇借用了Stanley Kubrick科幻片中的人物 HAL,HAL是一个通晓英语的机器人。作者引入HAL的目的在于说明,为了构建这样一个可与人通过自然
5、语言进行交流的机器人,需要哪些知识和技术:语言理解方面有语音识别和自然语言理解(包括唇读技术),表达方面需要自然语言生成和语音合成,另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这些问题一般涉及以下学科:自然语言处理,计算语言学,语音识别和合成。SLP的作者将这三者合起来称为语音及语言处理,除了以上HAL所用的这些技能外,SLP也囊括了其他重要的语言处理领域,如:拼写校正、语法检查和机器翻译。联系:都是涉及语言学、数学、统计学以及计算机科学等多个学科和领域,是典型的文理工交叉学科,具有鲜明的跨学科研究性质。研究对象都是自然语言组成的大规模语料库。研究工具都是利用计算机的软硬件。研究
6、的理论基础是数学的概率统计知识和语言学的语音、词汇、句法、语义、语篇和语用知识。都可以对语言学的语音、词汇、句法和语义等层面进行统计和研究。联系:统计语言学和计量语言学都是利用统计方法来实现对语言成分的统计,计量语言学以发现语言成分或语言成分间的数学规律为目标。而统计语言学以所统计的语言特征在统计学上显著和不显著为目标。语料库语言学对大规模语料库进行词汇、句法和语义等统计,依据统计数据和实例上下文对所研究的对象进行语言学层面定性的分析,是定量分析和定性分析的结合,以研究语言的结构和运用为目标。计算语言学以语言结构的理解与生成为研究目标,以统计和规则为基本研究方法。计算语言学的统计模型隐马尔科夫
7、模型、最大熵模型、条件随机场模型等和实现算法更复杂。对“词”的定义,语言学界一直很难达成共识。我们暂且撇开语义问题,考虑一下当一个句子里出现两个it,它们应该被视作一个词还是两个词呢?形符形符(token)类似于我们日常说的“词”(如一篇300词的作文)。句子A computer almost necessarily has a Keyboard and a monitor中共有10 个形符(即A,computer,almost,necessarily,has,a,Keyboard,and,a,monitor)。这看起来似乎没有什么歧义,但是我们仍然需要考虑its是一个形符还是两个形符。语料库
8、语言学中一般的处理方法是,对its,cant等缩略词进行切分,使其成为it和s 两个成分(cant 切分为ca 和nt 两个成分),这一过程被称作为分词分词(tokenization)。换言之,语料库语言学中一般将its视作为两个形符。总形符数总形符数是语料库容量的最常用的测量单位。如英国英国国家语料库约有1亿词,说的就是该语料库中包含有约1亿个形符。形符:在处理英语时,较为通用的做法是,把所有的单词视为“形符”。这里说的形符,大概有这样几种类型:1、全部由英语字母构成(如computer 由8 个英文字母构成)2、由数字或数字和字母构成(如3、1985、21th、3D等)3、除了数字和/或字
9、母之外,还带有连字符(-)4、带有英语26 个字母之外的外来字母(如德语中的音变)5、部分符号(如&、$等)。统计形符时,我们通常不把标点符号(如逗号、句号等)包括在内,但这一点有例外,如数字3.1415925 和整数的千分位分隔符(如100,000)中的逗号等。为了便于统计,对英语进行分词时通常在以上我们所说的“形符”后加空格,使得他们与文本中的其他形符或符号分离开来。类类符符(type)作为一个统计量,指语料库文本中任何一个独特的词形(word form)。换言之,在一个文本中,重复出现的形符只能记作一个类符。以美国作家Gertrude Stein的作品Sacred Emily中的诗句Ro
10、se is a rose is a rose is a rose.为例,这句中:共有10个形符,而类符只有3个(即rose,is,a)。据此,我们可以计算这个句子的类符类符/形符比形符比(type-token ratio,TTR,又称为形次又称为形次比或比或类形比类形比),即TTR=(3/10)*100%=30%类符/形符比是衡量文本中词汇密度词汇密度(lexical density)的常用方法。然而由于文本中有大量的功能词(如the、a、of等)反复出现,文本越大,形符量越大,但类符量却不会等量增加。文本越长,功能词重复的次数也就越多,类符/形符比也就会越低。因此,如果采用类符/形符比来计算
11、长度不等的文本的词汇密度就显得很不合理。常用的补救方法是用标准标准化类符化类符/形符比形符比(standardized type-token ratio)来计算词汇密度。计算方法是:计算每个文本每1000词的类符/形符比。所谓分词分词(tokenization),指将一连串的字符转换成相互分离、容易识别的形符(tokens)的过程。在文本采集的过程中,由于文本来源不一,格式各异,文本内部存在很大的不一致性,如果不进行分词处理,一来容易导致检索困难,二来可能会使得语料库的频率统计出现误差,还可能会影响语料库的标注和后期加工。汉语的分词比英语要复杂的多。词与词之间连写,没有空格。对汉语“词”的理解众说纷纭。软件 filelist.ini,修改分词文件目录路径 批处理软件索引,又称为索引,又称为“语境中的关键词语境中的关键词”ConcordanceConcordance PlotFile ViewWord ClusterN-GramsCollocatesWord ListKeyword List索引,又称为语境中的关键词索引定位词簇表,又称词块,词汇短语,短语结构等等。可设定长度。搭配。词表。词频表。词表。词频表。可以增加停用词,排除掉不希望出现在最终词表中的单词。主题词。观察文本参照语料库:必须大于观察文本。主题词。观察文本参照语料库:必须大于观察文本。语言设定