1、 文献计献计量学学 三大定律 目录 1、文献计量学的概述 2、文献计量学三大定律 产生背景 发展 应用 概概念 文献计量学,是将数学和统计学的方法运用于文献及其他交流介质研究的一门学科。文献计量学产生于20世纪初,20年代到40年代形成了构成其主要理论框架的几个经典定律。1969年出现“文献计量学”这个名词,成为情报学的重要组成部分。现在文献计量学已成为图书情报领域内最活跃的一个分支学科,体现了当代学科定量化的趋势。特点4/12文献计量学的概念是不统一的,不同研究者有不同的解释。同一研究者也在不断修正自己的观点。其具有如下特点:首先首先,文献计量学的研究内容主要是文献情报流的机理,文献计量学的
2、研究内容主要是文献情报流的机理探讨。探讨。如论文作者指标、引证文献与被引证文献及二者之间的关系、文献的利用情况、书目、文献、索引等。其次其次,文献计量学的关键是定量,用定量化方法对文献,文献计量学的关键是定量,用定量化方法对文献特征进行分析处理。特征进行分析处理。采用了情报学与数学、统计学相结合的研究手段。文献计量学通过采集和处理数据,深刻、准确地观察和描述各种现象及规律。最后最后,以若干基本定律和规律为基础进行文献分布研究。,以若干基本定律和规律为基础进行文献分布研究。布拉德福定律、洛特卡定律和齐普夫定律的建立,为文献计量学奠定了坚实的基础。发发展趋势趋势21世纪,随着信息科学和信息技术的迅
3、速发展,信息资源向着电子化、数字化、网络化的方向发展,给人类社会、政治、经济、科技和文化带来的巨大的影响和深刻的变革。在新的社会环境和技术条件下,文献计量学的发展呈现新的趋势。具体表现为:文献计量学已经不仅仅停留在以篇、册、本为单位 的文献单元的计量上,而开始深入到文献的内部知识单元和文献的相关信息进行计量研究,如题目、关键词、词频、知识项、引文信息、著者、出版者、日期、语言、格式等都已成为计量的对象。5/126/12 随着计算机的普及,研究者开始利用计算机进行文献计量工作。通过建立系统化、规范化的数据来源体系和原始数据的获取渠道,利用计算机等现代化方法和手段进行数据处理和分析研究。信息资源网
4、络化的发展为网络计量学的产生提供了基础条件和研究对象。定义:网络信息计量学是采用数学、统计学等各种定量方法,对网上信息的组织、存贮、分布、传递、相互引证和开发利用等进行定量描述和统计分析,以便指示网络信息数量特征和内在规律的一门新兴分支学科。三大定律三大定律7/12 洛特卡定律洛特卡定律 齐普夫定律齐普夫定律 布拉德福定律布拉德福定律布拉德福定律8/12 的含义:信息流的序性结构经验定律,也叫文献分散定律。布氏定律,是英国文献学家布拉德福于1934 年在 Engineering 杂志上发表的 Sources of information onspecific subjects 上提出的描述文分
5、散规律的经验定律。在其专著 文献工作 中,他又一次阐述了文献分散定律。认为“在数量很大的文献体中,文献按某一规律的模型分散”。科学信息很大程度上是以科技期刊的形式出现的,借助期刊这个载体得以交流传播,科技期刊对促进科学技术发展起着举足轻重的作用。布拉德福定律 (Bradford Law of Scattering)就是描述某一学科论文在相关期刊中的分布规律。它定量的揭示了,今天仍然具有不可替代的理论价值和实际意义。产生背景9/121、文献分散是普遍的客观现象在科学研究和文献工作中,布拉德福深深感到科学文献的分散。他发现:一门学科的论文分散在其他学科的期刊杂志上是屡见不鲜的。2、科学统一性科学统
6、一性原则是布拉德福定律产生的思想基础。布拉德福认为;按照科学统一性原则,科学技术的每一个学科都或多或少、或远或近地与其他任何一个学科相关联。3、文献统计研究是布氏定律产生的基础 布拉德福本人在长期的文献工作中,对科学文献进行大量的统计研究,掌握了文献分散的特点,发现了其中的某些规律性;并在文献统计的基础上经过数学推导,得出了与上述理论推导一致的结论,为布拉德福分散定律的正式确立奠定了基础。产生和基本内容10/12 1933年,英国科学博物图书馆的布拉德福选择了“应用地球物理学”和“润滑”专业领域为样本,组织图书馆的工作人员统计所收集的科技期刊上的相关论文,共统计了490种期刊,1727篇论文,
7、并将期刊按照相关论文载文量的多少减序排列。然后他采用3种不同的方法,即区域分析、图像观察区域分析、图像观察和数学推导和数学推导的方法对文献统计数据进行了分析研究,结果发现,尽管学科不同,但相关论文在相应的期刊有着同样的分布规律。布拉德福于1934年1月在工程发表了题为专门学科的情报源一文,首次公开提出了定量描述文献分定量描述文献分散规律的经验定律,即布拉德福定律。散规律的经验定律,即布拉德福定律。区域分析11/12布拉德福定律的区域分析布拉德福定律的区域分析:如果将科学期刊按其登载某个学科的论文数量的大小,以减序排序,那么可以把期刊分为专门面向这个学科的核心区、相关区、非相关区,3个区的论文数
8、量相等,此时核心区、核心区、相关区、非相关区期刊数量之比为:相关区、非相关区期刊数量之比为:1 a a,a为布拉德福常数。核心区:所发表的论文来自数量不多但是效率最高的期刊相关区:数量较多的中等效率的期刊非相关区:数量众多但效率最低的期刊 图像分析12/12此外,布拉德福还对收集的数据进行图像分析图像分析:取上述等级排列的期刊数量的对数期刊数量的对数为横坐标,以相应的论文累计数论文累计数R(n)为纵坐标进行图像描述,就得到了布拉德福分散曲线。发展13/12自从布拉德福定律产生,很多学者对其进行了关注。英国 情报学家维克利最早把布氏定律推广到更一般的情形,指出分布图形由曲线和直线两部分组成,且布
9、拉德福定律不只是局限于划分3个区,而同样适用于3个区以上的情形,即与选区区域的数量无关,但分区不同,比例系数则要相应地变化。n1:n2:nm=1:a:am-114/12英国情报学家布鲁克斯首次用数学公式描述了布拉德福的经验定律,发展了图像描述方法,从而完成了布氏定律的这一重要的后续工作,并创造性地提出用两个部分组成的数学表达式来描述布拉德福定律,分别表示图像的曲线部分和直线部分:总结:发展过程15/12创立阶段创立阶段1934年,布拉德福的论文特定主题的信息源1934-1948年,无人问津1948年,文献学出版,使其理论开始传播理论研究阶段(理论研究阶段(60S)“布拉德福热”:相关研究空前活
10、跃形成两个学派:区域派和图像派全面发展阶段(全面发展阶段(60S以后)由纯粹的理论研究向应用领域渗透理论与应用并举的全面发展情形应用16/121、指导期刊采购工作确定“核心期刊”,为期刊选订提供依据2、考察专著的分布分析各个出版社关于某一学科或专业的著作出版情况,确定此学科的“核心出版社”,以指导图书馆的采购工作3、动态馆藏的维护可分析流通期刊的最小核心,以及核心读者所感兴趣的学科的最小核心,准确的为收藏服务,使馆藏保持为一种有序状态17/124、检索工具完整性的测定用来确定某一覆盖面的文摘索引至少要索及多少情报源评价某一学科的检索工具的完整性,为这些工具的选择和利用提供科学依据5、学科幅度的
11、比较可确定不同学科核心区和S值核心区出现的期刊数量可作为两门学科重叠程度的依据S值可以用来比较学科的领域范围和发展成熟程度6、指导读者利用期刊以“核心期刊”的概念指导读者利用期刊洛特卡定律18/12 1926年,洛特卡最先研究了科学文献数量与著者数量之间的关系,并创造性地提出了“科学生产率”的概念。所谓“科学生产率”是指科学家在科学上所表现出来的能力和工作效率,通常用其生产的科学文献的数量来衡量。洛特卡就是从“科学生产率”这个概念出发,通过统计和分析科研人员的论著数量,首次揭示了科学文献按著者的分布规律。产生背景19/12,是科学发展史上一个重要的转折时期。物理学和化学领域取得了革命性的进展,
12、同时文献领域科研人员和文献骤增。洛特卡首先注意到这种情况,着手研究了科研人员与其撰写的论著间的数量关系。洛特卡首先引入“科学生产率”的概念来测量科研人员撰写科学文献的能力。基本内容20/12 洛特卡对这些数据的统计结果表包含两部分的内容:1.与论著数量相对应的作者数量;2.著者频率,即相应的著者占著者总数的百分比。这两个部分均按论著数量增序排列。在对数据的研究过程中,洛特卡发现,科学领域的论著数量与著者频率有一定的关系。他在名为科学生产率的频率分布中,论述了化学与物理领域中作者频率与论文数量的分布规律,提出了描述这两者关系的一般公式,同时还阐明了科学生产率的经验规律,即洛特卡定律,又称“倒数平
13、方定律”。基本内容21/12从洛特卡定律的产生过程可以看出,该定律的目的和基本内容是:描述科学工作者人数与其所论著论文之间的关系。如果设f(x)为写了x篇论文的作者数占作者总数的比例,则洛特卡定律可表示为:C某特定主题领域的特正常数。洛特卡统计的指数a约:a=2,即“平方反比率”。洛特卡定律的发展22/12一.洛特卡定律的验证工作 1926年,洛特卡定律诞生;1941年,Davis对洛特卡的结果进行验证;1949年,Zipf在人类行为和最小努力法则中肯定洛特卡定律的同时也指出它的不足之处在于只是一种近似的计算方法,而不是一种严格意义上的分布。后来,众多的学者在不同的领域取得数据进行研究,对洛特
14、卡定律的验证、完善与发展起到一定的作用。(在洛特卡定律的基础上,普莱斯进一步研究了科学家人数与科学文献的数量,以及不同能力层次的科学家之间的定量关系,提出了著名的普莱斯定律和一些其他重要结论)23/12二.弗拉奇的贡献 对洛特卡定律的验证工作作了一个客观、严谨的总结;发现了影响洛特卡分布的两个因素。(a)研究者本人所处的时代或环境直接影响着研究结果,即该定律的验证工作具有一定的人为性(b)论文作者的数量,即统计样本中有关作者的数据量或统计样本的容量与研究结果有关24/12三.洛特卡定律在我国的发展初期研究工作文武商,讨论定律的推广和适用性问题;应用研究王崇德,1987年对我国情报科学作者的分布
15、情况进行研究。25/12四.合作者问题的研究某种期刊在一定时期内的合作度=作者总数/论文总数*100%合作率=合作论文数/论文总数*100%洛特卡定律的局限性26/12 LOTKA 定律是有局限性的,平方反比率是科学生产率一般的理论估计,不是一个精确的统计分布,它是对 CA 中收录的物理、化学两个领域十年间著者(姓氏以A A、B B 开头)抽样研究结果的推广。后来的学者沿着这个思路进行的研究,有些数据符合这个规律,有些则不符合。总而言之,只有统计时间区间足够长,统计数据充分才严格符合该定律。洛特卡定律的应用27/12 1、在图书馆学情报学方面,一般是用它来预测发表不同数目文章的著者数量和特定学
16、科的文献数量;2、在预测科学方面,按照洛特卡定律,可以从统计或计算科学著者数量来预测文献数量的增长速度和文献流的动向,便于掌握文献的交流规律,同时从文献计量学的角度出发,也可以预测科学家数量的增长和科学发展的规模及趋势等;3、在科学学和人才学方面,可以用来研究科学家的活动规律,研究人才的著述特征等。齐普夫定律28/12 词汇在科技文献中的使用和出现频率是有一定规律的。许多学者对词频分布理论进行了探索和研究,其中最为著名的是齐普夫定律。齐夫主要是根据汉莱(M.Hanley)为朱伊斯(J.Jayee)的中篇小说 尤利西斯(Ullysses)一书所编的频率词典来进行工作的。该词典文句容量为 260,
17、432 个,词典中收词 29,899 个。后来,齐普夫还根据其它一些文句中的词频统计来论证单参数词频分布公式的正确性。齐夫在做了大量艰苦的统计工作后,将单词以其出现的频次的多寡进行了等级排队,经过计算,论证了描述词的频率与等级序号之间关系的定量形式。产生背景29/12频率词典每一个词在一定长度的文件中出现的频率两个最基本的数量指标词的出现频率、词的序号艾斯杜发现(1916)较长的文章中,词频分布的定量化形式Nr*r=C(常数)词的序号:1,2,.,r.,D(1:绝对频率最大的词,D:绝对频率最小的词)词的绝对频率:n1,n2,.nr,.nD30/12贡东的公式根据德韦和阿叶斯的资料,得到词频分
18、布图词的序号的对数为横坐标r词的绝对频率的对数为纵坐标n定量公式:fr*r=C31/12齐普夫定律的确立检验贡东关系式的可靠性并研究C的性质确定c是一个系数,使得验证了单参数词频分布公式的正确性齐普夫定律的提出32/12 1949年,美国语言学家齐普夫发表了专著人类行为与最省力法则,提出了最省力法则这个概念。齐普夫通过研究大量的统计资料,试图证明自然语言词汇在文献中的分布服从一个简单的定律,他称这一定律为“最省力法则”。齐普夫认为:人们在解决任何一个问题时,总是力图把所能付出的平均工作消耗最小化,达到最省力的地步。基本内容33/12齐普夫定律的基本内容为:如果把一篇较长文章(约5000以上)中
19、的每个不同的词按其出现频次的递减顺序排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级一直到L级,那么等级值和频次值的乘积是一个常数,即:其中f表示某个词在文章中出现的频次r表示该词的等级序号,c为常数。齐普夫定律的局限性和发展34/12由于齐普夫定律是一个纯粹的经验定律,只是通过一般的统计方法得到,所以它的使用范围有一定的局限性。对于频次特别高和频次特别低的词,都不能完全满足。之后,一些学者对齐普夫定律进行了一些修正,这些修正主要在增加参数方面,有的学者把参数增加到两个,有的学者把参数增加到三个,使其更加精确的描述词频分布规律。比较突出的有美
20、国语言学家朱斯的双参数等级分布率,美籍法国数学家芒代尔布罗的词的三参数频率分布规律,布斯的低词频的分布规律。发展35/12一、朱斯的修正不仅C是一个参数,而且r的指数也是一个参数。36/12二、芒代尔布罗的修正提出了三参数序号分布规律:a,b,c三参数的含义如下:参数a与词的数量有关参数b与高频率词的数量有关参数c与出现频率最高的词的概率大小有关37/12三、低频词分布规律齐普夫第二定律齐普夫第二定律是阐述低频词频次与词数关系的一个定律。具体描述为:设n表示出现频次为n的词的个数,则n/1的大小与文献的长度无关,仅取决于频次n,:齐普夫定律的应用38/121、词表编制叙词表和标引可以提高计算机
21、检索的效率 根据齐普夫定律的频率分布方法,通过标引实验,找出被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值。选用原始文献中术语,统计其发生的频率,研究分布特征,最后决定合乎使用频率,研究分布特征,最后决定合乎使用频率的词。39/122、文献标引a、自动标引利用计算机对每一个词的频率进行统计分析,筛选出适合标引的词汇。卢恩的频率自动索引方法去掉高频词去掉后缀找出相应的词干b、加权标引斯派克琼斯的加权法如果有N篇文章,某个检索词涉及其中的n篇,给这个词(N/n)+1的权值,可得到较佳的检索效果40/123、信息检索用于估计信息检索系统所需要的存储量倒排档的大小,取决于同属性字段中不同的词的数量以及每个词的出现频率按照齐普夫定律,计算词频出现的几率41/124、在图书情报管理中的应用处理与语言文字有关的问题将“最省力法则”的原理应用于图书情报信息事业的管理合理选择图书馆或者信息中心的最佳地理位置,使得使用者能以最省力途径方便到达用以设计图书馆、信息中心资料库的排架