1、文献计量方法与情报分析工作 理论研究及应用进展 杨立英2008年9月目录目录 什么是文献计量研究 文献计量方法的基本过程 文献计量分析的三种类型 文献计量研究常用的方法 文献计量学的经典定律 情报分析工作应用 文献计量研究进展基本方法介绍应用及进展文献计量研究的含义 文献计量研究是以文献作为数据基础进行的定量研究,通过运用数学方法分析科学研究的成果,描述科学的体系结构,分析科学系统的内在运行机制,揭示科学发展的时空特征,探索整个科学活动的定量规律性。文献计量研究的基本过程 数据机理分析 数据集构建 统计处理 结论文献计量研究的三种类型 依据大量积累的统计数据提出经验统计模型 例如文献计量三大定
2、律 依据时间序列数据的发展趋势提出合理假设,建立数学模型,进行模拟和预测。例如普赖斯通过观察科技期刊的增长曲线,提出科技文献指数增长规律,并成功推广到科学交流的大部分领域。将其它领域的数学概念、模型移植到文献计量研究中。例如生物学“生长曲线“,”传染病模型”,经济学中的“人口增长模型”,物理学中的”半率期“文献计量研究常用的方法1 基于论文特征的统计方法基于论文特征的统计方法 论文是科研成果的主要载体,因此,论文的数量及其变化是最基础的论文是科研成果的主要载体,因此,论文的数量及其变化是最基础的统计指标。除此之外,论文中还蕴含着诸多表征科学成果特性的特征统计指标。除此之外,论文中还蕴含着诸多表
3、征科学成果特性的特征项,例如论文的关键词、作者、作者机构、作者所在的国家、期刊等项,例如论文的关键词、作者、作者机构、作者所在的国家、期刊等等。这些隶属于论文的特征项从多个角度反映了学科的发展水平。等。这些隶属于论文的特征项从多个角度反映了学科的发展水平。P(x,y),其中,P是由x,y决定的论文数据集,x,y为论文特征项文献计量研究常用的方法2 基于引文特征的统计方法基于引文特征的统计方法 论文在发表时,作者将研究过程中参考或引用过的文献列出,形成引文(参论文在发表时,作者将研究过程中参考或引用过的文献列出,形成引文(参考文献),论文的引用与被引关系形成一种重要的文献计量特征。文献计量考文献
4、),论文的引用与被引关系形成一种重要的文献计量特征。文献计量学家曾经对文献引用原因作过很多研究,指出引用与被引是一种相对可靠的学家曾经对文献引用原因作过很多研究,指出引用与被引是一种相对可靠的联系。论文的质量在很大程度上与论文受关注的程度相关。统计分析数据表联系。论文的质量在很大程度上与论文受关注的程度相关。统计分析数据表明,越是重要的研究成果被引用的频次越高,受国际同行关注的程度越大。明,越是重要的研究成果被引用的频次越高,受国际同行关注的程度越大。因而,引文特征是评价论文影响力,反映研究成果质量的计量指标。因而,引文特征是评价论文影响力,反映研究成果质量的计量指标。R(x,y),其中,R是
5、由x,y决定的引文频次(以下简称引文),x,y为论文特征项。文献计量研究常用的方法3 论文与引文的捆绑指标论文与引文的捆绑指标H指数及方法指数及方法h指数是美国物理学家Jorge E.Hirsch于2005年提出的一项个人科研绩效评价指标。h指数的定义是:当且仅当一个科学家有h篇被引频次至少为h次的论文,同时剩余论文的被引频次都小于h时,该科学家的成就分值为h。h指数最大的优势在于它将论文与引文捆绑在一起,可以避免单纯追求论文数量的倾向。h指数还可以推广到期刊、科研团队与机构以及国家的绩效评价。H指数等于指数等于5文献计量研究常用的方法4共现研究(共现研究(co-occurrence and
6、occurrence)科技论文中的共现是指相同或不同类型特征项共同出现的现象,如多篇论文之间共同出现的主题(关键词)、共同出现的合作作者、共同出现的合作机构以及论文与关键词、机构与作者共同出现等都属于共现研究的范畴。共现研究(共现研究(co-occurrence and occurrence)论文同被引图示(方框表示同被引论文)文献耦合图示(方框表示耦合论文)共现研究(共现研究(co-occurrence and occurrence)共词图示(方框表示共同出现的关键词)作者合作图示(方框表示合作作者)共现研究(共现研究(co-occurrence and occurrence)作者同被引图示
7、(方框表示同被引作者)作者同被引图示(方框表示同被引作者)共现研究(共现研究(co-occurrence and occurrence)的研究原理)的研究原理研究基础:研究基础:特征项之间存在文献计量关系(共现关系)研究目的:研究目的:分析共现特征项之间的关系,发现科学活动特点及规律。研究方法:研究方法:多元统计方法(聚类分析、因子分析、多维尺度分析)社会网络分析方法 其它数据挖掘方法文献计量学的经典定律1 科技文献数量增长的规律 经验公式:指数增长(Price),逻辑斯蒂曲线,直线增长 应用范围:文献管理,情报预测文献计量学的经典定律2 文献老化规律 科技文献随着其“年龄”的增长,其内容日益
8、变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。1971年,美国科学学家.普赖斯提出了一个衡量各个知识领域文献老化的数量指标,即后人所称的“普赖斯指数”。就是在某一知识领域内,把对年限不超过五年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。其计算公式如下:(普赖斯指数)被引文献数量(小于或等于5年)100/被引文献总量。布鲁克斯的负指数模型等等 应用范围:文献管理文献计量学的经典定律3专业论文在期刊中的分布规律布拉德福定律:是由英国文献学家布拉德福(S.C.Bradfo
9、rd)1934 年首先提出。它是定量描述科学论文在相关期刊中集中分散状况的一个规律。经过后来的许多研究者的修正和研究,发展成为著名的文献分布理论。布氏定律的文字描述为“如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排列起来,就可以在所有这些期刊中区分出载文量最多的核心区和包含着与核心区同等数量论文的随后几个区,这时核心区和后继各区中所含的期刊数成 1:a:a 2 的关系(a1)。”布氏定律主要反映的是同一学科专业的期刊论文在相关的期刊信息源中的不平衡分布规律。布氏定律的应用研究也获得了许多切实有效的成果,应用于指导文献情报工作和科学评价,选择和评价核心期刊,改善文献资源建设的策略,确立
10、入藏重点,了解读者阅读倾向,评价论文的学术价值以节约经费、节约时间,切实提高文献信息服务和信息利用的效率和科学评价的科学性。文献计量学的经典定律4 科学生产率的频次分布洛特卡定律:是由美国的统计学家、情报学家洛特卡(A.J.lotka)研究出来的描述科学论文作者分布的规律。在科研活动中,不同人的科研能力及其成果著述数量肯定是不同的。那么,在同样的一段抽样时间内,不同的科技工作者的论著数量分布有没有什么规律呢?1926 年,洛特卡发表了论文“科学生产率的频率分布”。他在文中统计分析了化学和物理学两大学科中一段时间内科学家们的著述情况,提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平方定
11、律”。文献计量学的经典定律5 自然语言中的词频等级分布:齐普夫定律。由美国语言学家齐普夫(G.K.Zipf)于 1935 年研究发现的关于文献中的词频分布规律。其具体表述如下:如果将一篇达到一定长度的文章中的词按其出现频率递减排序,根据频率高低编上相应的等顺序号,次最高的为 1 级,其次为2 级 ,这样一直到若干级,如果用 f 表示词在文章中出现的频率,用 r 表示词的等级序号,则有:fr=c(c 为常数)应用词频分布规律及其参数,可以预测关键词的数量,计算各词汇的重要程度,对于文献标引与词汇控制、词表的编制、文献信息检索等方面都具有重要的应用价值。文献计量学的经典定律的统一性 从表面上看,三
12、大定律的统计对象各异,结论也不尽相同,但随着对三大定律认识和了解的进一步深入。从上个世纪六十年代起,人们已陆续注意到三条定律在研究方法及结论方面都存在某些相同之处。1、都是一个简单的函数范围内一个变量与另一个变量相关联。2、都是采取将观察值以及所涉及的主体进行特殊排列而得到相关模型。3都反映了某种主体与其所表现的特征之间的数量对应关系。因此,研究三大定律分布一致性的问题就转化为研究主体与其特征值之间关系的函数表达不同形式的问题。三种内容各异的分布实质上属于同一类分布体系。它们数学关系实质上是积分表达形式与微分表达形式的转化,称之为布拉德福洛特卡齐夫分布体系。文献计量方法在情报分析工作中的应用
13、学科发展的速度 现代科学研究的发展日益月异,研究成果也相应飞速增加。因此,作为研究成果的具体体现形式,科学文献的数量与科学发展关系密切。已有的文献计量研究表明,当科学发展取得重大突破时,相应的研究成果也会层出不穷。相反,当科学研究工作遇到暂时困难无法突破时,成果也会大为减少。因此,隶属于某学科的论文产出数量及其变化反映了该学科发展的速度。增长34.3%增长11.0%增长19.8%文献计量方法在情报分析工作中的应用 学科发展的继承性 从科学发展的历史看,任何研究工作都具有明显的继承性特点,新的进展总是或多或少的建立在前人的研究基础之上。现代科学的继承和发展主要表现在研究内容方面。在文献计量研究中
14、,科学研究工作的继承性可以通过对文献之间引用关系的分析来测度。例如,前沿领域和热点领域研究工作的起源。文献计量方法在情报分析工作中的应用 学科发展的阶段性1 科学学家曾经把科学发现的过程形象地比喻为矿山采掘,是一个沿着不同的物质层次,由表及里,不断掘进的阶段性过程。在科学递进发展的不同阶段,科学论文的数量、某研究领域的关键词的数量会表现为不同的特征,这些特征又与学科发展所处的阶段有着密切的联系。在科学的萌芽阶段相关文献很少,随着学科的逐步发展,相关文献数量迅速增加;当学科发展到比较成熟的阶段时,文献数量有一个稳定时期,甚至略有下降,一直到该学科发生衍生综合趋势的时候,文献数量才又上升,开始一个
15、新的循环。主题词的数量与学科发展阶段的关系也与此类似。萌 芽文献计量方法在情报分析工作中的应用 学科发展的阶段性2199119931999200120042006文献计量方法在情报分析工作中的应用 学科的交叉渗透性 在科学研究中,各学科之间交叉渗透日益严重,边缘学科不断出现,使得许多科研课题单靠某一学科的知识难以完成。事实上,单一学科的期刊也是很少见的。据对1129种常用西文期刊所做的调查,涉及四个以上学科的几乎占60以上。学科文献在内容上的交叉渗透正是学科之间交叉渗透特点的反映。在文献计量研究中,借助多元统计方法可以对学科交叉进行分析。文献计量方法在情报分析工作中的应用 学科发展重点的转移
16、科学的发展,不仅受自身活动规律的影响,而且也会受到各种社会因素和社会过程的影响。从科学发展的历史看,不同时期都会涌现出不同的重点学科。在学科内部,研究工作发展也会呈现出重点在不断迁移和演化的特点。通过从对不同学科、领域文献数量的统计,往往能反映各学科的比重和发展速度,从而说明科学发展重点的转移情况。文献计量方法在情报分析工作中的应用 科学活动的合作性:科学合作在论文数据中主要表现在合著现象。在文献计量研究中,以合作研究的成果作为统计基础,通过对合作作者的统计分析,可以对于科学合作从不同角度进行分析:例如国家合作、机构合作、个人合作等。尤其是宏观层面上(国家、机构合作)的合作规律尤为科研管理部门
17、关注。国际合作可以从国家、机构两个层面来考察,对国际、本国机构的国际合作进行分析,提供微观层面机构合作的信息,可以了解本领域机构合作的规律和特点,是有针对性选择合作机构,制定机构合作战略的参考基础。文献计量方法在情报分析工作中的应用 学科结构揭示文献计量研究进展 部分热点研究主题:H 指数领域的甄别合作网络(国家、机构)可视化技术性能影响指标新的数据库来源交叉学科研究科技政策开放获取与文献计量H指数研究进展H指数应用研究:Journals(Braun et al.2006)Institutions(Molinari&Molinari 2008)CountryH指数的推广:2005 Hirsch
18、:h-Index 2006 Egghe:g-Index 2007 Kosmulski:h-Index a-Index;m-Index;r-Index;.HLIKE indexH指数及相关指数的性能比较领域的甄别 热点领域、前沿领域的甄别遴选遴选“前沿领域前沿领域”技术路线技术路线论文收敛到领域聚类过程论文收敛到领域聚类过程前沿领域的遴选数据挖掘过程前沿领域的遴选数据挖掘过程热点领域热点领域拥有为数众多的高被引论文拥有为数众多的高被引论文最近几年论文很少,隶属于该领域最近几年论文很少,隶属于该领域的论文数量呈现下降趋势的论文数量呈现下降趋势热点领域热点领域拥有为数众多的高被引论文拥有为数众多的高被引论文论文数量已形成一定规模,数量增论文数量已形成一定规模,数量增长已趋于饱和,研究接近成熟。长已趋于饱和,研究接近成熟。热点领域、热点领域、最近几年论文数量增加很快,高被最近几年论文数量增加很快,高被引论文数量较多,但最近的一年论引论文数量较多,但最近的一年论文数量开始下跌文数量开始下跌前沿领域前沿领域最近的二年中隶属于该领域最近的二年中隶属于该领域的论文数量突然增加,的论文数量突然增加,但高被引论文不多但高被引论文不多平稳发展平稳发展研究领域研究领域 谢 谢!