1、文献计量学中国中医科学院中医药信息研究所中国中医科学院中医药信息研究所李李 海海 燕燕文献计量学(文献计量学(bibliometrics)1969年,美国目录学家,Alan Pritchard:将数学和统计学的方法运用于图书及其他交流介质的研究的一门学科。科学计量学(科学计量学(scientometrics)1968年,前苏联学者提出:关于科学技术进步的计量研究情报计量学(情报计量学(informetrics)1979年,德国,otto nacke图书馆学图书馆学情报科学情报科学科学学科学学科学计量学科学计量学情报计量学情报计量学文献计量学文献计量学图书馆学图书馆学情报科学情报科学科学学科学学
2、科学计量学科学计量学情报计量学情报计量学文献计量学文献计量学目前发展的趋势从文献计量向情报计量发展-情报学定量化研究:文献计量学及其应用(46.4%);情报检索;情报学理论研究;情报经济学与情报成果评价.-计量单元:册本为单位的文献单元-内部知识单元计算机辅助的计量研究和应用-大量规范数据源-数据处理和分析工具网络信息计量学研究二、文献激增带来的影响图书馆:经费紧张、人力缺少、馆藏空间不足科学管理科技人员:阅读本专业文献的5%,情报损失量20%-80%有效利用科技情报科研工作;重复、浪费评价科研绩效三、文献信息的指数增长规律信息量度指标和方法1 绝对值指标:数量/累积数量(增长规律研究)2 相
3、对值指标:比例/累积比例普赖斯,1949,哲学汇刊,t tF(t)F(t)科学文献的指数增长曲线F(t)=aebt(a0,b0)a:统计初始时刻的文献量 b:持续增长率评价文献增长速度的定量标准:文献量增加一倍所需的时间(倍增期)不同学科的文献增长速度是不同的 化学化工:8-9年 原子能与环境科学:2-3年从统计实例来看,科学文献指数增长率正确反映了文献的实际增长情况.1952-1982 世界图书,倍增率20年 1907-1977 世界化学,倍增率10年局限性 -科学文献并不总是按指数函数增长,还与学科和统计时间有关。学科范围越广泛,符合指数规律的时间越长;开始统计的时间越晚,增长率值越大。-
4、指数增长曲线已有平缓趋势 -指数规律不能预测文献的未来增长趋势反映历史,不能预测未来对科学文献增长的机理研究不够没有考虑停刊因素没有考虑老化因素四、文献信息的逻辑增长规律 A AF(t)F(t)t tK/2K/2增长率变小,延缓增长率变小,延缓增长,并趋于一个增长,并趋于一个极限值极限值弗来明等,1965-1975年间煤的气化法肥大细胞研究学科诞生和发展期:指数 学科相对成熟期或突破的前期;逻辑描述过去,预测未来,增长规律实际上是会受到许多因素影响和制约的,真正的预测需结合系统论。普赖斯指出:科学发展的所有明显的指数普赖斯指出:科学发展的所有明显的指数型终将成为逻辑型模型。型终将成为逻辑型模型
5、。指数型是逻辑型的发展的初始阶段,而逻指数型是逻辑型的发展的初始阶段,而逻辑型是指数型最终的发展趋势。辑型是指数型最终的发展趋势。逻辑型曲线的局限性是导致科学发展的极逻辑型曲线的局限性是导致科学发展的极限论,增长率为零。限论,增长率为零。3普赖斯普赖斯纳里莫夫循环曲线纳里莫夫循环曲线4科学知识增长规律总结科学知识按指数增长的规律科学知识按指数增长的规律 恩格斯指出:科学按加速度发展,即按指恩格斯指出:科学按加速度发展,即按指数函数增长规律性发展。数函数增长规律性发展。(图书文献的增长图书文献的增长/科学知识的增长科学知识的增长/科学指标的翻番时间科学指标的翻番时间)智力潜热现象智力潜热现象,科
6、学技术发展的波浪式前进科学技术发展的波浪式前进,永无止境。,永无止境。科技文献的阶跃型增长曲线科技文献的阶跃型增长曲线 五、文献信息增长的其他数学模型线性增长模型分级滑动指数模型超越函数模型舍-布增长模型六、文献信息增长机理的分析科研经费和科技人员的激增使文献量增长普赖斯 n2 n n的平方根专业范围的扩大化和细分化学科之间相互渗透科学技术的国际化研究的合作化和集体化研究周期缩短,产生成果和转化速度加快通讯、出版技术的改进以及情报工作的加强(数据库)七、文献信息增长规律的应用在科学学和科技史研究中的应用 模拟科学技术发展过程,探讨规律,普赖斯,在文献指数增长规律基础上得出科学技术呈指数规律增长
7、的结论.在文献信息管理中的应用 图书馆经费的预算/资料收集的原则/馆藏增加的策略/存储空间扩大 在情报研究中的应用 专利文献是科技发展的最敏感指标 为技术引进提供决策依据半导体扩散技术专利数1950195019541954日本日本19621962196619661970197019581958世界其他国家世界其他国家引文分析法:给定时间间隔,专业文献,参考文献出版年代的相对数量分布1988年,生物医学老化规律引文量引文量19881988198019801970197019601960195019501940194019301930被引文献分析法:某专业一定量文献,引用这些文献的文献量按时间的分
8、布研究。国际物理期刊老化研究 1960年,40种刊,2500篇文献,SCI引文量引文量19601960196519651970197019751975198019801985198519901990老化系数老化系数 a =e-b被引文献累积百分比出版年限出版年限第二部分三大定律分区论文数量期刊载文数量(篇/年)期刊数量a42949b4991-459c4041258在科学评价中的应用在科学评价中的应用1.1.加拿大蒙特利尔大学,纳米科研与发展报告加拿大蒙特利尔大学,纳米科研与发展报告7979个关键词检索,年中,个关键词检索,年中,5050个高频词,个高频词,2548425484篇,按国别分类,根
9、据词频高低排序篇,按国别分类,根据词频高低排序,分析各国研究优势与劣势。,分析各国研究优势与劣势。2.2.中草药文献,中草药文献,1010年,年,MeSHMeSH词频排序,词频排序,4343个高个高频词,共现情况分析词间关联关系,中草药频词,共现情况分析词间关联关系,中草药的研究热点。的研究热点。第五节文献信息作者分布规律洛特卡定律三大基本定律之一三大基本定律之一(高产作者、核心期刊、高频词高产作者、核心期刊、高频词)1926年,年,the frequency distribution of scientific productivity,作者数与论文的平方反作者数与论文的平方反比数量关系比数
10、量关系科学生产率:在给定时间内,个体科学工作者所发科学生产率:在给定时间内,个体科学工作者所发表的论文数量。表的论文数量。揭示科学生产率以及作者与论文之间的数量关系。揭示科学生产率以及作者与论文之间的数量关系。物理(物理学史一览表)化学(CA)没有考虑科学合作者在文献分布规律中的作用.在某一时间内,写了X篇论文的作者数占作者总数的百分比 与其撰写的论文数X的平方成反比。总总洛特卡定律的特点洛特卡定律的特点:1.科学论文在作者上集中与分散的分布现象科学论文在作者上集中与分散的分布现象2.采用频次排序的方法采用频次排序的方法,即按某类作者出现的频次大即按某类作者出现的频次大小小(实际发表论文数实际
11、发表论文数)排位排位,而非按照作者所写的论而非按照作者所写的论文多少比较来对作者进行等级排序,因而等级上文多少比较来对作者进行等级排序,因而等级上会有空位。会有空位。3.论文在作者上的集中与分散程度只限于平方反比论文在作者上的集中与分散程度只限于平方反比关系关系,即只给出了这种集中与分散程度的单一描述即只给出了这种集中与分散程度的单一描述.作者地区结构与科学活动的中心作者地区结构与科学活动的中心 日本,汤浅光朝,当某个国家科学论文作日本,汤浅光朝,当某个国家科学论文作者人数和科学成果数超过全世界的者人数和科学成果数超过全世界的1/4,则科则科学活动的中心转入该国学活动的中心转入该国新老作者比例
12、与研究队伍新老作者比例与研究队伍D=d1/d2 一定程度上反应研究队伍的稳定性与学科一定程度上反应研究队伍的稳定性与学科的成熟度的成熟度2.基本科学指标基本科学指标 ESI(Essential science indicators)2001年由年由ISI推出,衡量科学研究绩效,跟推出,衡量科学研究绩效,跟踪科学发展趋势的基本分析评价工具,是基踪科学发展趋势的基本分析评价工具,是基于于SCI,SSCI,共共8500多种学术期刊而建立的多种学术期刊而建立的计量分析数据库。计量分析数据库。针对针对22个专业领域,分别从国家、研究机个专业领域,分别从国家、研究机构、期刊论文、科学家等进行统计和排序。构
13、、期刊论文、科学家等进行统计和排序。ESI结构:结构:科学家排名:科学家排名:5万万/300万,论文万,论文10年被引频次年被引频次机构排名:机构排名:3000/100万,各研究机构万,各研究机构10年被年被引频次总和,前引频次总和,前1%国家排名、期刊排名、高被引论文国家排名、期刊排名、高被引论文热门论文热门论文:出版不足:出版不足2年,很快就高被引年,很快就高被引四、国内引文分析的检索工具中国科学引文数据库(中国科学引文数据库(CSCD)1989年,印刷版年,印刷版,2002年,网络版,年,网络版,1000种刊,核种刊,核心刊,心刊,670种种,中科院国家图书馆与清华大学,成立中科院国家图
14、书馆与清华大学,成立中国科学计量评价研究中心中国科学计量评价研究中心中国科技论文与引文分析数据库中国科技论文与引文分析数据库(CSTPC)1989年,中国科技信息研究所和万方数据创建年,中国科技信息研究所和万方数据创建中文社会科学引文索引(中文社会科学引文索引(CSSCI)1998年,南京大学中国社会科学研究价中心与香港年,南京大学中国社会科学研究价中心与香港科技大学,人文社会科学期刊科技大学,人文社会科学期刊419种,海外种,海外17种种中国人文社会科学引文数据库中国人文社会科学引文数据库2002年,中国社科院文献情报中心,年,中国社科院文献情报中心,600多种刊多种刊中国引文数据库中国引文
15、数据库中国学术期刊电子杂志社,中国学术期刊电子杂志社,CNKI,日更新日更新第三节 科学期刊的引文分析引文量按频次的分布引文按年代的分布引文按文献类型的分布引文按学科或主题的分布引文按语种的分布引文按国别的分布引文按作者的分布引文按期刊的分布一期刊引文分析与文献集中规律期刊载文量:期刊载文量:期刊全部论文数,期刊生产论文能力期刊全部论文数,期刊生产论文能力期刊引用率:期刊引用率:全部参考文献数,期刊吸收外部文献能力全部参考文献数,期刊吸收外部文献能力期刊被引率:期刊被引率:被引证的全部次数,用户评价期刊被引证的全部次数,用户评价期刊平均引文率:平均引证率,平均被引率平均引文率:平均引证率,平均
16、被引率影响因子:影响因子:1972年,某刊前两年发表论文在该年的被引证年,某刊前两年发表论文在该年的被引证次数次数/该刊前两年发表论文总数,在该刊前两年发表论文总数,在JCR公布公布即年指标:即年指标:该刊某年发表的论文在当年的被引次数该刊某年发表的论文在当年的被引次数/当年发当年发表论文的篇数表论文的篇数期刊自引率:期刊自引率:引证该刊自已发表的论文的次数引证该刊自已发表的论文的次数/期刊参考期刊参考文献的总数文献的总数期刊自被引率:期刊自被引率:被该刊自已引证的次数被该刊自已引证的次数/期刊被引证的总期刊被引证的总次数次数四.JCR 在期刊评价中的应用 确定核心期刊:选定该专业有代表性的期
17、刊 1-2种,然后通过JCR中查找该刊所引用过的 期刊,并按这些期刊的总被引次数或影响因 子排序。(布氏、加氏)期刊老化研究:半衰期数据 期刊综合评价:判断学科性质等 文献耦合文献耦合1963年,麻省理工学院,年,麻省理工学院,kessler,同时引用同时引用一篇论文的论文之间称为耦合。一篇论文的论文之间称为耦合。耦合强度的测度耦合强度的测度:共有的参考文献篇数共有的参考文献篇数文献同引文献同引1973年,两篇论文同时被后来的文献所引用年,两篇论文同时被后来的文献所引用文献耦合与文献同引的比较文献耦合与文献同引的比较耦合分析耦合分析研究学科的内部结构,划分出在专业上相近的一研究学科的内部结构,
18、划分出在专业上相近的一个个耦合强度较高的论文簇,并且给出簇与簇之个个耦合强度较高的论文簇,并且给出簇与簇之间疏密不同的联系,形成相互影响的引文网络。间疏密不同的联系,形成相互影响的引文网络。文献耦合分析、期刊耦合、作者耦合、学科耦合文献耦合分析、期刊耦合、作者耦合、学科耦合 同引分析同引分析三文献的聚类分析三文献的聚类分析1972年,年,加菲尔德加菲尔德SCI对自然科学进行的聚类分对自然科学进行的聚类分析工作析工作网络计量学:综合采用文献计量、信息计量、统网络计量学:综合采用文献计量、信息计量、统计学方法、计算机技术等对网络信息规律进行计计学方法、计算机技术等对网络信息规律进行计量分析的一门科
19、学。量分析的一门科学。理论问题:网络信息分布规律;网络信息理论问题:网络信息分布规律;网络信息增长规律;网络信息老化规律;网络信息增长规律;网络信息老化规律;网络信息关联规律;网络信息离散规律等。关联规律;网络信息离散规律等。方法问题:基本测度指标;网络信息内容的方法问题:基本测度指标;网络信息内容的测度;网络信息结构的测度;网页的链接分测度;网络信息结构的测度;网页的链接分析;网页的影响因子等析;网页的影响因子等应用问题:网上电子期刊图书的计量分析;应用问题:网上电子期刊图书的计量分析;数字图书馆信息的计量分析;网络站点的增数字图书馆信息的计量分析;网络站点的增长、分布、联系等;网络经济信息的计量分长、分布、联系等;网络经济信息的计量分析。析。参考文献参考文献1.庞景安,科学计量研究方法论,科学技术庞景安,科学计量研究方法论,科学技术文献出版社,文献出版社,2002.42.邱均平,信息计量学,武汉大学出版社,邱均平,信息计量学,武汉大学出版社,2007.1