1、 2022-6-1612022-6-162如果我们使用大数据分析工具,进行科研选题分析,结果会怎样?如果我们使用大数据分析工具,进行科研选题分析,结果会怎样? 阿里巴巴公司本阿里巴巴公司本质上是一家数据公司,质上是一家数据公司,做淘宝的目的不是为做淘宝的目的不是为了卖货,而是获得所了卖货,而是获得所有零售的数据和制造有零售的数据和制造业的数据;业的数据; 做物流不是为了做物流不是为了送包裹,而是这些数送包裹,而是这些数据合在一起。据合在一起。 阿里巴巴对一个阿里巴巴对一个人的了解程度远远超人的了解程度远远超过你自己,电脑会比过你自己,电脑会比你更了解你。你更了解你。1985年,芝加哥大学的年,
2、芝加哥大学的Don.R Swanson教授,在研教授,在研究时偶然发现以雷诺氏病生理改变作为中间词,可将以鱼究时偶然发现以雷诺氏病生理改变作为中间词,可将以鱼油和雷诺氏病为主题词分别检索到的两组原本无联系的文油和雷诺氏病为主题词分别检索到的两组原本无联系的文献联系起来,得出鱼油有助于雷诺氏病的治疗结论。于是,献联系起来,得出鱼油有助于雷诺氏病的治疗结论。于是,Swanson提出了提出了基于文献的知识发现基于文献的知识发现( Literature-based Discovery) 理论。理论。 事实证明,事实证明,Swanson开发的开发的Arrowsmith分析系统,分析系统,发现了大量的新知
3、识。发现了大量的新知识。2000年,美国情报科学与技术学年,美国情报科学与技术学会会(ASIST)因为其独特的情报学方法授予他该学会的最因为其独特的情报学方法授予他该学会的最高成就奖。高成就奖。 目前,除了目前,除了Arrowsmith分析系统外,常用的文献分析软件还分析系统外,常用的文献分析软件还有:有:HistCite;Bibexcel;SATI;Thomson Data Analyzer;CiteSpace;Pajek;Ucinet;Vosviewer;SPSS;Aureka;RefViz等,以及完全基于等,以及完全基于PubMed开发的德国的开发的德国的GoPubMed;中国;中国的的
4、bdPubMed;美国的;美国的Anne OTate、PubFocus以及欧洲的以及欧洲的CiteXplore等。等。 基于共词分析技术的基于共词分析技术的Arrowsmith工具可以作工具可以作为专业人员的科研辅助工具,引导科研人员认识和发为专业人员的科研辅助工具,引导科研人员认识和发现不同科学、不同研究方向之间潜在的有科学价值的现不同科学、不同研究方向之间潜在的有科学价值的信息,以便进一步证实科学假设的可行性。信息,以便进一步证实科学假设的可行性。 http:/arrowsmith.psych.uic.edu/在此,以在此,以“虫草素与肠虫草素与肠粘膜屏障功能稳定的潜粘膜屏障功能稳定的潜在
5、相关性研究在相关性研究”为例,介为例,介绍绍Arrowsmith的使用方法。的使用方法。以虫草素以虫草素“cordycepinab”的检索结果为文献的检索结果为文献A集合集合以肠黏膜以肠黏膜“Intestinal MucosalTI”的检索结果为文献的检索结果为文献C集合集合截至截至2014年年10月月25日日,文献文献A和和C的的检索结果分别为检索结果分别为795和和801篇,篇,A和和C之间没有共同的检索词出现,而运之间没有共同的检索词出现,而运用用Arrowsmith工具,则工具,则A和和C文献中文献中共同出现的词语形成的共同出现的词语形成的B集合中共有集合中共有861个词。个词。 利用
6、利用Arrowsmith中语义过滤器以中语义过滤器以“Chemicals & Drugs”、“Genes & Molecular Sequences, and Gene & Protein Names”、“Physiology”进行进行语义过滤,去除不相关的词。语义过滤,去除不相关的词。根据语义过滤,去除文献根据语义过滤,去除文献B中中不相关或相关度小的词。不相关或相关度小的词。结合文献全文发现,结合文献全文发现,蛹虫草对炎性肠蛹虫草对炎性肠病及消化系统疾病高度相关病及消化系统疾病高度相关,但用以,但用以治疗是否有效,需要在后续的临床研治疗是否有效,需要在后续的临床研究中加以验证。究中加以验证
7、。参考:李文林参考:李文林,潘苏华潘苏华,关洪月关洪月.基于基于Arrowsmith 探讨虫草素与肠粘探讨虫草素与肠粘膜屏障功能稳定的潜在相关性膜屏障功能稳定的潜在相关性.医学信息医学信息,2009,22(12):2684-2687.CiteSpace 是一种是一种基于基于JAVAJAVA的可视化文献分析软件的可视化文献分析软件,能够显示一能够显示一个学科或知识个学科或知识领域领域在一定时期在一定时期的的发展趋势、动向及发展趋势、动向及研究研究热热点,点,发现发现若干若干个个研究领域的演进历程。研究领域的演进历程。 http:/cluster.cis.drexel.edu/cchen/cite
8、space/http:/cluster.cis.drexel.edu/cchen/citespace/ *2.2.CiteSpaceCiteSpace3.SPSS SPSS是世界上最早采用图形菜单驱动界面的统计软件,是世界上最早采用图形菜单驱动界面的统计软件,最突出的特点就是操作界面极为友好,输出结果美观漂亮。最突出的特点就是操作界面极为友好,输出结果美观漂亮。4. GoPubMed系统系统GoPubMed 2006年由德国年由德国Transinsight公司和德国公司和德国Technical University Dresden合作开发,以合作开发,以PubMed为数据源、以语义检索为技术的
9、为数据源、以语义检索为技术的生命科学文献搜索引擎。生命科学文献搜索引擎。 GoPubMed是利用生物信息学相关知识开发的一个可以对是利用生物信息学相关知识开发的一个可以对PubMed检索结果进行聚类、分析的工具检索结果进行聚类、分析的工具/智能搜索引擎。智能搜索引擎。 利用基因本体(利用基因本体(gene ontology)和医学主题词表()和医学主题词表(mesh terms)对文献进行全面分析)对文献进行全面分析 。高度相关的概念高度相关的概念各类统计分析各类统计分析各类统计分析各类统计分析Top YearsTop CountriesTop CitiesTop JournalsTop Au
10、thorsTop TermsGoPubMed系统系统课题发展趋势课题发展趋势GoPubMed系统系统地区分布图地区分布图GoPubMed系统系统作者合作网络作者合作网络GoPubMed系统系统http:/arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/AnneOTate.cgi伊利诺伊大学芝加哥分校开发伊利诺伊大学芝加哥分校开发Anne OTate对对PubMed检索结果检索结果按照重要的单词、按照重要的单词、MeSH词、所词、所属单位、作者姓名、期刊和出版年属单位、作者姓名、期刊和出版年进行分组,点击给定的分组名称即进行分组,点击给定的分组名称
11、即可显示该组别中的所有文章。可显示该组别中的所有文章。http:/cbdm.mdc-berlin.de/medlineranker/cms/medline-ranker6.medline-ranker 马克斯马克斯德尔布吕克分子医学中心德尔布吕克分子医学中心开发开发medline-ranker与用户输入的某个主题相比与用户输入的某个主题相比较,自动推断出一组非常有判断力的单词,较,自动推断出一组非常有判断力的单词,再再用用这些单词对相关的文章进行评分和排序。这些单词对相关的文章进行评分和排序。PubFocus按照按照PubMed期刊的影响因子、作者期刊的影响因子、作者贡献水平等多种因素对文献贡
12、献水平等多种因素对文献结果结果进行排序,用户进行排序,用户可可以以找到某一学科或某领域内最有影响力或最多找到某一学科或某领域内最有影响力或最多产出的作者,或了解某学校产出的作者,或了解某学校某某领域内哪领域内哪些些期刊期刊发表的文章最多。发表的文章最多。 南加州大学洛杉矶分校南加州大学洛杉矶分校开发开发2022-6-1626 2022-6-16272022-6-16302022-6-1631 PubMedG&G SCI 2022-6-16322022-6-1633快速了解某主题的文献分布情况2022-6-16362022-6-1637查找糖尿病肾病查找糖尿病肾病(Diabetic Nephro
13、pathyDiabetic Nephropathy)方面的文献方面的文献 糖尿病肾病(Diabetic nephropathy,DN)是糖尿病患者的终极杀手。据中国之声全国新闻联播报道,中国目前糖尿病患者人数高达1.14亿,是继肿瘤、血管病变之后第三大严重威胁人类健康的慢性非传染性疾病,具有高致死率、高致残率和高医疗花费的特征。 2022-6-1638如何对检索结果做更深入的分析?如何对检索结果做更深入的分析?利用本地利用本地PubMedPubMed4.1 基本数据统计分析(文献分布情况)4.2 高影响因子期刊论文和高被引频次论文分析4.3 SCI论文分区4.4 知识图谱分析4.5 共词分析4
14、.6 知识发现4.7 获取全文2022-6-1640检索结果与检索结果与PubmedPubmed结果一致结果一致4.4.1 1 基本数据统计分析基本数据统计分析 对文献的作者、期刊、主题词、文献类型、出版年、出版国家、文献语言等的计量分析。2022-6-1642作者分析作者分析期刊分析期刊分析主题词分析主题词分析发文年代分析发文年代分析发文国家分析发文国家分析文献类型分析文献类型分析文献语种分析文献语种分析2022-6-16434.4.2 2 高高IFIF论文和高论文和高TCTC论文论文概念:影响因子(影响因子(IFIF):被引频次被引频次(TCTC):指某文献在特定源期刊(如SCI)中被引用
15、的次数。本系统所使用的被引次数来源于谷歌学术(Google scholar)中的被引次数。(将Google scholar的结果整合到本平台)2022-6-1644威望指数威望指数SJRSJR(SCImago Journal RankSCImago Journal Rank)查找高查找高IFIF论文论文和高和高TCTC论文论文影响因子时 间影响因子最高的几篇文献均来自影响因子最高的几篇文献均来自New England Journal New England Journal of Medicineof Medicine(IF5IF54.424.42), ,其中最早的一篇发表于其中最早的一篇发表于
16、19196969年,年,最近的一篇为最近的一篇为2012014 4年,点击相应节点可以查看详细信息年,点击相应节点可以查看详细信息被被引引频频次次时间时间被引频次数据每月更新一次被引频次数据每月更新一次被引频次大于被引频次大于110110的文献较多,的文献较多,其中最早的一篇出现于其中最早的一篇出现于19671967年,年,被引被引721721次次4.4.3 SCI3 SCI论文分区论文分区* JCR(期刊引证报告)将SCI收录的期刊按照影响因子由高到低分为1-4四个区,发表在1区和2区的论文,通常被认为是该学科领域的比较重要的论文。2022-6-1649选择不同的分区可以对检索结果按照分区进
17、行精炼。4.4 知识图谱 利用可视化的图和谱形象地展示某学科的发展进程与研究热点。图:表示形状谱:代表谱系(文献演进过程)2022-6-1651系统默认前系统默认前2020个主题词,个主题词,点击点击“更多更多主题词主题词”可可以了解更多以了解更多发发文文量量时间时间知识演进图谱展示了各个研知识演进图谱展示了各个研究方向在各年份的文献数量究方向在各年份的文献数量在在“更多主题词更多主题词”中,中,根据研究领域的不同,根据研究领域的不同,分为多个大类(分为多个大类(10109 9个)个)点击点击“Amino Acids, Amino Acids, Peptides, and Peptides,
18、and Proteins”Proteins”氨基酸,氨基酸,肽类和蛋白质肽类和蛋白质对检索结果进行对检索结果进行4 4个方面的限定(过滤)个方面的限定(过滤)发文量发文量时间时间如果要了解有哪些药物可以治疗DN,可以勾选“副主题词过滤”中的“therapeutic use”,点击“确定确定”。同时,在频次突变设置中选择出现频次在20及以上,突变率100%以上,不区分加权,便可选择出较重要的主题词主题词分类主题词分类过滤过滤副主题词过副主题词过滤滤年份过年份过滤滤按出现频次及按出现频次及突变率过滤,突变率过滤,并可以区分加并可以区分加权权2022-6-16进入具体药物选择界面4.4.5 5 共词
19、分析(指纹共词)共词分析(指纹共词) 共词分析是计算两个主题词在一组文献中共同出现的篇数,并将其演进路径显示出来的一种方法。* ARB作为一种新药,如果想进一步了解该药与DN之间的更多研究,可以使用“指纹共词”。* 方法:进入共词分析界面后,点击“更多主题词”来选择我们需要分析的具体主题词。2022-6-1662指纹共词指纹共词DNDN与与ARBARB在更多主题词里,搜索“Diabetic Nephropathies”得到各种与Diabetic Nephropathies共现的词,其中就包含Angiotensin II Type 1 Receptor Blockers4.64.6 知识发现知识
20、发现检索结果小于检索结果小于3004.74.7 全文获取服务全文获取服务对于检索到的文献,可以通过以下3种方式获取全文。具体步骤是:1.首先查询是否有馆藏(纸质期刊)2.若无馆藏则通过“全文链接”查看收录该文献的数据库名称,若为开放获取数据库或机构购买了该数据库,则直接点击链接获取全文3.若以上两条途径均无法获取全文,则可以尝试利用本地PubMed系统的全文申请功能,通过馆际互借获取全文2022-6-16691 1、首先查询用户所在机、首先查询用户所在机构有无馆藏,有则可直构有无馆藏,有则可直接获取,若无,则点击接获取,若无,则点击“全文链接全文链接”2.2.点击点击“全文链接全文链接”,题录
21、,题录下方会出现收录该全文的数下方会出现收录该全文的数据库,若该数据库是开放获据库,若该数据库是开放获取的或机构购买的,则可以取的或机构购买的,则可以直接点击图标获取全文直接点击图标获取全文3.3.若无,则可以通过本地若无,则可以通过本地PubMedPubMed系统的全文申请功系统的全文申请功能获取全文能获取全文4.4.点击申请全文点击申请全文5.5.进入进入“我我的文件夹查的文件夹查看全文获取看全文获取情况情况”2022-6-16726.6.成功获取全文成功获取全文后,点击打开全后,点击打开全文即可查看获取文即可查看获取到的文献到的文献2022-6-1673总结总结1.1.可以对检索结果进行
22、一般的文献计量分析(如作者、可以对检索结果进行一般的文献计量分析(如作者、机构、期刊、主题、年代分布等);机构、期刊、主题、年代分布等);2.2.可以很方便地筛选出高可以很方便地筛选出高IFIF期刊发表的论文和高期刊发表的论文和高TCTC的论的论文,以及对文献按照影响因子分区进行筛选,方便选择文,以及对文献按照影响因子分区进行筛选,方便选择优质或经典文献;优质或经典文献;3.3.通过知识图谱可以看到相应主题词在特定时间范围内通过知识图谱可以看到相应主题词在特定时间范围内的变化趋势,进而的变化趋势,进而了解该主题的演进路径了解该主题的演进路径;4.4.利用共词分析发现相应主题词共现文献的变化情况,利用共词分析发现相应主题词共现文献的变化情况,了解相应主题之间了解相应主题之间内在联系的变化内在联系的变化。5.5.通过全文申请功能通过全文申请功能获取相应的全文获取相应的全文文献。文献。2022-6-1674取得的成绩取得的成绩 2022-6-1676