1、引言:我们进入了大数据时代 “在洛杉矶,警方通过数据分析,预测12小时内哪个地区最有可能发生犯罪;在伦敦金融城,一位交易员认为,数学计算可成为发财”秘笈”;在南美,天文学家尝试为整个宇宙进行分类记录这些迥然不同的领域如今出现同一特征:数据量的大爆发。” 这是英国广播公司品牌栏目地平线最新播出的纪录片大数据时代中的开篇一幕。 2012年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”( Big Data Research and Development Initiative),该计划涉及NSF等6个联邦政府部门,投资超两亿美元,研发采集、组织和分析大数据的工具及技术。有人将其比之为克林
2、顿政府1993年推出的“信息高速公路” 计划 。 美国政府大数据计划的出笼,表明大数据技术已经上升为国家战略。 据 IDC (国际数据公司)统计,全球数据量以年均50%的速率增长。2011 年全球所产生的数据总量是 1.8 ZB(10 的 21 次方) 1TB (Trillionbyte ,太字节)=1024GB 1PB (Petabyte, 拍字节)=1024TB 1EB (Exabyte , 艾字节)=1024PB 1ZB (Zettabyte , 泽字节)= 1024 EB =100万PB=10亿TB 但是,对于医生、教师、研究生等专业人员来说,“大数据”的核心资源,依然还是学术文献、统
3、计报告、科技成果等正式出版或规范发布的数据资源。两个案例 乐友孕婴童运用大数据分析了解顾客的需求,带来大幅的业务增长。 乐购通过分析会员卡用户的购物数据,对顾客分类,有针对性地发广告邮件,每年节省 3.5 亿英镑的广告费用。 如果我使用数据分析工具,对科题进行分析,能否节约时间和经费?http:/ Swanson教授,在研究时偶然发现以雷诺氏病生理改变作为中间词,可将以鱼油和雷诺氏病为主题词分别检索到的两组原本无联系的文献联系起来,得出鱼油有助于雷诺氏病的治疗结论。于是,Swanson教授提出了基于文献的知识发现( Literature-based Discovery) 理论。 那么,基于此理
4、论开发的知识发现系统对科研是否有帮助? 事实证明,Swanson和Smalheiser开发Arrowsmith分析系统,发现了大量的新知识。2000年,美国情报科学与技术学会(ASIST)因为Swanson独特的情报学方法授予他该学会的最高成就奖。 除了Arrowsmith文献分析系统外,常用的文献分析软件还有:HistCite;Bibexcel;SATI;Thomson Data Analyzer;CiteSpace;Pajek;Ucinet;Vosviewer;SPSS;Aureka;RefViz等,以及完全基于PubMed开发的德国的GoPubMed;中国的bdPubMed;美国的Ann
5、e OTate、PubFocus以及欧洲的CiteXplore等。 基于共词分析技术的Arrowsmith工具可以作为专业人员的科研辅助工具,引导科研人员认识和发现不同科学、不同研究方向之间潜在的有科学价值的信息,以便进一步证实科学假设的可行性。 http:/arrowsmith.psych.uic.edu/我们以探讨虫草素与肠粘膜屏障功能稳定的潜在相关性研究为例,简单介绍Arrowsmith的使用方法。以虫草素“cordycepinab”的检索结果为文献A集合以肠黏膜“Intestinal MucosalTI”的检索结果为文献C集合截至2014年10月25日,文献A和C的检索结果分别为795
6、和801篇,A和C之间没有共同的检索词出现,而运用Arrowsmith工具,则A和C文献中共同出现的词语形成的B集合中共有861个词。 利用Arrowsmith中语义过滤器以“Chemicals & Drugs”、“Genes & Molecular Sequences, and Gene & Protein Names”、“Physiology”进行语义过滤,去除不相关的词。根据语义过滤,去除文献B中不相关或相关度小的词。结合文献全文发现,蛹虫草对炎性肠病及消化系统疾病高度相关,但用以治疗是否有效,需要在后续的临床研究中加以验证。参考:李文林,潘苏华,关洪月.基于Arrowsmith 探讨虫
7、草素与肠粘膜屏障功能稳定的潜在相关性.医学信息,2009,22(12):2684-2687.CiteSpace基于JAVA的可视化文献分析软件 能够显示一个学科或知识域在一定时期发展的趋势、动向及热点,形成若干研究前沿领域的演进历程。 http:/cluster.cis.drexel.edu/cchen/citespace/ CiteSpaceSPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。GoPubMed系统简介GoPubMed GoPubMed由德国Transinsight和德国Technical University Dresde
8、n合作开发,该系统的数据库与PubMed检索结果一样。 GoPubMed是Gene Ontology(GO)在PubMed数据库中的深度应用。GoPubMed是利用生物信息学相关知识开发的一个可以对PubMed检索结果进行探索、分析的工具/智能搜索引擎。高度相关的概念各类统计分析各类统计分析Top YearsTop CountriesTop CitiesTop JournalsTop AuthorsTop TermsGoPubMed系统简介课题发展趋势GoPubMed系统简介地区分布图GoPubMed系统简介作者合作网络GoPubMed系统简介http:/arrowsmith.psych.ui
9、c.edu/cgi-bin/arrowsmith_uic/AnneOTate.cgi伊利诺伊大学芝加哥分校开发Anne OTate对PubMed检索结果按照重要的单词、MeSH主题、所属单位、作者姓名、期刊和出版年进行分组,点击给定的分类名称即可显示该类别中的所有文章。http:/cbdm.mdc-berlin.de/medlineranker/cms/medline-rankermedline-ranker 马克斯德尔布吕克分子医学中心开发medline-ranker与用户输入的某个主题相比较,自动推断出一组非常有判断力的单词,用这些单词对相关的文章进行评分和排序。PubFocus可以按照期
10、刊的影响因子、作者的贡献水平等多种因素对文献进行排序,用户可能找到某一学科或某个领域内的最有影响力或最多产出的作者,或是了解在某学校领域内哪种期刊发表的文章最多。 南加州大学洛杉矶分校开发 PubMedG&G SCI 本地PubMed检索系统能够提供更加强大的检索功能,包括联想检索、按IF值过滤以及检索结果的图形化显示等,让检索更加高效,在线的全文申请也更加方便。专利所有,侵权必究。本地PubMed检索系统能够提供强大的数据分析功能,通过知识图谱可以了解各领域的发展趋势和热点,及时了解世界各国主流科学家的研究方向。专利所有,侵权必究。本地PubMed检索系统提供的共词矩阵分析可以对反映文献主题
11、内容的关键词的共现频次进行统计分析,揭示文献内在联系、研究热点和科学结构。专利所有,侵权必究。 当人们的需求已经不只是简单的文献检索和文献计量,而是希望能够对这些文献进行较高层次的处理和分析以得到关于某领域总体特征和对发展趋势的预测时,知识发现将文献变为知识,从海量文献中找到蕴藏的知识金块,将为知识创新和学科发展作出贡献。 知识演进图谱分X轴和Y轴,其中,X轴是年份,Y轴是发文数量,从图中可以看到各个研究方向(主题词)在各个年份的研究文献的数量。系统默认推荐20个主题词,我们可以点“更多主题词”来了解更多:在更多主题词中,根据研究领域的不同,分为多个大类,我们点击“Amino Acids, P
12、eptides, and Proteins”氨基酸,肽类和蛋白质从文献报道中可以看出,越来越多的研究表明炎症过程可能在DN的发病机制中占据重要地位,其涉及的致炎因子有望成为DN及其他炎症性疾病新的治疗靶标之一。 炎症以炎症细胞浸润,黏附分子、炎症趋化因子和致炎因子表达增强,C反应蛋白(C-reactive protein,CRP)水平升高为特征。我们通过知识演进图谱,可以了解一下C反应蛋白的研究历史:从图中可以看到,主题词: C反应蛋白最早一篇文献,发表于1996年,是国际著名医疗机构丹麦Steno糖尿病研究中心的Myrup, B等,发表于(血栓形成研究),该刊影响因子为3.13,2000年时
13、,又有两篇文章发表,其中一篇发表于美国肾病学会志,该刊影响因子为8.99,从此关于此方向的研究多了起来。 如果我们想进一步去了解,有关C反应蛋白的高影响因子的论文或者高被引次数的论文,那么,在本地PubMed的检索结果界面,我们还可以看到,高IF论文和高TC论文的按钮。高被引次数论文,这里的被引次数,其数据来源于谷歌学术搜索,2003年的一篇发表于(糖尿病学)的文献,目前,已被引用了199次,是该领域内的经典文章,想了解该领域,不可不看:Diabetic nephropathy is associated with low-grade inflammation in Type 1 diabet
14、ic patients. Diabetologia. 2003 Oct;46(10):1402-7.作为普通的一名临床大夫,如果您更关心的,目前就有哪些药物用于DN的治疗,那么,可以使用到知识演进图谱中的“设置”功能:因为,我们要了解就有哪些药物可治疗该病症,因此,可以勾选“副主题词过滤”中的“therapeutic use”,然后再点击“更多主题词”勾选我们需要了解的相关药物:思考:如果想了解就有哪些治疗方法?该如何设置?从上图中可以看到,治疗DN的药物主要为Angiotensin-Converting Enzyme Inhibitors(血管紧张素转换酶抑制剂,ACEI);Antihype
15、rtensive Agents(抗高血压药);Insulin(胰岛素);Hypoglycemic Agents(降糖药);Angiotensin II Type 1 Receptor Blockers(血管紧张素1型受体拮抗剂,ARB)等,具体的药物有Losartan(洛沙坦);Captopril(卡托普利);Enalapril(依那普利)等。从发文量来看,1965年就有了关于Insulin的报道,截止到目前的发文量为367篇,1987年出现了第一篇关于ACEI的报道,截止到目前的发文量为801篇,2002年出现了第一篇关于ARB的报道,截止到目前的发文量为199篇(上图加粗显示者),从时间上
16、来看,Insulin持续的在研究和报道,而ACEI在2005年发文量大幅下降之时,正在ARB发文量大幅增长之时,而实际情况也正是,ARB为该系统的一类新药,与ACE I相比具有许多独到之处。作为一种新药,如果想进一步了解,这种新药ARB与DN之间的更多研究和应用,那么我们还可以使用“指纹共词”来进一步了解。指纹共词是两个主题词共同出现在一组文献中的篇数,并将演进路径显示出来的一种方法。在检索结果界面,我们即可以看到这个按钮。 进入共词分析界面后,我们可以点击“更多主题词”来选择我们需要分析的具体的主题词。从图中可以看出,ARB与DN同时出现在一篇文献中的时间最早为2002年,2014年(截止到
17、2014年8月份)共同出现在同一篇文章的数量为6篇,它们是:当检索结果少于2000条时,系统自动图形化显示,其中X轴表示年份,Y轴表示影响因子,在一界面显示整个检索结果的画卷。 您在本地PubMed检索系统上申请的全文,您所在单位图书馆的相关部门(比如,馆际互借处或文献服务部或委托的其他部门或单位等),将可以看到您的申请,当查询本单位图书馆无您所需要的文献后,根据情况将向与之签署有馆际互借或文献传递服务相关协议的可提供馆际互借服务的第三方图书馆发出文献申请,获取到您所需要的全文后,再发送到您在本地PubMed检索系统的邮箱(即“我的文件夹”)中,此时,您申请的全文其全文状态将有“全文处理中”变为“打开全文”。 说明:申请前,请务必先查询馆藏,若无再点击该篇文献下方的“全文链接”查看本单位是否有订购以及是否有可以免费获取的全文,若本单位图书馆无订购也无馆藏也无可以免费获取的全文,您再申请。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。