1、CBA文本挖掘文本挖掘技术在生命科学文献技术在生命科学文献数据库数据库的应用初探的应用初探 夏芸夏芸中国生命科学文献数据库中国生命科学文献数据库中科院上海生命科学信息中心中科院上海生命科学信息中心2006.9.2006.9.青岛青岛中国生命科学文献数据库与欧洲生物信息研究所中国生命科学文献数据库与欧洲生物信息研究所数据合作数据合作目录目录中国生命科学文献数据库中国生命科学文献数据库1欧洲生物信息研究所欧洲生物信息研究所2合作概览合作概览3文本挖掘技术的应用文本挖掘技术的应用4中国生命科学文献数据库中国生命科学文献数据库(CBA)v原名“中国生物学文摘数据库”,是综合性的生命科学专业文献数据库v
2、CBA收录1985年以来的800余种国内生命科学及相关学科的科技期刊文献,以及学位论文、会议论文、专利、专著等文献v目前累积数据量达40万条,年更新数据量5万余条CBAv 专业:专业:覆盖了生命科学、药学、基础医学、基础农学及生物交叉科学等专业领域v 新进展:新进展:重大疾病专题文献知识服务系统1.心血管疾病专题文献数据库2.肝癌专题文献数据库3.糖尿病专题文献数据库CBA数据库数据库检索界面检索界面重大疾病专题文献知识服务系统重大疾病专题文献知识服务系统欧洲生物信息研究所欧洲生物信息研究所v1994年建立于英国剑桥v欧洲分子生物学实验室(European Molecular Biology
3、Laboratory,EMBL)的组成部分vEMBL数据库的管理和维护v欧洲分子生物学网EMBnet(European Molecular Biology Network)的一个特别节点v生物信息学研究工作,也是生物信息学的服务中心 EBIDatabasesEBI数据库类型数据库类型v 文献数据库(Literature Databases)v 微阵列数据库(Microarray Databases)v 核酸数据库(Nucleotide Databases)v 蛋白数据库(Protein Databases)v 蛋白质组数据库(Proteomic Databases)v 结构数据库(Struct
4、ure Databases)Citation Database System,CitExplore CBACDB功能文献服务功能文献服务v跨库检索功能v控制词表辅助检索:刊名、化学物质名、物种名称v全文开放链接:DOICDB功能文本挖掘功能文本挖掘vSwissprotvGene OntologyvDrugsvOrganismsvGenesvProtein interactionvEnzyme kineticsvChemicalsvMouse phentotypeGene ontologyvOntology与知识管理vOntology与主题词表v文本挖掘工具v1.8万词条v开放资源CitExpl
5、ore构成构成Medline 中国生命科学文献数据库中国生命科学文献数据库 Patents abstracts(EPO)CitExploreCiteSeerCBA on CitExplore合作概览目标合作概览目标将CBA建成为中国国内生命科学/医学文献资源中心建立国际生命科学数据资源与国际资源间的桥梁EBI为中国研究成果提供一个面向国际科学社团的窗口对CBA进行数据库开发提供技术支持EBI由此丰富了自己的CDB数据资源合作概览合作概览进展进展v2004.05:EBI有关人员访问信息中心v2005.05:达成CBA合作的意向v2005.06:传送样本测试数据v2005.11:双方签订合作协议书
6、与备忘录合作前景合作前景20032004协商协商2005启动启动2006文本挖掘文本挖掘文本挖掘技术应用文本挖掘技术应用v文本挖掘技术文本挖掘是从文本集中发现和挖掘归纳性的知识,如有用的模式、模型、趋势、规则等知识文本挖掘技术是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,国内学科数据库文本挖掘技术应用现状国内学科数据库文本挖掘技术应用现状v基于文本挖掘的中医学文献主题自动标引v中医药文献科学推理知识发现浙江大学计算机科学与技术学院;中国中医研究院中医药信息研究所EBI文本挖掘工具文本挖掘工具vSwissprotvGene OntologyvDrugsvOrganismsvGenesvProtein interactionvEnzyme kineticsvChemicalsvMouse phentotype在中国生命科学文献数据库的初步应用在中国生命科学文献数据库的初步应用CBA