1、生物信息学生物信息学 Bioinformatics第二章第二章 生物学数据库及其检索生物学数据库及其检索王文栋王文栋第一节第一节 生物学数据库简介生物学数据库简介Chapter 2一、什么是数据库?一、什么是数据库?数据库(database) 是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其储存形式有利于数据信息的检索与调用。二、生物学数据库二、生物学数据库 在生物信息学者们的努力下,人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。humanArabidopsisThermotoga maritimaEsch
2、erichia coliBuchnerasp. APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium
3、tuberculosis 模式生物基因组计划模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约酵母、线虫、果蝇、细菌、拟南芥等共约已完成,已完成,正在进行。目前总量已达正在进行。目前总量已达碱基对!碱基对! virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs (base-pairs)10410810510610710111010109bony fishamphibians生物学数据库的分类生物学数据库的分类根据数据存放类型:根据
4、数据存放类型:序列(三维)结构文献序列特征基因组图谱表达谱 。根据数据存储的根据数据存储的具体内容:具体内容:一级数据库二级数据库专用数据库(一)一级数据库和二级数据库(一)一级数据库和二级数据库一级数据库(一级数据库(Primary database):库中的主要内容来源于实验室操作所得到的原始数据(例如:测序得到的序列、X射线晶体衍射所得到的三维结构数据等),也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)。核酸序列数据库GenBank, EMBL, DDBJ及蛋白结构数据库PDB就是典型的一级数据库。二级数据库(二级数据库( Secondary database ):在
5、一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的(例如:NCBI的RefSeq数据库等)。ATTGACTAPrimary vs. Secondary DatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATT
6、CCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA(二)如何查找与研究相关的生物学资源(二)如何查找与研究相关的生物学资源1 利用公共搜索引擎利用公共搜索引擎2 了解重要的生物信息学门户站点了解重要的生物信息学门户站点3 利用利用Nucleic Acid Research杂志每年的数据杂志每年的数据库专辑、网络服务器专辑。库专辑、网络服务器专辑。第二节第二节
7、常用数据库常用数据库Chapter 2n常用数据库常用数据库类类 型型名名 称称网网 址址 核核酸酸序序 列列一次数据库一次数据库Genebankhttp:/www.ncbi.nlm.nih.gov/Genbank/EMBLhttp:/www.ebi.ac.uk/embl/DDBJhttp:/www.ddbj.nig.ac.jp/Welcome.html.ja/基因组基因组一次数据库一次数据库GDBhttp:/www.gdb.org/蛋蛋白白质质序序 列列一次数据库一次数据库SWISS-PROThttp:/www.expasy.org/sprot/PIRhttp:/pir.georgetown
8、.edu/TrEMBLhttp:/www.ebi.ac.uk/trembl/UniProthttp:/www.ebi.uniprot.org/index.shtml/MIPShttp:/mips.gsf.de/GenPeptftp:/ftp.ncifcrf.gov/pub/genpept/NRL-3Dhttp:/www.psc.edu/general/software/packages/nrl_3d/nrl_3d.html/复合数据库复合数据库NRDBhttp:/www.nrdb.co.uk/OWLhttp:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/
9、SWISS-PROTTrEMBLhttp:/www.ebi.ac.uk/clustr/ 二次数据库二次数据库PROSITEhttp:/www.expasy.org/prosite/PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKShttp:/blocks.fhcrc.org/Pfamhttp:/pfam.sanger.ac.uk/IDENTIFYhttp:/dna.stanford.edu/identify/COGshttp:/www.ncbi.nlm.nih.gov/COG/ProDomhttp:/www.toulouse.inr
10、a.fr/prodom.html/结结 构构一次数据库一次数据库PDBhttp:/www.rcsb.org/pdb/home/home.doMMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/ 二次数据库二次数据库DSSPhttp:/www.sander.embl-heidelberg.de/dssp/HSSPhttp:/www.sander.embl-heidelberg.de/hssp/FSSPhttp:/www.ebi.ac.uk/dali/fssp/PSdbhttp:/www.psc.edu/geigel/PSdb/PSdb
11、.html/ 结构分类结构分类SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/CATHhttp:/www.cathdb.info/latest/index.html/PDBsumhttp:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/ 分类分类二次数据库二次数据库ProtoMaphttp:/protomap.cornell.edu蛋白质组蛋白质组 蛋白质组蛋白质组 氨基酸索引氨基酸索引AAindexhttp:/www.genome.ad.jp/dbget/蛋白质间功能关蛋白质间功能关系系Predictomehttp:/vi
12、sant.bu.edu/蛋白质组分析蛋白质组分析Proteome Analysishttp:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳二维凝胶电泳GELBANKhttp:/gelbank.anl.gov/SWISS-2DPAGE http:/www.expasy.org/ch2d/酵母蛋白质定位酵母蛋白质定位YPL.dbhttp:/ypl.tugraz.at/模式生物蛋白质模式生物蛋白质组组Bioknowledge Librnaryhttp:/www.biobase- (一)核酸序列数据库(一)核酸序列数据库 目前,国际上主要有目
13、前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。间每天相互交换数据,保持数据同步更新。GenBankPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据库之间的关系三大基因数据库之间的关系Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(National Center of Biotechnology
14、 Information,NCBI)建立和维护的。 Genbank网址:http:/www.ncbi.nlm.nih.gov/Genbank/1. GenbankuGenbank数据直接来源数据直接来源 测序工作者提交的序列、测序中心提交的大量测序工作者提交的序列、测序中心提交的大量EST序列、序列、其它测序数据以及与其它数据机构协作交换的数据。其它测序数据以及与其它数据机构协作交换的数据。uGenbank内容内容 所有已知的核酸序列和蛋白质序列,还包括对序列的简所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表要描述、科学命名、物种分类名称、
15、参考文献、序列特征表等辅助信息。等辅助信息。uGenbank对数据记录的处理对数据记录的处理 划分为划分为 细菌类、病毒类、灵长类、啮齿类,细菌类、病毒类、灵长类、啮齿类, EST数据、数据、基因组测序数据、大规模基因组序列数据等基因组测序数据、大规模基因组序列数据等16类。类。http:/www.ncbi.nlm.nih.gov/Genbank/Genbank由由美国国立生物美国国立生物技术信息中心技术信息中心(NCBI)建立维建立维护,其主页如护,其主页如图所示。图所示。NCBI全称全称National Center of Biotechnology Information(美国国家生物技
16、术信息中心)美国国家生物技术信息中心)NCBI是美国国立卫生研究院(是美国国立卫生研究院(NIH)的美国国)的美国国立医学图书馆(立医学图书馆(NLM)的一个分支。)的一个分支。1988年成立。年成立。网址:网址:http:/www.ncbi.nlm.nih.gov/NCBI 简介简介当今世界最大的基于当今世界最大的基于Internet的用于的用于分子生物学研究的生物医学研究中心分子生物学研究的生物医学研究中心2. EMBL核酸序列数据库核酸序列数据库 1982年创建,由年创建,由欧洲生物信息学研究所欧洲生物信息学研究所(European Bioinformaties Institute, E
17、BI)管理维护。使用序列管理维护。使用序列提取系统提取系统(SRS)进行查询检索,利用基于网络的进行查询检索,利用基于网络的WEBIN工具,或利用工具,或利用Sequin软件向软件向EMBL核酸序列核酸序列数据库提交序列。数据库提交序列。 EMBL网址:网址: http:/www.ebi.ac.uk/embl/ SRS的网址:的网址: http:/srs.ebi.ac.uk/ WEBIN网址:网址: http:/www.ebi.ac.uk/webin-align/webinalign_help.html/ Sequin网址:网址: http:/www.ebi.ac.uk/Sequin/ 198
18、6年创建,年创建,由日本国家遗传学研究所(由日本国家遗传学研究所(DNA Data Bank of Japan,DDBJ)负责维护和管理负责维护和管理。使用。使用SRS工具进行数据检索和序列分析,利用工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。主页可进行日文和英文互换。DDBJ的日文版网址:的日文版网址: http:/www.ddbj.nig.ac.jp/index-j.html/ DDBJ的英文版网址:的英文版网址: http:/www.ddbj.nig.ac.jp/index-e.html
19、/3. DDBJ数据库数据库国际上最权威的核酸序列数据库 日本国立遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/searches-e.html(二)基因组数据库(二)基因组数据库GDB 基因组数据库基因组数据库(GDB)创建于创建于1990年,是一个专门年,是一个专门汇集汇集人类基因组数据人类基因组数据的数据库,的数据库,为人类基因组计划(HGP)保存和处理基因组图谱数据。 GDB的网址是:的网址是: http:/www.gdb.org/ (一)蛋白质序列数据库(一)蛋白质序列数据库 常用的蛋白质序列数据库有常用的蛋白质序列数据库有SWISS-PROT、PIR、TrE
20、MBL、UniProt、GenPept等,分等,分述如下。述如下。 1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。询及相似蛋白质序列搜索等服务。 二、蛋白质数据库二、蛋白质数据库Swiss-Prot数据库网站主页数据库网站主页SWISS-PROT数据库内容数据库内容 核心数据:包括蛋白质序列、引用文献、分类信核心数据:包括蛋白质序列、引用文献、分类信息等。息等。 注注 释:包括结构域、功能位点、跨膜区域、释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似二硫键位置、翻译后修饰、与其它蛋白质的相似
21、性等。性等。SWISS-PROT将广泛收集的相关数据进行合并,将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(且与蛋白质三维结构数据库(PDB)等其他数据)等其他数据库交互索引。库交互索引。通过通过SWISS-PROT数据库可以得到某蛋白质的序数据库可以得到某蛋白质的序列,再通过交互引用从列,再通过交互引用从PDB数据库得到其结构。数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式数据由数据行排列组成,数据格式与与EMBL数据库数据格式基本相同。数据库数据格式基本相同。2. PIR PIR的子数据库:的子数据库: 蛋白质序列数据库(蛋白质序列数据库(PIR-PSD)
22、蛋白质分类数据库(蛋白质分类数据库(iProClass) 非冗余的蛋白质参考资料数据库(非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:数据库按照数据性质和注释层次分四个部分: PIR1序列已经验证,注释最为详尽序列已经验证,注释最为详尽; PIR2为尚未确定的冗余序列;为尚未确定的冗余序列; PIR3序列既未检验,也未注释;序列既未检验,也未注释; PIR4序列来自其它渠道,既未验证,也无注释。序列来自其它渠道,既未验证,也无注释。美国国家生物医学研究基金会与国际蛋白质信息中心美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-Interna
23、tionalPIR-International)共同维护。)共同维护。PIRPIR是第一个蛋白质分类和功能注释数据库是第一个蛋白质分类和功能注释数据库 PIR作用:作用: 提供基于文本的交互式检索、序列相提供基于文本的交互式检索、序列相似性似性 搜索以及结合序列相似性、注释信息搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。和蛋白质家族信息的高级检索。 PIR网址:网址:http:/pir.georgetown.edu/ 3.TrEMBL是一个经计算机注释的蛋白质数据库,采用是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。数据库格式。主要包含从主要包含从EMB
24、L/ Genbank/DDBJ三大核三大核酸数据库中根据编码序列翻译的、尚未集成酸数据库中根据编码序列翻译的、尚未集成到到SWISS-PROT数据库中的蛋白质序列。数据库中的蛋白质序列。TrEMBL为为SWISS-PROT数据库及时提供补数据库及时提供补充。充。 TrEMBL网址:网址:http:/www.ebi.ac.uk/trembl/4. UniProt UniProt将将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本三个数据库合并。通过文本检索、序列相似检索以及检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。网站可获得蛋白质序列。UniProt网站
25、主页网站主页UniProt包含包含UniProtKB、UniRef 和和UniParc 3个部个部分:分:(1)UniProtKB数据库(数据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉):蛋白质序列、功能、分类、交叉引用等信息存取中心;引用等信息存取中心;(2)UniRef数据库(数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程质序列合并到同一条记录中。目前,根据序列相似程度可将度可将UniRef数据库分为数据库分为UniRe
26、f100、UniRef90和和UniRef50 3个子库个子库(3)UniParc(UniProt Archive):储存大量蛋白):储存大量蛋白质研究的历史信息。质研究的历史信息。UniProt网址:网址:http:/www.ebi.uniprot.org/index.shtml5. GenPept数据库数据库GenPept数据库特点数据库特点 由由Genebank数据库的核酸序列经翻译后产生。数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。但未经实验证实,也未有详细注释。(二)蛋白质序列二次
27、数据库(二)蛋白质序列二次数据库 1.PROSITEn PROSITE是蛋白质家族保守区域和功能位点数是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,据库,也是第一个蛋白质序列二次数据库,收录蛋白收录蛋白质家族中同源序列多重比对所确定的保守性区域质家族中同源序列多重比对所确定的保守性区域:如:如酶活性位点、配体结合位点、金属离子结合位点、其酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。位点和序列模式。n PROSITE数据库组成数据库组成 包含包含Prosite(数
28、据文件)和(数据文件)和PrositeDoc(说明(说明文件)两个文件数据库。文件)两个文件数据库。PROSITE数据库主页数据库主页http:/prosite.expasy.org/nPROSITE数据库作用数据库作用:可确定一段新蛋白质序列中:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。包含的功能位点以及其归属的蛋白质家族。nPROSITE的网址:的网址:http:/www.expasy.ch/prosite/ 或或 http:/www.expasy.org/prosite/nPROSITE的中国镜像网址的中国镜像网址是:是:http:/cn.expasy.org/pro
29、site/2.PRINTS PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库将多个保守的将多个保守的序列模式作为识别蛋白质家族的特征序列模式作为识别蛋白质家族的特征,与,与PROSITE数据库的单个序列模式相比,数据库的单个序列模式相比,PRINTS具有更好的识具有更好的识别率。别率。PRINTS 网址:网址:http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/3.BLOCKSu 序列模块(序列模块(block):):是通过序列比对得到是通过序列比对得到的若干蛋白质序列中的若干蛋白质序列中具有较高相似性的序列片段具有较高相似性的序列片段。u BLOCKS
30、由通过自动检测由通过自动检测PROSITE数据库数据库和和PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库中蛋白质家族高中蛋白质家族高度保守区域产生的序列模块组成。度保守区域产生的序列模块组成。 u BLOCKS的网址:的网址:http:/blocks.fhcrc.org/(三)蛋白结构数据库(三)蛋白结构数据库1.PDB PDB(Protein Data Bank)蛋白质结构数)蛋白质结构数据库是国际上据库是国际上最完整的最完整的蛋白质、核酸、糖蛋白质、核酸、糖类、蛋白质类、蛋白质-核酸复合物及病毒等核酸复合物及病毒等生物大分生物大分子三维结构数据库。子三维结构数据库。 PDB数据库主页
31、数据库主页http:/www.rcsb.org/pdb/home/home.don PDB数据库作用数据库作用 提供序列详细信息、原子坐标、三提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。维结构、交叉检索等与结构相关的信息。2. MMDB(Molecular Modeling Database)n 是是Entrez的组成部分。的组成部分。n 只收录通过只收录通过X射线晶体衍射和核磁共振实验测射线晶体衍射和核磁共振实验测定的生物大分子结构数据。定的生物大分子结构数据。n 增加了附加信息如增加了附加信息如:大分子的生物学功能及产大分子的生物学功能及产生机制、分子进化历史、生物大
32、分子之间关系等。生机制、分子进化历史、生物大分子之间关系等。n 具有生物大分子三维结构模型展示、结构分具有生物大分子三维结构模型展示、结构分析和结构比较等功能析和结构比较等功能(四)蛋白质结构二次数据库(四)蛋白质结构二次数据库1.DSSP (Database of Secondary Structure of Protein) 是一个二级结构推导数据库,用于研究蛋白质序列与是一个二级结构推导数据库,用于研究蛋白质序列与蛋白质结构的关系。蛋白质结构的关系。 针对针对PDB数据库中蛋白质的原子坐标,计算其各个数据库中蛋白质的原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类型等二级结氨基酸
33、残基中氢键、二面角、二级结构类型等二级结构构象参数,从而根据三维结构推导出其对应的二级构构象参数,从而根据三维结构推导出其对应的二级结构。结构。2.HSSP (Homology-Derived Secondary Structure of Protein) n是一个蛋白质同源序列比对数据库,将相似序列是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结构的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。和空间结构信息。nHSSP用于分析蛋白质保守区域、确定序列模式用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。及蛋白的折叠、
34、进化关系、分子设计等研究。nHSSP的网址是:的网址是:http:/www.sander.embl-heidelberg.de/hssp/(五)蛋白质结构分类数据库(五)蛋白质结构分类数据库1.SCOP (Structural Classification of Proteins) 性质性质:是一个蛋白质结构分类数据库。:是一个蛋白质结构分类数据库。 功能功能:提供蛋白质之间的结构和进化关系的信息。:提供蛋白质之间的结构和进化关系的信息。 提供提供PDB链接、蛋白质序列、空间结构图链接、蛋白质序列、空间结构图像展示、参考文献链接等服务。像展示、参考文献链接等服务。2. CATH n CATH数
35、据库层次数据库层次: 类型层次类型层次:分为:分为 主类、主类、 主类、主类、 - 类(类( / 型和型和 + 型)、型)、低二级结构类低二级结构类4类。类。 构架层次构架层次:依据由:依据由螺旋和螺旋和折叠形成的超二级结构排列方折叠形成的超二级结构排列方式进行分类,而不考虑它们之间的连接关系。式进行分类,而不考虑它们之间的连接关系。 拓扑层次拓扑层次:为二级结构的形状和二级结构间的联系。:为二级结构的形状和二级结构间的联系。 同源性层次同源性层次:通过序列比较和结构比较确定。:通过序列比较和结构比较确定。 序列层次序列层次:根据序列同源性不同分为:根据序列同源性不同分为S、O、L、I、D五种
36、。五种。n CATH的网址的网址:http:/www.cathdb.info/latest/index.html/3. PDBsum n 通过对通过对PDB数据库中所有蛋白质结构信息进行总结数据库中所有蛋白质结构信息进行总结和分析,给出蛋白质的主链数目、配体、金属离子、二和分析,给出蛋白质的主链数目、配体、金属离子、二级结构、折叠图等相关信息。级结构、折叠图等相关信息。n 提供检索蛋白质各级结构信息的统一界面。提供检索蛋白质各级结构信息的统一界面。 n PDBsum的网址:的网址:http:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/(六)蛋白质分
37、类数据库(六)蛋白质分类数据库 ProtoMap蛋白质分类数据库蛋白质分类数据库是利用计算机对是利用计算机对SWISS-PROT、TrEMBL 和和TrEMBL-new数据库数据库中全部蛋白质进行层次分类,将相关的蛋白质聚中全部蛋白质进行层次分类,将相关的蛋白质聚类分组而成。类分组而成。 ProtoMap数据库有助于对已知蛋白质家族进行数据库有助于对已知蛋白质家族进行精细划分,阐释家族间的相互关系。精细划分,阐释家族间的相互关系。 ProtoMap网址:网址:http:/protomap.cornell.edu/第三节第三节 EntrezEntrez检索实例检索实例Chapter 2Entrez 是美国国家生物技术信息中心NCBI所提供的在线资源检索器。http:/www.ncbi.nlm.nih.gov/sites/gquery