1、一:重要生物信息中心简介一:重要生物信息中心简介二:重要生物信息数据库二:重要生物信息数据库 生物数据库生物数据库 序列数据库序列数据库flatfile格式格式三:数据库检索工具简介三:数据库检索工具简介 Entrez,SRS生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 ncbi.nlm.nih.gov/embnet.org/embnet.org/The National nodesddbj.nig.ac.jp/expasy.ch/expasy.ch/expasy
2、.ch/hgmp.mrc.ac.uk/tigr.org/cbi.pku.edu/biosino.org/(infobiogen.fr/services/dbcat/infobiogen.fr/services/dbcat/)infobiogen.fr/services/dbcat/ftp:/ftpbiogen.fr/pub/db/dbcat数据库目录数据库目录(一一)Dbcat统计的生物信息数据库的数目统计的生物信息数据库的数目nar.oupjournals.org/content/vo133/issue1/蛋白质数据库种类和特点蛋白质数据库种类和特点名称名称维护单位维护单位注释注释冗余度冗余
3、度数据量数据量更新更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢 目的:目的:帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。质序列数据库。所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列的序列已
4、按蛋白质家族分类,一半以上还按蛋白质超已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。家族进行了分类。1 1、PIRPIR(Protein Information ResourceProtein Information Resource)除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下还包含以下信息:信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来蛋白质名称、蛋白质的分类、蛋白质的来源;源;(2)关于原始数据的参考文献;关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;因表达、翻译后处理、活
5、化等;(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。PIRPIR提供三种类型的检索服务提供三种类型的检索服务:一是基于文本的交互式查询一是基于文本的交互式查询,用户通过关键字进行数据查询。用户通过关键字进行数据查询。二是标准的序列相似性搜索二是标准的序列相似性搜索,包括包括BLASTBLAST、FastAFastA等。等。三是结合序列相似性、注释信息三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、包括按注释分类的相似性搜索、结构域搜索等。结构域搜索等。三个子数据库三个子数据库 SWISS-PROT(expasy.ch
6、/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库是目前国际上比较权威的蛋白质序列数据库,其中的蛋白其中的蛋白质序列是经过注释的质序列是经过注释的 SWISS-PROTSWISS-PROT中的数据来源于不同源地:中的数据来源于不同源地:(1 1)从核酸数据库经过翻译推导而来;)从核酸数据库经过翻译推导而来;(2 2)从蛋白质数据库)从蛋白质数据库PIRPIR挑选出合适的数据;挑选出合适的数据;(3 3)从科学文献中摘录;)从科学文献中摘录;(4 4)研究人员直接提交的蛋白质序列数据)研究人员直接提交的蛋白质序列数据 SWISS-PROTSWISS-PROT有三个
7、明显的特点有三个明显的特点 :(1 1)在在SWISS-PROTSWISS-PROT中,数据分为核心数据和注释两大类。中,数据分为核心数据和注释两大类。核心数据包括:核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:注释包括:(A)A)蛋白质的功能描述;蛋白质的功能描述;(B)(B)翻译后修饰;翻译后修饰;(C)(C)域和功能位点,如钙结合区域、域和功能位点,如钙结合区域、ATPATP结合位点等;结合位点等;(D)(D)蛋白质的二级结构;蛋白质的二级结构;(E)(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;蛋白
8、质的四级结构,如同构二聚体、异构三聚体等;(F)(F)与其它蛋白质的相似性;与其它蛋白质的相似性;(G)(G)由于缺乏该蛋白质而引起的疾病;由于缺乏该蛋白质而引起的疾病;(H)(H)序列的矛盾、变化等。序列的矛盾、变化等。尽量将相关的数据归并,降低数据库的冗余程度。尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。中加以注释。对于每一个登录项,有许多指向其它数据库相关数据的对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。指针,这便于用户迅速得到相关的信息。现
9、有的交叉索引有:现有的交叉索引有:到到EMBLEMBL核酸序列数据库的索引,核酸序列数据库的索引,到到PROSITEPROSITE模式数据库的索引,模式数据库的索引,到生物大分子结构数据库到生物大分子结构数据库PDBPDB的索引等的索引等 。TrEMBL(TrEMBL(ebi.ac.uk/trembl/index.html)是与是与SWISS-SWISS-PROTPROT相关的一个数据库。相关的一个数据库。包含从包含从EMBLEMBL核酸数据库中根据编码序列核酸数据库中根据编码序列(CDS)(CDS)翻译而翻译而得到的蛋白质序列,并且这些序列尚未集成到得到的蛋白质序列,并且这些序列尚未集成到S
10、WISS-SWISS-PROTPROT数据库中。数据库中。TrEMBLTrEMBL有两个部分:有两个部分:(1 1)SP-TrEMBL(SWISS-PROT TrEMBL)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到包含最终将要集成到SWISS-PROTSWISS-PROT的数据,所有的的数据,所有的SP-SP-TrEMBL TrEMBL 序列都已被赋予序列都已被赋予SWISS-PROTSWISS-PROT的的 登录号。登录号。(2 2)REM-TrEMBL(REMaining TrEMBL)REM-TrEMBL(REMaining TrEMBL)包括所有不准备放
11、入包括所有不准备放入SWISS-PROTSWISS-PROT的数据,因此这部分的数据,因此这部分数据都没有登录号。数据都没有登录号。PROSITE(expasy.ch/prosite/)是蛋是蛋白质家族和结构域数据库,包含具有生物学白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族意义的位点、模式、可帮助识别蛋白质家族的统计特征。的统计特征。PROSITE中涉及的序列模式包括酶的催化中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋基、二硫键的半胱氨酸、与小分子或其它蛋白质结合
12、的区域等。白质结合的区域等。PROSITE还包括根据多序列比对而构建的还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是序列统计特征,能更敏感地发现一个序列是否具有相应的特征。否具有相应的特征。包括:包括:Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库,可以利用户可以通过文本查询数据库,可以利用用BLAST程序搜索数据库,也可以直接程序搜索数据库,也可以直接通过通过FTP 下载数据。下载数据。UniProt包含包含3个部分个部分:(1 1)UniProt KnowledgebaseUniProt Knowledgebase(UniProtUniProt)
13、蛋白质序列、功能、分类、交叉引用等信息蛋白质序列、功能、分类、交叉引用等信息存取中心存取中心(2 2)UniProt Non-redundant ReferenceUniProt Non-redundant Reference(UniRefUniRef)数据库)数据库 将密切相关的蛋白质序列组合到一条记录中将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度;以便提高搜索速度;(3 3)UniProt ArchiveUniProt Archive(UniParcUniParc)资源库,记录所有蛋白质序列的历史。资源库,记录所有蛋白质序列的历史。rcsb.org/pdb蛋白质结构数据库蛋白质
14、结构数据库PDB中不同种类数据统计中不同种类数据统计引自rcsb.org/pdb/holdings.html网页PDB Holdings List:27-Sep-2019 显示分子结构(显示分子结构(RasMol RasMol,ChemView ChemView)MMDB 实用工具lSCOP(Structural Classification of Proteins)lCATH(Class,Architecture,Topology,Homology)人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据 目前目前GDBGDB包含对下述三种对象的描述:包含对下述三种对象的描述:(1 1)
15、人类基因组区域)人类基因组区域 包括基因、克隆、包括基因、克隆、PCRPCR标记物、断点、细胞遗传学标记、易碎位标记物、断点、细胞遗传学标记、易碎位点、点、ESTEST、综合区域、综合区域、contigscontigs、重复等;、重复等;(2 2)人类基因组图谱,)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig contig 图谱、图谱、集成图谱,所有这些图谱都可以被直观地显示出来;集成图谱,所有这些图谱都可以被直观地显示出来;(3 3)人类基因组中的变化,)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据
16、。包括基因突变和基因多态性,加上等位基因频率数据。与染色体相关的信息其它模式生物基因组数据库如:如:鼠基因组数据库鼠基因组数据库 MGDMGD(informatics.jax.org/informatics.jax.org/)酵母基因组数据库酵母基因组数据库 SGDSGD(genome-stanford.edu/Saccharomyces/genome-stanford.edu/Saccharomyces/)Ensembl(Ensembl(ensembl.org/ensembl.org/)EnsemblEnsembl包括所有公开的人类基因组包括所有公开的人类基因组DNADNA序列,通过注序列,
17、通过注释形成的关于序列的特征。释形成的关于序列的特征。现在包括其他基因组,如现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。大鼠、小鼠、线虫、果蝇等。例如:基因例如:基因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征:其他的特征:单核苷酸多态性(单核苷酸多态性(SNPSNP)、重复序列等)、重复序列等Ensembl 数据库结构图 EnsemblEnsembl提供多种查询方式提供多种查询方式 通过关键字查询通过关键字查询用用BLASTBLAST进行相似序列的搜索进行相似序列的搜索 另一种更直观的方式是显示各染色体另一种更直观的方式是显示各染色体用户可
18、以在染色体水平上选择感兴趣的位点,用户可以在染色体水平上选择感兴趣的位点,逐层放大逐层放大浏览整个基因组浏览整个基因组人的第人的第9号号染色体及大染色体及大鼠对应的染鼠对应的染色体片段色体片段单碱基多态性数据库单碱基多态性数据库dbSNPdbSNP(www3.ncbi.nlm.nih.gov/SNP/),ESTEST(Expressed Sequence TagsExpressed Sequence Tags)方法已被证明)方法已被证明是是识别转录序列识别转录序列的最有效方法的最有效方法 ,ESTEST序列大约覆盖序列大约覆盖了人类基因的了人类基因的90%90%。DbEST(DbEST(ncb
19、i.nlm.nih.gov/dbEST/ncbi.nlm.nih.gov/dbEST/)是是GenBankGenBank的一个部分,该数据库包括不同生物的的一个部分,该数据库包括不同生物的ESTEST序列序列数据及其它相关信息,主要是从大量不同组织和器官得到的短数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNAmRNA片段。片段。WEB页面或页面或emailFTP有关有关ESTEST的数据的数据dbESTdbEST数据库数据库STSSTS(Sequence Tagged SitesSequence Tagged Sites)是序列标记位点)是序列标记位点dbSTSdbSTS(ncb
20、i.nlm.nih.gov/dbSTS/ncbi.nlm.nih.gov/dbSTS/)是是NCBINCBI的一个数据源,包含基因组短标记序列(的一个数据源,包含基因组短标记序列(STSSTS)的组成和定位信息。的组成和定位信息。可以通过可以通过BLASTBLAST搜索搜索STSSTS序列。序列。UniGene(UniGene(ncbi.nlm.nih.gov/UniGene/)ncbi.nlm.nih.gov/UniGene/)数据库将数据库将GenBankGenBank中的序列进行自动分类,形成中的序列进行自动分类,形成面向基因群的非冗余集合。面向基因群的非冗余集合。每个每个UniGene
21、UniGene群包含群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的除了基因的序列之外,还包括大量的ESTEST序列。序列。目前,目前,UniGeneUniGene中包括人类、大鼠、小鼠、牛的相关数据,中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的因为这些生物有大量的ESTEST数据。数据。From PDBFrom Swiss-prot多重序列比对多重序列比对已知结构 未知结构ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM EPDEPD(epd.isb-sib.ch/)是真核基因启动子数据库是真核基因启动子数据库提供从提供从EMBL中得到的真核基因的启动子序列,中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。人员分析真核基因的转录信号。重要数据库网址重要数据库网址