1、第二章第二章分子生物信息数据库分子生物信息数据库 2022-9-27第一节第一节 分子生物信息数据库分子生物信息数据库第二节第二节 核酸与蛋白质序列格式核酸与蛋白质序列格式转换转换简简 介介2022-9-27第一节、分子生物信息数据库第一节、分子生物信息数据库一、分子生物信息数据库简介一、分子生物信息数据库简介二、各大类主要数据库介绍二、各大类主要数据库介绍2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介生物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子
2、数据库 2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介 生物分子数据库应满足生物分子数据库应满足5个方面的主要个方面的主要需求需求v(1 1)时间性)时间性v(2 2)注释)注释 v(3 3)支撑数据)支撑数据 v(4 4)数据质量)数据质量 v(5 5)集成性)集成性 2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介(1)数据库的更新速度不断加快,)数据库的更新速度不断加快,数据量呈指数增长趋势;数据量呈指数增长趋势;(2)数据库使用频率增长更快,接近)数据库使用频率增长更快,接近500;(3)数据库的复杂程度不断增加)数据库的复杂程度不断增加;
3、(4)数据库网络化)数据库网络化;(5)面向应用;)面向应用;(6)先进的软硬件配置。)先进的软硬件配置。2022-9-27一、分子生物信息数据库简介一、分子生物信息数据库简介2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库核酸序列数据库核酸序列数据库蛋白质序列数据库蛋白质序列数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构分类数据库蛋白质结构分类数据库功能数据库功能数据库生物信息学数据库导航系统生物信息学数据库导航系统2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库 基因组数据库的主体是模式生物基因组数据库,
4、其中基因组数据库的主体是模式生物基因组数据库,其中主要有世界各国人类基因组研究中心,测序中心构建的主要有世界各国人类基因组研究中心,测序中心构建的各种人类的基因组数据库。还有模式生物基因组数据库,各种人类的基因组数据库。还有模式生物基因组数据库,如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组如小鼠、线虫、果蝇、酵母等。一些动物与植物基因组数据库也纷纷上网。数据库也纷纷上网。基因组信息资源除了基因组本身信息外,还包括染色基因组信息资源除了基因组本身信息外,还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因体、基因突变、遗传疾病、分类学、比较基因组、基因的调控与表达、放射杂交、基因图谱等
5、各种数据库的调控与表达、放射杂交、基因图谱等各种数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(一)(一)GDB The GDB Human Genome Database gdb.org/于于1990年由美国年由美国JOHNS HOPKINS大学建立,现大学建立,现在由加拿大儿童医院生物信息学中心负责管理。在由加拿大儿童医院生物信息学中心负责管理。基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其
6、它对功能和表型的描述2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(一)(一)GDB The GDB Human Genome Database gdb.org/目前目前GDB中有:人类基因组区域中有:人类基因组区域(包括基因、克隆、包括基因、克隆、amplimers PCR 标记、断点标记、断点breakpoints、细胞遗、细胞遗传标记传标记cytogenetic markers、易碎位点、易碎位点fragile sites、EST序列、综合区域序列、综合区域syndromic regions、contigs和重复序列和重复序列);人类基因组图谱
7、人类基因组图谱(包括细胞遗传图谱、连接图谱、包括细胞遗传图谱、连接图谱、放射性杂交图谱、放射性杂交图谱、content contig图谱和综合图谱图谱和综合图谱等等);人类基因组内的变异;人类基因组内的变异(包括突变和多态性,加上包括突变和多态性,加上等位基因频率数据等位基因频率数据)。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库2022-9-27二、各大类主要数据库介绍
8、二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensemblensembl.org/Ensembl 试图跟踪所有人类基因组的序列片段,并将试图跟踪所有人类基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的序列片段组装成单个长序列,进而分析这些经过组装的DNA 序列,搜索其中的基因,发现生物学家或医学工作者序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。感兴趣的特征。Ensembl 包括所有公开的基因组包括所有公开的基因组DNA 序列,如人类基序列,如人类基因组、小鼠和大鼠基因组等。通过注释形成的关于序列的因组、小鼠和
9、大鼠基因组等。通过注释形成的关于序列的特征。基因就是一种特征,基因或者是通过实验发现的,特征。基因就是一种特征,基因或者是通过实验发现的,或者是通过或者是通过Ensembl 的程序预测的。的程序预测的。Ensembl 所用的基因预测程序为所用的基因预测程序为GenScan。其他的特。其他的特征包括单核苷酸多态性(征包括单核苷酸多态性(SNP)、重复序列与其它序列高)、重复序列与其它序列高度相似(或同源)的序列。度相似(或同源)的序列。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensembl2022-9-
10、27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensembl2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(三)其他基因组数据库(三)其他基因组数据库1、EcoGene 大肠杆菌(E.coli)K-12的序列 bmb.med.miami.edu/2、MITOMAP人类线粒体基因组 mitomap.org/3、SGD 酵母基因组数据库 genome-stanford.edu/Saccharomyces 2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍核酸序列数据
11、核酸序列数据 核酸序列是了解生物体结构、功能、发育和进化的出发核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(美国生物技术信息中心(NCBI)的)的GenBank欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL-Bank日本遗传研究所的日本遗传研究所的DDBJ 三个组织相互合作,各数据库中的数据基本一致,仅在三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。结果一样。这三
12、个数据库是综合性的这三个数据库是综合性的DNA 和和RNA序列数据库,其数序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。系统。2022-9-27(一)(一)GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心它是由美国国立生物技术信息中心(NCBI)
13、建立和维护的。建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量提交的大量EST序列和其它测序数据;以及与其它数据机序列和其它测序数据;以及与其它数据机构协作交换数据而来。构协作交换数据而来。Genbank每天都会与欧洲分子生物学实验室每天都会与欧洲分子生物学实验室(EMBL)的数据的数据库,和日本的库,和日本的DNA数据库数据库(DDBJ)交换数据,使这三个数据交换数据,使这三个数据库的数据同步。库的数据同步。Genbank的数据可以从的数据可以从NCBI的的FTP服务器上免费下载完整服务器上免费下载完整的库,或下载积
14、累的新数据。的库,或下载积累的新数据。NCBI还提供广泛的数据查询、还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从序列相似性搜索以及其它分析服务,用户可以从NCBI的主的主页上找到这些服务。页上找到这些服务。2022-9-27 Genbank库里的数据按来源于约库里的数据按来源于约55,000个物种,个物种,其中其中56%是人类的基因组序列是人类的基因组序列(所有序列中的所有序列中的34%是人类的是人类的EST序列序列)。每条。每条Genbank数据记录包含数据记录包含了对序列的简要描述,它的了对序列的简要描述,它的科学命名,物种分类科学命名,物种分类名称,参考文献,序列特征
15、表,以及序列本身名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及细菌类、病毒类、灵长类、啮齿类,以及EST数数据、基因组测序数据、大规模基因组序列数据等据、基因组测序数据、大规模基因组序列数据等16类,其中类,其中EST数据等又被各自分成若干个文件。数据等又被各自分成若干个文件。(一)(一)Genbank2022-9
16、-27ncbi.nlm.nih.gov(一)(一)Genbank2022-9-27(一)(一)Genbank2022-9-27(二)(二)EMBL EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)服务完成。2022-9-27ebi.ac.uk/embl/(二)(二)EMBL2022-9-27(三)(三)DDBJ数据库数据库 日本日本DNA数据仓库数据仓库(DDBJ)也是一个全也是一个全面的核酸序列数
17、据库,与面的核酸序列数据库,与Genbank和和EMBL核酸库合作交换数据。可以使用其核酸库合作交换数据。可以使用其主页上提供的主页上提供的SRS工具进行数据检索和序工具进行数据检索和序列分析。列分析。DDBJ的网址是:ddbj.nig.ac.jp/index-e.html2022-9-27(三)(三)DDBJ数据库数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)pir.georgetown.edu/由美国生物医学基金会由美国生物医学基金会NBRF(National B
18、iomedical Research Foundation)于)于1984 年建立的。年建立的。目的是帮助研究者鉴别和解释蛋白质序列信息,研究目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。数据库。w 所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列已按的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。分类。2022-9-27二、各大类主
19、要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)pir.georgetown.edu/除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下信息:还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。2
20、022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FASTA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。目前,目前,PIR 包括三个子数据库,分别是:包括三个子数据库,分别是:蛋白质序列数据库蛋白质序列数据库PIR-PSD蛋白质分类数据库蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数
21、据库以及非冗余的蛋白质参考资料数据库PIR-NREF。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库2、SWISS-PROT (ebi.ac.uk/swissprot/曾经的网址)曾经的网址)uniprot.org/是由是由Geneva 大学和欧洲生物信息学研究所(大学和欧洲生物信息学研究所(EBI)于)于1986 年联合建立年联合建立的,它是目前国际上权威的蛋白质序列数据库。
22、的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT 中的蛋白中的蛋白质序列是经过注释的。质序列是经过注释的。SWISS-PROT中的数据来源于不同源地:中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库)从蛋白质数据库PIR挑选出合适的数据;挑选出合适的数据;(3)从科学文献中摘录;)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据)研究人员直接提交的蛋白质序列数据 与其它蛋白质序列数据库相比较,与其它蛋白质序列数据库相比较,SWISS-PROT 有三个明显的特点:有三个明显的特点:(1)注释)注释(2)最小冗余
23、)最小冗余(3)与其它数据库的连接)与其它数据库的连接2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍2、SWISS-PROT (ebi.ac.uk/swissprot/)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库3、TrEMBL (ebi.ac.uk/trembl/index.html 曾经的网址曾经的网址)uniprot.org/TrEMBL是一个计算机注释的蛋白质数据库,作为是一个计算机注释的蛋白质数据库,作为SWISS-PROT 数据库的补充。该数据库主要包含从数据库的补充。该数据库主要包含从EMBL/Genba
24、nk/DDBJ 核酸数核酸数据库中根据编码序列据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列翻译而得到的蛋白质序列,并且这些序列尚未集成到尚未集成到SWISS-PROT 数据库中。数据库中。TrEMBL 有两个部分有两个部分SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到包含最终将要集成到SWISS-PROT 的数据,所有的的数据,所有的SP-TrEMBL 序列都已被赋予序列都已被赋予SWISS-PROT 的的 登录号。登录号。REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入包括所有不准备放入SWISS-PROT 的数据,因
25、此这部分数据都没有登录号。的数据,因此这部分数据都没有登录号。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库3、(曾经的网址和界面)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库4、UniProt 蛋白质数据仓库 将将 Swiss-Prot、TrEMBL、PIR 3 个蛋白质数据库统一起来,个蛋白质数据库统一起来,建立了一个蛋白质数据仓库建立了一个蛋白质数据仓库UniProt。UniProt包含包含4 个部分:个部分:(1)UniProt Knowledgebase(UniProtKB),这
26、是蛋白质序列、),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;速度;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋),是一个资源库,记录所有蛋白质序列的历史。白质序列的历史。(4)UniProt Metagenomic and Environmental Sequence(UniMES),记录
27、),记录metagenomic和环境微生物序列数据。和环境微生物序列数据。用户可以通过文本查询数据库,可以利用用户可以通过文本查询数据库,可以利用BLAST 程序搜索数据程序搜索数据库,也可以直接通过库,也可以直接通过FTP 下载数据。下载数据。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库1、Protein Data Bank rcsb.org/pdb 蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而
28、成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库1、Protein Data Bank rcsb.org/pdbPDB 中的每条记录有两种序列信息一种是显式序列信息(explicit sequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以
29、该关键字打头的每一行都是关于序列的信息。一种是隐式序列信息(implicit sequence)PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库PDB 显示分子结构(显示分子结构(RasMol,ChemView)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库2、MMDB(Molecular Modeling Database)分
30、子模型分子模型MMDB 是(是(NCBI)所开发的生物信息数据)所开发的生物信息数据库集成系统库集成系统Entrez的一个部分,数据库的内容包括来自于的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。实验的生物大分子结构数据。与与PDB相比,对于数据库中的每一个生物大分子结构,相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结还提供生物大分子三维结构模型显示、结构分析和结构比较工具。构比较工具。
31、2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库2、MMDB(Molecular Modeling Database)2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、SCOP蛋白质结构分类数据库(蛋白质结构分类数据库(STRUCTURAL CLASSIFICATION OF PROTEINS)scop.mrc-lmb.cam.ac.uk/scop/详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;
32、家族,描述相近的进化关系;超家族,描述远源的进化关系;超家族,描述远源的进化关系;折叠子折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于,描述空间几何结构的关系;折叠类,所有折叠子被归于全全、全、全、/、多结构域蛋白、膜蛋白和细胞表面蛋白、小、多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白分类等。在此基础上按折叠类型、超家族、家族三个参次主级分蛋白分类等。在此基础上按折叠类型、超家族、家族三个参次主级分类。类。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、SCOP蛋白质结构分类数据库蛋白质结构分类数据库2022-9
33、-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、SCOP蛋白质结构分类数据库蛋白质结构分类数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、SCOP蛋白质结构分类数据库蛋白质结构分类数据库2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、蛋白质结构分类数据库蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)and Homologous superfamily(H).cathdb/C
34、ATH数据库的分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即主类、主类,-类(/型和+型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由螺旋和折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。形象地说来,就是蛋白质分子的构架,如同建筑物的立柱、横梁等主要部件,这一层次的分类主要依靠人工方法。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、蛋白质结构分类数据库蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)
35、and Homologous superfamily(H).第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列相似性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、蛋白质结构分类数据库蛋白质结构分类数据库Class(C),Architecture(A),Topolog
36、y(T)and Homologous superfamily(H).2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、蛋白质结构分类数据库蛋白质结构分类数据库Class(C),Architecture(A),Topology(T)and Homologous superfamily(H).2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍功能数据库功能数据库lKEGG lDIP lASDB lTRRD lTRANSFAC lEPD2022-9-27KEGG 京都基因和基因组百科全书京都基因和基因组百科全书(KEGG)(K
37、EGG)是系统分析基因功是系统分析基因功能,联系基因组信息和功能信息的知识库。能,联系基因组信息和功能信息的知识库。基因组信息存储在基因组信息存储在GENESGENES数据库里,包括完整和部分数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在测序的基因组序列;更高级的功能信息存储在PATHWAYPATHWAY数数据库里,包括图解的细胞生化过程如代谢、膜转运、信号据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;传递、细胞周期,还包括同系保守的子通路等信息;KEGGKEGG的另一个数据库是的另一个数据库是LIGANDLIGAND,包含关
38、于化学物质、酶分子、,包含关于化学物质、酶分子、酶反应等信息。酶反应等信息。KEGG KEGG提供了提供了JavaJava的图形工具来访问基因组图谱,比较的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。较和通路计算的工具,可以免费获取。2022-9-27KEGG kegg.jp/2022-9-27DIP 相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋
39、白质超家族、关键词、实验技术或引用文献来查询DIP数据库。DIP的网址是:dip.doe-mbi.ucla.edu/2022-9-27DIPdip.doe-mbi.ucla.edu/dip/main.cgi2022-9-27ASDB(旧)(旧)可变剪接数据库可变剪接数据库(ASDB)包括蛋白质库和包括蛋白质库和核酸库两部分。核酸库两部分。ASDB(蛋白质蛋白质)部分来源于部分来源于SWISS-PROT蛋白质序列库,通过选取有可蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。列,经过序列比对、筛选和分类构
40、建而成。ASDB(核酸核酸)部分来自部分来自Genbank中提及和注释中提及和注释的可变剪接的完整基因构成。数据库提供了的可变剪接的完整基因构成。数据库提供了方便的搜索服务。方便的搜索服务。ASDB的网址是:cbcg.nersc.gov/asdb2022-9-27ASDB-ASTD2022-9-27TRRD 转录调控区数据库转录调控区数据库(TRRD)是在不断积累的真核生物是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。每一个基因调控区结构功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构功能特性:转录的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动
41、子、增强子、静默子、以及基因表达因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。调控模式等。TRRD包括五个相关的数据表:包括五个相关的数据表:TRRDGENES(包含包含所有所有TRRD库基因的基本信息和调控单元信息库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息包括调控因子结合位点的具体信息);TRRDFACTORS(包括包括TRRD中与各个位点结合的调控因中与各个位点结合的调控因子的具体信息子的具体信息);TRRDEXP(包括对基因表达模式的具体包括对基因表达模式的具体描述描述);TRRDBIB(包括所有注释涉及的参考文献包括所有注释涉及
42、的参考文献)。TRRD主页提供了对这几个数据表的检索服务。主页提供了对这几个数据表的检索服务。TRRD的网址是:的网址是:wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/2022-9-27TRRD 2022-9-27EPDEPD(epd.isb-sib.ch/)是真核基因启动子数据库提供从是真核基因启动子数据库提供从EMBL中得中得到的真核基因的启动子序列,目标是帮助实验到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因研究人员、生物信息学研究人员分析真核基因的转录信号。的转录信号。2022-9-27EPD2022-9-27PROSIT
43、E PROSITE数据库收集了生物学有显著意义的蛋白质数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过的序列模式,这样就可能通过PROSITE的搜索找到隐含的搜索找到隐含的功能的功能mo
44、tif,因此是序列分析的有效工具。,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的还包括由多序列比对构建的profile,能更敏感,能更敏感地发现序列与地发现序列与profile的相似性。的相似性。PROSITE的主页上提供的主页上提供各种相关检索服务。各种相关检索服务。2022-9-2
45、7expasy.ch/prosite/PROSITE2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统1、DBCat DBCat是生物信息数据库的目录数据是生物信息数据库的目录数据库,它收集了库,它收集了500多个生物信息学数据库的信多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包息,并根据它们的应用领域进行了分类。包括括DNA、RNA、蛋白质、基因组、图谱、蛋、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询以免费下载或在网络上检索查询
46、。DBCat的网址是:infobiogen.fr/services/dbcat/2022-9-27数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Protein structure18Literature43Miscellaneous1532022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统1、DBCat 2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统、生物软件网:bio-soft2022-9-27二、各大类主要数据库介绍
47、二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统3、核酸研究杂志(NUCLEIC ACIDs RESEARCH)每年第一期公布的生物学数据库资源 The 2019 Nucleic Acids Research Dadabase issue and the online molecular biology database collection.Nucleic Acids Res.2019;39:D1-D6.2022-9-27二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统3、核酸研究杂志(NUCLEIC ACIDs RES
48、EARCH)2022-9-27第二节、序列格式转换第二节、序列格式转换进行生物信息学的研究时,常常需要进行序列格式的转换,以满足不同生物信息学分析软件的需要。2022-9-27 Fasta/pearsonDnastriderEMBI常见的序列格式常见的序列格式2022-9-27常见的序列格式常见的序列格式 GCG PhylipGenebank2022-9-27常见的序列格式常见的序列格式Paup NEXUSNBRFPir codata2022-9-27如何进行序列格式转换如何进行序列格式转换1、利用软件、利用软件2022-9-27如何进行序列格式转换如何进行序列格式转换2、利用网络www-bimas.cit.nih.gov/molbio/readseq/2022-9-27