第四章生物信息学数据库(一)主要库及其文件格式课件.ppt_163文库

资源描述

1、.生物分子数据生物分子数据高速增长高速增长分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据建立生物分子数据库建立生物分子数据库.（1）数据库的更新速度不断加快）数据库的更新速度不断加快数据量呈指数增长趋势数据量呈指数增长趋势（2）数据库使用频率增长更快）数据库使用频率增长更快（3）数据库的复杂程度不断增加）数据库的复杂程度不断增加（4）数据库网络化）数据库网络化（5）面向应用）面向应用（6）先进的软硬件配置）先进的软硬件配置.v生物分子数据库生物分子数据库一级数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据库中的数据直接来源于

2、实验获得的原始数据，只经过简单的归类整理和注释数据，只经过简单的归类整理和注释二级数据库二级数据库v对原始生物分子数据进行整理、分类的结果，对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的础上针对特定的应用目标而建立的。.生物信息学常用数据库种类生物信息学常用数据库种类通用生物信息学数据库通用生物信息学数据库特定（数据）数据库特定（数据）数据库特定（物种）数据库特定（物种）数据库各种通路数据库各种通路数据库结构（图形结构（图形/图像）数据库图像）数据库.(1)美国生物技术信息中心（美

3、国生物技术信息中心（NCBI）的）的GenBank （http:/www.ncbi.nlm.nih.gov/Genbank/）(2)欧洲分子生物学实验室欧洲分子生物学实验室(EMBL)(http:/www.embl-heidelberg.de)的的 nucleotide sequence database（http:/www.ebi.ac.uk/embl/）(3)日本遗传研究所的日本遗传研究所的DDBJ （http:/www.ddbj.nig.ac.jp/）国际上三大权威数据库国际上三大权威数据库.NCBI (National Center for Biotechnology Informat

4、ion)http:/www.ncbi.nlm.nih.gov/全球最大的生物信息资源中心全球最大的生物信息资源中心 DNA 序列、蛋白质序列、出版物、数据挖掘工具等序列、蛋白质序列、出版物、数据挖掘工具等美国生物技术信息中心美国生物技术信息中心.美国的美国的GenBank从从1979年开始建设，年开始建设，1982年正式运行；年正式运行；.欧洲分子生物学实验室欧洲分子生物学实验室的的EMBL数据库也于数据库也于1982年开始服务年开始服务.EMBL(Germany).密密苏苏里里植植物物园园主主页页EMBL-EBI(UK).EBI,Hinxton(Cambridge),UK 2004年2月22

5、日摄.http:/www.ebi.ac.uk/embl/.http:/www.ebi.ac.uk/Databases/.21 Mar 2003 37,943,364,438 bases in 24,353,128 records.日本于日本于1984年开始建立国家年开始建立国家级的核酸数据库级的核酸数据库DDBJ，并于，并于1987年正式服务。年正式服务。.NCBI、EBI和和DDBJ之间的区别与联系之间的区别与联系.三个数据库中的数据基本一致，仅在数据三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数格式上有所差别，对于特定的查询，三个数据库的响应结果一样。据库的响应

6、结果一样。这三个数据库是综合性的这三个数据库是综合性的DNADNA和和RNARNA序列数序列数据库，每条记录代表一个单独、连续、附有据库，每条记录代表一个单独、连续、附有注释的注释的DNADNA或或RNARNA片段。片段。.人类基因组计划所得到的图谱数据人类基因组计划所得到的图谱数据 GDB包含对下述三种对象的描述：（1）人类基因组区域包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等；（2）人类基因组图谱，包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；（3）人类基因组中的变化

7、，包括基因突变和基因多态性，加上等位基因频率数据。20082008年年6 6月关闭月关闭.2、其他生物基因组数据库、其他生物基因组数据库.大肠杆菌大肠杆菌K12基因组数据库基因组数据库.酵母基因组数据库酵母基因组数据库.线虫基因组数据库线虫基因组数据库.果蝇基因组数据库果蝇基因组数据库.小鼠基因组数据库小鼠基因组数据库.玉米基因组数据库玉米基因组数据库.大肠杆菌K12基因组数据库 ecogene：http:/ecogene.org白色念珠菌基因组数据库 CGD（Candida Genome Database）：http:/www.candidagenome.orgTIGR的微生物资源数据库 C

8、MR：http:/cmr.jcvi.org/tigr-scripts/CMR/CmrHomePage.cgi日本的微生物基因组数据库 MBGD：http:/mbgd.genome.ad.jp酵母基因组数据库 SGD（Saccharomyces Genome Database）：http:/www.yeastgenome.orgTIGR的真菌基因组数据库：http:/www.tigr.org/tdb/fungal线虫基因组数据库 WormBase（the C.elegans genome database）：http:/www.wormbase.org四膜虫基因组数据库 TGD(Tetrahym

9、ena Genome Database):http:/www.ciliate.org疟原虫基因组数据库 PlasmoDB(Plasmodium Genome Resource)：http:/plasmodb.org/plasmo果蝇基因组数据库 FlyBase：http:/flybase.org（另可参看BDGP：http:/www.fruitfly.org）拟南芥信息资源 tair（The Arabidopsis Information Resource）：http:/www.arabidopsis.org （另可参看The TIGR Arabidopsis thaliana Databas

10、e：http:/www.tigr.org/tdb/e2k1/ath1.水稻基因组数据资源：1、中国国际水稻基因组计划(IRGSP)：http:/ 2、中国水稻信息系统（RISe）：http:/ 3、美国 http:/rice.plantbiology.msu.edu 4、日本 RGP（Rice Genome Research Program）：http:/rgp.dna.affrc.go.jp/E/index.html苜蓿属基因组数据库：http:/www.noble.org/medicago玉米基因组数据库 maizegdb：http:/www.maizegdb.org斑马鱼信息网 ZFIN

11、(Zebrafish Information Network)：http:/zfin.org（另可参看The Danio rerio Sequencing Project：http:/www.sanger.ac.uk/Projects/D_rerio）小鼠基因组数据库 MGI(Mouse Genome Informatics)：http:/www.informatics.jax.orgHIV 序列数据库 HIV Databases：http:/www.hiv.lanl.gov/content/index.Ensembl Ensembl(http:/www.ensembl.org/http:/w

12、ww.ensembl.org/）EnsemblEnsembl包括所有公开的人类基因组包括所有公开的人类基因组DNADNA序列，通过注序列，通过注释形成的关于序列的特征。释形成的关于序列的特征。现在包括脊椎动物和其他现在包括脊椎动物和其他真核生物基因组，如大鼠、小鼠、线虫、果蝇等。真核生物基因组，如大鼠、小鼠、线虫、果蝇等。例如：基因例如：基因通过实验发现的通过实验发现的或者是通过或者是通过GenScan程序预测的程序预测的其他的特征：其他的特征：单核苷酸多态性（单核苷酸多态性（SNPSNP）、重复序列等）、重复序列等.Ensembl.Ensembl提供多种查询方式通过关键字查询用BLAST进

13、行相似序列的搜索另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点，逐层放大浏览整个基因组.人的第人的第9号号染色体及大染色体及大鼠对应的染鼠对应的染色体片段色体片段.EST（Expressed Sequence Tags）方法已被证明是识别转录序列的最有效方法，EST序列大约覆盖了人类基因的90%。DbEST(http:/www.ncbi.nlm.nih.gov/dbEST/）是GenBank的一个部分，该数据库包括不同生物的EST序列数据及其它相关信息，主要是从大量不同组织和器官得到的短mRNA片段。WEB页面或emailFTP有关EST的数据dbEST数据库.STS

14、（Sequence Tagged Sites）是序列标记位点dbSTS（http:/www.ncbi.nlm.nih.gov/dbSTS/）是NCBI的一个数据源，包含基因组短标记序列（STS）的组成和定位信息。可以通过BLAST搜索STS序列。.UniGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类，形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列，附有该基因相关的信息，如基因表达的组织类型、定位图谱除了基因的序列之外，还包括大量的EST序列。目前，UniGene中包括人类、大鼠、小鼠

15、、牛的相关数据，因为这些生物有大量的EST数据。.目的：目的：帮助研究者鉴别和解释蛋白质序列信息，帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组。研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。质序列数据库。所有序列数据都经过整理，超过所有序列数据都经过整理，超过99%的序列已的序列已按蛋白质家族分类，一半以上还按蛋白质超家按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。族进行了分类。1 1、PIRPIR（Protein Information ResourceProtein Information R

16、esource）.除了蛋白质序列数据之外，除了蛋白质序列数据之外，PIR还包含以下还包含以下信息：信息：(1)蛋白质名称、蛋白质的分类、蛋白质的来源；蛋白质名称、蛋白质的分类、蛋白质的来源；(2)关于原始数据的参考文献；关于原始数据的参考文献；(3)蛋白质功能和蛋白质的一般特征，包括基因蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等；表达、翻译后处理、活化等；(4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。.SWISS-PROT(http:/cn.expasy.org/sprot）是由瑞士日内瓦大学医学生物化学系和欧洲生物信息学瑞士日内瓦大学医学生物化学系和欧洲生

17、物信息学研究所研究所(EBI)(EBI)合作维护（合作维护（19861986年）年）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的 SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据.（1 1）在SWISS-PROT中，数据分为核心数据和注释两大类。核心数据包括：序列数据、参考文献、分类信息（蛋白质生物来源的描述）注释包括：（A)蛋白质的功能描述；(B)翻译后修饰；(C)域和功能位点，如钙结合区域、ATP结合位点等；(D)蛋白质的二级结构

18、；(E)蛋白质的四级结构，如同构二聚体、异构三聚体等；(F)与其它蛋白质的相似性；(G)由于缺乏该蛋白质而引起的疾病；(H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点：.尽量将相关的数据归并，降低数据库的冗余程度。如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。.TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS

19、-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分：（1）SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。（2）REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。.包括：Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库，可以利用BLAST程序搜索数

20、据库，也可以直接通过FTP 下载数据。http:/www.uniprot.org/.UniProt Knowledgebase，是蛋白质序列、功能、分类、交叉是蛋白质序列、功能、分类、交叉引用等信息存取中心；引用等信息存取中心；UniProt Non-redundant Reference数据库，将密切相关的蛋白质序列组合数据库，将密切相关的蛋白质序列组合到一条记录中，以便提高搜索速度；到一条记录中，以便提高搜索速度；UniProt Archive是一个资源库，记录所有蛋白质序列的历史。是一个资源库，记录所有蛋白质序列的历史。.第四节第四节生物大分子结构数据库生物大分子结构数据库1、PDB（

21、Protein Data Bank）PDB中含有通过实验（中含有通过实验（X射线晶体衍射，核磁共振射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构）测定的生物大分子的三维结构蛋白质蛋白质核酸核酸糖类糖类其它复合物其它复合物同时同时PDB也收录生物大分子结构的理论模型也收录生物大分子结构的理论模型.显示分子结构（显示分子结构（RasMol RasMol，ChemView ChemView）.2、MMDB(Molecular Modeling Database)分子模型分子模型MMDB 是（是（NCBI）所开发的）所开发的生物信息数据库集成系统生物信息数据库集成系统Entrez的

22、一个的一个部分，数据库的内容包括来自于实验的部分，数据库的内容包括来自于实验的生物大分子结构数据。生物大分子结构数据。与与PDB相比，对于数据库中的每一个生相比，对于数据库中的每一个生物大分子结构，物大分子结构，MMDB具有许多附加的具有许多附加的信息，如分子的生物学功能、产生功能信息，如分子的生物学功能、产生功能的机制、分子的进化历史等的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、还提供生物大分子三维结构模型显示、结构分析和结构比较工具。结构分析和结构比较工具。.MMDB 实用工具.NDB(Nucleic Acid Database).第五节第五节其它生物分子数据库其它生物分

23、子数据库核酸序列变化核酸序列变化单碱基多态性单碱基多态性SNPsSNPs（Single nucleotide polymorphisms）SNPsSNPs对人类遗传学研究和医学应用具有重要的意义对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究，还是对疾病性状分析或无论对于人类种群遗传学的研究，还是对疾病性状分析或个体化医疗，都需要深入地研究个体化医疗，都需要深入地研究SNPsSNPs。1、单碱基多态性数据库dbSNP（http:/www.ncbi.nlm.nih.gov/SNP/)，.实例：GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACT

24、CA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tactttggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatc

25、g tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G.2、蛋白质结构分类数据库、蛋白质结构分类数据库SCOPSCOPSCOP数据库数据库 (http:/scop.mrc-lmb.cam.ac.uk/scop/http:/scop.mrc-lmb.cam.ac.uk/scop/）的目标是提供关于已知结构的蛋白质之间结构和进化关系的的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库详细描述，包括蛋白质结构数据

26、库PDBPDB中的所有条目。中的所有条目。SCOPSCOP数据库除了提供蛋白质结构和进化关系信息外，对于每数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到一个蛋白质还包括下述信息：到PDBPDB的连接，序列，参考文献，的连接，序列，参考文献，结构的图像等。结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次是家族、超家族和折叠层次结构的树，其主要的层次是家族、超家族和折叠:(1)(1)家族：具有明显的进化关系家族：具有明显的进化关系 (2)(2)超家族：具有远源进化关系，具有

27、共同的进化源超家族：具有远源进化关系，具有共同的进化源 (3)(3)折叠类：主要结构相似折叠类：主要结构相似.3 3、蛋白质二级结构数据库、蛋白质二级结构数据库DSSP DSSP（http:/www.sander.embl-heidelberg.de/dssp/）(http:/swift.cmbi.ru.nl/gv/dssp/)是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质，根据其三维结构推导出对应的二级结构。对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用除了二级结构以外，DSSP还包括蛋白质的几何特征及溶剂可及表面。.The DSSP codeH=alpha

28、 helix B=residue in isolated beta-bridge E=extended strand,participates in beta ladder G=3-helix(3/10 helix)I=5 helix(pi helix)T=hydrogen bonded turn S=bend 例：.4、蛋白质同源序列比对数据库、蛋白质同源序列比对数据库HSSP HSSP(http:/www.sander.embl-heidelberg.de/hssp/）(http:/swift.cmbi.ru.nl/gv/hssp/)二级数据库。二级数据库。数据来源于数据来源于PDB，或来

29、源于，或来源于SWISS-PROT 对于对于PDB中的每一个蛋白质，中的每一个蛋白质，HSSP将与其同源的所有蛋白质序将与其同源的所有蛋白质序列对比排列起来，从而将相似序列的蛋白质聚集成结构同源的家列对比排列起来，从而将相似序列的蛋白质聚集成结构同源的家族。族。HSSP有助于分析蛋白质的保守区域，研究蛋白质的进化关系，有助于分析蛋白质的保守区域，研究蛋白质的进化关系，有助于蛋白质的分子设计。有助于蛋白质的分子设计。.5、OMIM OMIM(Online Mendelian Inheritance in Man),是关于人类基因和遗传疾病的分类数据库。该数据库收集了已知的人类基因及由于这些基因突

30、变或者缺失而导致的遗传疾病。OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询，返回含有该词的文档的列表，用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文 http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM.浏览染色体浏览染色体.6、EPD EPD(http:/www.epd.isb-sib.ch/)是真核基因启动子数据库提供从EMBL中得到的真核基因的启动子序列，目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。.7、TRRD TRRD是一个关于基因调控信息的集成数据库，该数据

31、库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因，包含特定基因各种结构功能特性 TRRD6.0包括七个相关的数据表：（1）基因描述表TRRDGENES（2）控制区域表TRRDLCR（3）调控区域表TRRDUNITS（4）转录因子结合位点表TRRDSITES（5）转录因子表TRRDFACTORS（6）表达模式表TRRDEXP（7）实验来源表TRRDBIB http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/.8、TRANSFAC TRANSFAC（http:/transfac.gbf.de/）是真核基因顺式调控元件和反式作用因子数据库

32、，数据搜集的对象从酵母到人类 TRANSFAC包括6类数据：（1）SITE类数据（2）GENE类数据（3）FACTOR类数据（4）CELL类数据（5）CLASS类数据（6）MATRIX数据.9、PROSITE PROSITE(http:/www.expasy.ch/prosite/)是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是

33、否具有相应的特征。.UTRdb(非翻译区数据库非翻译区数据库)http:/r.it/BIG/UTRHome/有关有关 3 和和 5 UTR信息信息10、非翻译区数据库非翻译区数据库.11、KEGG Kyoto Encyclopedia of Genes and Genomes http:/www.genome.ad.jp/kegg/有关基因、基因组、代谢通路的信息有关基因、基因组、代谢通路的信息.Information on relationsbetween moleculesGenomesGenesPathwayOrthologsExpressionSequencesimilarityChe

34、micals andtheir reactionsKEGG数据库组织框架数据库组织框架.KEGG代谢路径图代谢路径图.12、蛋白质相互作用数据库、蛋白质相互作用数据库（1）.12、蛋白质相互作用数据库、蛋白质相互作用数据库（2）.12、蛋白质相互作用数据库、蛋白质相互作用数据库（3）.12、蛋白质相互作用数据库、蛋白质相互作用数据库（4）.12、蛋白质相互作用数据库、蛋白质相互作用数据库（5）.DBCat DBCat是生物信息数据库的目录数据库，它收集了500多个生物信息学数据库的信息，并根据它们的应用领域进行了分类 DNA RNA 蛋白质基因组图谱蛋白质结构文献著作等基本类型，（ht

35、tp:/www.infobiogen.fr/services/dbcat/）.DBCat中分类数据库个数中分类数据库个数数据对象数据库个数DNA87RNA29Protein94Genomic58Mapping29Protein structure18Literature43Miscellaneous153.PubMed PubMed（http:/www.ncbi.nlm.nih.gov/）是NCBI维护的生物学、医学文献引用数据库，提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。.第

36、六节第六节常见数据文件格式常见数据文件格式 FASTA EMBL GenBank PIR XML ASN.1 PDB.1、FASTA格式最简单的数据格式最简单的数据格式用于各种用于各种FASTA 工具工具简要说明之后就是序列简要说明之后就是序列没有注释信息没有注释信息,只有序列只有序列包括三个部分：包括三个部分：1.在注释行的第一列用字符在注释行的第一列用字符“”标识，后面是序列的名字和来源；标识，后面是序列的名字和来源；2.标准的单字符标记的序列标准的单字符标记的序列；3.可选的可选的“*”表示序列的结束，它可能出现也可能不出现，但它是表示序列的结束，它可能出现也可能不出现，但它是

37、许多序列分析程序正确读取序列所必须的。许多序列分析程序正确读取序列所必须的。.gi|2467297|dbj|AB000888.1|Homo sapiens mRNA for phosphatidic acid phosphatase 2a,complete cdsACCGCAGCTCAGTCCATCGCCCTTGCCGGGCAGCCCGGGCAGAGACCATGTTCGACAAGACGCGGCTGCCGTACGTGGCCCTCGATGTGCTCTGCGTGTTGCTGGCTGGATTGCCTTTTGCAATTCTTACTTCAAGGCATACCCCCTTCCAACGAGGAGTATTCTGTA

38、ATGATGAGTCCATCAAGTACCCTTACAAAGAAGACACCATACCTTATGCGTTATTAGGTGGAATAATCATTCCATTCAGTATTATCGTTATTATTCTTGGAGAAACCCTGTCTGTTTACTGTAACCTTTTGCACTCAAATTCCTTTATCAGGAATAACTACATAGCCACTATTTACAAAGCCATTGGAACCTTTTTATTTGGTGCAGCTGCTAGTCAGTCCCTGACTGACATTGCCAAGTATTCAATAGGCAGACTGCGGCCTCACTTCTTGGATGTTTGTGATCCAGATTGGTCAAAAA

39、TCAACTGCAGCGATGGTTACATTGAATACTACATATGTCGAGGGAATGCAGAAAGAGTTAAGGAAGGCAGGTTGTCCTTCTATTCAGGCCACTCTTCGTTTTCCATGTACTGCATGCTGTTTGTGGCACTTTATCTTCAAGCCAGGATGAAGGGAGACTGGGCAAGACTCTTACGCCCCACACTGCAATTTGGTCTTGTTGCCGTATCCATTTATGTGGGCCTTTCTCGAGTTTCTGATTATAAACACCACTGGAGCGATGTGTTGACTGGACTCATTCAGGGAGCTCTGGTTGCAATAT

40、TAGTTGCTGTATATGTATCGGATTTCTTCAAAGAAAGAACTTCTTTTAAAGAAAGAAAAGAGGAGGACTCTCATACAACTCTGCATGAAACACCAACAACTGGGAATCACTATCCGAGCAATCACCAGCCTTGAAAGGCAGCAGGGTGCCCAGGTGAAGCTGGCCTGTT 例例1YCZ2_YEAST protein in EMR 3 regionMKAVVIEDGKAVVKEGVPIPELEEGFVGNPTDWAHIDYKVGPQGSILGCDAAGQIVKLGPAVDPKDFSIGDYIYGFIHGSSVRFPSNGAFAEY

41、SAISTVVAYKSPNELKFLGEDVLPAGPVRSLEGAATIPVSLT*例例2.2、EMBL文件格式.“ID”为序列的标识符行，包括登录号、类型，分子的长度“AC”为登录号行；“XX”为分隔符号行；“DT”为创建和更新日期行“DE”为序列描述行；“KW”为关键字行；“OG”行描述细胞组织；“OS”行描述生物体种属；“OC”行描述生物体分类信息；“RN”描述参考文献的编号；“RP”描述参考文献的页码；“RA”描述参考文献的作者；“RT”描述参考文献的题目；“RL”描述参考文献的出处；“RC”描述参考文献的注解；“RX”、“DR”行描述交叉引用信息；“FH”为特征开始符号；“FT”为

42、特征表行（1）Feature Key，它是描述域生物功能的关键字；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述关于一个特征的辅助信息；文件体由序列本身所组成，由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号，它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示，而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成，文件头实际上对应于一个序列的注释（annotation）.“ID”ID”为序列的标识符行，包括登录号、类型，为序列的标识符行，包括登录号、类型，分子

43、的长度分子的长度“XX”“XX”为分隔符号行；为分隔符号行；“AC”AC”为登录号行；为登录号行；“DT”DT”为创建和更新日期行为创建和更新日期行 “DE”“DE”为序列描述行；为序列描述行；“KW”KW”为关键字行；为关键字行；“OG”OG”行描述细胞组织；行描述细胞组织；“OS”OS”行描述生物体种属；行描述生物体种属；“OC”OC”行描述生物体分类信息；行描述生物体分类信息；.“RN”“RN”描述参考文献的编号描述参考文献的编号；“RP”RP”描述描述参考文献的页码；参考文献的页码；“RA”RA”描述参考文献的作者；描述参考文献的作者；“RT”RT”描述参考文献的题目；描述参考文献的题

44、目；“RL”RL”描述参考文献的出处描述参考文献的出处；“RC”RC”描述参考文献的注解；描述参考文献的注解；“RX”RX”、“DR”DR”行描述交叉引用信息；行描述交叉引用信息；“FH”FH”为特征开始符号；为特征开始符号；“FT”FT”为特征表行为特征表行 Reference:参考文献.3、GenBank格式GenBank用纯文本文件（用纯文本文件（GBFF，GenBank flatfile）由三部分组成：由三部分组成：第一部分（头部），第一部分（头部），包括以下几个内容：包括以下几个内容：LOCUS 基因座位，长度，分子类型，分类码，数据第一次被公开的日期基因座位，长度，分子类型，分类码

45、，数据第一次被公开的日期 DEFINITION 描述描述 ACCESSION 检索号检索号 VERSION 版本号版本号 KEYWORDS 关键词关键词 SOURCE 序列来源的生物名称序列来源的生物名称 REFERENCE 参考文献注释、作者参考文献注释、作者、版本等信息、版本等信息第二部分（第二部分（FEATURES）：）：注释本收录序列的特性注释本收录序列的特性第三部分：第三部分：序列本身序列本身每行每行60个符号，每个符号，每10个以空格隔开个以空格隔开。.GenBank:AB000888.1Homo sapiens mRNA for phosphatidic acid phos

46、phatase 2a,complete c.表表 EMBL和和GenBank数据库文件中主要字段的含义比较数据库文件中主要字段的含义比较EMBLGenBank含义含义IDLOCUS 序列名称序列名称DEDEFINITION序列简单说明序列简单说明ACACCESSION序列编号序列编号SVVERSION 序列版本号序列版本号KWKEYWORDS与序列相关的关键词与序列相关的关键词OSSOURCE 序列来源的物种名序列来源的物种名OC ORGANISM序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置RNREFERENCE相关文献编号，或递交序列的注册信息相关文献编号，或递交序列的注册信

47、息RA AUTHORS相关文献作者，或递交序列的作者相关文献作者，或递交序列的作者RT TITLE相关文献题目相关文献题目RL JOURNAL相关文献刊物杂志名，或递交序列的作者单位相关文献刊物杂志名，或递交序列的作者单位RX MEDLINE相关文献相关文献Medline引文代码引文代码RC REMARK相关文献注释相关文献注释CCCOMMENT关于序列的注释信息关于序列的注释信息DR相关数据库交叉引用号相关数据库交叉引用号FHFEATURES序列特征表起始序列特征表起始FT序列特征表子项序列特征表子项SQBASE COUNT碱基种类统计数碱基种类统计数空格空格ORIGIN 序列序列.4 4、

48、PIRPIR文件格式文件格式.ENTRY ILEC#type completeTITLE lexA repressor Escherichia coliORGANISM#formal_name Escherichia coliDATE 29-Jul-1981#sequence_revision 01-Sep-1981#text_change 14-Nov-1997ACCESSIONS A90808;A93734;S11945;B65212;A03569REFERENCE A90808#authors Horii,T.;Ogawa,T.;Ogawa,H.#journal Cell(1981)23

49、:689-697#title Nucleotide sequence of the lexA gene of Escherichia coli.#cross-references MUID:81186269#contents lexA#accession A90808#molecule_type DNA#RESIDUES 1-202#label HORREFERENCE PIR序列格式（续）序列格式（续）.COMMENTSGENETICS#gene lexA#map_position 92 minCLASSIFICATION#superfamily lexa repressorKEYWORDS

50、 AND binding,repressor,transcription regulatorSUMMARY#length 202#molecular_weight 22358SEQUENCE 5 10 15 20 25 305 10 15 20 25 30 1 M K A L T A R Q Q E V F D L I R D H I S Q T G M P P T R A E 1 M K A L T A R Q Q E V F D L I R D H I S Q T G M P P T R A E PIR序列格式（续）序列格式（续）.XML格式 eXtensible Markup Langu

展开阅读全文