1、12提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库3提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库4humanArabidopsisThermotoga maritimaEscherichia coliBuchnerasp.APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter
2、pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 5模式生物基因组计划模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约酵母、线虫、果蝇、细菌、拟南芥等共约已完成,已完成,正在进行。目前总量已达正在进行。目前总量已达碱基对碱基对!6virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptile
3、sbirdsmammalsmammalsGenome sizes in nucleotide pairs(base-pairs)Genome sizes in nucleotide pairs(base-pairs)10410810510610710111010109bony fishamphibians7 不具有细胞形态结构,仅由核酸和蛋白质构成;不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒如:人艾滋病毒HIVHIV、SARSSARS冠状病毒冠状病毒 体积小,体积小,1010300300nmnm;严格的专性细胞内寄生;严格的专性细胞内寄生;对抗生素不敏感。对抗生素不敏感。电电子子
4、显显微微镜镜下的下的SARS冠冠状状病毒病毒100nm8Escherichia coli大肠杆菌大肠杆菌是研究得最为详尽的一个模式生物。这种大肠杆菌是研究得最为详尽的一个模式生物。这种只有只有1.61.6微米长的、可以迅速繁殖的单细胞原核生物,微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。已经成为实验室和基因工程的重要工具。Escherichia coli O157:H7Escherichia coli K129Saccharomyces cerevisiae酿酒酵母真菌界的单细胞真核生物,它的全基因组真菌界的单细胞真核生物,它的全基因组已在已在19961996年
5、测定。年测定。10秀丽线虫秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。一种透明的、生活在海滩泥沙中的小虫。细胞数目一定:成虫细胞数目只有细胞数目一定:成虫细胞数目只有959959个,其中包括个,其中包括302302个神经元;个神经元;有有6 6条染色体,全基因组于条染色体,全基因组于19981998年测定,长年测定,长9.7Mb9.7Mb11Drosophila melanogaster果蝇果蝇繁殖很快、容易诱发变异的小昆虫。繁殖很快、容易诱发变异的小昆虫。总长达总长达1.81.8亿核苷酸。亿核苷酸。12Arabidopsis thaliana拟南芥
6、个体生活周期只有个体生活周期只有6 6周的十字花科周的十字花科小草,是一种理想的模式植物。小草,是一种理想的模式植物。13Oryza sativa水稻单子叶植物模式植物,单子叶植物模式植物,390-430MB390-430MB14 1个受精卵在个受精卵在24小时内分裂到各种器官初具雏形的程度;小时内分裂到各种器官初具雏形的程度;15 身体透明的小鱼,生活周期约身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育个月,是研究脊椎动物发育过程的良好对象。过程的良好对象。16 基因组大小与人类相近,约基因组大小与人类相近,约30亿个核苷酸对;亿个核苷酸对;171819提纲提纲:n模式生物测序模式生物
7、测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库20主要的数据库资源主要的数据库资源 核酸序列数据库核酸序列数据库主要有主要有GenBank,EMBL,DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT,PIR,TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB,MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST,OMIM等,等,213 3大核酸数据库大核酸数据库基因组数据库的相关背景基因组数据库的相关背景 主要的基因组数据库资源主要的基因组数据库资源 重点介绍重点介绍GenBankGenBank22ATTGACTAATTG
8、ACTAPrimary vs.Derivative DatabasesACGTGCACGTGCTTGACATTGACACGTGACGTGAATTGACTAATTGACTATATAGCCGTATAGCCGACGTGCACGTGCACGTGCACGTGCACGTGCACGTGCTTGACATTGACATTGACATTGACATTGACATTGACACGTGACGTGACGTGACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGT
9、ATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGTATAGCCGATATGAGAC CATTATTGAGAGAGAATTATTATTATTC CC CGAGAGAGAATTATTC CC CGAGAGAGAATTATTATTATTC CC CGAGAGAGAATTATTC CC CSequencingCentersGAGAGAGAATTATTC CC CGAGAGAGAATTATTC CC CUniGeneRefSeqGenomeAssemblyLabsC
10、uratorsAlgorithmsTATAGCCGTATAGCCGAGCTCCGATAAGCTCCGATACCGATGACAACCGATGACAA23 DNADNA序列数据库最早于序列数据库最早于19821982年在欧洲分子生物学实年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一项美国国家健康研究中心与洛斯阿此后不久因一项美国国家健康研究中心与洛斯阿拉莫斯国家实验室的合同而诞生了拉莫斯国家实验室的合同而诞生了GenBankGenBank。日本的日本的DNADNA数据库(数据库(DDBJDDBJ),在几年后加入了数据),在几年
11、后加入了数据收集的合作。收集的合作。基因组数据库的发展历史基因组数据库的发展历史24基因组数据库的发展历史基因组数据库的发展历史 19881988年一次三方会议之后(现在称之为年一次三方会议之后(现在称之为“国际国际DNADNA序列数据库合作计划序列数据库合作计划”)达成协议,对数据库的)达成协议,对数据库的记录采用共同的格式记录采用共同的格式 现在三个中心都收集直接提交的数据,并在三者现在三个中心都收集直接提交的数据,并在三者之间发布。之间发布。25三大基因数据库三大基因数据库GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与库包含了所有已知的核酸序列和蛋白质序列,以
12、及与它们相关的文献著作和生物学注释。它是由美国国立生物技术它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心信息中心(The National Center for Biotechnology Information,NCBI)建立和维护的。建立和维护的。NCBI的网址是:的网址是:http:/www.ncbi.nlm.nih.gov。EMBL(The European Molecular Biology Laboratory)核酸序核酸序列数据库列数据库由欧洲生物信息学研究所由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询维护的核酸序列数据构成,查询检索可以通过通过因
13、特网上的序列提取系统检索可以通过通过因特网上的序列提取系统(SRS)服务完成。服务完成。数据库网址是:数据库网址是:http:/www.ebi.ac.uk/embl/。DDBJ(DNA Data Bank of Japan)数据库数据库日本日本DNA数据仓库数据仓库(DDBJ)也是一个全面的核酸序列数据库,与也是一个全面的核酸序列数据库,与Genbank和和EMBL核酸库合作交换数据。使用其主页上提供的核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。工具进行数据检索和序列分析。DDBJ的网址是:的网址是:http:/www.ddbj.nig.ac.jp/。26GenBa
14、nkPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据库之间的关系三大基因数据库之间的关系27http:/www.ncbi.nlm.nih.gov/http:/www.ddbj.nig.ac.jp/searches-e.htmlhttp:/www.ebi.ac.uk/embl/28美国的核酸数据库美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从从1979年开始建设,年开始建设,1982年正式运行。年正式运
15、行。2930 欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据数据库也于库也于1982年开始服务。年开始服务。3132日本于日本于1984年开始建立国家级的核酸年开始建立国家级的核酸数据库数据库DDBJ,并于,并于1987年正式服务。年正式服务。33343536373839提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库4041主要的数据库资源主要的数据库资源 核酸序列数据库核酸序列数据库主要有主要有GenBank,EMBL,DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT,PIR,TrEMBL等,等,蛋白结构数据
16、库蛋白结构数据库有有PDB,MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST,OMIM等,等,4243 1.1.由美国由美国NCBINCBI翻译自翻译自GenBankGenBank的的DNADNA序列序列(1984(1984年年);2.2.在在EMBLEMBL和和GenBankGenBank数据库上均建立了镜像站点;数据库上均建立了镜像站点;3.3.数据依据注释的质量分为数据依据注释的质量分为4 4类。类。网址:网址:分类名称分类名称(Name)说明说明(Comment)记录数记录数(Number of entries)PIR1已分类、已注释已分类、已注释(Class
17、ified and annotated)13572PIR2已注释已注释(Annotated)69368PIR3未核实未核实(Unverified)7508PIR4未翻译未翻译(Unencoded or untranslated)1964445 除了除了PIRPIR外,另一个重要的蛋白质序列数据库则是外,另一个重要的蛋白质序列数据库则是SwSwissProtissProt。该数据库由瑞士日内瓦大学于该数据库由瑞士日内瓦大学于19861986年创建,目前由年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究所瑞士生物信息学研究所和欧洲生物信息学研究所 EBIEBI共共同维护和管理。同维护和管理。
18、464748 PIRPIR和和SwissProtSwissProt是创建最早、使用最为广泛的两是创建最早、使用最为广泛的两个蛋白质数据库个蛋白质数据库。蛋白质序列数据库蛋白质序列数据库TrEMBLTrEMBL是从是从EMBLEMBL中的中的cDNAcDNA序列翻序列翻译得到的。该数据库采用译得到的。该数据库采用SwissProtSwissProt数据库格式,包含数据库格式,包含EMEMBLBL数据库中所有编码序列的翻译。数据库中所有编码序列的翻译。TrEMBL:TrEMBL:http:/www.uniprot.org/news/2004/03/02/fullhttp:/www.uniprot.
19、org/news/2004/03/02/full4950主要的数据库资源主要的数据库资源 核酸序列数据库核酸序列数据库主要有主要有GenBank,EMBL,DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT,PIR,TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB,MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST,OMIM等,等,51 1.1.目前最主要的蛋白质分子结构数据库;目前最主要的蛋白质分子结构数据库;2.19702.1970年代建立,美国年代建立,美国BrookhavenBrookhaven国家实验室维护管国家实验室维护
20、管理理;3.1988 3.1988年,由美国年,由美国RCSB(research collaboratory foRCSB(research collaboratory for structural biology)r structural biology)管理;管理;4.4.以文本格式存放数据,包括原子坐标、物种来源、以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;测定方法、提交者信息、一级结构、二级结构等;PDBPDB的网址:的网址:http:/www.rcsb.org/pdbhttp:/www.rcsb.org/pdb(美国美国)525354如何如
21、何 Access PDBAccess PDB记录记录?55如何如何 Access PDBAccess PDB记录记录?56如何如何 Access PDBAccess PDB记录记录?57如何如何 Access PDBAccess PDB记录记录?DownloadPDB fileViewPDB fileStructure viewoptions58如何如何 Access PDBAccess PDB记录记录?59如何如何 Access PDBAccess PDB记录记录?60Questions:Questions:下列数据库分别是什么类型的数据库下列数据库分别是什么类型的数据库?GenBank,P
22、IR,DDBJ,SWISS-PROT,PD GenBank,PIR,DDBJ,SWISS-PROT,PDB,EMBL,TrEMBL,B,EMBL,TrEMBL,6162636465PubMed的特点的特点 收录的文献多收录的文献多!大部分与生命科学相关大部分与生命科学相关 自动词语匹配自动词语匹配 链接点多,部分在网上免费获得全文链接点多,部分在网上免费获得全文 也可以直接定购原文也可以直接定购原文66二、二、检索规则检索规则67二、二、检索规则检索规则68697071复杂检复杂检索索1.1.限制字段限制字段类别类别 常用的有常用的有:Author:Bao YMau:Author:Bao YM
23、au Title:stressti Title:stressti Tilte/Abstract Tilte/Abstract:stresstitle/abstractstresstitle/abstract Date:1999:2009dp Date:1999:2009dp72复杂检复杂检索索2.布尔布尔逻辑运逻辑运算:算:AND、OR、NOT必必须须大大写写。逻辑逻辑符的符的运运算次序是算次序是从从左至右左至右,括,括号内号内的的检检索式可作索式可作为为一一个个单单元,元,优优先先运运行。行。布尔布尔逻辑检逻辑检索允索允许许在在检检索索词词后面附加后面附加字段字段标识标识例如:例如:rice
24、ti AND Bao YMau AND 2008:2009dp7374Question1:Question1:如何如何查查找由找由Zhu JZhu J实验实验室于室于20052005以后以后发发表的表的,题题目中目中显显示示关关于水稻的文于水稻的文献献?75Question 2:Question 2:如:我要如:我要查查找找BaoYMBaoYM在在NatureNature或或ScienceScience上上发发表的表的论论文文1 Bao YMau AND(NatureJournal OR ScienceJournal)1 Bao YMau AND(NatureJournal OR Scienc
25、eJournal)2 Bao YMau AND Nature OR ScienceJournal2 Bao YMau AND Nature OR ScienceJournal 3 Bao YMau AND NatureJournal OR ScienceJournal3 Bao YMau AND NatureJournal OR ScienceJournal4 Bao YMau AND(Nature OR Science)Journal4 Bao YMau AND(Nature OR Science)Journal哪哪一一个检个检索索语语言是正确的言是正确的?76在在PubMed页面上选择页面
26、上选择Advanced Search:77在在PubMed页面上选择页面上选择Advanced Search:78在在PubMed页面上选择页面上选择Limits:79在在PubMed页面上选择页面上选择Limits:80如何获取如何获取GenBank中的序列中的序列?81同样存在限制字段同样存在限制字段:常用的有常用的有:Author:Xing JYau title:BMAL1ti organism:pigorganism或者直接输入或者直接输入:Accession:HQ657211Accession Gene Name:BMAL1Gene Name Protein Name:BMAL1BM
27、AL1 Protein Name如如:Xing JYau AND BMAL1ti AND pigorganism如果没有限定,就是任意字段。如果没有限定,就是任意字段。如何获取如何获取GenBank中的序列中的序列?8283Question:Question:查找查找Xing JY发布的发布的DNA序列序列.8485868788查找蛋白质序列查找蛋白质序列:89查找查找EST序列序列:90查查找找Structure:91查找Structure:92939495查找Unigene96UniGene is an experimental system for automatically parti
28、tioning GenBank sequences into a non-redundant set of gene-oriented clusters.Each UniGene cluster contains sequences that represent a unique gene,as well as related information such as the tissue types in which the gene has been expressed and map location.UniGene 是非冗余的某个基因的集合是非冗余的某个基因的集合,包含了该基因所有的包含了该基因所有的经过实验证明的转录本及其表达信息经过实验证明的转录本及其表达信息.979899100101102Questions:Questions:1.1.什么是什么是UniGene?UniGene?2.2.根据目前的内容根据目前的内容,GenBank,GenBank的作用的作用?可编辑感感谢谢下下载载可编辑感感谢谢下下载载