1、1生物信息学Bioinformatics2复习复习:n细胞细胞n蛋白质蛋白质n核酸核酸3Questions:1.蛋白质二级结构有哪些?蛋白质二级结构有哪些?2.真核生物的启动子有什么作用?真核生物的启动子有什么作用?3.TSS,外显子和内含子的概念。外显子和内含子的概念。4.如何判断起始密码子和终止密码子?如何判断起始密码子和终止密码子?内含子?内含子?5.基因表达调节有哪些?基因表达调节有哪些?4请画出示意图请画出示意图:1.1.中心法则中心法则2.2.真核生物基因的一般结构真核生物基因的一般结构5核酸核酸 复制 DNA 转录 逆转录 复制 RNA 蛋白质 翻译 调控6TATA盒盒 翻译起始
2、翻译起始植物植物C/GAANNATGG动物动物A/GNNATGG 各内含子各内含子加加poly(A)信号信号植物植物 G/AATAA1-3动物动物 AATAAA 终止密码子终止密码子 各个外显子各个外显子 AGGA或或 CAAT盒盒 加帽位点加帽位点 5m7GpppNp 5端 真核基因的一般结构真核基因的一般结构 TSS 789提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库10提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库11humanArabidopsisThermotoga maritimaEscher
3、ichia coliBuchnerasp.APSRickettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tub
4、erculosis 12模式生物基因组计划模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约酵母、线虫、果蝇、细菌、拟南芥等共约已完成,已完成,正在进行。目前总量已达正在进行。目前总量已达碱基对!碱基对!virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs(base-pairs)10410810510610710111010109bony fishamphibians14 不具有细胞形态结构,仅由核酸和蛋白质构成;不具有细胞形态结
5、构,仅由核酸和蛋白质构成;如:人艾滋病毒如:人艾滋病毒HIVHIV、SARSSARS冠状病毒冠状病毒 体积小,体积小,1010300300nmnm;严格的专性细胞内寄生;严格的专性细胞内寄生;对抗生素不敏感。对抗生素不敏感。电子显微镜下的电子显微镜下的SARS冠状病毒冠状病毒100nm15Escherichia coli大肠杆菌大肠杆菌是研究得最为详尽的一个模式生物。这种大肠杆菌是研究得最为详尽的一个模式生物。这种只有只有1.61.6微米长的、可以迅速繁殖的单细胞原核生物,微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。已经成为实验室和基因工程的重要工具。Esche
6、richia coli O157:H7Escherichia coli K1216Saccharomyces cerevisiae酿酒酵母真菌界的单细胞真核生物,它的全基因组真菌界的单细胞真核生物,它的全基因组已在已在19961996年测定。年测定。17秀丽线虫秀丽线虫Caenorhabditis elegans一种透明的、生活在海滩泥沙中的小虫。一种透明的、生活在海滩泥沙中的小虫。细胞数目一定:成虫细胞数目只有细胞数目一定:成虫细胞数目只有959959个,其中包括个,其中包括302302个神经元;个神经元;有有6 6条染色体,全基因组于条染色体,全基因组于19981998年测定,长年测定,长
7、9.7Mb9.7Mb18Drosophila melanogaster果蝇果蝇繁殖很快、容易诱发变异的小昆虫。繁殖很快、容易诱发变异的小昆虫。总长达总长达1.81.8亿核苷酸。亿核苷酸。19Arabidopsis thaliana拟南芥拟南芥个体生活周期只有个体生活周期只有6 6周的十字花科周的十字花科小草,是一种理想的模式植物。小草,是一种理想的模式植物。20Oryza sativa水稻单子叶植物模式植物,单子叶植物模式植物,390-430MB390-430MB21 1个受精卵在个受精卵在24小时内分裂到各种器官初具雏形的程度;小时内分裂到各种器官初具雏形的程度;22 身体透明的小鱼,生活周
8、期约身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育个月,是研究脊椎动物发育过程的良好对象。过程的良好对象。23 基因组大小与人类相近,约基因组大小与人类相近,约30亿个核苷酸对;亿个核苷酸对;242526提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库27主要的数据库资源主要的数据库资源核酸序列数据库核酸序列数据库主要有主要有GenBank,EMBL,DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT,PIR,TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB,MMDB等,等,与基因组有关的数据库还有与基因组有
9、关的数据库还有dbEST,OMIM等,等,283 3大核酸数据库大核酸数据库基因组数据库的相关背景。基因组数据库的相关背景。主要的基因组数据库资源。主要的基因组数据库资源。重点介绍重点介绍GenBankGenBank29ATTGACTAPrimary vs.Derivative DatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGen
10、BankTATAGCCGTATAGCCGTATAGCCGTATAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA30DNADNA序列数据库最早于序列数据库最早于19821982年在欧洲分子生物学实年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一
11、项美国国家健康研究中心与洛斯阿拉此后不久因一项美国国家健康研究中心与洛斯阿拉莫斯国家实验室的合同而诞生了莫斯国家实验室的合同而诞生了GenBankGenBank。日本的日本的DNADNA数据库(数据库(DDBJDDBJ),在几年后加入了数据),在几年后加入了数据收集的合作。收集的合作。基因组数据库的发展历史基因组数据库的发展历史31基因组数据库的发展历史基因组数据库的发展历史19881988年一次三方会议之后(现在称之为年一次三方会议之后(现在称之为“国际国际DNADNA序列数据库合作计划序列数据库合作计划”)达成协议,对数据库的记)达成协议,对数据库的记录采用共同的格式录采用共同的格式现在三
12、个中心都收集直接提交的数据,并在三者之现在三个中心都收集直接提交的数据,并在三者之间发布。间发布。32三大基因数据库三大基因数据库GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心信息中心(NCBI)建立和维护的。建立和维护的。NCBI的网址是:的网址是:http:/www.ncbi.nlm.nih.gov。EMBL核酸序列数据库核酸序列数据库由欧洲生物信息学研究所由欧洲生物信息学研究所(EBI)维护的核酸序列
13、数据构成,查维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。服务完成。数据库网址是:数据库网址是:http:/www.ebi.ac.uk/embl/。DDBJ数据库数据库日本日本DNA数据仓库数据仓库(DDBJ)也是一个全面的核酸序列数据库,也是一个全面的核酸序列数据库,与与Genbank和和EMBL核酸库合作交换数据。使用其主页上提供核酸库合作交换数据。使用其主页上提供的的SRS工具进行数据检索和序列分析。工具进行数据检索和序列分析。DDBJ的网址是:的网址是:http:/www.ddbj.nig.ac.jp/。3
14、3GenBankPublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据库之间的关系三大基因数据库之间的关系34http:/www.ncbi.nlm.nih.gov/http:/www.ddbj.nig.ac.jp/searches-e.htmlhttp:/www.ebi.ac.uk/embl/35美国的核酸数据库美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从从1979年开始建设,年开始建设,1982年正式运
15、行;年正式运行;3637 欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据数据库也于库也于1982年开始服务年开始服务3839日本于日本于1984年开始建立国家级的核酸年开始建立国家级的核酸数据库数据库DDBJ,并于,并于1987年正式服务。年正式服务。4041http:/www.ncbi.nlm.nih.gov/http:/www.ddbj.nig.ac.jp/searches-e.htmlhttp:/www.ebi.ac.uk/embl/424344454647提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库4849主要的数据库资源主要的数
16、据库资源核酸序列数据库核酸序列数据库主要有主要有GenBank,EMBL,DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT,PIR,TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB,MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST,OMIM等,等,5051 除了除了PIRPIR外,另一个重要的蛋白质序列数据库则是外,另一个重要的蛋白质序列数据库则是SwissProtSwissProt。该数据库由瑞士日内瓦大学于该数据库由瑞士日内瓦大学于19861986年创建,目前由年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究所瑞士生物
17、信息学研究所和欧洲生物信息学研究所 EBIEBI共共同维护和管理。同维护和管理。52 PIRPIR和和SwissProtSwissProt是创建最早、使用最为广泛的两是创建最早、使用最为广泛的两个蛋白质数据库个蛋白质数据库。蛋白质序列数据库蛋白质序列数据库TrEMBLTrEMBL是从是从EMBLEMBL中的中的cDNAcDNA序列翻序列翻译得到的。该数据库采用译得到的。该数据库采用SwissProtSwissProt数据库格式,包含数据库格式,包含EMBLEMBL数据库中所有编码序列的翻译。数据库中所有编码序列的翻译。535455 1.1.由美国由美国NCBINCBI翻译自翻译自GenBank
18、GenBank的的DNADNA序列序列(1984(1984年年);2.2.在在EMBLEMBL和和GenBankGenBank数据库上均建立了镜像站点;数据库上均建立了镜像站点;3.3.数据依据注释的质量分为数据依据注释的质量分为4 4类。类。网址:网址:分类名称分类名称(Name)说明说明(Comment)记录数记录数(Number of entries)PIR1已分类、已注释已分类、已注释(Classified and annotated)13572PIR2已注释已注释(Annotated)69368PIR3未核实未核实(Unverified)7508PIR4未翻译未翻译(Unencode
19、d or untranslated)196565758主要的数据库资源主要的数据库资源核酸序列数据库核酸序列数据库主要有主要有GenBank,EMBL,DDBJ等等.蛋白质序列数据库蛋白质序列数据库主要有主要有SWISS-PROT,PIR,TrEMBL等,等,蛋白结构数据库蛋白结构数据库有有PDB,MMDB等,等,与基因组有关的数据库还有与基因组有关的数据库还有dbEST,OMIM等,等,59 1.1.目前最主要的蛋白质分子结构数据库;目前最主要的蛋白质分子结构数据库;2.19702.1970年代建立,美国年代建立,美国BrookhavenBrookhaven国家实验室维护管国家实验室维护管理
20、理;3.1988 3.1988年,由美国年,由美国RCSB(research collaboratoryRCSB(research collaboratory for structural biology)for structural biology)管理;管理;4.4.以文本格式存放数据,包括原子坐标、物种来源、以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;测定方法、提交者信息、一级结构、二级结构等;PDBPDB的网址:的网址:http:/www.rcsb.org/pdbhttp:/www.rcsb.org/pdb(美国美国)606162如何如何 A
21、ccess PDBAccess PDB记录记录?63如何如何 Access PDBAccess PDB记录记录?64如何如何 Access PDBAccess PDB记录记录?65如何如何 Access PDBAccess PDB记录记录?DownloadPDB fileViewPDB fileStructure viewoptions66如何如何 Access PDBAccess PDB记录记录?67如何如何 Access PDBAccess PDB记录记录?68提纲提纲:n模式生物测序模式生物测序n3大核酸数据库大核酸数据库n蛋白质数据库蛋白质数据库69Questions:Questions:下列数据库分别是什么类型的数据库下列数据库分别是什么类型的数据库?GenBank,PIR,DDBJ,SWISS-PROT,GenBank,PIR,DDBJ,SWISS-PROT,PDB,EMBL,TrEMBLPDB,EMBL,TrEMBL,