1、1第十二章 基因组学、蛋白质组学和生物信息学一、基因组学二、蛋白质组学三、生物信息学2基因组学研究并解析生物体整个基因组的所有基因组学研究并解析生物体整个基因组的所有遗传信息。遗传信息。基因组(基因组(genome)是细胞或生物体的一套完)是细胞或生物体的一套完整的单倍体遗传物质,是所有不同染色体上全整的单倍体遗传物质,是所有不同染色体上全部基因和基因间的部基因和基因间的DNA的总和。分为的总和。分为 核基因核基因组、核外基因组组、核外基因组基因组学研究方法:基因组学研究方法:SAGE、DNA chips等等3人人 类类 基基 因因 组计划组计划41.1940年代第一颗原子弹爆炸;2.1960
2、年代人类首次登上月球;3.1990年代提出并基本完成的人类基因组计划(Human Genome Project,HGP)DNA 双螺旋结构的发现者之一、美国国家卫生研究院(NIH)人类基因组研究所第一任所长J.D.Watson 1990年在Science上撰文指出,与人类登月计划相比,HGP的资金投入少,但它对人类生活的影响却可能更深远。1990年,美国发起,耗资30亿美元,历时15年,1999年,中国参与3号染色体上一小片段,占1。20世纪人类科技发展史上的三大创举世纪人类科技发展史上的三大创举 67人类基因组计划的目标:(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置,
3、研究基因的产物及其功能。(2)了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。(4)研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达调控规律。8(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进
4、化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。(7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类有效地利用病毒载体进行基因治疗。(8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因
5、诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。9 人类基因组研究内容包括遗传图(Genetic Map)绘制、物理图(Physical Map)构建、人类基因组的人类基因组的序列图序列图测序、转录图(Expression Profiling)绘制和基因鉴定等方面的工作。通过多年来的发展,基因组学(genomics)作为一门专门学科,已应运而生。它涵盖以下几个方面:结构基因组学,着重遗传图、物理图、测序等研究;功能基因组学,在基因组水平上阐明DNA序列的功能;比较基因组
6、学,包括对不同进化阶段生物基因组的比较研究,也包括不同人种、族群和群体基因组的比较研究。此外,工业基因组学、环境基因组学、药物基因组学、疾病基因组学等分支学科也在不断发展。10 基因组的序列主要可被分为三类:(一)通过比较确知其生理功能的;(二)在数据库中有相匹配的蛋白质序列,但并不知道其功能的;(三)在现有数据库中找不到任何相匹配的蛋白质序列的新基因。由于生物在进化上是相互关联的,对一种生物的研究可以为其它生物提供有价值的信息。比较基因组学的威力就在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性,寻找研究复杂生理和病理过
7、程所需的实验模型提供了理论依据,而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。因此,为充分理解人类基因组,必须对一系列近缘和远缘的模式生物进行基因组程度上的比较分析工作。11功能基因组学研究功能基因组学研究 研究方法:1、定点破坏结构基因(gene knock-out)2、基因组内定位表达目的基因(gene knock-in)的方法来研究新基因的3、获得全长cDNA的技术(RACE)4、功能克隆法:分离纯化蛋白,测序后设计探针从文库中筛选基因5、定位克隆法:先利用连锁分析定位基因,再根据物理图谱找出相关的BAC克隆,进一步查看此克隆序列,计算机分析,定位合适的候选基因6、酵母双杂
8、交1213遗传图也称连锁图,是指基因或DNA标志在染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示。遗传图的绘制是人类基因组研究的第一步,即以染色体上某一点为遗传标记,以与之相伴遗传的特征为对象,经连锁分析,将编码该特征的基因定位于染色体特定位置。cM值越大,两者之间距离越远。通过遗传图分析,我们可以大致了解各个基因或DNA片段之间的相对距离与方向,了解哪个基因更靠近着丝粒,哪个更靠近端粒等。遗传距离是通过遗传连锁分析获得的,研究中所使用的DNA标志越多,越密集,所得到的遗传连锁图的分辨率就越高。经典的遗传标记是可被电泳或免疫技术检出的蛋白
9、质标记,如红细胞ABO血型位点标记,白细胞HLA位点标记等。例如,在ABO血型基因中,位于9号染色体长臂3区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相伴遗传时,科学家就认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距较近,连锁图上的距离为10厘摩(重组率1即为1厘摩)。遗传图的绘制遗传图的绘制14 如果
10、只用已知定位的少数几个基因作遗传标记,由于遗传标记的数目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。n第一代DNA遗传标记是RFLP(Restriction Fragment Length Polymorphism,限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组,特别是进化中选择压力不是很大的非编码序列之中,RFLP的出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当,生物体内出现共显性RFLP及RAPD分子标记的频率较高。15n第二代DN
11、A遗传标记利用了存在于人类基因组中的大量重复序列,包括重复单位长度在5-20个核苷酸左右的小卫星DNA(minisatellite DNA),重复单位长度在2-6个核苷酸之间的微卫星DNA(microsatellite DNA),后者又称为简短串联重复(STR、SSR)。STR有两个最突出的优点,即作为遗传标记的“多态性”与“高频率”。STR的存在,为遗传图的绘制提供了大量可用的遗传标记。采用聚合酶链反应(PCR)技术,以STR两侧的基因作定点标记的完整连锁图,已于1996年绘成,相邻标记间的平均距离仅0.7厘摩。n第三代DNA遗传标记,可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异
12、。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换,即单核苷酸的多态性(SNP,single nucleotide polymorphism)。16 “遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点(该位点至少包括“正常”及“致病”两个等位基因)与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近;如果发现该基因与某个标记有一定程度的“连锁”(重组
13、率小于50%但大于0),表明它可能位于这个标记附近;如果该基因与某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。17 遗传图所表现的,是通过连锁分析确定的各基因间的相对位置相对位置;物理图则表现染色体上每个DNA片段的实际顺序实际顺序。物理图是指以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。现在的测序技术还不能对整个DNA分子进行序列测定,因此须先将它切成一个个大小不同的片段,然后将这些片段连起来,构成连续的序列。物理图的主要内容是建立
14、相互重叠连接的“相连DNA片段群(contigs)物理图物理图(Physical Map)18 这些大片段在进行DNA分子克隆时,也不能通过细菌质粒或噬菌体的运载而在大肠杆菌中进行克隆,因为它们太大,而必须用一种特殊的载体-酵母人工染色体(YAC,容量8002000kb),将片段导入酵母,在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标(STS)来识别的。STS是基因组中一段200500bp的单拷贝序列,在染色体上有一定的位置,所以用STS作位标可将不同YAC克隆排列成邻接克隆群(contig)。其他载体还有BAC(细菌人工染色体,容量100300kb)、P1(噬菌体人工染色体)、粘粒
15、(cosmid,容量45kb)、MAC等。现在,人类基因组24条染色体的YAC、BAC、P1邻接克隆群均已建立,精度约100碱基对的物理图也基本绘成,并已开始进行大规模测序。1920人类基因组的序列图人类基因组的序列图(Human Genome SequenceHuman Genome Sequence)基因组测序策略基因组测序策略1、鸟枪法:、鸟枪法:将基因组随机打断,构建一系列随机亚克隆,然后每个将基因组随机打断,构建一系列随机亚克隆,然后每个克隆测序,最后根据序列的重叠区域组装成完整的基因组序列。克隆测序,最后根据序列的重叠区域组装成完整的基因组序列。优点:快、简单、成本低优点:快、简单
16、、成本低 缺点:由于大量存在的重复序列,致使组装困难缺点:由于大量存在的重复序列,致使组装困难2、定位克隆法:、定位克隆法:首先构建物理图谱,再测序、组装首先构建物理图谱,再测序、组装 优点:组装简单优点:组装简单 缺点:物理图谱制作费时缺点:物理图谱制作费时 21生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由mRNA(信使核糖核酸)编码的,而mRNA又由DNA转录而来。人类基因组中仅15的DNA是编码序列(基因);成人各种组织中又只有约1的基因表达为蛋白质。所以,建立转录图,或从mRNA逆转录而来的cDNA图,是分离、定位和克隆基因的关键。这里,表达序列位标(EST)具有重要意义。E
17、ST是长约100300碱基对的cDNA片段,是表达基因的一部分。EST由于序列较短,很难定位,只有筛到较长的基因片段(超过1000碱基对),才能用荧光原位杂交(FISH)法在染色体上定位。EST可用工业化的程序生产,只要分离到某一发育阶段某一组织的mRNA,就可用逆转录法,从mRNA合成相应的cDNA片段,即EST。用它作探针,就可从基因组文库中筛到全长的基因序列。截止到1998年2月,已发现约92万条EST,转录图的制作有了良好的开端,但这已属后基因组计划的工作。转录图转录图(Expression Profiling)22蛋白质组学及其研究进展23蛋白质组学的含义 蛋白质组蛋白质组(Prot
18、eome)(Proteome)一词最早由澳大利亚学者一词最早由澳大利亚学者 等于等于19941994年提出年提出,指的是由一个基因组指的是由一个基因组geneomegeneome或一个细胞、组织表达的所有蛋白质或一个细胞、组织表达的所有蛋白质功能蛋白质组学的提出及概念功能蛋白质组学的提出及概念 功能蛋白质组学是指研究在特定时间、特定环境和功能蛋白质组学是指研究在特定时间、特定环境和实验条件下细胞内表达的全部蛋白质。实验条件下细胞内表达的全部蛋白质。24 蛋白质组学研究的内容蛋白质组学研究的内容蛋白质表达模式蛋白质表达模式(或蛋白质组组成或蛋白质组组成)的研究的研究 蛋白质组组成的分析鉴定是蛋白
19、质组学中的与基因组学蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学相对应的主要内容。它要求对蛋白质组进行表征相对应的主要内容。它要求对蛋白质组进行表征,即实现所即实现所有蛋白质的分离、鉴定及其图谱化。有蛋白质的分离、鉴定及其图谱化。双向凝胶电泳双向凝胶电泳(2-(2-D)和质谱和质谱(Mass spectrometry)技术是技术是当前分离鉴定蛋白质的两大支柱技术当前分离鉴定蛋白质的两大支柱技术 蛋白质组功能模式(目前主要集中在蛋白质相互作用网络关系)的研究25 蛋白质组学研究的手段蛋白质组学研究的手段蛋白质组研究的核心蛋白质组研究的核心用于分离的双向电泳用于分离的双向电泳(2-DE)蛋白质
20、组研究的百科全书蛋白质组研究的百科全书数据库数据库(database)蛋白质组技术的支柱蛋白质组技术的支柱质谱鉴定技术质谱鉴定技术(Identication)蛋白质组技术的规模蛋白质组技术的规模高流通量筛选高流通量筛选(HTS)26蛋白质组研究的基本技术路线蛋白质组研究的基本技术路线蛋白质样品的制备蛋白质样品的制备双向电泳双向电泳图像分析图像分析转印至膜上的蛋白转印至膜上的蛋白凝胶中的蛋白凝胶中的蛋白溶液中的蛋白溶液中的蛋白混合肽混合肽蛋白质质量蛋白质质量N端测序端测序肽序列质谱数据肽序列质谱数据肽指纹图肽指纹图数据搜索数据搜索新的或已知蛋白新的或已知蛋白蛋白转录后修饰的鉴定蛋白转录后修饰的鉴
21、定27原核及简单真核生物的蛋白质组研究原核及简单真核生物的蛋白质组研究 流感嗜血杆菌的蛋白质组研究流感嗜血杆菌的蛋白质组研究 大肠杆菌的蛋白质组研究大肠杆菌的蛋白质组研究 致病微生物的蛋白质组研究致病微生物的蛋白质组研究 酿酒酵母的蛋白质组研究酿酒酵母的蛋白质组研究 多细胞真核生物的蛋白质组研究多细胞真核生物的蛋白质组研究 线虫的蛋白质组研究线虫的蛋白质组研究 果蝇的蛋白质组研究果蝇的蛋白质组研究 人类的蛋白质组研究人类的蛋白质组研究 植物的蛋白质组研究植物的蛋白质组研究28生 物 信 息 学Bioinformatics 一、生物信息学的概述二、生物信息学研究内容三、生物信息学数据库四、生物信
22、息学数据库工具与分析软件参考书:黄韧薛成等生物信息学网络资源与利用中山大学出版社赵国屏等生物信息学科学出版社29301、概述 生物信息学(Bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示这些数据所蕴含的生物学意义的目的。两个推动力:HGP、生物医药工业31生物信息学的发展历程 生物信息学自诞生以来,经历了三个阶段:基因组前期的生物信息学:主要是序列分析、数据库的查询、计算机操作和PC的应用;基因组年代的生物信息学:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interf
23、ace);后基因组年代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。32国外发展现状 欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Informatics,NCBI)、欧洲生物信息学研究所(European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NC
24、BI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。33国内的一些科研单位 清华大学在基因调控及基因功能分析、蛋白质二级结构预测方面、天津大学物理系和中科院理论物理所在相关算法方面、中科院生物物理所在基因组大规模测序数据的组装和标识方面、北京大学化学学院物理化学研究所在蛋白质分子设计方面、华大基因组研究中心(中科院遗传所人类基因组研究中心)在大规模测序数据处理自动化流程体系及数据库系统建立方面均已展开相关研究。北京大学已建立了EMBL中国镜像数
25、据库,将该数据库移植到中国本地,并提供部分的检索服务http:/www.I 生物信息的收集、存储和管理 基因组序列信息的提取和分析 序列的注释和比对:两个序列的比对:BLAST和FASTA;多序列比对:ClustW 序列的拼接 基因区域的预测:外元、启动子、拼接位点 基因的电子克隆;拼接EST序列 非编码区分析和DNA语言的研究 分子进化和比较基因组学 功能基因组的相关信息分析 生物大分子结构模拟和药物设计 生物信息分析的技术和方法36 一级序列数据库:来自序列测定 核酸:Genbank、EMBL、DDBJ 蛋白质:SWWISPROT、PIR 生物大分子三维空间结构数据库:X晶体衍射和核磁共振
26、、PDB、MMDB 基因组数据库:来自基因组作图 二级数据库:对一级数据库分析、整理、归纳、注释、构建具有特殊生物学意义和专门用途的数据库三、生物信息学数据库37二级数据库核酸:免疫遗传学数据库IMGT、转录因子数据库TransFac、真核启动子数据库EPD、单核苷酸多态性数据库dbSNP、克隆载体数据库Vector、密码子使用数据库CUTG、人鼠特有基因集UniGene蛋白质:蛋白质功能位点数据库Prosite、蛋白质功能位点序列片段数据库Prints、同源蛋白家族数据库Pfam和同源蛋白结构域数据库Blocks、免疫球蛋白数据库Kabat、酶类数据库ENZYME、蛋白激酶数据库PKinas
27、e、相互作用蛋白质数据库DIP、可别剪接数据库ASDB等38核酸一级序列数据库 Genbank:美国国家健康研究院(National Institurte of Health,简称NIH)也于80年代初委托洛斯阿拉莫斯(Los Alamos)国家实验室建立GenBank,后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆(National Liabraty of Medicine,简称NLM)。(http:/ncbi.nih.gov)。EMBL:由欧洲分子生物学实验室(European Molecular Biology Laboratory)于1982年创建的,其名称也由
28、此而来,目前由欧洲生物信息学研究所负责管理(EBI)(http:/www.ebi.ac.uk/embl/)。DDBJ:是DNA Data Base of Japan的简称,创建于1986年,由日本国家遗传学研究所负责管理(http:/www.ddbj.nig.ac.jp/)。1988年,EMBL、GenBank 与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。3940HUM PRI Primate 人类、灵长类M
29、AM MAM Other mammalian 其它哺乳动物ROD ROD Rodent 啮齿类动物VRT VRT Other vertebrate 其它脊椎动物INV INV Invertebrate 无脊椎动物PLN PLN Plant,fungi,algi 植物、真菌、藻类 FUN PLN Fungal 真菌、藻类PRO BCT Prokaryotes,bacterial 细菌、原核生物VRL VRL Viral 病毒PHG PHG Bacteriophage 噬菌体ORG Organelles 细胞器SYN SYN Synthetic 合成产物UNC UNA Unclassified/U
30、nannotated 未分类/未注释EST EST Expressed Sequence Tags 表达序列标记PAT PAT Patent 专利序列STS STS Sequence Tagged Sites 序列标记位点GSS GSS Genome Survey Sequences 基因组测序序列HTG HTG High Throughput Genomic Sequences 高通量基因组序列*EMBL将真菌单独分类,而GenBank将真菌和藻类归在植物中。41424344蛋白质序列数据库蛋白质数据库种类和特点蛋白质数据库种类和特点名称名称 维护维护 单位单位 注释注释 冗余度冗余度 数据
31、量数据量 更新更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRl-3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPepNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢45PIR:1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Infor
32、mation Database,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释;而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。http:/www-nb
33、rf.georgetown.edu/pirwww/46SWISS-PROT+TrEMBL:该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。蛋白质序列数
34、据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年,意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通
35、过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。http:/us.expasy.org/sprot/474849 NRL3D:该数据库的序列是从三维结构数据库PDB中提取出来。除了序列信息外,NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的注释信息,对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。50 OWL:是一个非冗余的蛋白质序列数据库,现存于Leeds大学,是由Leeds大学和Warrington的Daresbury实验室合作开发的(Bleasby et al.,1994)。OWL数据库是由四个主要的一级序列数据库复合成的:包
36、括SWISS-PROT,PIR1-4,GenBank(CDS 翻译)和NRL-3D。在合成OWL数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的优先级,SWISS-PROT数据库具有最高的优先权。在对信息的处理上,删除了与某一序列相同序列的信息,也剔除了与某一序列相差单个氨基酸的序列的信息,因此,所得到的OWL数据库是一个紧凑的、高效的序列数据库。尽管如此,OWL数据库仍然有许多与NRDB相同的问题,即在该数据库中仍然有一些错误的序列和对GenBank中不正确序列的重翻译。由于OWL数据库的更新周期是6-8周,因此与其它数据库相比,OWL不是最新的数据库。51 MIPSX:
37、是一个由Martinsried的Max-Planck研究所创建的合成数据库(Mewes et al.,1998)。MIPSX包含如下数据库的信息:PIR1-4、MIPS的一级数据库MIPSOwn、MIPS/PIR一级数据库PIRMOD、MIPS一级翻译数据库MIPSTrn、MIPS酵母数据库MIPSH、NRL-3D、SWISS-PROT、EMTransEMBL的自动翻译数据库、GBTrans翻译的GenBank数据库、Kabat 和 PseqIP。MIPSX数据库按照表3.2中所列的上述数据库的顺序赋予优先级,并将这些数据库中和数据库间的重复序列删除,只保留该序列的一个相关信息。另外,也将那些
38、信息完全包含于其它序列中的序列删除。52NRDBOWLMIPSXSP+TrEMBLPDBSWISS-PROTPIRGenPeptSWISS-PROTPIRGenBankNRL-3DPIR1-4MIPSOwnMIPSTrnMIPSHPIRMODNRL-3DSWISS-PROTEMTransGBTransKabatPseqIPSWISS-PROTTrEMBL53 NRDB:NRDB(非冗余数据库)是由NCBI创建的。该数据库是由Genpept(来源于GenBank CDS自动翻译数据库)、PDB序列数据库、SWISS-PROT数据库、PIR数据库复合而成。因此该数据库是一个较完全的,包含最新信息的
39、数据库。但是,严格地来说,这个数据库中包含有冗余的信息,但不包含相同的信息,即在该数据库中已将那些与某一序列相同的序列信息剔除。由于NRDB是通过简单的比较方法生成的,因此就会带来一些问题:例如,一些相同蛋白质的相关重复信息仍然保留在数据库中,在SWISS-PROT数据库中的一些错误序列仍然被引入NRDB数据库,以及众多序列与已存在的序列片段重复等。所以,尽管NRDB数据库被称作非冗余数据库,但其实是名不副实的。另外,NRDB数据库也被作为NCBI提供的BLAST服务的默认数据库。54生物大分子三维结构数据库 蛋白质结构数据库PDB:PDB是全世界公认的收录,处理和发布生物大分子(主要是蛋白质
40、)结构的数据库,是生物大分子结构处理的一级数据库。1971年创建,1998年10月1日RCSB(The Research Collaboratory for Structural Bioinformatics)成为PDB新的管家,至2006年3月12日共收录有35460个结构。PDB仅收录经XRay和NMR(核磁共振)实验方法确定的结构,也就是说预测的结构不能通过RCSB的法眼。目前,PDB提供了一系列的研究生物大分子结构以及结构与功能,序列,疾病关系的资源和工具。毫无疑问,PDB将是您进行生物大分子三维结构研究的入门网站。http:/www.rcsb.org/pdb/Pfam:The Pfa
41、m protein families database,是蛋白质多重序列比对及隐马尔可夫模型的一个大的集合,包含蛋白质结构域或蛋白保守区的多重比对资讯,该资料库提供了蛋白质结构、多重比对、蛋白质结构域构建和物种分布等资讯。其搜索工具,包含分类搜索及结构域查询,极大地提高了PFAM资源的功能性和运用。BioMagResBank数据库:NMR实验的分子 MMDB分子模型数据库:MMDB(The Molecular Modeling Database)隶属于NCBI大旗下的分子模型数据库,包含有超过28 000个的蛋白质和核酸三维结构。也许与我们前面介绍的PDB相比,MMDB利用Entrez这个强大
42、的工具,把搜索的结构直接链接到相关的序列,引文记录,分类,结构邻居等,这真是大大的便利,数据来自PDB,但排除理论模型,只收录实验记录555657基因组数据库 人类基因组数据库GDB 酵母基因组数据库(SGD)同源脊椎动物基因组数据库HOVERGEN 拟南芥数据库(AtDB)在线人类孟德尔遗传信息数据库(OMIM)线虫数据库(ACEDB)58其它数据库:代谢数据库:KEGG、WIT、EcoCyc 综合数据库:TDB 基因表达数据库 基于分类的二级数据库:SCOP、CATH、COGs59四、生物信息学数据库工具和分析软件(一)、数据库网络检索工具:1、同源性搜索和序列比对工具:BLAST、FAS
43、TA、ClustalW2、检索工具:Entrez、SRS(二)、网络预测工具:(三)、分子生物学分析本地软件:1、DNA分析软件2、RNA结构预测工具3、蛋白分析软件4、质粒绘图软件5、引物设计软件6、序列综合分析软件7、其它软件:文献管理软件、统计软件、格式转换软件、序列提交软件、代谢途径分析软件60 SRS:是Sequence Retrieval System的缩写,是目前分子生物学最重要的序列和其他数据检索工具之一。由欧洲分子生物学实验室开发,最初是为核酸序列数据库EMBL和蛋白质序列数据库SwissProt的查询开发的。通过输入关键词,你就可以对各类数据库关键词匹配查找,并输出相关信息
44、例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库,目前共有300多个数据库安装在世界各地的SRS服务器上。SRS可以直接从LION公司的网页上查到这些数据库的名称,并知道它们分别安装在何处。国内北京大学生物信息中心、微生物所、上海生命科学院、中南大学等单位安装SRS系统。你可以打开网页http:/ BLAST(Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。您只需提交您的序列,通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。BLAST结果中的得分是对一种对相似性的统计说明。BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。626364656667