1、第十二章 基因组学、蛋白质组学和生物信息学一、基因组学二、蛋白质组学三、生物信息学基因组学研究并解析生物体整个基因组的所有基因组学研究并解析生物体整个基因组的所有遗传信息。遗传信息。基因组(基因组(genome)是细胞或生物体的一套完)是细胞或生物体的一套完整的单倍体遗传物质,是所有不同染色体上全整的单倍体遗传物质,是所有不同染色体上全部基因和基因间的部基因和基因间的DNA的总和。分为的总和。分为 核基因核基因组、核外基因组组、核外基因组基因组学研究方法:基因组学研究方法:SAGE、DNA chips等等人 类 基 因 组计划1.1940年代第一颗原子弹爆炸;2.1960年代人类首次登上月球;
2、3.1990年代提出并基本完成的人类基因组计划(Human Genome Project,HGP)DNA 双螺旋结构的发现者之一、美国国家卫生研究院(NIH)人类基因组研究所第一任所长J.D.Watson 1990年在Science上撰文指出,与人类登月计划相比,HGP的资金投入少,但它对人类生活的影响却可能更深远。1990年,美国发起,耗资30亿美元,历时15年,1999年,中国参与3号染色体上一小片段,占1。20世纪人类科技发展史上的三大创举世纪人类科技发展史上的三大创举 人类基因组计划的目标:(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位置,研究基因的产物及其功能。(
3、2)了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。(4)研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达调控规律。(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与进化的分子基础。局部DNA的推
4、迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。(7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类有效地利用病毒载体进行基因治疗。(8)研究染色体和个体之间的多态性。这些知识可被广泛用于基因诊断、个体识别、亲子鉴定、组
5、织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。人类基因组研究内容包括遗传图(Genetic Map)绘制、物理图(Physical Map)构建、人类基因组的人类基因组的序列图序列图测序、转录图(Expression Profiling)绘制和基因鉴定等方面的工作。通过多年来的发展,基因组学(genomics)作为一门专门学科,已应运而生。它涵盖以下几个方面:结构基因组学,着重遗传图、物理图、测序等研究;功能基因组学,在基因组水平上阐明DNA序列的功能;比较基因组学,包括对不同进化阶段生物基因组
6、的比较研究,也包括不同人种、族群和群体基因组的比较研究。此外,工业基因组学、环境基因组学、药物基因组学、疾病基因组学等分支学科也在不断发展。基因组的序列主要可被分为三类:(一)通过比较确知其生理功能的;(二)在数据库中有相匹配的蛋白质序列,但并不知道其功能的;(三)在现有数据库中找不到任何相匹配的蛋白质序列的新基因。由于生物在进化上是相互关联的,对一种生物的研究可以为其它生物提供有价值的信息。比较基因组学的威力就在于它能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性,寻找研究复杂生理和病理过程所需的实验模型提供了理论依据,而近缘
7、基因组间的比较则为认识基因结构与功能等细节提供了参数。因此,为充分理解人类基因组,必须对一系列近缘和远缘的模式生物进行基因组程度上的比较分析工作。功能基因组学研究功能基因组学研究 研究方法:1、定点破坏结构基因(gene knock-out)2、基因组内定位表达目的基因(gene knock-in)的方法来研究新基因的3、获得全长cDNA的技术(RACE)4、功能克隆法:分离纯化蛋白,测序后设计探针从文库中筛选基因5、定位克隆法:先利用连锁分析定位基因,再根据物理图谱找出相关的BAC克隆,进一步查看此克隆序列,计算机分析,定位合适的候选基因6、酵母双杂交遗传图也称连锁图,是指基因或DNA标志在
8、染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率厘摩(cM)来表示。遗传图的绘制是人类基因组研究的第一步,即以染色体上某一点为遗传标记,以与之相伴遗传的特征为对象,经连锁分析,将编码该特征的基因定位于染色体特定位置。cM值越大,两者之间距离越远。通过遗传图分析,我们可以大致了解各个基因或DNA片段之间的相对距离与方向,了解哪个基因更靠近着丝粒,哪个更靠近端粒等。遗传距离是通过遗传连锁分析获得的,研究中所使用的DNA标志越多,越密集,所得到的遗传连锁图的分辨率就越高。经典的遗传标记是可被电泳或免疫技术检出的蛋白质标记,如红细胞ABO血型位点标记,白细胞HLA位
9、点标记等。例如,在ABO血型基因中,位于9号染色体长臂3区4带(9q34)的基因IA,决定抗原A的存在,表现A型血性状。由于ABO血型的广泛存在,所以可用它作遗传标记。当在某一家庭中,观察到了指甲髌骨综合征与A型血相伴遗传时,科学家就认为,这种病的致病基因NP与IA基因相连锁,也位于9q34区段。进一步的观察发现,这个家庭的后代中,有1/10为A型血而无指甲髌骨综合征,这表明基因IA和NP发生了交换,交换率(重组率)为1/10。这时就可说,基因IA和NP相距较近,连锁图上的距离为10厘摩(重组率1即为1厘摩)。遗传图的绘制遗传图的绘制 如果只用已知定位的少数几个基因作遗传标记,由于遗传标记的数
10、目太少,很难绘制完整的连锁图。DNA技术的建立为人类提供了大量新的遗传标记。n第一代DNA遗传标记是RFLP(Restriction Fragment Length Polymorphism,限制性片段长度多态性)。DNA序列上的微小变化,甚至1个核苷酸的变化,也能引起限制性内切酶切点的丢失或产生,导致酶切片段长度的变化。由于核苷酸序列的改变遍及整个基因组,特别是进化中选择压力不是很大的非编码序列之中,RFLP的出现频率远远超过了经典的蛋白质多态性。而且,只要选择得当,生物体内出现共显性RFLP及RAPD分子标记的频率较高。n第二代DNA遗传标记利用了存在于人类基因组中的大量重复序列,包括重复
11、单位长度在5-20个核苷酸左右的小卫星DNA(minisatellite DNA),重复单位长度在2-6个核苷酸之间的微卫星DNA(microsatellite DNA),后者又称为简短串联重复(STR、SSR)。STR有两个最突出的优点,即作为遗传标记的“多态性”与“高频率”。STR的存在,为遗传图的绘制提供了大量可用的遗传标记。采用聚合酶链反应(PCR)技术,以STR两侧的基因作定点标记的完整连锁图,已于1996年绘成,相邻标记间的平均距离仅0.7厘摩。n第三代DNA遗传标记,可能也是最好的遗传标记,是分散于基因组中的单个碱基的差异。这种差异包括单个碱基的缺失和插入,但更常见的是单个核苷酸
12、的替换,即单核苷酸的多态性(SNP,single nucleotide polymorphism)。“遗传图”的建立为人类疾病相关基因的分离克隆奠定了基础。拥有5000多个遗传学位点,相当于把整个人类基因组划分为5000多个小区,并分别设置了“标牌”。这些标牌将在搜索功能基因的过程中发挥独特的作用。把多态性的疾病基因位点(该位点至少包括“正常”及“致病”两个等位基因)与上述遗传标记进行分析比较时,如果在家系中证实该基因与某个标记不连锁(重组率为50%),表明该基因不在这一标记附近;如果发现该基因与某个标记有一定程度的“连锁”(重组率小于50%但大于0),表明它可能位于这个标记附近;如果该基因与
13、某标记间不发生重组(重组率等于0),我们就推测该标记与所研究的疾病基因可能非常接近。遗传图所表现的,是通过连锁分析确定的各基因间的相对位置相对位置;物理图则表现染色体上每个DNA片段的实际顺序实际顺序。物理图是指以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对(bp,kb,Mb)作为基本测量单位(图距)的基因组图。现在的测序技术还不能对整个DNA分子进行序列测定,因此须先将它切成一个个大小不同的片段,然后将这些片段连起来,构成连续的序列。物理图的主要内容是建立相互重叠连接的“相连DNA片段群(contigs)物理图物理图(Phy
14、sical Map)这些大片段在进行DNA分子克隆时,也不能通过细菌质粒或噬菌体的运载而在大肠杆菌中进行克隆,因为它们太大,而必须用一种特殊的载体-酵母人工染色体(YAC,容量8002000kb),将片段导入酵母,在酵母细胞中克隆。YAC中的DNA大片段是靠序列标记位标(STS)来识别的。STS是基因组中一段200500bp的单拷贝序列,在染色体上有一定的位置,所以用STS作位标可将不同YAC克隆排列成邻接克隆群(contig)。其他载体还有BAC(细菌人工染色体,容量100300kb)、P1(噬菌体人工染色体)、粘粒(cosmid,容量45kb)、MAC等。现在,人类基因组24条染色体的YA
15、C、BAC、P1邻接克隆群均已建立,精度约100碱基对的物理图也基本绘成,并已开始进行大规模测序。人类基因组的序列图人类基因组的序列图(Human Genome SequenceHuman Genome Sequence)基因组测序策略基因组测序策略1、鸟枪法:、鸟枪法:将基因组随机打断,构建一系列随机亚克隆,然后每个将基因组随机打断,构建一系列随机亚克隆,然后每个克隆测序,最后根据序列的重叠区域组装成完整的基因组序列。克隆测序,最后根据序列的重叠区域组装成完整的基因组序列。优点:快、简单、成本低优点:快、简单、成本低 缺点:由于大量存在的重复序列,致使组装困难缺点:由于大量存在的重复序列,致
16、使组装困难2、定位克隆法:、定位克隆法:首先构建物理图谱,再测序、组装首先构建物理图谱,再测序、组装 优点:组装简单优点:组装简单 缺点:物理图谱制作费时缺点:物理图谱制作费时 生物的性状,包括疾病,都由蛋白质决定。所有蛋白质都是由mRNA(信使核糖核酸)编码的,而mRNA又由DNA转录而来。人类基因组中仅15的DNA是编码序列(基因);成人各种组织中又只有约1的基因表达为蛋白质。所以,建立转录图,或从mRNA逆转录而来的cDNA图,是分离、定位和克隆基因的关键。这里,表达序列位标(EST)具有重要意义。EST是长约100300碱基对的cDNA片段,是表达基因的一部分。EST由于序列较短,很难
17、定位,只有筛到较长的基因片段(超过1000碱基对),才能用荧光原位杂交(FISH)法在染色体上定位。EST可用工业化的程序生产,只要分离到某一发育阶段某一组织的mRNA,就可用逆转录法,从mRNA合成相应的cDNA片段,即EST。用它作探针,就可从基因组文库中筛到全长的基因序列。截止到1998年2月,已发现约92万条EST,转录图的制作有了良好的开端,但这已属后基因组计划的工作。转录图转录图(Expression Profiling)蛋白质组学及其研究进展蛋白质组学的含义 蛋白质组蛋白质组(Proteome)(Proteome)一词最早由澳大利亚学者一词最早由澳大利亚学者 等于等于199419
18、94年提出年提出,指的是由一个基因组指的是由一个基因组geneomegeneome或一个细胞、组织表达的所有蛋白质或一个细胞、组织表达的所有蛋白质功能蛋白质组学的提出及概念功能蛋白质组学的提出及概念 功能蛋白质组学是指研究在特定时间、特定环境和功能蛋白质组学是指研究在特定时间、特定环境和实验条件下细胞内表达的全部蛋白质。实验条件下细胞内表达的全部蛋白质。蛋白质组学研究的内容蛋白质组学研究的内容蛋白质表达模式蛋白质表达模式(或蛋白质组组成或蛋白质组组成)的研究的研究 蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学蛋白质组组成的分析鉴定是蛋白质组学中的与基因组学相对应的主要内容。它要求对蛋白质组
19、进行表征相对应的主要内容。它要求对蛋白质组进行表征,即实现所即实现所有蛋白质的分离、鉴定及其图谱化。有蛋白质的分离、鉴定及其图谱化。双向凝胶电泳双向凝胶电泳(2-(2-D)和质谱和质谱(Mass spectrometry)技术是技术是当前分离鉴定蛋白质的两大支柱技术当前分离鉴定蛋白质的两大支柱技术 蛋白质组功能模式(目前主要集中在蛋白质相互作用网络关系)的研究 蛋白质组学研究的手段蛋白质组学研究的手段蛋白质组研究的核心蛋白质组研究的核心用于分离的双向电泳用于分离的双向电泳(2-DE)蛋白质组研究的百科全书蛋白质组研究的百科全书数据库数据库(database)蛋白质组技术的支柱蛋白质组技术的支柱
20、质谱鉴定技术质谱鉴定技术(Identication)蛋白质组技术的规模蛋白质组技术的规模高流通量筛选高流通量筛选(HTS)蛋白质组研究的基本技术路线蛋白质组研究的基本技术路线蛋白质样品的制备蛋白质样品的制备双向电泳双向电泳图像分析图像分析转印至膜上的蛋白转印至膜上的蛋白凝胶中的蛋白凝胶中的蛋白溶液中的蛋白溶液中的蛋白混合肽混合肽蛋白质质量蛋白质质量N端测序端测序肽序列质谱数据肽序列质谱数据肽指纹图肽指纹图数据搜索数据搜索新的或已知蛋白新的或已知蛋白蛋白转录后修饰的鉴定蛋白转录后修饰的鉴定原核及简单真核生物的蛋白质组研究原核及简单真核生物的蛋白质组研究 流感嗜血杆菌的蛋白质组研究流感嗜血杆菌的蛋
21、白质组研究 大肠杆菌的蛋白质组研究大肠杆菌的蛋白质组研究 致病微生物的蛋白质组研究致病微生物的蛋白质组研究 酿酒酵母的蛋白质组研究酿酒酵母的蛋白质组研究 多细胞真核生物的蛋白质组研究多细胞真核生物的蛋白质组研究 线虫的蛋白质组研究线虫的蛋白质组研究 果蝇的蛋白质组研究果蝇的蛋白质组研究 人类的蛋白质组研究人类的蛋白质组研究 植物的蛋白质组研究植物的蛋白质组研究生 物 信 息 学Bioinformatics 一、生物信息学的概述二、生物信息学研究内容三、生物信息学数据库四、生物信息学数据库工具与分析软件参考书:黄韧薛成等生物信息学网络资源与利用中山大学出版社赵国屏等生物信息学科学出版社三、生物信
22、息学数据库蛋白质数据库种类和特点蛋白质数据库种类和特点名称名称 维护维护 单位单位 注释注释 冗余度冗余度 数据量数据量 更新更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRl-3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPepNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢SWISS-PROT+TrEMBL:该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EB
23、I共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年,意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMB
24、L和 REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于个氨基酸残基的小肽、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗余度。http:/us.expasy.org/sprot/(一)、数据库网络检索工具:1、同源性搜索和序列比对工具:BLAST、FASTA、ClustalW2、检索工具:Entrez、SRS(二)、网络
25、预测工具:(三)、分子生物学分析本地软件:1、DNA分析软件2、RNA结构预测工具3、蛋白分析软件4、质粒绘图软件5、引物设计软件6、序列综合分析软件7、其它软件:文献管理软件、统计软件、格式转换软件、序列提交软件、代谢途径分析软件树立质量法制观念、提高全员质量意识。22.11.1122.11.11Friday,November 11,2022人生得意须尽欢,莫使金樽空对月。1:16:231:16:231:1611/11/2022 1:16:23 AM安全象只弓,不拉它就松,要想保安全,常把弓弦绷。22.11.111:16:231:16Nov-2211-Nov-22加强交通建设管理,确保工程建
26、设质量。1:16:231:16:231:16Friday,November 11,2022安全在于心细,事故出在麻痹。22.11.1122.11.111:16:231:16:23November 11,2022踏实肯干,努力奋斗。2022年11月11日上午1时16分22.11.1122.11.11追求至善凭技术开拓市场,凭管理增创效益,凭服务树立形象。2022年11月11日星期五上午1时16分23秒1:16:2322.11.11严格把控质量关,让生产更加有保障。2022年11月上午1时16分22.11.111:16November 11,2022作业标准记得牢,驾轻就熟除烦恼。2022年11月11日星期五1时16分23秒1:16:2311 November 2022好的事情马上就会到来,一切都是最好的安排。上午1时16分23秒上午1时16分1:16:2322.11.11一马当先,全员举绩,梅开二度,业绩保底。22.11.1122.11.111:161:16:231:16:23Nov-22牢记安全之责,善谋安全之策,力务安全之实。2022年11月11日星期五1时16分23秒Friday,November 11,2022相信相信得力量。22.11.112022年11月11日星期五1时16分23秒22.11.11谢谢大家!谢谢大家!