1、第九章第九章基因组学与后基因组学基因组学与后基因组学 基因组:生物体配子中所包含的全部染基因组:生物体配子中所包含的全部染色体及其基因,还包括细胞质基因组。色体及其基因,还包括细胞质基因组。基因组学基因组学:研究生物体内基因组的分子研究生物体内基因组的分子特征。特征。以整个基因组为研究对象,而不是以单以整个基因组为研究对象,而不是以单个基因为个基因为 单位作为研究对象。单位作为研究对象。主要目标:主要目标:认识基因组的结构、功能和进化;认识基因组的结构、功能和进化;阐明整个基因组所包含的遗传信息和相阐明整个基因组所包含的遗传信息和相互关系;互关系;充分利用有效资源,充分利用有效资源,预防和治疗
2、人类疾病。预防和治疗人类疾病。人类基因组计划 鸟枪法序列分析技术 后基因组学研究Contents一、人类基因组计划的启动 1986 年诺贝尔奖获得者R.Dulbecco(杜尔贝科)提出人类基因组计划测出人类全套基因组的 DNA 碱基序列(3 X 109 bp)第一节人类基因组计划1975年,获诺贝尔生理医学奖年,获诺贝尔生理医学奖 美国政府决定于 1990年正式启动HGP,预计用 15 年时间,投入 30 亿美元,完成 HGP。由国立卫生研究院和能源部共同组成“人类基因组研究所”逐渐地,HGP 扩展为多国协作计划。参与者包括:英、日、法、德和中国(1993年)二、人类基因组计划的进展状况二、人
3、类基因组计划的进展状况(1)截至)截至 1998 年年 10 月,完成月,完成 1.8 X 108bp,占计划的占计划的 6。(2)完成一系列模式生物全基因组测定。)完成一系列模式生物全基因组测定。这些这些模式生物全基因组模式生物全基因组测定的完成测定的完成有重大理论与现实意义。有重大理论与现实意义。(3 3)DNA DNA 测序技术飞速提高测序技术飞速提高 1998.5.91998.5.9 J.C.Venter J.C.Venter 等等宣布,组建商宣布,组建商业公司,投入业公司,投入 3 3 亿美元,亿美元,3 3 年内完成。年内完成。接着又有若干家公司成立,总共投入资金约几十亿美元,形成
4、 公公”“”“私私”并进并进 格局2000.6 完成并公布 人类基因组工作框架图(90%)。二二000000年六月二十六日克林顿宣布年六月二十六日克林顿宣布人类基因组草图绘制完成人类基因组草图绘制完成美国国家人类基因组研究所所长弗朗西斯柯林斯在介绍情况。人类基因组草图基本信息 由由31.6531.65亿亿bp组成组成 含含33.533.5万基因万基因 与蛋白质合成有关与蛋白质合成有关 的基因占的基因占2%2%人类基因组人类基因组人类蛋白质人类蛋白质 61%61%与果蝇同源与果蝇同源 43%43%与线虫同源与线虫同源 46%46%与酵母同源与酵母同源2000年年6月公共领域测序计划工作框架图月公
5、共领域测序计划工作框架图 2000 2000 年年 12 12 月美、英等国科学家宣布绘出拟月美、英等国科学家宣布绘出拟南芥基因组的完整图谱,这是人类首次全部破译南芥基因组的完整图谱,这是人类首次全部破译出一种植物的基因序列。出一种植物的基因序列。2001 年2月16日 人类基因组“精细图”完成,(99%),同时发表论文 美国 Science,Vol.291,No.5507 英国Nature,Vol.409,p.860DAN测序胶图年月日,人类基因组序列图亦称“完成图”(99.99%),提前绘制成功。三、人类基因组计划的科学意义(1)确定人类基因组中约5万个编码基因的序列及其在基因组中的物理位
6、置,研究基因的产物及其功能。(2)了解转录和剪接调控元件的结构与位置,从整个基因组结构的宏观水平上理解基因转录与转录后调节。(3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小和组织,了解各种不同序列在形成染色体结构、DNA复制、基因转录及表达调控中的影响与作用。(4)研究空间结构对基因调节的作用。有些基因的表达调控序列与被调节基因从直线距离上看,似乎相距甚远,但若从整个染色体的空间结构上看则恰恰处于最佳的调节位置,因此,有必要从三维空间的角度来研究真核基因的表达调控规律。(5)发现与DNA复制、重组等有关的序列。DNA的忠实复制保障了遗传的稳定性,正常的重组提供了变异与
7、进化的分子基础。局部DNA的推迟复制、异常重组等现象则导致疾病或者胚胎不能正常发育,因此,了解与人类DNA正常复制和重组有关的序列及其变化,将对研究人类基因组的遗传与进化提供重要的结构上的依据。(6)研究DNA突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病甚至感染性疾病引发的分子病理学改变及其进程,为这些疾病的诊断、预防和治疗提供理论依据。(7)确定人类基因组中转座子、逆转座子和病毒残余序列,研究其周围序列的性质。了解有关病毒基因组侵染人类基因组后的影响,可能指导人类有效地利用病毒载体进行基因治疗。(8)研究染色体和个体之间的多态性。这些知识可被广泛用于基
8、因诊断、个体识别、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究。此外,这些遗传信息还有助于研究人类历史进程、人类在地球上的分布与迁移以及人类与其他物种之间的比较。以人类基因组和拟南芥基因组为例说明你对生物基因组全序测定工作的科学意义与社会意义的认识(8分)中国科学院2002年 硕士学位研究生入学分子遗传学试题遗传图谱遗传图谱转录图谱转录图谱0.7 cM 或或 kb 序列图谱序列图谱物理图谱物理图谱四张图:四张图:物理图、物理图、转录图转录图遗传图遗传图 、序列图、序列图 四、四、HGPHGP的主要任务的主要任务、遗传图(连锁图)指基因或DNA标记在染色体上的相对位置与遗传距离。c
9、M(基因或DAN片段在染色体交换过程中分离的频率)多态性:人的DNA序列上平均每几百个碱基会出现一些变异(variation),并按照孟德尔遗传规律由亲代传给子代,从而在不同个体间表现出不同,因而被称为多态性(Polymorphism)。第一代多态性标记是RFLP(restriction fragment length polymorphism,限制性片段长度多态性)第二代多态性标记是短的串联重复序列 包括小卫星DNA和微卫星DNA,其多态性主要来自重复序列拷贝数的变化小卫星DNA由15-65bp的基本单位串联重复而成,长度一般不超过20kb。重复次数(小卫星DNA区的长度)在人群中是高度变异
10、的;按照孟德尔的规律遗传微卫星DNA/简短串联重复(STR、STRP或SSLP)重复单元2-8bp,通常重复10-60次CTAGCTTATATATATATATATATATATATAAGCTTGC 真核生物基因组中的DNA重复序列主要有哪些类型?简要说明基因组重复序列可能的生物学意义以及基因组重复序列在分子标记研究中的应用(12分)中国科学院2002年 硕士学位研究生入学分子遗传学试题第三代多态性标记是单核苷酸的多态性(single nucleotide polymorphism,SNP)SNP:是由于单个核苷酸改变而导致的核酸序列多态。第一军医大学2003年分子生物学 人类999的基因密码是相
11、同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。SNP与RFLP和STR标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。2、物理图 以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。3、转录图 以EST(expressed sequence tag,表达序列标签)为标记,
12、根据转录顺序的位置和距离绘制的图谱。4、序列图(分子水平的物理图)(分子水平的物理图)序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。1m 既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。人类基因组的序列图人类基因组的序列图 是指测出是指测出30亿个亿个碱基对的序列,碱基对的序列,并在基因图谱上并在基因图谱上表示出来。表示出来。这是人类基因组这是人类基因组计划最繁重、耗计划最繁重、耗时最多的工作。时最多的工作。2000年年6月公共领域测序计划工作框架图月公共领域测序计划工作框架图第二节的鸟枪法序列分析技术第二节的鸟枪法序列分析技术一、基因组基因组DNA
13、大片段文库的构建大片段文库的构建人工染色体含有三种必需成分:着丝粒、端粒和人工染色体含有三种必需成分:着丝粒、端粒和复制起点。复制起点。YAC(酵母人工染色体)载体 BAC(细菌人工染色体)载体 用用染色体建造染色体建造法用法用F质粒及其调控基因构建细菌载体,质粒及其调控基因构建细菌载体,克隆大片段克隆大片段DNA。该质粒主要包括。该质粒主要包括oriS,repE(控制(控制F质质粒复制)和粒复制)和parA、parB(控制拷贝数)等成分。(控制拷贝数)等成分。第二节的鸟枪法序列分析技术第二节的鸟枪法序列分析技术 的鸟枪法测序原理三、DNA的鸟枪法测序的主要步骤 第一,建立高度随机、插入片段大
14、小为第一,建立高度随机、插入片段大小为2kb2kb左右的基因组左右的基因组文库。文库。克隆数要达到一定数量,即经末端测序的克隆片段克隆数要达到一定数量,即经末端测序的克隆片段的碱基总数应达到基因组的碱基总数应达到基因组5 5倍以上。倍以上。第二,高效、大规模的末端测序。第二,高效、大规模的末端测序。对文库中每一个克隆,对文库中每一个克隆,进行两端测序,进行两端测序,TIGRTIGR在完成流感嗜血杆菌的基因组时,使在完成流感嗜血杆菌的基因组时,使用了用了1414台测序仪,用三个月时间完成了必需的台测序仪,用三个月时间完成了必需的28,46328,463个测个测序反应,测序总长度达序反应,测序总长
15、度达6 6倍基因组。倍基因组。第三,序列集合。第三,序列集合。TIGRTIGR发展了新的软件,修改了序列集合发展了新的软件,修改了序列集合规则以最大限度地排除错误的连锁匹配。规则以最大限度地排除错误的连锁匹配。第四,填补缺口。第四,填补缺口。有两种待填补的缺口,一是没有相应模有两种待填补的缺口,一是没有相应模板板DNADNA的物理缺口,二是有模板的物理缺口,二是有模板DNADNA但未测序的序列缺口。但未测序的序列缺口。他们建立了插入片段为他们建立了插入片段为15-20kb15-20kb的的文库以备缺口填补。文库以备缺口填补。Shotgun法序列拼接法序列拼接的鸟枪法测序的优缺点随着所测基因组总
16、量增大,所需测序的片段大量增加高等真核生物(如人类)基因组中有大量重复序列,导致判断失误 20032003年年4 4月月1414日,人类基因组序列图绘制成功,日,人类基因组序列图绘制成功,但对于但对于90%90%以上的人类基因尚不了解其功能。以上的人类基因尚不了解其功能。后基因组学研究基因组的基因功能,基因之间后基因组学研究基因组的基因功能,基因之间的相互关系和调控机制的学科。的相互关系和调控机制的学科。目前已衍生出了许多新兴学科:目前已衍生出了许多新兴学科:1 1)比较基因组学;)比较基因组学;2 2)功能基因组学;)功能基因组学;3 3)蛋白质组学;)蛋白质组学;4 4)疾病基因组学;)疾
17、病基因组学;5 5)药物基因组学;)药物基因组学;6 6)生物信息学)生物信息学第三节第三节 后基因组学后基因组学一、比较基因组学一、比较基因组学(Comparative Genomics)(Comparative Genomics)对同一物种不同个体以及不同物种的基因组对同一物种不同个体以及不同物种的基因组进行比较进行比较,分析基因的大小、数量分析基因的大小、数量,基因排列基因排列顺序顺序,编码序列与非编码序列的特征以及物种编码序列与非编码序列的特征以及物种进化关系等的学科。进化关系等的学科。不仅可以揭示生命的起不仅可以揭示生命的起源、进化等重大生物学问题,还具有潜在的源、进化等重大生物学问
18、题,还具有潜在的实用价值。如通过细菌和人类的基因组比较实用价值。如通过细菌和人类的基因组比较研究,有可能筛选出只在细菌中存在的基因,研究,有可能筛选出只在细菌中存在的基因,成为新的抗菌素的药靶。成为新的抗菌素的药靶。物种物种完成完成年份年份总长度总长度/Mp/Mp已完成总长已完成总长的百分数的百分数/%/%占常染色质占常染色质百分数百分数/Mb/Mb基因数基因数/Mb/Mb酵母酵母1996199612129393100100483483线虫线虫1998199896969999100100197197果蝇果蝇2000200011611664649797117117拟南芥拟南芥2000200011
19、51159292100100221221人类第人类第2121染色体染色体20002000343475751001007 7人类第人类第2222染色体染色体199919993434707097971616人类全基因组人类全基因组(Public Sequence)(Public Sequence)2001200126932693848490901212人类全基因组人类全基因组(Celera Sequence)(Celera Sequence)2001200126542654838399-9399-931515二、功能基因组学研究二、功能基因组学研究1.1.概念:概念:利用结构基因组学提供的信息,以
20、高利用结构基因组学提供的信息,以高通量,大规模实验方法及统计与计算机分析通量,大规模实验方法及统计与计算机分析为特征,全面系统地分析全部基因的功能为特征,全面系统地分析全部基因的功能。2.2.范畴:范畴:高通量基因的识别与基因功能的鉴高通量基因的识别与基因功能的鉴定;定;蛋白质组学(包括细胞器蛋白质组学蛋白质组学(包括细胞器蛋白质组学和诱导条件下的蛋白质组学);和诱导条件下的蛋白质组学);合成性染合成性染色体;色体;微基因工程小鼠(遗传分辨);微基因工程小鼠(遗传分辨);生殖基因组学,等等生殖基因组学,等等(1 1)DNADNA芯片技术:芯片技术:面积不大的基片(面积不大的基片(氧化硅、玻璃或
21、尼龙等材料制氧化硅、玻璃或尼龙等材料制成)成)表面分成不同小格表面分成不同小格有序的点阵排列核苷酸有序的点阵排列核苷酸分子(不同基因、分子(不同基因、cDNAcDNA的的DNADNA片段或寡核苷酸)片段或寡核苷酸)将待分析的核苷酸分子标记变性成单链,与芯将待分析的核苷酸分子标记变性成单链,与芯片上的核苷酸分子杂交片上的核苷酸分子杂交洗掉芯片上序列不同的洗掉芯片上序列不同的核苷酸分子核苷酸分子利用高精度的激光扫描仪记录已杂利用高精度的激光扫描仪记录已杂交分子的荧光信号交分子的荧光信号计算机分析。计算机分析。3.基因功能的研究方法(2)基因转导技术:导入细胞,观察功能。该方法用的最多,技术最成熟。
22、(3)基因敲除技术(gene knockout)又称基因打靶(gene targeting)。这种技术是通过基因工程的方法将一个结构已知但功能未知的基因去除,或用其他序列相近的基因取代(又称基因敲入),然后从整体观察实验动物,从而推测相应基因的功能。这种人为地把实验动物某一种有功能的基因完全缺失的技术称为基因敲除技术。功能基因组学延伸功能基因组学延伸 功能基因组学延伸功能基因组学延伸三、蛋白质组学三、蛋白质组学 蛋白质组:一个基因组所表达的全部蛋白质。蛋白质组:一个基因组所表达的全部蛋白质。蛋白质组学:在蛋白质水平研究基因组的基蛋白质组学:在蛋白质水平研究基因组的基因表达,分析基因组的蛋白质类
23、型、空间结构变因表达,分析基因组的蛋白质类型、空间结构变异以及相互作用的机制。是功能基因组学的一个异以及相互作用的机制。是功能基因组学的一个重要方面。重要方面。双相电泳技术:第一相是以蛋白质的电荷差异为双相电泳技术:第一相是以蛋白质的电荷差异为基础进行分离的等电聚焦,第二相是以蛋白质分基础进行分离的等电聚焦,第二相是以蛋白质分子量差异为基础的子量差异为基础的SDS-PAGESDS-PAGE。人角化细胞的2D电泳蛋白质图谱,经S35放射自显影显示,可以分辨出100种以上的蛋白质。四、基因组信息学四、基因组信息学 基因组数据库(包括蛋白质组和代谢物基因组数据库(包括蛋白质组和代谢物组数据库)组数据
24、库)基因组中全部基因的鉴定,功能预测基因组中全部基因的鉴定,功能预测 人与模式生物基因组序列比较人与模式生物基因组序列比较 用生物信息学方法确定宿主与致病因子用生物信息学方法确定宿主与致病因子的相互作用(病理基因组学)的相互作用(病理基因组学)五、环境基因组学五、环境基因组学Enviromental GenomicsEnviromental Genomics 专门鉴定机体暴露在特定环境下的那些专门鉴定机体暴露在特定环境下的那些显示易感或抵抗性基因的显示易感或抵抗性基因的DNA多态性多态性 对环境比较敏感的基因有:对环境比较敏感的基因有:DNA修复基修复基因、细胞周期相关基因、激素代谢基因、因、
25、细胞周期相关基因、激素代谢基因、受体基因、参与免疫和感染反应的基因、受体基因、参与免疫和感染反应的基因、信号转导基因、等等信号转导基因、等等六、药物基因组学六、药物基因组学 Phamarco genomicsPhamarco genomics 是不同个体的药物反应(主要指药效与是不同个体的药物反应(主要指药效与毒性)差异与毒性)差异与DNA多态性的关系。即通多态性的关系。即通过过DNA序列差异的分析,从基因水平上序列差异的分析,从基因水平上深入认识疾病及药物作用的个体差异的深入认识疾病及药物作用的个体差异的机理,指导和优化临床用药。并有可能机理,指导和优化临床用药。并有可能在此基础上发展个体化
26、医疗在此基础上发展个体化医疗七、基因组进化研究七、基因组进化研究1 1、基因组大小的进化、基因组大小的进化 包括基因组的含量、基因组的结构以及基因包括基因组的含量、基因组的结构以及基因的数量等几个方面。的数量等几个方面。2 2、基因组的分子进化、基因组的分子进化 DNA DNA序列的进化:基因的不同区域进化速率序列的进化:基因的不同区域进化速率不同。内含子中碱基对趋异进化速率大于外显子;不同。内含子中碱基对趋异进化速率大于外显子;编码序列中同义突变的进化速率大于非同义突变,编码序列中同义突变的进化速率大于非同义突变,非同义突变的进化速率最低。假基因的进化速率非同义突变的进化速率最低。假基因的进
27、化速率最高。最高。多基因家族的进化多基因家族的进化:通过基因扩增和不均等交:通过基因扩增和不均等交换形成多拷贝基因,在通过突变积累、基因重换形成多拷贝基因,在通过突变积累、基因重排和自然选择等因素形成多基因家族或新的基排和自然选择等因素形成多基因家族或新的基因。如珠蛋白基因家族的进化。因。如珠蛋白基因家族的进化。外显子混编外显子混编:来自不同基因的多个外显子相互:来自不同基因的多个外显子相互连接,或基因内部的外显子重复。连接,或基因内部的外显子重复。基因水平转移基因水平转移:遗传物质从一个物种通过各种:遗传物质从一个物种通过各种方式转移到另一个物种的基因组中。如转化、方式转移到另一个物种的基因组中。如转化、转导、接合、转染等。转导、接合、转染等。