1、 GENOMICS AND MEDICINE 第一节第一节 基因组学概念及研究范畴基因组学概念及研究范畴(The Concept and Research Categories of Genomics)基因组基因组 基因组学基因组学 人类基因组计划人类基因组计划一、基因组学概念一、基因组学概念1基因组基因组(genome):泛指一个细胞或一个生物体泛指一个细胞或一个生物体的全部遗传信息。在真核生物,基因组是指一套的全部遗传信息。在真核生物,基因组是指一套(单倍体)染色体(单倍体)染色体DNA。1基因组学基因组学(genomics):从基因组水平(分子整:从基因组水平(分子整体水平)研究遗传的学
2、科。主要是发展和应用体水平)研究遗传的学科。主要是发展和应用DNA制图、测序新技术及计算机程序,分析生命制图、测序新技术及计算机程序,分析生命体全部基因组的结构及功能。体全部基因组的结构及功能。1人类基因组计划(人类基因组计划(human genome project,HGP):一项多国合作的国际研究计划,旨在):一项多国合作的国际研究计划,旨在阐明人类基因组阐明人类基因组DNA 3109bp的序列,发掘所的序列,发掘所有人类基因,确定其在染色体上的位置,从而有人类基因,确定其在染色体上的位置,从而破译人类的全部遗传信息。破译人类的全部遗传信息。HGP还对包括大肠还对包括大肠杆菌、酵母、线虫、
3、果蝇、拟南芥和小鼠等在杆菌、酵母、线虫、果蝇、拟南芥和小鼠等在内的一系列模式生物体基因组的测序。内的一系列模式生物体基因组的测序。v结构基因组学结构基因组学(structural genomics):通:通过基因作图、核苷酸序列分析确定基因组成、基过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。因定位的科学。v功能基因组学功能基因组学(functional genomics):):利利用结构基因组学提供的信息,进行基因和非基因用结构基因组学提供的信息,进行基因和非基因序列功能的研究。序列功能的研究。v比较基因组学(比较基因组学(comparative genomics):):比较不同生
4、物间基因和基因组结构的差异,以增比较不同生物间基因和基因组结构的差异,以增进对基因功能的了解、阐明物种进化关系。进对基因功能的了解、阐明物种进化关系。二、基因组学的主要研究内容二、基因组学的主要研究内容三、基因组学主要研究技术三、基因组学主要研究技术 v生物信息学生物信息学(bioinformatics)v生物芯片(生物芯片(DNA芯片、蛋白质或肽芯片等芯片、蛋白质或肽芯片等v二维蛋白质凝胶电泳(二维蛋白质凝胶电泳(2-DGE)v飞行质谱飞行质谱用数理和信息科学的观点、理论和方法研究生命现用数理和信息科学的观点、理论和方法研究生命现象,组织和分析现今呈指数增长的生物学数据的一象,组织和分析现今
5、呈指数增长的生物学数据的一门科学。该技术主要由数据库、计算机网络和应用门科学。该技术主要由数据库、计算机网络和应用软件组成。软件组成。第二节第二节 结构基因组学结构基因组学(Structural Genomics)物理制图物理制图 遗传制图遗传制图 基因组基因组DNA序列测定序列测定 创建计算机分析管理系统创建计算机分析管理系统 一、人类基因组作图一、人类基因组作图1、遗传图、遗传图(genetic mapping)/连锁图连锁图(linkage map)距离单位:厘摩距离单位:厘摩(cM),1cM表示每次减数分裂的表示每次减数分裂的重组频率为重组频率为1通过计算连锁的遗传标志之间的重组频率,
6、通过计算连锁的遗传标志之间的重组频率,确定连锁标志在染色体上的线性排列顺序及其确定连锁标志在染色体上的线性排列顺序及其相对遗传距离相对遗传距离v第一代第一代DNA多态性标志:多态性标志:限制性片段长度多态性限制性片段长度多态性(RFLPs)、随机引物扩增多态性随机引物扩增多态性(RAPD)、扩增片段长度多态性、扩增片段长度多态性(AFLP)v第二代第二代DNA标志:标志:可变数目串联重复序列(可变数目串联重复序列(VNTRs;又称小卫星)、短串联;又称小卫星)、短串联重复序列(重复序列(STRs;又称微卫星;又称微卫星,MS)v第三代第三代DNA标志:标志:单核苷酸多态性单核苷酸多态性(SNP
7、)2、物理作图(、物理作图(physical mapping):):v确定遗传标志间的物理距离,一般用确定遗传标志间的物理距离,一般用bp/kb/Mb表示。表示。v1cM的遗传距离大致上相当于的遗传距离大致上相当于1Mb的物理距离。的物理距离。(1)荧光原位杂交图(荧光原位杂交图(FISH map)(2)限制性酶切图限制性酶切图(restriction map):选用合适的限制性核酸内切酶对基因组选用合适的限制性核酸内切酶对基因组DNA或部分基因组或部分基因组DNA进进行酶切,获得以酶切位点为标记的物理图。行酶切,获得以酶切位点为标记的物理图。(3)辐射杂交细胞图()辐射杂交细胞图(RH ma
8、p)(4)连续克隆系()连续克隆系(clone contig)图:是)图:是最重要最重要的一种。的一种。序列标签位点序列标签位点(sequence tagged sites,STSs):在染色体上定位在染色体上定位明确,而且可用明确,而且可用PCR扩增的单拷贝序列,通常为扩增的单拷贝序列,通常为200-500bp。1.基于基于BAC连续克隆系的测序连续克隆系的测序 2.全基因组的全基因组的“鸟枪法鸟枪法”(shotgun)测序)测序 3.cDNA测序测序 二、大规模测定基因组二、大规模测定基因组DNA序列序列(Large Scale DNA Sequencing)三、三、DNA序列的生物信息学
9、分析序列的生物信息学分析(Bioinformatics Analysis of DNA Sequences)第二节第二节 功能基因组学功能基因组学(Functional Genomics)鉴定(注释)基因鉴定(注释)基因分析基因功能分析基因功能鉴定基因变异鉴定基因变异描述基因表达模式描述基因表达模式生物信息学生物信息学 1.概念:概念:利用结构基因组学提供的信息,以高通量,利用结构基因组学提供的信息,以高通量,大规模实验方法及统计与计算机分析为特征,全面大规模实验方法及统计与计算机分析为特征,全面系统地分析全部基因及其编码蛋白的功能。包括:系统地分析全部基因及其编码蛋白的功能。包括:生物学功能
10、、细胞学功能、发育学功能等。生物学功能、细胞学功能、发育学功能等。一、概念及特点一、概念及特点二、研究内容二、研究内容 1、鉴定、鉴定DNA序列中的基因。序列中的基因。2、确定基因功能。、确定基因功能。(1)利用同源搜索分析基因功能。)利用同源搜索分析基因功能。(2)实验分析基因功能。)实验分析基因功能。转录组转录组(transcriptome):指一个细胞内的一套:指一个细胞内的一套mRNA转录物,包含了在某一环境条件、某一生命阶转录物,包含了在某一环境条件、某一生命阶段、某一生理或病理(功能)状态下,生命体的细胞段、某一生理或病理(功能)状态下,生命体的细胞或组织所表达的基因种类和水平。或
11、组织所表达的基因种类和水平。蛋白质组蛋白质组(proteome):指一个细胞内的全套蛋白质,指一个细胞内的全套蛋白质,反映了特殊阶段、环境、状态下细胞或组织在翻译水反映了特殊阶段、环境、状态下细胞或组织在翻译水平的蛋白质表达谱。平的蛋白质表达谱。3、描述基因表达模式:基因表达的时空性、描述基因表达模式:基因表达的时空性4、基因产物的结构与功能预测、基因产物的结构与功能预测 5、人类基因组序列变异性、人类基因组序列变异性6、生物信息学、生物信息学第三节第三节 比较基因组学比较基因组学(Comparative Genomics)比较基因组学涉及比较不同物种的整个基比较基因组学涉及比较不同物种的整个
12、基因组,以便深入理解每个基因组的功能和进化因组,以便深入理解每个基因组的功能和进化关系。关系。第四节第四节 基因组学与医学基因组学与医学(Genomics and Medicine)筛选疾病相关基因筛选疾病相关基因基因检测基因检测药物设计药物设计基因治疗基因治疗一、一、“基因病基因病”(Gene Disease)的概念的概念1、单基因病:是指某种疾病的发生主要由一对等、单基因病:是指某种疾病的发生主要由一对等位基因的一个或两个基因位点存在缺陷而引起,位基因的一个或两个基因位点存在缺陷而引起,其遗传方式遵循孟德尔遗传规律。其遗传方式遵循孟德尔遗传规律。2、多基因病:这类疾病发病的基因机制理十分复
13、、多基因病:这类疾病发病的基因机制理十分复杂,涉及一个以上的等位基因以及基因与环境因杂,涉及一个以上的等位基因以及基因与环境因素的相互作用,又称为多因子疾病。素的相互作用,又称为多因子疾病。3、获得性基因病:这类疾病由病原微生物感染引、获得性基因病:这类疾病由病原微生物感染引起,不符合孟德尔遗传规律。起,不符合孟德尔遗传规律。二、疾病相关基因的鉴定二、疾病相关基因的鉴定1、SNPs筛选筛选 2、染色体制图定位及疾病相关基因克隆、染色体制图定位及疾病相关基因克隆 3、疾病相关基因表达谱筛选及疾病相关基、疾病相关基因表达谱筛选及疾病相关基因网络的确定因网络的确定 三、基因检测三、基因检测(Gene
14、 Testing)基因检测:适应分子医学发展需要产生的一种新基因检测:适应分子医学发展需要产生的一种新型的个体基因异常检测手段,直接检测型的个体基因异常检测手段,直接检测DNA。1、法医鉴定、法医鉴定 2、遗传病诊断:携带者;疾病风险预测;、遗传病诊断:携带者;疾病风险预测;产前诊断和新生儿筛查产前诊断和新生儿筛查 3、感染病诊断、感染病诊断4、基因治疗、基因治疗 四、药物靶标和药物设计四、药物靶标和药物设计 五、环境与疾病五、环境与疾病 常见的药物靶标是细胞特定信号传导通路中的功常见的药物靶标是细胞特定信号传导通路中的功能生物分子,如能生物分子,如G蛋白偶联受体家族分子、蛋白蛋白偶联受体家族
15、分子、蛋白酶、蛋白激酶、磷酸酶等。酶、蛋白激酶、磷酸酶等。分泌型激素、生长因子、化学激酶、可溶性受体分泌型激素、生长因子、化学激酶、可溶性受体和诱饵既可作为药物,又可作为药物靶标。和诱饵既可作为药物,又可作为药物靶标。根据基因的特性为某个群体或个人设计药物。根据基因的特性为某个群体或个人设计药物。第一节第一节 概概 述述人体细胞的核型(人体细胞的核型(Spectral Karyotype)一、基因组及其组织结构一、基因组及其组织结构 1“基因组基因组(genome)”一词是一词是1920年年Winkles从从GENes和和chromosOMEs组成的。组成的。泛指一个细胞或泛指一个细胞或一个生
16、物体的全部遗传信息。在真核生物,基因组是一个生物体的全部遗传信息。在真核生物,基因组是指一套(单倍体)染色体指一套(单倍体)染色体DNA。人人类类基基因因组组1人类基因组是指人的人类基因组是指人的24条染色体条染色体(22条常染色体条常染色体2条性染色体条性染色体)内的全部内的全部DNA和线粒体和线粒体DNA,其中蕴,其中蕴藏的信息决定了人类个体发育、生殖、生长、疾病、藏的信息决定了人类个体发育、生殖、生长、疾病、衰老、死亡等所有生命现象。衰老、死亡等所有生命现象。真核生物基因组的特点真核生物基因组的特点1.基因组含有更大的基因组含有更大的DNA分子,以分子,以染色体染色体形式储存形式储存于细
17、胞核内,体细胞内的基因是双份的。于细胞核内,体细胞内的基因是双份的。2.基因组基因组结构复杂结构复杂,有,有多个复制原点多个复制原点,但每个复制,但每个复制子的长度较小。子的长度较小。3.基因是基因是不连续不连续的。的。4.转录单位一般是转录单位一般是单顺反子单顺反子。即一个基因一种。即一个基因一种mRNA一种蛋白质,但蛋白质的最终产物可因剪接一种蛋白质,但蛋白质的最终产物可因剪接方式的不同而有差异(如方式的不同而有差异(如Bcl-x:Bcl-x1;Bcl-xs)5.存在存在重复序列重复序列v高度重复序列高度重复序列(105次)次)(1)卫星)卫星DNA(satellite):+小卫星小卫星D
18、NA(可变数目串联重复序列,可变数目串联重复序列,VNTRs):重复重复长度长度5-50bp,重复次数可变,有高度特异性。,重复次数可变,有高度特异性。+微卫星微卫星DNA(MS;又称简单串联重复序列,;又称简单串联重复序列,STRs):重重复长度复长度1-4bp,主要为二核苷酸重复序列如(,主要为二核苷酸重复序列如(CA)n,存,存在个体间的高度变化,是在个体间的高度变化,是DNA指纹的形成基础。指纹的形成基础。(2)倒位(反向)重复序列)倒位(反向)重复序列(3)较复杂的重复单位组成的重复顺序)较复杂的重复单位组成的重复顺序+rRNA基因:基因:重复数百次,可用作遗传标志。重复数百次,可用
19、作遗传标志。+tRNA基因基因 +组蛋白基因组蛋白基因+Alu家族:家族:有有3万个成员,平均每万个成员,平均每6kb就有一个,长度约就有一个,长度约300bp,因在,因在170bp处有一处有一Alu位点位点(AG/CT)而得名。)而得名。具具有种的特异性。有种的特异性。+Kpn家族:家族:人和灵长类人和灵长类DNA经经Kpn酶解后,产生酶解后,产生4个片个片段段(1.2,1.5,1.8,1.9kb),被命名为,被命名为Kpn家族。人类基因组中家族。人类基因组中Kpn序列约在序列约在3-6%,散在分布。,散在分布。v中度重复序列中度重复序列(105次)次)重复片段长重复片段长100-几千几千b
20、p,编码细胞需要量大的分子,编码细胞需要量大的分子v单一序列单一序列单拷贝,在基因组中占单拷贝,在基因组中占50-80,人基因组中,人基因组中约有约有60-65的单一序列。的单一序列。G多基因家族(多基因家族(multigene family):):亦称基因家族,是亦称基因家族,是指一组具有指一组具有类似功能类似功能,核苷酸序列又有同源性的基因。,核苷酸序列又有同源性的基因。G超基因家族(超基因家族(supergene family):):由多基因家族及单由多基因家族及单基因组成的更大的基因家族。成员间有不同程度的同源,基因组成的更大的基因家族。成员间有不同程度的同源,但但功能并不相似功能并不
21、相似。如。如Ig超家族。超家族。(3)基因家族)基因家族6.基因类型多样基因类型多样(1)断裂基因)断裂基因/不连续基因不连续基因(2)非剪接基因)非剪接基因/连续基因连续基因(4)假基因:)假基因:在多基因家族中,不产生有功能在多基因家族中,不产生有功能产物的基因。即序列与有功能的基因相似,但或产物的基因。即序列与有功能的基因相似,但或者不能转录,或者转录后生者不能转录,或者转录后生成无功能的基因产物成无功能的基因产物。用用表示。表示。假基因往往缺少正常基因的内含子,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。两侧有顺向重复序列。(5)基因重叠)基因重叠8.DNA序列组织的可变性(基
22、因组不稳定性)序列组织的可变性(基因组不稳定性)(1)基因重排基因重排 (2)跳动(跃)基因(转座子):跳动(跃)基因(转座子):可在可在DNA分子间进行分子间进行转移的转移的DNA片段。通常只是把一个新合成的复本插入到片段。通常只是把一个新合成的复本插入到另外的位置上,转移后仍保留原来位置上的另外的位置上,转移后仍保留原来位置上的DNA序列。序列。7、自私、自私DNA(selfish DNA):指非编码序列,包括分指非编码序列,包括分散的高度、中度重复序列,内含子和间隔序列等。有些自散的高度、中度重复序列,内含子和间隔序列等。有些自私私DNA通过转录通过转录mRNA,生成,生成cDNA,再转
23、位插入到基因,再转位插入到基因组,有人称之为组,有人称之为寄生寄生DNA(parasite DNA)。B但自私但自私DNA并非毫无功能,可参与基因表达调控等。并非毫无功能,可参与基因表达调控等。4 人类基因组计划是由美国科学家于人类基因组计划是由美国科学家于1985年率先提出年率先提出、于于1990年正式启动年正式启动的。旨在为的。旨在为30多亿个碱基对构成的多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息染色体上的位置,破译人类全部遗传信息。4 美国、英国、法国、德国、日本和中国美国、英国、法国
24、、德国、日本和中国科学家共同参科学家共同参与了这一价值达与了这一价值达30亿美元的研究计划。亿美元的研究计划。1、人类基因组计划、人类基因组计划(HGP)及基因组学概念的提出及基因组学概念的提出二、基因组学二、基因组学20世纪科学史上三世纪科学史上三个里程碑个里程碑:曼哈顿原曼哈顿原子弹计划、人类登月子弹计划、人类登月计划、人类基因组计计划、人类基因组计划划(HGP)2、HGP的主要任务的主要任务1990年年NIH和能源部和能源部(DOE)制制定了第一个五年计划定了第一个五年计划(19911995)1993年修改制定了年修改制定了19941998年的目标策略年的目标策略.1998年底,出台了年
25、底,出台了19982003年第二个五年计划。年第二个五年计划。基因组学:基因组学:以分子生物学技术、计算机技术和信以分子生物学技术、计算机技术和信息网络技术为研究手段,以生物体内全部基因为研息网络技术为研究手段,以生物体内全部基因为研究对象,在全基因背景下和整体水平上探索生命活究对象,在全基因背景下和整体水平上探索生命活动的内在规律及其内外环境影响机制的科学。动的内在规律及其内外环境影响机制的科学。1.根据研究的重点分类:结构基因组学、功能基因根据研究的重点分类:结构基因组学、功能基因组学、比较基因组学。组学、比较基因组学。2.根据研究对象分类:肿瘤基因组学、植物基因组根据研究对象分类:肿瘤基
26、因组学、植物基因组学、药物基因组学、环境基因组学等。学、药物基因组学、环境基因组学等。3、基因组学、基因组学(genomics)概念及分类概念及分类4、基因组学研究的常用方法、基因组学研究的常用方法(1)脉冲场凝胶电泳(脉冲场凝胶电泳(PFGE)(2)毛细管电泳毛细管电泳(3)基因芯片技术基因芯片技术(4)全基因组测序全基因组测序(5)生物信息学生物信息学(6)双向电泳双向电泳(7)质谱质谱一、概念和目的一、概念和目的 以全基因组测序为目标的基因结构研究,以全基因组测序为目标的基因结构研究,弄清基因组中全部基因的位置和结构,为基因弄清基因组中全部基因的位置和结构,为基因功能的研究奠定基础。其目
27、的是建立高分辨的功能的研究奠定基础。其目的是建立高分辨的遗传图谱、物理图谱和序列图谱遗传图谱、物理图谱和序列图谱。第二节第二节 结构基因组学结构基因组学(structural genomics)遗传信息在染色体上,但染色体不能直接遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构象进行分解,使之成为较易操作的小的结构区域,这个过程就是区域,这个过程就是基因作图基因作图。根据使用的标志和手段不同,有根据使用的标志和手段不同,有4种作图类种作图类型:遗传图谱、物理图谱、序列图谱、基因型:遗传图谱、物
28、理图谱、序列图谱、基因图谱。图谱。二、基因组作图二、基因组作图1、遗传图谱、遗传图谱(genetic map)/连锁图谱连锁图谱(linkage map)指基因或指基因或DNA标志在染色体上的相对位置与遗传距标志在染色体上的相对位置与遗传距离。它以具有多态性的遗传标记为离。它以具有多态性的遗传标记为“路标路标”,以重组频,以重组频率为图距的基因组图。率为图距的基因组图。遗传图谱的建立为基因识别和完遗传图谱的建立为基因识别和完成基因定位创造了条件。成基因定位创造了条件。遗传多态性:在一个遗传位点上具有一个以上的等遗传多态性:在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于位基因,
29、在群体中的出现频率皆高于1%遗传标记:等位基因、遗传标记:等位基因、RFLP、MS、SNP等等遗传距离:在减数分裂事件中两个位点之间进行交遗传距离:在减数分裂事件中两个位点之间进行交换、重组的百分率,换、重组的百分率,1%的重组率称为的重组率称为1“厘摩厘摩(centi-Morgan,cM)”限制性片段长度多态限制性片段长度多态性性(restriction fragment length polymorphisms,RFLPs):用一种或:用一种或几种限制性内切酶切几种限制性内切酶切割基因组割基因组DNADNA,用探针,用探针杂交并放射自显影。杂交并放射自显影。由于由于DNADNA酶切位点的变
30、酶切位点的变异所造成的异所造成的“能切能切”与与“不能切不能切”两种状两种状况,可产生不同长度况,可产生不同长度的片段的片段(等位片段等位片段),),可可用凝胶电泳显示多态用凝胶电泳显示多态性。性。数量可变串数量可变串联重复联重复(VNTR)/小卫星小卫星短串联重复短串联重复(STR)/微卫星微卫星(MS):使遗传使遗传图的精度提高图的精度提高;可作为物理图可作为物理图谱的标志,促谱的标志,促进了遗传图谱进了遗传图谱与物理图谱的与物理图谱的整合。整合。单核苷酸多态性单核苷酸多态性(Single Nucleotide Polymorphisms(Single Nucleotide Polymor
31、phisms,SNPs)SNPs)不同个体间在基因水平上的单核苷酸变异。平均不同个体间在基因水平上的单核苷酸变异。平均每每5005001000bp1000bp出现一个碱基差异出现一个碱基差异,如果一个碱基如果一个碱基位置发生的变异在位置发生的变异在1%1%以上的人群中存在,这个位以上的人群中存在,这个位点就被定义为点就被定义为SNPSNP位点。位于编码区的位点。位于编码区的SNPSNP称为称为cSNPcSNP。2 2个无关个体间有个无关个体间有300300万万SNPs.SNPs.单核苷酸多态标记(单核苷酸多态标记(SNP)2、物理图谱、物理图谱 指指DNA序列上各遗传标志间的实际距离,是把遗传
32、序列上各遗传标志间的实际距离,是把遗传图谱中克隆群上的图谱中克隆群上的DNA片段按实际的物理位置进行排序片段按实际的物理位置进行排序所构建的图谱。距离单位为所构建的图谱。距离单位为bp/kb/Mb。物理图谱物理图谱反映的是反映的是DNADNA序列上两点之间的实际距离,序列上两点之间的实际距离,而而遗传图谱遗传图谱则反映这两点之间的连锁关系。则反映这两点之间的连锁关系。在在DNADNA交换频繁的区域,两个交换频繁的区域,两个物理位置物理位置相距很近的基相距很近的基因或因或DNADNA片段可能具有较大的片段可能具有较大的遗传距离遗传距离,反之亦然。,反之亦然。染色体显带技术:染色体显带技术:通过各
33、种染色法,以染色体上显示的深浅不同的带型确定通过各种染色法,以染色体上显示的深浅不同的带型确定DNA序列分布和位置,可区分序列分布和位置,可区分107bp范围。范围。细胞遗传学图细胞遗传学图:用于对以用于对以104kb为长度量级的区域制图为长度量级的区域制图FISH(荧光原位杂交(荧光原位杂交)技术技术荧光原位杂交图(荧光原位杂交图(fluorescent in situ hybridization map,FISH map):用不同波长荧:用不同波长荧光标记的各种光标记的各种DNA序列(探序列(探针),与染色体上的互补序列针),与染色体上的互补序列杂交而不破坏染色体的整体形杂交而不破坏染色体
34、的整体形态,显微镜下观察、辨认荧光态,显微镜下观察、辨认荧光标记在染色体上的定位并绘制标记在染色体上的定位并绘制图谱。图谱。限制性图谱限制性图谱(restriction map):用于对小区域用于对小区域,如如kb量级做精细结构制图量级做精细结构制图 2限制性酶切图:选用合适的限制性核酸内切酶对基因限制性酶切图:选用合适的限制性核酸内切酶对基因组组DNA或部分基因组或部分基因组DNA进行酶切,获得以酶切位进行酶切,获得以酶切位点为标记的物理图。点为标记的物理图。辐射杂交图:辐射杂交图:对片段对片段DNA的断点作图。的断点作图。辐射杂交细胞图(辐射杂交细胞图(radiation hybrid m
35、ap,RH):利用):利用X射射线照射人细胞,使染色体随机线照射人细胞,使染色体随机断裂,然后与啮齿动物细胞杂断裂,然后与啮齿动物细胞杂交克隆,人的染色体片段便被交克隆,人的染色体片段便被整合到啮齿动物染色体上。两整合到啮齿动物染色体上。两个相邻基因或个相邻基因或DNA标志的距离标志的距离越近,越可能出现在同一片段,越近,越可能出现在同一片段,进入同一杂交细胞。通过识别、进入同一杂交细胞。通过识别、定位技术和统计学分析,可计定位技术和统计学分析,可计算人算人DNA标志的连锁关系及其标志的连锁关系及其在染色体上的排列。在染色体上的排列。Huds on TJ等构建的相隔等构建的相隔 199kb含有
36、含有15086个个STS图谱图谱标志着人类基因组计划的物理图谱已初步完成。标志着人类基因组计划的物理图谱已初步完成。2序列标签位点序列标签位点(sequence tagged sites,STSs):在染在染色体上定位明确,而且可用色体上定位明确,而且可用PCR扩增的单拷贝序列,扩增的单拷贝序列,通常为通常为200-500bp。3、序列图谱、序列图谱 以某一染色体上所含的全部碱基顺序绘制的图谱。既以某一染色体上所含的全部碱基顺序绘制的图谱。既包括可转录序列,也包括非转录序列,是转录序列、调节包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。序列和功能未知序列的总和。连
37、续克隆系逐个克隆法连续克隆系逐个克隆法(公共领域测序计划)(公共领域测序计划)(1)建立插入人类基因组片段的酵母人工染色体)建立插入人类基因组片段的酵母人工染色体(YAC)克隆群克隆群。(2)利用高频分布、易于检索的)利用高频分布、易于检索的DNA标志或者标志或者DNA指指纹图谱建立克隆之间的联系,组成有序排列的纹图谱建立克隆之间的联系,组成有序排列的连续克隆连续克隆系系,最常使用的,最常使用的DNA标志有标志有STS和表达的序列标签和表达的序列标签(expressed sequence tag,EST)。)。(3)将克隆群)将克隆群定位定位于染色体的不同区域,构成完全基于染色体的不同区域,构
38、成完全基因组因组物理图谱物理图谱。(4)进行)进行次级克隆次级克隆,序列分析序列分析。用机械方法打断用机械方法打断DNA,建立插入片段约,建立插入片段约2kb的高度的高度随机基因组文库随机基因组文库。高效、大规模的两高效、大规模的两末端测序末端测序。用有关软件对测序克隆片段进行用有关软件对测序克隆片段进行序列集合序列集合。用适当方法用适当方法填补缺口填补缺口。全基因组鸟枪法(美国全基因组鸟枪法(美国Celera公司)公司)直接将基因组分解成小片段随机测序,利用超级直接将基因组分解成小片段随机测序,利用超级计算机进行组装计算机进行组装 Genes:Annotation of the genome
39、 sequence has identified over 30,000 genes,plus many other features such as repeat sequences and CpG islands.4、基因图谱、基因图谱基因图谱是在识别基因组所包含的蛋白质编码序基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。最主要的方法是通过基因达模式等信息的图谱。最主要的方法是通过基因的表达产物的表达产物mRNA反追到染色体的位置。反追到染色体的位置。mRNA3 ESTs5 ESTsEST
40、lengths vary due to varying polymerase activityExpressed Sequence Tags(EST)对基因转录表达产物对基因转录表达产物mRNA互补的互补的cDNA(其片段称为表(其片段称为表达序列标签,达序列标签,EST)进行大规模测序是序列标签位点的主)进行大规模测序是序列标签位点的主要来源,并以此构建人类基因组转录图(基因图)。要来源,并以此构建人类基因组转录图(基因图)。M20002000年是基因组之年。年是基因组之年。20002000年年6 6月月2626日由美国日由美国总统克林顿与英国首相布莱尔联合宣布提前完总统克林顿与英国首相布莱
41、尔联合宣布提前完成了人类基因组的工作框架图,这一天也因此成了人类基因组的工作框架图,这一天也因此成为人类历史上成为人类历史上“值得载入史册的一天值得载入史册的一天”。人类基因组草图初步结论人类基因组草图初步结论全部人类基因组约有全部人类基因组约有2.91Gbp 基因基因数量约数量约3-4万万(26383-39114)。目前已定位了。目前已定位了2.6万万多个基因,但其中尚有多个基因,但其中尚有42%的功能不明。的功能不明。人类基因组中存在人类基因组中存在“热点热点”和大片和大片“荒漠荒漠”。编码序。编码序列约列约占占3%,非编码序列约占非编码序列约占97%。35.3%的基因组包含的基因组包含重
42、复重复的序列。的序列。人与人之间人与人之间99.99%的基因密码的基因密码是是相同相同的。的。仅仅1%-1.5%的人类基因带有的人类基因带有制造蛋白质制造蛋白质的指令的指令 大约有大约有223个基因可能是人类的脊椎动物祖先生存时由个基因可能是人类的脊椎动物祖先生存时由细菌插入的顺序。细菌插入的顺序。男性的基因突变率是女性的两倍,而且大部分人类遗传男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在疾病是在Y染色体上进行的。染色体上进行的。一一.概念:概念:利用结构基因组学提供的信息,以利用结构基因组学提供的信息,以高通高通量,大规模量,大规模实验方法及统计与实验方法及统计与计算机分析计算机
43、分析为特征,为特征,全面系统地分析全部基因及其编码蛋白的功能。包全面系统地分析全部基因及其编码蛋白的功能。包括:生物学功能、细胞学功能、发育学功能等。括:生物学功能、细胞学功能、发育学功能等。第三节第三节 功能基因组学功能基因组学(functional genomics)前基因组时代前基因组时代的的“钓鱼钓鱼”和和后基因组时代后基因组时代的的“捞鱼捞鱼”研究内容:研究内容:基因组表达及其调控基因组表达及其调控基因组序列变异性基因组序列变异性模式生物研究模式生物研究生物信息学生物信息学从基因组信息与外界环境相互作用的高度,阐明基因组的功能。从基因组信息与外界环境相互作用的高度,阐明基因组的功能。
44、人类人类基因信息基因信息的识别和鉴定。的识别和鉴定。基因功能基因功能的识别和鉴定。的识别和鉴定。在全细胞的水平,识别所有在全细胞的水平,识别所有基因组表达产物基因组表达产物:mRNA:cDNA 阵列阵列 蛋白质:二维电泳质谱蛋白质:二维电泳质谱研究研究生物大分子相互作用生物大分子相互作用:阐明基因组表达的时、空的整体调控网络。阐明基因组表达的时、空的整体调控网络。功能蛋白质组学:功能蛋白质组学:高通量解析蛋白质的高级结构,是连接基因组功能研高通量解析蛋白质的高级结构,是连接基因组功能研究和新药开发的桥梁。究和新药开发的桥梁。(一)基因的表达及其调控(一)基因的表达及其调控二、研究内容:二、研究
45、内容:计算机全基因组扫描,寻找计算机全基因组扫描,寻找ORF,确定多肽链序列。,确定多肽链序列。1、鉴定、鉴定DNA序列中的基因序列中的基因2可译框(开放阅读框可译框(开放阅读框open reading frames,ORF):人类基因组序列中所有可能编码蛋白):人类基因组序列中所有可能编码蛋白质的基因。含有翻译的质的基因。含有翻译的起始密码起始密码子、外显子及子、外显子及内含子内含子剪接信号剪接信号、翻译、翻译终止信号终止信号和和3poly(A)加加尾信号尾信号。2孤儿基因孤儿基因:ORF中尚不完全了解的基因框架中尚不完全了解的基因框架.2、基因功能的识别与鉴定、基因功能的识别与鉴定 同源搜
46、索:同源搜索:将将ORFsORFs预测的预测的基因序列基因序列与数据库中基因序与数据库中基因序列资料进行列资料进行比较比较,鉴定预测基因与已知(其他生物)基,鉴定预测基因与已知(其他生物)基因序列的匹配程度,推测预测基因的某些功能。因序列的匹配程度,推测预测基因的某些功能。根据该基因预测编码蛋白质的根据该基因预测编码蛋白质的氨基酸序列氨基酸序列,分析其功,分析其功能结构域及可能的空间结构,再结合染色体定位,研究能结构域及可能的空间结构,再结合染色体定位,研究与同样定位在该染色体区带上的遗传性状或疾病的联系,与同样定位在该染色体区带上的遗传性状或疾病的联系,确定其功能。确定其功能。在在实验动物实
47、验动物中寻找它的同源基因,进行基因中寻找它的同源基因,进行基因“敲除敲除”,观察实验动物的生物学改变,以了解该基因的功能。观察实验动物的生物学改变,以了解该基因的功能。设计实验阻断基因表达,观察设计实验阻断基因表达,观察细胞和整体细胞和整体所发生的表所发生的表型变化。型变化。(3)RNA干扰技术(干扰技术(RNAi):):v 将一段将一段dsRNA导入机体或细胞后,与它有同源序导入机体或细胞后,与它有同源序列的基因的表达被干扰或抑制。列的基因的表达被干扰或抑制。(4)转基因动物技术)转基因动物技术(5)基因敲出和基因敲入技术)基因敲出和基因敲入技术(2)反义核酸技术)反义核酸技术(1)基因转导
48、技术)基因转导技术(6)反向遗传学:)反向遗传学:在已知基因序列的基础上研究基因的在已知基因序列的基础上研究基因的生物学规律。通过生物学规律。通过功能丧失突变体功能丧失突变体研究其表型效应。研究其表型效应。+传统遗传学(正向遗传学)主要研究自发或诱发突传统遗传学(正向遗传学)主要研究自发或诱发突变体中某一性状的遗传行为,如控制突变性状的基因变体中某一性状的遗传行为,如控制突变性状的基因数目及其在染色体上的位置、突变性状在后代中的传数目及其在染色体上的位置、突变性状在后代中的传递规律等。递规律等。+反向遗传学筛选到的突变体有时无突变表型效应:反向遗传学筛选到的突变体有时无突变表型效应:突变表型效
49、应需在特定环境中才表现;基因家族中其突变表型效应需在特定环境中才表现;基因家族中其他基因功能的代偿。他基因功能的代偿。(1)转录组)转录组(transcriptome)与转录图谱与转录图谱转录图谱:细胞在某一环境条件、生命阶段、生理或转录图谱:细胞在某一环境条件、生命阶段、生理或病理(功能)状态下的所有病理(功能)状态下的所有mRNA转录物,代表了特定转录物,代表了特定时空生命体细胞或组织所表达的基因种类和水平。时空生命体细胞或组织所表达的基因种类和水平。技术:用已定位的技术:用已定位的YAC或或BAC DNA为探针,与所有为探针,与所有可能相关的各组织可能相关的各组织cDNA文库文库杂交杂交
50、,寻找其同源克隆并,寻找其同源克隆并做进一步分析。做进一步分析。3、描述基因表达模式、描述基因表达模式 基因表达模式基因表达模式(gene expression patterns)/基因表达基因表达谱谱(gene expression profiles):在细胞水平上全面评在细胞水平上全面评价基因的表达情况。价基因的表达情况。基因芯片示意基因芯片示意蛋白质组学蛋白质组学(Proteomics):):研究细胞或组织基因表达的全部蛋白质(表达蛋研究细胞或组织基因表达的全部蛋白质(表达蛋白质组学,白质组学,Expression proteomics)通过细胞内蛋白质复合物研究蛋白质与蛋白质的通过细胞