1、 人类基因组学人类基因组学(human genomics)第一节第一节 人类基因组和基因组学人类基因组和基因组学 基因组(基因组(genomegenome)生殖细胞含生殖细胞含1 1套基因组套基因组 1 1套来自父本生殖细胞套来自父本生殖细胞体细胞含体细胞含 2 2套基因组套基因组 1 1套来自母本生殖细胞套来自母本生殖细胞人类基因组(人类基因组(genomegenome)是人体的所有遗传信息的总和。)是人体的所有遗传信息的总和。完整的人类基因组包含:完整的人类基因组包含:1-221-22号常染色体号常染色体 核基因组核基因组 X X和和Y Y染色体染色体线粒体基因组线粒体基因组一、基因的结构
2、一、基因的结构1 1、基因分类、基因分类 单一基因(单一基因(solitary genesolitary gene)基因在单倍体基因组中只有一份。基因在单倍体基因组中只有一份。基因家族(基因家族(gene familygene family)重复多拷贝基因,属于两个或更多个相似基因的家族,如重复多拷贝基因,属于两个或更多个相似基因的家族,如珠蛋白基因。珠蛋白基因。假基因(假基因(pseudogenepseudogene)一种畸变基因,即核苷酸序列同有功能的正常基因有很大的同源性,但一种畸变基因,即核苷酸序列同有功能的正常基因有很大的同源性,但由于突变、缺失或插入以致不能表达,所以没有功能。由于
3、突变、缺失或插入以致不能表达,所以没有功能。串联重复基因(串联重复基因(tandemly repeatd sequencetandemly repeatd sequence)基因是呈串联重复排列,如基因是呈串联重复排列,如tRNAtRNA基因、组蛋白基因基因、组蛋白基因 Eukaryotic Gene StructureEukaryotic Gene Structure 2 2、割裂基因(、割裂基因(split gene)split gene)外显子外显子内含子内含子增强子增强子启动子启动子终止子(终止子(TAA)TAA)侧翼序列(侧翼序列(franking sequencefranking
4、sequence)外显子外显子-内含子接头(内含子接头(GT-AG)GT-AG)人最大基因人最大基因 dystrophin,2.5Mb,80 exons dystrophin,2.5Mb,80 exons 二、基因组的组成二、基因组的组成(一)单拷贝序列(一)单拷贝序列(单一序列单一序列)【约约1010】在基因组中仅有单一拷贝或少数拷贝,单拷贝序列的长度在基因组中仅有单一拷贝或少数拷贝,单拷贝序列的长度在在800bp800bp1000bp1000bp之间,其中有些是编码细胞中各种蛋白质和之间,其中有些是编码细胞中各种蛋白质和酶的结构基因。酶的结构基因。(二)重复多拷贝序列(二)重复多拷贝序列
5、【约约9090】重复多拷贝序列有的较短,有的较长,分散地穿插于整个重复多拷贝序列有的较短,有的较长,分散地穿插于整个基因组。基因组。1 1、简单序列、简单序列DNADNA(simple-sequence DNAsimple-sequence DNA,satellite DNA satellite DNA)以以5bp5bp、10bp10bp或或20bp20bp、200bp200bp为一个重复单位;为一个重复单位;高度重复,长度可达高度重复,长度可达1010*5 5 bp bp;位于染色体的异染色质区。位于染色体的异染色质区。Detecting microsatellites from genom
6、ic DNA.A microsatellite motif(CT)in a DNA sequence 小卫星小卫星DNADNA(minisateliite DNAminisateliite DNA)or or 可变数目串联重复可变数目串联重复(variable number of tandem repeatsvariable number of tandem repeats,VNTRVNTR)15bp15bp100bp100bp组成的重复单位,重复组成的重复单位,重复20205050次形成的次形成的lkblkb5kb5kb的的短短DNADNA。微卫星微卫星DNADNA(microsatelli
7、te DNAmicrosatellite DNA)或短串联重复()或短串联重复(short tandem short tandem repeatrepeat,STRSTR)在基因组的间隔序列和内含子等非编码区内,重复序列为在基因组的间隔序列和内含子等非编码区内,重复序列为lbplbp6bp 6bp,如(,如(A A)n n(T T)n n、(、(CACA)n n(TGTG)n n、(、(CTCT)n n、(、(AGAG)n n等,表现为多态性。等,表现为多态性。2 2、中度重复、中度重复DNADNA(intermediate repeat DNAintermediate repeat DNA)
8、以不同的量分布于整个基因组的不同部位,占整个基因组的以不同的量分布于整个基因组的不同部位,占整个基因组的25254040。AluAlu家族(家族(AluAlu family family):短散在核元件,在基因组中的拷):短散在核元件,在基因组中的拷贝数重复贝数重复30-5030-50万万,每个拷贝长度约每个拷贝长度约300bp300bp,内含有一个限制,内含有一个限制性内切酶性内切酶AluAlu的特异性识别位点。的特异性识别位点。KpnKpn家族(家族(KpnKpn family family):长散在核元件,拷贝数为:长散在核元件,拷贝数为3000300048004800个个 ,用限制性内
9、切酶,用限制性内切酶KpnKpn消化,可分解成消化,可分解成4 4个个长度不等的片段。长度不等的片段。基因组学基因组学 (genomics)是从基因组整体层次上系统地研究各生物种是从基因组整体层次上系统地研究各生物种群基因组的结构和功能及相互关系的学科。群基因组的结构和功能及相互关系的学科。基因组学研究内容的三个基本方面:基因组学研究内容的三个基本方面:结构基因组学结构基因组学 (structural genomics)功能基因组学功能基因组学 (functional genomics)比较基因组学比较基因组学 (comparative genomics)由此又派生出其他研究分支。由此又派生出
10、其他研究分支。第二节第二节 人类基因组计划人类基因组计划 人类基因组计划人类基因组计划 (human genome project,HGP)是是20世纪世纪90年代开始的,由世界多个国家年代开始的,由世界多个国家参与合作的系统地研究人类基因组的重大科研参与合作的系统地研究人类基因组的重大科研项目。项目。HGP的科学目标:的科学目标:是测定组成人类基因组的全部是测定组成人类基因组的全部DNA序列,序列,从而为阐明人类所有基因的结构与功能,解从而为阐明人类所有基因的结构与功能,解码人类生命奥秘奠基。码人类生命奥秘奠基。HGP的基本任务:的基本任务:构建人类基因组遗传图,物理图,序列构建人类基因组遗
11、传图,物理图,序列图,为最终完成基因图打下基础。图,为最终完成基因图打下基础。HGP的技术成果的技术成果:主要体现在对人类基因组整体结构的认识,主要体现在对人类基因组整体结构的认识,即人类基因组遗传图、物理图、序列图的完即人类基因组遗传图、物理图、序列图的完成,从而奠定了人类结构基因组学基础。而成,从而奠定了人类结构基因组学基础。而人类基因图的完成,仍有大量工作要做。人类基因图的完成,仍有大量工作要做。人类基因组计划的三个主要目标图示人类基因组计划的三个主要目标图示 遗传图(遗传图(genetic mapgenetic map)又称连锁图(又称连锁图(linkage maplinkage ma
12、p)是将每条染色体上的基因或遗传标记的相是将每条染色体上的基因或遗传标记的相对位置经连锁分析确定下来,构成图谱。对位置经连锁分析确定下来,构成图谱。遗传距离:遗传距离:连锁图中两个基因间图距以连锁图中两个基因间图距以1 1厘摩(厘摩(cMcM)1 1厘摩(厘摩(cMcM)=减数分裂时两个基因间重组减数分裂时两个基因间重组值为值为1%1%。遗传标记(遗传标记(genetic markergenetic marker)可以是任何一种呈孟德尔遗传的性状或可以是任何一种呈孟德尔遗传的性状或物质形式,如:基因、血型、血清蛋白、物质形式,如:基因、血型、血清蛋白、DNADNA多态标记等。确定其在基因组中的
13、位置多态标记等。确定其在基因组中的位置后,可作为参照标记用于遗传重组分析。后,可作为参照标记用于遗传重组分析。第一代第一代(19751975)限制片断长度限制片断长度多态(多态(RFLPRFLP)分布数量分布数量10105 5 多态程度较多态程度较低低,利用价利用价值受限值受限 第二代第二代(19891989)短串连复制序短串连复制序列 长 度 多 态列 长 度 多 态(STR)(STR)分布数量分布数量10104 4 高度多态高度多态 第三代第三代(19961996)单核苷酸多态单核苷酸多态(SNPSNP)分布数量分布数量3 310106 6 一般为二态一般为二态单体型分析单体型分析 DNA
14、DNA遗传标记遗传标记 物理图(物理图(physical map)是要将随机长度的是要将随机长度的DNA片断在染色体上片断在染色体上的的 排列顺序确定下来。这些克隆排列顺序确定下来。这些克隆DNA片断片断连接起来,形成重叠克隆群(连接起来,形成重叠克隆群(Contig),再),再将一个个重叠克隆群(将一个个重叠克隆群(Contig)相连成线状,相连成线状,覆盖整个染色体。这主要靠单拷贝覆盖整个染色体。这主要靠单拷贝DNA序序列标定部位(列标定部位(STS)作路标来实现。)作路标来实现。DNA序列标定部位(序列标定部位(seguones tagged site,STS)重叠克隆群(重叠克隆群(c
15、ontig)YAC(yeast artificial chromosome)BAC(bacterial artificial chromosome)序列图(序列图(sequence mapsequence map)是通过对基因组是通过对基因组DNADNA进行碱基排列顺序分进行碱基排列顺序分析而建立的。析而建立的。两种技术路线:两种技术路线:1.1.公共序列路线:即在物理图基础上,公共序列路线:即在物理图基础上,将各个将各个BACBAC克隆片段切成更短的片段,形成亚克隆片段切成更短的片段,形成亚克隆分别进行测序,再将相互重叠的读出序克隆分别进行测序,再将相互重叠的读出序列组装成连续重叠线。列组装
16、成连续重叠线。2.2.“鸟枪法鸟枪法”测序路线:即直接将基因组测序路线:即直接将基因组DNADNA分割成分割成20kb20kb左右的小片段进行随机测序,左右的小片段进行随机测序,再用超级计算机组装成重叠线。所形成的序再用超级计算机组装成重叠线。所形成的序列图称列图称celeracelera序列。序列。ACGTCCGATCGGTTCATGCC ACGTCCGATCGGTTCATGCC TCGGTTCATGCCAATGCCGTCC TCGGTTCATGCCAATGCCGTCC基因图(基因图(gene mapgene map)即在序列图基础上,用不同的方法测即在序列图基础上,用不同的方法测定各个基因
17、所在区域位置。定各个基因所在区域位置。基因图测定方法:基因图测定方法:1.CpG1.CpG岛的应用:大多数持家基因和岛的应用:大多数持家基因和40%40%组织特异性基因组织特异性基因5 5端均存在端均存在CpGCpG岛序列。制备岛序列。制备探针,染色体涂染指示基因位置分布。探针,染色体涂染指示基因位置分布。2.2.计算机识别:研发计算机计算机识别:研发计算机GRAILGRAIL系统,可系统,可识别每个基因区的外显子识别每个基因区的外显子-内含子接头区保守内含子接头区保守序列。序列。3.cDNA3.cDNA策略:由组织细胞中表达策略:由组织细胞中表达mRNAmRNA,逆,逆转录合成转录合成cDN
18、AcDNA片段,称为表达序列标签片段,称为表达序列标签(ESTEST),将收获),将收获ESTEST定位后,构建的图称为转定位后,构建的图称为转录图,是人类基因图雏形。录图,是人类基因图雏形。人类基因组结构的分析人类基因组结构的分析 1.1.人类基因组人类基因组DNADNA全长约全长约3 310109 9bpbp,相当,相当36003600厘摩(厘摩(cMcM)。其中仅有约)。其中仅有约5%5%的序列为编码的序列为编码序列(编码蛋白或序列(编码蛋白或tRNAtRNA、rRNArRNA等)。等)。2.2.人类基因组中可能有人类基因组中可能有30000-4000030000-40000个基因,个基
19、因,其中编码蛋白质的外显子只占基因组其中编码蛋白质的外显子只占基因组DNADNA的的1%1%,内含子则占内含子则占24%24%。每个基因平均长。每个基因平均长27kb27kb,平均,平均含有含有9 9个外显子。不同个体间,基因编码仅有个外显子。不同个体间,基因编码仅有0.01%0.01%的差异。的差异。3.3.基因在各个染色体上的分布是不均基因在各个染色体上的分布是不均匀的,匀的,1717、1919、2222号染色体基因密度最高,号染色体基因密度最高,而而4 4、1313、1818、X X、Y Y染色体基因密度最低。染色体基因密度最低。人类基因组中约人类基因组中约20%20%的区段是没有基因的
20、的区段是没有基因的“沙漠沙漠”。后基因组计划后基因组计划(post-genome project,PGP)PGP的研究领域的研究领域人类基因组多样性计划人类基因组多样性计划 环境基因组学环境基因组学功能基因组学(蛋白组学)功能基因组学(蛋白组学)疾病基因组学疾病基因组学比较基因组学比较基因组学 药物基因组学药物基因组学生物信息学生物信息学第三节第三节 后基因组计划后基因组计划一、人类基因组多样性计划(人类基因组多样性计划(human human genome genome diversitydiversity project project,HGDPHGDP)人类基因数量一致人类基因数量一致3
21、-43-4万个万个人类基因组人类基因组DNADNA总量均为总量均为3 310109 9bpbp不同个体基因编码仅有不同个体基因编码仅有0.01%0.01%差异差异种族多样性种族多样性族群多样性族群多样性个体特异性个体特异性人类基因组的多样性与同一性人类基因组的多样性与同一性二、功能基因组学二、功能基因组学功能基因组学(功能基因组学(functional genomicsfunctional genomics)转录图转录图基因表达图:三维转录图。基因表达图:三维转录图。不同时间不同时间不同基因不同基因不同表达水平不同表达水平不同发育期不同发育期不同组织不同组织不同表达水平不同表达水平同一同一组织
22、组织同一同一基因基因三、比较基因组三、比较基因组学学(comparative genomics)各种模式生物基因组序列的比较各种模式生物基因组序列的比较生物种类生物种类 基因组大小基因组大小 预测基因组数目预测基因组数目 基因平均长度基因平均长度 大肠杆菌大肠杆菌4.6Mb 4.6Mb 1800 1800 约约1 1kbkb 酵母酵母 12Mb 12Mb 5800 5800 约约2 2kbkb 秀丽线虫秀丽线虫 97Mb97Mb18500 18500 约约5.35.3kbkb 果蝇果蝇 116Mb 116Mb 13600 13600 约约1010kbkb 小鼠小鼠 3000Mb3000Mb40
23、00040000约约3030kbkb 人人 3164Mb 3164Mb 30000-40000 30000-40000 2727kbkb 生物基因组进化的连续性分析生物基因组进化的连续性分析 21%21%的基因原核生物和真核生物共有的基因原核生物和真核生物共有 32%32%的基因真核生物共有而原核生物没有的基因真核生物共有而原核生物没有 24%24%的基因动物所共有的基因动物所共有 22%22%的基因脊椎动物特有的基因脊椎动物特有四、环境基因组学四、环境基因组学(enviromental genomics)是研究与环境因素相关的疾病易感性基因的。是研究与环境因素相关的疾病易感性基因的。环境相关
24、的疾病易感基因环境相关的疾病易感基因基因多态性基因多态性 分类分类 环境成份环境成份 相关疾病相关疾病 CYPCYP1 1A A1 1 激活激活吸烟吸烟 肺癌肺癌GST GST 解毒解毒 吸烟吸烟 肺癌肺癌NATNAT2 2 解毒解毒吸烟吸烟 膀胱癌、乳腺癌膀胱癌、乳腺癌 TCFTCF2 2转录因子转录因子母亲吸烟母亲吸烟 唇裂、腭裂唇裂、腭裂ALAD ALAD 生物合成生物合成 铅铅 铅中毒铅中毒 五、疾病基因组学五、疾病基因组学(morbid genomics)主要任务是分离重要疾病的致病基因与相主要任务是分离重要疾病的致病基因与相关基因,并确定其致病机制。关基因,并确定其致病机制。1.1
25、.肿瘤癌基因和抑癌基因的定位与克隆;肿瘤癌基因和抑癌基因的定位与克隆;2.2.单基因病致病基因的定位与克隆;单基因病致病基因的定位与克隆;3.3.多基因病数量性状基因座(多基因病数量性状基因座(QTLQTL)的定位与)的定位与克隆。克隆。六、药物基因组学六、药物基因组学(pharmacogenomics)是研究药物及化学物质引起机体反应上的是研究药物及化学物质引起机体反应上的遗传差异,即药物多态性的学科,以便能更安遗传差异,即药物多态性的学科,以便能更安全有效的使用药物,和发现新的药物。全有效的使用药物,和发现新的药物。七、生物信息学七、生物信息学(bioinformaticsbioinfor
26、matics)是生物学与计算机科学和应用数学交是生物学与计算机科学和应用数学交叉的一门新兴学科,对生物学实验数据的叉的一门新兴学科,对生物学实验数据的获取、加工、存储、检索与分析,进而达获取、加工、存储、检索与分析,进而达到揭示数据所含的生物学意义有重要作用。到揭示数据所含的生物学意义有重要作用。国际上三大公共基因数据库:国际上三大公共基因数据库:Gene BankGene Bank:美国国家生物技术信息中:美国国家生物技术信息中心(心(NCBINCBI)EMBLEMBL:美国欧洲生物学信息研究所:美国欧洲生物学信息研究所(EBIEBI)DDBLDDBL:日本信息生物学中心(:日本信息生物学中
27、心(CIBCIB)生物信息学已改变了基础生命科学研究的运作生物信息学已改变了基础生命科学研究的运作方式,极大地提高了工作效率。方式,极大地提高了工作效率。第四节第四节 基因定位与克隆基因定位与克隆基因定位(基因定位(gene mappinggene mapping)就是用一定方法,将各个基因确定到染色就是用一定方法,将各个基因确定到染色 体的实际位置。体的实际位置。基因克隆(基因克隆(gene cloninggene cloning)是从基因组中把某一基因用一定方法分离是从基因组中把某一基因用一定方法分离出来,以便进行单一基因精细结构和功能的研出来,以便进行单一基因精细结构和功能的研究。究。一
28、、基因定位一、基因定位 工作历史工作历史 主要方法主要方法 连锁分析(连锁分析(linkage analysislinkage analysis)体细胞杂交(体细胞杂交(somatic cell hybridizationsomatic cell hybridization)原位杂交(原位杂交(hybridization in situhybridization in situ)放射杂种(放射杂种(radiation hybridradiation hybrid)计算机识别(计算机识别(computer identificationcomputer identification)1 1连锁分析
29、连锁分析 同一条染色体上的不同基因呈线性连锁同一条染色体上的不同基因呈线性连锁关系,在减数分裂后,结合家系分析,可鉴关系,在减数分裂后,结合家系分析,可鉴定子代中的重组体,通过重组值计算,可推定子代中的重组体,通过重组值计算,可推断待定位基因与已定位基因间的连锁关系和断待定位基因与已定位基因间的连锁关系和遗传距离,而实现基因定位。遗传距离,而实现基因定位。两个基因如非连锁,则重组值两个基因如非连锁,则重组值=50%=50%,即随机组,即随机组合。合。减数分裂减数分裂产生配子产生配子发生交换发生交换AbaBAbaBABABabababaBABAb两个基因如连锁,则重组值两个基因如连锁,则重组值5
30、0%50%,且重组值,且重组值与遗传距离成正比。与遗传距离成正比。体细胞杂交体细胞杂交 人人/鼠融合细胞的特点:鼠融合细胞的特点:融合细胞兼有有双亲细胞染色体,但鼠融合细胞兼有有双亲细胞染色体,但鼠一方染色体一般全部保留,而人一方染色体一方染色体一般全部保留,而人一方染色体在细胞增殖过程中优先丢失,以至最后仅剩在细胞增殖过程中优先丢失,以至最后仅剩少数几条,乃至少数几条,乃至1 1条人染色体是基因定位的好条人染色体是基因定位的好材料。结合染色体显带和生化分析技术,可材料。结合染色体显带和生化分析技术,可把某些生化性状决定基因定位在保留的一条把某些生化性状决定基因定位在保留的一条染色体上。染色体
31、上。杂种细胞克隆嵌板杂种细胞克隆嵌板杂种克隆杂种克隆 保留的人类染色体保留的人类染色体 1 12 23 34 45 56 67 78 8A A+B B+C C+3.3.原位杂交原位杂交 是核酸分子杂交技术在基因定位中的应用。是核酸分子杂交技术在基因定位中的应用。用经放射性同位素标记的探针,同染色体标本用经放射性同位素标记的探针,同染色体标本载玻片上原位变性的染色体载玻片上原位变性的染色体DNADNA进行分子杂交,进行分子杂交,通过放射自显影来检测与探针杂交结合的染色通过放射自显影来检测与探针杂交结合的染色体同源序列,依据放射性探针在染色体上的显体同源序列,依据放射性探针在染色体上的显影位置进行
32、基因定位。影位置进行基因定位。荧光原位杂交(荧光原位杂交(FISHFISH)4.4.放射杂种放射杂种 是用射线辐射人体细胞染色体,使其随机是用射线辐射人体细胞染色体,使其随机片段化,再与鼠细胞融合,形成人片段化,再与鼠细胞融合,形成人/鼠细胞放鼠细胞放射杂种,人的随机染色体片段,整合入鼠细胞射杂种,人的随机染色体片段,整合入鼠细胞染色体中。构建放射杂种细胞系克隆嵌板,可染色体中。构建放射杂种细胞系克隆嵌板,可用于基因定位。用于基因定位。二、基因克隆二、基因克隆基因克隆的三种策略:基因克隆的三种策略:功能克隆(功能克隆(functional cloningfunctional cloning)定
33、位克隆(定位克隆(positional cloningpositional cloning)候选克隆(候选克隆(candidate cloningcandidate cloning)1.1.功能克隆功能克隆根据目的遗传性状的特征,分析决定基因的根据目的遗传性状的特征,分析决定基因的功能,推测有关蛋白质。功能,推测有关蛋白质。分析纯化这一蛋白质,并测出部分氨基酸顺分析纯化这一蛋白质,并测出部分氨基酸顺序。序。根据遗传密码推测可能的根据遗传密码推测可能的mRNAmRNA序列。序列。设计相应的寡核苷酸探针,杂交筛选设计相应的寡核苷酸探针,杂交筛选cDNAcDNA或或基因组基因组DNADNA文库,最终
34、获得决定基因的基因文库,最终获得决定基因的基因克隆。克隆。2.2.定位克隆定位克隆收集目的遗传病的家系,选择遗传标记进收集目的遗传病的家系,选择遗传标记进行连锁分析,建立目的遗传病与基因组中某行连锁分析,建立目的遗传病与基因组中某染色体区域中遗传标记的连锁关系。染色体区域中遗传标记的连锁关系。根据这一位置信息,将遗传图中初步确定根据这一位置信息,将遗传图中初步确定的位置,转变成物理图中相应区域的的位置,转变成物理图中相应区域的DNADNA“邻邻接克隆群接克隆群”。从相应区域的从相应区域的“邻接克隆群邻接克隆群”中筛选可表达中筛选可表达的结构基因,作为候选基因;的结构基因,作为候选基因;在若干个
35、候选基因中进行转录表达和突变鉴在若干个候选基因中进行转录表达和突变鉴定分析,最终将目的遗传病的决定基因精确定分析,最终将目的遗传病的决定基因精确定位和分离克隆该基因。定位和分离克隆该基因。定位克隆定位克隆策略示意策略示意DNADNA测序测序遗传家系遗传家系遗传图谱遗传图谱连锁定位分析连锁定位分析物理图谱物理图谱候选克隆候选克隆表达图谱表达图谱候选基因候选基因突变检测突变检测功能克隆与定位克隆的比较功能克隆与定位克隆的比较3.3.候选克隆候选克隆 候选克隆策略是在已定位和已克隆的候选克隆策略是在已定位和已克隆的基因越来越多的背景下,形成的一种新的基因越来越多的背景下,形成的一种新的基因克隆途径。基因克隆途径。分为:分为:定位候选克隆定位候选克隆 功能候选克隆功能候选克隆 从系列候选基因克隆中,鉴定某遗传病从系列候选基因克隆中,鉴定某遗传病决定基因克隆的方法:决定基因克隆的方法:特异突变筛选法特异突变筛选法 在体外恢复正常表型法在体外恢复正常表型法 构建小鼠疾病模型法构建小鼠疾病模型法 本章结束!本章结束!谢谢!谢谢!