1、“人类基因组计划”是人类自然科学史上最伟大的创举之一,它的规模可以与“曼哈顿”原子弹计划、“阿波罗”登月计划娘美,而它的意义又远超出了这两个计划。vHGP的由来vHGP的目标vHGP的主要内容vHGP的参与国与资金投入vHGP的进展和成就v人类基因组研究的应用v人类基因组研究引发的社会和伦理问题 v上世纪70年代的“基因论”是人类基因组计划的科学背景所有的疾病都与人类的基因相关,都是人类基因组与病原基因组中有关基因相互作用的结果。不仅疾病与基因有关,人的出生、成长都与基因有关,都与DNA的序列有关。著名的诺贝尔奖获得者杜伯克在他发表的一篇文章,后来被称为“人类基因组计划”的“标书”之中写道:人
2、类的DNA序列是人类的真谛。这个世界上的发生的一切,都与之息息相关。v在策略上说,“人类基因组计划”所采取的策略是“基因组学”的策略杜伯克说:既然大家都知道基因的重要性,那我们就只有两种选择,一是“零敲碎打”,大家都去“个体作业”,去研究自己“喜欢”的、认为是重要的基因,而另一种选择呢?则是前所未有的大胆说法:从整体上来搞清楚人类的整个基因组,集中力量认识人类的所有基因。v人类基因组计划的孕育,经历了长达5年的时间,这五年里,在发达国家里,上至政府首要,下至平民百姓,都参与了这一场讨论与最后的决策。而各国,首先是美国的科学家,作了大量的论证。1984年,在美国尤他大学召开的专业会议上,一些科学
3、家已开始讨论对人类基因组DNA进行全序列分析的前景。1985 年5 月,在美国加州组织了一次专门会议,美国能源部提出了测定人基因组全顺序的动议。1986年,美国生物学家、诺贝尔奖获得者Renato Dulbecco 在“Science”上发表短文首次提出人类基因组计划的设想,并建议组织国家级和国际级的项目来进行这方面的研究。1986年3月,美国能源部在召开的一次专门会议上,正式提出实施测定人类基因组全顺序的计划。1988年4月,国际人类基因组组织(HUGO)成立。1988年10月美国能源部和美国国立卫生研究院达成协议,共同管理和实施这一计划。1990年,历经5年辩论之后,美国国会批准美国的“人
4、类基因组计划”于10月1日正式启动。随后法国、英国、意大利、德国、日本等也相继宣布开始各自的 研究。中国的人类基因组计划于1993年开始,1999年9月,中国正式参与国际人类基因组计划,负责测定人类基因组全部序列的1%。v人类基因组计划的目标是通过以美国为主的全球性的国际合作,在大约15年的时间里完成人类24条染色体的基因组作图和DNA全长序列分析,进行基因的鉴定和功能分析,最终目标是确定人类基因组所携带的全部遗传信息。v人类基因组计划的“科学产品”将是一个人类遗传信息数据库,将是一本指导人类进化的“说明书”。v有人将HGP比作一张20世纪的生命(生物学)周期表,因为它一改经典分子生物学零敲碎
5、打地研究个别基因的习惯,而力求在细胞水平上解决基因组的问题,同时研究10万个基因及其产物,以建立对生命现象的整体认识。v基因组作图v基因组测序 v基因的鉴定和分析v基因组研究相关技术建立v有关模式生物研究v生物信息系统建立 人类染色体不能直接用来进行测序,故HGP的第一阶段是要将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程简称为作图。v遗传图谱v物理图谱v遗传图谱(genetic map),又称连锁图(linkage map),是通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1)来表示。v遗传图绘制需要应用多
6、态性标志。如限制性酶切片段长度多态性(RFLP),短串联重复序列(STR,又称微卫星,MS)标志,单核苷酸多态性(SNP)标志等。v通过遗传图谱,我们可以大致了解各个基因或DNA片断之间的相对距离与方向,如哪个基因更靠近着丝粒,那个更靠近端粒等。遗传图谱不仅是定位基因的重要手段,即使在人类基因组全物理图谱建立起来之后,它依然是研究人类基因组遗传与变异的重要手段。v物理图包含了两层意义,一是获得分布于整个基因组的序列标签位点(STS,其定义为染色体定位明确,而且可用PCR扩增的单拷贝序列),使每隔一定距离就有一个标志;二是在此基础上构建覆盖每条染色体的大片段DNA连续克隆系(Contig)。酵母
7、人工染色体(YAC,插入片段达数百kb至2Mb)、细菌人工染色体(BAC,插人片段为80一300kb)、P1噬菌体(插入片段最大为125kb)、PI来源的人工染色体(PAC,插人片段可达300kb)v物理图构建的成功,不仅为大规模测序奠定了基础,而且还绘制出了人类基因组转录图(或基因图)的雏形。v人类基因组计划最终将测定出人类基因组的全部序列。这种序列测定不同于以往那种只对某一个特定的感兴趣的区域进行DNA序列分析的工作。它要求一种更高效的规模测序,并将测出的每一个DNA片段按其染色体位置进行准确的排列,从而得到人类基因组DNA序列碱基排列的全貌。这是一个很艰巨的任务,需要开发更新的序列分析技
8、术和计算机信息处理系统。这些新技术和新系统的开发与研制也将成为人类基因组计划的一个重要组成部分。v大规模测序的策略基于BAC连续克隆系的测序全基因组的“鸟枪法”测序v基于BAC连续克隆系的测序 通过精细物理作图,排出对应于特定染色体区域的重叠度最小的BAC连续克隆系后,就可以对其中的BAC逐个进行测序。这是由各国政府及非赢利机构所支持的公共领域测序计划在20世纪90年代中期所确定的策略。其基本工作步骤是:将待测BAC克隆随机切成小片段(约1.52kb);将小片段克隆入测序载体;对小片段DNA进行810倍左右覆盖率的测序;将相互重叠的读出序列组装成连续的重叠线;从质量最高的读出序列中取得序列;利
9、用引物延伸或其他方法对BAC克隆中还存在的缝隙进行填补。v全基因组的“鸟枪法”测序这是一个十分大胆的构思,即在获得一定的遗传和物理图信息的基础上,绕过BAC克隆逐个排序的过程,直接将基因组DNA分解成2kb左右的小片段进行随机测序,辅之以一定数量的10kb克隆和BAC克隆的末端测序,利用超级计算机进行序列组装。由Craig Venter领导的私营研究所TIGR于1995年首先将这一策略应用于微生物基因组的测序并获得成功。v序列的精度标准工作框架图:45倍的覆盖率,错误率低于1%,90%以上的序列完成图:1012倍的覆盖率,错误率低于1/10000,没有缺口v基因组中间的某些部分,主要是着丝粒区
10、域和端粒区,因存在大量高度重复序列而非常不稳定,是目前还难以克隆的部分。因此基因组的最后完成序列并不包括这部分的序列。Genomic DNA-3 billion BP-23 Pairs of chromo.,30-300 M bp eaCut into big pieces -150-200k bp(BAC)-0.1-1.5 M bp(YAC)Clone pieces into bacteria or yeast:Each is a Bacterial Artificial ChromosomeNeed 20,000 BACs to represent human genomeIsolate
11、DNA fromHuman tissueGrow indiv.clonesIsolate plasmid DNAContaining human BACCut into smaller pieces2,000 bpsub-clone each pieceInto sequencing vectorGrow upAnd isolate DNAFor sequencingSequence each sub-clone(500-800 bp/sequencing run)ACTTAGTACGCAGAGGTCRepeat the process for each sub-clone,and each
12、BAC/YAC clone,but cut in different places to generate overlapping pieces:Intact BAC/YAC(human DNA)Cut&Sequence 1Cut&Sequence 2ASSEMBLE the parts,using overlap to create Contigs53v确定每一个基因,研究它的结构、特性和功能是人类基因组计划的又一个重要内容。通过对人类基因组全部DNA序列的测定,可以利用计算机找出分布在DNA两条互补链上所有可能编码蛋白质的基因。其中有一部分是人类已了解的基因,但更多的是我们尚不完全了解的“
13、基因框架”,我们称这些结构为可译框(ORF)。在DNA结构特征上ORF含有翻译的起始密码子、外显子及内含子的剪接信号、翻译终止信号和3poly(A)加尾信号。根据中心法则,人们可以预测某种ORF编码的蛋白质的氨基酸序列,甚至这个蛋白质的空间结构及功能。应该指出的是,人类要真正破译所有的ORF的功能及其生物学意义还需要相当长的时间。目前的人类基因组研究只是为实现这一最终目标提供最基本的素材-DNA 序列以及基因的结构特征。v人类基因组计划的庞大规模需要建立与之相适应的大规模、高通量的相关技术,如高通量的自动测序技术,数据质量评估和组装的软件系统,为了将作图、测序和信息学技术形成高度自动化的大规模
14、生产线并进行全过程的质量监控而研制的实验室信息管理系统等。vHGP除了人类基因组的作图、测序之外,还包括对一批模式生物体的基因组研究,如:大肠杆菌、面包酵母、线虫、果蝇、拟南芥菜、小鼠等。低等模式生物的基因组结构相对较简单,对其进行全基因组作图测序,可为人类基因组研究进行技术探索和积累经验。更重要的是,这些研究有助于在基因组水平认识进化规律,以及利用模式生物的转基因和基因敲除术来研究基因的功能,可谓一石多鸟。v随着遗传和物理图谱的进一步完善,测序技术的进一步改进及成本下降,对其他各种模式生物体,尤其是基因组很大的哺乳类动物和植物基因组的测序将会不断展开。v作图和测序计划进行中会产生大量数据。这
15、些数据只有被有效地收集、储存和分析,并对全世界的研究人员开放,才有价值。为此,需设立收集及分发作图和测序数据的信息中心,并建立信息的储存、检索和分析的计算机软件系统。v迄今,国际上3个大的生物信息中心即美国的国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)利日本DNA数据库(DDBJ)已经建立和维持了源自数百种生物的DNA序列的大型数据库。v目前已建立各种不同的序列信息分析系统,包括基因的识别,蛋白质模体的鉴定,调控元件的分析,重复序列的鉴别,相似性的分析,核苷酸组成的分析以及物种间的比较等。vHGP是一个全球性的合作项目,共有6个国家直接参与了这一计划,包括美国、英国、法国、
16、德国、日本和中国,其中美国承担了大部分的工作。vHGP是一项高投入的计划。美国预期投入的研究经费高达30亿美元。据报导,个美国出租车司机曾形象地说:“人类基因组计划就是一个美元测一个碱基对。”v到2003年4月完成人类基因组序列图时,HGP共耗资27亿美元,比原先预计的有明显节省。v2000年6月26日,中、美、日、德、法、英等6国科学家联合宣布,首次绘成人类基因组“工作框架图”。v2001年2月12日,六国科学家联合在学术期刊上发表人类基因组“工作框架图”及初步分析结果。v2001年8月26日,人类基因组“中国卷”的绘制工作宣告完成。v2003年4月14日,中、美、日、德、法、英等6国科学家
17、宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。已完成的序列图覆盖人类基因组所含基因区域的99,精确率达到99.99,这一进度比原计划提前两年多。v对大肠杆菌、酵母、线虫、果蝇的基因组计划都已经完成,小鼠的基因组计划也已接近完成。v初步分析发现鼠与人的基因组存在着很高的相似性。鼠基因组共有约27亿个碱基对,比人类少15,但其包含的基因数目约在3万个左右,与对人类基因数的最新估计非常接近。分析还显示,鼠基因组中可能也存在与人类基因组中类似的由重复序列组成的“垃圾DNA”。v根据2001年2月15日和l 6日在Nature和Science上发表的资料,人类基因组的大小将是3.210
18、9 bp,人类基因数目大约为30000-40000个;发生转录的区域占28,在成熟mRNA中的编码序列占1.4;重复序列占54;估计每个基因产生3种以上编码蛋白变异体的转录本,共识别了1278个蛋白家族其中仅94个(7.4)是脊椎动物所特有。v在医学领域的应用对特殊疾病基因的确定有利于优生和产前诊断加强对癌症的认识和治疗 有利于医学生物学的研究v确定人类基因组中的转座子(transposon)、逆座子(retroposon)和病毒残余序列的分布,了解有关病毒基因组侵染人类基因组的情况,可指导人类有效地利用病毒载体进行基因治疗.v对染色体和个体之间的多样性的研究结果可被广泛用于基因诊断、个别识别
19、、亲子鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究中.v研究DNA的突变、重排和染色体断裂等,了解疾病的分子机制,包括遗传性疾病、易感性疾病、放射性疾病和感染性疾病引发的分子病理学改变及其进程,为这些疾病的预后以及分子水平上的诊断、预防和治疗提供依据。v在基础理论研究方面的应用 确定人类基因组中基因的序列、组织和物理位置,有利于研究基因的功能以及它们相互之间在表达和调控机制方面的联系。了解转录和剪接调控元件的结构与位置,有助于从整个基因组结构的宏观水平上理解基因转录与转录后的调控。从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列”的大小。了解各种重复序列和非转录序列在染色
20、体结构、DNA复制、基因转录和表达调控中的影响和作用。研究空间结构对基因调控的作用。有些基因表达的调控序列与被调控基因从直线距离上看,似乎相距较远,但若从整个染色体的空间结构上看则恰恰处于最佳的调控位置。因此有必要从三维空间的角度来研究真核基因的调控。研究正常基因与突变基因的差别,会帮助阐明与正常的生理学和疾病发生都有关的新的生化和细胞学机制。尽快地确定出疾病基因,能使研究者对该基因的蛋白产物及其细胞生物学效应进行深入的研究。有利于确立有重要功能意义的基因组结构的特征。人类染色体含有许多不是基因的片段,一些特定片段对细胞分裂前染色体复制和确保染色体组正确地分配到两个子细胞中是不可缺少的。这些片
21、段的性质及行使功能的机制鲜为人知,人类基因组的物理图谱将为探讨这些特定片段性质及作用的实验打下基础。发现新的基因和蛋白质。迄今仅有少数参与正常和疾病的人类基因被确定。对人类基因组作图和测序将会确定出大量新的人类基因及其编码的蛋白质。另外,物理图谱将有助于对那些已大体定位在染色体上,但尚未分离出的基因进行精确定位。v在生物学研究领域的应用生物进化研究 人类基因组记载着人类的进化史。如果知道了人和其它生物基因组的全序列,就有可能追溯出人类基因的起源。分子考古研究真核生物基因组中,编码序列仅占一小部分,而绝大部分的序列是非编码序列。有人推测,若能识别出退化的重复系列,则有可能50的人基因组和50以上
22、的鼠基因组是由重复序列组成的。由于重复序列出现和持续的年代可由种系之间的比较来确定,它们可作为一种很有价值的时间标志,用于分子考古学的有关复杂基因位点的研究。v基因组计划的进行将迫使人类对许多超出人类目前认识范围的棘手问题做出决断。例如:人们能否允许继续利用改变基因组的办法来改造人类自身,控制生育进程?甚至参与引导自然进化?能否借助科学的力量和智慧人为创造出一个”完美的基因组”?应该从伦理学及法律上建立什么样的支持体系及干预措施?这些都必然涉及到社会科学中伦理学和法律问题。v伦理和社会学方面如何解释遗传信息的医学意义 人类基因组作图和测序工作将提供大量有关人类疾病的遗传学基础的新知识。不谨慎地
23、解释有关基因与疾病相关的信息,将对携带这些基因但不会生病的人带来灾难。遗传学隐私权将是下一代人激烈争论的宪法问题在时代周刊和美国有线新闻网()的一项民意测验中,应答者还明确地表示出了他们对人类基因组计划进展的忧虑。他们最担心的问题是隐藏在人类基因组中的秘密被公开化,从而很可能对个人带来一系列的不利的后果。合理地使用研究成果如何利用人类基因组计划所产生的信息是最大的社会问题。作为计划的副产品,大量新的针对某些性状和病况的试验将会得到应用。也很有可能被用于人事和保险等有关政策中,以及用于对胎儿遗传性状的选择。v商业与法律方面人类基因组计划将会产生一些有潜在商业价值的新信息和材料。这些信息和材料就象编码那些尚未发现的激素、生长因子或免疫介质一样,它们的商业价值也存在保护参与者贡献的智力与知识产权和所有权的问题。是否有可能对人类基因组的序列实行版权法?由谁来执行?政策中某一中心机构是否享有计划所产生的克隆这样的新材料的专利?这些复杂问题应该由全世界的科学家、律师和政策决定者来共同研究。这些问题在前一段时间内,科学界进行了激烈的讨论,且基本上达成共识:人类基因组序列是全人类的共同财富,不应对它的使用进行限制。