1、任科教师任科教师: 余爱丽余爱丽生命科学院生命科学院 分子生物分子生物学与生物信息学系学与生物信息学系 基因组就是一个物种中所有基因的整体组成。 基因组有两层意义:遗传物质和遗传信息。 要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。 Zea mays 8,000Homo sapiens 3,000Oryza sativa 400Drosophila melanogaster 165Arabidopsis thaliana 100Saccharomyces cerevisiae 12E.coli 4.6Genome Size (Mb)什么是什么是C 值?
2、值?C值悖理:值悖理: 生物的复杂性与基因组的大小并不完全成比生物的复杂性与基因组的大小并不完全成比例增加例增加细菌细菌真菌真菌等等动物动物阴影部分为一个门内阴影部分为一个门内C-值的范围值的范围重复顺序重复顺序 高度重复顺序:高度重复顺序: 长度:几个长度:几个几千个几千个bp 拷贝数:几百个拷贝数:几百个上百万个上百万个 首尾相连,串联排列首尾相连,串联排列 集中分布于染色体的特定区段(如端粒,着丝粒等)集中分布于染色体的特定区段(如端粒,着丝粒等) 也称卫星也称卫星DNA 中度重复顺序:中度重复顺序: 一般分散于整个基因组中;一般分散于整个基因组中; 长度和拷贝数差别很大长度和拷贝数差别
3、很大 单一顺序:单一顺序: 基因主要位于单一顺序基因主要位于单一顺序 动物中单一顺序约占动物中单一顺序约占50 植物中单一顺序约占植物中单一顺序约占20 DNA 的复性的复性 遵循二级反应动力学,可表述为:遵循二级反应动力学,可表述为:dCt / dt = -KC02 反应达反应达 t 时,单链时,单链DNA浓度浓度 = CtC0 = 单链单链 DNA起始浓度起始浓度 K 复性速度常数复性速度常数顺序复杂性Cot(1/2) = 1/K (mol. Sec / L) 常数常数 Ct/C0 0101C0t(1/2) C0t(1/2) C0t(1/2)值与基因组复杂性成正比。值与基因组复杂性成正比。
4、 是遗传信息的物理和功能单位,包含是遗传信息的物理和功能单位,包含产生产生一条多肽链或功能一条多肽链或功能RNA所必需的全部核苷酸所必需的全部核苷酸序列。序列。 基因分类:基因分类: 编码编码RNA的基因,如的基因,如rRNA基因,基因,snRNA基因等;基因等; 编码蛋白质的基因编码蛋白质的基因2. 什么是基因?什么是基因?基因的不连续性基因的不连续性Intron 和和Exon: 大多数真核生物蛋大多数真核生物蛋白质基因的编码顺白质基因的编码顺序序(Exon)都被或长都被或长或短的非编码顺序或短的非编码顺序(Intron)隔开隔开基因家族基因家族 一群具有一群具有一致的一致的或或相似相似顺序
5、顺序的基因的基因, ,有的还担负有的还担负类似的生物学功能类似的生物学功能, , 可以相互补偿可以相互补偿, , 比如比如: :E2f E2f transcription factor transcription factor 假基因假基因(Pseudogene) 来源于功能基因来源于功能基因 但已失去活性但已失去活性 的的DNA序列序列产生假基因的原因有产生假基因的原因有:1. 由重复产生的假基因由重复产生的假基因;2. 加工的假基因加工的假基因, 由由RNA反转录为反转录为cDNA 后再整合后再整合到基因组中到基因组中;3. 残缺的基因残缺的基因(Truncated gene) 重迭基因有
6、以下几种情况:重迭基因有以下几种情况:*一个基因完全在另一个基因内部一个基因完全在另一个基因内部*部分重叠部分重叠* 两个基因共用少数碱基对两个基因共用少数碱基对 *一个基因完全在另一个一个基因完全在另一个基因内部基因内部如:如:B和和A, E和和D 其读码结构互不相同其读码结构互不相同 -ATG-/-AATGCC -/-ATAACG-/-TAA-A*BATGCCN-NNATAA*部分重叠部分重叠 如:如: K和和C *两个基因共用少数两个基因共用少数碱基对碱基对 如:如: D和和J-TAATG-D 终止密码子终止密码子J 起始密码子起始密码子A 克隆于质粒中DNA用碱或热变性B M13克隆单
7、链DNAC 噬粒克隆DNAD PCR产生单链DNAA 高酶活性B 无53外切酶活性C 无35外切酶活性ddATP/ddCTP/ddGTP/ddTTP 的3碳原子连接的是氢原子,不是羟基哌啶1 ATACGTTA2 GTTAGATC3 ACGTTAGA4 CGTTAGAT5 GTTAGATCDNA 样品 TATGCAATCTAG与基因芯片上 65,000 种可能的八聚体进行杂交从而形成特定的结合图形计算机分析杂交图象并由探针的重叠情况推导样品的核酸序列1 ATACGTTA3 TACGTTAG4 ACGTTAGA2 CGTTAGAT5 GTTAGATC3 TACGTTAG4 ACGTTAGA2 CG
8、TTAGAT互补序列为:ATACGTTAGATC样品序列为:TATGCAATCTAG利用基因芯片进行杂交测序的原理ABCABCABCABC小片段测序小片段测序计算机拼装计算机拼装ABC小片段测序小片段测序计算机拼装计算机拼装鸟枪法鸟枪法(Shotgun)测序的问题测序的问题 CAATGCATTAGCAGCCAATGCGAP错装错装解决办法:通过相邻已知顺序作为探针筛选已有的基因组文库解决办法:利用其它宿主菌与载体重新构建文库 先将染色体打成比较大的片段先将染色体打成比较大的片段(几十几十-几百几百Kb), 利用利用分子标记将这些大片段排成重叠的克隆群分子标记将这些大片段排成重叠的克隆群(Con
9、tig), 分别分别测序后拼装测序后拼装. 这种策略叫这种策略叫基于克隆群基于克隆群(contig-based)的策的策略略.ABCABC大片段大片段contig小片段测序拼装小片段测序拼装两种策略的比较两种策略的比较鸟枪法策略鸟枪法策略 指导测序指导测序策略策略不需背景信息不需背景信息 构建克隆群构建克隆群 (遗传、物理图谱遗传、物理图谱)时间短时间短 需要几年的时间需要几年的时间 需要大型计算机需要大型计算机得到的是草图得到的是草图(Draft) 得到精细图谱得到精细图谱 5.1 人类基因组计划的目的n阐明人类基因组30亿个碱基对的序列,发现所有人类基因,并搞清其在染色体上的位置;n破译人
10、类全部遗传信息,使人类第一次在分子水平上全面地认识自我;n解码生命、了解生命的起源、了解生命体生长发育的规律;n认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。5.2 人类基因组草图的完成 2000年6月26日是人类历史上值得纪念的一天。人类基因组的工作草图已经绘制完毕并于这天向全世界公布。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构,序列错误率低于万分之一。随机测序与序列组装方法和指导测序与序列组装方法相结合进行序列组装5.4 人类基因组测序结果 基因数是基因数是3万、万、4万还是万还是10万万 人类遗传基因数量比原
11、先估计的少很多。目前研究表明,人类基因组中约有3万至4万个蛋白编码基因,仅仅是果蝇基因数目的两倍,人有而鼠没有的基因只有300个。此结论是由两大科研小组的数据是从DNA水平上得出的;而“人类有10万多个基因”则是从RNA水平上得出的结论。所以,这些数据不能推翻“人类有10万个基因”的说法。人类基因组研究的惊人发现 19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” 不包含或含有极少基因的成分。基因组上
12、大约有14的区域没有基因的片段。 353的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA也起重要作用,应该被进一步研究。什么是单核苷酸多态性 人类999的基因密码是相同的,而差异不到01,不同人群仅有140万个核苷酸差异。这些差异是由“单一核苷酸多样性”(SNP)产生的,它构成了不同个体的遗传基础,个体的多样性被认为是产生遗传疾病的原因。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。 5.5 人类基因组计划的意义 随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发生巨大变化。人类基因研究的意义在于它可以支持和推动生命
13、科学中一系列重要的基础性研究。如基因组遗传语言的破译,基因的结构与功能关系,生命的起源和进化,细胞发育、生产、分化的分子机理,疾病发生的机理等。5.6 人类基因组计划的论理学6. 后人类基因组计划 伴随着人类基因组计划的迅速进展,基因的全序列逐步被完整的测出,会出现大量的不知道任何功能信息的序列。因此,在HGP完成之后,即全部人类基因被定序之后,还需要:n破解贮存于基因组之中的遗传语言;n识别、分离、鉴定和克隆所有基因;n搞清每个基因的功能及基因之间的相互作用和相互关系。7 水稻的基因组 2002年我国科学家完成了水稻基因组定序和初步分析。出人意表的是,水稻的基因竟比人类基因还要多得多。人类基因大约有3-4万个,水稻有46022-55615个基因。因此水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是至今已知最大的植物基因组。由于水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。cDNA文库构建cDNA文库构建5RACE3RACE