1、 第三章第三章 基因和基因组基因和基因组1基因?基因?2 顺反子通过顺反试验确定,如两个位点可以互补,则不属于一个顺反子;如两个位点不可以互补,则属于同一个顺反子。 上图为突变发生在相同基因无互补,下图为突变发生在不同基因,图中蓝条表示基因,红点表示突变位点。 3中心法则中心法则修改后的修改后的中心法则中心法则41961年Jacob和Monod提出操纵子学说操纵子学说,和结构基因、调节基因、操纵基因等概念。 结构基因结构基因(Structure gene)是指为蛋白质或RNA编码的基因,结构基因的突变可导致蛋白质或RNA一级结构的改变。结构基因的5-端非编码区(5-untranslated r
2、egion, 5-UTR)包括RNA聚合酶的识别和结合位点,被称作启动子(Promoter),结构基因的3-非编码区(3-UTR)包括促使转录终止的终止子(terminator)序列,和真核生物的加尾信号等。调节基因调节基因(regulator gene)的功能是产生调控蛋白质,调控结构基因的表达。操纵基因操纵基因(operator gene)的功能是与调控蛋白质结合,控制结构基因的表达。调节基因和操纵基因的突变会影响一个或多个基因的表达活性。55 5、AGCCGACTATGTCGAAGCTTAGCCGACTATGTCGAAGCTT、GCTTGACTATAAGACAGCTTGACTATAAGA
3、CA、3 33 3、TCGGCTGATACAGCTTCTAATCGGCTGATACAGCTTCTAA、CGAACTGATATTCTGTCGAACTGATATTCTGT、5 5转录调控区转录调控区 贮存贮存RNARNA或蛋白质结构信息区或蛋白质结构信息区 转录终止区转录终止区63.1基因(gene)的概念 狭义:基因是核酸中贮存遗传信息的遗传单位,是编码多肽链或RNA所必需的全部核苷酸序列,以及为保证转录所必需的调控序列,和编码区上游5-端和下游3 -端的非编码序列。 广义:DNA或RNA分子中有特定遗传功能的一段序列。 从生化学上来说指的是一段DNA或RNA(病毒)顺序,该顺序可以产生或影响某
4、种表型,可以由于突变生成等位基因变异体。 从遗传学上来说代表1个遗传单位、1个功能单位、1个交换单位或1个突变单位。 73.23.2基因的类型基因的类型3.2.1 3.2.1 基因家族和基因簇基因家族和基因簇 基因家族基因家族(gene family)是真核生物基因组中来源相同、结构相似、功能相关的一组基因。基因家族各成员序列上具有相关性,但相似的程度以及组织方式不同。基因家族可能由某一共同祖先基因(ancestral gene)经重复(duplication)和突变产生。8按照基因家族的成员在染色体上的分布,可以将基因家族分成两类。串联重复基因串联重复基因(tandemly repeated
5、 genes),成簇的基因家族(clustered gene family),或基因簇基因簇(gene cluster),是基因家族的各成员紧密成簇排列而成的串联重复单位,定位于染色体的特殊区域。在染色体上的分布相对集中。 分散的基因家族分散的基因家族(interspersed gene family),其家族成员在DNA上无明显的物理联系,甚至分散在多条染色体上,各成员在序列上有明显的差别。9按照家族中各成员的序列相似程度分为:简单得多基因家族:序列高度同源,同一转录单元重复排列成基因簇 如rRNA基因复杂的多基因家族:几个功能相关基因,串联重复排列,不同转录单元,如组蛋白基因家族受发育调控
6、的多基因家族:复杂多基因家族,在染色体上排列顺序与其发育过程中的表达顺序相关。10基因超家族(gene superfamily)基因超家族是指一组由多基因家族及单基因家族组成的更大的基因家族。它们的结构有程度不等的同源性,因此它们可能起源于相同的祖先基因,但是它们的功能并不一定相同,这一点正是与多基因家族的差别所在。这些基因在进化上也有亲缘关系,但亲缘关系较远,故将其称为基因超家族。113.2.1.1 简单的多基因家族简单的多基因家族 家族中各基因的全序列或至少编码序列具有高度的同源性,如rRNA基因家族。真核生物的rRNA基因串联重复排列在一段很长的DNA区域内。重复单位内rRNA基因转录区
7、的序列几近相同,而非转录的间隔序列则有所不同。在低等真核生物如酵母的rRNA基因家族中,28S, 18S, 5.8S和5S rRNA基因构成一个转录单元,而高等真核生物的5S rRNA基因则单独作为一个基因家族排列在其它部位。每个转录单元重复排列成基因簇,基因之间由可转录的间隔区(TS)分开,各转录单元之间由不可转录的间隔区(NTS)分开(图3-1)。 123.2.1.2 3.2.1.2 复杂的多基因家族复杂的多基因家族 复杂的多基因家族由几个相关基因构成独立的转录单元,家族间由间隔序列分开。例如,组蛋白基因的5个成员(H1, H2A, H2B, H3, H4)就属于这一类型。人类组蛋白基因分
8、布在第7号染色体,拷贝数为3040个。 133.2.1.3 3.2.1.3 受发育调控的复杂多基因家族:受发育调控的复杂多基因家族:人类珠蛋白基因家族基因排列的次序与它们在个体发育阶段基因表达的先后次序一致。在家族中, (Xi)基因在胚胎早期(前8周)表达,胎儿期(8周后)关闭,2和1在胎儿(8周后)和成人期都表达。在家族中,基因排在最前面,在胚胎早期(8周内)表达,之后关闭。G和A基因在胎儿期表达,出生前表达量逐渐衰减,而出生后并不完全关闭,仍然少量表达。基因在胚胎期和成年期都有少量表达。基因在胚胎期开始表达,表达量逐渐增加,是成人阶段表达的主要基因(表3-1)。1416号染色体11号染色体
9、153.2.1.4 超基因家族超基因家族 超家族基因超家族基因(gene superfamily)是指一组由多个基因家族组成的更大的基因家族。在高等真核细胞内,有些基因簇内含有数百个功能相关的基因,它们是由基因扩增后结构上的轻微变化而形成的,在结构上有着不同程序的同源性。这些基因或保持了原始基因的基本功能,或进化产生了某些新功能。目前已发现了很多的超基因家族,典型的例子有免疫球蛋白超基因家族、核受体超基因家族、细胞因子超基因家族等。 免疫球蛋白(immunoglobin, Ig)超基因家族包括2微球蛋白、MHC I类链、II类和链、T细胞受体(TCR)的 链和链、CD4和CD8等与免疫有关的大
10、分子。还有许多与免疫反应无关的蛋白质分子,如IgE受体亚基,神经黏附分子L-1,白细胞介素IL-1和IL-6的受体等。16 Superfamily is a set of genes all related by presumed descent from a common ancestor, but now showing considerable variation. Immunoglobulin type and function is determined by the heavy chain. J is a joining protein in IgM and IgA; all ot
11、her Ig types exist as tetramers.173.2.2 3.2.2 假基因(假基因(pseudogenepseudogene) ) 假基因常用符号表示,如1 表示与1 相似的假基因. 假基因与有功能的基因同源,原来也可以是有功能的基因,由于发生缺失(deletion)、例位(inversion)或点突变(point mutaion)等,成为无功能的基因,即形成了假基因,哺乳动物基因组中的1/4基因为假基因,可能为进化的痕迹。18 传统的基因概念把基因看作彼此独立的、非重叠的实体。但是,随着DNA测序技术的发展,在一些噬菌体和动物病毒中发现,不同基因的核苷酸序列有时是可以
12、共用的。也就是说,它们的核苷酸序列是彼此重叠的。这种具有独立性但部分序列彼此重叠的基因称重叠基因重叠基因(overlapping genes)或嵌套基嵌套基因因(nested genes)。 近年来的研究发现,重叠基因在真核生物中是广泛存在的。值得注意的是,高等真核生物中既存在大量的非编码序列,又普遍存在重叠基因,其生物学意义目前所知甚少,有待于进一步深入研究。 3.2.3 重叠基因重叠基因193.2.4 移动基因移动基因 移动基因移动基因(movable genes)又称转座因子转座因子(transposable elements)。由于它可以从染色体的一个位置转移到另一个位置,甚至在不同染
13、色体之间转移,因此也称跳跃基因跳跃基因(jumping genes)。 关于移动基因的详细介绍见第6章。 203.2.5 断裂基因断裂基因3.2.5.1 断裂基因的概念断裂基因的概念 过去人们一直认为,基因是连续不断地排列在一起一段DNA序列。但是对真核生物编码基因的研究发现,在编码序列中间插有非编码的DNA间隔区,这些间隔区称为内含子内含子(intron);而编码区则称为外外显子显子(exon)。含有内含子的基因称为不连续基因或断断裂基因裂基因(split genes)。21mRNA的前体是核内不均一RNA,实验证据P47(如何发现的,杂交、限制性酶切图谱)不连续基因是普遍现象(原核极为少见
14、,古细菌和噬菌体中发现了断裂基因)断裂基因共性:外显子排列顺序与产物相同,在不同组织中其内含子成分相同,内含子突变不影响蛋白产物22 断裂基因是Roberts和Sharp于1997年在研究腺病毒六邻体外壳蛋白质的mRNA时首先发现的,病毒DNA与它的mRNA进行分子杂交时,在电镜下观察到未与mRNA配对的DNA形成多个突环,称R环。R环的形成说明腺病毒外壳蛋白质的基因具有mRNA中不存在的序列,这些序列就是内含子。 图3-5中的(a)为电子显微镜照片,(b)为对电子显微镜照片进行解释的示意图,(c)为腺病毒六邻体外壳蛋白质基因结构的示意图。后来发现,鸡卵清蛋白质的基因与其mRNA杂交也会出现与
15、其内含子数对应的7个R环。 23 研究断裂基因的另一个方法是比较基因组DNA和cDNA的限制性核酸内切酶图谱。cDNA是由成熟的mRNA通过逆转录生成的,因而不含内含子。若用相同的限制性核酸内切酶水解基因组DNA和cDNA,在同样的条件下进行凝胶电泳,如果内含子中有限制性核酸内切酶的水解位点,基因组DNA的电泳图谱中就会有相应的条带,而cDNA电泳图谱中的相应条带则会缺失。 研究发现,断裂基因在表达时首先转录成初级转录产物,即前体mRNA,然后经过后加工,除去内含子序列的转录物,成为成熟的mRNA分子。这种删除内含子、连接外显子的过程,称为RNA拼接或剪接。 24Comparison of t
16、he restriction maps of cDNA and genomic DNA for mouse -globin shows that the gene has two introns that are not present in the cDNA. The exons can be aligned exactly between cDNA and gene. 通过比较cDNA与基因组DNA的限制性核酸内切酶图谱,也可以分析内含子的数量。25 The ovalbumin gene, shown here, has introns A to G and exons 1 to 7 an
17、d L (L encodes a signal peptide sequence that targets the protein for export from the cell). About three-quarters of the RNA is removed during processing. Pol II extends the primary transcript well beyond the cleavage and polyadenylation site (“extra RNA”) before terminating transcription. Terminati
18、on signals for Pol II have not yet been defined.Overview of the processing of a eukaryotic mRNA263.2.5.2 断裂基因的分子进化断裂基因的分子进化 在真核生物的进化过程中,断裂基因的比例在逐渐增加。低等真核生物酿酒酵母中的大多数基因是连续的。在高等真核生物中,开始出现长基因,蝇类和哺乳动物基因很少小于2kb,大多数长度在5100kb,含有几个到几十个内含子。但当基因的长度大到一定程度后,DNA的复杂性与生物的复杂性之间开始失去对应关系。例如,虽然属于同一个门,家蝇细胞的DNA总量却是果蝇的6倍。
19、在较高等的真核生物中,基因大小主要取决于内含子的长度,与外显子的大小和数目关系不大。动物细胞的内含子一般为80100kb,平均1127bp,有保守的分支点序列及多聚嘧啶区段。植物细胞的内含子较短,一般为802000bp,平均183bp。 27 DHFR(二氢叶酸还原酶)有一个较大的基因,由6个外显子组成,相对应mRNA长度为2000bp,但是它的DNA序列却十分长,这是由于它的内含子非常长的缘故,在三种哺乳动物中,外显子基本保持一样,内含子的相对位置也不改变,但长度变化却非常大,这就导致了基因长度范围为2531kp。Mammalian genes for DHFR have the same
20、relative organization of rather short exons and very long introns, but vary extensively in the lengths of corresponding introns.28 在基因的进化中,可能发生外显子的复制,结果在结构基因内出现了重复序列。在鸡的胶原蛋白质基因中,一个54bp的外显子多次重复,某些外显子累积突变,失去编码功能,就可能转化为内含子。 外显子作一种功能模块,可以组装到不同的基因内。因此,在基因进化中,经常发生着外显子在不同基因之间的复制、迁移和吸纳。例如,在多种脱氢酶的基因内,均有几乎相同的
21、与辅酶结合或脱氢酶催化区域功能有关的外显子结构。另一个典型的例子是人类低密度脂蛋白质(low density lipoprotein, LDL)受体与其他蛋白质之间的关系。LDL受体基因由18个外显子构成,中间的几个外显子也出现在生长因子前体的基因内,其N端的几个外显子也为血蛋白质互补因子C9编码。 29The LDL receptor gene consists of 18 exons, some of which are related to EGF precursor and some to the C9 blood complement gene. Triangles mark the
22、 positions of introns. Only some of the introns in the region related to EGF precursor are identical in position to those in the EGF gene.LDL(低密度脂蛋白)受体基因的中心部分的一系列外显子和EGF(表皮生长因子)前体基因同源,在其N端的外显子序列和血蛋白补充因子C9的基因同源,这说明LDL基因中一系列不同功能的组份组合而具备了新的功能,而这些组份也存在于别的蛋白中。30 产生新基因的另一种方式是某些内含子插入到外显子内,使外显子变得更小,或将内含子切除,
23、使外显子变得更大。例如,珠蛋白超家族包括血红蛋白(hematoglobin)、肌红蛋白(myoglobin)和豆血红蛋白(leghemoglobin),以及其它血红素结合蛋白。血红蛋白分子是由2个-珠蛋白和2个-珠蛋白分子构成的四聚体。肌红蛋白为单体,结构类似于珠蛋白。豆血红蛋白类似于肌红蛋白,可能是珠蛋白相关基因的共同祖先。肌红蛋白和珠蛋白基因内第2外显子负责与血红素结合,而豆血红蛋白不同于珠蛋白和肌红蛋白,它的基因有3个内含子,其中第2内含子把血红素结合域的外显子又分隔成2个外显子。可能的进化途径是,豆血红蛋白丢失内含子,使珠蛋白或肌红蛋白的两个外显子融合成了一个。 31The rat i
24、nsulin gene with one intron evolved by losing an intron from an ancestor with two interruptions. 哺乳动物(除了啮齿类)和鸟类编码胰岛素的基因是由同一基因演化分离而来的。鸡的胰岛素基因有2个内含子,大鼠的其中一个基因与之有相同的结构。这个共同性说明胰岛素最初有2个内含子,而大鼠的另一个基因只含有1个内含子,说明它在演化过程中首先进行复制,然后从一个拷贝中精确地移去了一个内含子。32 原始的鱼类只有一种珠蛋白链,硬骨鱼和两栖类有连锁的基因和基因,说明在大约5亿年前, 硬骨鱼进化期间,珠蛋白祖先基因倍增
25、,并变异形成了基因和基因。哺乳类和鸟类是在约3.5亿年前同两栖类分开的,基因和基因的分开应在此之前,也许发生在2.7亿年前(图3-7)。随后,突变引起的趋异进化形成了基因簇和基因簇的各个成员。 和珠蛋白基因间置换位点的差别是3.7%,单位进化时间,即产生1%差异所需的百万年数为10.4,估算趋异的时间为10.43.7百万年,大约在4000万年前。和基因间置换位点的趋异度为9.6%,估算趋异的时间大约在1亿年前(图3-8)。 33Actin (肌动蛋白) genes vary widely in their organization. The sites of introns are indic
26、ated in purple; the number identifies the codon interrupted by the intron.34 根据内含子的保守序列组分、二级结构以及剪接机制可将其分为4种类型。I型内含子主要出现在细菌、真菌线粒体和低等真核生物的rRNA基因中,估计出现于35亿年前,主要特点是具有自我剪接能力。II型内含子的特点是转录初始产物自我剪接时,能形成套索结构(lariat),可能与I型内含子同时或稍后出现。III型内含子存在于大多数真核生物编码蛋白质的基因中,其RNA产物在剪接时需要有酶和蛋白质的参与,应在真核生物出现之后,即7亿10亿年出现。IV型内含子出
27、现在tRNA中,剪接时,由内切酶切除内含子,连接酶连接外显子,应在真细菌和真核生物分化之前,即大约17亿年前出现。 35内含子比外显子变化快用重复基因的内含子片段和外显子片段分别作探针,进行分子杂交实验发现,重复基因之间的外显子序列着很大的同源性,但内含子序列几乎没有同源性。说明在进化过程中,相关基因的内含子比外显子变化快得多。虽然突变以相同的频率发生在外显子和内含子上,但发生在外显子上的突变将使基因编码的产物丧失功能,导致生物体无法通过自然选择,这种突变就被淘汰了。而内含子由于没有编码功能,可以自然的累积各种突变,导致它产生了较大的变化。 36 外显子的差异主要由于碱基替代造成的,在被翻译的
28、序列内,若突变会引起AA序列的改变,则相应的生物可能在进化中被淘汰。许多保留下来的变化并未影响密码子的含义,因为这些发生变化的碱基常是密码子的第三个碱基,或在非翻译序列(如5-端和3-端序列)中。 而在内含子中,序列变化多是由于碱基插入或缺失或替换造成的。内含子演化的速度比外显子快得多,不同物种相同基因相比较,有时发现外显子是同源的,而内含子却有很大差异。 在内含子、外显子中突变速率是相同的,但外显子通过自然选择不易保留突变,而内含子由于不编码AA,可以自由地发生突变,通过不断积累最终导致巨大差别,这种差异也说明了内含子不具备序列特异性这个特征。 373.2.5.3 断裂基因的生物学意义断裂基
29、因的生物学意义 (1) 增加基因表达产物的多样性-RNA选择性剪接 (2) 促进重组 (3) 增加基因组的复杂性 (4) 有些内含子含有可读框(ORF) (5) 有些内含子含有部分剪接信号 (6) 有些内含子对基因表达有影响 383.3 基因组基因组3.3.1 基因组的概念基因组的概念 基因组基因组(genome) 指的是细胞或生物体全套染色体中所有的DNA,包括所有的基因和基因之间的间隔序列。 原核生物基因组就是其细胞内构成染色体的DNA分子,真核生物的核基因组是指单倍体细胞核内整套染色体所含有的DNA分子。核基因组+细胞器基因组(动物细胞线粒体基因组 偶或植物细胞的叶绿体基因组。39物种基
30、因组大小(bp)基因数目平均外显子数平均基因长度(kb)平均mRNA长度(kb)大肠杆菌4.21064 288010.95酵母1.31076 10011.41.4果蝇1.410813600411.32.7哺乳动物3.3109约30 000716.62.2表 3-2不同生物的基因数目和大小表3.2总结了一些生物体的平均基因大小,可以看出从低等到高等真核生物的mRNA的平均大小略有增加,而平均外显子数目则明显增加。可见,真核生物基因的大小在很大程度上取决于内含子的数目和长度。40 真核生物单倍基因组所包含的全部DNA量是相对恒定的,称该物种的C值值(C-value)。随着生物的进化,生物体的结构和
31、功能越复杂,其C值就越大。41 另一方面,生物体复杂性和C值之间的关系也有令人不解的现象。一些物种C值的变化范围很窄,如鸟类、爬行类和哺乳动物各门内C值的变化范围只有约2倍。但大多数昆虫、两栖动物和植物的C值可以相差数十倍乃至上百倍。突出的例子是肺鱼和百合属植物,具有比人类大得多的C值,两栖动物C值小的在109bp以下,大的则高达1011bp,而哺乳动物的C值均为109bp数量级。真核生物的C值与生物体复杂性之间对应关系的的反常现象称C值悖理值悖理(C value paradox)。 42433.3.2 病毒的基因组病毒的基因组 病毒的基本结构是由外壳蛋白质包裹着里面的遗传物质核酸。病毒进入活
32、的易感宿主细胞后,以其基因组核酸为模板,借助于宿主细胞本身提供的原料,消耗宿主细胞的能量,以自我复制的方法进行繁殖。 根据病毒基因组的核酸类型,将病毒分为DNA病毒和RNA病毒。根据宿主的不同,病毒又可分为动物病毒、植物病毒和噬菌体。不同类型的病毒,有不同的复制方式。 病毒是分子生物学研究中的重要模式物种。443.3.2.1 病毒基因组的一般特点病毒基因组的一般特点 病毒核酸的大小仅为细菌基因组的0.1%10%,病毒基因组具有以下结构特点: (1) 基因组很小,只能编码少数的蛋白质。有基因重叠,即同一个DNA序列可以编码2种或2种以上的蛋白质。 (2) 病毒基因组可以由DNA或RNA组成,但一
33、种病毒不会既含有DNA,又含有RNA。核酸的结构可以是单链或双链、闭合环状或线状分子。 (3) 基因之间的间隔序列(spacer sequence)非常短,非编码区只占基因组的很小部分。 (4) 功能上相关的基因一般集中成簇,转录产物一般多为顺反子mRNA,之后加工成各个蛋白质的mRNA。 (5) 噬菌体的基因是连续的,但大多数真核细胞的病毒都含有不连续基因。除正链RNA病毒外,真核细胞病毒的基因一般先转录成mRNA的前体,再经剪接才能成为成熟的mRNA。所以,真核细胞病毒基因的特性更像真核生物基因。 453.3.2.2 病毒的核酸病毒的核酸 病毒的DNA多数为双链结构 (dsDNA),如腺病
34、毒。也有单链DNA (ssDNA) ,如微小病毒科的病毒。 病毒的RNA多数为单链线状结构,少数呈双链结构。不少RNA病毒含有多个RNA片段,例如呼肠孤病毒(reovirus)有10个双链RNA片段,轮状病毒有11个双链RNA片段,流感病毒有8个单链RNA片段。如果病毒的单链RNA可直接作为mRNA,则称为正链RNA。若病毒以其RNA链的互补序列作为mRNA,则称为负链RNA。负链RNA病毒感染宿主细胞后,需要合成与其基因组RNA互补的RNA,这一过程由依赖于RNA的RNA聚合酶(RNA-dependent RNA polymerase)催化,但此酶在宿主细胞内不存在,而是由病毒颗粒携带的。因
35、此,只有用完整的负链RNA病毒颗粒感染宿主细胞,才能复制病毒。 46positive strand virusnegative strand virus47噬菌体噬菌体483.3.2.3 噬菌体的基因组噬菌体的基因组 噬菌体的基因组大小为4.85104bp,包括46个基因,分为头部基因、尾部基因、调控(免疫)区、复制控制区和晚期基因调控区等区域(图3-9)。 噬菌体依赖宿主细胞的RNA聚合酶合成3组RNA产物,有两种不同的结果,即裂解生长和溶原性反应。用外源DNA替代噬菌体基因组内与溶原化有关的基因区段(如整合基因int、切离基因xis和附着位点att等),可构建重组DNA分子,在基因工程和基
36、因文库构建方面有广泛的应用。493.3.2.4 X174噬菌体基因组噬菌体基因组 X174噬菌体基因组是单链环状DNA,含5386个核苷酸。共11个基因,构成3个转录单元,从3个转录启动子Pa、Pb和Pd分别开始转录基因A、B和D。在基因A和H之间有一强终止信号,所有转录均可在此位置终止。在基因J和F之间有一个弱终止信号,部分转录在此位置被终止,一部分mRNA继续转录到基因H结束。基因D-(E)-J-F-G-H都转录在同一条mRNA分子上(见图3-4)。 X174噬菌体11个基因的蛋白质产物都已被分离,蛋白质编码的总长度超过了DNA编码容量。将蛋白质的一级结构与DNA全部序列进行比较,发现X1
37、74噬菌体基因组内存在部分基因重叠。503.3.2.5 SV40病毒基因组病毒基因组 SV40病毒(simian vacuolating virus 40,SV40) 最初是在猴肾细胞中分离出来的,能引起人的培养细胞转化,在仓鼠和人体内可致肿瘤。SV40基因组只有5个基因,要完全依靠哺乳动物细胞内的系统进行它的DNA复制和基因表达。因此,常用SV40病毒作为模式生物,研究真核生物的基因表达,和病毒致癌的机制。SV40病毒的启动子和增强子被广泛用于真核生物基因表达载体的构建。 SV40病毒的外壳是二十面对称体的球状颗粒,中心包含有全长5243bp的双链环状DNA。DNA与组蛋白相连,形成24个核
38、小体,称为微小染色体,是真核细胞染色质的最小模型。 51 T抗原和t抗原基因以逆时针方向转录,发生在DNA复制之前,称为早期基因及早期转录。Vp1、Vp2和Vp3基因以顺时针方向转录,发生在DNA复制之后,称为晚期基因和晚期转录。在早期和晚期基因之间是SV40基因组的调控区,约400bp,这个区域内的早期和晚期基因调控序列及DNA复制起位点等大部分序列都被重叠使用。 此外,早期的T抗原和t抗原为基因重叠,t基因完全在T基因之内,并通用共同的起始密码子。这种基因的重叠结构与基因表达调控有关,能保证两个连续的基因在转录和翻译水平上偶联协调,进行有效的翻译。 52 SV40载体基因组只有5243bp
39、,序列已确定,基因组为共价闭合环DNA(cccDNA),酶切图谱及各种功能的基因定位均已详细了解。病毒DNA较易制备,但是,用SV40重组病毒转染细胞时,随着病毒的繁殖,细胞会裂解,这对基因工程中的应用是很不理想的。SV40 DNA分子小,插入的DNA不能大于2500bp。SV40 DNA的早期功能区插入外源DNA,存在致癌的隐患,为此,人们对病毒载体进行了改造,同时插入tk, dhfr, neo, cat等标记基因,构成了适用于不同目的的表达载体。pSV 载体就是以SV40为基础构建的一群载体的总称。53蛋白质蛋白质 合成时间合成时间功能功能T抗原 早期启动DNA复制t抗原早期 未知VP1
40、晚期主要的病毒外壳蛋白VP2 晚期次要的病毒外壳蛋白VP3 晚期次要的病毒外壳蛋白543.3.2.6 腺病毒基因组腺病毒基因组 腺病毒(adenovirus, Ad) 是一种无外壳的双链DNA病毒,基因组长约36kb,衣壳(capsid)呈规则的20面体结构,直径约80-110nm。 以病毒DNA开始复制为分界线,按转录时间的先后,将腺病毒基因大致区分为早期(E14)和晚期转录单位(L15)。各种腺病毒基因又可以进一步地分为更小的转录单位,如E1区可以进一步分为E1A和E1B,每个转录单位都至少有一个独特的启动子。病毒的两条链均有编码功能。 55 腺病毒易于培养纯化,其基因组为线性双链DNA,
41、可插入较大的外源DNA片段,最大的可达约7kb,且可在宿主细胞内大量扩增,宿主细胞范围广泛,可用于基因工程和基因治疗。不足之处是Ad在细胞内复制时可大量释出壳体蛋白质,容易引起宿主细胞介导的免疫反应,使转导的细胞遭到免疫攻击而被破坏。56 逆转录病毒属于正链RNA病毒,其主要的结构基因有种群特异性抗原(group specific antigen, gag),聚合酶(polymerase, pol)和被膜蛋白质(envelope, env),两端有长末端重复序列(long terminal repeat, LTR),5-端有帽子结构,3-端有polyA。3.3.2.7 逆转录病毒基因组逆转录病
42、毒基因组57 人类免疫缺陷病毒(HIV)颗粒是至今发现的最复杂的逆转录病毒。HIV的基本形态与其它逆转录病毒相似,有核心部分,衣壳和包膜等3种主要结构。核心部分含两个单股正链RNA基因组,两个单体在5-端由氢键相连。每个RNA基因组长9.2kb,基因排列顺序为5-LTR-gag-pol-env-3-LTR,除上述3个结构基因外,还有tat, rev, nef, vif, vpr和vpu 6个调节基因,编码6种调控蛋白质,这在逆转录病毒中较少见。HIV的基因编码区域有许多重叠,除基因tat和rev两侧含有内含子外,大多数基因无内含子,最大限度地利用了有限的RNA序列(图3-11)。 5859HI
43、V的结的结构及其与构及其与宿主细胞宿主细胞的附着的附着603.3.3 原核生物的基因组原核生物的基因组 原核生物的细胞内没有明显的细胞核形态,其遗传物质均为DNA,与蛋白质结合形成类核(nucleoid),基因组大小在106bp以上。在双链DNA的两条链上都有基因的编码序列。除类核构成的主基因组外,原核生物还有许多独立的DNA小分子,称作质粒。613.3.33.3.3原核生物基因组原核生物基因组Prokaryotic genome Prokaryotic genome 以细菌为代表讲述,有称以细菌为代表讲述,有称bacteria bacteria genomegenome。细菌对医学分子生物学
44、有重要贡献,是基因工程研。细菌对医学分子生物学有重要贡献,是基因工程研究的主要材料之一。因为:究的主要材料之一。因为:,可选择突变株进行研究,实验结果容易重复。可选择突变株进行研究,实验结果容易重复。 (1 1)遗传物质都是)遗传物质都是DNADNA; (2 2)主要的功能分子都是蛋白质;)主要的功能分子都是蛋白质; (3 3)基因密码是通用的,等等。)基因密码是通用的,等等。621.1.基因组通常仅由基因组通常仅由其其DNADNA是与蛋白质结合,但并不形成染色体结构,只是习惯上将之称是与蛋白质结合,但并不形成染色体结构,只是习惯上将之称为染色体。细菌染色体为染色体。细菌染色体DNADNA在胞
45、内形成一个致密区域,即类核在胞内形成一个致密区域,即类核(nucleoidnucleoid),类核无核膜将之与胞浆分开。),类核无核膜将之与胞浆分开。2.2.基因组中基因组中。3.3. 操纵子(操纵子(operonoperon) 是指数个功能相关的结构基因串联在一起,是指数个功能相关的结构基因串联在一起,构成信息区,连同其上游的调控区(包括启动和操纵区)及其下游的构成信息区,连同其上游的调控区(包括启动和操纵区)及其下游的转录终止信号构成的基因表达单位。(见第六章)转录终止信号构成的基因表达单位。(见第六章)4.4. 基因组中任何一段基因组中任何一段DNADNA不会用于编码不会用于编码2 2种
46、蛋种蛋白质。白质。5.5.636.6.非编码非编码DNADNA所占比例很少所占比例很少,基因组中的重复序列很少。编码蛋白质结构基因多为单拷贝,但编码rRNA的基因往往是多拷贝的,这有利于核糖体的快速组装。. . 启动子(promoter)、操纵基因(operator)、调控序列、结构基因(structure gene)、终止子(terminator)。(见第六章)64DNA from a lysed E. coli cell. In this electron micrograph several small, circular plasmid DNAs are indicated by wh
47、ite arrows. The black spots and white specks are artifacts of the preparation.65 E.coli细胞内的DNA形成大量的双链环状结构,每个环平均40 kb,形成超螺旋结构,底部固定在蛋白质上,形成独立的结构域。整个基因组DNA约有100个左右这种小的结构域。由于每个小结构域相对独立,不同小结构域内的启动子对基因表达的调控有不同的敏感性。663.3.3.3 细菌的自主遗传物质质粒细菌的自主遗传物质质粒 质粒是细菌染色体外的可以自主复制的DNA分子,大多数为环状超螺旋双链DNA,称为共价闭合环状DNA。质粒是双链的DNA
48、分子,大小在1200kb之间,和病毒不同,它们没有衣壳蛋白(裸DNA)673.3.质粒与宿主细胞的关系质粒与宿主细胞的关系(1 1)质粒对宿主的生存不是必需的,只是质粒对宿主的生存不是必需的,只是“友好友好”的的“借借居居”宿主细胞中,宿主细胞中,宿主离开质粒照样的生存下去。宿主离开质粒照样的生存下去。(酶(酶和蛋白质)帮助,才能完成自身的复制(扩增)、转录。和蛋白质)帮助,才能完成自身的复制(扩增)、转录。,作为对宿,作为对宿主细胞的补偿(主细胞的补偿(“交房租交房租”)。)。使宿主获得生存优势,与我们基因工程实验紧密相使宿主获得生存优势,与我们基因工程实验紧密相关的,如抗生素抗性基因:关的
49、,如抗生素抗性基因:AmpAmpr r 酶,水解酶,水解-内酰胺环内酰胺环, ,解除氨关毒性解除氨关毒性, ,使细菌抗氨关。使细菌抗氨关。TetTetr r 膜蛋白膜蛋白, ,可阻止四环素进入细胞可阻止四环素进入细胞, ,使细菌抗四环素。使细菌抗四环素。684.4.质粒发现和研究意义质粒发现和研究意义 质粒能够复制、传递和表达遗传信息,从分子质粒能够复制、传递和表达遗传信息,从分子遗传学观点来看是一种有机体,是比病毒更原始的生命形式,遗传学观点来看是一种有机体,是比病毒更原始的生命形式, 基因工程的重要基因工程的重要任务之一就是严格改造质粒的同时,控制质粒不传递,若一个任务之一就是严格改造质粒
50、的同时,控制质粒不传递,若一个致癌质粒可以传递就会传到外都是。致癌质粒可以传递就会传到外都是。 69 A.A.都能独立自主的复制;都能独立自主的复制; B.B.都能便利的加以检测(抗生素抗性);都能便利的加以检测(抗生素抗性); C.C.都能容易引进宿主细胞中去,也易从宿主细胞中分离纯都能容易引进宿主细胞中去,也易从宿主细胞中分离纯化(提质粒)。化(提质粒)。 质粒符合上述质粒符合上述3 3个条件。个条件。 基因工程中主要使用人工构建的质粒。基因工程中主要使用人工构建的质粒。703.4 真核生物的基因组真核生物的基因组3.4.1 真核生物基因组的特点真核生物基因组的特点 (1) 基因组大 低等