1、谢爱林1第八章 基因工程和基因组学 第一节 基因工程第二节 基因组学 谢爱林2第一节 基因工程 基因工程概述 限制性内切核酸酶 载体 基因的分离与鉴定 基因工程的应用谢爱林3 基因工程概述遗传工程一般可分为广义和狭义的两种。广义的遗传工程包括细胞工程、染色体工程、细胞器工程等。狭义的遗传工程即是通常讲的基因工程。本节只介绍基因工程。基因工程中的DNA重组主要是指创造自然界中没有的DNA分子的新组合。这种重组不同于经典遗传学中经过遗传交换产生的重组。基因工程是采用分子生物学、核酸生物化学以及微生物遗传学的现代方法和手段建立起来的基因操作技术。谢爱林4从细胞和组织中分离DNA。利用能识别特异DNA
2、序列的限制性内切核酸酶(restriction endonucleases)酶切DNA分子,制备DNA片段。将酶切的DNA片段与载体DNA连接,构建重组DNA分子。将载体与DNA片段构成的重组DNA分子导入宿主细胞后,该重组DNA分子能在细胞内复制,产生多个完全相同的拷贝,即克隆(clones)。重组DNA能随宿主细胞的分裂而分配到子细胞,使子代群体细胞均具有重组DNA分子的拷贝。能从宿主细胞中回收、纯化和分析克隆的重组DNA分子。克隆的DNA能转录成mRNA、翻译成蛋白质。能分离、鉴定基因产物。一 基因工程概述谢爱林5 目的基因的获得 目的基因与载体的连接成重组DNA分子 重组DNA分子导入
3、受体细胞 筛选重组克隆 基因表达与产物分离基因工程的内容 一 基因工程概述谢爱林6 重 组 DNA 技 术 一 基因工程概述谢爱林7二 限制性内切核酸酶 限制性内切核酸酶或限制性酶(restriction enzymes)是细菌中这些酶的功能是降解外来DNA分子的一类酶。以限制(restriction)或阻止病毒侵染。限制性酶据其作用特点,可分为两类。第类限制性酶每隔一段DNA序列随机切割双链DNA分子,没有序列特异性。第类限制性酶能识别一段特异的DNA序列,准确地酶切双链DNA的特异序列。第类限制性酶识别的序列是对称的,即在一条链中从5到3方向的序列,与其互补链从5到3方向的序列完全相同。这
4、种从两个方向阅读而序列相同的序列称为回纹对称序列(palindrome)。谢爱林8二 限制性内切核酸酶 谢爱林9二 限制性内切核酸酶 谢爱林10谢爱林11三 载体 一个DNA片段只有与适合的载体(vector)DNA连接构成重组DNA后,在载体DNA的运载下,才可以高效率地进入宿主细胞(host cell),并在其中复制、扩增、克隆出多个拷贝。可作为DNA载体的有质粒、噬菌体、病毒、细菌或酵母菌人工染色体(BAC、YAC)等。作为载体DNA分子,需要具备以下四个条件:具复制原点(ori),在宿主细胞中不仅能独立地自我复制,而且能带动携带的外源DNA片段一起复制,具有多克隆位点(multiple
5、 cloning site,MCS),而每一种酶的切点只有一个,用于克隆外源DNA片段。这些酶切位点不存在于复制原点或抗性选择标记基因内。至少具有一个选择标记基因,使有或无载体的宿主细胞具有易鉴别的表型。易从宿主细胞中回收。谢爱林121.细菌质粒 质粒是细菌细胞内独立于细菌染色体而自然存在的、能自我复制、易分离和导入的环状双链DNA分子。这些质粒的适应范围广,拷贝数多。进入宿主细胞复制后,每个细胞的质粒拷贝数可高达1000个。早期用于基因工程的载体是经遗传改良的细菌质粒,它们仅能用于克隆分子量小于10kb(1000bp=1kb)的外源DNA片段。现在广泛使用且商品化的质粒,很多都具有重组表型检
6、测标记,在DNA克隆中根据宿主细胞的表型即可推知质粒是否携带外源DNA片段。谢爱林132.噬菌体 噬菌体基因组全长49kb。噬菌体DNA中间约三分之二的序列为中间基因簇(central gene cluster),位于两端的为DNA左、右臂。基因组的中间基因簇序列可被外源DNA片段取代,而不影响噬菌体感染细菌及形成噬菌斑的能力。噬菌体载体可接受15 kb-23 kb的外源DNA片段,它既可作为克隆载体,也可作为表达载体,在基因库筛选中,噬菌体作载体与细菌质粒相比,具有易操作、阳性克隆数多等特点,现广泛用于各类基因库的构建。谢爱林143.柯斯质粒 柯斯质粒(cosmid)是利用部分噬菌体DNA与
7、部分细菌质粒DNA序列组建而成的(图95)。柯斯质粒具有噬菌体的cos序列(12bp)和细菌质粒的复制原点。cos序列是噬菌体DNA包装成噬菌体时所必需的,而质粒的复制原点可使柯斯质粒在细菌细胞中同普通细菌质粒一样自主复制。柯斯质粒也具有抗生素抗性基因可接受长达50kb的外源DNA片段,这在克隆真核生物基因中十分有用,因为一个DNA片段就可能具有真核生物基因的编码序列及其它调控序列。还与YAC克隆系统结合,用于基因作图分析。谢爱林154.穿梭载体 穿梭载体(shuttle vectors)是指能在两种不同的生物中复制的载体。例如既能在原核生物(如大肠杆菌)中复制,又能在真核细胞(如酵母)中复制
8、的载体。因此,这类载体不仅具有细菌质粒的复制原点及选择标记基因,还有真核生物的自主复制序列(Autonomously replicating sequence,ARS)以及选择标记性状,具有多克隆位点。通常穿梭载体在细菌中用于克隆、扩增克隆的基因,在酵母菌中用于基因表达分析。谢爱林165.细菌人工染色体 BAC载体是基于细菌的性因子(F因子)质粒的一些特点构建的。F因子是细菌细胞内能自我复制的质粒,约100kb,它能在细菌接合时转移1000kb的细菌染色体片段。将F因子经基因工程改良构成的BAC载体,可用于克隆100 kb以上的DNA片段。谢爱林176.酵母人工染色体酵母人工染色体(酵母人工染
9、色体(yeast artificial chromosome,YAC)是另一类酵母穿梭载体。是另一类酵母穿梭载体。YAC可可以接受以接受100-1000 kb的外源的外源DNA片段,这一特点使片段,这一特点使YAC成为人类成为人类基因组计划及图位克隆分离基因基因组计划及图位克隆分离基因的重要工具。的重要工具。谢爱林187.Ti质粒及其衍生载体 Ti质粒是一种细菌质粒(图99),它自然存在于一种革兰氏阴菌土壤农杆菌(Agrobacterium tumefaciens)细胞中。土壤农杆菌可感染大多数双子叶植物的受伤部位,使之产生冠瘿瘤(grown gall tumors)。根瘤细胞的形成是因为土壤
10、农杆菌中存在着一种诱导瘤细胞(tumor-inducing,Ti)的质粒,这种质粒被称为Ti质粒。Ti质粒的一部分DNA叫做转移DNA(transfer DNA,T-DNA),当T-DNA整合到宿主植物细胞的染色体后,就诱导出根瘤,并使根瘤细胞合成冠瘿碱(opine),作为土壤农杆菌的碳源和氮源 谢爱林19四四 基因的分离与鉴定基因的分离与鉴定(一)从基因库中分离基因(二)聚合酶链式反应(PCR)扩增基因(三)人工合成基因 谢爱林20构建基因库 基因库(library)是一组DNA和cDNA序列克隆的集合体。从基因库中分离基因,首先要构建基因库。只有利用合乎要求的基因库才有可能筛选出所需要的基
11、因,很多分子遗传学工作才能继续深入下去。核基因库 核基因库(genomic library或genomic bank)是将某一生物的全部基因组DNA酶切后与载体连接构建而成的。通常的方法是,尽量提取大分子量的核DNA,用限制性酶酶切后,分离选择具有一定长度(大于15kb)的DNA片段,与适宜的载体(如EMBL)连接构成重组DNA分子,根据所用的载体,选择相应的宿主细胞用于克隆。(一)从基因库中分离基因 谢爱林21理想的核基因库应当能包括全部的基因组序列。如果每一个克隆包括的DNA片段大,则总克隆数目少,因此,构建核基因库时常要选择能接受较大片段的载体。构建基因库(1)核基因库谢爱林22(2)染
12、色体基因库 将基因组的一部分(如一条染色体)用来构建基因库,对于选择特异基因及分析染色体结构和组织十分有价值。例如果蝇X染色体上的一个片段,具有50多个多线染色体带(polytene),利用微切割技术将这一段染色体切割,抽提DNA用限制性酶酶切后,克隆到噬菌体上构建成染色体片段基因库。在人类基因组项目研究中,利用流动细胞分拣技术(flow cytometry)将人类染色体分开后,用于构建单个染色体基因库,大大加速了人类基因组作图和分析。谢爱林23(3)cDNA库 cDNA库是以mRNA为模板,经反转录酶(reverse transcriptase)合成互补DNA(complementary D
13、NA,cDNA)构建的基因库。绝大多数真核生物mRNA的3端具有一段多聚A(poly-A)尾端序列。利用一段多聚T(poly-T)为引物(primer),与poly-A互补配对,在反转录酶作用下,用poly-T引物引导合成一条互补DNA,即第一条DNA链,结果形成RNA-DNA杂合双链(图910)。然后合成第2条链。对没有poly-A尾端序列的RNA分子,可用寡聚六苷酸(hexamer)为引物合成第一条链,再用上述方法得到双链DNA。谢爱林24得到的双链DNA分子经两端补齐后,以与带有限制性酶切点的人工接头连接,酶切后与载体(通常是噬菌体)连接,再制备cDNA库。cDNA库仅具有用于分离mRN
14、A的细胞或组织内表达的基因的mRNA序列,所以它仅包括基因组的部分基因序列。在实际工作中,构建什么样的基因库取决于研究目的。cDNA库对于研究基因的表达模式、分离某一特定基因是十分有用的。如果要分离在某一细胞或组织高效表达的某种基因,可用该细胞或组织的mRNA构建cDNA库,则很容易得到这个基因。通常是将cDNA库与核基因库配合使用,以便既能得到基因的编码序列,又可得到基因的调控序列。(3)cDNA库 谢爱林252.筛选基因库 从基因库中筛选、分离基因,可据对待选基因相关信息的了解程度,确定筛选方法和条件。大多数方法是利用一段核苷酸序列(DNA,cDNA或寡核苷酸)作探针(probe),用放射
15、性同位素或非放射性同位素标记探针,也可用抗体作探针,筛选基因库。如菌斑杂交法(plaque hybridization)筛选噬菌体核基因库。谢爱林26将经重组噬菌体(来自构建的基因库)感染的宿主细菌细胞与少量上层培养基混合培养,噬菌体在宿主细胞内复制扩增后形成噬菌斑。再将培养皿中的噬菌斑转到硝酸纤维素膜或尼龙膜上,变性,然后用标记的探针(也变性成单链)与膜上的噬菌体DNA杂交,杂交膜用X-光片放射自显影,检测杂交信号。凡是与探针杂交的噬菌斑即为阳性克隆。根据杂交信号在膜上的相对位置,定位找出培养皿中所对应的噬菌斑,挑出、培养阳性噬菌斑,制备DNA,用作进一步分析。菌斑杂交法筛选噬菌体核基因库谢
16、爱林27(1)核酸分子杂交Southern杂交(Southern blotting)将DNA用限制性酶酶切酶切DNA电泳变性转移到膜上经过标记的DNA探针与膜上的DNA片段杂交洗去膜上非特异性结合的探针检测杂交信号。如果转移的膜上具有与杂交探针相同或部分同源的序列,就会检测到杂交带信号。在筛选基因库得到阳性克隆后,往往是将限制性酶酶切与Southern杂交结合起来,绘制限制性酶图谱。3.阳性克隆的分析与鉴定谢爱林28(2)核酸序列分析 测定的核酸序列是不是所需要的基因,或具有什么功能,还要用计算机软件或生物学实验进一步分析,才能最后得出结论。同源性比较。可将测出的核酸序列同杂交的探针序列进行比
17、较,或将得到的序列发到BLAST等DNA Data库的网址上比较,明确测得的序列与所有的已知序列之间的同源程度。分析核酸序列的阅读框架。一个ORF就是一段能编码一条多肽链,并通常具有翻译起始信号以及一种终止信号的核苷酸序列。对于那些同已知序列无任何同源性的新序列,可能还要进行基因功能性研究。谢爱林29(二)聚合酶链式反应(PCR)扩增基因 聚合酶链式反应(polymerase chain reaction,PCR)是体外快速扩增DNA的方法。PCR反应包括三个步骤:变性:在94-95使模板DNA的双链变性成单链。复性:两个引物分别与单链DNA互补复性,复性的温度在50-60 延伸:在引物的引导
18、及Taq酶的作用下,于72合成模板DNA的互补链 这三个步骤称为一个循环,PCR反应常有25-35个循环。谢爱林30谢爱林31(三)人工合成基因 根据已知的基因或氨基酸序列,将化学合成寡核苷酸的方法与酶促合成DNA的方法结合起来,可以很快地人工合成基因。例如,首先化学合成多个含有80-100个核苷酸的寡核苷酸,每个寡核苷酸之间具有19-24个核苷酸的重叠序列(图916),再将各个寡核苷酸等量混合,在DNA聚合酶(或Taq酶)作用下,各寡核苷酸又作为引物合成新链,使单链部分补齐成为双链,再用两个PCR引物,经PCR扩增出DNA片段。若将两个DNA片段放在一起,经SOE-PCR(sequence
19、overlapped extension,SOE)扩增出完整的基因片段。谢爱林32谢爱林33目的基因与载体连接(DNA分子重组)谢爱林34目的基因导入受体谢爱林35五五 基因工程的应用基因工程的应用(一)基因工程工业在动物体内胰岛素是胰腺细胞先形成一种前体胰岛素,再加工成两条不同的成熟胰岛素原分子,A链含21个氨基酸残基,B链含30个氨基酸残基,经两对二硫键连接形成成熟的胰岛素。谢爱林36(二)植物基因工程 1.根癌农杆菌介导的植物转化植物基因转化是指将外源基因转移到植物细胞内、并整合到植物基因组中稳定遗传和表达的过程。根癌农杆菌介导的植物转化除草剂glyphosate,是通过抑制叶绿体中的E
20、PSP合成酶而杀死杂草的。如果EPSP合成酶遭到glyphosate的破坏,会使一些关键氨基酸的合成受阻,导致植物枯萎、死亡利用从抗glyphosate的大肠杆菌中分离、克隆的EPSP合成酶基因,已培育出高抗除草剂glyphosate转基因植物。谢爱林372.基因枪转化技术 通过高压气体等动力,高速发射包裹有重组DNA的金属颗粒,将目的基因直接导入受体细胞,并整合到染色体上的方法。这种转化方法已广泛用于转化水稻、小麦、玉米、大豆等主要作物。基因枪技术还用于转化微生物、动物细胞、动植物器官、细胞器和正在生长的植物。另外,基因枪在多基因共转化中更表现出极大的优越性。谢爱林38(三)转基因动物 与转
21、基因植物相比,转基因动物的发展要慢一些。例如,利用转基因羊大量表达人类的抗胰蛋白酶。人类抗胰蛋白酶基因缺失导致的肺气肿,属于一种先天性遗传疾病。将人的抗胰蛋白酶-1基因克隆在羊奶产生相关基因启动子的下游,这种启动子仅在乳腺细胞中表达。将这个嵌合基因注射到已授精的羊的合子中,再放植到母羊体内,产下的转基因羊发育正常。交配后产生的羊奶中含有大量有功能的人类抗胰蛋白酶(每升35克),这一结果说明可利用家禽作为生物反应器,生产人类大量需要的重要蛋白质。谢爱林39(四)遗传疾病诊断 RFLP 法法 RFLP 法法谢爱林40(四)遗传疾病诊断2.等位基因特异寡核苷酸法 谢爱林41(五)基因治疗 利用基因工
22、程技术,将特异基因导入并整合到具有遗传缺陷的患者的基因组中,以治疗遗传疾病的方法,通常叫做基因治疗(gene therapy)。目前已有几种基因治疗方法。其中最常用的基因转移治疗方法是利用减毒的病毒DNA(retro virus DNA)作载体,构建重组DNA分子,用病毒包装物包装后形成的重组减毒病毒感染患者的细胞,将正常基因整合到染色体上。谢爱林42(六)DNA芯片 DNA芯片技术是在面积不大(如2平方厘米)的基片表面分成不同小格,有序地点阵排列一系列固定于一定位置的、可寻址的核苷酸分子,再将待分析的核苷酸分子标记(如用荧光),变性成单链后与芯片进行分子杂交,与芯片上序列相同的核苷酸将与其杂
23、交,与芯片上序列不同的序列就会被洗掉,然后用高精度的激光扫描仪记录分子杂交的荧光信号,通过计算机软件分析、综合成可读的信息。因此,DNA芯片分析同核酸分子杂交一样,得到的信息是核苷酸水平的遗传变异资料。Chip.ppt 谢爱林43第二节 基因组学概述基因组图谱的构建基因组图谱的应用 后基因组学 谢爱林44谢爱林45谢爱林46谢爱林47谢爱林48谢爱林49谢爱林50谢爱林51谢爱林52谢爱林53第二节 基因组学谢爱林54在进行大规模序列测定之前,构建基因组图谱是测定大基因组全部核苷酸序列的重要一环。基因组图谱可作为序列测定中制定测序方案的依据,以便先重后轻地分析基因。有了基因组图谱之后,基因组序
24、列测定可用下列两种方法结合进行:克隆连续序列法(clone contig),将基因组DNA切割长度为0.1 Mb-1 Mb的大片段,克隆到YAC或BAC载体上,分别测定单个克隆的序列,再装配、连接成连续的DNA分子。定向鸟枪射击法(directed shotgun),以基因组图谱中的标记为依据,测序、装配和构建不同DNA片段的序列。二 基因组图谱的构建(一)遗传图谱的构建(二)物理图谱的构建谢爱林55(一)遗传图谱的构建 1.图谱标记 图谱构建中需要可以鉴别的标记(marker),在构建遗传图谱中,可用基因和DNA作为标记。(1)基因标记基因控制性状的表现,所以也就是利用可以鉴别的形态、生化等
25、表型性状作标记,这与前述的连锁交换中介绍的方法一样。遗传学中最早建立的果蝇连锁图,就是利用控制果蝇眼睛的一些基因作为标记,分析各基因间的连锁关系及遗传距离,绘制出连锁遗传图谱。这些基本原理和方法,仍在现在的基因组遗传图谱构建中广泛应用。谢爱林56(2)DNA标记 以DNA为基础的分子标记主要包括(Gupata et al,2019)基于杂交的分子标记,如RFLP(Restriction fragment length polymorphism)。基于PCR的分子标记,如RAPD(Random amplified polymorphic DNA)、AFLP(Amplified fragment
26、length polymorphism)、SSR(simple sequence repeats;又称microsatellite)等。基于DNA序列和芯片的分子标记,如SNP(single nucleotide polymorphism)。谢爱林57RFLP RFLP技术是基于Southern杂交的分子标记的方法。它是指用限制性内切酶酶切不同个体基因组DNA后,酶切片段长度的差异。这一技术用放射性同位素标记DNA片段作为同源序列探针(RFLP标记),与经限制酶消化并转移到支持膜上的基因组总DNA杂交,通过放射性自显影(或非同位素技术)来显示酶切片段的大小,检测不同遗传位点的多态性RAPD R
27、APD由Williams 等(1990)和Welsh等(1990)分别发展起来的分子标记技术。这一技术是以基因组DNA为模板,采用随机设计的单个寡核甘酸序列(一般为10bp)为引物,通过PCR扩增,产生不连续的DNA产物,用于检测DNA序列的多态性。谢爱林58SSR或微卫星重复序列:串联重复序列(tandem repeated sequence),其重复单位首尾相连,成串排列(Flavell 1986)。散布重复序列(interspersed repeated sequence),其重复单位与其它无关序列或单拷贝序列相间排列。微卫星DNA序列又称简单重复序列(simple sequence r
28、epeat,SSR)、短串联重复序列(short sequence repeat,STR),它是由几个核甘酸(一般15个)为重复单位簇集而成的串联重复序列,可分布在整个基因组的不同位置上,而且在基因组中的分布是随机的。微卫星长度具有高度变异性,并且这种多态性常常表现复等位性,两端的序列多是相对保守的单拷贝序列,因而可以根据两端的序列设计一对特异引物,扩增每个位点的微卫星序列,从而揭示其长度的多态性(simple sequence length polymorphism,SSLP)。谢爱林59AFLPAFLP是由荷兰Key Gene公司Zabeau(1992)发现,并由Vos等(2019)发展起
29、来的分子标记技术,结合了RFLP和RAPD技术的优点。AFLP的基本原理是基于PCR的扩增基因组DNA限制性片段多态性。基因组DNA先用限制性内切酶切割,然后将双链接头(adapter)连接到DNA片段的末端,通过选择在3端分别添加13个选择性碱基的不同引物,选择性地识别具有特异配对顺序的酶切片段并与之结合,从而实现特异扩增。谢爱林60ESTEST(expressed sequence tags)是长约300400bp的基因表达序列片段。EST技术是将mRNA反转录成cDNA并克隆到质粒或噬菌体载体构建成cDNA文库后,大规模随机挑选cDNA克隆,对其5或3端进行一步测序,所获序列与基因数据库
30、中已知序列进行比较,从而获得对生物体生长、发育、代谢、繁殖、衰落死亡等一系列生理生化过程认识的技术(Hatey 2019)。SNPSNP是基因中的点突变,存在的数量多,其中有些可产生RFLP,但多数突变不是发生在酶切位点。人类基因组的编码基因中有20万个SNPs,在非编码区的数目可能还要多10倍以上。谢爱林61三 基因组图谱的应用 基因定位 借助基因组图谱,可使基因定位在精度、速度、广度等方面有极大的提高,在复杂的数量性状位点(quantitative trait loci,QTL)定位分析方面,也取得了很大进展。基因组比较分析 已经在禾本科,茄科,十字花科等做了遗传图谱比较分析,从分子水平了
31、解物种间的同源性,研究基因组的进化和染色体的演变。标记辅助选择(marker-assisted selection,MAS)根据图谱间接选择目的基因,大大加速目的基因的转移与利用,提高回交育种的效率。此外,标记辅助选择有助于克服轮回选择过程中早期选择的盲目性。基因的克隆与分离根据饱和的基因组图谱,可以找到一个与目的基因紧密连锁的分子标记,作为染色体步行(chromosome walking)的起始点,进行基因的克隆和分离谢爱林62四 后基因组学 后基因组学(post-genomics)是在完成基因组图谱构建以及全部序列测定的基础上,进一步研究全基因组的基因功能、基因之间的相互关系和调控机制为主
32、要内容的学科。后基因组学主要利用DNA微列阵技术、蛋白质组学、酵母菌双杂交系统以及生物信息学等技术相结合,对已知的基因组序列进行研究。谢爱林63(1)DNA微列阵 DNA微列阵(DNA microarrays)就是利用DNA芯片技术,同时进行大量分子杂交,以分析比较不同组织或器官的基因表达水平,筛选突变基因,从核酸水平分析基因表达模式。这是后基因组学研究中的重要方法之一 四 后基因组学 谢爱林64(2)蛋白质组学 蛋白质组学(proteomics)是从蛋白质水平来研究基因组的基因表达,分析基因组的蛋白质类型、数量、空间结构变异以及相互作用的机制。在蛋白质分析中,目前主要利用奥佛诺(O Farrel,1975)发明的据蛋白质的等电点和分子量分析蛋白质的双向电泳技术,来分析蛋白质组(proteomes),谢爱林65四 生物信息学 生物信息学(bioinformatics)是利用计算机贮存原始资料,分析生物信息,将DNA芯片以及蛋白质双向电泳结果转变成为可读的遗传学信息的学科。生物信息学是将现代生物技术与计算机科学结合,收集、加工和处理生物资料。具体来说,它是将数学、统计学、计算机方法结合起来,用于综合、分类、分析和阐述生物信息的科学。