1、核酸序列分析与核酸序列分析与DNA计算计算朱德裕2013年11月8日主要内容主要内容一、DNA序列分析二、大片段DNA测序策略三、RNA序列分析四、DNA计算一、DNA序列分析 DNADNA的测序是分子生物学研究中非常的测序是分子生物学研究中非常重要和关键的内容。对重要和关键的内容。对DNADNA一级结构的一级结构的研究,有助于探索基因结构与功能、研究,有助于探索基因结构与功能、基因与疾病关系,进而推动生命科学基因与疾病关系,进而推动生命科学研究获得质的飞跃。测定基因组的全研究获得质的飞跃。测定基因组的全部核苷酸序列、阅读和分析全部遗传部核苷酸序列、阅读和分析全部遗传信息,正是人类基因组计划(
2、信息,正是人类基因组计划(human human genome project,HGP)genome project,HGP)的最主要目标的最主要目标之一。之一。DNA测序的基本方法测序的基本方法1 1、双脱氧链终止法(、双脱氧链终止法(SangerSanger法、酶促法)法、酶促法)2 2、化学降解法(、化学降解法(Maxam-Gilbert Maxam-Gilbert 法)法)3 3、自动测序法、自动测序法4 4、其它方法、其它方法1、双脱氧链终止法双脱氧链终止法1977年Sanger等提出了“终止法”。这是一种利用双脱氧核苷三磷酸(ddNTP),将延伸的DNA链特异性终止的技术。互补链合
3、成过程ddNTP可以当作正常碱基参与复制,但一旦链入DNA中,其后就不能再继续连接。分别利用分别利用4 4个反应体系个反应体系进行测序反应,寡核苷酸链分别终止进行测序反应,寡核苷酸链分别终止于不同位置的于不同位置的A A、G G、C C或或T T碱基碱基四种终止物必须在四种终止物必须在4 4个个PCRPCR管中分别进行反应管中分别进行反应,即每管加,即每管加1 1种种ddNTPddNTPDNA聚合酶,单链DNA模板,引物,四种dNTP(其中一种为同位素标记),还有少量的ddNTP。+ddATP+ddCTP+ddGTP+ddTTP每管均有正常的dNTP,而ddNTP约为dNTP浓度的100-50
4、00倍,这样对于每个反应管能形成一系列以同个ddNTP为3端结尾的长短不一片段的混合物。一般来说,测序产物的平均链长取决于ddNTP与dNTP的比例,比例高时,得到较短的产物;将制得的四管里的混合物全部平行地点加在变性凝胶板上进行电泳,各个组分将按其链长的不同得到分离。电泳和显影电泳和显影四管反应,四道电泳 SangerSanger法整法整体示意图体示意图该法充分利用该法充分利用DNA复制的生物学特性复制的生物学特性,通过通过DNA复制来复制来识别识别4种碱基种碱基的方法的方法,进行进行DNA序列测定序列测定,双脱氧终止法测序反应体系包括:vDNA聚合酶v单链DNA模板v带有3-OH末端的单链
5、寡核苷酸引物(由20-23个碱基构成,Tm=60-68)vMg2+v4种dNTP(aATP,dGTP,dCTP和dTTP)v4种ddNTP(ddATP,ddGTP,ddCTP和ddTTP)v经典测序步骤:1.模板与引物杂交2.引物的延长和合成阻断v四个试管分别加入 DNA聚合酶 dNTP 标记底物v终止剂不同 ddA ddG ddC ddTv四个试管中所有产物是一系列长度只差一个核苷酸的聚合链3.电泳 ACGT次序 高压电泳4.放射自显影得到直读图象测序反应的种类(1)同位素标记(2)荧光标记,又分为引物标记法(Dye primer reactions)和终止物标记法(Dye terminat
6、or reactions)两类。四色四色荧光标记荧光标记在引物上,取代了放射性同位素,但还需分在引物上,取代了放射性同位素,但还需分四管反应,反应后可以四管反应,反应后可以混合成一管混合成一管跑电泳。跑电泳。电泳电泳标记引物标记引物四种混合物可以在四种混合物可以在一个一个PCR管中进行反应,管中进行反应,当当然也可跑一道电泳。然也可跑一道电泳。荧光检测探头荧光检测探头讨论讨论 SangerSanger法的改进法的改进Sanger测序反应与测序反应与PCR的差异的差异测序只用一条引物,测序只用一条引物,PCRPCR需要需要两条引物两条引物测序反应需要加入测序反应需要加入dNTPdNTP和和ddN
7、TP,PCRddNTP,PCR反应只需反应只需dNTPdNTP测序产物测序产物线性增长线性增长,PCRPCR产物指数增长产物指数增长测序测序反应产物是长度相差一个碱基的一系列反应产物是长度相差一个碱基的一系列多核苷酸片段,多核苷酸片段,PCRPCR产物是长度相同的一种片产物是长度相同的一种片段段 几乎与双脱氧链终止法建立的同时,几乎与双脱氧链终止法建立的同时,Maxam和和Gilbert于于1977年建立了一种以年建立了一种以化学修饰为基础化学修饰为基础的的DNA序序列分析法,称为列分析法,称为Maxam-Gilbert(马克萨姆马克萨姆吉尔伯特吉尔伯特)化学降解法。化学降解法。Maxam-G
8、ilbert化学降解法化学降解法基本原理将DNA片段的末端磷酸基作放射性标记,再分别采用不同的化学方法修饰和裂解特定碱基,从而产生一系列长度不一的DNA片段,这些片段群通过凝胶电泳分离,再经放射线自显影,确定裂解位点碱基的种类和相对排列顺序,从而得出目的 DNA 的碱基序列。所用特异性试剂主要是硫酸二甲酯(腺嘌呤 A 的 N2 和鸟嘌呤 G 的 N 甲基化)、肼(胞嘧啶 C 和胸腺嘧啶 T 的 C4 和 C6 位置开环)和哌啶(从修饰甲基处断裂核苷酸链)。化学修饰法的待测化学修饰法的待测DNADNA片段有的是双链,有的是单片段有的是双链,有的是单链链DNADNA。在进行碱基特异性化学切割反应前
9、,首先。在进行碱基特异性化学切割反应前,首先对待测对待测DNADNA片段作末端标记,使其片段作末端标记,使其末端末端(5(5端或者端或者是是33端端)带上放射标记带上放射标记。如果待测。如果待测DNADNA是双链,必是双链,必须使其形成须使其形成末端标记的单链末端标记的单链。对末端标记的对末端标记的DNA链链进行化学断裂反应进行化学断裂反应分两步进行:分两步进行:第一步是在第一步是在4个反应管中分别以肼、硫酸二甲酯个反应管中分别以肼、硫酸二甲酯(DMS)和甲和甲酸对特定的碱基进行酸对特定的碱基进行化学修饰化学修饰;第二步是利用哌啶使第二步是利用哌啶使DNA链在修饰位点断裂。链在修饰位点断裂。在
10、化学修饰反应过程中,通过控制在化学修饰反应过程中,通过控制反应温度和反应时间反应温度和反应时间,只,只有有一个碱基一个碱基被修饰被修饰(而不是全部被修饰而不是全部被修饰),随后进行的断裂反,随后进行的断裂反应也是定量反应。因此,应也是定量反应。因此,DNA链并不是在所有可被修饰的碱链并不是在所有可被修饰的碱基位点断裂,而是基位点断裂,而是随机断裂随机断裂。在。在4个反应中,产生个反应中,产生4套带相同套带相同标记末端、长短不一的寡聚核苷酸片段。只有带标记末端的标记末端、长短不一的寡聚核苷酸片段。只有带标记末端的片段可被识别,没有标记末端的片段可以忽略不计。片段可被识别,没有标记末端的片段可以忽
11、略不计。肼硫酸二甲酯Maxam-GilbertMaxam-Gilbert化学降解法测序的常用化学试剂化学降解法测序的常用化学试剂 硫酸二甲酯主要作用于鸟嘌呤 G,使之甲基化,导致糖苷键断裂。而肼可与嘧啶环反应,释放出嘧啶碱基,然后经哌啶处理,将核苷酸架链打断。在酸的作用下DNA 链上的嘌呤上的N原子质子化,利用哌啶使A、G脱落,然后发生断裂。化学降解法与化学降解法与SangerSanger法一样,法一样,常用四个反应常用四个反应:G G反应;反应;A+GA+G反反应;应;T+CT+C反应和反应和C C反应。反应。反应体系反应体系 碱基修饰试剂碱基修饰试剂 碱基修饰反应碱基修饰反应 主链断裂试剂
12、主链断裂试剂 断裂点断裂点G 硫酸二甲酯硫酸二甲酯 鸟嘌呤甲基化鸟嘌呤甲基化 哌啶哌啶 GG+A 甲酸甲酸 脱嘌呤作用脱嘌呤作用 哌啶哌啶 G和和AC+T 肼肼 嘧啶开环嘧啶开环 哌啶哌啶 C和和TC 肼(加盐)肼(加盐)胞嘧啶开环胞嘧啶开环 哌啶哌啶 C DMS(硫酸二甲酯)(硫酸二甲酯)可以使可以使 腺嘌呤腺嘌呤 A 的的 N2 和鸟嘌呤和鸟嘌呤 G 的的 N 甲基化,但是甲基化,但是鸟鸟嘌呤嘌呤 G 的的 N 甲基化速度比腺嘌呤甲基化速度比腺嘌呤 A 的的 N2 甲基化速度要快甲基化速度要快 4-10 倍倍,并且在,并且在中中性性 pH 环境中,环境中,DMS 主要作用于鸟嘌呤主要作用于
13、鸟嘌呤 G。甲酸具有脱嘌呤作用。甲酸具有脱嘌呤作用。DNA链在脱嘌呤位点链在脱嘌呤位点(G和和A)发生断裂。发生断裂。肼,在碱性条件下,作用于嘧啶,在具有哌啶的条件下,导致在这个核苷酸位置肼,在碱性条件下,作用于嘧啶,在具有哌啶的条件下,导致在这个核苷酸位置上发生上发生DNA链的断裂。如果在反应体系中加入高浓度的盐,主要作用于胞嘧啶。链的断裂。如果在反应体系中加入高浓度的盐,主要作用于胞嘧啶。操作步骤(1)先将DNA的末端之一进行标记,通常为放射性同位素32P;(2)分离仅一端带标记的DNA片段(3)在多组互相独立的化学反应中分别进行特定碱基的化学修饰;(4)在修饰碱基位置化学法断开DNA链;
14、(5)凝胶电泳将DNA链按长短分开;(6)根据放射自显影显示区带,直接读出DNA的核苷酸序列 化学裂解化学裂解法整体示意图法整体示意图5 GATCACTACTG 3 标记标记5*GATCACTACTG 3 G:DMSC:肼(加盐):肼(加盐)G+A:甲酸:甲酸C+T:肼:肼5-*GATCACTACTG 5-*G G5-*GATCACTACTG 5-*GATCACTA 5-*GATCA5-*GA 5-*G 5-*GATCACTAC 5-*GATCACT 5-*GATCAC5-*GATC 5-*GAT 5-*GATCACTACT-*GATCACTACTG-5-*GATCACTAC 5-*GATCA
15、C5-*GATC-*GATCACTACTG-电电 泳泳5-*GATCACTACTG 5-*GATCACTACT 5-*GATCACTAC5-*GATCACTA 5-*GATCACT 5-*GATCAC5-*GATCA 5-*GATC 5-*GAT 5-*GA 5-*G C+TCGG+A5Maxam-Gilbert 化学降解测序法不需要进行酶催化反应,所测序列来自原DNA分子而不是酶促合成所产生的拷贝;因此,利用Maxam-Gilbert法可对合成的寡核苷酸进行测序,可以分析诸如甲基化等DNA 修饰的情况;化学降解测序法特别适用于测定含有如 5-甲基腺嘌呤 A 或者 G,C 含量较高的 DNA
16、片段,以及短链的寡核苷酸片段的序列。Maxam-Gilbert法所能测定的长度要比Sanger法短一些,它对放射性标记末端 250个核苷酸以内的DNA 序列效果最佳。在Maxam-Gilbert法和Sanger法刚刚问世时,利用化学降解进行测序不但重现性更高,而且也容易为普通研究人员所掌握。Sanger 法需要特异寡核苷酸引物,并需获得大肠杆菌DNA 聚合酶,而Maxam-Gilbert法只需要人所共的简单化学试剂。因此,起初,Maxam-Gilbert法更加流行。但随着M13 噬菌体和噬菌粒载体的发展,现成的合成引物和酶容易制得,也由于化学断裂法中各种试剂的毒性,加之没有自动化的方法制备末端
17、标记的模版,Sanger双脱氧链终止法如今远比Maxam-Gilbert法应用得广泛,既简便又快速,是现今的最佳选择方案。事实上,目前大多数测序策略都是为Sanger法而设计的。讨论 DNA测序自动化测序分离产物有两种基本方法:单荧光标记四泳道分离单荧光标记四泳道分离和四四荧光标记的单泳道分离荧光标记的单泳道分离。DNA测序的自动化技术发展迅猛,其中许多步骤如亚克隆的挑选、模板制备、测序反应、反应产物的分离、原始数据收集、序列阅读、重叠群的确定都已自动化。1986年,第一台半自动测序仪出现;现在主要使用的第二代测序仪。使用第一代测序技术完成的人类基因组草图计划,花费了30亿美元巨资,用了三年的
18、时间;然而,使用第二代测序技术,完成一个人的基因组测序现在只需要一周至一个月左右的时间。自动化测序基本原理与链终止法相同,只是用不同的荧光色彩标记引物或ddNTP,并且采用激光扫描器同步扫描,计算机进行阅读和编辑。单泳道电泳及信号收集单泳道电泳及信号收集正极正极负极负极自动化测序结果自动化测序结果310型全自动遗传分析仪型全自动遗传分析仪DNA全自动分析仪:全自动分析仪:ABI Prism 3100遗传分析仪遗传分析仪 3700型全自动遗传分析仪型全自动遗传分析仪安玛西亚安玛西亚DNA序列分析系统型号:序列分析系统型号:MegaBACE 500/1000/4000 DNA自动测序仪的应用实现了
19、凝胶电泳、初始数据获取、碱自动测序仪的应用实现了凝胶电泳、初始数据获取、碱基阅读等步骤自动化基阅读等步骤自动化。自动化测序结果清晰、准确、分辨率高测序速度快 200bp/h一次测序结果(一个反应)有长度限制(1000bp)测序商品化 60-180元/反应1、末端终止法2、化学裂解法3、DNA测序自动化使用特异性引物与单链模板DNA退火,在DNA聚合酶作用下进行延伸反应,用ddNTP终止,用PAGE区分长度仅相差1个核苷酸的ssDNA,从而完成测序的方法。用化学试剂在A、G、C、T处特定的裂解DNA片段,产生一簇各种长度的短链,经过PAGE放射自显影可直读DNA顺序。类似末端终止法,所不同的是用
20、荧光染料标记,计算机自动读出。优点简便、迅速、应用广泛。不需酶促反应,可以对寡核苷酸测序。1、高负荷,1块胶可测16个样品;2、机读不需放射自显影;3、安全不用同位素;4、简单迅速8-10h。三种方法比较毛细管电泳 用毛细管电泳取代聚丙烯凝胶平板电泳,节省时间,加快测序进程,其他程序同链终止法或化学测序法.光点测序 dNTP(脱氧三磷酸核苷酸)连接到DNA 3-末端时会释放1个焦磷酸(PPi),焦磷酸在磷酸化酶的作用下转化为化学能,并发出光亮。由此,往反应液中每次只加入1种核苷酸,当加入的核苷酸结合时,反应液发出亮点,并记录核苷酸种类。DNA芯片技术其它测序方法单分子测序法 模板DNA分子首先
21、通过酶法修饰或合成,使不同的荧光素标记不同的碱基,然后,用两个激光束夹住标记的DNA分子,从被固定的核苷酸上游端开始用外切酶逐一切下被标记的核苷酸,通过单分子荧光探测器检测液流中切下的标记核苷酸,再根据检测到的信号顺序确定DNA顺 序。质谱法 杂交测序法原子探针显微镜测序法第三代DNA测序仪在DNA聚合酶合成DNA分子的同时就进行DNA测序这将会给整个DNA测序界带来一场革命。据他们预测将来能够在15分钟之内完成整个人类基因组的测序工作。基于纳米孔的单分子技术,对单分子DNA聚合酶复制DNA进行监控,当带有荧光标签的核苷酸(每一种核苷酸携带的荧光标签颜色都不同)被掺入新合成的DNA分子时就会发
22、出荧光,根据荧光颜色就能读出DNA序列。第三代测序公司Pacific Biosciences2011年5月宣布已开始正式发售PacBio RS系统。PacBio RS是一台革命性的DNA测序系统,它融合了新颖的单分子测序技术和高级的分析技术来实时揭秘生物学。此系统有着其他系统无以伦比的序列读长,平均达1000个DNA碱基。二、大片段二、大片段DNADNA测序策略测序策略1、定向测序策略2、随机测序策略3、多路测序策略1 1、定向测序策略、定向测序策略 定向测序策略是从一个大片段DNA的一端开始按顺序进行分析。传统的方法传统的方法 传统的方法是用高分辨率限制酶切图谱确定小片段的排列顺序,然后将小
23、片段亚克隆进合适的克隆载体并进行序列分析。外切酶制造缺失片段法外切酶制造缺失片段法克隆的DNA片段经过特异外切酶等不同时间处理下,可产生具有共同末端的不同长度的DNA片段。于是便可用共同引物从缺失末端开始进行测序。一轮一轮随机引物随机引物 作为二轮的引物作为二轮的引物测出的序列测出的序列二轮二轮三轮三轮引物延伸法引物延伸法从DNA的3端依赖特定引物延伸测定一段DNA序列,再根据测得序列设计新的引物,作下一延伸反应的引物,如此向前推进,最终测得DNA的全长序列。由于引物的非特异性结合概率高,所以该方法不适合于测定含有多重复序列的 DNA 片段。嵌套缺失法是利用缺失随机突变原理,先将目的 DNA
24、克隆到载体上,再用限制性内切酶在邻近其一端处切断载体,使之变成 3端凹进 5 端突出的线状 DNA,再用外切酶(exonuclease)或者 DNase 加 Mn+离子,沿此末端逐步消化目的 DNA,(只能从 5端 开始消化。于是只要控制消化时间,即可得到一组依次相差若干碱基,其一端固定于载体另一端游离的目的 DNA 片断,再经末端修饰,重新连接,即可得到一群一端相同但长度不等的目的 DNA 克隆。之后,用同一引物从缺失端开始测序,最后,排列和比较所有子片断的序列,即能得到目的 DNA 的全部序列。嵌套缺失法嵌套缺失法引物引物EB目的片段目的片段BE两种限制性内切酶两种限制性内切酶嵌套缺失法流
25、程示意图嵌套缺失法流程示意图首先将目的大片段克隆到测序载体;首先将目的大片段克隆到测序载体;35选用选用两种限制酶两种限制酶从待测从待测DNA片段与载体序列之片段与载体序列之间将间将DNA切断;切断;53Exo IIIS1T4 ligase用外切核酸酶消化上述线性用外切核酸酶消化上述线性DNA(37 C,250核苷酸核苷酸/min),),在不同时间在不同时间终止反应终止反应,可以获得在同一端缺失并,可以获得在同一端缺失并依次相差依次相差200-250bp的的DNA片段。片段。用核酸酶用核酸酶S1消化末端的单链,使之成平端,消化末端的单链,使之成平端,经经T4 DNA连接酶连接酶连接环化,得到一
26、套缺失连接环化,得到一套缺失长度不同的长度不同的DNA片段克隆;片段克隆;tttgggcccaaa atcggggctgggcatagttttgggcccaaa ggcatagt.cgatcagtttgggcccaaa cgatcagcg.tcagtcgtagtttgggcccaaa tcagtcgtagcgtagcta.gggaa通用引物通用引物拼接方向拼接方向测序测序每次测序的长度是有限的每次测序的长度是有限的将各个克隆从其缺失端开始用将各个克隆从其缺失端开始用通用引物测序通用引物测序。测序结果可以从。测序结果可以从子片段序列的相互子片段序列的相互重叠部分重叠部分准确无误地将相邻片段的序列
27、拼接起来。准确无误地将相邻片段的序列拼接起来。2 2、随机测序策略随机测序策略随机测序战略又称鸟枪战略(shotgun strategy),此策略是将基因组DNA用机械方法随机切割成2Kb左右的小片段,把这些DNA片段装入适当载体,建立亚克隆文库,从中随机挑取克隆片段进行测序。最后通过克隆片段的重叠组装确定大片段DNA序列。步骤:步骤:v取全基因组取全基因组DNA DNA 纯化酶切或超声波随机纯化酶切或超声波随机打断打断 电泳电泳 回收回收DNADNA片段片段 构建质粒文库构建质粒文库 转化宿主菌转化宿主菌 扩增培养扩增培养 提质粒提质粒DNADNA为模板为模板进行进行PCRPCR测序测序 上
28、测序仪上测序仪 处理测序数据处理测序数据 补缺补缺 完整基因组序列。完整基因组序列。shotgun法全基因组全基因组DNA随机切成小片段随机切成小片段拼接拼接补缺补缺完整基因组序列完整基因组序列实例:流感嗜血杆菌基因组的测序及顺序组装超声波打断纯化的基因组超声波打断纯化的基因组DNA 琼脂糖电泳收集琼脂糖电泳收集1.62.0 kb2.0 kb的的区区段、段、纯纯化化 构构建到建到质质粒粒载载体中体中 随随机挑机挑选选19687个个克隆克隆,进进行行28643次次测测序序,得到可得到可读顺读顺序序为为11 631 485 bp 组组装成装成140个个覆盖全基因覆盖全基因组组范范围围的的独独立的立
29、的顺顺序重序重叠叠群群,全基因组序列全基因组序列3 3、多路测序战略、多路测序战略 多路测序战略是鸟枪法的一种发展策略,是通过多个随机克隆同时进行电泳及阅读,快速分析DNA序列的一种技术。将相同的基因组DNA片段克隆到20种不同的质粒载体上,这些载体有一个共同引物结合位点和一段独特的“识别序列”。分别将来源20个亚克隆库进行克隆,然后从每一载体的克隆库中挑选1个克隆,组成混合池,每一混合池通过酶法或化学法进行测序,然后通过适当方法进行重复测序,最终获得待测片段的DNA序列。多路测序技术路线多路测序技术路线测序产物在4个相邻的变性凝胶泳道中分离,然后用与每一载体上特异的“识别序列”互补的标记探针
30、依次杂交,每次杂交便可显示相应载体上的插入片段序列。每一混合池通过酶法或化学法进行测序杂交读片后洗去探针,换另一种探针杂交,如此重复下去便可获得所有待测片段的DNA序列。其它测序策略路线其它测序策略路线重要区域优先测序重要区域优先测序 人们对感兴趣的基因或与疾病相关的基因优先测序。EST(Expressed sequence tag)EST(Expressed sequence tag)测序测序EST是从一个随机选择的cDNA克隆进行测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,平均长度为360 120bp。以EST为探针很容易从cDNA文库中筛选全基因,又可从BAC克隆中找到
31、其基因组的基因序列。单细胞测序新技术单细胞测序新技术为了获得mg级样品量的DNA进行测序,通常需要数以千计或甚至数以百万计的细胞,使用的测序材料无一例外都是大量细胞的混合DNA样本。然而细胞之间存在很大的异质性,对群体样品或混合样品进行研究得到的结果只是一群细胞中信号的平均值,或者只代表其中占优势数量的细胞信息。而找出哪种突变存在于哪种细胞中几乎是不可能的,只存在于少数细胞(如早期癌细胞)中的突变也基本上被掩藏 测序单个细胞的DNA?为了测序单个细胞,研究人员必须首先利用包括PCR在内的技术生成大量的DNA拷贝。然而这些技术存在的一个缺点是:基因组的某些部分相比另一些会生成更 大量的拷贝,这一
32、问题被称作扩增偏倚(amplification bias),这会导致基因组最少拷贝的区域淹没,从而无法检测到它们。因此,大多数都尝试让单细胞测序覆盖达到平均大约为基因组的70%而典型的大约 为40%。单细胞全基因组扩增(Whole Genome Amplification,WGA)技术常用的常用的WGA技术主要分为两种类型:技术主要分为两种类型:1.基于热循环以PCR为基础的WGA技术,如简并寡核苷酸引物PCR(Degenerate oligonucleotide primer PCR,DOP-PCR)等;DOP-PCR是利用遗传密码有简并性,根据保守氨基酸的序列反推DNA来设计引物,因此引物
33、的部分碱基不稳定,是为多种序列的混合物,这些引物可结合在基因组的多个位点。2.基于等温反应不以PCR为基础的WGA技术,如多重置换扩增(Multiple displacement amplification,MDA)等。上述技术可以对少量样品进行扩增,但对于极微量样品进行全基因组扩增时往往会产生非特异的扩增假象,影响实验结果。多次退火环状循环扩增技术(Multiple Annealing and Looping Based Amplification Cycles,MALBAC)推出了单细胞全基因组/转录组测序服务,解决了基因组扩增对微量初始模板过大的扩增偏倚,使基因组测序的模板需求量从g级降
34、至单细胞水平。多次退火环状循环扩增在MALBAC中,首先分离出来自单细胞的DNA,然后添加称作引物的短DNA分子。这些引物可与DNA的随意部分互补,从而使得它们能够附着到DNA链上,充当DNA复制起点。这些引物由两个部分构成一个包含8个核苷酸的粘性部分变化多样,可与DNA结合,再加上一个包含27个核苷酸的共同序列。这一共同序列可防止DNA太多次拷贝,大大地降低了扩增偏倚。通过将自身掺入到新拷贝链,从而自身成环,防止了过度拷贝。能够测序单能够测序单个人类细胞个人类细胞93%的基因的基因组组 不过,尽管MALBAC相比其他技术对基因组的覆盖更为完全,它并不完美。其仍然错过了大约三分之一的单核苷酸变
35、异。此外,拷贝DNA的酶容易出错,因此拷贝过程本身可以引入不存在于细胞中的变异。DNADNA甲基化的测序甲基化的测序DNA样本首先经亚硫氢酸盐处理后,甲基化的胞嘧啶胞嘧啶(C)保持不变,但非甲基化的胞嘧啶被转化成脲嘧啶,因此在利用该处理产物作为模板的PCR产物中,甲基化的胞嘧啶还是胞嘧啶,但非甲基化胞嘧啶变成了脲嘧啶(胸腺嘧啶),此时检测到的胞嘧啶(C)即是样品中本身的甲基化位点.但是没有办法区分5mC和5hmC。Sequencing DNA Methylation Past,Present,Future with Dr.Wolf Reik Theres a whole world out t
36、here of RNA modifications that remain to be discovered I think.The researchers dont know how the thousands of m6As work to control the function of mRNAs,but they do note that the m6As are located near stop codons in mRNA sequences.In addition to investigating how m6A regulates mRNAs within cells,the
37、 researchers are now focused on identifying the enzymes and pathways that control mRNA methylation.三、三、RNARNA序列分析序列分析随着DNA序列分析技术的迅猛发展,对大分子RNA的一级结构分析往往通过测定它的基因DNA序列,或测定反转录得到的cDNA序列来完成,但这一步会引入错误,且3端有偏差,加之RNA的重要性增加,现在RNA直接测序技术的开发显得尤加重要(现在已有公司在开发单分子直测法,无需转为cDNA这步)。RNA的测序方法可以分为两大类,即片段重叠法和直接阅读法。片段重叠法片段重叠法
38、为经典方法,目前仍有人使用。分别用二种以上的具有不同碱基专一性的核糖核酸酶将RNA分子水解成大核苷酸片段,然后分别分离和鉴定各水解产物,测定它们的核苷酸顺序及其相对含量。使用更多专一性不同的酶水解 RNA分子,解析结构的能力就更强。设某 RNA片段的顺序是ABCDCAD。可以使用二种专一性不同的水解酶,一种水解A和B,另一种水解D结果如下:水解A和B:ABCDCADABCDCAD水解D:ABCDCADABCDCAD第2个酶水解得到ABCD和CAD二个片段,其可能的排列是ABCDCAD和CADABCD,而第1个酶解产物有CDCA顺序,即前者是正确的。就涉及的方法和技术而言,关键在于寡核苷酸片段的
39、分离和测定。1964年Holley等人用片段重叠法首次测定酵母tRNAala的77个核苷酸的全部排列顺序。当时分离鉴定还停留在紫外常量的水平,所需样品量很大,Holley等从100公斤酵母中提取制备了纯度为60%的1g酵母tRNAala,用了8年时间才完成此项研究。获1968年诺贝尔生理学或医学奖。霍利霍利(Robert W(Robert WHolleyHolley)霍利 19221993 上世纪70年代后期,将测定DNA一级结构的思想和技术用于RNA序列分析,建立了RNA序列分析直读法,大大简化了重叠法的操作。适用于大分子RNA。根据制备片段的方法,直读法主要有:直读法直读法(1)末端测定的
40、直读法。在一定条件下,甲酰胺可以使每一分子RNA只有一个磷酸二酯键被水解,此水解无专一性,于是得到一组3端的片段和一组5末端的片段。对5端加以标记后,在聚丙烯酰胺凝胶电泳上按链长分离,切下凝胶条带,经水解,鉴定它们5末端的核苷酸,即可读出RNA的核苷酸顺序。此法受RNA二级结构的影响小,也能鉴定某些修饰碱基。但操作步骤较多,现已不用。(2)化学直读法。效仿DNA化学降解法。首先将 RNA3端进行同位素标记,然后分别对RNA的四种碱基进行修饰(如用硫酸二甲酯(修饰G)、焦碳酸二乙酯(主要修饰A)、肼(修饰U)、无水肼(在3M NaCl中主要修饰C),随后用胺催化在修饰的碱基位置将RNA链切断,经
41、变性凝胶电泳分离后,即可阅读顺序。此法受RNA二级结构的影响小,但也不能阅读修饰碱基。但由于化学操作复杂,且由于RNA不稳定,易被污染,还有有毒,所以此法基本不用了。(3)利用末端终止的直读法。如Sanger法一样,将dATP掺入到正在延伸的RNA链,由于dATP比正常ATP缺少3羟基,导致RNA链的终止。将四种标记的3-dNTP分别加入到四个RNA合成系统中,在有引物和依赖RNA的RNA聚合酶以及四种正常NTP存在的情况下,可得四套长短不一、特定3dNTP为3端结构的RNA片段,然后电泳,放射性显影直接读出序列。此法不适于不能起模版作用的RNA,如tRNA的序列分析,也不能测稀有碱基,同时也
42、受RNA二级结构的影响。(4)利用专一性核糖核酸酶的直读法,无需引物和修饰。此法首先将其5端同位素标记,然后用特异性的RNase部分降解,形成各种特定碱基为3端结尾的长短不一的片段,通过聚丙烯酰胺凝胶电泳的分离,经放射自显影后即可阅读顺序。此法,现在还在使用。此法受RNA二级结构影响较大,也读不出修饰核苷酸。(5)互补 DNA(cDNA)直读法。在四种脱氧核苷三磷酸存在下,反向转录酶以RNA为模板反转录成互补的cDNA,然后用DNA顺序测定法测定cDNA的顺序,再推导出原来的RNA顺序。这种方法在测定mRNA和病毒RNA的顺序中用得很多。由于cDNA同样可以被克隆,因此测定方便。此法,为现在许
43、多转录组测序(RNA-seq)技术的基础。四、四、DNADNA计算计算DNA计算是计算机科学和分子生物学相结合而发展起来的新型研究领域。它以DNA为计算工具,利用DNA反应的强大并行计算能力。DNA计算的创始人是美国南加州大学的莱昂那多阿德莱曼教授,他于1994年利用DNA计算方法解决了一个著名的数学难题“七顶点哈密尔顿路径”。最近,科学家们开始利用DNA计算来创造生物计算机,DNA计算的基本原理问题编码DNA分子链操作结果(DNA分子链)DNA计算是利用DNA双螺旋结构和碱基互补配对规律进行信息编码,将要运算的对象映射成DNA分子链,通过生物酶的作用,生成各种数据池,再按照一定的规则将原始问
44、题的数据运算高度并行地映射成DNA分子链的可控的生化反应过程。最后,利用分子生物技术(如聚合链反应PCR、超声波降解、亲和层析、克隆、诱变、分子纯化、电泳、磁珠分离等),检测所需要的运算结果 哈密尔敦直接路径问题,俗称“售货员旅游问题”假定有一个售货员必须向他经过的每一座城市推销产品,但是为了节约时间,每座城市他只能途径一次,路径不能重复,而且路径最短,而这个问题就是让你为这个推销员设计这样一条路径 难度随城市数k呈指数增长,当城市数k很大时(例如104数量级),目前的高级硅片计算机+巧算法 也会“芯有余而速不足”。利用DNADNA单链单链代表每座城市及城市之间的道路道路,并为顺序编码;这样,
45、每条道路“粘性的两端”就会根据DNA组合的生物化学规则与两座正确的城市相连。然后,他在试管中把这些DNA链的副本混合起来,它们以各种可能组合连接在一起,经过一定时间的一系列的生化反应,便能找出解决问题的唯一答案,即只经过每座城市一次的顺序最短的DNA分子链。某公司开辟了 北京、天津、太原、郑州、济南 五城的飞艇娱乐旅游,共8条航线。拟解决的问题:某人想从北京出发,游遍五个城市,到郑州结束,每城都要到且仅到一次,不考虑返程;请找出一条合乎要求的旅游路线。问题中仅5城8线,不用计算机也可看出“北京-天津-太原-济南-郑州”是一个正确答案 1 1、编码、编码用DNA的4个碱基G、C、A、T给城市及已
46、通航线编码。带框文字 是5城市的编码,长度5X6=30;航线序列是已通航线中的4条,(其余4条航线未画出),其中 头控 和 尾控 是为了保证 从北京开始,到郑州结束,长度3+4X6+3=30。航线编码串刚好与城市编码串互补,两序列可绞成长为30的双螺旋结构 2 2、一系列酶学反应、一系列酶学反应5城8线,共需 5+8+2(头、尾控)=15种DNA编码片段把15种DNA片段及其它必要的材料放在试管中,在正确的时间加入正确的酶(如聚合酶、连接酶、转移酶等),给以合适的温度压力,编码片段 在试管中 翻滚、碰撞、粘连,最后变成一锅DNA混合汤。如代表 北京 和 天津 两个城市的片段,通过互补的 京天线
47、 ,可连接成如图的一小段3、用电泳技术,筛出长度合格的片段长度为30(碱基数)的DNA双螺旋片段,其一链含五个城市,另一链含4个航班。但五城可能有重复(同时也就有遗漏)。4、亲和萃取利用亲和力,可把 包含北京碱基的、长度为30的DNA钓出来,放到缓冲池1中,再从缓冲池1中,把含天津碱基的DNA钓出来,.,如此,流水线方式(串联地)地钓5次,则得到了含5个城市的DNA,都以北京开始,郑州结束,且不重复不遗漏。5、测序即得到想要的路径从数学上讲,单链DNA可看作由符号A、C、G、T组成的串,同电子计算机中编码0和1一样,可表示成译码信息。特定的酶可充当“软件”来完成所需的信息处理工作。不同的酶用于
48、不同的算子,如限制内核酸酶可作为分离算子,DNA结合酶可作为绑结算子,DNA聚合酶可作为复制算子,外核酸酶可作为删除算子等。这样,通过化学反应以完成各种不同的运算过程。DNADNA计算机计算机DNA计算机是一种生物形式的计算机。它是利用DNA建立的一种完整的信息技术形式,以编码的DNA序列(内存)为运算对象,通过分子生物学的运算操作以解决复杂的数学难题。目前,DNA计算机的大量研究还停留在纸面上,大多是理想化的,还没有条件付诸实验。基因组测序中的个性先锋克莱格.文特尔(Craig Venter)塞雷拉基因组公司(Celera Genomics)的创办人与前任总裁。现为合成基因组公司(Synthetic Genomics)的创办人。Celera公司(私人公司)在他的带领下展开与政府支持的人类基因组计划互相竞争的研究计划。这场计划开始于1999年,特色之一是开创使用了鸟枪定序法(shotgun sequencing)。计划的目的是要建立一个需付费才能使用的基因组数据库。最后私有化的意图并未达成。靠科研办公司成亿万富翁!讨论 测序的未来发展及影响