1、RNA-seq技术原理及应用主要内容主要内容1、RNA-seq技术简介技术简介2、RNA-seq技术原理技术原理3、RNA-seq结果分析结果分析4、RNA-seq技术应用技术应用一、一、RNA-seqRNA-seq技术简介技术简介1.诞生于诞生于 20 世纪世纪 70 年代的年代的 Sanger 法是最早被法是最早被广泛应用的广泛应用的 DNA 测序技术,也是完成人类基因组测序技术,也是完成人类基因组计划的基础。计划的基础。2. 2005 年以来,以年以来,以 Roche 公司的公司的 454 技术、技术、Illumina 公司的公司的 Solexa 技术和技术和 ABI 公司公司的的 SO
2、LiD 技术为标志的新一代测序技术相继诞生技术为标志的新一代测序技术相继诞生,又称作深,又称作深度测序技术。度测序技术。3.把高通量测序技术应用到由把高通量测序技术应用到由 RNA 逆转录生成逆转录生成的的 cDNA 上,从而获得来自不同基因的上,从而获得来自不同基因的RNA 片段在片段在特定样本中的含量,这就是特定样本中的含量,这就是 RNA测序或测序或 RNA-seq。二、RNA-seq技术原理Illumina/Solexa 测序技术的基本原理是边合成边测序技术的基本原理是边合成边测序,即测序过程是以测序,即测序过程是以 DNA 单链为模板,在生成单链为模板,在生成互补链时,利用带荧光标记
3、的互补链时,利用带荧光标记的 dNTP 发出不同颜色发出不同颜色的荧光来确定不同的碱基。的荧光来确定不同的碱基。新加入新加入 dNTP 的末端被可逆的保护基团封闭,既的末端被可逆的保护基团封闭,既保证单次反应只能加入一个碱基,又能在该碱基读保证单次反应只能加入一个碱基,又能在该碱基读取完毕后,将保护基团除去,使得下一个反应可继取完毕后,将保护基团除去,使得下一个反应可继续进行。为了增加荧光强度,使之更易被成像系统续进行。为了增加荧光强度,使之更易被成像系统所采集,该技术在测序之前还需要对待测片段做桥所采集,该技术在测序之前还需要对待测片段做桥式扩增。式扩增。 Shot Gun Shot Gun
4、文库构建文库构建DNADNA片段固定片段固定簇序列读取反应簇序列读取反应图像获得和处理图像获得和处理序列组装和比较序列组装和比较单条模板扩增单条模板扩增1234T T T T T G C T 二、RNA-seq技术原理二、RNA-seq技术原理RNA-seqRNA-seq实验流程图实验流程图为了便于测序数据的发布和共享,高通量测序数据以为了便于测序数据的发布和共享,高通量测序数据以 FASTQ 格式来记录所测的碱基读段和质量分数。格式来记录所测的碱基读段和质量分数。 NCBI、EBI、DDBJ 等数据中心建立了大容量的数据库等数据中心建立了大容量的数据库 SRA来存放共享的测来存放共享的测序数
5、据。序数据。三、RNA-seqRNA-seq结果分析结果分析三、RNA-seqRNA-seq结果分析结果分析RNA-seq 数据的基本处理数据的基本处理1. 序列定位算法序列定位算法(1)空位种子索引法:首先将读段切分,并选取其中一段)空位种子索引法:首先将读段切分,并选取其中一段或几段作为种子建立搜索索引,再通过查找索引、延展匹配来或几段作为种子建立搜索索引,再通过查找索引、延展匹配来实现读段定位实现读段定位 ,通过轮换种子考虑允许出现错配的各种可能的,通过轮换种子考虑允许出现错配的各种可能的位置组合(位置组合(Maq)。(2) Burrows-Wheeler 转换技术:通过转换技术:通过B
6、-W 转换将基因组转换将基因组序列按一定规则压缩并建立索引,再通过查找和回溯来定位读序列按一定规则压缩并建立索引,再通过查找和回溯来定位读段,在查找时可通过碱基替代来实现允许的错配(段,在查找时可通过碱基替代来实现允许的错配(Bowtie)。(3)改进的改进的 SmithWaterman 动态规划算法:随着读长的动态规划算法:随着读长的增加,允许读段序列中存在插入删除增加,允许读段序列中存在插入删除(indel)的定位(的定位(BFAST、SHRiMP、Mosaik)。)。三、RNA-seqRNA-seq结果分析结果分析2. 基因表达水平估计基因表达水平估计RNA-seq 数据最基本的应用是检
7、测基因的表达水数据最基本的应用是检测基因的表达水平平 ,与基因芯片数据相比,与基因芯片数据相比 ,RNA 测序得到的是数字测序得到的是数字化的表达信号,具有灵敏度高、分辨率高、无饱和区化的表达信号,具有灵敏度高、分辨率高、无饱和区等优势等优势。RNA 测序数据是对提取出的测序数据是对提取出的 RNA 转录本中随机转录本中随机进行的短片段测序,如果一个转录本的丰度高,则测进行的短片段测序,如果一个转录本的丰度高,则测序后定位到其对应的基因组区域的读段也就多,可以序后定位到其对应的基因组区域的读段也就多,可以通过对定位到基因外显子区的读段计数来估计基因表通过对定位到基因外显子区的读段计数来估计基因
8、表达水平达水平。三、RNA-seqRNA-seq结果分析结果分析3. 选择性剪接事件识别和剪接异构体表达水平推断选择性剪接事件识别和剪接异构体表达水平推断只要测序深度足够深,就能检测到所有转录本的全只要测序深度足够深,就能检测到所有转录本的全部序列,包括来自剪接接合区的序列部序列,包括来自剪接接合区的序列。Tophat 等软件等软件定位剪接接合区读段的策略能标定出剪接事件中的两定位剪接接合区读段的策略能标定出剪接事件中的两个剪接位点:供体位点和受体位点个剪接位点:供体位点和受体位点。通过比较供体位通过比较供体位点和受体位点的组合,就能识别选择性剪接事件点和受体位点的组合,就能识别选择性剪接事件
9、。进一步,通过对供体和受体位点的读段计数,结合进一步,通过对供体和受体位点的读段计数,结合外显子其他区域的读段数据,还能定量地计算选择性外显子其他区域的读段数据,还能定量地计算选择性剪接事件之间的比例。剪接事件之间的比例。三、RNA-seqRNA-seq结果分析结果分析三、RNA-seqRNA-seq结果分析结果分析两类样本两类样本 RNA-seq 数据比较分析的框架数据比较分析的框架四、RNA-seq技术应用1、转录本结构研究、转录本结构研究 利用单碱基分辨率的利用单碱基分辨率的RNA-Seq技术可极大地丰技术可极大地丰富基因注释的很多方面内容富基因注释的很多方面内容, 包括包括 5/3边界
10、鉴定、边界鉴定、UTRs区域鉴定以及新的转录区域鉴定等。区域鉴定以及新的转录区域鉴定等。RNA-Seq还可对可变剪接还可对可变剪接(Alternative splicing)进行定量研究。进行定量研究。2、转录本变异研究、转录本变异研究 在发现序列差异方面,如融合基因鉴定、编码在发现序列差异方面,如融合基因鉴定、编码序列多态性研究等,序列多态性研究等,RNA-seq也具有很大的潜力。也具有很大的潜力。四、RNA-seq技术应用3、非编码区域功能研究、非编码区域功能研究 转录组学研究的一个重要方面就是发现和分转录组学研究的一个重要方面就是发现和分析析 ncRNA,在表观遗传、转录及转录后等多个层
11、面,在表观遗传、转录及转录后等多个层面调控基因表达。调控基因表达。4、基因表达水平研究、基因表达水平研究RNA-Seq一个特别强大的优势是它可以捕捉不同一个特别强大的优势是它可以捕捉不同组织或状态下的转录组动态变化而无需对数据集进组织或状态下的转录组动态变化而无需对数据集进行复杂的标准化。行复杂的标准化。总结高通量测序技术的应用面非常广,高通量测序技术的应用面非常广,RNA-seq 只是只是其中一个方面,除此之外,基因组的从头测序和重其中一个方面,除此之外,基因组的从头测序和重测序测序 、染色质免疫沉淀测序、甲基化测序等技术都、染色质免疫沉淀测序、甲基化测序等技术都同样有着广泛的应用。同样有着广泛的应用。