1、生物信息学在高通量测序生物信息学在高通量测序数据分析中的应用数据分析中的应用主 讲 人:李广林提提 纲纲高通量测序技术的介绍高通量测序技术的介绍高通量测序技术的主要应用高通量测序技术的主要应用生物信息学在高通量测序数据中的主要应用生物信息学在高通量测序数据中的主要应用高通量测序简介高通量测序简介w高通量高通量测序测序:一次性对一次性对几百万到十亿条几百万到十亿条DNA分子进行分子进行并行测序并行测序,又称为,又称为下一代测序技术下一代测序技术,其使得可对一个物种的转录组和基因组进行其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析,所以又被称为深入、细致、全貌的分析,所以又被称为深深
2、度测序度测序。wHigh-throughput Sequencing wNext Generation Sequencing wDeep Sequencing3主要测序技术 w 第一代测序技术Sanger sequencing(1980s)w 第二代测序技术(next generation sequencing,NGS)w Roche/454(2005)w Illumina/Solexa(2006)w Life/APGs SOLiD(2007)w Life/APGs Ion torrent(2010)w 第三代测序技术Pacific Biosciences single molecule se
3、quencing(2011)Nanopore sequencing测序的基本反应原理:DNA聚合反应第一代测序技术第一代测序技术 Sanger 法法结合荧光标记和毛细管电泳结合荧光标记和毛细管电泳测序峰图ABI 3730 sequencerw Read length:1,000 bpw Accuracy:99.999%w Cost:$0.5/kbw Throughput:6x105 bp/daySanger vs NGSSangerNGS样品量大小是否需要电泳是否通量低高单位成本高低准确率高偏低读长长短高通量测序技术Roche/454 pyrosequencing以固化了引物的玻璃微球为中心形
4、成油包水结构的乳滴,每个乳以固化了引物的玻璃微球为中心形成油包水结构的乳滴,每个乳滴都是一个滴都是一个PCR反应的微量反应器(通过控制测序文库反应的微量反应器(通过控制测序文库DNA的浓的浓度和微球悬浊液的浓度,保证大多数微球只结合一条度和微球悬浊液的浓度,保证大多数微球只结合一条DNA模板)。模板)。经过多轮循环反应,每个微球表面都结合了数千个相同的拷贝。经过多轮循环反应,每个微球表面都结合了数千个相同的拷贝。变性后,使微球上结合的都是单链变性后,使微球上结合的都是单链DNA片段。片段。富集微球,转移到刻有大规模微孔阵列的微孔板上,每个微孔只富集微球,转移到刻有大规模微孔阵列的微孔板上,每个
5、微孔只容纳一个微球。容纳一个微球。高通量测序技术Roche/454 pyrosequencing顺次向流通池中加入顺次向流通池中加入4种种dNTP中的一中的一种,流过微孔板的一面。种,流过微孔板的一面。当当dNTP与脱氧核糖骨架连接后释放出与脱氧核糖骨架连接后释放出焦磷酸,在与焦磷酸,在与dNTP一起加入的一起加入的ATP硫硫酰化酶和荧光素酶作用下产生一系列酰化酶和荧光素酶作用下产生一系列级联反应,放出不同的光信号。级联反应,放出不同的光信号。每个微孔中光信号的有无,就表明对每个微孔中光信号的有无,就表明对应的应的dNTP是否连接到了片段上。是否连接到了片段上。454测序的原理:焦磷酸测序!#
6、$%&()*)+,$%&-!./).012 0*!.0,.3./).012 0*H3YHMSequencing by Synthesis!#8+.+?S(!X5 83.HM.9+./).0J 8G G 8098G M8+2 0,N.+8D.H39.3?4%J D.+LH38G 83*.X:a3)05 813H+,N.62 1HS2,.36G 8,.9.V2 1.9)32 0*8+./).012 0*3)0b!(0)1G.HJ 9.1HD7G.D.0,83,H,N.,.D7G 8,.+,3809*.0.38,.+8G 2*N,+2*08G b!SN.G 2*N,+2*08G 2+3.1H39.9
7、=,N.!;18D.38b!SN.+2*08G+,3.0*,N2+73H7H3J H08G,H,N.0)D=.3HL0)1G.HJ 9.+2 01H37H38,.9b 8.0 h 7.5 h 4.5 h and 10.5 h DNA library preparation and titration emPCR Sequencing Flowgram Key sequence 逐次加入逐次加入dATP等,每加入一种,检测信号,等,每加入一种,检测信号,清洗再加下一种。清洗再加下一种。ATP硫酸化酶硫酸化酶5-磷酰硫酸磷酰硫酸荧光素酶荧光素酶高通量测序技术Roche/454 pyrosequen
8、cingw 优势:读长长(max 1 kb,GS FLX Titanium XL+),运行时间短(10-23 hours)w 主要错误来源:难以准确判定连续碱基(经过3次级联化学反应产生的荧光信号与连接上碱基的数量线性关系较差),容易产生Indelw 劣势:通量相对偏低(max 700M),单位成本高GS FLX+SystemGS Junior System高通量测序技术Illumina/Solexa单链单链DNA两端加上非对称的通用接头两端加上非对称的通用接头(包括测序引物包括测序引物),接头,接头与事先固定在固相芯片表面的序列互补与事先固定在固相芯片表面的序列互补单链单链DNA结合到芯片表
9、面形成桥式结构。然后使用接头引物结合到芯片表面形成桥式结构。然后使用接头引物进行进行PCR扩增扩增变性后在一个芯片上可以形成上亿个不相关的单链变性后在一个芯片上可以形成上亿个不相关的单链DNA分子分子簇,其一端固定在芯片表面,另一端是自由的簇,其一端固定在芯片表面,另一端是自由的高通量测序技术Illumina/Solexa使用测序引物从自由的通用接头一使用测序引物从自由的通用接头一侧开始测序反应。侧开始测序反应。测序使用的测序使用的dNTP每种碱基被不同的每种碱基被不同的荧光基团标记,同时脱氧核糖的荧光基团标记,同时脱氧核糖的3-OH被封闭,这样每轮测序循环只能被封闭,这样每轮测序循环只能延伸
10、一个核苷酸。读取碱基荧光信延伸一个核苷酸。读取碱基荧光信号,就能知道这一轮每个簇结合上号,就能知道这一轮每个簇结合上的是什么核苷酸的是什么核苷酸然后切除荧光基团,打开被封闭的然后切除荧光基团,打开被封闭的3-OH,继续进行下一轮反应,继续进行下一轮反应Solexa测序的原理:可逆阻断高通量测序技术Illumina/Solexaw优势:通量最高(max 600Gb,HiSeq 2500)w主要错误来源:同一个簇内不同DNA链延伸情况不同(相位差),导致读取错误w劣势:读长较短(max 250bp,HiSeq 2500),运行时间长(1-14 days,HiSeq 2500大幅提升了运行速度),数
11、据存储和分析难度大。MiSeqHiSeq 2000Genome Analyzer II高通量测序技术AB/SOLiDSOLiD System5500 seriesSOLiD 测序探针介绍类似类似454的微球反应体系,但使用连接反应。的微球反应体系,但使用连接反应。SOLiD Sequencing 每次测序反应的第每次测序反应的第1轮,测序引物轮,测序引物1与接头序列互补形成平末端,然后与探针与接头序列互补形成平末端,然后与探针连接。当探针连接。当探针1,2位与待测序列模板互补并连接上之后,获取荧光信息。然位与待测序列模板互补并连接上之后,获取荧光信息。然后在探针的后在探针的5,6位之间切开探针
12、,进行下一个连接反应。这样重复多次,可位之间切开探针,进行下一个连接反应。这样重复多次,可以获得模板序列的第以获得模板序列的第1-2,6-7,11-12位置的信息。位置的信息。高通量测序技术Life/APGs SOLiD优点:由于使用双碱基编码技术(two-base encoding),准确率最高,通量高(max 300 Gb)缺点:读长最短(max 75 bp),运行时间长(7-10 day),数据储存和分析难度大5500 Series Genetic Analysis Systems高通量测序技术Life/APGs Ion torrent PGM454发明者的新作品发明者的新作品测序反应在
13、微阵列芯片上测序反应在微阵列芯片上的微反应池中进行。的微反应池中进行。每个每个dNTP结合到延伸链上,结合到延伸链上,会释放出一个会释放出一个H+,pH值变值变化会导致电位变化。化会导致电位变化。检测每次检测每次dNTP流过的电位流过的电位差变化,就能知道该差变化,就能知道该dNTP是否连接上去。是否连接上去。高通量测序技术Life/APGs Ion torrent PGMw 优点:速度快(5%)的单核苷酸变异w 群体SNP callingA T C G A T C G A A T T C G T A C G A T G C T T A G C T A G C A T A C GReferen
14、ceReads A T C G A T C G C G T A C G A T G C T T A G C T A G C A T A C GShort InDel 检测检测寻找SV(structure variation)w Copy number variation(CNV)w 需要一定的测序覆盖度(10 x),mapping depth也需要仔细检查转录组转录组Small RNA降解组降解组TextRNADGE生物信息学在生物信息学在RNA omics方面的应用方面的应用RNA高通量测序高通量测序转录组转录组Small RNA降解组降解组TextRNADGERNA测序转录组测序转录组测序
15、简介 转录组即特定细胞在某一功能状态下所能转录出转录组即特定细胞在某一功能状态下所能转录出来的所有来的所有RNA的总和,包括的总和,包括mRNA和非编码和非编码RNA(Non-coding RNA)。第二代测序系统可精确检测单个碱基,并且第二代测序系统可精确检测单个碱基,并且不受到研究中先验信息的干扰,科研人员能够快不受到研究中先验信息的干扰,科研人员能够快速地获得某一物种特定器官或组织在某一状态下速地获得某一物种特定器官或组织在某一状态下几乎所有几乎所有mRNA转录本序列,从而能够开展:转录本序列,从而能够开展:UTRs区域界定区域界定、可变剪切研究可变剪切研究、低丰度新转录本低丰度新转录本
16、发现发现、融合基因鉴定融合基因鉴定、cSNP(编码序列单核苷酸(编码序列单核苷酸多态性)研究等。多态性)研究等。转录组研究内容 转录组数据评估 基因表达注释 差异表达基因鉴定、聚类、Gene ontology、KEGG pathway分析 基因结构优化 新转录本 可变剪接 融合基因 SNP转录组测序流程无参考序列测序流程无参考序列测序流程有参考序列测序流程有参考序列测序流程转录组主要分析内容无参考序列无参考序列转录组分析内容转录组分析内容有参考序列有参考序列转录组分析内容转录组分析内容1 测序数据产量统计,数据成分和质量评估;2 Contig及Scaffold组装、长度分布3 Unigene的
17、长度分布和功能注释,GO分类,Pathway分析,差异表达分析4 蛋白功能预测与分类,差异表达基因GO富集和 Pathway富集分析。1 基本数据统计,比对参考序列2 序列在基因组上在分布3 测序深度分析、随机性评估和基因差异表达分析4 新基因预测,基因可变剪接鉴定和基因融合鉴定等。基因融合分析基因嵌合分析流程基因嵌合分析流程 MIPOL1-DGKB 基因融合模式基因融合模式 Genomic intergenic regionReadsclusterPaired Readsdistribution优化基因结构优化基因结构鉴定新的转录本鉴定新的转录本Paired-End(PE)ReadsRead
18、s 比对到参考序列基因间区域比对到参考序列基因间区域鉴定可变剪接(鉴定可变剪接(Alternative Splicing)exon1exon2exon3exon1exon2exon3exon1exon3common readsjunction readsmRNA分析分析RNA水平水平SNP转录组重测序比对软件:转录组重测序比对软件:SOAPDe novo 转录组测序转录组测序:组装软件:组装软件:SoapDenovo比对软件:比对软件:SoapSNP转录组转录组Small RNA降解组降解组TextRNADGERNA测序小RNA测序Small RNA:是长度在是长度在18-40nt的非编码的非
19、编码RNA,在基,在基因表达调控中发挥着重要的作用。因表达调控中发挥着重要的作用。小小RNARNA的产生的产生总总RNA通过切胶回收通过切胶回收CATGGCTGAAGTCAAGGATGTCATGGAAGGCAATCCCACATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGCTGAATCTGAGGCTCTCATGGCTGAATCTGAGGCTCTCATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGAAGGCAATCCCAC
20、ATACATGGAAGGCAATCCCACATACATGGCTGAAGTCAAGGATGTCATGGCTGAAGTCAAGGATGT测序测序CATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCT CATGGTTGAATCTGAAACCCTCATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACA
21、TACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATAmiRNAsiRNArepeatunann比对比对注释和预测注释和预测Small RNA测序Small RNA分析1.1.small RNA small RNA 的长度分布;的长度分布;2.2.rRNArRNA、tRNAtRNA、snRNAsnRNA、snoRNAsnoRNA、miRNAmiRNA、piRNApiRNA、siRNAsiRNA的注释;的注释;3.3.物种特有的物种特有的miRNAmiRNA预测;预测;4.4.miRNAmiRNA的靶基因预测;的靶基因预
22、测;5.5.对预测的靶基因进行对预测的靶基因进行GOGO分析和分析和KEGGKEGG分析;分析;6.6.对已知对已知miRNAmiRNA进行样品间差异分析和聚类分析。进行样品间差异分析和聚类分析。Small RNA研究技术比较技术技术小小 RNA 克隆克隆芯片芯片小小RNA测序测序原理原理Sanger 测序测序杂交杂交新一代测序新一代测序通量通量低低高高高高小小 RNA 数据库依赖性数据库依赖性无无高高有时有时背景噪音背景噪音低低高高低低表达谱表达谱鉴定新小鉴定新小RNAX检测低拷贝小检测低拷贝小RNAX鉴定鉴定SNVX转录组转录组Small RNA降解组降解组TextRNADGERNA测序降
23、解组测序降解组:含有降解组:含有5单磷酸的单磷酸的mRNA降解片段的集合。降解片段的集合。降解组测序高通量测序在RNA研究中的应用测序技术测序技术转录组测序转录组测序(Transcriptome)数字基因表达谱数字基因表达谱DGESmall RNA降解组测序降解组测序研究对象研究对象mRNAmRNASmall RNAmRNARead 长度长度90 PE50SE50SE50SE鉴定新分子鉴定新分子OXOO表达谱研究表达谱研究OOOO基因结构分析基因结构分析OXOX筛选分子标记筛选分子标记OXXXbiomarkerOOOO融合基因融合基因OXXX64PE,paired-end sequencing
24、;SE,single-end sequencing;O,yes;X,noChIP-Seq ChIP-Chromatin Immunoprecipitation染染色质免疫共沉淀,是指通过色质免疫共沉淀,是指通过蛋白免疫相互作蛋白免疫相互作用用,用抗体把和染色质相互作用的蛋白,如,用抗体把和染色质相互作用的蛋白,如组蛋白、转录因子等,沉淀下来,从而获取组蛋白、转录因子等,沉淀下来,从而获取与其相结合的与其相结合的DNA序列。序列。ChIP-Seq就是通过高通量测序对就是通过高通量测序对ChIP所得所得到的序列进行测序,从而进行蛋白和到的序列进行测序,从而进行蛋白和DNA相互作用研究。相互作用研究
25、。ChIP-Seq测序流程ChIP-Seq分析内容ChIP Sequencing结果与结果与参考基因组参考基因组序列进行序列进行比对比对ChIP Sequencing reads 在在全基因组的分布全基因组的分布唯一比对reads 在repeats 区域的分布唯一比对reads 在各基因功能元件上的分布唯一比对reads 的全基因组覆盖深度全基因组全基因组peak 扫描扫描peak 扫描peak 长度分布统计peak 的全基因组覆盖度peak 在基因功能元件上的分布特征Peak相关基因相关基因分析筛选与分析筛选与GO功能富集分析功能富集分析多个样品的多个样品的差异分析差异分析基于peak 相关基因的差异分析基于peak 的差异分析ChIP-Seq分析结果示例