多样本混合测序的编码设计和解码算法.ppt

上传人(卖家):晟晟文业 文档编号:4143620 上传时间:2022-11-14 格式:PPT 页数:32 大小:2.95MB
下载 相关 举报
多样本混合测序的编码设计和解码算法.ppt_第1页
第1页 / 共32页
多样本混合测序的编码设计和解码算法.ppt_第2页
第2页 / 共32页
多样本混合测序的编码设计和解码算法.ppt_第3页
第3页 / 共32页
多样本混合测序的编码设计和解码算法.ppt_第4页
第4页 / 共32页
多样本混合测序的编码设计和解码算法.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、多样本混合测序的编码设计和解码算法BioinformaticsDNA测序技术快速发展测序技术快速发展2全球首批全球首批NovaSeq 进驻南京进驻南京2017.03.30Bioinformatics多样本混合测序多样本混合测序3n充分利用测序通量充分利用测序通量 同时测序多个样本同时测序多个样本n关键问题关键问题区分不同样本区分不同样本 编码编码(1)Barcoding(显性编码)(显性编码)(2)Overlap pooling(隐性编码)(隐性编码)Nat Rev Genet.2014,15(11):749-63Bioinformatics多样本混合测序多样本混合测序4n Barcoding

2、(显性编码)(显性编码)readBarcode样本标记样本标记Nat Methods.2008,5(3):235-7.关注的问题关注的问题编码的数量编码的数量编码的容错和纠错能力编码的容错和纠错能力Bioinformatics多样本重叠混合测序多样本重叠混合测序5n Overlap pooling(隐性编码)(隐性编码)Genome Res.2009 19:1243-1253Genome Res.2009 19:1254-1261Nature Biotechnology,2009.以样本的混合模式作为编码以样本的混合模式作为编码提高测序效率提高测序效率编码设计复杂,解码困难编码设计复杂,解码困

3、难多样本混合测序实验设计及数据解码多样本混合测序实验设计及数据解码Cao CC,Sun X.Quantitative Biology,2016,4(1):3646.重叠混合测序重叠混合测序 n 编码编码n 解码解码6Overlapping Pool Sequencing重叠重叠混合混合7混合池1混合池2混合池3样本混合模式样本之间重叠混合样本混合矩阵样本混合矩阵一个混合池测序多个样本一个样本在多个池中测序重叠混合测序重叠混合测序的编码与解码的编码与解码 筛选稀有变异携带者筛选稀有变异携带者8问题:问题:保证准确解码保证准确解码辨别测序误差与突变辨别测序误差与突变辨别多个阳性样本辨别多个阳性样本

4、重叠混合测序重叠混合测序的优化设计的优化设计n测序深度模型测序深度模型n分组重叠混合模型分组重叠混合模型Optimal sequencing depths of coverage for pooled sequencing of diploid samplesData requirement for different number of blocks9重叠混合测序重叠混合测序的优化设计的优化设计n测序深度模型测序深度模型n分组重叠混合模型分组重叠混合模型n优化选择优化选择 代价模型:文库+数据+混合 根据代价选择最优设计Cao CC,Sun X.Genetic Epidemiology.20

5、1310重叠混合测序重叠混合测序的优化设计的优化设计n优化选择样本混合方案优化选择样本混合方案n利用群试理论进行解码利用群试理论进行解码单独测序成本大幅降低筛选稀有突变大幅降低筛选稀有突变携带者的测序成本携带者的测序成本Cao CC,Sun X.Genetic Epidemiology.2013在不同混合样本数目下的测序代价11STD设计参数:n=200,d=2基于定量群试的重叠混合测序基于定量群试的重叠混合测序设计及解码设计及解码前面只用到每个混合池的阳性样本定性检测结果前面只用到每个混合池的阳性样本定性检测结果携带突变的测序片段个数能够反映携带者的比例携带突变的测序片段个数能够反映携带者的

6、比例定量群试:利用覆盖变异位点测序片段个数信息定量群试:利用覆盖变异位点测序片段个数信息1号2号3号4号5号6号7号8号I号II号III号IV号V号12基于定量群试的重叠混合测序基于定量群试的重叠混合测序设计及解码设计及解码n 样本混合设计样本混合设计定义定义PI指标评价样本混合设计指标评价样本混合设计lPI为阳性混合池数目比阳性样本数目 与不确定属性的阴性样本数目之和还高的概率值l PI能够反映识别稀有突变携带者的可能性大小l 根据PI选择随机设计的最优设计参数 n 解码:识别突变携带者解码:识别突变携带者贝叶斯解码算法贝叶斯解码算法A:样本混合模式 O:测序结果13基于定量群试的重叠混合测

7、序基于定量群试的重叠混合测序设计及解码设计及解码与普通群试相比,该方法能够容许检测更多的与普通群试相比,该方法能够容许检测更多的稀有变异稀有变异携带者携带者Cao CC,Sun X.BMC Bioinformatics.2014Least sequencing data throughput required to achieve a 95%correct decoding rate.Only 36 pools were allowed to identify heterozygous variant carriers among 100 diploid samples.Performance

8、 of overlapping pool sequencing using random k-set pool design14正确解码前提下的数据通量需求面向面向单倍型单倍型的的混合测序混合测序解码解码从混合测序结果中准确估计从混合测序结果中准确估计单倍型频率单倍型频率,并判断,并判断稀有单倍型稀有单倍型携带者携带者Ehapp新算法Cao CC,Sun X.Bioinformatics.2015.15面向面向单倍型单倍型的的混合测序混合测序解码解码76r76s200400600800020406080100120140Read length(bp)Rdiff(%)Harp allHarp p

9、ooledEhappn Ehapp在较短的测序读长下具有较大的优势n 应用重叠混合测序筛选稀有单倍型携带者Cao CC,Sun X.Bioinformatics.2015.0510152025303300.050.10.150.2STDEstimated frequency0510152025303400.050.10.150.2SudokuPool IDEstimated frequency16基于重叠混合的单倍型测序方法基于重叠混合的单倍型测序方法研究动机:研究动机:尝试将重叠混合测序方法应用于单倍型测序,尝试将重叠混合测序方法应用于单倍型测序,解决存在的问题,以期提高单倍型构建性能解决存

10、在的问题,以期提高单倍型构建性能17Bioinformatics单倍型测序单倍型测序18单倍型测序的主要方法单倍型测序的主要方法 物理分割 克隆测序 稀释基因组DNAGlusman et al.Genome Medicine 2014,6:73Nature Biotechnology,29:3839(2011)单倍型测序单倍型测序基于克隆或稀释的单倍型测序基于克隆或稀释的单倍型测序n 基因组片段混合在各个池子中基因组片段混合在各个池子中n 每个池中局部单倍型尽量不重叠每个池中局部单倍型尽量不重叠Nat Rev Genet.2015 Jun;16(6):344-58.基于重叠混合的单倍型测序方法

11、基于重叠混合的单倍型测序方法待解决两个问题待解决两个问题 克隆重叠问题克隆重叠问题 错误连接问题错误连接问题解决问题的思路解决问题的思路准确识别覆盖每个准确识别覆盖每个allele的克隆的克隆提高单倍体构建的准确性提高单倍体构建的准确性Chimeric fragmentsA ACA TGG TGA AG20Bioinformatics基于重叠混合的单倍型测序方法基于重叠混合的单倍型测序方法21n 多次混合多次混合 将克隆看成为将克隆看成为重叠混合测序重叠混合测序的样本的样本Some other overlapping pools利用不同的利用不同的Overlap信息解码信息解码根据不同混合池中

12、的不同覆盖判断重叠部分的归属根据不同混合池中的不同覆盖判断重叠部分的归属解决问题的基本策略解决问题的基本策略核心核心准确识别准确识别SNP位点以及覆盖每个位点以及覆盖每个allele的所有克隆的所有克隆进而确定每个克隆上各个进而确定每个克隆上各个allele及其顺序及其顺序前提:覆盖某allele的克隆个数相对于整个克隆文库来说是稀有的SNP位置重叠混合测序解码SNP集覆盖SNP的克隆集形成局部单倍型并组装22基于重叠混合的单倍型测序方法基于重叠混合的单倍型测序方法稀释到多个混合池构建测序文库并测序比对&检测SNP重构局部单倍型连接局部单倍体构建个体克隆文库完整单倍体基因组23解码方法解码方法

13、Figure 1.Illustration of alleles assignment.(A)Five clones are pooled into three pools,which means pool#1 contains clones 1,4 and 5;pool#2 contains clones 2 and 4;and pool#3 contains clones 3 and 5.(B)The sequencing results.For example,allele 2 is sequenced three,two and one times in pools#1,#2 and#

14、3,respectively.(C)According toMand Y,the vector x for every allele could be solved and the five clones could be reconstructed accordingly,as shown in(C).For example,the sequencing result of allele 2 is(3,2,1)T,equaling the dot-product of the vectorMwith the target vector x of(1,1,0,1,1)T,which means

15、 allele 2 is contained in clone 1,clone 2,clone 4 and clone 5,but not in clone 3.22212*argmin.0llxxMxYst xDecoding Algorithmn Alleles assignment M:pooling matrixY:count of allelej in the ith poolx:either 1 or 0,indicating if theclone contains the alleleLi C et al.Nucleic Acids Res.201624实验设计实验设计 25E

16、xperimental design(分组设计)HapMap sample NA12878:produced two haplotype sequencesThe length of the clones followed a Poisson distribution,where the average length was approximately 140 kb.130 110 clones were generated,with 6 clone coverage.实验结果实验结果 Li C et al.Nucleic Acids Res.2016The correct decoding

17、rate for different combinations of various k(the percent of clones that are pooled in each pool),t(the number of pools)and dt values(the data throughput for each pool).The color and size of the circle denote the correct decoding rate for each scenario 解码正确率随混合池个数混合池个数及数据通量数据通量的变化选择最优的混合测序参数,以获得最高的解码

18、正确率26实验结果实验结果 Li C et al.Nucleic Acids Res.201627在1号染色体上,221,009个同时被来自于两个同源染色体的克隆所覆盖的变异位点中有220,734(99.9%)个被准确的恢复。Table 2.The statistics of the assembled haplotypes for chromosome 1n 准确地识别变异位点准确地识别变异位点n 构建的单倍体更长构建的单倍体更长实验结果实验结果The number of alleles in each reconstructed clone sequence that support ea

19、ch haplotype in the diploid individual.Li C et al.Nucleic Acids Res.2016我们的方法我们的方法n 能够准确判定能够准确判定alleles的归属的归属n 没有错误切换没有错误切换28Alleles were accurately assigned,resulting in no switch error.总总 结结29n 建立了重叠混合测序实验优化设计的策略及解码算法建立了重叠混合测序实验优化设计的策略及解码算法n 成功地将重叠混合测序方法应用于单倍型构建成功地将重叠混合测序方法应用于单倍型构建致致 谢谢30生物电子学国家重点实验室生物电子学国家重点实验室曹唱唱曹唱唱李李 成成涂涂 景景国家重点基础研究发展计划国家重点基础研究发展计划(973计划)计划)Bioinformatics31谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(多样本混合测序的编码设计和解码算法.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|