基于人工智能的基因组自动注释课件.pptx

上传人(卖家):三亚风情 文档编号:3584633 上传时间:2022-09-21 格式:PPTX 页数:43 大小:15.45MB
下载 相关 举报
基于人工智能的基因组自动注释课件.pptx_第1页
第1页 / 共43页
基于人工智能的基因组自动注释课件.pptx_第2页
第2页 / 共43页
基于人工智能的基因组自动注释课件.pptx_第3页
第3页 / 共43页
基于人工智能的基因组自动注释课件.pptx_第4页
第4页 / 共43页
基于人工智能的基因组自动注释课件.pptx_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、l 大型高通量测序仪大型高通量测序仪Illumina X Ten 每次产出每次产出数据(数据(1818块硬盘)块硬盘)l 中型高通量测序仪中型高通量测序仪 HiSeq2500 HiSeq2500l小型化高通量测序仪小型化高通量测序仪,MiSeqMiSeq 2.0 2.0 通量通量,可测序,可测序2424个大肠杆菌或个大肠杆菌或7272个幽门螺杆菌个幽门螺杆菌通量通量,4,4个人类基因组个人类基因组,或或150150个小鼠转录组个小鼠转录组l 低成本高通量测序仪低成本高通量测序仪Illumina Novaseq 每次最多产出每次最多产出数据数据人类基因组计划人类基因组计划(HGP)(HGP)千人

2、基因组计划千人基因组计划(1K1K)万人基因组计划万人基因组计划(10K10K)十万人基因组计划十万人基因组计划(100K100K)人类基因组计划(HGP)19901990年年1010月启动,月启动,20052005年完成年完成千人基因组计划20082008年启动,年启动,20122012年数据开放,年数据开放,最最终将包含来自全球终将包含来自全球2727个族群的个族群的25002500个人的基因组信息个人的基因组信息英国万人基因组计划:历时3年l 20122012年英国启动万人基因组计划(年英国启动万人基因组计划(UK UK 10K10K),),旨在分析旨在分析与疾病相关联的风险与疾病相关联

3、的风险因素因素l 20152015年年9 9月月1414日,最大规模群体基因组日,最大规模群体基因组测序结果在线发表于测序结果在线发表于NatureNature,预,预示着示着UK 10KUK 10K计划收获里程碑式成果。计划收获里程碑式成果。l 基于基于UK 10KUK 10K计划成功找到骨质计划成功找到骨质疏松症相关突变基因疏松症相关突变基因EN1EN1。l 排出人类排出人类基因组基因组3030亿碱亿碱基序列仅仅是人类探索基序列仅仅是人类探索自身遗传自身遗传奥秘的开始,更为重要的是破译这些遗传密码,理解各奥秘的开始,更为重要的是破译这些遗传密码,理解各种生命现象的本质。种生命现象的本质。l

4、 97%97%的非编码区、调控的非编码区、调控元件及功能域、元件及功能域、表观信号编码、表观信号编码、基因组高级结构基因组高级结构后基因组时代多组学研究的代表ENCODEl ENCODEENCODE“DNADNA元件百科全书元件百科全书”计划。计划。l 由美国国立人类基因组研究所(简称由美国国立人类基因组研究所(简称NHGRINHGRI)领导,)领导,全世界全世界1111个国家的个国家的3535个小组参加。个小组参加。l 包括了包括了147 147 种细胞中种细胞中16001600项实测数据(涵盖项实测数据(涵盖DNADNA甲甲基化、组蛋白修饰、转录因子结合位点等)基化、组蛋白修饰、转录因子结

5、合位点等).l 总数据量达到总数据量达到300TB300TB,花费,花费1.851.85亿美元。亿美元。l ENCODEENCODE计划揭示出基因组上基因计划揭示出基因组上基因和调控元件共同构成的复杂网络和调控元件共同构成的复杂网络关系,将基因组研究引向深入。关系,将基因组研究引向深入。NatureNature 2012.92012.9l 目的:目的:绘制正常人类细胞和组织表观遗传系列参考图谱,并绘制正常人类细胞和组织表观遗传系列参考图谱,并且研发新型的研究工具且研发新型的研究工具。l 数据量:花费数据量:花费1.91.9亿美元,亿美元,150150个个细胞系细胞系/组织,组织,2345234

6、5项测序,项测序,250TB250TB原始数据原始数据 ,3030个组蛋白,个组蛋白,3838种种数据类型。数据类型。表观路线图计划:Roadmap Epigenomics Program传统神经网络传统神经网络深度学习神经网络深度学习神经网络l 深度学习将低层特征非线性组合形成更加抽象的高层特征,深度学习将低层特征非线性组合形成更加抽象的高层特征,在人机对弈、自动驾驶等领域取得了举世瞩目的成功应用在人机对弈、自动驾驶等领域取得了举世瞩目的成功应用l 深度学习等人工智能方法是解析复杂生物调控机理的重要手段深度学习等人工智能方法是解析复杂生物调控机理的重要手段人机对弈人机对弈自动驾驶自动驾驶二二

7、、DNADNA复制时间域的识别与注释复制时间域的识别与注释De novo Identification of replication-timing domains in the human genome by deep learningl 真核生物细胞周期的真核生物细胞周期的S S阶段,每个细胞中的阶段,每个细胞中的DNADNA都会复制一个拷贝。都会复制一个拷贝。l 高等真核生物存在成百高等真核生物存在成百上千个复制起始区域,上千个复制起始区域,从染色质中不同复制域从染色质中不同复制域按特定顺序进行复制。按特定顺序进行复制。l 测量复制时间能够用来测量复制时间能够用来识别复制的起始与终止识别复

8、制的起始与终止区域。区域。l DNADNA复制起始与终止的复制起始与终止的错误,与疾病(包括癌错误,与疾病(包括癌症)密切相关。症)密切相关。细胞周期示意图细胞周期示意图复制时间谱复制时间谱复制时间域复制时间域复制时间的动态图复制时间的动态图基于深度学习的DNA复制时间域的识别DNN-HMMDNN-HMM算法及其性能评估算法及其性能评估l 提出了一种新的、结合了预训提出了一种新的、结合了预训练的深层神经网络和隐马尔科练的深层神经网络和隐马尔科夫模型(夫模型(DNN-HMMDNN-HMM)的混合结)的混合结构。构。l 结合了结合了HMMHMM和和DNNDNN两者的优点,两者的优点,具有极强的染色

9、质状态识别的具有极强的染色质状态识别的潜力。潜力。l 识别了识别了4 4种类型的复制时间域种类型的复制时间域(ERDERD、LRDLRD、UTZUTZ和和DTZDTZ)l 相较于经典相较于经典DNNDNN和两种经典和两种经典HMMHMM,DNN-HMMDNN-HMM能够有效解决过拟合,能够有效解决过拟合,具有最优的准确性、稳健性和具有最优的准确性、稳健性和可再现性。可再现性。DNN-HMM混合模型的性能评估MethodMethodDomain typeDomain typeperformance indicatorsperformance indicatorsAccuracyGMF1-scor

10、eReproducibilityDNN-HMMDNN-HMMERD84.62%88.22%79.93%83.47%LRD76.59%81.64%48.53%89.57%TTR87.26%74.76%49.67%79.04%Hansen et Hansen et al.al.ERD82.84%78.70%71.41%71.33%LRDNullNullNullNullTTRNullNullNullNullRybaRyba et al.et al.ERDNullNullNullNullLRDNullNullNullNullTTR89.67%62.56%44.66%56.78%Pope et al.P

11、ope et al.ERD82.23%83.72%75.19%65.29%LRD78.23%79.62%48.12%79.58%TTR75.64%62.18%29.04%41.25%HMMSegHMMSegERD82.79%84.08%75.73%59.32%LRD76.22%78.02%45.61%46.29%TTR73.40%66.26%30.83%47.53%ChromHMMChromHMMERD81.24%81.83%73.14%75.33%LRD79.12%81.40%50.08%63.54%TTR68.78%59.82%24.70%64.08%SegwaySegwayERD82.8

12、1%84.09%75.75%57.43%LRD81.15%80.53%51.16%73.68%TTR73.14%65.64%30.27%50.85%Performance Performance indicatorsindicatorsDomain Domain typetypeDNNHMMDNNHMMHansen Hansen et al.et al.Ryba Ryba et al.et al.Pope Pope et al.et al.HMMSegHMMSegChromHChromHMMMMSegwaySegwayAccuracyAccuracyERD1275463LRD4663521TT

13、R2713465GMGMERD1674352LRD1664523TTR1745263F1-scoreF1-scoreERD1674352LRD3664521TTR1725364ReproducibilReproducibilityityERD1374526LRD1662543TTR1736524OVERALL RANKINGOVERALL RANKING1st(18),1.506th(69),5.755th(62),5.174th(49),4.084th(49),4.083rd(48),4.002nd(37),3.08DNN-HMMDNN-HMM算法与其他已有方法的性能比较算法与其他已有方法的

14、性能比较DNN-HMMDNN-HMM算法与其他已有方法的性能排序算法与其他已有方法的性能排序l 比较比较DNN-HMMDNN-HMM与其他与其他6 6种方法在种方法在3 3种复制时间域、种复制时间域、4 4种指标的性能种指标的性能l 评估评估7 7种方法在种方法在1212种检验中的整体性能,发现种检验中的整体性能,发现DNN-HMMDNN-HMM在在7 7种方法中有着最优的性能。种方法中有着最优的性能。l 识别了识别了ENCODEENCODE计划下计划下1515个人类细胞系的个人类细胞系的4 4种类型的复制时间域。种类型的复制时间域。l 4 4种类型的复制时间域在基因组覆盖、基因组位置、功能域

15、个数和大小、基因个数、进化保守种类型的复制时间域在基因组覆盖、基因组位置、功能域个数和大小、基因个数、进化保守性、细胞特异性和复制时间等性质方面都有显著的差别。性、细胞特异性和复制时间等性质方面都有显著的差别。l 发现复制时间功能域在发现复制时间功能域在TFTF模式序列、模式序列、TFTF结合位点、辅助因子、组蛋白修饰、结合位点、辅助因子、组蛋白修饰、DNADNA甲基化、基因甲基化、基因表达、表达、DNADNA超敏位点、核纤层蛋白等多方面的显著差异,超敏位点、核纤层蛋白等多方面的显著差异,发现发现ERDERD是活性、高转录开放区域,是活性、高转录开放区域,离核膜远;离核膜远;LRDLRD是抑制

16、性、低转录关闭区域,离核膜近;是抑制性、低转录关闭区域,离核膜近;UTZUTZ和和DTZDTZ是是ERDERD和和LRDLRD之间的过渡区域。之间的过渡区域。DNA复制时间域的基因组注释4 4种类型复制时间域的性质描述种类型复制时间域的性质描述TF模式序列的富集显著性模式序列的富集显著性不同的染色质注释的密度谱不同的染色质注释的密度谱DNA复制时间域的染色质3D结构复制时间域和复制时间域和Hi-C地图的关系地图的关系复制时间域的染色质复制时间域的染色质3D相互作用相互作用l 发现整个基因组分隔成不同状态的复制时间单元发现整个基因组分隔成不同状态的复制时间单元。l 相邻相邻DTZ-UTZDTZ-

17、UTZ对紧密的相互作用在一起,形成染对紧密的相互作用在一起,形成染色质环。色质环。l ERDERD松散地缠绕在一起,偏向于形成短程相互作松散地缠绕在一起,偏向于形成短程相互作用,用,LRDLRD紧密地缠绕在一起,偏向于形成长程相紧密地缠绕在一起,偏向于形成长程相互作用互作用。l 提出了提出了DNADNA复制时间域的环结构调控模型。复制时间域的环结构调控模型。复制时间域调控模型复制时间域调控模型Bioinformatics,32(5),2016,641649.三三、增强子的识别、增强子的识别Predicting enhancers with a deep-learning-based model

18、l DNADNA调控序列是调控序列是DNADNA中一段包含启动子、增强子及其他可与中一段包含启动子、增强子及其他可与调节蛋白调节蛋白(如转录因子如转录因子)结合的位置片段。这些序列调控了结合的位置片段。这些序列调控了基因的表达,进而影响蛋白质的产生。基因的表达,进而影响蛋白质的产生。基因特异性表达基因特异性表达众多众多DNADNA调控元件调控元件增强子增强子l 增强子是一类远端的顺式作用的增强子是一类远端的顺式作用的DNADNA调调控元件,它在控制基因的细胞控元件,它在控制基因的细胞/组织类组织类型特异性表达方面具有核心作用。型特异性表达方面具有核心作用。l 形成启动子形成启动子-增强子环的相

19、互作用来指增强子环的相互作用来指导包括发育与分化、细胞身份维护以导包括发育与分化、细胞身份维护以及应对刺激等重要的生物过程。同时,及应对刺激等重要的生物过程。同时,增强子内的遗传变异和扰乱与疾病和增强子内的遗传变异和扰乱与疾病和癌症密切相关。癌症密切相关。l 缺乏共有的序列特征、离靶基因较远缺乏共有的序列特征、离靶基因较远以及具有高度细胞以及具有高度细胞/组织特异性。组织特异性。利用ChIP-Seq、RNA-Seq、DNase-Seq等多组学数据建模HistoneDNaseTFMachine LearningEnhancer Predict数据建模预测方法数据建模预测方法基于深度学习的增强子预

20、测PEDLA单细胞单细胞PEDLA框架框架PELDA利用异构数据预测增强子利用异构数据预测增强子l 提出了一种基于深度学习的增强子预测算法提出了一种基于深度学习的增强子预测算法PEDLAl 使用了使用了9种不同类别种不同类别、共共1114维的异构数据维的异构数据作为分类特作为分类特征来识别增强子。征来识别增强子。l 通过通过5倍交叉验证,达到了倍交叉验证,达到了97.7%的准确性的准确性,97.0%的的GM(geometric mean of sensitivity and specificity)。l 识别了识别了20,689个增强子,发现其中个增强子,发现其中42.3%(13.0%)、)、

21、16.8%(1.1%)和)和32.4%(4.2%)的这些预测的增强)的这些预测的增强子分别与远端子分别与远端DHS、p300以及以及TF重叠。重叠。PEDLA具备无偏地处理类别不平衡数据的能力l 类别不平衡问题类别不平衡问题,即增强子的数即增强子的数目远远小于非增强子的数据在预目远远小于非增强子的数据在预测增强子时是极其常见的。阳性测增强子时是极其常见的。阳性样本和阴性样本比例为样本和阴性样本比例为1:10。l 发现对于发现对于PEDLA,随着数据的,随着数据的不平衡性的增加,不平衡性的增加,3种指标几乎种指标几乎没有变化(没有变化(无偏无偏)。)。l 对于对于DNN、SVM,随着数据的,随着

22、数据的不平衡性的增加,灵敏性和不平衡性的增加,灵敏性和GM快速降低,而特异性却缓慢增加快速降低,而特异性却缓慢增加(有偏有偏)。PELDA处理类别不平衡数据的性能处理类别不平衡数据的性能DNN、SVM处理类别不平衡数据的性能处理类别不平衡数据的性能PEDLA与其它方法的性能比较l 公平比较公平比较PEDLA与与5种顶尖种顶尖机器学习方法。在机器学习方法。在9种指标种指标中,中,PEDLA的的7种指标都显种指标都显著地优于所有其他方法,著地优于所有其他方法,并且整体性能也优于其他并且整体性能也优于其他方法。方法。l 比较各种算法在各种不同比较各种算法在各种不同训 练 集 中 的 性 能,发 现训

23、 练 集 中 的 性 能,发 现PEDLA同样显著地优于其同样显著地优于其他方法。他方法。l 综上,与同类方法相比,综上,与同类方法相比,PEDLA方法取得了方法取得了state-of-the-art性能。性能。PEDLA PEDLA RFECSRFECSCSI-ANNCSI-ANNDELTADELTAChromHMMChromHMMSegwaySegwayPEDLAPEDLA(all(all features)features)Number of predictionNumber of prediction2269175084301731120442686913169820689Perfor

24、mance metricsPerformance metricsAccuracy96.30%93.67%95.58%87.78%94.03%91.01%97.65%Sensitivity95.72%64.19%65.50%73.56%37.67%12.89%96.16%Specificity96.37%97.89%98.63%89.84%99.75%98.94%97.80%GM96.02%79.26%80.34%81.29%61.30%35.71%96.97%F1-score83.01%71.71%73.06%60.40%53.74%20.90%88.31%Validation rateDHS

25、40.68%31.85%30.65%12.25%38.86%40.61%42.29%P30015.25%7.26%10.83%1.57%9.89%3.52%16.82%TFs28.89%17.71%19.72%5.75%19.14%6.42%32.37%Misclassification rate7.53%3.09%16.46%3.01%6.42%14.53%6.59%Performance Performance metricsmetricsPEDLAPEDLARFECSRFECSCSI-ANNCSI-ANNDELTADELTAChromHMMChromHMMSegwaySegwayPEDL

26、APEDLA(all(all features)features)AccuracyAccuracy2537461SensitivitySensitivity2543671SpecificitySpecificity6437125GMGM2543671F1-scoreF1-score2435671Validation Validation raterateDHS2567431P3002537461TFs2537461MisclassificatioMisclassification raten rate5271364OVERALL RANKINGOVERALL RANKING2nd(25),2.

27、785th(40),4.443rd(36),4.006th(47)5.224th(38),4.227th(50),5.561st(16),1.78PEDLA与已有方法的性能比较与已有方法的性能比较PEDLA与已有方法的性能排名与已有方法的性能排名PEDLA在多细胞和组织中的增强子预测多细胞多细胞PEDLA的训练框架的训练框架PEDLA在多细胞在多细胞/组织的应用和评估组织的应用和评估l 初始训练初始训练:PEDLAPEDLA使用传统深度学习的策略训练单细胞使用传统深度学习的策略训练单细胞/组织的模型;组织的模型;迭代训练迭代训练:PEDLAPEDLA采用在上一个细胞采用在上一个细胞/组织的训练

28、模型作为下一个细胞组织的训练模型作为下一个细胞/组织训练的初始模型。组织训练的初始模型。l 随着训练细胞随着训练细胞/组织的增加,算法性能不断提升,同时性能的不一致性在不断减小。组织的增加,算法性能不断提升,同时性能的不一致性在不断减小。l 2222个训练细胞个训练细胞/组织中达到了组织中达到了95.0%95.0%0.8%0.8%准确性;准确性;2020个独立的测试细胞和组织中达个独立的测试细胞和组织中达到了到了95.7%95.7%0.8%0.8%准确性准确性l 证明了证明了PEDLAPEDLA能够达到极其优越的性能、显著的细胞能够达到极其优越的性能、显著的细胞/组织一致性以及在不同细胞和组织

29、一致性以及在不同细胞和组织的泛化能力。组织的泛化能力。PEDLA在多细胞增强子预测中的性能评估Hela-S3Hela-S3K562K562PEDLADEEPDEEPPEDLADEEPDEEPNumber of predictionNumber of prediction293083712829707325039418631693Performance metricsPerformance metricsAccuracy96.82%96.20%95.85%95.60%91.09%93.32%Sensitivity97.09%83.63%62.82%96.69%76.15%25.52%Specif

30、icity96.80%97.26%98.64%95.51%92.37%99.12%GM96.95%90.19%78.72%96.10%83.87%50.30%F1-score82.64%77.42%70.22%77.61%57.41%37.60%Validation rateDHS38.98%32.19%34.04%36.21%15.58%27.43%P30026.32%18.98%20.52%44.13%35.25%43.30%Misclassification rate12.85%13.01%12.11%11.41%6.73%10.17%l 对于训练集,都使用对于训练集,都使用DEEP算法

31、提供的算法提供的4个细胞系个细胞系GM12878、HepG2、H1-hesc和和HUVEC。l 对于测试集,都使用对于测试集,都使用DEEP算法提供的算法提供的2个细胞系个细胞系Hela-S3和和K562。l 算法输入特征都是相同的算法输入特征都是相同的11个组蛋白修饰。个组蛋白修饰。l 表明表明PEDLA具有优异的性能和泛化能力,在多细胞系增强子预测中一致且显著具有优异的性能和泛化能力,在多细胞系增强子预测中一致且显著地优于地优于DEEP算法。算法。最优最优PEDLA在多细胞和组织的性能在多细胞和组织的性能PEDLA与与DEEP在在Hela-S3和和K562细胞系中的性能比较细胞系中的性能比

32、较Scientific Reports,2016,6:28517.仅用序列预测enhancer模型BiRenVISTA Enhancer数据库数据库BiRen 模型模型l 从从Vista Enhancer 数据库获取由胚胎实验验证的阳性样本,在基因组上随机生成阴性样本;数据库获取由胚胎实验验证的阳性样本,在基因组上随机生成阴性样本;将样本以将样本以200bp为窗口大小切割,并上下延伸为窗口大小切割,并上下延伸400bp,最后用,最后用one-hot方式编码碱基;将编码矩方式编码碱基;将编码矩阵通过阵通过CNN获得一个获得一个919维的数值向量,再分别拼接一维保守性得分,构成维的数值向量,再分别

33、拼接一维保守性得分,构成920维的向量维的向量l 根据原始片段的构成从新组装样本,配合一个遮罩矩阵送入根据原始片段的构成从新组装样本,配合一个遮罩矩阵送入GRU-BRNN网络训练网络训练l 输出为关于该片段是否为增强子的概率值;输出为关于该片段是否为增强子的概率值;模型最终的准去率达到了模型最终的准去率达到了AUC:0.945Human 1749 ElementsPositive 887 Elements从各element中提取被完全包含的200bp片段扩展成 1000bp 长度正样本正样本 8228 Sequences负样本负样本 82280 Sequences数据集数据集MethodsNu

34、mber of predictionsDHSH3K27acHotRegionEnhancer SegmentationDHS+H3K27ac+HOTregionBiRen4503655.0%0.0840.1%0.11 23.4%0.0715.3%0.07DEEP VISTA4710029.2%0.0834.3%0.1020.7%0.069.0%0.06Lees SVM4313534.1%0.1024.2%0.0816.9%0.0611.2%0.06BiRen 模型性能评估模型性能评估BiRen 模型与已有方法的比较模型与已有方法的比较BiRen模型的准确性与抗干扰能力验证l 不同训练集和测试不

35、同训练集和测试集上的性能评估结集上的性能评估结果显示,果显示,BiRen在在人和小鼠基因组的人和小鼠基因组的增强子的识别中具增强子的识别中具有优异的准确性、有优异的准确性、特异性,及泛化能特异性,及泛化能力。力。l 相比与其它传统方相比与其它传统方法,法,BiRen表现出表现出更优越的性能。更优越的性能。Bioinformatics,33(13),2017,19301936.四四、RNARNA编辑位点的识别编辑位点的识别Accurate identification of RNA editing sites with deep learning-based sequence model usi

36、ng RNA-seq data aloneRNA编辑是一种重要的遗传信息修饰机制l 由由ADARADAR酶介导的转录后修饰过程酶介导的转录后修饰过程RNARNA编辑编辑l 人体中,人体中,A-to-I(G)A-to-I(G)编辑最为普遍编辑最为普遍A-to-I editingl RNARNA编辑是对编辑是对中心法则中心法则的重要补充的重要补充l 引起基因表达产物的多态性引起基因表达产物的多态性l 改变非编码改变非编码RNARNA序列及其与靶基因的序列及其与靶基因的互作关系互作关系RNA编辑具有重要的生物学功能RNA 编辑与编辑与肌萎缩性脊髓侧索硬化症肌萎缩性脊髓侧索硬化症(ALS)相关相关J

37、Neurosci,2010 RNA 编辑水平异常导致编辑水平异常导致肿瘤肿瘤的发生的发生Nat Med,2013 RNA编辑与编辑与阿尔茨海默症阿尔茨海默症相关相关Neurobiol Aging,2014胃癌预后胃癌预后与与“高大上高大上”的的RNA编辑编辑Gastroenterology.2016举例:举例:l 数据高质量:测序深度,生物学重复。数据高质量:测序深度,生物学重复。l 生物学生物学背景要求高背景要求高。l 识别识别流程繁琐流程繁琐,人为干预过程繁多。,人为干预过程繁多。l 识别结果假阳性高识别结果假阳性高、真真阳性低。阳性低。RNA编辑识别面临的挑战基于深度学习的RNA编辑预测

38、方法DeepRed RNA-seq of 32 Cell lines From ENCODE Project单细胞单细胞DeepRed结构结构多细胞多细胞DeepRed结构结构l实现了实现了RNARNA编辑识别编辑识别的的“无特征无特征”输入输入l避免了基于先验知避免了基于先验知识的繁杂过滤步骤识的繁杂过滤步骤l可同时识别可同时识别RNARNA编辑编辑和和SNPsSNPs Golden Set Constructed!Model Completed!1.Scientific Reports,2018,8:6005.2.Scientific Reports,2018,8:12069.DeepRe

39、d方法具有较高的预测准确性、敏感性、特异性,以及泛化能力DeepRed在21个测试细胞系中的ROC曲线DeepRed在U87细胞系中的ROC曲线l 在在1111个训练集和个训练集和2121个测试集中分别取得了个测试集中分别取得了97.8%97.8%和和97.5%97.5%的的AUCAUC面积,具有面积,具有很好的泛化能力很好的泛化能力。l 在在U87U87细胞系中验证,细胞系中验证,AUCAUC面积为面积为99.81%99.81%。l 使用果蝇使用果蝇 WT WT 和和 AdarAdar(5G15G1)数据验证,数据验证,假阳性假阳性7%7%(6/866/86)。00.010.020.030.

40、040.050.060.940.950.960.970.980.991AUC=99.81%00.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91 A549CellLongnonpolya:97.70%A549CellPap:97.76%A549NucleusPap:96.92%Gm12878CytosolLongnonpolya:96.90%H1hescCellLongnonpolya:97.39%H1hescCellPap:97.27%Helas3CellPap:97.64%Helas3NucleusLongnonpolya:97

41、.77%HuvecCytosolPap:98.21%Imr90CellTotal:97.91%Imr90CytosolPap:98.50%BjCellPap:97.66%Gm12878CellLongnonpolya:96.83%Gm12878CellPap:97.79%Gm12878NucleusPap:97.53%Helas3CellLongnonpolya:97.30%Hepg2CellLongnonpolya:96.84%Hepg2NucleusLongnonpolya:97.72%Hepg2NucleusPap:97.45%MCF7CellLongnonpolya:95.80%Nhe

42、kCytosolPap:98.56%DeepRed方法与其它方法性能比较0.70.80.91.0JinBillySeparateGiremiDeepRedA-to-I ratioJinBillySeparateGiremiDeepRed三种方法在三种方法在GEUVGEUV数据中的数据中的A-to-I%A-to-I%比较比较三种方法在三种方法在U87U87细胞系中的算法性能评价细胞系中的算法性能评价MethodJinBillySeparateDeepred(cutoff=0.33)GiremiDeepred(cutoff=0.83)Accuracy76.04%93.23%70.31%80.73%

43、Sensitivity83.05%79.66%6.78%37.29%Specificity72.93%99.25%98.50%100.00%GM77.83%88.92%25.84%61.06%Positive predict value57.65%97.92%66.67%100.00%F1-score77.66%88.38%12.69%54.32%Validation rate29.34%29.01%14.81%73.33%Misclassification rate21.56%0.62%7.41%0.00%l DeepRed在准确性、特异性等方面的性能均优于其他算法。在准确性、特异性等方面的

44、性能均优于其他算法。l DeepRed在在千千人基因组计划的人群人基因组计划的人群数据中的数据中的A-to-I百分比及百分比及FDR优于优于其他算法。其他算法。l 综上,与同类方法相比,综上,与同类方法相比,DeepRed方法取得了方法取得了state-of-the-art性能。性能。基于SEQC大数据的系统评估l 识别流程对识别流程对RNARNA编辑识别的影响编辑识别的影响020000400006000080000100000120000140000BWASTARTophatBWASTARTophatGATKSamtoolsIdentified editing sites by differ

45、ent softwareuniqueidentified by two softwaresidentified by three softwares0.6940.6960.6980.70.7020.7040.706020000400006000080000SRR896743SRR896745SRR896747SRR896749SRR896751SRR896753SRR896755SRR896757RNA editings identified by GATK and samtoolsgatksamtoolsoverlap_of_gatk_and_samtoolsoverlap/samtools

46、00.10.20.30.40.50.60.70.8BWASTARTophatBWASTARTophatGATKsamtoolsAtoI ratio of DeepRedDeepRed 0.2DeepRedFDR(0.2)l 各各mapping软件软件识别的准确率相似识别的准确率相似,A to I%在在70%左右。左右。l 不同不同mapping软件软件之间识别的之间识别的RNA编辑的重合率较高;分别使用编辑的重合率较高;分别使用GATK和和samtools识别变异位点,得到的识别变异位点,得到的RNA编辑重合率在编辑重合率在70%。l mapping软件软件中,中,Tophat最严格;寻找变异

47、位点的软件中,最严格;寻找变异位点的软件中,GATK最严最严格格。l 不同测序深度、实验室对不同测序深度、实验室对RNARNA编辑识别的影响编辑识别的影响00.10.20.30.40.50.60.70.8BGICNLCOHMAYNVSNYGCNLCOHMAYNVSNYGCOHMAYNVSNYGMAYNVSNYGNVSNYGNYGAGRBGICNLCOHMAY NVSOverlap ratio between sites0.780.7850.790.7950.80.8050.810.8150.820.8250.83COHMAYNVSCNLNYGBGICOHMAYNVSCNLNYGCOHMAYNV

48、SNYGMAYNVSNYGNVSNYGNYGAGRBGICNLCOHMAYNVSCorrelation coefficient of editing leve0.60.70.80 5 1015202530354045505560657075808590sequence depth(106)A-to-I%l 测序深度小于测序深度小于15M reads时,识别时,识别AG%随测序深度增加而增加;测序随测序深度增加而增加;测序深度大于深度大于15M reads时,识别时,识别AG%随测序深度增加而小幅度降低。建随测序深度增加而小幅度降低。建议议最优测序深度为最优测序深度为15M reads。l 任意

49、两个实验室间识别的任意两个实验室间识别的RNA编辑的重合编辑的重合率率在在75%;不同实验室识别;不同实验室识别的共享的共享RNA编辑的编辑水平相关性较高(编辑的编辑水平相关性较高(cor 0.8,P-value 2.2e-16)。)。l 不同实验室的不同实验室的RNA编辑的识别具有较好的一致性编辑的识别具有较好的一致性。l RNARNA建库方法、降解方法对建库方法、降解方法对RNARNA编辑识别的影响编辑识别的影响0100020003000400050006000700080009000SRR902947_1SRR902942_1SRR902943_1SRR902963_1SRR902962

50、_1SRR902960_1SRR902980_1SRR902981_1SRR902978_1SRR902990_1SRR902995_1SRR902993_1SRR903055_1SRR903056_1SRR903052_1SRR903051_1SRR903205_1SRR903209_1SRR903202_1SRR903204_1ABRF-ILMN-M-AHABRF-ILMN-M-ASABRF-ILMN-N-AHABRF-ILMN-N-ARABRF-ILMN-RIBO-AABRF-ILMN-RNA-ANumber of identified RNA editing sitesAllAtoI0

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(基于人工智能的基因组自动注释课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|