1、 原核生物基因组岛的 建模与识别The detection Of Genomic Islands in Prokaryotic Genomes2010年7月北京师范大学数学科学学院北京师范大学生命科学学院生物信息实验室梁潇梁潇 曹莎曹莎 姜洁怡姜洁怡Directed by 林魁 毛永华.背景介绍背景介绍1研究计划研究计划2项目创新点项目创新点3其它说明其它说明4研究背景微生物对人类最重要的影响之一是导微生物对人类最重要的影响之一是导致传染病的流行。在人类疾病中有致传染病的流行。在人类疾病中有5050是由病毒引起。世界卫生组织公布是由病毒引起。世界卫生组织公布资料显示:传染病的发病率和病死率资料
2、显示:传染病的发病率和病死率在所有疾病中占据第一位。微生物导在所有疾病中占据第一位。微生物导致人类疾病的历史,也就是人类与之致人类疾病的历史,也就是人类与之不断斗争的历史。不断斗争的历史。在疾病的预防和治疗方面,人类取得在疾病的预防和治疗方面,人类取得了长足的进展。了长足的进展。但是新现和再现的微生物感染还是不但是新现和再现的微生物感染还是不断发生,像大量的病毒性疾病一直缺断发生,像大量的病毒性疾病一直缺乏有效的治疗药物。乏有效的治疗药物。一些疾病的致病机制并不清楚。一些疾病的致病机制并不清楚。大量的广谱抗生素的滥用造成了强大大量的广谱抗生素的滥用造成了强大的选择压力,使许多菌株发生变异,的选
3、择压力,使许多菌株发生变异,导致耐药性的产生。导致耐药性的产生。人类健康受到新的威胁人类健康受到新的威胁一些分节段的病毒之间可以通过重一些分节段的病毒之间可以通过重组或重配发生变异,最典型的例子组或重配发生变异,最典型的例子就是流行性感冒病毒。就是流行性感冒病毒。每次流感大流行流感病毒都与前次每次流感大流行流感病毒都与前次导致感染的株型发生了变异,这种导致感染的株型发生了变异,这种快速的变异给疫苗的设计和治疗造快速的变异给疫苗的设计和治疗造成了很大的障碍。成了很大的障碍。而耐药性结核杆菌的出现使原本已而耐药性结核杆菌的出现使原本已近控制住的结核感染又在世界范围近控制住的结核感染又在世界范围内猖
4、獗起来。内猖獗起来。幽门螺杆菌幽门螺杆菌 Helicobacter pylori Helicobacter pylori 革兰氏阴性菌,幽门螺杆菌是人类至今革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌唯一一种已知的胃部细菌。由于长期的由于长期的溃疡,会导致癌症,是第一个可致癌的溃疡,会导致癌症,是第一个可致癌的原核生物。原核生物。铜绿假单胞菌铜绿假单胞菌 P.AeruginosaP.Aeruginosa原称绿脓杆菌原称绿脓杆菌,有复杂的耐药机制有复杂的耐药机制,影影响肺部及泌尿道,造成烧伤、伤口及血响肺部及泌尿道,造成烧伤、伤口及血液感染,如败血病液感染,如败血病;亦会造成肺炎。亦
5、会造成肺炎。10%10%在医院感染的病症都是由绿脓杆菌在医院感染的病症都是由绿脓杆菌所引致的。它亦是引致皮肤炎的其中一所引致的。它亦是引致皮肤炎的其中一种细菌种细菌。鲍曼不动杆菌鲍曼不动杆菌 AcinetobacterAcinetobacter Baum Baum AnnieAnnie2020世纪世纪7070年代年代,鲍曼不动杆菌几乎对所鲍曼不动杆菌几乎对所有抗生素都很敏感。由于它具有惊人有抗生素都很敏感。由于它具有惊人的迅速获得抗药性的能力的迅速获得抗药性的能力,目前已对多目前已对多种抗菌药物表现耐药种抗菌药物表现耐药。基因组岛的研究价值微生物的致病作用微生物的致病作用抗生素抗性抗生素抗性共
6、生微生物的共生性共生微生物的共生性外源性化合物的降解外源性化合物的降解基因组岛的进化起源基因组岛的进化起源基因组岛的删除基因组岛的删除基因组岛的插入机制基因组岛的插入机制基因组岛在菌株间的转移机制基因组岛在菌株间的转移机制何为基因组岛?一般是指原核生物基因组染色体上一段具有有别于该基因组背景典型特征的DNA片段基因簇,具有移动元件的特征,如G+C百分比和密码子使用情况与宿主菌不同,其通常具有移动元件的特征,常含移动基因,可以在同种甚至于不同种菌株间水平转移。FEMS Microbiology Reviews Vol.33,2 Pages:376-393.背景介绍背景介绍1研究计划研究计划2项目
7、创新点项目创新点3其它说明其它说明4.研究研究目标目标研究内容研究进度实验路线可行性分析预实验结果 项目的研究目标项目的研究目标 通过整合统计学、机器学习、比较基因组学等方法,设计并实现一个有较好性能的原核生物基因组岛识别分析系统。项目的研究内容项目的研究内容1.通过具有较高敏感性的方法寻找出待测基因组的基因组岛。2.用统计分析的方法研究基因组岛边缘序列的结构特征及其局部区域相关关系,建立起更准确的识别基因组岛的马尔可夫识别模型。整合我们自己研究的原核生物基因组进化方法进行备选基因组岛的比较基因组学鉴定。3.设计评价指标来评价所设计的系统,检验算法于模型的有效性及实用性。4.利用基于Linux
8、的MySQL数据库系统,PERL/C+编程以及Apache服务器实现整个系统并提供给相关科学家使用。拟解决的关键问题拟解决的关键问题1.1.基于全基因组的基因组岛识别算法的优化模型建立基于全基因组的基因组岛识别算法的优化模型建立 2.2.识别的性能识别的性能(准确性准确性)评价评价 全基因组序列数据Z-curve处理数据比较基因组法初步识别基因组岛第一阶段系统发育进化关系第二阶段第三阶段第四阶段实验路线流程图待分析序列建立隐马氏模型(HMM)提取特征参数基因组岛区域第一阶段第二阶段第三阶段第四阶段最终优化方案MYSQL数据库编程实现整个系统第一阶段第二阶段第三阶段第四阶段基因组岛区域准确性判断
9、模型是否达到预设阀值?返回修改模型参数最终优化方案第一阶段第二阶段第三阶段第四阶段是否实验实验的可行性分析的可行性分析1 1 全基因组测序计划的实行,使我们通过互联网即可拥有可靠的全基因组测序计划的实行,使我们通过互联网即可拥有可靠的已测序的全基因组数据来源,如已测序的全基因组数据来源,如GenBankGenBank数据库检索系统:数据库检索系统:http:/http:/ncbi.nlm.nih.gov/genbank/query_form.htmlncbi.nlm.nih.gov/genbank/query_form.html。成熟的。成熟的WEBWEB程序及具体的数据、地址可在有关资料上找
10、到,这给了我们程序及具体的数据、地址可在有关资料上找到,这给了我们开发相关程序很好的参考。开发相关程序很好的参考。2 2 基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识别从其初期的到现在已有多年,技术已相当成熟,与之相对应的别从其初期的到现在已有多年,技术已相当成熟,与之相对应的软件系统开发也很全面、系统。利用统计学以及机器学习技术改软件系统开发也很全面、系统。利用统计学以及机器学习技术改进基因组岛识别的系统的可操作性很强,在我们的研究时段内可进基因组岛识别的系统的可操作性很强,在我们的研究时段内可以顺利完成。以顺利完成。成果提供形
11、式及初步预实验结果现有算法详细列表算法论文Islandpath/DIMOB(2005)William W L Hsiao,Korine Ung,Dana Aeschliman,Jenny Bryan,B Brett Finlay,and Fiona S L Brinkman.Evidence of a large novel gene pool associated with prokaryotic genomic islands.PLoS Genet,1(5):e62,Nov 2005.原先是用来协助原核基因岛的识别。途径是通过可视化GI的几种共同的特点:例如序列组成偏向,tRNA,整合酶和
12、转座酶。这些特征可以用于决定GI的位置。SIGI-HMM(2006)Stephan Waack,Oliver K,Roman A,Thomas B,Carsten D,Wolfgang F.F,Katharina S,Peter M,and Rainer M.Score-based prediction of genomic islands in prokaryotic genomes using hidden markov models.BMC Bioinformatics,7:142,2006.这个算法利用了各分类的密码子使用的显著差异来识别pA基因和预测它们可能的起源。(用HMM,Vit
13、erbi算法,有高度可靠性)MobilomeFINDER(2007)Mobilomefinder:web-based tools for Insilco and experimental discovery of bacterial genomic islands.Nucleic Acids Res,35(Web Server issue):W97W104,Jul 2007.IslandPick(2008)MorganGILangille,WilliamWLHsiao,andFionaSLBrinkman.Evaluation of genomic island predictors usin
14、g a comparative genomics approach.B MC Bioinformatics,9:329,2008.使用比较基因组预测方法来建立严格的GI和非GI数据集,这些阳性和阴性的数据集被用来评价一些基于序列组成的GI预测方法。该方法可以自动选择用于比较的基因组,用户也可以根据子的的见解来选则。IslandViewer(2009)Morgan G I Longville and Fiona S L Brinkman.Islandviewer:an integrated inter-face for computational identification and visua
15、lization of genomic islands.Bioinformatics,25(5):6645,Mar 2009.整合了两种基于序列组成的的GI预测方法:SIGI-HMM 和 IslandPath-DIMOB,以及一个比较基因组预测方法IslandPick.IslandPickIslandPick1Z-CurveZ-Curve2SIGI-HMMSIGI-HMM3其它说明其它说明4 BLAST BLAST(Basic Local Alignment Search Tool)是一个用来比对生物序列的一级结构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法。已知一个包含若干序列的
16、数据库,BLAST可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个BLAST搜索来确认人类是否包含类似的基因(通过序列的相似性)。.IslandPickIslandPick1Z-CurveZ-Curve2SIGI-HMMSIGI-HMM3其它说明其它说明4窗口化方法窗口化方法使用20kb的窗口在Bacillus cereus(蜡样芽孢杆菌)和Bacillus anthracis(炭疽芽孢杆菌)的全基因组上滑动所得到的GC含量的分布图。Z-curve DNA序列一一对应于一条Z-curve Xn=(An+Gn
17、)-(Cn+Tn)Yn=(An+Cn)-(Gn+Tn)Zn=(An+Tn)-(Gn+Cn)特别地,Zn分量体现了整个序列的GC/AT的分布 对于一个AT丰富的基因组,Zn是近似的关于n的单调增的线性函数。反之,在GC含量比较丰富的区域,Zn是近似的关于n的单调减的函数。曲线Znn可以用一条直线使用最小二乘法拟合。该曲线为Z=kn,易知,它对应的基因组的GC含量是稳定的。令Zn=Zn-kn,GC含量的改变被放大。(?)这样,Zn曲线和直线的偏差,即Z曲线就可以突出地刻画基因组内GC含量的偏差了。Z-curveZ曲线的几何意义 Z曲线被称为累积GC含量轮廓图 对于序列上某一段特定的序列n,它内部的
18、GC含量的平均值有如下关系:Z曲线的几何意义 从上式可以看出累积GC含量图Z曲线的特征:1)如果曲线的某一个区域接近于一条直线,则该区域的GC含量几乎保持不变;2)曲线上任何一个突然的最大(小)点预示着一个转折点GC含量经历了一个很突然的从相对低(高)到相对高(低)的变化。累积GC含量轮廓图 在基因组某一碱基处的G+C 含量是关于Z曲线在该点切线的斜率的一个很简单函数。在某一窗口中的平均G+C 含量则正比于此函数在该窗口内的定积分。这样,我们就把生物学中G+C 含量的概念拓广了,使之在基因组处处都有定义。如果不从微积分的角度来看,很难理解基因组在某一碱基位置处的G+C 含量是什么意思。精度高,不需要滑动窗口;极限情况下,就算只有一个碱基也能计算;累积GC含量轮廓图绿色:Bacillus cereus粉红区域:GI蓝色:Bacillus anthracis紫色:Bacillus cereus去除掉GI区域以后原核生物基因组岛的 建模与识别-END-END-