1、文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因预测的背景基因预测的背景 生物学家开始研究基因结构主要是在实验的基础上进行的:构建cDNA文库、PCR扩增、Northern blot 和测序等。随着全基因组测序计划的实现,大量的基因组DNA序列产生,但对基因的注释远落后于基因测序。因此,应用计算机程序从DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研究人员考虑的重要问题。一旦获得一个基因组序列,除了将这段序列通过数据库相似性和同源性比较,还可以计算DNA的碱基组成,分析密码子的偏好性,简缩重复序列,寻找DNA的特殊位点或信号,以及鉴定DNA的编码区。
2、用外显子-内含子结构和每个预测基因的位置信息,以及基于数据库搜索的任何功能信息来注释基因组DNA序列。随后可以鉴别最可能的蛋白质编码区。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因预测的同源比较算法和预测模型 1 同源比较算法:同源比较算法:Smith-Waterman算法:它是将一条序列代替另一条序列所需的“最小代价”(Weight)。FASTA算法 是用来进行DNA/DNA、DNA/蛋白质(将DNA按6个ORFs 翻译成氨基酸序列,再与蛋白质比较)和蛋白质/蛋白质的同源比较。2 隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,HM
3、M)它将DNA看成是一个随机过程,根据编码和非编码的DNA序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的规律。广义隐马尔可夫模型广义隐马尔可夫模型(Generalized Hidden Markov Model,GHMM)是通过对HMM简化和在HMM下建立了相应的子模型,使其具有很大的可扩展性,是第二代基因预测软件的基础。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。3 动态规划法动态规划法 用来将预测的各个可能外显子和内含子拼接成完整的基因,这种算法将各种可能的拼接进行记分,从而得出最可能的基因结构。4 神经网络预测方法神经网络预测方法 该法是使用一个训
4、练数集来训练神经网络,使其达到局部极小,然后,神经网络去掉这些最小权重,将最低预测值加到整体预测值上,经过数据修剪后,再次训练神经网络使其达到局部极小,这个过程不断被重复,直至达到规定的误差值,最后给出一个预测结果。除了以上几种外,目前用于基因预测的算法还很多,如基因结构的线性判别式分析和概率模型等。不过大多数算法都是基于已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。但目前最为流行的预测模型是HMM改进后的广义隐马尔科夫模型(GHMM)。GHMM比HMM的模型框架更具有良好的可扩展性。下面介绍几种以HMM和
5、GHMM为模型而发展的计算机识别软件:第一代基因识别软件:GENMARK,GeneID和GRAIL等,它们采用的方法包括神经网络、隐Markov模型等。但是它们通常假定序列中正好包含了一个完整的基因,因而预测的正确率不高。第二代基因识别软件:包括GenScan,HMMGene,FFG,GeneMark.hmm 等等,它们一般不需要假设序列中正好包含一个完整的基因,而且 其预测正确率也有大幅提高。它们的模型的框架基本上都是采用的广义隐Markov 模型,是对GHMM在简化方法和子模型的构建方上存在不同。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。GeneScan
6、 GeneScan是一种广义上的目的基因预测软件,用来分析多个物种的DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因组。它可以从下面网站获得:http:/genes.mit.edu/GENESCAN.html.其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。HMMGene HMMGene是专门为脊椎动物和线虫未知DNA 序列的基因预测,可以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪切位点和起始/终止密码子。如果一段序列的一些特征是已知的,如ESTs,蛋白质或重复元件,那么这
7、些区域就被认定为编码区或者非编码区,甚至于在这一约束下找出最优的基因结构。这个程序是建立在HMM(Hidden Markov model)模型上的,HMM模型是一个基因结构概率模型,能够为一段序列提供多个最优的预测结果。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Pombe Pombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。识别位点,外显子,内含子和假位点,假内含子,假外显子。同时可以识别起始位点,供体位点和受体位点,而对于外显子和内含子的预测必须要结合线性判别分析。而且还要考虑到其他的因素如少数核苷酸偏好、三联体位点偏好和ORFs的定位。
8、同时把这些分析结果与动态分析程序相结合来预测基因的结构。http:/argon.cshl.org/genefinder/pombe/pombe.htmGeneMark GeneMark 依赖编码与非编码二者的非同源Mark链模型,是建立在已知基因和已确定其功能的基础上,用来预测E.coli.的DNA序列,甚至可以重新训练来预测H.influenz,M.jannaschia和其他的生物.文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。GeneMark-Genesis是是用来分析M.jannaschia和 H.pylori的软件,是确定可用于训练和能预测到单独使用Ge
9、nscan或BLASTX所不能检测到的编码区。GeneMark.hmm算法是对 DNA序列片段的编码和非编码区域的概率分析,力求更准确地找出明确的基因边界。以S.pombe和拟南芥(A.thaliana)为模式生物。HumGene HumGene是一个采用广义隐Markov模型(GHMM)的人类基因预测软件,是利用人类基因的结构特点,采用概率模型为基因结构中各个特定区域建立了独立的子模型,能够获得全局统一的评价指数,使得系统整体框架具有一定的扩展性,采用一种新的简化算法,有效地降低了计算的复杂度。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。FFG FFG是根据
10、N.crassa基因的序列特征统计分析建立起来的,可以直接对N.crassa基因进行预测。1 编码区含有较高的GC含量,表现出对C的偏好,对G的偏好其次。2 终止子:UAA比UAG和UGA更为常用,3 起始密码子ATG及其周围的共有序列:CAMMATGGCT 4 研究发现N.crassa许多基因至少有一个内含子:52691,平均为63,中等长度为70。而长度变化范围较宽,在3-5367,平均为509,中等长度为148。5 5供体位点:GGTAAGTnnYCnYY;剪切分支点:WRCTRACMnnnnnnYY;3受体位点:WACAG。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系
11、网站或本人删除。GSA(Gene Structure Assembly)GSA程序就是由ATT和Genscan综合而成的。GenomeScan 是Burge对自己的Genscan的延伸并结合BLASTX或BLASTP的方法而来。该法在信息相似性方面是最可靠的,能预测到单独使用Genscan或BLASTX所不能检测到的编码区。FGENESH+和FGENESHC 是用已存在的FGENESH算法延伸去提高基因预测。(FGENESH 是针对蛋白质或cDNA序列的相似性的预测方法。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因预测中遇到的问题文档仅供参考,不能作为科学
12、依据,请勿模仿;如有不当之处,请联系网站或本人删除。预测程序存在的局限性1 很多算法目前只适用少数物种;2 所有的程序(除了GENSCAN)在输入序列中包含有多基因或者部分基因时,所预测的外显子可靠,但所预测的基因结构就不一定可靠;3 由于受许多未知因素的影响,预测的精确度能比预期的低得多,尤其是对新发现的基因;4 大多算法都明显对测序错误十分敏感;5 象交替剪接、重叠基因和启动子结构等这样的基因语法结构仍超出当前程序的处理能力。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。涉及基因转录起始和终止的信号 1 启动子 原核生物 10元件:TATAAT;35元件:T
13、TGCA;特定启动子的变异;+1:G或A;各种相关因子的结合位点 真核生物(Pol)30:TATAA(60%的具有该序列),有时为CAAT-box或GC-box;+1:inr区;+2050:下游启动子元件dpe(果蝇特有);各种相关因子的结合位点。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。2 转录终止信号 原核生物:茎环结构后跟随一串Un。真核生物:AATAAA+上游或下游元件。真核生物从DNA 成熟的mRNA,其除去内含子有一些特殊模式即:5-供体位点AG/GT;3-受体位点YAG/GT;分支点YNYTRAY,在酵母中为TACTAAC;多聚腺苷化位点AAT
14、AAA。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因的识别可以分为三个步骤 找出序列中的非编码区;找到基因;鉴定找到的基因。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。要找出DNA序列中的非编码区一般涉及以下几个元素去掉序列中的载体污染:去掉序列中的载体污染:载体,接头和PCR引物,转座子和插入序列,DNA/RNA样品的纯度不高等。常用NCBI的“VecScreen”和EMBL的分析工具“Blast2 EVEC”。屏蔽重复序列:屏蔽重复序列:在真核生物和原核生物 中都广泛存在重复序列,人类基因组中约有30%,而瓜蟾蜍有70
15、%的重复序列。重复元件有:SINE、ALU、MIR、LINE、LTR、MALR、ERVL、小RNA、卫星DNA、简单重复序列和低复杂度序列。应用工具有:RepeatMasker 和XBLAST;然后可以用REPEAT View 和HMM/N-TUPLE文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。开放阅读框(ORF)的识别 一个起始
16、密码子和终止密码子之间的序列称为一个ORF。当一个DNA序列被测定以后,还不知道其编码的蛋白质时用此术语。常见起始密码子为ATG,终止密码子为TAA、TAG和TGA。一个双链DNA有6个潜在的ORF,3(+)和3()ORF;一个ORF就是一个潜在的蛋白质编码区,要确定DNA的编码区,就必须要检测它有多少个ORF。原核生物中一个编码区就是一个单独的ORF;真核生物基因的编码区被内含子分隔成若干不连续的编码片段。因此,首先要找出编码区内含子和外显子的边界。若用cDNA序列,问题可大大简化。常用工具:NCBI提供的分析工具:ORF Finder。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处
17、,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。CpG岛(HTF岛)CpG岛是一些富含GC(50%)的小区域,它可能有几百bp至几千bp,其中CpG通常出现在管家基因或频繁表达的启动子周围,具有抵抗序列甲基化的作用。通常出现在脊椎动物基因的5端,80%的人类基因转录起始位点前面就有CpG 的存在,因而CpG岛是发现基因的重要线索。CpG岛的计算工具很多,常用EMBL提供的工具:CpGPlot/CpG Report/Isochore 该工具网址:http:/www.ebi.ac.uk/emboss/cpgplot/文档仅供参考,不能作为科学依
18、据,请勿模仿;如有不当之处,请联系网站或本人删除。基因编码区的预测1 启动子与转录因子结合位点的识别 其应用工具:TRES、神经网络法和Dragon Promoter Finder。2 其它顺式作用元件的预测 其应用工具:Cister:Cis-element Cluster Finder文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。剪切位点预测 5-donor sites CAGGTGAGACTATCCTTCTCACAGG 3-acceptor sites 可以用HMM、碱基频率、权重矩阵等判别式分析方法和神经网络方法。使用的工具SpliceView 和NetG
19、ene2结合综合应用文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。基因预测方法的评价基因预测方法的评价 当预测完后就要对预测结果的精确度和可靠性进行评估。一般而言,预测的精确度要从以下三个方面评估:编码的核苷酸水平,外显子结构水平和预测的蛋白质水平。用灵敏度Sn(sensitivity)和Sp(specificity)分别表示预测编
20、码的正确性和非编码的正确性:Sn TP/(TP+FN)或真阳性/实际阳性;SpTP(TN+FP)或真阳性/预测阳性。常用度量相关系数(Correlation Coefficient,CC):(TP)(TN)(FP)(FN)CC (TP+FN)(TN+FP)(TP+FP)(TN+FN)文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。转录终止信号 由于mRNA有一段polyA,DNA序列中有一段特意序列:AATAAA。可以用基于权重矩阵预测方法工具GRAIL来预测。同时又引入Hamming-Clustering网络技术。然后用polyA 分析工具Hcpolya 分析可
21、能的转录终止位点。基因序列的从头分析 GeneBuilder就是一个很好的分析工具。网址:http:/r.it/webgene/genebuilder.html 橡树岭国家实验室的Pipeline:http:/compbio.ornl.gov/tools/pipeline/它整合了GrailEXPGeneScan和BLASTN的功能文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。DNA序列分析总结:(1)在DNA序列中搜索重复序列;(2)对序列做同源性检索;(3)构建基因模型;(4)揭示潜在基因的启动子信号与转录因子结合位点;(5)PolyA位点的预测;(6)装配外显子和翻译编码区;(7)分析弱相似性序列,通过实验和蛋白质二级结构及其功能模体来验证预测结果的真实性。文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。2004.10.25