1、基因的概念随着科学的发展而不断发展,迄今为止,仍有各种基因的概念随着科学的发展而不断发展,迄今为止,仍有各种说法。说法。Today when we speak of a gene for some malady,a regulatory gene,a structural gene,or a gene frequency,it is entirely possible that we are deploying different gene concepts even though we are using the same term.M.R.Dietrich,2000从分子生物学的角度而言,
2、一般认为基因是负载特定生物遗传从分子生物学的角度而言,一般认为基因是负载特定生物遗传信息的信息的DNA分子片段,基因在一定条件下能够表达这种遗传信分子片段,基因在一定条件下能够表达这种遗传信息,产生特定的生命功能。息,产生特定的生命功能。按功能分为:按功能分为:(1)、结构基因(可被转录形成)、结构基因(可被转录形成mRNA,并进而翻译成多肽,并进而翻译成多肽链,构成各种结构蛋白质、催化各种生化反应的酶和激素等)链,构成各种结构蛋白质、催化各种生化反应的酶和激素等)(2)、调控基因(可调节控制结构基因表达的基因)、调控基因(可调节控制结构基因表达的基因)(3)、只转录而不翻译的基因(如)、只转
3、录而不翻译的基因(如rRNA基因、基因、tRNA基因)基因)ORF(Open Reading Frame):):在在DNA链上,由蛋白质合成链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列。的起始密码开始,到终止密码子为止的一个连续编码序列。人类结构基因的结构包括人类结构基因的结构包括4个区域:个区域:(1)、外显子;)、外显子;(2)、内含子;)、内含子;(3)、前导区(位于编码区上游,相当于)、前导区(位于编码区上游,相当于mRNA5端非编码端非编码区(非翻译区);区(非翻译区);(4)、调节区(包括启动子和增强子等基因编码区的两侧,)、调节区(包括启动子和增强子等基因
4、编码区的两侧,也称为侧翼序列);也称为侧翼序列);Contig 3 of Ch21 (Total length:3,450,497 Bp)Gene:“TRPC7”(Total length:62,668 Bp)Coding:3,345 bp(1,115 AA)25 Exons:48354 bpIntergenic regionGeneExonIntron(1)、人类细胞核基因组中编码序列不到)、人类细胞核基因组中编码序列不到2,约含,约含3万左右万左右不同的基因,且有近不同的基因,且有近1/3为多拷贝;为多拷贝;(2)、结构基因大多含有插入序列。即大部分基因为断裂基)、结构基因大多含有插入序列
5、。即大部分基因为断裂基因(因(interrupted gene););(3)、外显子)、外显子(exon)一般不长于一般不长于800bp,内含子,内含子(intron)则在则在30bp数十数十kb不等;不等;(4)、)、mRNA剪接位点(剪接位点(Splice sites)的识别信号:)的识别信号:每个外显每个外显子和内含子接头区都有一段高度保守序列(子和内含子接头区都有一段高度保守序列(consensus sequence),即内),即内含子含子5端大多数是端大多数是GT(称为(称为donor site)开始,)开始,3端大多数是端大多数是AG(称为(称为acceptor site)结束,)
6、结束,称为称为GTAG法则;法则;人类基因组结构的特点人类基因组结构的特点(5)、尽管拥有相同的一套基因组,不同的分化细胞中所表)、尽管拥有相同的一套基因组,不同的分化细胞中所表达的基因也不同,每个细胞只表达一部分基因达的基因也不同,每个细胞只表达一部分基因(例如:人脑细胞的基因表达百分比最高,为(例如:人脑细胞的基因表达百分比最高,为22););(6)、转录在细胞核内进行,翻译在细胞质核糖体中进行,)、转录在细胞核内进行,翻译在细胞质核糖体中进行,二者在时间空间上是分开的。二者在时间空间上是分开的。假基因假基因:与功能性基因密切相关的:与功能性基因密切相关的DNA系列,但由于缺失、插系列,但
7、由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类假基因可以转录但不能翻译成蛋白质。假基因可以转录但不能翻译成蛋白质。假基因的两种类型:假基因的两种类型:(1)、由于一种基因的加倍而不能表达,但保留原来亲本基)、由于一种基因的加倍而不能表达,但保留原来亲本基因的外显子及内含子;因的外显子及内含子;(2)、仅含有亲本基因的外显子,源于)、仅含有亲本基因的外显子,源于mRNA并通过逆转录并通过逆转录而重新整合进基因组的。而重新整合进基因组的。超过超过90为重复序列,不编码为重复序列,不编码mRNA前体或其它前体或其它RNA。(个
8、体间的重复序列有巨大差异(个体间的重复序列有巨大差异 DNA指纹)指纹)重复序列分为重复序列分为3类:高度重复序列、中等重复序列、低重复序类:高度重复序列、中等重复序列、低重复序列。列。目前的一些认识:目前的一些认识:(1)、)、GC含量低,含量低,AT含量高。(含量高。(AT的氢键弱);的氢键弱);(2)、)、3端和端和5端有直接重复序列的存在。有利于形成环状端有直接重复序列的存在。有利于形成环状结构。结构。(1)、启动子(启动子(promoter)(2)、增强子(增强子(enhancer)(3)、负性调节元件负性调节元件(4)、LCR(Locus control regions)(基因座调
9、控区)(基因座调控区)(5)、转录因子转录因子(6)、与转录终止有关的序列:与转录终止有关的序列:(7)、mRNA的剪接的剪接10种真核生物的外显子和内含子数目及长度的统计结果比较种真核生物的外显子和内含子数目及长度的统计结果比较(Deutsch&Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)平均每个基因包含外显子平均每个基因包含外显子4.1个个,内含子内含子3.1个;基因中每个;基因中每1kb长长的编码蛋白质区域(也称为的编码蛋白质区域(也称为CDS,Coding Sequence)平均包)平均包含含3.7个内
10、含子个内含子.10种真核生物的外显子和内含子长度的统计分布种真核生物的外显子和内含子长度的统计分布(Deutsch&Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)示长度,纵坐标表示频率。)外显子长度概率分布曲线的山峰处于外显子长度概率分布曲线的山峰处于3040个氨基酸长度的地方,且个氨基酸长度的地方,且山峰比较紧凑,而内含子的长度则大多数为山峰比较紧凑,而内含子的长度则大多数为40125个核苷酸,山峰个核苷酸,山峰相对平缓。相对平缓。人(人(Homo sapien
11、s)的基因组:)的基因组:平均每个基因包含内含子平均每个基因包含内含子4.0个(最多的是个(最多的是116个),外显子个),外显子5.0个,每个,每1kb的的CDS平均含有平均含有5.3个内含子,是这个内含子,是这10种真核生物中种真核生物中内含子数目最多、长度最大的。内含子的平均长度为内含子数目最多、长度最大的。内含子的平均长度为3413.1bp,其中大多数为其中大多数为75150bp,已知最长的内含子要大于,已知最长的内含子要大于100kb。每每1kb的的CDS所包含的内含子长度为所包含的内含子长度为6825bp。同样地,人类基。同样地,人类基因组外显子长度的概率分布要比内含子的概率分布要
12、紧凑得多。因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。人类基因组的外显子和内含子数目及长度的统计结果比较人类基因组的外显子和内含子数目及长度的统计结果比较(Deutsch&Long,1999)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)(外显子的长度单位是氨基酸,内含子的长度单位是核苷酸)人类基因组外显子和内含子长度的统计分布图人类基因组外显子和内含子长度的统计分布图(Deutsch&Long,1999)(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表(外显子长度的单位为氨基酸,内含子长度的单位为核苷酸;图中横坐标表示长度,纵坐标表示频率。)示长度,纵坐
13、标表示频率。)同样地,人类基因组外显子长度的概率分布要比内含子的同样地,人类基因组外显子长度的概率分布要比内含子的概率分布要紧凑得多。概率分布要紧凑得多。基因预测:基因预测:早期指预测早期指预测DNA序列中编码蛋白质的部分,即外序列中编码蛋白质的部分,即外显子部分;现在指整个基因结构的预测,综合各种外显子预测显子部分;现在指整个基因结构的预测,综合各种外显子预测的算法及对基因结构信号的认识,预测出可能的完整基因。的算法及对基因结构信号的认识,预测出可能的完整基因。基因预测(基因预测(Gene Prediction)基因识别(基因识别(Gene Identification)基因寻找(基因寻找(
14、Gene Finding)基因注释(基因注释(Gene Annotation)Computational Gene Identification、Computational Gene Prediction(基因注释:描述基因组,并通过计算分析,辅以生物数据库和生物学知(基因注释:描述基因组,并通过计算分析,辅以生物数据库和生物学知识,将原始的基因组序列数据转换成有用的生物学信息。)识,将原始的基因组序列数据转换成有用的生物学信息。)基因预测的主要目的基因预测的主要目的抓住如下特征:抓住如下特征:(1)、编码蛋白质基因的区域信息;)、编码蛋白质基因的区域信息;(2)、编码蛋白质基因的结构信息(包
15、括非翻译区和调)、编码蛋白质基因的结构信息(包括非翻译区和调控元,以及所有与转录有关的外显子、内含子);控元,以及所有与转录有关的外显子、内含子);(3)、每一转录所对应的所有可能翻译成蛋白质产物的)、每一转录所对应的所有可能翻译成蛋白质产物的翻译;翻译;(4)、重复序列的区域及其特征;)、重复序列的区域及其特征;(5)、编码非编码)、编码非编码RNA的基因的区域。的基因的区域。基因预测的主要内容基因预测的主要内容启动子的识别启动子的识别翻译起始位点的识别翻译起始位点的识别剪接位点的识别剪接位点的识别多腺苷化信号的识别多腺苷化信号的识别蛋白编码区的识别蛋白编码区的识别内含子的识别内含子的识别B
16、urset和和Guigo(1996)分三个层次来评估:编码核苷酸、外显子结构、蛋白质产物分三个层次来评估:编码核苷酸、外显子结构、蛋白质产物。(1)从编码核苷酸的水平)从编码核苷酸的水平指对于每个单个的核苷酸,将预测的状态与其真正的状态相比指对于每个单个的核苷酸,将预测的状态与其真正的状态相比较,进而考察预测的效果。较,进而考察预测的效果。TP(true positive):):实际编码区的核酸中被成功预测的核酸实际编码区的核酸中被成功预测的核酸数目;数目;TN(true negative):):实际非编码区的核酸中被成功预测的核实际非编码区的核酸中被成功预测的核酸数目;酸数目;FN(fals
17、e negative):):实际编码区的核酸中被误测为非编码的实际编码区的核酸中被误测为非编码的核酸数目;核酸数目;FP(false positive):):实际非编码区的核酸中被误测为编码的实际非编码区的核酸中被误测为编码的核酸数目。核酸数目。TPTNFNFPREALITYcodingnoncodingcodingnoncodingPREDICTIONTP+FNFP+TNTP+FPFN+TN基于基于TP、TN、FP、FN,主要引进四个参数:,主要引进四个参数:Sn、Sp、CC、AC。敏感性(敏感性(sensitivity,Sn):):特异性(特异性(specificity,Sp):):Sn:
18、实际编码区核酸序列中被成功预测的比例;:实际编码区核酸序列中被成功预测的比例;Sp:预测为编码核酸序列中被成功预测的比例。:预测为编码核酸序列中被成功预测的比例。FNTPTPSnFPTPTPSp条件概率:条件概率:x:某个核酸的状态(即编码或非编码),:某个核酸的状态(即编码或非编码),F(x):该核酸被预测的状态,:该核酸被预测的状态,c:编码状态,编码状态,n:非编码状态:非编码状态 cxcxFPSn cxFcxPSp相关系数相关系数CC(Correlation Coefficient):更全面地衡量基因:更全面地衡量基因预测的效果预测的效果 FNTNFPTPFPTNFNTPFPFNTNT
19、PCCCC:取值范围:取值范围-1,1,不仅包含,不仅包含P(F(x)=c|x=c)和和P(x=c|F(x)=c)的信息,而且的信息,而且也包含了也包含了P(F(x)=n|x=n)和和P(x=n|F(x)=n)的信息。缺陷:不允许分母中的信息。缺陷:不允许分母中TP+FN、TN+FP、TP+FP和和TN+FN中任何一项为零。中任何一项为零。近似相关近似相关AC(Approximation Correlation):来作为评估基:来作为评估基因预测的效果因预测的效果25.0 ACPACFNTNTNFPTNTNFPTPTPFNTPTPACP41AC:对:对P(F(x)=c|x=c)、P(x=c|F
20、(x)=c)、P(F(x)=n|x=n)和和P(x=n|F(x)=n)四种四种条件概率的等权平均,取值范围条件概率的等权平均,取值范围-1,1。|AC|=|CC|(2)从外显子结构的水平)从外显子结构的水平沿着沿着DNA序列链,对预测出的外显子结构与实际的外显子结序列链,对预测出的外显子结构与实际的外显子结构进行比较。构进行比较。(比较的标准尚未统一,但目前用得较多的比较标准是:只有当预测的外显比较的标准尚未统一,但目前用得较多的比较标准是:只有当预测的外显子结构与实际的外显子结构完全吻合(包括剪接位点的信息),才认为预子结构与实际的外显子结构完全吻合(包括剪接位点的信息),才认为预测是成功的
21、。测是成功的。)外显子预测的评估同样可以引进外显子预测的评估同样可以引进敏感性(敏感性(Sn)和和特异性(特异性(Sp)两个参数:两个参数:Sn:DNA链上实际的外显子中被成功预测到的比例;链上实际的外显子中被成功预测到的比例;Sp:DNA链上被预测为外显子中被成功预测到的比例。链上被预测为外显子中被成功预测到的比例。exonsactualofnumberexonscorrectofnumberSn exonspredictedofnumberexonscorrectofnumberSp 引入引入ME(Missing Exons)和和WE(Wrong Exons)ME:实际的外显子中完全没有预
22、测到(即二者没有重叠的:实际的外显子中完全没有预测到(即二者没有重叠的部分)的比例;部分)的比例;WE:所预测的外显子中完全没有预测到的比例。:所预测的外显子中完全没有预测到的比例。exonsactualofnumberexonsmissingofnumberMEexonspredictedofnumberexonswrongofnumberWE(3)从蛋白质产物的水平)从蛋白质产物的水平将预测的基因所编码的蛋白质产物与实际的基因编码的蛋白质将预测的基因所编码的蛋白质产物与实际的基因编码的蛋白质产物作比较。产物作比较。预测结果的评估目前尚无公认的统一标准。有的标准是考察被预测结果的评估目前尚无
23、公认的统一标准。有的标准是考察被准确预测到的氨基酸序列的比例,以及被错误预测的氨基酸比准确预测到的氨基酸序列的比例,以及被错误预测的氨基酸比例。例。基于内容检测的方法基于内容检测的方法(search by content或或content sensors)基于信号检测的方法基于信号检测的方法(search by signal或或signal sensors)基于相似性比较的方法基于相似性比较的方法(search by similarity comparison)基于内容检测的方法基于内容检测的方法原理:原理:DNA序列中的编码蛋白质区域的字符的上下文特征与序列中的编码蛋白质区域的字符的上下文特
24、征与非编码的区域是有区别的。非编码的区域是有区别的。由于蛋白质产物对氨基酸和同义密码子的选择的偏倚性,因由于蛋白质产物对氨基酸和同义密码子的选择的偏倚性,因此也决定了编码区序列的核苷酸组成的特性,如周期性此也决定了编码区序列的核苷酸组成的特性,如周期性(periodicities)、短程相关性()、短程相关性(short-range correlations)、)、寡核苷酸(寡核苷酸(oligonucleatide)使用的偏倚性等。)使用的偏倚性等。基于内容检测的方法基于内容检测的方法信号检测的方法就是根据人们目前对基因组结构的一些相关信号检测的方法就是根据人们目前对基因组结构的一些相关的位点
25、信号的认识来识别基因。的位点信号的认识来识别基因。这些信号包括这些信号包括剪接信号剪接信号、起始密码子信号起始密码子信号、终止密码子信号终止密码子信号、启动子信号启动子信号、转录终止信号转录终止信号、分支点分支点(branch point)等。)等。对于真核生物的基因识别,目前应用比较广泛的软件一般都对于真核生物的基因识别,目前应用比较广泛的软件一般都是结合上述两种方法来设计是结合上述两种方法来设计。除上述两类方法外,还有的方法结合了序列相似性数据库搜除上述两类方法外,还有的方法结合了序列相似性数据库搜寻(寻(sequence similarity searches)技术,即对已知序列数据库)
26、技术,即对已知序列数据库的相似性比较。的相似性比较。(1)长长ORF方法方法 在低等生物(细菌)基因组中,蛋白质编码的基因是从起在低等生物(细菌)基因组中,蛋白质编码的基因是从起始密码始密码ATG开始,到终止密码平均有开始,到终止密码平均有1000bp,而长于,而长于300bp的的ORF平均每平均每36kb才出现一次。因此,只要找出序列中最长才出现一次。因此,只要找出序列中最长的的ORF(300bp)就能相当准确地预测出基因。只对基因结)就能相当准确地预测出基因。只对基因结构比较简单的生物基因组有效;(构比较简单的生物基因组有效;(Claverie,1997)(2)词汇统计算法词汇统计算法 对
27、核苷酸序列(对核苷酸序列(Nucleotide Words)中词汇选用频率的统)中词汇选用频率的统计研究。由于序列中的编码部分与非编码部分在核苷酸、密计研究。由于序列中的编码部分与非编码部分在核苷酸、密码子的选用、周期特性等存在差异性,因此可以用来区别编码子的选用、周期特性等存在差异性,因此可以用来区别编码区和非编码区;(码区和非编码区;(Claverie&Bougueleret,1986;Bechmann,1986(3)同源比较算法同源比较算法将未知序列通过对已知将未知序列通过对已知EST(Expressed Sequence Tag,表达,表达序列标签)数据库的相似性比较,也可以比较有效地
28、找到基序列标签)数据库的相似性比较,也可以比较有效地找到基因。许多有名的基因预测软件(如因。许多有名的基因预测软件(如GRAIL)都已结合了同)都已结合了同源比较算法;(源比较算法;(Claverie,1993;Green,1993)(4)HMM(Hidden Markov Model)算法)算法 将核苷酸序列看成一个随机序列,将核苷酸序列看成一个随机序列,DNA序列的编码部分与序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的非编码部分在核苷酸的选用频率上对应着不同的Markov模型。模型。由于这些由于这些Markov模型的统计规律是未知的,而模型的统计规律是未知的,而HMM能够自能
29、够自动寻找出它们隐藏的统计规律。对于高等生物这样复杂的动寻找出它们隐藏的统计规律。对于高等生物这样复杂的DNA序列,序列,HMM必须学习不同的基因结构的信号。必须学习不同的基因结构的信号。典型的基于典型的基于HMM的基因预测系统的基因预测系统VEIL(John Hopkins University)HMMgene(Technical University of Denmark)GeneMark.hmm(Georgia Institute of Tech)Genie(UC Santa Cruz&UC Berkeley)GENSCAN(Stanford)GenScan的的HMM模型模型GENSCA
30、N对某个基因的预测结果示意图:对某个基因的预测结果示意图:常见的常见的HMM模型模型(5)动态规划算法(动态规划算法(Dynamic Programming)将预测出的各个可能的外显子和内含子进行拼接,组成完将预测出的各个可能的外显子和内含子进行拼接,组成完整的基因。并对各种可能的拼接进行计分,从而得出最可能整的基因。并对各种可能的拼接进行计分,从而得出最可能的基因结构;(的基因结构;(Gelfang&Roytberg,1993)(6)法则系统(法则系统(Rule-based System)算法)算法(Guigo,1992)(7)语言学方法(语言学方法(Linguistic)(Dong&Sea
31、rls,1994););(8)人工神经网络方法(人工神经网络方法(ANN)(9)LDA方法(方法(Linear Discriminate Analysis)(Fickett&Tung,1992););(10)决策树(决策树(Decision Tree)算法)算法(Salzberg,1995););(11)Fourier分析分析(Tiwari,1997)。)。常用真核基因预测软件常用真核基因预测软件(1)、)、FGENEH作者:作者:Solovyev等,等,1995所用算法:所用算法:LDA(Linear Discriminant Analysis)方法)方法(2)、)、GeneID作者:作者:
32、Guigo等,等,1992所用算法:法则系统(所用算法:法则系统(Rule-based System)算法)算法(3)、)、GeneParser作者:作者:Snyder和和Stormo,1993所用算法:动态规划算法(所用算法:动态规划算法(Dynamic Programming)(4)、)、Genie作者:作者:Henderson等,等,1997所用算法:广义隐所用算法:广义隐Markov模型(模型(Generalized Hidden Markov Model)方)方法、动态规划算法法、动态规划算法(5)、)、GenLang作者:作者:Dong和和Searls,1994所用算法:语言学方法
33、(所用算法:语言学方法(Linguistic)(6)、)、GENESCAN作者:作者:Burge和和Karlin,1997所用算法:隐所用算法:隐Markov模型(模型(Hidden Markov Model)方法、动态规划算法)方法、动态规划算法(7)、)、HEXON作者:作者:Solovyev等,等,1994所用算法:所用算法:LDA(Linear Discriminant Analysis)方法、动态规划算法)方法、动态规划算法(8)、)、VEIL作者:作者:Krogh等,等,1994所用算法:隐所用算法:隐Markov模型(模型(Hidden Markov Model)方法、动态规划算
34、法)方法、动态规划算法 目前常用软件的基因预测结果评估(目前常用软件的基因预测结果评估(Claverie,1997)目前常用软件的基因预测结果评估(目前常用软件的基因预测结果评估(Rogic等,等,2001)目前的各种算法还存在许多缺陷需进一步改进,主要表现在目前的各种算法还存在许多缺陷需进一步改进,主要表现在以下两点:以下两点:(1)、这些算法对基因中的非编码区(即内含子)和基因间)、这些算法对基因中的非编码区(即内含子)和基因间的序列不加任何区别,所以预测出的基因是不完全的,而对的序列不加任何区别,所以预测出的基因是不完全的,而对5和和3非翻译区(非翻译区(UTR)的预测基本上还是空白;)
35、的预测基本上还是空白;(2)、这些算法的学习依赖性较强。如同源比较算法是完全)、这些算法的学习依赖性较强。如同源比较算法是完全依赖于已知的基因序列,而依赖于已知的基因序列,而HMM之类的算法都需要对已知的之类的算法都需要对已知的基因结构信号进行学习或训练。基因结构信号进行学习或训练。1、原核生物基因组一般比真核生物基因组小、原核生物基因组一般比真核生物基因组小得多得多 E.coli的基因组的基因组(4.6Mb)约为酵母基因组约为酵母基因组(12.1Mb)的的2/52、绝大部分原核生物基因组由一个单一的环、绝大部分原核生物基因组由一个单一的环状状DNA分子组成分子组成3、原核生物的基因通常比真核
36、生物的少、原核生物的基因通常比真核生物的少E.coli:4000多个基因,人:多个基因,人:30000个个4、原核生物的基因绝大多数是连续基因,不、原核生物的基因绝大多数是连续基因,不含间隔的内含子;基因组结构紧密,重复序列含间隔的内含子;基因组结构紧密,重复序列远少于真核生物的基因组。远少于真核生物的基因组。原核生物基因组的操纵子与基因群结构原核生物基因组的操纵子与基因群结构原核生物的基因结构原核生物的基因结构TranscriptionInitiation MotifCoding ORFTranslationInitiation MotifUpstream regionTexts from
37、coding/noncoding regions in DNA sequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATATAAATG
38、AAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCTCTAAG
39、CACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGCCGGCT
40、GTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGATTTTGA
41、TATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStart codonStop codonATGGTGTTGTAATAGT
42、GAProtein coding genesNoncoding sequences1、导致现导致现代分子遗传学代分子遗传学的许多重大发的许多重大发现现染色体、染色体、DNA双螺旋、遗传双螺旋、遗传密码、密码、DNA复复制、中心法制、中心法则则2、2、3、作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、作为微生物基因工程的反应器,直接运用于干扰素、人胰岛素、生长激素、乙型肝炎疫苗等现代基因工程产品的生产。生长激素、乙型肝炎疫苗等现代基因工程产品的生产。1、原核基因组的测序、原核基因组的测序 获得所研究生物的全基因组获得所研究生物的全基因组DNA序列序列 测序方法:链终止法。测序方法:链终
43、止法。一次测序反映只能测几百个碱基对。一次测序反映只能测几百个碱基对。序列的拼接方法。序列的拼接方法。2、原核基因组的序列解读、原核基因组的序列解读 通过结合计算机分析、试验验证等手段,初步定位基因及通过结合计算机分析、试验验证等手段,初步定位基因及其调控区并阐明基因的功能。其调控区并阐明基因的功能。发展原核基因组的基因识别算法是基因组的计算机分析的发展原核基因组的基因识别算法是基因组的计算机分析的重要目标。重要目标。1、GeneMark系列软件(包括最新版本系列软件(包括最新版本GeneMarkS)Borodovsky等,等,19932001Besemer,J.,Lomsadze,A.and
44、 Borodovsky,M.(2001)GeneMarkS:a self-training method for prediction of gene starts in microbial genomes.Implications for finding sequence motifs in regulatory regions.Nucleic Acids Res.,29:2607-2618.2、Glimmer 2.02(Salzberg等,等,1999)Delcher,A.L.,Harmon,D.,Kasif,S.,White,O.,and Salzberg,S.L.(1999)Impro
45、ved microbial gene identification with GLIMMER.Nucleic Acids Res.,27,4636-46413、ZCURVE 1.0 张春霆等张春霆等,1991-2003其它:如其它:如 EasyGene(Larsen and Krogh,2003)ORPHUS(Frishman et al.,1998)1、Markov模型方法模型方法:用非均匀用非均匀Markov模型刻画模型刻画DNA序列序列give an estimate of the probability for a local segment(such as a k-tuples)to
46、 belong to the class of protein coding sequences 如:如:GeneMark、Glimmer 2.02 2、其它方法,如、其它方法,如Z-curve方法方法如:如:ZCURVE 1.03、结合、结合HMM方法与蛋白质相似比较的方法方法与蛋白质相似比较的方法如:如:EasyGene(Larsen and Krogh,2003)原核基因预测软件被广泛应用于原核基因组研究,提供了许多原核基因预测软件被广泛应用于原核基因组研究,提供了许多物种的基因组物种的基因组GenBank注释注释基因位点的计算预测。基因位点的计算预测。1、GenBank数据库提供的原核
47、基因注释信息(基因位点、功数据库提供的原核基因注释信息(基因位点、功能等)只有部分经过实验确认,其它部分只有计算预测或未实能等)只有部分经过实验确认,其它部分只有计算预测或未实验证实的注释信息。验证实的注释信息。2、GenBank数据库的注释信息存在系统性的错误,处于不断数据库的注释信息存在系统性的错误,处于不断的修正之中。的修正之中。Pseudo short genesGene starts功能信息的错误功能信息的错误注释众说纷纭(如注释众说纷纭(如H.inf,148 amendments by different authors)3、基因翻译起始位点的精确预测、基因翻译起始位点的精确预测原
48、核基因转录和翻译起始机制的认识原核基因转录和翻译起始机制的认识多样性、复杂性多样性、复杂性4、短基因的预测、短基因的预测短于短于100AA统计模型对短基因刻画的困难统计模型对短基因刻画的困难短基因的生物学意义?(功能、进化历程)短基因的生物学意义?(功能、进化历程)5、原核基因结构的数学模型、原核基因结构的数学模型缺乏综合的理解缺乏综合的理解缺乏良好的模型缺乏良好的模型评评 论论1、与真核生物基因预测的研究相比,原核生物基因预测的研、与真核生物基因预测的研究相比,原核生物基因预测的研究走在更前面究走在更前面2、原核生物基因预测的方法和结果为人类基因组计划和模式、原核生物基因预测的方法和结果为人
49、类基因组计划和模式生物基因组计划做出了很大的贡献,但也带来一定的后果生物基因组计划做出了很大的贡献,但也带来一定的后果3、原核基因的复杂结构还没有真正被了解、原核基因的复杂结构还没有真正被了解4、原核基因的预测还有很多没有解决的问题、原核基因的预测还有很多没有解决的问题odelredictnderstand对基因复杂结构信息进行统计分对基因复杂结构信息进行统计分析,并建立合理的数学物理模型析,并建立合理的数学物理模型进行刻画进行刻画(包括对模型的检验包括对模型的检验)。根据模型,对新测序的基因组序根据模型,对新测序的基因组序列,有效预测其基因结构。为基列,有效预测其基因结构。为基因组实验研究提
50、供理论指导。因组实验研究提供理论指导。综合实验和理论结果,探索模型综合实验和理论结果,探索模型揭示的生物学意义,深刻理解生揭示的生物学意义,深刻理解生物复杂系统。物复杂系统。两段取自两段取自E.coli(Escherichia coli K-12 MG1655)的的DNA序列序列ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA190255 gene=“thrL”(Amino acid biosynthesis:Threonine)ATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC