1、多序列联配和多序列联配和系统进化树组织构建系统进化树组织构建序列同源性分析序列同源性分析 当我们在研究一个蛋白质或基因时,经常会考虑这样一个很基本当我们在研究一个蛋白质或基因时,经常会考虑这样一个很基本的问题:它与其他蛋白质的同源性关系如何?的问题:它与其他蛋白质的同源性关系如何?序列同源性分析:序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。是理论分析方法中最关键
2、的一步。 由于同源序列通常保持了相似的结构和功能,因而多序列比对就由于同源序列通常保持了相似的结构和功能,因而多序列比对就显得很有意义。显得很有意义。 尽管可以对蛋白质、尽管可以对蛋白质、DNA序列进行多重比对,但是很多数据库序列进行多重比对,但是很多数据库的比对只针对蛋白质家族。的比对只针对蛋白质家族。实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的实际应用中常进行氨基酸序列的多序列比对,然后转化成相应的DNA比对比对多序列比对的定义多序列比对的定义 蛋白家族的特征是用存在一组同源序列的多重比对来定义的。蛋白家族的特征是用存在一组同源序列的多重比对来定义的。一个多重比对就是一组可以部
3、分或整体对齐的蛋白质或核苷酸一个多重比对就是一组可以部分或整体对齐的蛋白质或核苷酸序列序列(3个或个或3个以上个以上)。 相同或相似的氨基酸残基排在同一列上,这些对齐的残基在相同或相似的氨基酸残基排在同一列上,这些对齐的残基在进化意义上是同源的:来自共同的祖先。并且还可假定从结构进化意义上是同源的:来自共同的祖先。并且还可假定从结构角度看,这些残基也是同源的:在三维结构中,对齐的残基也角度看,这些残基也是同源的:在三维结构中,对齐的残基也倾向于占据对应的位置。倾向于占据对应的位置。 对于关系很近的一组序列,很容易产生多序列比对,甚至可对于关系很近的一组序列,很容易产生多序列比对,甚至可以直接观
4、察得到。但当序列间出现一些分歧时,多序列比对过以直接观察得到。但当序列间出现一些分歧时,多序列比对过程中出现的问题就很难解决了,如程中出现的问题就很难解决了,如gap数量和位置的估计就比数量和位置的估计就比较困难。较困难。 那么如何确定某些氨基酸残基是否对齐了呢?那么如何确定某些氨基酸残基是否对齐了呢? 可根据下面可根据下面4个特征来判断相应氨基酸残基是否已经对齐:个特征来判断相应氨基酸残基是否已经对齐: (1)一些高度保守的残基一些高度保守的残基(如参与形成二硫键的半胱氨酸如参与形成二硫键的半胱氨酸); (2)形成保守基序或结构域,如跨膜结构域和免疫球蛋白结构域形成保守基序或结构域,如跨膜结
5、构域和免疫球蛋白结构域等。等。 (3)蛋白质二级结构的保守特征,如参与形成蛋白质二级结构的保守特征,如参与形成-螺旋、螺旋、-折叠和折叠和可变区的残基;可变区的残基; (4)显示出一致插入或缺失模式的区域。显示出一致插入或缺失模式的区域。多序列比对的定义多序列比对的定义多序列比对的意义多序列比对的意义u 用于分析同一基因或蛋白质在不同物种中用于分析同一基因或蛋白质在不同物种中的进化的进化u 通过分析多个基因或蛋白质序列之间的同通过分析多个基因或蛋白质序列之间的同源性确定它们在进化上的关系源性确定它们在进化上的关系u 分析基因或蛋白质的功能分析基因或蛋白质的功能70 Mya70 Mya200 M
6、ya200 MyaWGD 14 and 42 MyaWGD 14 and 42 Mya67.7 Mya67.7 MyaPhylogenetic Phylogenetic analysisanalysisEo, Eo, 棕榈棕榈; Ma, ; Ma, 香蕉香蕉; Zo, ; Zo, 姜姜; ; Cl, Cl, 姜黄姜黄72 Mya72 Mya多序列比对的典型应用和实际策略多序列比对的典型应用和实际策略 什么时候使用和为什么使用多重比对什么时候使用和为什么使用多重比对若所研究的蛋白质或基因与另一组蛋白质有联系,那么这若所研究的蛋白质或基因与另一组蛋白质有联系,那么这些蛋白质可以提供可能的功能、结构
7、、进化方面的信息;些蛋白质可以提供可能的功能、结构、进化方面的信息;大多数蛋白质家族中有远缘的成员。与两两比对相比,多大多数蛋白质家族中有远缘的成员。与两两比对相比,多序列比对能够更敏感地发现同源关系;序列比对能够更敏感地发现同源关系;在检查某次数据库搜索结果时,多重比对形式的结果能更在检查某次数据库搜索结果时,多重比对形式的结果能更容易显示保守残基与基序;容易显示保守残基与基序;如果研究如果研究cDNA克隆,按照惯例我们会对相应序列进行测序。克隆,按照惯例我们会对相应序列进行测序。多序列比对可以显示结果中是否有矛盾之处;多序列比对可以显示结果中是否有矛盾之处;分析物种数据可以揭示很多生物学问
8、题(如进化、结构和分析物种数据可以揭示很多生物学问题(如进化、结构和功能等方面)。功能等方面)。Entrez的的PopSet部分包含了核酸和蛋白质部分包含了核酸和蛋白质的物种数据集,可以多重比对的形式显示。的物种数据集,可以多重比对的形式显示。多序列比对的典型应用和实际策略多序列比对的典型应用和实际策略 什么时候使用和为什么使用多重比对什么时候使用和为什么使用多重比对6. 当一个物种的基因组被完整测序,数据分析的一个主要部分当一个物种的基因组被完整测序,数据分析的一个主要部分是定义所有基于产物所归属的蛋白家族。数据库搜索进行高效是定义所有基于产物所归属的蛋白家族。数据库搜索进行高效的多重比对,
9、将每一个新蛋白或基因与其他所有家族的蛋白质的多重比对,将每一个新蛋白或基因与其他所有家族的蛋白质进行比较。进行比较。7. 利用多序列比对数据构建系统发生树。建树的一个最关键的利用多序列比对数据构建系统发生树。建树的一个最关键的步骤就是产生最佳的多序列比对。步骤就是产生最佳的多序列比对。8. 很多基因的调节区含有转录因子结合的共有序列。很多基因的调节区含有转录因子结合的共有序列。9. 功能分歧分析、分子进化分析等。功能分歧分析、分子进化分析等。10.其他应用,如构建其他应用,如构建profile,打分矩阵等。,打分矩阵等。HMMER就是利用就是利用已知同源序列的多序列比对结果构建已知同源序列的多
10、序列比对结果构建profile,然后再利用该,然后再利用该profile去搜索蛋白数据库查找相应蛋白的同源序列。去搜索蛋白数据库查找相应蛋白的同源序列。多序列比对的方法多序列比对的方法 同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。多序列比对的方法多序列比对的方法2. 计算机程序自动比对计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。基本上多序列比对可以分为基本
11、上多序列比对可以分为:1. 手工比对(辅助编辑软件如手工比对(辅助编辑软件如 bioedit,seaview,Genedoc等)等) 通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。Se-Al自动多序列比对的算法自动多序列比对的算法1. 同步法同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。2. 步进法步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有进化相关性相似序列通常具有进化相
12、关性的这一假设。 Clustal的渐进比对过程的渐进比对过程 在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。多序列比对常用软件多序列比对常用软件1. Clustal W/ Clustal X2. MUSCLE3. MAFFT4. T-Coffee5. ProbCons6. POA7. DIALIGN性能比较 1. ClustalW/X: 最经典、最被广泛接受的工具 2. MUSCLE:
13、 目前最流行的多序列比对工具 3. DIALIGN: 序列相似性低时最准确 4. POA:性能接近T-Coffee和DIALIGN,速度最快(As sequences varied considerably in length, POA (Lee et al. 2002), which treats long indels very accurately, was the alignment program of choice.) 5. ProbCons:目前综合性能比较好 6. T-Coffee:序列相似性高时最准确 7. MAFFT:综合性能比较好Clustal工具工具 Clustal是一
14、个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustalw,clustalx等。 CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反映序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。Clustal的工作原理Clustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的距离,快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。获得一个距离矩阵。
15、邻接法邻接法(NJ)构建一个树(引导树)构建一个树(引导树)根据引导树,渐进比对多个序列。根据引导树,渐进比对多个序列。Clustal的比对模式多序列比对模式多序列比对模式Profile比对模式比对模式:先对不同的亚家族成员进行多序:先对不同的亚家族成员进行多序列比对,然后将两个多序列比对进行整合。列比对,然后将两个多序列比对进行整合。Clustalx的工作界面(多序列比对模式多序列比对模式)Clustalx的工作界面(profile比对模式比对模式)Clustal X的应用1. 输入输出格式输入输出格式 输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-P
16、ROT、GDE、Clustal、GCG/MSF、RSF等格式。 输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。2. 两种工作模式两种工作模式a. 多序列比对模式b. profile比对模式多序列比对实例输入文件的格式(fasta): HvNIP2-1MASNSRSNSRATFSSEIHDIGTVQNSTTPSMVYYTERSIADYFPPHLLKKVVSEVVSTFLLVFVTCGAAAISAHDVTRISQLGQSVAGGLIVVVMIYAVGHISGAHMNPAVTLAFAIFRHFPWIQVPFYWAAQFTGAICASFVL
17、KAVLHPITVIGTTEPVGPHWHALVIEVVVTFNMMFVTLAVATDTRAVGELAGLAVGSSVCITSIFAGAVSGGSMNPARTLGPALASNRYPGLWLYFLGPVLGTLSGAWTYTYIRFEDPPKDAPQKLSSFKLRRLQSQSVAADDDELDHIPVHvNIP2-2MSVTSNTPTRANSRVNYSNEIHDLSTVQDGAPSLAPSMYYQEKSFADFFPPHLLKKVISELVATFLLVFVTCGAASIYGADVTRVSQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFACFRHFPWIQVPFYWAAQFT
18、GAMCAAFVLRAVLHPITVLGTTTPTGPHWHALVIEIIVTFNMMFITCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVASGVYTGLWIYFLGPVIGTLSGAWVYTYIRFEEEPSVKDGPQKLSSFKLRRLQSQRSMAVDEFDHVOsNIP2-1MASNNSRTNSRANYSNEIHDLSTVQNGTMPTMYYGEKAIADFFPPHLLKKVVSEVVATFLLVFMTCGAAGISGSDLSRISQLGQSIAGGLIVTVMIYAVGHISGAHMNPAVTLAFAVFRHFPWIQVPFYWAAQ
19、FTGAICASFVLKAVIHPVDVIGTTTPVGPHWHSLVVEVIVTFNMMFVTLAVATDTRAVGELAGLAVGSAVCITSIFAGAISGGSMNPARTLGPALASNKFDGLWIYFLGPVMGTLSGAWTYTFIRFEDTPKEGSSQKLSSFKLRRLRSQQSIAADDVDEMENIQVOsNIP2-2MASTTAPSRTNSRVNYSNEIHDLSTVQSVSAVPSVYYPEKSFADIFPPNLLKKVISEVVATFLLVFVTCGAASIYGEDMKRISQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFAFFRHFPWI
20、QVPFYWAAQFTGAMCAAFVLRAVLYPIEVLGTTTPTGPHWHALVIEIVVTFNMMFVTCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVASNVYTGLWIYFLGPVVGTLSGAWVYTYIRFEEAPAAAGGAAPQKLSSFKLRRLQSQSMAADEFDNV读入序列数据读入序列数据设置多序列设置多序列比对参数比对参数Profile多序列比对步骤多序列比对步骤1:先读入文件:先读入文件1,并对文件,并对文件1中的序列进行中的序列进行比对,将比对结果进行保存;比对,将比对结果进行保存;然后读入文件然后读入文件2,并
21、对文件,并对文件2中的序列进行多序列比对,将比对结果中的序列进行多序列比对,将比对结果进行保存。进行保存。Profile多序列比对步骤多序列比对步骤2:分别读入文件:分别读入文件1多序列比对结果多序列比对结果(profile1)及文件)及文件2多序列比对结果(多序列比对结果(profile2) 。Profile多序列比对步骤多序列比对步骤3:将文件:将文件1多序列比对结果及文件多序列比对结果及文件2多序列多序列比对结果进行比对。比对结果进行比对。Clustal WClustalW is a general purpose multiple sequence alignment program
22、for DNA or proteins. It produces biologically meaningful multiple sequence alignments of divergent sequences. It calculates the best match for the selected sequences, and lines them up so that the identities, similarities and differences can be seen. Evolutionary relationships can be seen via viewin
23、g Cladograms or Phylograms. 原理同原理同Clustal X软件。软件。Clustal X是是Clustal W的图形界面版本,的图形界面版本,在开发了在开发了Clustal W之后,之后,Thompson等又再等又再Clustal W基础上增加基础上增加了图形界面便有了了图形界面便有了Clustal X,它的操作更加直观简单。它的操作更加直观简单。可下载到可下载到PC机,使用方法同机,使用方法同Clustal X输出输出格式格式设定参数设定参数其他多其他多序列比序列比对工具对工具的链接的链接粘贴序列粘贴序列或以文件的格式上传或以文件的格式上传部分参数定义部分参数定义
24、Gap opening penalty:增大数值使:增大数值使 gap 数目减少数目减少Gap extention penalty:增大数值使:增大数值使 gap 长度变短长度变短Weight transition:AG 转换或转换或 CT 转换转换(multiple DNA sequence alignment)Hydrophilic gap:选择:选择“on” 将增加形成将增加形成 gap 的机会的机会(multiple protein sequence alignment)Residue-specific gap penalties:选择:选择“ on” 将增加在某些氨将增加在某些氨基酸
25、残基处形成基酸残基处形成 gap 的机会,而减少在另一些氨基酸残基处形的机会,而减少在另一些氨基酸残基处形成成 gap 的机会的机会(multiple protein sequence alignment)此比对结此比对结果文件可果文件可下载下载Phylip输出格输出格式,可用于进式,可用于进化树构建化树构建可将输出结果可将输出结果重新进行排序重新进行排序以彩以彩色形色形式显式显示示Clustal W产生的进化树。由产生的进化树。由邻接法获得,多没有经过可邻接法获得,多没有经过可靠性检验,不建议直接使用靠性检验,不建议直接使用MUSCLE MUSCLE stands for MUltiple
26、Sequence Comparison by Log-Expectation. MUSCLE is claimed to achieve both better average accuracy and better speed than ClustalW2 or T-Coffee (在速度和精在速度和精确性上优于确性上优于clustalw和和T-Coffee), depending on the chosen options.http:/www.ebi.ac.uk/Tools/muscle/以图形形式显示联配结果以图形形式显示联配结果MAFFT个人比较喜欢的软件个人比较喜欢的软件可改变序列的
27、输出顺序可改变序列的输出顺序选择多序列比对策略(自动选择多序列比对策略(自动的或人工的)的或人工的)若不选择,则若不选择,则MAFFT程序可根据输入的序列情况自动选择比较合适的策略程序可根据输入的序列情况自动选择比较合适的策略调整比对参数调整比对参数可通过可通过blast查询查询swissprot数据数据库搜索同源序列库搜索同源序列自主选择合适自主选择合适的比对策略的比对策略作多序列比对时应注意的问题作多序列比对时应注意的问题 多序列比对结果直接影响到接下来的分析结果的准确性,因此,多序列比对结果直接影响到接下来的分析结果的准确性,因此,作多序列比对时应注意:作多序列比对时应注意: 1、根据序
28、列间同源性的高低有针对性的选择多序列比对工具。、根据序列间同源性的高低有针对性的选择多序列比对工具。比如比如DIALIGN在序列相似性低时最准确,而在序列相似性低时最准确,而T-Coffee在序列相似在序列相似性高时最准确。性高时最准确。 2、对于同一组序列,应通过不断调整选择参数,比如打分矩阵、对于同一组序列,应通过不断调整选择参数,比如打分矩阵和和gap opening penalty等,得到多个比对结果,结合等,得到多个比对结果,结合motif和和domain等信息从中选择准确度最高的比对。等信息从中选择准确度最高的比对。 3、对比对结果应根据目标蛋白的二级结构、三级结构及保守的、对比对
29、结果应根据目标蛋白的二级结构、三级结构及保守的氨基酸残基、氨基酸残基、domain等信息进行适当的人工调整。比如利用等信息进行适当的人工调整。比如利用Se-Al工具工具(http:/tree.bio.ed.ac.uk/software/seal/)。 Se-Al is an application for creating multiple sequence alignments from nucleotide and amino acid sequences. At the moment it does not do any automatic alignments but is inten
30、ded for the production of hand alignments and for preparing input for alignment programs such as CLUSTAL and phylogeny reconstruction programs such as PHYLIP and PAUP. It is particularly useful for manipulating protein coding DNA/RNA sequences.若认为有必要对产生的多序列比对若认为有必要对产生的多序列比对结果进行人工调整,此软件非常有结果进行人工调整,此软
31、件非常有用,但目前只有针对苹果的版本。用,但目前只有针对苹果的版本。将氨基酸多序列比对转换成相应的核苷酸比对将氨基酸多序列比对转换成相应的核苷酸比对设定参数设定参数download多序列比对结果的显示与编辑多序列比对结果的显示与编辑导入其他格式文件导入其他格式文件此图可直接放到文章中使用(植物此图可直接放到文章中使用(植物NIP2基因的多序列比对结果)基因的多序列比对结果)系统进化树的构建系统进化树的构建分子进化研究的目的分子进化研究的目的从物种的一些分子特性出发,从而了解物种之间从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。的生物系统发生的关系。 蛋白和核酸序列通过序列同源
32、性的比较进而了解基因的进化以及生物系统发生的内在规律。从分子水平上研究生物的进化具有以下优点:从分子水平上研究生物的进化具有以下优点:(1)对分子进化的分析可以数量化,因此根据生物所具有)对分子进化的分析可以数量化,因此根据生物所具有的核酸和蛋白质在结构上的差异程度,比其他方法更精确地的核酸和蛋白质在结构上的差异程度,比其他方法更精确地估测生物种类的进化时期和速度;估测生物种类的进化时期和速度;(2)它是研究微生物进化的有效方法;)它是研究微生物进化的有效方法;(3)它可以比较亲缘关系疏远的类型之间的进化信息,这)它可以比较亲缘关系疏远的类型之间的进化信息,这是其他方法难以做到的。是其他方法难
33、以做到的。 系统发生与系统发生学系统发生与系统发生学 系统发生(phylogeny) 是指生物形成或进化的历史 系统发生学(phylogenetics) 研究物种之间的进化关系 系统发育树是什么? 对一组实际对象的世系关系的描述(如基因,物种等)。末端物种顶端中间节点中间枝条根末端分支叶子节点AB CDEFG树只代表分支的拓扑结构FGCDEAB分子进化研究的基础 核苷酸和氨基酸序列中含有生物进化历史的全部信息。 在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论, 1965 ) 虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规
34、律。 直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的. 旁系同源(paralogs): 同源的基因是由于基因复制产生的. (以上定义源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. Syst. Zool. 19, 99113) 直系同源与旁系同源paralogsorthologsparalogsorthologsErik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog s
35、ubtypes TRENDS in Genetics Vol.18 No.12 December 2002 以上两个概念代表了两个不同的进化事件。 用于分子进化分析中的序列必须是直系同源必须是直系同源的,才能真实反映进化过程。Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and
36、branch lengths进化树,有分支和支长信息2.进化分支图,进化树进化分支图,进化树Cladograms show branching order - branch lengths are meaningless进化分支图,只用分支信息,无支长信息。3.有根树,无根树,外围群有根树,无根树,外围群 (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元; (2)如果找不到可以作为树根的单元,则系统发生树是无根树。所谓无根,是指树系中代表时间上最早的部位(最早的共同祖先)不能确定,只反映分类单元之间的距离而不涉及谁是祖先问题。 (3)从根节点出发
37、到任何一个节点的路径指明进化时间或者进化距离。Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaeaMonophyletic group(单源群单源群)Monophyleticgroup3.有根树,无根树,外围群有根树,无根树,外围群有根树有根树外围群外围群 4.基因树,物种树基因树,物种树We often assume that g
38、ene trees give us species treesabcABCGene treeSpecies treeWe Know the “Species Tree”ratmousehumanFor exampleTherfore We Can Infer Gene Losses, Deletions, (or lack of detection)ratmousehumanratmousehumanratmousehuman基因基因丢失丢失两种老鼠间的亲缘两种老鼠间的亲缘关系相对比较近关系相对比较近系统发育树重建分析步骤多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立进化树进化树
39、评估系统发育树重建的基本方法 最大简约法(maximum parsimony,MP) 距离法(distance) 最大似然法(maximum likelihood,ML)最大简约法(MP)最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作并计算出所需替代数最小的那个拓扑结构,作为最优树。为最优树。 最大简约法(MP)优
40、点:最大简约法不需要在处理核苷酸或者氨基酸替代的时不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。候引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。缺点:在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。然而在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。最大简约法适用于以下条件下的系统树构建: 所要比较的序列的碱基差别小,即同源性高;所要比较的序列的碱基差别小,即同源性高; 对于序列上的每一
41、个碱基有近似相等的变异率;对于序列上的每一个碱基有近似相等的变异率; 没有过多的颠换和转换的倾向;没有过多的颠换和转换的倾向; 所检验的序列的碱基数目较多(大于几千个碱基)。所检验的序列的碱基数目较多(大于几千个碱基)。 总之,最大简约法适合构建比对序列较长,分类群的进总之,最大简约法适合构建比对序列较长,分类群的进化位置靠近的系统树。化位置靠近的系统树。距离法距离法又称距离矩阵法,首先通过各个物种之间的比较,根根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。构建一个进化距离矩阵。进化树的构建则是基于这
42、个矩阵中的进化距离关系 。计算序列的距离,建立距离矩阵通过距离矩阵建进化树通过矩阵建树的方法由进化距离构建进化树的方法有很多,常见有:1.Fitch-Margoliash Method(FM法)2. Neighbor-Joining Method (NJ法/邻接法)3. Neighbors Relaton Method(邻居关系法)4.Unweighted Pair Group Method (UPGMA法)最大似然法(ML)最大似然法(maximum likelihood,ML)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。最大似
43、然法分析中,选取一个特定的替代模型来分析给选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长 。最大似然法(ML)最大似然法的建树过程是个很费时的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。最大似然法是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,在当样本量
44、很大的时候,似然法可以获得参数统计的最小方差。只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。 所以在构建进化树之前,首先要对目标多序列联配进行分析,所以在构建进化树之前,首先要对目标多序列联配进行分析,以选择最佳的建树模型以选择最佳的建树模型最大似然法(ML)由于最大似然法的分析过程需要耗费较多的时间,针对这种情况,发展出了许多优化的可以加快最大似然法寻找最优树的搜索方法,如启发式搜索,分枝交换搜索等。最大似然法具有坚实的统计学理论基础,充分的使用了分析序列中的信息资源,只要采用了合理的替代模型,可以得出很好的进化树分析结果。important构建进化树的一般
45、原则 1. 可靠的待分析数据(核苷酸或蛋白质序列) 2. 准确的多序列比对 3. 选择合适的建树方法: A. 序列相似程度高,MP首先 B. 序列相似程度较低,ML首先 C. 序列相似程度太低,无意义 4. 一般采用两种及以上方法构建进化树,无显著区别可接受构建进化树的一般原则 (2)选择外类群(Outgroup)选择一个或多个已知与分析序列关系较远的序列作为外类群外类群可以辅助定位树根外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序列之间的差异更显著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearch
46、aeaarchaeaarchaea外围群外围群进化树的可靠性分析进化树的可靠性分析(一)自举法(Bootstrap Method)从排列的多序列中随机又放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性 自举检验因其具有较严格的统计学背景,加之计算机自举检验因其具有较严格的统计学背景,加之计算机模拟技术的迅速发展,该方法已经成为系统发生分析中很模拟技术的迅速发展,该方法已经成为系统发生分析中很受欢迎的算法,并在分子进化与系统发育分析研究中发挥受欢迎的算法,并在分子进化与系统发育分析研究中发挥愈
47、来愈重要的作用。但自举检验也有几点不足之处:愈来愈重要的作用。但自举检验也有几点不足之处: 非常耗时;非常耗时; 次数太少时重复产生的结果常常不可靠;次数太少时重复产生的结果常常不可靠;具有低估置信度的倾向。具有低估置信度的倾向。(二)参数检验(二)参数检验(parameter test) 参数检验是简约分析法构建的系统树的常用检验方法。该检参数检验是简约分析法构建的系统树的常用检验方法。该检验方法假设比对中的各个信息位点彼此独立而且等价,并用两验方法假设比对中的各个信息位点彼此独立而且等价,并用两棵系统树的最小替换数之差棵系统树的最小替换数之差D作为检验统计量,分别考虑每个信作为检验统计量,
48、分别考虑每个信息位点,按下式计算反映息位点,按下式计算反映D变化程度的变化程度的V值:值:V=n/(n-1)Di -(1/n)(Dk)2 其中其中n是信息位点的数目。是信息位点的数目。n-1个自由度的个自由度的t检验,可以用来检验空假设,检验,可以用来检验空假设,即两棵系统树的替换数相等的情况:即两棵系统树的替换数相等的情况:t=(D/n)/(v) 1/2n1/2常见的分子进化分析程序1. Phylip 由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包,可以通过以下地址下载。http:/evolution.genetics.washington.edu/phylip.html2. PA
49、UP* 最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。MP法可适用于蛋白序列,其它法需用核苷酸序列。3. MEGA4. Phyml (最大似然法建树最大似然法建树)5. Tree puzzle6. Mrbayes (贝叶斯法建树贝叶斯法建树) 。Phylip软件包介绍软件包介绍 Phylip是一个免费的系统发生(phylogenetics)分析软件包。以下链接可以下载: http:/evolution.genetics,washington.edu/p
50、hylip.html 由华盛顿大学遗传学系开发,1980年首次公布,目前的版本是3.6(2000年6月)。 Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 Phylip是目前最广泛使用的系统发生分析程序,主要包括一下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。Phylip软件包分组介绍分子序列组: 1.蛋白质序列:protpars,proml,promlk, protdist