1、分子进化与系统发育分析分子进化与系统发育分析生物信息学生物信息学1内容提要内容提要v分子进化分析介绍分子进化分析介绍v系统发育树重建方法系统发育树重建方法vPhylip软件包在分子进化分析中的应用软件包在分子进化分析中的应用vPAUP*在分子进化分析中的应用在分子进化分析中的应用vMEGA分子进化树分析软件分子进化树分析软件2从物种的一些分子特性出发,从而了从物种的一些分子特性出发,从而了解物种之间的解物种之间的生物系统发生生物系统发生的关系。的关系。蛋白和核酸序列蛋白和核酸序列通过序列通过序列同源性的比较同源性的比较进而了解进而了解基因的进基因的进化化以及以及生物系统发生生物系统发生的内在规
2、律。的内在规律。分子进化研究的目的3系统发育树是什么?系统发育树是什么?对一组实际对象的对一组实际对象的世系关系世系关系的描述(如基的描述(如基因,物种等)。因,物种等)。4祖先节点祖先节点/树根树根内部节点内部节点/分歧点,该分歧点,该分支可能的祖先结点分支可能的祖先结点分支分支/世系世系末端节点末端节点 ABCDE代表最终分代表最终分类,可以是类,可以是物种,群体物种,群体,或者蛋白,或者蛋白质、质、DNADNA、RNARNA分子等分子等系统发育树系统发育树:术语术语5AB CDEFG树只代表分支的拓扑结构树只代表分支的拓扑结构FGCDEAB6分子进化研究的基础(假设)分子进化研究的基础(
3、假设)v核苷酸和氨基酸序列中含有生物进化历史的核苷酸和氨基酸序列中含有生物进化历史的全部信息。全部信息。7v在各种不同的发育谱系及足够大的进化时间在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不尺度中,许多序列的进化速率几乎是恒定不变的。(分子钟理论,变的。(分子钟理论,1965)分子进化研究的基础(理论)分子进化研究的基础(理论)8v虽然很多时候仍然存在争议,但是分子进化虽然很多时候仍然存在争议,但是分子进化确实能阐述一些生物系统发生的内在规律。确实能阐述一些生物系统发生的内在规律。分子进化研究的基础(实际)分子进化研究的基础(实际)9从一个分歧数据可以推测其他从
4、一个分歧数据可以推测其他序序 列列 分分 歧歧 度度分歧时间分歧时间xy分子钟理论分子钟理论10速率恒定的证据:血色素速率恒定的证据:血色素11中性理论中性理论v“在生物分子层次上的进化改变不是由自然选择作在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的,而是在连续的突变压之下由用于有利突变引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的,选择中性或非常接近中性的突变的随机固定造成的,中性突变是指对当前适应度无影响的突变。中性突变是指对当前适应度无影响的突变。”v否认自然选择在生物进化中的作用,认为生物大分否认自然选择在生物进化中的作用,认为生物大分子的
5、进化的主要因素是机会和突变压力子的进化的主要因素是机会和突变压力12进化及遗传模型进化及遗传模型v1、序列有指定的来源并且正确无误。、序列有指定的来源并且正确无误。v2、序列是同源的,而序列不是、序列是同源的,而序列不是“paralog“的混合物。的混合物。v3、序列比对中,不同序列的同一个位点都是同源的、序列比对中,不同序列的同一个位点都是同源的v4、在接受分析的一个序列组中,序列之间的系统发、在接受分析的一个序列组中,序列之间的系统发育史是相同的。育史是相同的。v5、样本足以解决感兴趣的问题。、样本足以解决感兴趣的问题。13进化及遗传模型进化及遗传模型v6、样本序列之间的差异代表了感兴趣的
6、宽组。、样本序列之间的差异代表了感兴趣的宽组。v7、样本序列之间的差异包含了足以解决感兴、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。趣的问题的系统发育信号。v8、样本序列是随机进化的。、样本序列是随机进化的。v9、序列中的所有位点的进化都是随机的。、序列中的所有位点的进化都是随机的。v10、序列中的每一个位点的进化都是独立的。、序列中的每一个位点的进化都是独立的。14v直系同源直系同源(orthologs):同源的基因通过同源的基因通过物种物种形成形成的事件而产生,或源于不同物种的最近的事件而产生,或源于不同物种的最近的共同祖先的两个基因,或者两个物种中的的共同祖先的两个基因
7、,或者两个物种中的同一基因,一般具有相同的功能同一基因,一般具有相同的功能。v并系同源并系同源(paralogs):同源基因在同一物种中,同源基因在同一物种中,通过至少一次通过至少一次基因复制基因复制的事件而产生。的事件而产生。直系同源与旁系同源直系同源与旁系同源15paralogsorthologs16paralogsorthologsErik L.L.Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2
8、002http:/ 0168-9525/02/$see front matter 2002 Elsevier Science Ltd.All rights reserved.17 以上两个概念代表了两个不同的进化事件以上两个概念代表了两个不同的进化事件 用于分子进化分析中的序列用于分子进化分析中的序列必须是直系同源必须是直系同源的,才能真实反映进化过程。的,才能真实反映进化过程。18趋同进化的基因趋同进化的基因(Convergent evolution)通过不同的进化途径获得相似的功能,或者功能替代物通过不同的进化途径获得相似的功能,或者功能替代物(genes have converged f
9、unction by separate evolutionary paths)19异源基因或水平转移基因异源基因或水平转移基因(xenologous or horizontally transferred genes)由某一个由某一个水平基因转移水平基因转移事件而得到的同源序列事件而得到的同源序列20Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukary
10、ote 2Phylograms show branch order and branch lengths进化树,有分支和支长进化树,有分支和支长信息信息2.进化分支图,进化树进化分支图,进化树Cladograms show branching order-branch lengths are meaningless进化分支图,只用分支进化分支图,只用分支信息,无支长信息。信息,无支长信息。21archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通通过外围支过外围支来确定树根来确定树根archaeabacteria outgroup根根eukary
11、oteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaea有根树有根树外围支外围支无根树,有根树,外围支无根树,有根树,外围支22无根树和有根树:潜在的数目无根树和有根树:潜在的数目#Taxa 无根树 有根树3 1 34 3 155 15 1056 105 9457 945 10,39530 3.58X1036 2.04X1038Taxa增多,计算量急剧增加,因此,目前算法都为增多,计算量急剧增加,因此,目前算法都为优化算法,不能保证最优解优化算法,不能保证最优解23 4.基因树,物种树基因树,物种树We often assume tha
12、t gene trees give us species treesabcABDGene treeSpecies tree24系统发育树重建分析步骤系统发育树重建分析步骤多序列比对(自动比对,手工比对)多序列比对(自动比对,手工比对)建立取代模型(建树方法)建立取代模型(建树方法)建立进化树建立进化树进化树评估进化树评估25v1.最大简约法最大简约法(maximum parsimony,MP)v2.距离法距离法(distance)v3.最大似然法最大似然法(maximum likelihood,ML)系统发育树重建的基本方法系统发育树重建的基本方法26最大简约法最大简约法(MP)v1.理论基础
13、为奥卡姆剃刀理论基础为奥卡姆剃刀(Ockham)原则:计算所需原则:计算所需替代数最小的那个拓扑结构,作为最优树替代数最小的那个拓扑结构,作为最优树v2.在分析的序列位点上没有回复突变或平行突变,且在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树导获得一个很好的进化树v3.优点:不需要在处理核苷酸或者氨基酸替代的时候优点:不需要在处理核苷酸或者氨基酸替代的时候引入假设引入假设(替代模型替代模型)v4.缺点:分析序列上存在较多的回复突变或平行突变,缺点:分析序列上存在较多的回复突变或平行
14、突变,而被检验的序列位点数又比较少的时候,可能会给出而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果一个不合理的或者错误的进化树推导结果27v1.信息位点,必须在至少信息位点,必须在至少2个个taxa中具有相中具有相同的序列性状同的序列性状v2.信息位点是指那些至少存在信息位点是指那些至少存在2个不同碱基个不同碱基/氨基酸且每个不同碱基氨基酸且每个不同碱基/氨基酸至少出现两氨基酸至少出现两次的位点次的位点信息位点信息位点(Sites are informative)2829上上 例例v1.Position 5,7,9为信息位点为信息位点v2.基于基于posit
15、ion 5的三个的三个MP树树:Tree 1长度长度1,Tree 2&3长度长度2v3.Tree 1更为简约更为简约302.距离法距离法v又称距离矩阵法,首先通过各个物种之间的又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系阵中的进化距离关系 31计算序列的距离,建立距离矩计算序列的距离,建立距离矩阵阵通过距离矩阵建进化树通过距离矩阵建进化树32简单的距离矩阵简
16、单的距离矩阵33v由进化距离构建进化树的方法有很多,常见有:由进化距离构建进化树的方法有很多,常见有:(1)Fitch-Margoliash Method(FM法法):对短支长非对短支长非常有效常有效(2)Neighbor-Joining Method(NJ法法/邻接法邻接法):求最短求最短支长,最通用的距离方法支长,最通用的距离方法(3)Neighbors Relaton Method(邻居关系法邻居关系法)(4)Unweighted Pair Group Method(UPGMA法法)通过距离矩阵建树的方法通过距离矩阵建树的方法341.找出关系最近的序列对,如找出关系最近的序列对,如A和和
17、B2.将剩余的序列作为一个简单复合序列,分别计将剩余的序列作为一个简单复合序列,分别计算算A、B到所有其他序列的距离的平均值到所有其他序列的距离的平均值3.用这些值来计算用这些值来计算A和和B间的距离间的距离4.将将A、B作为一个单一的复合序列作为一个单一的复合序列AB,计算与,计算与每一个其他序列的距离,生成新的距离矩阵每一个其他序列的距离,生成新的距离矩阵5.确定下一对关系最近的序列,重复前面的步聚确定下一对关系最近的序列,重复前面的步聚计算枝长计算枝长7.从每个序列对开始,重复整个过程从每个序列对开始,重复整个过程8.对每个树计算每对序列间的预测距离,发现与对每个树计算每对序列间的预测距
18、离,发现与原始数据最符合的树原始数据最符合的树Fitch-Margoliash方法(方法(FM法)法)35Fitch-Margoliash方法方法(FM法法)36D和和E最接近!最接近!分成三组:分成三组:D,E,以及以及ABC37DE距离距离=d+e (1)D到到ABC间的平均距离间的平均距离=d+m (2)E到到ABC间的平均距离间的平均距离=e+m (3)(2)-(3)+(1)d=4,e=638C最接近最接近DE!分成三组:分成三组:C,DE,以及以及AB39c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)
19、+(2)-(3)得:得:c=940c+g+(e+d)/2=19(e+d)/2=5,c=9,则则g=541由:由:(a+b)/2+f+g+(d+e)/2=41 得:得:f=20由:由:a+f+c=39 得:得:a=10,则,则b=1242NJ法法/邻接法邻接法vNeighbor-JoiningMethod(NJ法法/邻接法邻接法):邻接法:邻接法(Neighbor-joiningMethod)由由Saitou和和Nei(1987)提出。提出。该方法通过确定距离最近该方法通过确定距离最近(或相邻或相邻)的成对分类单位的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类来使系统树的总距离达到最
20、小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点单位在某一无根分叉树中仅通过一个节点(node)相相连。通过循序地将相邻点合并成新的点,就可以建连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。立一个相应的拓扑树。43NJ/邻接法邻接法v1.与与FM方法非常类似方法非常类似v2.保证总的支长最短保证总的支长最短v总支长:总支长:a+b+c+d+e=314/4=78.544找到距离最近的两个点找到距离最近的两个点v1.任意两个节点选为相邻序列的总支长计算公式任意两个节点选为相邻序列的总支长计算公式:v2.计算计算SAB,SBC,SCD,SDE等数值等数值v3.该例中,该例中
21、,SAB最小最小45 把把A、B看成一个新的复合序看成一个新的复合序列,构建一个新的距离表,重复列,构建一个新的距离表,重复以上过程以上过程计算计算A,B的分支长度的分支长度46AB组合出现组合出现3次,次,DE组合出现组合出现3次,次,CD、AC、BC组合各一组合各一次,则次,则AB和和DE各为两对关系最近的邻居。各为两对关系最近的邻居。(关系最近的邻居关系最近的邻居作为邻居的次数最多作为邻居的次数最多),将邻居看成一个新的复合序列,重复,将邻居看成一个新的复合序列,重复这个过程这个过程邻居关系法邻居关系法47UPGMA法法v称为称为(应用算术平均数的非加权成组配对法,应用算术平均数的非加权
22、成组配对法,unweighted pair-group method using anarithmetic average)。v该法将类间距离定义为两个类的成员所有成对距离的平均值,该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。广泛用于距离矩阵。Nei等模拟了构建树的不同方法,发现等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时,当沿树上所有分枝的突变率相同时,UPGMA法一般能够得法一般能够得到较好的结果。但必须强调有关突变率相等到较好的结果。但必须强调有关突变率相等(或几乎相等或几乎相等)的的假设对于假设对于UPGMA的应用是重要的。另一些模型研究的应
23、用是重要的。另一些模型研究(如如Kim和和Burgman)已证实当各分枝的突变率不相等时,这一方法已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟的结果不尽人意。当各分枝突变率相等时,认为分子钟(molecularclock)在起作用。在起作用。48d=e=10/2=5UPGMA法49c=19/2=9.5g=c-d=9.5-5=4.550a=b=22/2=11AB(CDE)A-2239.5B-41.5(CDE)-51(AB)(CDE)(AB)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.7552最大似然法最
24、大似然法(ML)v1.最大似然法最大似然法(maximum likelihood,ML):最早应用于对基因最早应用于对基因频率数据的分析上频率数据的分析上v2.选取一个特定的替代模型来分析给定的一组序列数据,使选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树其中似然率最大的拓扑结构作为最优树v3.在最大似然法的分析中,所考虑的参数并不是拓扑结构而在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长是每个拓扑结
25、构的枝长,并对似然率求最大值来估计枝长v4.缺点:费时,每个步骤都要考虑内部节点的所有可能性缺点:费时,每个步骤都要考虑内部节点的所有可能性v5.改进:启发式算法改进:启发式算法53构建进化树的一般原则构建进化树的一般原则54v1.选择一个或多个已知与分析序列关系较远选择一个或多个已知与分析序列关系较远的序列作为外围支的序列作为外围支v2.外围支可以辅助定位树根外围支可以辅助定位树根v3.外围支序列必须与剩余序列关系较近,但外围支序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他外围支序列与其他序列间的差异必须比其他序列之间的差异更显著序列之间的差异更显著选择外围支选择外围支
26、(Outgroup)55v1.进化树的可靠性分析进化树的可靠性分析:自展法自展法(Bootstrap Method)v从排列的多序列中随机有放回的抽取某一列,构从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列成相同长度的新的排列序列v2.重复上面的过程,得到多组新的序列重复上面的过程,得到多组新的序列v3.对这些新的序列进行建树,再观察这些树与原对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性始树是否有差异,以此评价建树的可靠性自展法自展法56原始排列原始排列Alpha AACAACBeta AACCCCGamma ACCAACDelta CCAC
27、CAEpsilon CCAAAC Bootstrap1Alpha ACAAACBeta ACCCCCGamma ACAAACDelta CACCCAEpsilon CAAAAC Bootstrap2Alpha AAAACCBeta AACCCCGamma CCAACCDelta CCCCAAEpsilon CCAACC Bootstrap3Alpha ACAAACBeta ACCCCCGamma CCAAACDelta CACCCAEpsilon CAAAAC57PHYLIP、PUZZLE、MEGA、PAUP、TREEVIEW、CLUSTALX和和PHYLO-WIN(LINUX)常用的进化树软
28、件常用的进化树软件phylip 3.6a3 进化树分析软件,并可绘制进化树。进化树分析软件,并可绘制进化树。TreeView 1.6.6 进化树处理软件。进化树处理软件。GeneTree 1.3 比较基因与种系进化树的程序。比较基因与种系进化树的程序。NDE 0.5.0 用来编辑用来编辑NEXUS格式文件的程序。格式文件的程序。TreeMap 1.0 用来可视地比较主、从进化树的程序。用来可视地比较主、从进化树的程序。Spectrum 分析进化信息而不用将之转化为进化树的软件。分析进化信息而不用将之转化为进化树的软件。Phyltools 1.32 计算与处理进化树数据的软件。计算与处理进化树数
29、据的软件。tree-puzzle 5.0 核酸序列、蛋白序列相似性分析及进化树构建工具。核酸序列、蛋白序列相似性分析及进化树构建工具。ATV 1.92 JAVA语言编写的显示语言编写的显示“New Hampshire”与与NHX格式的进化树文格式的进化树文件件 软件。软件。TREECON 1.3b Demo 构建和绘制进化树的软件包。构建和绘制进化树的软件包。ProBiosys 1.0 比较表现型分类法数据和分析计算核酸序列数据距离值的软件。比较表现型分类法数据和分析计算核酸序列数据距离值的软件。COMPONENT 2.0 分析进化树免费软件。分析进化树免费软件。NJplot 小巧的显示进化树
30、的免费软件小巧的显示进化树的免费软件NJplot。MEGA 2.1 免费分子进化遗传分析软件免费分子进化遗传分析软件 PAUP 4 PAUP的快速使用手册的快速使用手册 5859606162Phylip软件包介绍Phylip是一个免费的系统发生(phylogenetics)分析软件包。以下链接可以下载:http:/evolution.genetics,washington.edu/phylip.html 由华盛顿大学遗传学系开发,1980年首次公布。63Phylip软件包介绍 Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。Phy
31、lip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。64 Phylip是目前最广泛使用的系统发生分析程序,主要包括一下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。Phylip软件包介绍65分子序列组:1.蛋白质序列:protpars,proml,promlk,protdist 2.核酸序列:dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacompPhylip软件包分组介绍66距离矩阵组:Fitch,kitsch,neighbor基因频
32、率组:Gendist,contml离散字符组Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip软件包分组介绍67进化树绘制组:drawtree,drawgram其他:restdist,restml,seqboot,contrast treedist,consense,retreePhylip软件包分组介绍68 Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。此外,Phylip软件包还包括程序的源代码(c语言)。Phylip软件包的文档69Phylip软件包
33、的应用1,根据你的分析数据,选择适当的程序 如,你分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp)如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。702.选择适当的分析方法如你分析的是DNA数据,可以选择简约法(DNAPARS),似然法(DNAML,DNAMLK),距离法等(DNADIST)。Phylip软件包的应用713.进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。Phylip
34、软件包的应用72Outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeviewPhylip软件包的应用7374v出发数据已经排列好的蛋白序列。v重构算法距离法(protdist.exe)v 最大简约法(protpars.exe)v 最大似然法(proml.exe)v统计分析拨靴法(bootstrap)实际应用(从蛋白序列推导进化树)75实际操作v Phylip软件包中的每个分析程序都是一个独立的应用程序。我们选择好了分析算法后,按一定的顺序组合使
35、用选择的程序,就可以获得按选择的算法分析的结果(进化树)。v例子:从我们刚刚通过clustal比对获得的蛋白序 列推测进化树。v选择方法:距离法(protdist.exe)76v第一步:双击执行第一步:双击执行protdist.exe,根据提示输入分根据提示输入分析的文件名析的文件名(程序默认是程序默认是infile)。77v第二步:设定各个参数,执行程序,获得距 离矩阵数据输出文件outfile。v第三步:选择通过距离矩阵推测进化树的算法(fitch.exe,kotsch.exe,neighbor.exe)。v第四步:将刚获得的输出文件改名为infile,执行选择的推测算法(neighbor
36、.exe)。设置好参数后执行程序,获得outfile和outtree两个结果输出。7879 获得的结果文件中,outtree文件是一个树文件,可以用treeview等软件打开。outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。outfileouttree80加入统计分析(bootstrap)v我们刚刚获得的进化树是纯粹的根据先前获得的排列数据所推导出来的。有很多可能使得这个树并不一定可靠。v1.测序的出错。v2.多序列比对算法本身的问题。v3.其他的问题。v我们可以引进一些统计分析来寻找更优的进化树v最常见的就是bootstrap分析。81Bootstr
37、ap分析vPhylip软件包中有两个用于执行bootstrap分析的程序。(seqboot.exe,consence.exe)。v分析过程:v1.Seqboot产生大量的数据组v2.应用选择的算法对产生的数据组进行分析。v3.由consence获得最优树。82PAUP*的使用vPAUP*的数据格式(Nexus)#NEXUSbegin taxa;dimensions ntax=12;taxlabelsLemur_cattaTarsius_syrichta;end;begin characters;dimensions nchar=898;format missing=?gap=-matchcha
38、r=.interleave datatype=dna;options gapmode=missing;matrixLemur_catta AAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiens AAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPan AAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorilla AAGCTTCACCGGCGCAGTTGTTCTTA
39、TAATTGCCCACGGACTTACATCATCATTATTATTPongo AAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobates AAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATT83vbegin assumptions;vcharset coding=2-457 660-896;vcharset noncoding=1 458-659 897-898;vcharset 1stpos=2-4573 660-8963;vcharset 2
40、ndpos=3-4573 661-8963;vcharset 3rdpos=4-4573 662-.3;vvexset coding=noncoding;vexset noncoding=coding;vvusertype 2_1=4weights transversions 2 times transitionsva c g tva.2 1 2vc 2 .2 1vg1 2 .2vt2 1 2 .v;vusertype 3_1=4weights transversions 3 times transitionsva c g tva.3 1 3vc 3 .3 1vg1 3 .3vt3 1 3 .
41、v;vvtaxset hominoids=Homo_sapiens Pan Gorilla Pongo Hylobates;vend;vbegin paup;vconstraints ch=(Homo_sapiens,Pan);vconstraints chg=(Homo_sapiens,Pan,Gorilla);vend;84vPAUP*的数据格式(Nexus)主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八个八个数据块。对于一个常规的分析,taxa,characters块是必须的。而分析的命令可以通过菜单操作
42、(mac),或者键盘命令(win,linux),也可以在nexus文件中加入paup命令块851.TAXA块 主要是定义所分析的数据(如分子序列)个数,以及这些数据的名称(如物种名称)。2.CHARACTERS 块 主要是定义数据矩阵(如多序列比对结果)和其他一些相关的信息(如序列特征值,序列有效区域等)PAUP*的Nexus的文件块863.ASSUMPTIONS块 定义了对数据的一些设定,如那些特征值是不需考虑的,怎么处理gap这个特征值等,用户自定义的一些数据也放在这块,如自定义的打分矩阵。4.SETS块 定义了一系列的数据组,如特征值组,物种组等,这些设置都是为了方便后续的分析。875.
43、TREES 块 定义了用户自己设定的树。用于后续的分析,如作为限制树等。6.CODONS 块 定义了遗传密码子的一些信息。如编码的位置(哪些是编码的,密码子的位点等)。7.DISTANCES 块 定义了一些距离矩阵。888.PAUP 块 是软件的核心块,所有的分析命令和一些参数设置(90多个命令)都放在这一块。这一块并不是分析输入数据所必须的,这些命令可以写在这一块(文件中),这时载入文件时就开始根据该块的命令进行分析(有点类似dos的批处理过程)。当然也可以通过键盘命令逐一敲入,交互进行分析。批处理的方式在分析过程比较长,耗时比较久的时候是比较有用的。当然在进行处理之前一定要先保证该批处理过
44、程没有问题。89一个PAUP*的基本分析实例1.通过clustalw/clustalx获取一个多序列比对结果(可能要经过人工调整,推荐用bioedit做辅助编辑器)。保存成nexus格式的文件,或者用其他格式转换软件转换成nexus格式。paup*中也有一个tonexus命令可以将其他格式(包括phylip,GCG等格式)的文件转换为nexus格式的文件。902.在PAUP*程序中读入数据(Nexus格式)输入命令的地方打开文件的窗口程序自带的测试数据执行该文件还是编辑该文件?执行文件时将文件数据读入程序,编辑文件则调用一个文本编辑器。如果不是nexus格式,执行时候会出错,然后调用文本编辑器
45、打开。913.数据输入完成,开始分析 两个很有用的命令?:显示所有的命令 命令?:显示命令的所有参数92分析(开始一)1.开始之前 打开记录文件?(跟踪整个分析过程)命令:log start file=your_log_file_name;停止:log stop;932.设置数据 哪些用于分析?如:include coding/only;exclude coding/only;哪些物种要分析(删除不要的)?如:delete 1;或者 delete taxa_name undelete 1;分析(开始二)943.确定建树方法最大简约法?最大似然法?距离法?命令:Set criterion=par
46、simony|likelihood|distance;分析(建树一)954.确定其他参数Set?查看其他参数的设置,改为自己所需要的设置。如:set maxtree=10000 increase=no autoclose=yes;分析(建树二)965.确定搜索方法(对于距离法不适用)穷尽法:alltrees 分支跳跃查找:bandb 启发式搜索:hsearch 其他:puzzle(只在likelihood时有效)分析(建树三)976.开始搜索树之前(设置各个建树方法的参数)距离法:dset如:dset distance=tamnei negbrlen=allow最大简约法:pset如 pset
47、 collapse=no gapmode=newstate最大似然法:lset如:lset nst=6 clock=yes分析(建树四)987.再次确认参数 是否要设置外围群(outgroup)?如 outgroup 1,2;或者 outgroup taxa_set;其他参数?分析(建树五)997.开始搜索树距离法:NJ,UPGMA最大简约法,最大似然法Hsearch?参数是否要更改?如:hsearch andseq=random swap=spr分析(建树六)1008.进化树的评估 选择评估方法?Bootstrap(自展法)用的最多,是对进化树重新取样的评估方法,可以对距离法,简约法,似然法
48、以及衍生出的任何其他方法构建的进化树进行评估。其分析结果是一组数字,这个数字描述了进化树进化分支的支持比例,也就是进化树分支的稳健性。分析(树评估一)101分析(树评估二)未经过未经过bootstrap的树的树Bootstrap后的树后的树102vBOOTSTRAP options/heuristic-search-options|branch-and-bound-search-options;v 使用分支限制或者是启发式搜索的方法进行bootstrap分析。v参数:v BSEED=integer-value 随机数种子。v NREPS=integer-value bootstrap重复的次数
49、,默认值为100。v SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 搜索方式v CONLEVEL=integer-value bootstrap重复次数的最低比率,默认为50。v KEEPALL=YES|NOv WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONALv NCHAR=CURRENT|number-of-characters 每次重复采样的数目。v GRPFREQ=YES|NO 显示bootstrap分割频率v TREEFILE=bootstrap-tree-file-name 树的文件v FORMAT=NEXUS|AL
50、TNEXUS|FREQPARS|PHYLIP|HENNIG v BRLENS=YES|NO 分支的长度v*REPLACE=YES|NOv CUTOFFPCT=integer-value 定义显示的最低bootstrap分割频率。vExamplevbootstrap nreps=200 treefile=boot.tre search=heuristic/addseq=random;分析(树评估三)PAUP*中的中的bootstrap命令命令103对折分析(jackknife)跟bootstrap类似,只是在对原始数据取样的时候不会取重复的数据位点。因为它重复取样的时候是在原始数据中除去一个或者