1、系统发育树的构建系统发育树的构建xflee2019-12-5 进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作 进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作1.达尔文的自然选择学说:强调生物进化 的“渐进性”,完全否认“跳跃性”2.新拉马克主义(neo-Lamarckism)强调用进废退,强调功能决定结构3.新达尔文主义(neo-Darwinism)强调颗粒遗传与基因在遗传变异中的作用4.综合进化论彻底否定了获得性遗传;强调了进化的渐进性,进化是群体现象,进化方向
2、由自然选择来决定。进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作分子进化的中性学说分子进化的中性学说1.分子水平上的突变大多是中性的,不影响蛋白和核酸的功能;2.中性突变不影响其对生活环境的生存适合度;3.分子进化的速率是由中性突变的速率来决定的,即对每个蛋白或基因来说,aa/nt的每个位点每年的替代率对所有生物是恒定的,称为分子钟(molecular evolutionary clock)。分子钟分子钟 进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作DNA序列进
3、化模型AAGATACGAGTGCCTCACGTCTATGGCTK80JC69HKY85 进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作From:Fan,Y.,et al.,Genome of the Chinese tree shrew.Nat Commun,2019.4:p.1426.内群外群顶点、端节、叶内部节点分枝(branch)根通径(path)有根数:OTU=m;内部节点数=m-1;内部分枝数=m-2;总的分枝数=2m-2树的分类1.树状图&网状图2.二歧树&多歧树树的分类1.树状图&网状图2.二歧树&多歧树3.有根树
4、&无根树1.Wang,Z.,et al.,The draft genomes of soft-shell turtle and green sea turtle yield insights into the development and evolution of the turtle-specific body plan.Nat Genet,2019.45(6):p.701-6.2.Trees for bees.树的分类1.树状图&网状图2.二歧树&多歧树3.有根树&无根树4.基因树&物种树基因树:根据DNA或蛋白序列构建的系统树;物种树:表达生物类群进化路径的系统树。树的分类1.树状图&
5、网状图2.二歧树&多歧树3.有根树&无根树4.基因树&物种树1.张亚平,从DNA序列到物种树.进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作构建进化树的方法1.距离法2.最大简约法(Maximum Parsimony Method)3.最大似然法(Maximum Likelyhood Method)4.贝叶斯法(Bayesin)UPGMA法法NJ法法(neighbor joining method)(Unweighted Pair Group Method using Arithmetic average)基于性状距离法UPGM
6、A法法 前提条件:在进化过程中,每一世代发生趋异的次数相同,即碱基或氨基酸的替换速率是均等且恒等的。l根据求得的距离系数,所有比较的分类单元的成对距离构成一个tt方阵,即建立一个距离矩阵M。l对于一个给定的距离矩阵,寻求最小距离值Dpq。l定义类群p和q之间的分支深度Lpq=Dpq/2。lp和q是最后一个类群,则聚类过程完成,否则合并p和q成一个新类群r。l定义并计算新类群r到其他各类群i(ip和q)的距离Dir=(Dpi+Dqi)/2。l回到第一步,在矩阵中消除p和q,加入新类群r,矩阵减少一阶,重复进行直至达到最后归群。NJ邻接法NJ法(neighbor joining method)是一
7、种推论叠加树的方法。在概念上与UPGMA法相同,但是有四点区别:a.NJ法不要求距离符合超度量特性,但要求数据应非常接近或符合叠加性条件,即该方法要求对距离进行校正。b.邻接法在成聚过程中连接的是分类单元之间的节点(node),而不是分类单元本身。c.NJ法中原是距离数据用于估算系统树上所有端结分类单元之间的距离矩阵,校正后的距离用于确定节点之间的连接顺序。d.在重建系统发育树时,NJ法取消了UPGMA法 所做的假定,认为在此进化分支上,发生趋异的次数可以不同。NJ最大简约法(Maximum Parsimony Method)Principle:Ockham解释数据集中性状状态改变需要最小额外
8、进化步骤数目的树为最优树。当给定一组性状后,简约分析首先确定每个性状在任一给定树上优化后的进化步骤数,所有性状在一棵树上的进化改变总数称为树长。可以解释数据集所有性状分布的最小树长的树称为最简约树(MPT)最大简约法(Maximum Parsimony Method)简约法能获得正确树的条件1.每个序列位点没有回复突变或者平行突变;2.取样位点树非常多;简约法很可能出现的问题是:长枝吸引;最大简约法(Maximum Parsimony Method)性状分布模式:筛选简约信号位点。单型位点多型位点1.简约信号位点;2.无信号位点;无信号位点;最大似然法(Maximum Likelyhood M
9、ethod)最大似然法估计的基本思想是:设函数的总体分布已知,但有未知参数,可以有很多值,在的一切可能取值中选一个使样本观察值出现的频率为最大的值作为其估计值,称其为的最大似然估计值。构树原理:将系统的拓扑结构、分枝长度、进化模型参数等的全部或部分作为需要估计的参数,在给定的数据集和进化模型的基础上,用最大似然法的标准似然值最大化来估计这些参数。用最大似然法建树时,先选择一个适合数据集的进化模型,然后对指定拓扑结构的一棵树优化分枝长度使其计算的该拓扑结构的似然值最大化。通过计算不同拓扑结构树的似然值,将具有最大似然值的树看成是指定模型下的能够产生观测数据的最佳估计。最大似然法(Maximum
10、Likelyhood Method)建树过程:1.选择进化模型;2.以MPT或NJ树为基础采用ML法估计模型中的各个参数;3.根据确定好的参数、模型,从MP树、NJ树或其他类型的起始树开始进行ML分析,以发现似然值最大的树;4.用统计学方法从多个ML树中选择最优ML树,并进行ML树的可靠性检验。贝叶斯法(Bayesin)基本思想:1.先验概率;2.后验概率;贝叶斯法(Bayesin)每棵树的后验概率是无法直接计算的,通常采用MCMC法近似估计后验概率的密度分布和相对比例。比较项目比较项目简约法简约法最大似然法最大似然法贝叶斯法贝叶斯法原理原理奥卡姆剃刀似然统计法贝叶斯统计序列信息利用序列信息利
11、用简约信号位点全部位点全部位点进化模型进化模型无有有模型参数模型参数优化概率目标函数目标函数树长似然值后验概率函数计算函数计算性状优化似然函数似然函数树搜索树搜索有有无(模拟)结果结果MPTMLT树和参数的后验概率可靠性评估可靠性评估自举法自举法后验概率系统误差系统误差较严重一般一般运算速度运算速度快慢慢混合性状分析混合性状分析可以不能可以适用范围适用范围相近序列所有序列所有序列基于性状数据的系统发生分析方法的比较 进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作所有的系统发生树所有的系统发生树都是关于组成数据集的序列的进化历史的
12、假设。系统发生树的可靠性?自举检验解决问题参数检验解决问题自举检验自举检验(bootstrap test)自举检验自举检验是一种重采样技术,能粗略地量化这些置信度水平。自举检验的基本方法基本方法是:(1)从原数据集中抽取(同时替换)部分数据组成新的数据集。(2)用这个新的数据集 推断 系统发生树。重复上述过程,产生成百上千的重采样数据集,并同时生成对应的自举树,进而检验自举树对最终系统发生树各个分支的支持率。在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。在各个自举树中都有出现或大量出现的那些部分将具有较高的置信度。产生相同分组的自举树的数目数目常常标注在系统发生树相应节点的旁边
13、,表示树中每个部分的相对置信度相对置信度。系统发生树的自举检验系统发生树的自举检验序列位置推断树自举树1自举树2自举树3(a)(b)自举树(c)为为3个重采样数据集的一致树个重采样数据集的一致树7567G G G G G G G A A AG G G A G G G A A AG G G T A A A A A TG A A C A A A G G TG T T C A A A A A T12245557710G G G G G G A T T TG G G A T T A T T TA A A T G G A C C CT T T C T T G T T TT T T C T T A T T
14、 T3334667888G G G G G G G C C CG G G G G G T C C CG G A A A A G A A AG G T A A A T A A AG G T A A A T C C C1135556999GG G G G G A T C AGG G A G T A T C AGG A T A G A C A TGA T C A T G T A TGT T C A T A T C T12345678910 进化论的发展 分子进化学说 进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作1.系统树赋根u外群赋根法:1.系统树赋根u分子钟
15、赋根法:2.长枝吸引(Long-branch Attraction,LBA)在用系统发生方法分析一个有限的数据集的时候,由于高频率的相似变化(趋同、平行进化)和加速的进化速率等因素的存在使序列达到相同状态而人为地将这些不是来自于共同祖先的序列的代表分类元聚在一起,使这些分类单元之间相互吸引。1.Sequence analysis of the complete mitochondrial DNA molecule of the hedgehog,Erinaceus europaeus,and the phylogenetic position of the Lipotyphla,2019.2.
16、Murphy,W.J.,et al.,Resolution of the early placental mammal radiation using Bayesian phylogenetics.Science,2019.294(5550):p.2348-51.1.Hedgehog进化速率较快;2.显著不同的核苷酸组成;2.长枝吸引(Long-branch Attraction,LBA)克服长枝吸引的方法:1.排除法去除序列中受选择压力较少的位点去除分类群中进化速率较快的长枝分类元2.打断长枝法增加与长枝分类元关系较近的分类元进行系统发育分析,以打断长枝。多数情况下,这种方法能够避免形成长枝
17、吸引。3.使用多种建树方法NJ 和MP容易造成长枝吸引,改ML或bayesin 可改善。3.不同类型数据的分析策略:用DNA序列还是蛋白质序列?1.研究分歧较远的类群时,蛋白数据更可靠,因为其有较低的替换饱和性。2.研究低级分类阶元时,DNA数据比较合适,含有更为丰富的信息量。3.不同类型数据的分析策略:DNA水平上的分析1.对于差异较小的近缘物种的序列,简约法和距离法可以作为优选,不用位点加权或距离校正;2.对于差异很大的远缘物种的序列,可以舍弃codon3的信息,因为趋异时间较长,随机化比较严重;3.对密码子位点可以按简并程度处理,或者同义替换/非同义替换处理。进化论的发展 分子进化学说
18、进化模型 生命树概述 进化树构建常用方法 进化树检验 进化树构建中的问题 最近的工作Build 16 mammal phylogeny tree策略一:1.Software:single-copy.cds.phy;(1327-otholog)single-copy.cds.phy.4d;single-copy.cds.phy.phase1;single-copy.pep.phy;2.DATA:TreeBeST NJ(-nt:dn,-aa:JTT)PhyML -ML(-nt:HKY85,GTR,-aa:JTT)Build 16 mammal phylogeny tree策略二:1.Softwar
19、e:single-copy.cds.physingle-copy.cds.phy.4dsingle-copy.cds.phy.phase1single-copy.cds.phy.phase2single-copy.cds.phy.phase3single-copy.cds.phy.phase1+2single-copy.pep.phy2.DATA:RAxML ML(-nt:GTR+gamma,-aa:JTT)RAxML_bestTree.coden1(6)RAxML_bestTree.4d(1)RuminantiaBovidaeGiraffidaeRAxML ResultsTree_ml_nt
20、_(-m GTR-b-4-rates gamma)Tree_4d_ml_nt_(-m HKY85)MLT ResultsNJT Resultstree_4d_nj_nt_(-t dn)tree_nj_aa_(-t jtt)tree_nj_nt_(-t dn)PAML mcmctree1.2.3.4.5.6.Li,Y.-W.,“Long-branch Attraction”artifact in phylogenetic recon-struction.Hereditas,2019.29(06):p.659.7.MacEachern,S.,et al.,Testing the neutral t
21、heory of molecular evolution using genomic data:a comparison of the human and bovine transcriptome.Genet Sel Evol,2019.38(3):p.321-41.8.9.10.Parker,J.,et al.,Genome-wide signatures of convergent evolution in echolocating mammals.Nature,2019.502(7470):p.228-31.11.Murphy,W.J.,et al.,Resolution of the
22、early placental mammal radiation using Bayesian phylogenetics.Science,2019.294(5550):p.2348-51.12.Wang,Z.,et al.,The draft genomes of soft-shell turtle and green sea turtle yield insights into the development and evolution of the turtle-specific body plan.Nat Genet,2019.45(6):p.701-6.13.Fan,Y.,et al.,Genome of the Chinese tree shrew.Nat Commun,2019.4:p.1426.14.15.Reference