1、第五讲第五讲 分子进化与系统发育分析分子进化与系统发育分析分子系统发生学的历史分子系统发生学的历史5.1分子系统发生分析的优点分子系统发生分析的优点5.2系统发生树系统发生树5.3距离矩阵法距离矩阵法5.4最大似然法最大似然法5.5相关软件相关软件5.65.1 5.1 分子系统发生学的历史分子系统发生学的历史 系统发生学是研究物种之间的进化关系的,是进化生物系统发生学是研究物种之间的进化关系的,是进化生物学的一个重要研究领域,系统发生分析在达尔文时代就已经学的一个重要研究领域,系统发生分析在达尔文时代就已经开始。从那时起,科学家们就开始寻找物种的源头,分析物开始。从那时起,科学家们就开始寻找物
2、种的源头,分析物种之间的进化关系,给各个物种分门别类。种之间的进化关系,给各个物种分门别类。Charles Darwin(1809-1882)2020世纪世纪7070年代年代2020世纪世纪6060年代年代2020世纪世纪5050年代年代19021902和和19041904研究者开始能够获得基因组信息,研究者开始能够获得基因组信息,特别是特别是DNADNA序列序列 蛋白质测序成为可能蛋白质测序成为可能 分子数据开始被广泛应用于分子数据开始被广泛应用于系统发生研究系统发生研究 正确地推断出人和猿比它们和其正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先它灵长类动物有更近的共同祖先 202
3、0世纪世纪7070年代后至今年代后至今研究者一直致力于研究研究者一直致力于研究DNADNA序列以及序列以及基因组信息,目前基因组信息,目前DNADNA数据比任何分数据比任何分子信息都要丰富子信息都要丰富 生物进化理论生物进化理论 达尔文进化论达尔文进化论:进化:变异的遗传进化:变异的遗传自然选择:解释为何演变发生的机制自然选择:解释为何演变发生的机制种群中个体变异的遗传学基础种群中个体变异的遗传学基础:孟德尔遗传:孟德尔遗传 孟德尔豌豆实验:杂交的表现特征是基因表达孟德尔豌豆实验:杂交的表现特征是基因表达的结果,而不是基因杂交遗传的结果,而不是基因杂交遗传 中性进化论中性进化论:并非所有种群中
4、保留下来的突:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中性变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。或接近中性,不妨碍种群的生存与繁衍。研究生物进化历史的途径研究生物进化历史的途径 1.1.最确凿证据是:生物化石!最确凿证据是:生物化石!零散、零散、不完整不完整 2.2.比较形态学、比较解剖学和生理学等:确比较形态学、比较解剖学和生理学等:确定大致的进化框架定大致的进化框架 细节存很多的争议细节存很多的争议分子进化分子进化 1964 1964年,年,Linus PaulingLinus Pauling提出分子进化理论;提出分子进化理论;从物种
5、的一些分子特性出发,从而了解物种从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。之间的生物系统发生的关系。发生在分子层面的进化过程:发生在分子层面的进化过程:DNA,RNADNA,RNA和和蛋白质分子蛋白质分子 基本假设:核苷酸和氨基酸序列中含有生物基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。进化历史的全部信息。分子进化的模式分子进化的模式 DNA DNA突变的模式:替代,插入,缺失,倒位;突变的模式:替代,插入,缺失,倒位;核苷酸替代:转换核苷酸替代:转换 (Transition)&(Transition)&颠换颠换 (Transversion)(Transve
6、rsion)基因复制:多基因家族的产生以及伪基因的产基因复制:多基因家族的产生以及伪基因的产生生A.A.单个基因复制单个基因复制 重组或者逆转录重组或者逆转录B.B.染色体片断复制染色体片断复制C.C.基因组复制基因组复制DNADNA突变的模式突变的模式替代替代插入插入缺失缺失倒位倒位核苷酸替代:转换核苷酸替代:转换&颠换颠换 转换:嘌呤被嘌呤转换:嘌呤被嘌呤替代,或者嘧啶被替代,或者嘧啶被嘧啶替代嘧啶替代 颠换:嘌呤被嘧啶颠换:嘌呤被嘧啶替代,或者嘧啶被替代,或者嘧啶被嘌呤替代嘌呤替代基因复制:单个基因复制基因复制:单个基因复制重组重组逆转录逆转录基因复制:基因组复制基因复制:基因组复制酿酒
7、酵母酿酒酵母克鲁雄酵母克鲁雄酵母研究结果:研究结果:克鲁雄酵母克鲁雄酵母中的同源基中的同源基因数量与酿因数量与酿酒酵母相比酒酵母相比为为1 1:2 2 物种分类及关系物种分类及关系:从物种的一些分子特性出发,:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统构建系统发育树,进而了解物种之间的生物系统发生的关系发生的关系 tree of life tree of life 大分子功能与结构的分析大分子功能与结构的分析:同一家族的大分子,:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;
8、功能性分析,构建系统发育树,进行相关分析;功能预测预测 进化速率分析进化速率分析:例如,:例如,HIVHIV的高突变性;哪些位的高突变性;哪些位点易发生突变?点易发生突变?Tree of Life:16S rRNAOut of Africa5353个人的线粒体基因组个人的线粒体基因组(16,587bp)人类迁移的路线人类迁移的路线同源性与相似性同源性与相似性 相似性相似性 (Similarity)(Similarity)序列比对过程中用来描述检测序列和目标序列序列比对过程中用来描述检测序列和目标序列之间相似之间相似DNADNA碱基或氨基酸残基序列所占比例;碱基或氨基酸残基序列所占比例;定量描述
9、;定量描述;同源性同源性 (Homology)(Homology)两个基因或蛋白质序列具有共同祖先的结论;两个基因或蛋白质序列具有共同祖先的结论;定性判断;定性判断;相似不一定同源相似不一定同源,同源不一定相似。同源不一定相似。氨基酸序列相似性超过氨基酸序列相似性超过30%,30%,很很可能可能同源。同源。序列同源性模型中的进化假设序列同源性模型中的进化假设 所有的生物都起源于同一个祖先;所有的生物都起源于同一个祖先;序列不是随机产生,而是在进化上,不断序列不是随机产生,而是在进化上,不断发生着演变;发生着演变;基本假设:基本假设:序列保守性序列保守性 结构保守性结构保守性 注意:反之未必注意
10、:反之未必 序列保守性序列保守性 结构保守性结构保守性5.2 5.2 分子系统发生分析的优点分子系统发生分析的优点表型分析表型分析 具有一定的局限性具有一定的局限性 许多生物体没有可许多生物体没有可 用来进行比较的易于用来进行比较的易于 研究的表型研究的表型 什么样的表型特征什么样的表型特征 能用来比较也不特别能用来比较也不特别 明了明了比较分析比较分析分子系统发生分析分子系统发生分析基于基于DNADNA和蛋白质和蛋白质序列的分析,能够序列的分析,能够克服表型分析的缺克服表型分析的缺点问题,能够对生点问题,能够对生物体进行正确的分物体进行正确的分组,对于所得数据组,对于所得数据比较可靠。比较可
11、靠。概念概念 系统发生树系统发生树:三个或者更多基因或生物体:三个或者更多基因或生物体 之间之间 进化关系的典型图示;进化关系的典型图示;大部分系统发生研究都是围绕系统发生树的概大部分系统发生研究都是围绕系统发生树的概念进行的,它不仅表示了念进行的,它不仅表示了数据之间的关系数据之间的关系,还体,还体现了现了他们的分歧时间他们的分歧时间和和他们共同祖先的特征他们共同祖先的特征。5.3 5.3 系统发生树系统发生树5.3 系统发生树系统发生树重建系统发生树的术语重建系统发生树的术语5.3.15.3.1有根树和无根树有根树和无根树5.3.25.3.2基因树和物种树基因树和物种树5.3.35.3.3
12、特征和距离数据特征和距离数据5.3.45.3.45.3.1 5.3.1 重建系统发生树的术语重建系统发生树的术语 系统发生树有时也称为系统树图,它是由一系列的系统发生树有时也称为系统树图,它是由一系列的节点节点和和分支分支组成的,其中每个节点代表一个分类单组成的,其中每个节点代表一个分类单元。元。分支末端的节点(外分支末端的节点(外部节点)对应一个基部节点)对应一个基因或生物体;因或生物体;内部节点代表一个推内部节点代表一个推断的共同祖先,它在断的共同祖先,它在过去的某个时候分歧过去的某个时候分歧出两个独立的分支。出两个独立的分支。5.3.1 5.3.1 重建系统发生树的术语重建系统发生树的术
13、语ABCD 5 5个物种个物种 (,)(,)之间的进化关系的系统发生树之间的进化关系的系统发生树 系统发生树结构的基本信息在计算机程序中常用一组嵌套的系统发生树结构的基本信息在计算机程序中常用一组嵌套的圆括号表示,称为圆括号表示,称为 Newick Newick 格式,用该格式来表示上图中的格式,用该格式来表示上图中的树,可写成树,可写成 (,)(,),(,),),(,),)外部节点外部节点内部节点内部节点根节点根节点5.3.2 5.3.2 有根树和无根树有根树和无根树根时间 有根树有根树 无根树无根树有根树种,单一的节点指派为共同的祖先,从祖先节点只有唯有根树种,单一的节点指派为共同的祖先,
14、从祖先节点只有唯一的路径进化到达其他任何节点。一的路径进化到达其他任何节点。无根树只表明了节点之间的关系,而没有关于进化发生方向的无根树只表明了节点之间的关系,而没有关于进化发生方向的信息;信息;5.3.2 5.3.2 有根树和无根树有根树和无根树 只考虑只考虑3 3个物种的时候,有个物种的时候,有3 3棵有根树,一棵无根树,如下图棵有根树,一棵无根树,如下图所示:所示:有根树有根树无根树无根树5.3.2 5.3.2 有根树和无根树有根树和无根树描述少量物种之间可能的进化关系的有根树和无根树的数目描述少量物种之间可能的进化关系的有根树和无根树的数目物种数目有根树数目无根树数目211331415
15、35105151034 459 4252 207 02515213 458 046 767 8757 905 853 580 625208 200 794 532 637 891 559 375221 643 095 476 699 771 875n n 个物种可能的有根系统发生树个物种可能的有根系统发生树 (N NR R)和无根系统发生树和无根系统发生树(N NU U)数目可用数目可用下面的公式计算得到:下面的公式计算得到:N NR R=(2(2n n-3)!-3)!2 2n n-2-2(n n-2)!-2)!N NU U=(2(2n n-5)!-5)!2 2n n-3-3(n n-3)!-
16、3)!只有一棵树代表了(基因或物种)的实际系统发生关系!只有一棵树代表了(基因或物种)的实际系统发生关系!5.3.3 5.3.3 基因树和物种树基因树和物种树区别:区别:基因树为基于单个同源基因差异构建的基因树为基于单个同源基因差异构建的系统发生树系统发生树;物种树一般从多个基因数据中分析得出。物种树一般从多个基因数据中分析得出。只考虑一个基因的时候个体可能表现出与其他物只考虑一个基因的时候个体可能表现出与其他物种的成员关系更近。种的成员关系更近。基因分化事件基因分化事件常常在物种形成常常在物种形成前或后发生。前或后发生。5.3.4 5.3.4 特征和距离数据特征和距离数据 用于构建系统发生树
17、的分子数据分子数据分成两类:(1)距离距离 (distances)(distances)数据数据,常用距离矩阵描述,表示两个数据集之间所有两两差异;(2)特征特征 (characters)(characters)数据数据,表示分子所具有的特征。DNA DNA 和蛋白质序列数据和蛋白质序列数据描述离散的特征;描述离散的特征;一旦建立了确定所有可能状态之间相似性的标准,一旦建立了确定所有可能状态之间相似性的标准,特征数特征数据据就很容易转化成就很容易转化成距离数据距离数据;多序列比对(自动比对,手工校正)多序列比对(自动比对,手工校正)选择建树方法以及替代模型选择建树方法以及替代模型建立进化树建立
18、进化树进化树评估进化树评估 1.1.最大简约法最大简约法 (maximum parsimony,MP)(maximum parsimony,MP)适用序列有很高相似性时适用序列有很高相似性时 2.2.距离法距离法 (distance)(distance)适用序列有较高相似性时适用序列有较高相似性时 3.3.最大似然法最大似然法 (maximum likelihood,ML)(maximum likelihood,ML)可用于任何相关序列集合可用于任何相关序列集合 计算速度:计算速度:距离法距离法 最大简约法最大简约法 最大似然法最大似然法1.1.最大简约法最大简约法 (MP)(MP)根据根据信
19、息位点信息位点提供的各序列间的替换情况,在所有可提供的各序列间的替换情况,在所有可能的树中筛选含最小替换数的树的方法。能的树中筛选含最小替换数的树的方法。理论基础为奥卡姆剃刀理论基础为奥卡姆剃刀 (Ockham)(Ockham)原则:计算所需替换原则:计算所需替换数最小的那个拓扑结构,作为最优树。数最小的那个拓扑结构,作为最优树。在分析的序列位点上没有回复突变或平行突变,且被在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。获得一个很好的进化树。优点优点:不需要在处理核苷酸或者氨基酸替
20、代的时候引:不需要在处理核苷酸或者氨基酸替代的时候引入假设入假设 (替代模型替代模型)缺点缺点:分析序列上存在较多的回复突变或平行突变,:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出而被检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果。一个不合理的或者错误的进化树推导结果。信息位点信息位点:能将所有可能的树区别出来的:能将所有可能的树区别出来的位点。位点。信息位点是指那些至少存在信息位点是指那些至少存在2 2个不同碱基个不同碱基/氨基酸且每个不同碱基氨基酸且每个不同碱基/氨基酸至少出现两氨基酸至少出现两次的位点。次的位点。
21、信息位点 上例上例 Position 5,7,9 Position 5,7,9为信息位点为信息位点;基于基于position 5position 5的三个的三个MPMP树树:Tree 1Tree 1长度为长度为1 1,Tree 2&3Tree 2&3长度为长度为2 2 Tree 1 Tree 1最为简约:总长最为简约:总长=4=4 Tree 2Tree 2长长5 5;Tree 3Tree 3长长6 6 计算结果:计算结果:MP treeMP tree的最优结果为的最优结果为tree 1tree 12.2.距离法距离法 又称距离矩阵法,首先通过各个物种之间又称距离矩阵法,首先通过各个物种之间的比
22、较,根据一定的假设(进化距离模型的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建)推导得出分类群之间的进化距离,构建一个进化距离矩阵。再依据进化距离,分一个进化距离矩阵。再依据进化距离,分别依次将序列合并聚类,构建进化树。别依次将序列合并聚类,构建进化树。由进化距离构建进化树的方法有很多,常见由进化距离构建进化树的方法有很多,常见有:有:(1)Fitch-Margoliash Method(FM(1)Fitch-Margoliash Method(FM法法):):对短支长非对短支长非常有效常有效(2)Neighbor-Joining Method(NJ(2)Neighb
23、or-Joining Method(NJ法法/邻接法邻接法):):求最求最短支长,最通用的距离方法短支长,最通用的距离方法(3)Neighbors Relaton Method(3)Neighbors Relaton Method(邻居关系法邻居关系法)(4)Unweighted Pair Group Method with Arithmetic(4)Unweighted Pair Group Method with Arithmetic Mean(UPGMAMean(UPGMA,非加权组平均法,非加权组平均法)=D和和E最接近!最接近!DEABCedmr示例分成三组:分成三组:D,E,以及以
24、及ABCDE距离距离=d+e=10 (1)D到到ABC间的平均距离间的平均距离=d+m=32.7 (2)E到到ABC间的平均距离间的平均距离=e+m=34.7 (3)(2)-(3)+(1)d=4,e=6DEABCedm分成三组:分成三组:C,DE,以及以及AB=C最接近最接近DE!c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)=c=9=g=5由:由:(a+b)/2+f+g+(d+e)/2=41 得:得:f=20由:由:a+f+c=39 得:得:a=10,则,则b=12N-J/N-J/邻接法邻接法
25、 与与FM方法非常类似方法非常类似 保证总的支长最短保证总的支长最短r 总支长:总支长:a+b+c+d+e=314/4=78.5找到距离最近的两个点找到距离最近的两个点 1.任意两个节点选为相邻序列的总支长计算公式:r 2.计算计算SAB,SBC,SCD,SDE等数值等数值r 3.该例中,该例中,SAB最小最小 把把A、B看成一个新的复合序看成一个新的复合序列,构建一个新的距离表,重复列,构建一个新的距离表,重复以上过程以上过程d=e=10/2=5c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B-41.5(CDE)-(AB)(CDE)(A
26、B)-40.5(CDE)-f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75最大似然法最大似然法 (ML)(ML)最大似然法最大似然法(maximum likelihood,ML):(maximum likelihood,ML):最早应用于对最早应用于对基因频率数据的分析上基因频率数据的分析上 选取一个特定的替代模型来分析给定的一组序列数选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最值,然后再挑出其中似然率最大的拓扑结构作为最优树;优树;在
27、最大似然法的分析中,所考虑的参数并不是拓扑在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率求最大结构而是每个拓扑结构的枝长,并对似然率求最大值来估计枝长;值来估计枝长;缺点:费时,每个步骤都要考虑内部节点的所有可缺点:费时,每个步骤都要考虑内部节点的所有可能性能性 改进:启发式算法,改进:启发式算法,分枝交换搜索等分枝交换搜索等 1.1.可靠的待分析数据可靠的待分析数据 2.2.准确的多序列比对准确的多序列比对 3.3.选择合适的建树方法:选择合适的建树方法:A.A.序列相似程度高,序列相似程度高,MPMP首先首先B.B.序列相似程度较低,序列相似程度较低,M
28、LML首先首先C.C.序列相似程度太低,无意义序列相似程度太低,无意义 4.4.一般采用两种及以上方法构建进化树,一般采用两种及以上方法构建进化树,无显著区别可接受无显著区别可接受 选择一个或多个已知与分析序列关系较远的选择一个或多个已知与分析序列关系较远的序列作为外类群序列作为外类群;外类群可以辅助定位树根外类群可以辅助定位树根;外类群序列必须与剩余序列关系较近,但外外类群序列必须与剩余序列关系较近,但外类群序列与其他序列间的差异必须比其他序类群序列与其他序列间的差异必须比其他序列之间的差异更显著。列之间的差异更显著。bacteria outgroupeukaryoteeukaryoteeu
29、karyoteeukaryotearchaeaarchaeaarchaea外类群外类群进化树的可靠性分析进化树的可靠性分析 单纯由预先获得的多序列比对结果数据所推单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。导出的进化树有时并不一定可靠。改进办法:引进一些统计分析来寻找更优的改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。进化树,检验结果的可靠性。最常见的就是最常见的就是bootstrapbootstrap评估。评估。从排列的多序列中随机有放回的抽取某一列从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;,构成相同长度的新的排列序列;重复
30、上面的过程,得到多组新的序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。原始树是否有差异,以此评价建树的可靠性。一般一般BootstrapBootstrap的值的值7070,则认为构建的进化树,则认为构建的进化树较为可靠。较为可靠。系统发育分析软件介绍系统发育分析软件介绍软件软件说明说明PHYLIP免费的、集成的进化分析工具免费的、集成的进化分析工具evolution.genetics.washington.edu/phylip.htmlMEGA图形化、集成的进化分析工具,不包括图形化、
31、集成的进化分析工具,不包括MLmegasoftware/PAUP商业软件,集成的进化分析工具商业软件,集成的进化分析工具paup.csit.fsu.edu/PHYML最快的最快的ML建树工具建树工具atgc.lirmm.fr/phyml/MrBayes 基于贝叶斯方法的建树工具基于贝叶斯方法的建树工具mrbayes.csit.fsu.edu/MAC5基于贝叶斯方法的建树工具基于贝叶斯方法的建树工具agapow/software/mac5/相关软件相关软件软件软件说明说明ClustalX图形化的多序列比对工具图形化的多序列比对工具;构建构建N-J系统树系统树bips.u-strasbg.fr/f
32、r/Documentation/ClustalX/GeneDoc 多序列比对结果的美化工具(可以导入多序列比对结果的美化工具(可以导入fasta格式的文格式的文件,作图可用于发表)件,作图可用于发表)psc.edu/biomed/genedoc/BioEdit 序列分析的综合工具序列分析的综合工具 mbio.ncsu.edu/BioEdit/bioedit.html TreeView进化树显示工具进化树显示工具taxonomy.zoology.gla.ac.uk/rod/treeview.html 总结总结 不做计算机模拟实验,我们就很难了解同源序列不做计算机模拟实验,我们就很难了解同源序列之间的真实关系。即使是相对较少的序列,其可之间的真实关系。即使是相对较少的序列,其可能的系统发生树的数目也会以很惊人的速度增加。能的系统发生树的数目也会以很惊人的速度增加。有多种方法能利用核苷酸和氨基酸序列信息推断有多种方法能利用核苷酸和氨基酸序列信息推断出基因和物种之间最有可能的系统发生树。出基因和物种之间最有可能的系统发生树。基于距离的系统发生树重建方法通过考虑所有序基于距离的系统发生树重建方法通过考虑所有序列的总体相似度,反复聚类那些最相似的序列,列的总体相似度,反复聚类那些最相似的序列,从而从很多可能的树中集中地得到少数的树。从而从很多可能的树中集中地得到少数的树。