1、第第9章章 分子进化与系统发育分子进化与系统发育讲授:讲授: 舒坤贤舒坤贤 2013.11Where Do We Come From? What Are We? Where Are We Going?(Museum of Fine Arts, Boston)“一个半世纪以前,一个半世纪以前,Charles Darwin可能没有意识到他所给予可能没有意识到他所给予科学的是一件从未有过的强大武科学的是一件从未有过的强大武器,即他的进化理论。科学家用器,即他的进化理论。科学家用这把坚利之剑斩断了无知、迷信这把坚利之剑斩断了无知、迷信和傲慢,这些束缚人类对亿万年和傲慢,这些束缚人类对亿万年来的生命的了
2、解的镣铐。来的生命的了解的镣铐。”美国自然博物馆成立美国自然博物馆成立125周年纪念周年纪念专刊专刊前言前言Charles Darwin(1809-1882)Who are closer? Out of Africa5353个人的线粒体基因组个人的线粒体基因组( (16,587bp) )人类迁移的路线人类迁移的路线 Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述。We have a dream最理想的方法:化石! 然而零散、不完整 (Fossil) (Comparative morphology) (Comparative physiology)经典的进化研究方法经
3、典的进化研究方法比较形态学和比较生理学:确定大致的进化框架。 然而,细节存在巨多的争议一、分子水平的进化一、分子水平的进化分子水平的进化主要是指在生物进化过程中,构分子水平的进化主要是指在生物进化过程中,构成生物体的大分子物质,如蛋白质、核酸的演变成生物体的大分子物质,如蛋白质、核酸的演变过程。过程。:源于同一祖先源于同一祖先DNA/氨基酸序列的两条氨基酸序列的两条DNA/氨基酸氨基酸序列,考察二者的差异。序列,考察二者的差异。:进化过程中分子突变的痕迹。进化过程中分子突变的痕迹。:以累计在:以累计在DNA/氨基酸分子上的历史信息为基础,氨基酸分子上的历史信息为基础,研究分子水平的生物进化过程
4、和机制。研究分子水平的生物进化过程和机制。分子系统学为生物分类问题提供了许多崭新的见解。分子系统学为生物分类问题提供了许多崭新的见解。基因突变基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体固定在生物个体以及物种内以及物种内遗传漂变遗传漂变自然选择自然选择传递给后代传递给后代产生新的形态、性状产生新的形态、性状分子系统学是研究进化机制的一个重要工具。分子系统学是研究进化机制的一个重要工具。生物进化的分子机制生物进化的分子机制性状改变性状改变DNA分子的改变分子的改变核苷酸替代substitution核苷酸缺失deletion核苷酸插入insertion核苷酸倒位inverti
5、on Thr Tyr Leu LeuACC TAT TTG CTGACC TCT TTG CTG Thr Ser Leu Leu替代替代 Thr Tyr Leu LeuACC TAT TTG CTGACC TAC TTT GCT G Thr Tyr Phe Ala插入插入 Thr Tyr Leu LeuACC TAT TTG CTGACC TAT TGC TG- Thr Tyr Cys -缺失缺失 Thr Tyr Leu LeuACC TAT TTG CTGACC TTT ATG CTG Thr Phe Met Leu倒位倒位(transition)嘌呤嘌呤 嘌呤嘌呤嘧啶嘧啶 嘧啶嘧啶(tra
6、nsvertion)嘌呤嘌呤 嘧啶嘧啶嘧啶嘧啶 嘌呤嘌呤胞嘧啶胞嘧啶腺嘌呤腺嘌呤胸腺嘧啶胸腺嘧啶鸟嘌呤鸟嘌呤在大多数在大多数DNA片段中,转换出现的概率高于颠换出现的概率。片段中,转换出现的概率高于颠换出现的概率。仍然为同义密码子的核苷酸替代仍然为同义密码子的核苷酸替代如:如: TAT TAC Tyr Tyr导致产生非同义密码子的核苷酸替代导致产生非同义密码子的核苷酸替代如:如: TAT AAT Tyr Asn导致产生终止密码子的核苷酸突变导致产生终止密码子的核苷酸突变如:如: TAT TAA Tyr STP问题:假设所有密码子以同一概率出现,上述三种突变的比例问题:假设所有密码子以同一概率出
7、现,上述三种突变的比例 25%,71%,4%1、分子进化的特点1)生物大分子进化速率相对恒定分子进化速率分子进化速率 生物大分子随时间的改变主要表现为核苷酸、蛋白质的一生物大分子随时间的改变主要表现为核苷酸、蛋白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换级结构的改变,即分子序列中核苷酸、氨基酸的替换不同物种同源大分子的分子进化速率大体相同不同物种同源大分子的分子进化速率大体相同 例子:比较不同物种血红蛋白氨基酸序列差异例子:比较不同物种血红蛋白氨基酸序列差异 人、马人、马0.8 10-9/AA.a 人、鲤鱼人、鲤鱼0.6 10-9/AA.a分子进化速率远远比表型进化速率稳定分子进化速
8、率远远比表型进化速率稳定原因?原因? 序列的核苷酸或氨基酸替换是否随机过程?序列的核苷酸或氨基酸替换是否随机过程?1965,Zuckerkandl and Pauling, Molecular Clock ,根据分子系统学研究与古生物学资料相结合,建立推论生物进根据分子系统学研究与古生物学资料相结合,建立推论生物进化事件发生的时间表。化事件发生的时间表。 假定分子进化速率假定分子进化速率r恒定,则分子进化改变量(替代数目或恒定,则分子进化改变量(替代数目或替代率)与进化时间成正比。以两条序列为例:替代率)与进化时间成正比。以两条序列为例:d = 2 r t其中,其中,t是进化时间,是进化时间,
9、d是这两条序列每个位点的替代数目。是这两条序列每个位点的替代数目。分子钟成立的先决条件:分子钟成立的先决条件:分子进化速率恒定分子进化速率恒定。分子钟成立的证据:分子钟成立的证据:A 至少某些生物大分子(如珠蛋白)的进化速率在相当长的地至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;质时间内的相对稳定、均匀;B 许多不同物种的多种同源大分子在相当长时间内的平均进化许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。速率近似恒定。a、选择所要比较的生物大分子种类、选择所要比较的生物大分子种类 根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大
10、根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。小合适、分布范围能涵盖各待比较物种的生物大分子。b、选择所要比较的物种,确定各比较组合及其所代表的进化、选择所要比较的物种,确定各比较组合及其所代表的进化事件事件c、获得生物大分子一级结构的资料、获得生物大分子一级结构的资料d、获得有关的代表性进化事件发生的地质时间数据、获得有关的代表性进化事件发生的地质时间数据e、通过比较大分子一级结构,选择合适的数学模型,计算得到、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异进化产生的分子差异d,通过回归分析等统计方法得到大
11、分子的,通过回归分析等统计方法得到大分子的进化速率进化速率r(t)f、由此可以推断未知进化事件的发生时间、由此可以推断未知进化事件的发生时间a、对长期进化而言,不存在以恒定速率替换的生物大分子一级、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增加)结构;(基因功能的改变、基因数目的增加)b、不存在通用的分子钟;、不存在通用的分子钟;c、争议:、争议: 分子钟的准确性分子钟的准确性 中性理论(分子钟成立的基础)中性理论(分子钟成立的基础)保守性保守性 功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功功能上重要的大分子或大分子的局部在进化速率上
12、明显低于那些在功能上不重要的大分子或者大分子局部。能上不重要的大分子或者大分子局部。 (引起表型发生显著改变的突变发生的频率要低于无明显表型发生显(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。)著改变得突变发生的频率。)氨基酸氨基酸 例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的是内区进化速率的10倍。倍。核苷酸核苷酸 例:例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。苷酸替代频率较
13、高。生物大分子进化并非完全随机生物大分子进化并非完全随机 存在某种制约因素,存在某种机制存在某种制约因素,存在某种机制? 从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of life; 物种分类。Tree of Life: 16S rRNAA 进化的动力是什么?进化的动力是什么?B 进化是否有一定的方向?进化是否有一定的方向?C 进化的速度是否恒定?是渐近的进化的速度是否恒定?是渐近的还是跳跃的?还是跳跃的?分子进化理论同样必须回答上述三分子进化理论同样必须回答上述三个问题。个问题。2、分子进化的中性学说、分子进化的中性学说(1)、 一切生物都能发生
14、变异,至少有一部分变异能够遗传给后代一切生物都能发生变异,至少有一部分变异能够遗传给后代(2)、 繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活繁殖过剩:任何生物产生的生殖细胞或后代数目要远远多于可能存活的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体数目;而在所产生的后代中,那些最具有适应环境条件的有利变异的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,的个体有较大的生存机会,并繁殖后代,从而使有利变异可以世代积累,不利变异被淘汰。不利变异被淘汰。 “选择选择”不是超自然的上帝的作用。不是超自然的上帝的作用。(3)、 性状分歧原理性状分歧原
15、理在同一个种内,个体之间在结构、习性上越是歧异,在同一个种内,个体之间在结构、习性上越是歧异,则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布到更广则在适应不同环境方面愈是有利,因而将会繁育更多的个体,分布到更广的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。的范围。由此一个种会逐渐演变为若干变种、亚种乃至新种。 新种的形成、种间的竞争、种的绝灭、外界环境的作用新种的形成、种间的竞争、种的绝灭、外界环境的作用 系统树系统树由于性状分歧和中间类型的绝灭,新种不断产生、旧种不由于性状分歧和中间类型的绝灭,新种不断产生、旧种不断绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。断
16、绝灭,种间差异不断扩大,形成时间、空间上的物种系统树。第一次:第一次: 1900s,Weismann等,消除等,消除Lamarck的的“获得性遗传获得性遗传”学说、学说、Buffon的的“环境直接作用环境直接作用”学说,强调学说,强调“自然选择自然选择”为进化的主要因素;为进化的主要因素;第二次:第二次: 1930-40s,遗传学、生物系统学、古生物学的重大贡献:对,遗传学、生物系统学、古生物学的重大贡献:对“自然选自然选择择”、“物种变异物种变异”等概念的新认识。等概念的新认识。 适应:繁殖的相对优势适应:繁殖的相对优势 适应度:个体或基因型对后代或后代基因库的相对贡献适应度:个体或基因型对
17、后代或后代基因库的相对贡献 适应和选择:繁殖或基因传递的相对差异适应和选择:繁殖或基因传递的相对差异 消除社会达尔文主义的科学基础消除社会达尔文主义的科学基础第三次:第三次: 原因:现代分子生物学、古生物学的发展。原因:现代分子生物学、古生物学的发展。 宏观(对生物进化实际过程的了解):古生物学揭示生命进化的规律、宏观(对生物进化实际过程的了解):古生物学揭示生命进化的规律、进化速度、进化趋势、物种的形成和绝灭进化速度、进化趋势、物种的形成和绝灭 微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的微观:现代分子生物学揭示生物大分子的进化规律和携带遗传信息的物质基础及其复杂结构物质基础
18、及其复杂结构 新的认识:新的认识:(1)、生物进化过程并非、生物进化过程并非“匀速匀速”、“渐变渐变”的,而是的,而是“快速进化快速进化”与与“进进化停滞化停滞”相间;相间;(2)、生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进、生物进化与分子进化都显示出相当大的随机性,自然选择并非总是进化的主要因素;化的主要因素;(3)、遗传系统本身具有某种进化功能,进化过程中可能存在内因的、遗传系统本身具有某种进化功能,进化过程中可能存在内因的“驱动驱动”和和“导向导向”。 ContinuingNeutral theory of molecular evolution(Kimura & Oh
19、ta, 1968, 1971) (King & Jukes, 1969)提出分子层次上的提出分子层次上的“non-Darwinian evolution”“在生物分子层次上的进化改变不是由自然选择作用于有利突在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是在连续的突变压之下由选择中性或非常接近变而引起的,而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的。中性突变是指对当前适应度无中性的突变的随机固定造成的。中性突变是指对当前适应度无影响的突变。影响的突变。”、否认自然选择在分子进化中的作用,认为生物大分子的进化主否认自然选择在分子进化中的作用,认为生物大
20、分子的进化主要因素是要因素是和和。分子层次上的大多数变异是选择中性的分子层次上的大多数变异是选择中性的 蛋白质和核苷酸分子的进化速率高且相对恒定蛋白质和核苷酸分子的进化速率高且相对恒定 突变压在分子进化中的作用得到研究证实突变压在分子进化中的作用得到研究证实按照群体遗传学的数学模型,自然选择的代价太高按照群体遗传学的数学模型,自然选择的代价太高 1)、中性论是解释分子层次的进化现象、中性论是解释分子层次的进化现象 自然选择只作用于表型,并不直接作用于分子。自然选择只作用于表型,并不直接作用于分子。 衡量尺度的区别:分子的显著性改变并不意味着表型的显衡量尺度的区别:分子的显著性改变并不意味着表型
21、的显著性改变。著性改变。 中性论只涉及生物大分子一级结构单元的替换,并不包含中性论只涉及生物大分子一级结构单元的替换,并不包含和解释分子层次的全部改变(如蛋白质三级结构、功能的改变)和解释分子层次的全部改变(如蛋白质三级结构、功能的改变)2)、分子进化的保守性表明选择仍然起作用、分子进化的保守性表明选择仍然起作用 可能之一可能之一负选择的存在:任何发生在重要功能的大分负选择的存在:任何发生在重要功能的大分子或大分子保守区的突变,由于造成适应度的下降而被选择淘子或大分子保守区的突变,由于造成适应度的下降而被选择淘汰。(随机作用)汰。(随机作用) 可能之二可能之二存在某种机制阻止功能重要的大分子或
22、大分存在某种机制阻止功能重要的大分子或大分子保守区的突变产生。(非随机作用)子保守区的突变产生。(非随机作用)3)、选择中性突变的复杂调控系统、选择中性突变的复杂调控系统 中性突变的可能原因:复杂的调控机制。基因表达受到内中性突变的可能原因:复杂的调控机制。基因表达受到内外因素的制约。外因素的制约。 决定中性突变的调控系统受到自然选择的影响。决定中性突变的调控系统受到自然选择的影响。 4)、选择在分子的适应进化中起作用、选择在分子的适应进化中起作用 在分子层次上可能存在两种进化形式:在分子层次上可能存在两种进化形式: 中性进化(导致分子多样性)中性进化(导致分子多样性) 适应进化(通过选择实现
23、,导致分子适应)适应进化(通过选择实现,导致分子适应)能否打倒的能否打倒的Darwinian进化论进化论?基因组计划为许多生物进化关键问题的研究提供了基础基因组计划为许多生物进化关键问题的研究提供了基础1)、基因组计划产生的大量数据为分子进化研究提供了新的素、基因组计划产生的大量数据为分子进化研究提供了新的素材材 人类基因组计划、模式生物基因组计划人类基因组计划、模式生物基因组计划2)、可以从生物大分子层次研究进化的机制、可以从生物大分子层次研究进化的机制 进化机制:基因重复、拷贝?(低等生物进化机制:基因重复、拷贝?(低等生物高等生物)高等生物) 多基因家族的一致进化?多基因家族的一致进化?
24、 提供有关重复基因、提供有关重复基因、DNA缺失插入、基因易位、转座子插缺失插入、基因易位、转座子插入等信息,为分子系统学研究提供更多的研究对象。入等信息,为分子系统学研究提供更多的研究对象。4、研究分子进化的意义、研究分子进化的意义 生命起源 诸多生命现象的解释 分子系统发育树构建基于基于16S/18S核糖体核糖体RNA序列比对得到的古细菌系统发育树序列比对得到的古细菌系统发育树(Ettema等,等,2005) 1、分子系统发育树的基本概念、分子系统发育树的基本概念 一般来说,系统发生树是一种二叉树。所谓树,实际上是一个无向非循环图。系统发生树由一系系统发生树由一系列节点(列节点(nodes
25、)和分支()和分支(branches )组成,其)组成,其中每个节点代表一个分类单元(物种或序列),中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。而节点之间的连线代表物种之间的进化关系。 树的节点又分为外部节点(terminal node)和内部节点(internal node)。在一般情况下,外部节外部节点代表实际观察到的分类单元,点代表实际观察到的分类单元,而内部节点内部节点又称为分支点,它代表了进化事件发生的位置,或代代表了进化事件发生的位置,或代表分类单元进化历程中的祖先。表分类单元进化历程中的祖先。分类单元是一种由研究者选定的基本单位,在同一项研究
26、中,分类单元一般应当一致。abcdabcd拓扑结构:拓扑结构:有根树:有根树:反映时间顺序反映时间顺序无根树:无根树:反映距离反映距离 理论上,一个理论上,一个DNA序列在物种形成或基因复制时,分裂序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二歧的。成两个子序列,因此系统发育树一般是二歧的。 一般考虑二歧的树结构:二歧树一般考虑二歧的树结构:二歧树分支:分支:内部分支内部分支外部分支外部分支节点:节点:内部节点内部节点外部节点外部节点系统发育树: 术语祖先节点/树根内部节点/分歧点,该分支可能的祖先结点分支/世系末端节点 ABCDE代表最终分类,可以是物种,群体,或者蛋白
27、质、DNA、RNA分子等 : 代表一个物种或群体代表一个物种或群体进化历史的系统发育树进化历史的系统发育树 两个物种分歧的时间:两个物种分歧的时间:两个物种发生生殖隔离的两个物种发生生殖隔离的时间时间 : 由来自各个物种的一由来自各个物种的一个基因构建的系统发育树个基因构建的系统发育树(不完全等同于物种树),(不完全等同于物种树),表示基因分离的时间。表示基因分离的时间。abcdef基因分裂基因分裂基因分裂基因分裂基因分裂基因分裂物种分裂物种分裂: 一个用无限长的序列或每一一个用无限长的序列或每一分支的期望替代数构建的树分支的期望替代数构建的树假设所研究的序列无限假设所研究的序列无限长,从中随
28、机抽样进行长,从中随机抽样进行统计分析。统计分析。所研究的序列是短序列,所研究的序列是短序列,统计得到的替代数目存统计得到的替代数目存在大量随机误差。在大量随机误差。: 建立在实际替代数基础上建立在实际替代数基础上的树的树构树方法构树方法 系统发生树性质: (1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元; (2)如果找不到可以作为树根的单元,则系统发生树是无根树; (3)从根节点出发到任何一个节点的路径指明进化时间或者进化距离。 对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的。系统发生分析的目标寻找这棵正确的树 建立系统
29、发生树的基本任务:在给定的条件下(包括分类单元、分类单元的特征值或者序列),构造一棵最优的系统发生树。这里重点讨论针对DNA序列或者蛋白质序列构建系统发生树。1、特征数据特征数据(character data):表示分子所具有的特征,表示分子所具有的特征,提供提供了基因、个体、群体或物种的信息了基因、个体、群体或物种的信息 特征数据可分为: 二态二态特征特征例如:例如:DNA序列上的某个位置如果是剪切序列上的某个位置如果是剪切位点位点 多态特征多态特征例如:某一位置可能的碱基有、例如:某一位置可能的碱基有、或或2、距离数据距离数据(distance data)或或相似性数据相似性数据(simi
30、larity data):常用常用距离矩阵距离矩阵描述,表示两个数据集之间所有两两差异,描述,表示两个数据集之间所有两两差异,涉涉及的则是成对基因、个体、群体或物种的信息。及的则是成对基因、个体、群体或物种的信息。 计算序列之间距离 令S(i,j)是序列i和序列j比对位置得分的加权和 ),(),(),(),(1),(maxjiSjiSjiSjiSjidrr归一化的距离: 其中Sr(i,j)是序列i和j随机化之后的比对得分的加权和,Smax(i,j)是可能的最大值令Sr(i,j)=0 为了适合于处理相似性较小的序列,可以进一步修改距离计算公式 ),(),(1),(maxjiSjiSjid),()
31、,(ln),(maxjiSjiSjid分子系统发生分析过程分子系统发生分析过程 多序列比对(自动比对,手工校正)选择建树方法以及替代模型建立进化树进化树评估 系统发生树的构建方法分为两大类: 基于距离的构建方法最小二乘法 连锁聚类方法及非加权组平均法 距离变换法 邻近归并法 基于离散特征的构建方法最大简约法 最大似然法 根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为以下3类。 (1)穷尽搜索方法 即产生所有可能的树,然后根据评价标准选择一棵最优的树。 (2)分支约束方法 即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优。 (3)启发式或经验性方法
32、根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度。 需要注意的是,系统发生树可能的个数随序列的个数急剧增加。假设要为n个分类单元建立系统发生树,则可能的有根树个数(NR)和无根系统发生树个数(NU)可用下面的算式计算得到: 分支数目:分支数目:22m有根树有根树32m无根树无根树内部分支数目:内部分支数目:3m有根树有根树2m无根树无根树内部节点数目:内部节点数目:1m有根树有根树2m无根树无根树abcdabcdabcd adbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑考虑4个分类群时,共有个分类群时,共有15种可能的有根树种可能的有
33、根树abcdacbdadbc考虑考虑4个分类群时,共有个分类群时,共有3种可能的无根树种可能的无根树表6.1 对不同的n,可能的有根树和无根树数目数据数目 有根树数目 无根树数目 2 1 1 3 3 1 4 15 3 5 105 15 10 34,459,425 2,207,025 15 213,458,046,767,875 7,905,853,580,625 20 8,200,794,532,637,891,559,375 221,643,095,476,699,771,875 从计算量来看,穷尽搜索方法只能处理很少的分类单元。当分类单元个数n大于一定值(如15),几乎不可能采用穷尽搜索的
34、方式来求取最优树。因此,目前算法都为优化因此,目前算法都为优化算法,不能保证最优解。算法,不能保证最优解。 构建进化树的一般原则http:/www.genome.jp/tools/clustalw/ 基本思路:基本思路:给定一种序列之间距离的测度,在该距离测度下构建一棵系统发生树,使得该树能够最好地反映已知序列之间的距离。10条核酸序列的距离矩阵 采用两两距离,建立一个距离矩阵,如下表所示,采用两两距离,建立一个距离矩阵,如下表所示,根据距离矩阵构造系统发生树。根据距离矩阵构造系统发生树。 如何根据不同的概率统计模型,由两条序列的差异值构建它如何根据不同的概率统计模型,由两条序列的差异值构建它
35、们的进化距离?们的进化距离?进一步阅读:进一步阅读:分子进化与系统发育分子进化与系统发育(Molecular Evolution and Phylogentics)Masatoshi Nei & Sudhir Kumar,Oxford University Press, Inc. 2000中文译本:吕宝忠、钟扬、高莉萍等译,中文译本:吕宝忠、钟扬、高莉萍等译,高等教育出版社,高等教育出版社,2002第二四章(第二四章(pp15-63)氨基酸序列的进化演变氨基酸序列的进化演变DNA序列的进化演变序列的进化演变同义与非同义的核苷酸替代同义与非同义的核苷酸替代1、最小二乘法目标是构造一棵树T,该树的
36、叶节点代表物种,用该树预测物种之间的距离。通过优化,使下式最小化: 这里,Dij为物种i和j的实际观察距离(或序列之间的计算距离),dij是物种i和j在系统发生树T 中的距离,Wij是与物种i和j相关的权值。SSQ(T)是树T所有预测值与实际观察值偏差的累加和。权值Wij一般为1,或 Wij =1/ Dij2niijijijijdDWTSSQ12)()( 例,如果有三个分类单元,其两两距离如下:dab = 0.5; dac = 0.9; dbc = 0.9 假设分类单元a和分类单元b的分歧起始时间是相同的,根据分子时钟假说,dau 和 dbu 的值应该是相等的,进一步假设节点u到其它节点的距离
37、相同,则通过求解方程,得到如图6.2所示的一棵树。 但是,在实际应用中,所要处但是,在实际应用中,所要处理的分类单元可能很多,因而,理的分类单元可能很多,因而,需要求解的线性方程也很多,需要求解的线性方程也很多,难以求解,或者方程组的求解难以求解,或者方程组的求解过程存在着不确定性。因此,过程存在着不确定性。因此,需要采用数学逼近的方法。需要采用数学逼近的方法。 连锁聚类属于一般的聚类分析方法,当用来构建系统发生树时,其假定的前提条件是:在进化过在进化过程中,核苷酸或氨基酸的替换速率是均等且恒定程中,核苷酸或氨基酸的替换速率是均等且恒定的,在每一次分歧发生后,从共同祖节点到两个的,在每一次分歧
38、发生后,从共同祖节点到两个分类单元间的分支长度一样。分类单元间的分支长度一样。在构建系统发生树时,首先用n个叶节点表示n个分类单元(序列), 每个分类单元自成一类,然后通过反复的聚类使所有的分类单元都聚为一类,并将进化过程中的祖先赋予树的内部节点,最终得到一个完整的系统发生树。假设若干条序列是从一个共同的祖先进化而来,则系统发生树将是一个有根树,并且从根节点出发到所有叶节点路径的长度相同。 2、连锁聚类方法及非加权分组平均法、连锁聚类方法及非加权分组平均法 选择距离最小的一对序列将这两个序列合二为一,形成一个新的对象(代表这两个序列的祖先)重新计算这个新的对象与其它序列的距离。单连锁聚类: d
39、(x,u)=min(d(y,u),d(z,u)最大连锁聚类: d(x,u)=max(d(y,u),d(z,u)平均连锁聚类: d(x,u)=1/2(d(y,u)+d(z,u)其中x代表y和z的合并,u代表任意其它对象。基本思路非加权分组平均法(Unweighted Pair Group Method with Arithmetic mean, UPGMA) 在平均连锁聚类过程中,一个新类到其它类之在平均连锁聚类过程中,一个新类到其它类之间的距离就是简单的原距离平均值间的距离就是简单的原距离平均值。 如果类中分类单元个数不一样,原距离矩阵中各如果类中分类单元个数不一样,原距离矩阵中各个距离值对新
40、距离计算的贡献就不一样,或者说是个距离值对新距离计算的贡献就不一样,或者说是经过经过“加权加权”的,称这样的聚类为加权分组平均。的,称这样的聚类为加权分组平均。 在非加权分组平均法中,在计算新分类到其它分类在非加权分组平均法中,在计算新分类到其它分类之间的平均距离时按照各分类中分类单元的数目进之间的平均距离时按照各分类中分类单元的数目进行加权处理。行加权处理。 UPGMA算法的执行过程如下:(1) 初始化:使每个物种自成一类,如果有n个物种,则开始时共有n个类,每个类的大小为1,分别用n个叶节点代表每个类; (2)执行下列循环:l寻找具有最小距离Dij的两个类i、j;建立一个新的聚类(ij)l
41、 连接i和j形成新节点 (ij),生长两个新的分支,将i 和j 连接到(ij),分支的长度为Dij/2;l计算新分类到其它类的距离其中ni、nj、(ni+nj)分别为i类、j类、(ij)类的元素个数;l 在距离矩阵中删除与类i和类j相应的行和列,为类(ij)加入新的行和列; 重复循环,直到仅剩一个类为止。重复循环,直到仅剩一个类为止。 kjjijkijiikijDnnnDnnnD,),()()(1)、在基因替代速率恒定假设成立时,、在基因替代速率恒定假设成立时,UPGMA方法比较适用;方法比较适用;2)、UPGMA方法适用于具有较小变异系数的距离测度;方法适用于具有较小变异系数的距离测度;3)
42、、UPGMA是一种既构建拓扑结构又计算分支长度的方法;是一种既构建拓扑结构又计算分支长度的方法;4)、UPGMA方法既可以得到有根树,也可以得到无根树。方法既可以得到有根树,也可以得到无根树。3、距离变换法、距离变换法 连锁聚类和UPGMA算法的一个缺陷是假定所有家系的进化速率是相同的,但是,实际情况并不总是这样。进化速率的变化容易导致连锁聚类和UPGMA算法产生错误拓扑结构的树。表6.3 四个分类单元的距离矩阵 A B C B 9 C 8 11 D 12 15 10 假设有4个分类单元A、B、C和D ,其系统发生关系及各个分类单元之间的距离如图6.5所示,距离矩阵见表6.3。如果利用UPGM
43、A进行分析,则首先合并A和C,(AC)到B的距离等于9/2+11/2=10,(AC)到D 的距离等于12/2+10/2=11;进一步合并(AC)和B ,(AC)B)到D 的距离等于211/3 + 115/3 = 37/3;最终得到图6.6所示的系统发生树,但是,该树显然与真实树有出入。 距离变换法(Transformed Distance Method)。这种方法充分利用了外群或外部参考物种(outgroup),即先于其它所有被考虑的物种(称为内群或内部物种,ingroup)从它们的共同祖先中分化出来的那些物种。假设有4个物种A、B、C和D ,其中D是物种A、B和C的外部参考物种,并且已知关于
44、这四个物种的距离矩阵。D可作为变换其它物种之间的距离的外部参考,变换式如下: 其中dij是物种i和j之间的变换后距离, 是外部参考物种与全体内部物种之间的平均距离 ,此例中 = (dAD + dBD + dCD)/3 。 邻近归并法(Neighbor Joining)是另一种快速的聚类方法,该方法是Saitou和Nei于1987年首次提出的。 在构建系统发生树时,该方法取消了非加权分组平均法所作的假定,不需要关于分子钟的假设,在进化分支上,发生趋异的次数可以不同。 与非加权分组平均法相比,邻近归并法在算法上相对较复杂,它跟踪的是树上的节点而不是分类单元。 基本思想是: 进行类的合并时,不仅要求
45、待合并的类是相近的,同时,还要求待合并的类远离其它的类。 在聚类过程中,根据原始距离矩阵,根据所有节点间的平均趋异程度,对每两个节点间的距离进行调整,即将每个分类单元的趋异程度标准化,从而形成一个新的距离矩阵。 重建时,将距离最小的两个叶节点连接起来,合并这两个叶节点所代表的分类,形成一个新的分类。在树中增加一个父节点,并在距离矩阵中加入新的分类,同时删除原来的两个分类。 随后,新增加的父节点被看成为叶节点,重复上一次循环。在每一次循环过程中,都有两个叶节点被一个新的父节点所取代,两个类被合成为一个新类。整个循环直到只剩一个类为止。 从所得到的系统发生树来看,对于两个聚在一起的分类单元,其所在
46、的叶节点到父节点的距离并不一定相同。 :邻居(邻居(neighbors) 无根树中,一个节点所连接的两个分类群互为邻居无根树中,一个节点所连接的两个分类群互为邻居 (1, 2); (5, 6); (1-2, 3); (1-2-3, 4) 其中其中X为连接互为邻居的类群为连接互为邻居的类群i, j的内部节点,的内部节点,LiX为类群为类群i到到X的分支长度。的分支长度。S:所有分支长度总和:所有分支长度总和jXiXijLLd 在每一次循环中,都要在树中寻找两个分类单元的直接祖先。对于节点x,到其它节点的距离dx 按下式进行估算: 这里dxy是分类x和分类y之间的距离,是动态更新的距离矩阵D中的元
47、素。 为了使所有分支长度的和最小(或称为最小进化原则),选择dxy-dx-dy最小的一对节点x 和节点y 进行归并。 算法如下:算法如下: (1) 初始化(与连锁聚类算法一样) (2) 循环 对于所有的分类单元x,按公式(6-13)计算dx; 选择一对分类单元x 和y ,使dxy-dx-dy最小; 将x和y归并为新的类 (xy),在树中添加一个新的节点,将它与节点x和y连接 ,新节点代表新生成的分类,计算从x和y到新节点(xy)的分支长度; dx,(xy) = 1/2dx,y +1/2(dx-dy), dy,(xy) = 1/2dx,y +1/2(dy-dx) 计算新类(xy)与其它类u的距离
48、; d(xy),u = 1/2(dx,u + dy,u - dx,y) 删除聚类x和y,添加新类 (xy),更新距离矩阵; 如果有两个以上的分类存在,则继续执行循环,否则合并剩余的两个类,并且连接这两个类 。 : 表6.4 6个分类单元的距离矩阵 A B C D E B 5 C 4 7 D 7 10 7 E 6 9 6 5 F 8 11 8 9 8 首先分别用首先分别用6个叶节点代表分类单元,计算每个节点到其它节点的距离:个叶节点代表分类单元,计算每个节点到其它节点的距离: dA = 5+4+7+6+8=30/4=7.5 ;dB= 5+7+10+9+11=42/4 = 10.5 ;dC = 4
49、+7+7+6+8=32/4= 8 ; dD = 7+10+7+5+9=36/4= 9.5 ;dE = 6+9+6+5+8=34/4= 8.5;dF = 8+11+8+9+8=44/4= 11 第一次归并时,选择使Dxy-dx-dy最小的一对分类单元x=A 和y=B,将这两个邻近的单元归并,以一个新节点(xy)代表,同时计算(xy)到x和y所在节点的距离: dx,(xy)= Dx,(xy)/2+(dx-dy)/2=5/2+(7.5-10.5)/2=1 dy,(xy)= Dx,(xy)/2+(dy-dx)/2=5/2+(10.5-7.5)/2=4 进一步计算新类与其它类的距离,更新距离矩阵,重复循
50、环。最终结果见图6.8。 NJ法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时法本质上是一种寻找最优拓扑结构的谱系聚类算法。同时给出系统发育树的拓扑结构以及分支的长度。给出系统发育树的拓扑结构以及分支的长度。优点:优点:1)、可以较快地构建系统树;、可以较快地构建系统树;2)、适用于分析较大的数据集;、适用于分析较大的数据集;3)、能够较方便地进行自展(、能够较方便地进行自展(Bootstrap)检验。)检验。 一般问题: 给定n个物种 m个用以描述物种的特征 每个物种所对应的特征值构建一棵系统发生树,使得某个目标函数最大。 输入一般为nm的特征矩阵M 在构建系统发生树假设特征是相互独立的,