1、第七章第七章 分子系统发育分析分子系统发育分析姚正培姚正培 yao_本章内容本章内容n引言引言n生物进化的分子机制生物进化的分子机制n系统进化树及其构建系统进化树及其构建n分子系统发育分析软件及应用分子系统发育分析软件及应用引言引言n生物学家:生物学家:We have a dream qTree of Life:重建所有生物的进化历史并以系统树的形重建所有生物的进化历史并以系统树的形式加以描述式加以描述引言引言n梦想走进现实:梦想走进现实:How?q最理想的方法:化石!最理想的方法:化石!零散、不完整零散、不完整引言引言n梦想走进现实:梦想走进现实:How?q比较形态学和比较生理学:确定大致的
2、进化框架比较形态学和比较生理学:确定大致的进化框架 细节存很多的争议细节存很多的争议引言引言n梦想走进现实:梦想走进现实:How?q第三种方案:分子进化第三种方案:分子进化n1964年,美国进化生物学家年,美国进化生物学家 E.Zuckerkandl和和 量子化学家量子化学家Linus Pauling提出分子进化理论提出分子进化理论n基本假设基本假设q核酸和蛋白质序列中含有生物进化历史的全部信息核酸和蛋白质序列中含有生物进化历史的全部信息n理论理论q分子进化速率恒定。分子进化速率恒定。q分子钟:物种的同源基因之间的差异程度与它们的共同祖先分子钟:物种的同源基因之间的差异程度与它们的共同祖先的存
3、在时间的存在时间(即两者的分歧时间即两者的分歧时间)有一定的数量关系。有一定的数量关系。n发生在分子层面的进化过程:发生在分子层面的进化过程:DNA,RNA和蛋白质分子和蛋白质分子引言引言n分子钟成立的证据:分子钟成立的证据:q1、至少某些生物大分子(如珠蛋白)的进化速率在相、至少某些生物大分子(如珠蛋白)的进化速率在相当长的地质时间内的相对稳定、均匀;当长的地质时间内的相对稳定、均匀;q2、许多不同物种的多种同源大分子在相当长时间内的、许多不同物种的多种同源大分子在相当长时间内的平均进化速率近似恒定。平均进化速率近似恒定。1、选择所要比较的生物大分子种类、选择所要比较的生物大分子种类 根据具
4、体研究目标和已掌握的资料,选择进化速率相对恒定、速率根据具体研究目标和已掌握的资料,选择进化速率相对恒定、速率大小合适、分布范围能涵盖各待比较物种的生物大分子。大小合适、分布范围能涵盖各待比较物种的生物大分子。2、选择所要比较的物种,确定各比较组合及其所代表的进、选择所要比较的物种,确定各比较组合及其所代表的进化事件化事件3、获得生物大分子一级结构的资料、获得生物大分子一级结构的资料4、获得有关的代表性进化事件发生的地质时间数据、获得有关的代表性进化事件发生的地质时间数据5、通过比较大分子一级结构,选择合适的数学模型,计算、通过比较大分子一级结构,选择合适的数学模型,计算得到进化产生的分子差异
5、得到进化产生的分子差异d,通过回归分析等统计方法得到,通过回归分析等统计方法得到大分子的进化速率大分子的进化速率r(t)6、由此可以推断未知进化事件的发生时间、由此可以推断未知进化事件的发生时间Example:Molecular clock for 17 mammal speciesInferred pairwise nucleotide substitutions among 17 mammal species from seven gene products,as estimated from protein studies,plotted against date of divergen
6、ce,as estimated from the fossil record.The line is drawn from the origin through the oldest point(marsupial/placental divergence at 125 MYBP).The strong linear relationship suggests that molecular differences between pairs of species are proportional to the time of their separation,rather than the d
7、egree of organismal difference.Therefore,measures of genetic divergence can be used to date the time of divergence for species pairs for which no fossil data are available:genes function as Molecular Clocks.(from A.C.Wilson 1976)1、对长期进化而言,不存在以恒定速率替换的生物大分子、对长期进化而言,不存在以恒定速率替换的生物大分子一级结构;(基因功能的改变、基因数目的增
8、加)一级结构;(基因功能的改变、基因数目的增加)2、不存在通用的分子钟;、不存在通用的分子钟;3、争议:、争议:分子钟的准确性分子钟的准确性 中性理论(分子钟成立的基础)中性理论(分子钟成立的基础)第一节第一节 生物进化的分子机制生物进化的分子机制n分子途经研究生物进化的可行性分子途经研究生物进化的可行性n分子进化的模式分子进化的模式n分子进化的特点分子进化的特点n研究分子进化的作用研究分子进化的作用分子途径研究生物进化的可行性分子途径研究生物进化的可行性n普适性普适性q由由4种核酸组成种核酸组成 n分子水平的进化表现为:分子水平的进化表现为:DNA序列的演化、氨基酸序列演化、序列的演化、氨基
9、酸序列演化、蛋白质结构及功能的演化蛋白质结构及功能的演化n可比较性可比较性q比较不同物种的有关比较不同物种的有关DNA序列序列 n建立建立DNA序列的演化模型、氨基酸序列的演化模型序列的演化模型、氨基酸序列的演化模型q蛋白质结构的演化模型蛋白质结构的演化模型n基因组包含丰富的编码信息基因组包含丰富的编码信息q与形态、性状包含的信息相比,基因组序列、蛋白质序与形态、性状包含的信息相比,基因组序列、蛋白质序列包含更多、更复杂的信息结构列包含更多、更复杂的信息结构基因变异基因变异1、核苷酸替代、插、核苷酸替代、插入入/缺失、重组缺失、重组2、基因复制、基因复制固定在生物个体固定在生物个体以及物种内以
10、及物种内遗传漂变遗传漂变自然选择自然选择传递给后代传递给后代产生新的形态、性状产生新的形态、性状分子进化的模式分子进化的模式分子进化的模式分子进化的模式n1.DNA突变:替代,插入,缺失,倒位突变:替代,插入,缺失,倒位q核苷酸替代:转换核苷酸替代:转换(Transition)&颠换颠换(Transversion)n2.基因复制:多基因家族的产生以及伪基因的产生基因复制:多基因家族的产生以及伪基因的产生qA.单个基因复制单个基因复制 重组或者逆转录重组或者逆转录qB.染色体片断复制染色体片断复制qC.基因组复制基因组复制 Thr Tyr Leu LeuACC TAT TTG CTGACC TC
11、T TTG CTG Thr Ser Leu Leu替代替代 Thr Tyr Leu LeuACC TAT TTG CTGACC TAC TTT GCT G Thr Tyr Phe Ala插入插入 Thr Tyr Leu LeuACC TAT TTG CTGACC TAT TGC TG-Thr Tyr Cys -缺失缺失 Thr Tyr Leu LeuACC TAT TTG CTGACC TTT ATG CTG Thr Phe Met Leu倒位倒位(1)DNA突变突变核苷酸替代:转换核苷酸替代:转换&颠换颠换n1.转换:嘌呤被嘌呤转换:嘌呤被嘌呤替代,或者嘧啶被嘧替代,或者嘧啶被嘧啶替代啶替代
12、n2.颠换:嘌呤被嘧啶颠换:嘌呤被嘧啶替代,或者嘧啶被嘌替代,或者嘧啶被嘌呤替代呤替代(2)基因复制:单个基因复制)基因复制:单个基因复制重组重组逆转录逆转录(2)基因复制:染色体片段复制)基因复制:染色体片段复制人人狒狒狒狒(2)基因复制:基因组复制)基因复制:基因组复制S.Cerevisiae(酿酒酵母)K.Waltii(克鲁雄酵母)研究结果:研究结果:克鲁雄酵母克鲁雄酵母中的同源基中的同源基因数量与酿因数量与酿酒酵母相比酒酵母相比为为1 1:2 2l 分子进化速率分子进化速率 生物大分子随时间的改变而变化,主要表现为核苷酸、蛋生物大分子随时间的改变而变化,主要表现为核苷酸、蛋白质的一级结
13、构的改变,即分子序列中核苷酸、氨基酸的替换白质的一级结构的改变,即分子序列中核苷酸、氨基酸的替换l 不同物种同源大分子的分子进化速率大体相同不同物种同源大分子的分子进化速率大体相同 例子:比较不同物种血红蛋白氨基酸序列差异例子:比较不同物种血红蛋白氨基酸序列差异 人、马人、马0.8 10-9/AA.a 人、鲤鱼人、鲤鱼0.6 10-9/AA.al 分子进化速率远远比表型进化速率稳定分子进化速率远远比表型进化速率稳定l 保守性保守性 功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。能上不重要
14、的大分子或者大分子局部。(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显(引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率。)著改变得突变发生的频率。)l 氨基酸氨基酸 例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率例:血红蛋白分子的外区的功能要次于内区的功能,外区的进化速率是内区进化速率的是内区进化速率的10倍。倍。l 核苷酸核苷酸 例:例:DNA密码子的同义替代频率高于非同义替代频率;内含子上的核密码子的同义替代频率高于非同义替代频率;内含子上的核苷酸替代频率较高。苷酸替代频率较高。GTTGTCGTAGTGCGTCGC脯氨酸脯氨酸P
15、 P组氨酸组氨酸H HTGGTGC色氨酸色氨酸W W半胱氨酸半胱氨酸C C研究分子进化的作用研究分子进化的作用n从物种的一些分子特性出发,构建系统发育树,从物种的一些分子特性出发,构建系统发育树,进而了解进而了解物种之间的生物系统发生的关系物种之间的生物系统发生的关系 tree of life;物种分类物种分类n大分子功能与结构的分析大分子功能与结构的分析:同一家族的大分子,:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析;功能性分析,构建系统发育树,进行相关分析;功能预测预测n进化速率分析进化速率分析
16、:例如,:例如,HIV的高突变性;哪些位的高突变性;哪些位点易发生突变?点易发生突变?研究分子进化的作用研究分子进化的作用nTree of Life:16S rRNA研究分子进化的作用研究分子进化的作用nOut of Africa5353个人的线粒体基因组个人的线粒体基因组(16,587bp)人类迁移的路线人类迁移的路线第二节第二节 系统进化树及其构建系统进化树及其构建n系统进化树的概念系统进化树的概念n系统进化树的种类系统进化树的种类n系统进化树的构建系统进化树的构建系统进化树的概念系统进化树的概念n所有生物都可以追溯所有生物都可以追溯到共同的祖先,生物到共同的祖先,生物的产生和分化就像树的
17、产生和分化就像树一样生长、分叉,以一样生长、分叉,以树的形式来表示生物树的形式来表示生物之间的进化关系是非之间的进化关系是非常自然的事。常自然的事。系统进化树的概念系统进化树的概念nphylogenetic tree/evolutionary tree n系统进化树系统进化树/生物进化树生物进化树/系统发育树系统发育树/系统发生树系统发生树/系统系统树树/进化树进化树/演化树演化树n是表明被认为具有共同祖先的各物种相互间进化关系的是表明被认为具有共同祖先的各物种相互间进化关系的树形图树形图。系统进化树的概念系统进化树的概念术语术语祖先节点祖先节点/树根树根内部节点内部节点/分歧点,该分歧点,该
18、分支可能的祖先节点分支可能的祖先节点分支分支/世系:长度对应世系:长度对应演化距离(如估计的演化距离(如估计的演化时间)演化时间)末端节点:代表最终分类,末端节点:代表最终分类,可以是物种,群体,或者蛋可以是物种,群体,或者蛋白质、白质、DNADNA、RNARNA分子等分子等 ABCDE系统进化树的概念系统进化树的概念n进化树分支的图像称为进化的拓扑结构进化树分支的图像称为进化的拓扑结构n理论上,一个理论上,一个DNA序列在物种形成或基因复制时,序列在物种形成或基因复制时,分裂成两个子序列,因此系统进化树一般是二歧分裂成两个子序列,因此系统进化树一般是二歧的。的。AB CDEFGFGCDEAB
19、系统进化树的概念系统进化树的概念n直系同源直系同源(orthologs):同源的基因是由于共同的祖先基因同源的基因是由于共同的祖先基因进化而产生的。进化而产生的。n旁系同源旁系同源(paralogs):同源的基因是由于基因复制产生的。同源的基因是由于基因复制产生的。n用于分子进化分析中的序列必须是直系同源的,才能真实用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。反映进化过程。旁系同源旁系同源直系同源直系同源拓扑结构:拓扑结构:有根树:有根树:反映时间顺序反映时间顺序无根树:无根树:反映距离反映距离系统进化树的种类系统进化树的种类有根树、无根树有根树、无根树archaeaarc
20、haeaeukaryoteeukaryoteeukaryoteeukaryotearchaeabacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外围支外围支abcdabcdabcd adbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考虑考虑4个分类群时,共有个分类群时,共有15种可能的有根树种可能的有根树abcdacbdadbc考虑考虑4个分类群时,共有个分类群时,共有3种可能的无根树种可能的无根树#Taxa 无根树无根树 有根树有根树3 1
21、34 3 155 15 1056 105 9457 945 10,39530 3.58X1036 2.04X1038TaxaTaxa增多,计算量急剧增加,选出真实树的拓扑结构十分困增多,计算量急剧增加,选出真实树的拓扑结构十分困难,因此,目前算法都为优化算法,不能保证最优解。难,因此,目前算法都为优化算法,不能保证最优解。系统进化树的种类系统进化树的种类有根树、无根树有根树、无根树系统进化树的种类系统进化树的种类标度树、非标度树标度树、非标度树n标度树:分支的标度树:分支的长度表示变化的长度表示变化的程度程度n非标度树:分支非标度树:分支只表示进化关系,只表示进化关系,支长无意义支长无意义Ba
22、cterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2一个单位一个单位abcdef基因分裂基因分裂基因分裂基因分裂基因分裂基因分裂物种分裂物种分裂系统进化树的种类系统进化树的种类物种树、基因树物种树、基因树n物种树:代表一个物种或物种树:代表一个物种或群体进化历史的系统进化群体进化历史的系统进化树,两个物种分歧的时间树,两个物种分歧的时间为两个物种
23、发生生殖隔离为两个物种发生生殖隔离的时间的时间n基因树:由来自各个物种基因树:由来自各个物种的一个基因构建的系统进的一个基因构建的系统进化树(不完全等同于物种化树(不完全等同于物种树),表示基因分离的时树),表示基因分离的时间。间。系统进化树的构建系统进化树的构建n构建系统进化树的步骤构建系统进化树的步骤n构建系统进化树的方法构建系统进化树的方法n构建进化树的一般原则构建进化树的一般原则构建系统进化树的步骤构建系统进化树的步骤多序列比对(自动比对,手工校正)多序列比对(自动比对,手工校正)选择建树方法以及替代模型选择建树方法以及替代模型建立进化树建立进化树进化树评估进化树评估构建系统进化树的方
24、法构建系统进化树的方法n1.最大简约法最大简约法(maximum parsimony,MP)q适用序列有很高相似性时适用序列有很高相似性时n2.距离法距离法(distance)q适用序列有较高相似性时适用序列有较高相似性时n3.最大似然法最大似然法(maximum likelihood,ML)q可用于任何相关序列集合可用于任何相关序列集合n计算速度:计算速度:q距离法距离法 最大简约法最大简约法 最大似然法最大似然法构建系统进化树的方法构建系统进化树的方法 最大简约法(最大简约法(MP)n理论基础为奥卡姆理论基础为奥卡姆(Ockham)原则:计算所需替代数最小原则:计算所需替代数最小的那个拓扑
25、结构,作为最优树的那个拓扑结构,作为最优树n在分析的序列位点上没有回复突变或平行突变,且被检验在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树很好的进化树n缺点:分析序列上存在较多的回复突变或平行突变,而被缺点:分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,可能会给出一个不合检验的序列位点数又比较少的时候,可能会给出一个不合理的或者错误的进化树推导结果理的或者错误的进化树推导结果n信息位点信息位点q能将所有可能的树区别出来的位点。能将所有可能的树区别出
26、来的位点。q至少存在至少存在2个不同碱基个不同碱基/氨基酸且每个不同碱基氨基酸且每个不同碱基/氨基酸至氨基酸至少出现两次的位点。少出现两次的位点。构建系统进化树的方法构建系统进化树的方法 最大简约法(最大简约法(MP)上例上例n1.Position 5,7,9为信息位点为信息位点n2.基于基于position 5的三个的三个MP树树:qTree 1长度长度1,Tree 2&3长度长度2n3.Tree 1更为简约:总长:更为简约:总长:4n Tree 2长长5;Tree 3长长6n4.计算结果:计算结果:MP tree的最优结果为的最优结果为tree 1构建系统进化树的方法构建系统进化树的方法
27、距离法距离法n又称距离矩阵法,首先通过各个物种之间的比较,又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系化树的构建则是基于这个矩阵中的进化距离关系。构建系统进化树的方法构建系统进化树的方法 距离法距离法简单的距离矩阵简单的距离矩阵n由进化距离构建进化树的方法有很多,常见有:由进化距离构建进化树的方法有很多,常见有:q(1)Fitch-Margoliash Method(FM法法):对短支长
28、非常有效对短支长非常有效q(2)Neighbor-Joining Method(NJ法法/邻接法邻接法):求最短支长,求最短支长,最通用的距离方法最通用的距离方法q(3)Neighbors Relaton Method(邻居关系法邻居关系法)q(4)Unweighted Pair Group Method(UPGMA法法/非加权组非加权组平均法平均法)构建系统进化树的方法构建系统进化树的方法 距离法距离法DE距离距离=d+e (1)D到到ABC间的平均距离间的平均距离=d+m (2)E到到ABC间的平均距离间的平均距离=e+m (3)(2)-(3)+(1)d=4,e=6构建系统进化树的方法构建
29、系统进化树的方法 FM法法C最接近最接近DE!分成三组:分成三组:C,DE,以及以及AB构建系统进化树的方法构建系统进化树的方法 FM法法c+g+(e+d)/2=19 (1)c+f+(a+b)/2=40 (2)(e+d)/2+(a+b)/2+f+g=41 (2)(1)+(2)-(3)得:得:c=9构建系统进化树的方法构建系统进化树的方法 FM法法c+g+(e+d)/2=19(e+d)/2=5,c=9,则则g=5构建系统进化树的方法构建系统进化树的方法 FM法法由:由:(a+b)/2+f+g+(d+e)/2=41 得:得:f=20由:由:a+f+c=39 得:得:a=10,则,则b=12构建系统
30、进化树的方法构建系统进化树的方法 FM法法n1.最大似然法最大似然法(maximum likelihood,ML):最早应用于最早应用于对基因频率数据的分析上对基因频率数据的分析上n2.选取一个特定的替代模型来分析给定的一组序列数据选取一个特定的替代模型来分析给定的一组序列数据,在每组序列比对中考虑每个核苷酸替换的概率。在每组序列比对中考虑每个核苷酸替换的概率。q例如,转换出现的概率大约是颠换的三倍。在一个三条序列的比例如,转换出现的概率大约是颠换的三倍。在一个三条序列的比对中,如果发现其中有一列为一个对中,如果发现其中有一列为一个C,一个,一个 T和一个和一个 G,我们就,我们就认为,认为,
31、C和和 T所在的序列之间的关系很有可能更接近。所在的序列之间的关系很有可能更接近。n3.计算表示序列关系的每棵可能的树的概率。计算表示序列关系的每棵可能的树的概率。概率总和概率总和最大的那棵树最有可能是反映真实情况的系统发生树。最大的那棵树最有可能是反映真实情况的系统发生树。n4.缺点:费时,每个步骤都要考虑内部节点的所有可能缺点:费时,每个步骤都要考虑内部节点的所有可能性性n5.改进:启发式算法改进:启发式算法构建系统进化树的方法构建系统进化树的方法 最大似然最大似然法(法(ML)构建系统进化树的原则构建系统进化树的原则n1.可靠的待分析数据可靠的待分析数据n2.准确的多序列比对准确的多序列
32、比对n3.选择合适的建树方法:选择合适的建树方法:qA.序列相似程度高,序列相似程度高,MP首先首先qB.序列相似程度较低,序列相似程度较低,ML首先首先qC.序列相似程度太低,无意义序列相似程度太低,无意义n4.一般采用两种及以上方法构建进化树,无显著一般采用两种及以上方法构建进化树,无显著区别可接受区别可接受构建系统进化树的原则构建系统进化树的原则n1.选择一个或多个已知与分析序列关系较远的序选择一个或多个已知与分析序列关系较远的序列作为外围支列作为外围支n2.外围支可以辅助定位树根外围支可以辅助定位树根n3.外围支序列必须与剩余序列关系较近,但外围外围支序列必须与剩余序列关系较近,但外围
33、支序列与其他序列间的差异必须比其他序列之间支序列与其他序列间的差异必须比其他序列之间的差异更显著的差异更显著构建系统进化树的原则构建系统进化树的原则选择外围支选择外围支bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外类群外类群n单纯由预先获得的多序列比对结果数据所推导出单纯由预先获得的多序列比对结果数据所推导出的进化树有时并不一定可靠。的进化树有时并不一定可靠。n改进办法:引进一些统计分析来寻找更优的进化改进办法:引进一些统计分析来寻找更优的进化树,检验结果的可靠性。树,检验结果的可靠性。n最
34、常见的就是最常见的就是bootstrap评估。评估。n从排列的多序列中随机有放回的抽取某一列,构从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;成相同长度的新的排列序列;n重复上面的过程,得到多组新的序列;重复上面的过程,得到多组新的序列;n对这些新的序列进行建树,再观察这些树与原始对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。树是否有差异,以此评价建树的可靠性。n至少进行至少进行100次重复取样。次重复取样。进化树的可靠性分析进化树的可靠性分析自举法(自举法(Bootstrap Method)进化树的可靠性分析进化树的可靠性分析自举法(自举
35、法(Bootstrap Method)原始数据多原始数据多序列比对结果序列比对结果对序列中每个对序列中每个位置重复抽样,位置重复抽样,基于原比对结果基于原比对结果生成多个样本生成多个样本第三节第三节 分子系统发育分析软件及应用分子系统发育分析软件及应用n常用分子系统发育分析软件常用分子系统发育分析软件n分子系统发育分析实例(实验三)分子系统发育分析实例(实验三)软件软件说明说明PHYLIP免费的、集成的进化分析工具免费的、集成的进化分析工具http:/evolution.genetics.washington.edu/phylip.htmlMEGA图形化、集成的进化分析工具,不包括图形化、集成
36、的进化分析工具,不包括MLhttp:/ 多序列比对结果的美化工具(可以导入多序列比对结果的美化工具(可以导入fasta格式的文件,作格式的文件,作图可用于发表)图可用于发表)http:/www.psc.edu/biomed/genedoc/BioEdit 序列分析的综合工具序列分析的综合工具 http:/www.mbio.ncsu.edu/BioEdit/bioedit.html TreeView进化树显示工具进化树显示工具http:/taxonomy.zoology.gla.ac.uk/rod/treeview.html 常用分子系统发育分析软件常用分子系统发育分析软件n进化分析软件进化分析
37、软件qPHYLIP:由华盛顿大学遗传学系开发,是一个免费的:由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包,可以通过以下地址下载,目前已系统发育分析软件包,可以通过以下地址下载,目前已更新至更新至3.69版。版。qhttp:/evolution.genetics.washington.edu/phylip.htmlqPhylip包含了包含了35个独立的程序,这些独立的程序都实现个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所特定的功能,这些程序基本上包括了系统发生分析的所有方面。有方面。分子系统发育分析实例(实验三)分子系统发育分析实例(实验三)第五
38、章第五章:基于特征的系统发生分析基于特征的系统发生分析n分子系统发生分析主要分成三个步骤:分子系统发生分析主要分成三个步骤:(1)分子序列或特征数据的分析;)分子序列或特征数据的分析;(2)系统发生树的构造;)系统发生树的构造;(3)结果的检验。)结果的检验。n其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。发生树提供依据。n构成系统发生树的分子数据:构成系统发生树的分子数据:特征数据 基于特征的系统发生分析基于特征的系统发生分析 距离数据 基于距离的系统发生分析基于距离的系统发生分析n关于进化关系的结论的
39、一致性可以看作是对一棵系统发生树的正确性关于进化关系的结论的一致性可以看作是对一棵系统发生树的正确性的积极认可。的积极认可。5.1 简约法n在生物学中,描述在生物学中,描述按照进化途径中突变事件最少的标准按照进化途径中突变事件最少的标准来优先选择来优先选择一一个进化途径个进化途径的过程。的过程。n两个简单假设两个简单假设:(1)突变是罕见事件;)突变是罕见事件;(2)一个模型引发了越不合理的事件,这个模型就越不可能是正确的。)一个模型引发了越不合理的事件,这个模型就越不可能是正确的。因此,突变最少的进化关系就越有可能是物种之间真实的进化关系。4个物种三种可能的无根树个物种三种可能的无根树123
40、4132414235.1.1 信息位点和非信息位点根据信息内容可以分为:根据信息内容可以分为:n信息位点(informative):含有信息的位点含有信息的位点 信息位点就是指能由位点产生的突变数目把一棵树与其就是指能由位点产生的突变数目把一棵树与其 它树区分开它树区分开来的位点来的位点;n非信息位点(uninformative):不含有信息的位点不含有信息的位点 不变位点(invariant):属于非信息位点,比较的所有序列都有同样的属于非信息位点,比较的所有序列都有同样的核苷酸。即每一棵核苷酸。即每一棵描述所有序列间进化关系描述所有序列间进化关系的树都有相同的突变数的树都有相同的突变数目目
41、(0)。1 GG2 GGG 3G 4(1,2)(3,4)1 GG3 GGG 2G 4(1,3)(2,4)1 GG4 GGG 2G 3(1,4)(2,3)序列序列位点位点1位点位点2位点位点3位点位点4位点位点5位点位点61GGGGGG2GGGAGT3GGATAG4GATCAT 图图5.15.1 4 4条同源序列的比对(每条序列有条同源序列的比对(每条序列有6 6个核苷酸)个核苷酸)6 6个位点构造个位点构造4 4个物种之间进化关系的可能无根树个物种之间进化关系的可能无根树不变位点不变位点序列序列位点位点1位点位点2位点位点3位点位点4位点位点5位点位点61GGGGGG2GGGAGT3GGATA
42、G4GATCAT1 GG2 GGG 3A 4(1,2)(3,4)1 GG3 GGG 2A 4(1,3)(2,4)1 GG4 AGG 2G 3(1,4)(2,3)不变位点不变位点非信息位点非信息位点序列序列位点位点1位点位点2位点位点3位点位点4位点位点5位点位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点1 GG2 GAA 3T 4(1,2)(3,4)1 GG3 AGG 2T 4(1,3)(2,4)(1,4)(2,3)1 GG4 TGG 2A 3序列序列位点位点1位点位点2位点位点3位点位点4位点位点5位点位点61GGGGG
43、G2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点非信息位点非信息位点1 GG2 ATT 3C 4(1,2)(3,4)1 GG3 TAA 2C 4(1,3)(2,4)1 GG4 CAA 2T 3(1,4)(2,3)序列序列位点位点1位点位点2位点位点3位点位点4位点位点5位点位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点 非信息位点非信息位点信息位点信息位点1 GG2 GAA 3A 4(1,2)(3,4)1 GG3 AGG 2A 4(1,3)(2,4)1 GG4 AGG 2
44、A 3(1,4)(2,3)序列序列位点位点1位点位点2位点位点3位点位点4位点位点5位点位点61GGGGGG2GGGAGT3GGATAG4GATCAT不变位点不变位点非信息位点非信息位点非信息位点非信息位点 非信息位点非信息位点信息位点信息位点信息位点信息位点1 GG2 TGG 3T 4(1,2)(3,4)1 GG4 TGT 2G 3(1,4)(2,3)1 GG3 GGT 2T 4(1,3)(2,4)Tn信息位点的共同特征:如果一个位点是如果一个位点是信息位点,那么它,那么它(1)至少有两种不同的核苷酸,并且,并且(2)这些核苷酸至少出现两次。5.1.2 无权简约法n最简约树:考虑每个信息位点
45、所有可能的树,分别给每棵树进行打分,:考虑每个信息位点所有可能的树,分别给每棵树进行打分,统计每个位点的核苷酸最小替换数目。统计每个位点的核苷酸最小替换数目。所有所有简约信息位点最小核苷酸最小核苷酸替换数的总和替换数的总和最小的树记为最小的树记为最简约树。n4条序列比对的例子可能是最简单的例子:条序列比对的例子可能是最简单的例子:在只包含在只包含4条序列的分析中,每个信息位点只能支持条序列的分析中,每个信息位点只能支持 3 棵可能的树中的棵可能的树中的1棵,棵,含有最多信息位点的树含有最多信息位点的树就是就是最简约树。n5条或更多序列数据集的计算复杂得多。原因在于:原因在于:随序列数增加,无根
46、树数目也增加;随序列数增加,无根树数目也增加;每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含每个信息位点可能有多棵树,整个数据集的最大简约树不一定是含最多信息位点的树;最多信息位点的树;每棵树的核苷酸替换数目的计算更加困难。每棵树的核苷酸替换数目的计算更加困难。nn n个物种可能得到无根系统发生树个物种可能得到无根系统发生树 (Nu)数目:数目:Nu=(2n-5)!/2n-3(n-3)!下图是描述下图是描述5 5条不同序列之间关系的条不同序列之间关系的1515棵可能无根树中的棵可能无根树中的3 3棵。这棵。这3 3棵无根树有相同的简约度,棵无根树有相同的简约度,它们的最小替换数都是
47、2。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。由简约规则,推断出的祖先的候选核苷酸分别列在每个内部节点的旁边。T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)(GTA)(b)123456789GTGAAGGA(GA)(c)计算祖先核苷酸位置的算法:计算祖先核苷酸位置的算法:如果一个内部节点的两个直接后代节点上的核苷酸的交集非空,那么这个节点的最可能的候选核苷酸集就是这个交集;否则为它的两个后代节点上的核苷酸集的并集。n上述方法只适用于信息位点,不适用于非信息位点。上述方法只适用于信息位点,不适用于非信息位点。n非信息位点的最
48、小替换数:外部节点上不同核苷酸数目减去:外部节点上不同核苷酸数目减去1 (与树的与树的拓扑结构无关拓扑结构无关)n例如:5条序列的比对中,有一个位置上的核苷酸是条序列的比对中,有一个位置上的核苷酸是 G、G、A、G和和T,则,则最小替换数就是就是 3-1=2。n非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被非信息位点对所有可能的树的贡献都是等价的,在简约分析中往往被完全排除。完全排除。n树的长度(length):当一棵树在信息位点和非信息位点的替换数的):当一棵树在信息位点和非信息位点的替换数的总和是一个确定的数值时,这个数值就是指总和是一个确定的数值时,这个数值就是指树的长度。
49、5.1.3 加权简约法n赋值的必要性:赋值的必要性:“突变是罕见事件突变是罕见事件”将所有突变看成是等价的,但之前的学习已经告将所有突变看成是等价的,但之前的学习已经告诉我们插入和删除比替换可能性小;长插入和长删除比短插入和短删诉我们插入和删除比替换可能性小;长插入和长删除比短插入和短删除少见;转换概率大于颠换;功能相关的突变比无关的突变发生的概除少见;转换概率大于颠换;功能相关的突变比无关的突变发生的概率小率小n因此,我们给各种因此,我们给各种突变突变赋予赋予相对概率值相对概率值,在简约算法中可将这些值转,在简约算法中可将这些值转化为化为权值。我们无法得到一组适用于所有数据集的权值,原因有三
50、:(1)一些序列比其他序列更容易插入和删除;(2)即使是同源基因,对功能的重要性也因不同的基因、不同的物种而有所差别;(3)不同的基因和物种有不同的替换偏好。因此,最佳的权值最佳的权值通常来自对实验数据集的分析,可获得的最佳实验数据集是实际分析过的数据集。例如:例如:假如转换出现频率为颠换的3倍,那么对同一序列集的简约分析简约分析就可以给所有的转换替换赋权值权值 1,给所有的颠换替换赋权值权值 0.33。5.2 推断出的祖先序列n简约法最值得注意的副产品最值得注意的副产品是分析过程中产生的是分析过程中产生的推断出的祖先序列,即使这些祖先可能在数亿年前就已经灭绝。即使这些祖先可能在数亿年前就已经