1、第七章第七章 分子进化分析分子进化分析(Molecular Evolution Analysis)+分子进化分析介绍+系统发育树重建方法+常用分子进化与系统发育分析的软件第一节第一节 分子进化分析介绍分子进化分析介绍进化:是一种不断改进的过程。“每个生物每时每刻都在为生存进行反复的斗争,如果在复杂多变的生存条件下该生物仍然能够不断改进自己,那么其将有较大的生存可能性,并被自然选择所保留。被自然选择保留下来的物种都倾向于繁殖其已经被改进的新的生命形式”-特种起源u18世纪之前,神创论和物种不变论。u18世纪,相信物种是变化的。拉马克用环境作用的影响、器官的用进废退和获得性的遗传等原理解释生物进化
2、过程,创立了第一个比较严整的进化理论。u18591859年达尔文发表年达尔文发表物种起源物种起源,论证了地球上,论证了地球上现存的生物都由共同祖先发展而来,并提出自然选现存的生物都由共同祖先发展而来,并提出自然选择学说以说明进化的原因,从而创立了择学说以说明进化的原因,从而创立了科学的进化科学的进化理论理论。u20世纪30年代,综合进化论,综合了细胞遗传学、群体遗传学以及古生物学等学科的成就,进一步发展了进化理论。u20世纪60年代末,分子进化中性学说,认为种内和种间大多数可见差异是适合度很小的随机突变的固定所决定的。+Tree of Life:重建所有生物的进化历史并以系统树的形式加以描述r
3、 比较形态学和比较生理学:确定大致的进化框架比较形态学和比较生理学:确定大致的进化框架 细节存很多的争议细节存很多的争议r 最理想的方法:化石!最理想的方法:化石!零散、不完整零散、不完整+第三种方案:分子进化 1964年,Pauling等提出分子进化理论:(1)生命起源:有机分子由简单向复杂演变 (2)生物进化:构成生物体的生物大分子如蛋白质、核酸的演变。基本假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息 意义:分子进化的研究可以为生物进化过程提供佐证,为深入研究进化机制提供重要依据。从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系 tree of lif
4、e,物种分类 大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,进行大分子功能预测 进化速率分析:例如,HIV的高突变性,哪些位点易发生突变?分子进化研究的目的分子进化研究的目的真细菌真细菌 真核生物真核生物 古生菌古生菌 5353个人的线粒体基因组个人的线粒体基因组(16,587bp)(16,587bp)人类迁移的路线人类迁移的路线非洲人相对其他大陆上的非洲人相对其他大陆上的人类在基因上极为多样化人类在基因上极为多样化随着距非洲距离越来越长,随着距非洲距离越来越长,遗传多样性的衰退程度,遗传多样性的衰退程度,正好沿着人类早期迁徙的正好沿着人类早期迁徙
5、的路线慢慢增大路线慢慢增大。+系统发育树:描述一组对象进化历史的一种图表。+分类单元:用来构建系统发育树的对象。可以是基因、蛋白序列,或者是序列之外的数据(形态特征、酶切位点等)+系统发育树是一种二叉树。由一系列节点(nodes)和分支(branches)组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。一一、系统发育树系统发育树+树的节点又分为外部节点(terminal node)和内部节点(internal node)。+外部节点:代表实际观察到的分类单元。+内部节点:又称为分支点,代表分类单元进化历程中的祖先。ABCDE分支/世系节点1.1 依据树
6、是否有根可分为:+有根树:从最早共同祖先(即根)开始,随着时间的连续分歧事件引起的一组相关对象的分歧 每个分支的进化方向是确定的+无根树:只表示分类单元之间的关系,不鉴别最早共同祖先 不清楚内部分支的祖先物种是从哪里来的,进化方向不清楚archaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote无根树无根树archaeaarchaeaarchaeaMonophyletic group(单源支单源支)Monophyleticgro
7、up有根树有根树 外围支条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著如何确定树根如何确定树根?引入外围支引入外围支(Outgroup)(Outgroup)辅助定位树根。辅助定位树根。选择外围支:选择外围支:bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeaMonophyletic group(单源支单源支)Monophyleticgroup外围支外围支Rooted by outgroup1.2 依据进化关系可分为依据进化关系可分为:基因树:基因树:
8、用于确定大基因家族内基因或蛋白进化用于确定大基因家族内基因或蛋白进化关系的树。关系的树。物种树:物种树:代表一个物种或群体进化历史的系统发代表一个物种或群体进化历史的系统发育树育树 当不同物种的直系同源基因序列被用来确定物种之间当不同物种的直系同源基因序列被用来确定物种之间的关系时,会用物种名标记分类单元,树称为物种数的关系时,会用物种名标记分类单元,树称为物种数。+有三种基本的表示方法:+进化分支树(Cladogram):展示了分类单元之间的家系关系,但没有任何时间和分歧程度。即无支长信息。+加性树(additive tree):除了展示家系关系,用分支长度度量进化分歧。分支长度的单位是任意
9、的,与位点变异数成比例。+等距离树:除了加性树的属性外,它假设所有分支有同样的变异速率(分子钟)。+如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有联系的分类单元。+如果找不到可以作为树根的单元,则系统发生树是无根树。+从根节点出发到任何一个节点的路径指明进化时间或者进化距离。+对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的。系统发育分析的目标 寻找这棵正确的树+分子进化分析介绍+系统发育树重建方法+常用分子进化与系统发育分析的软件多序列比对(自动比对,手工比对)多序列比对(自动比对,手工比对)选择建树方法及取代模型选择建树方法及取代模型建立
10、进化树建立进化树进化树评估进化树评估选择数据(核酸选择数据(核酸/蛋白质,外围支)蛋白质,外围支)+从多重序列比对到构建进化树有多种算法,可分两大类:+基于距离的方法 首先通过各个序列之间的比较,根据一定的假设(进化距离模型)推导出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离。+基于特征的方法 不计算序列之间的距离,而是将序列中有差异的位点作为单独的特征,并依据这些特征来建树。+基于距离的方法 非加权分组平均法(UPGMA)最小近乎距离(ME)邻近法(NJ)+基于特征的方法 最大简约法(MP)最大似然法(ML)Bayesian+计算速度 距离法 最大简约
11、法 最大似然法最大简约法(maximum parsimony)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,计算出所需替代数最小的那个拓扑结构,作为最优树。1)能将所有可能的树区别出来的位点2)指那些至少存在2个不同碱基/氨基酸,且每个不同碱基/氨基酸至少出现两次的位点信息位点信息位点(Sites are informative)例例:1,2,3,4:1,2,3,4四条序列代表四条序列代表4 4个分类单元个分类单元+Position 5,7
12、,9为信息位点+基于position 5的三个MP:Tree 1长4,Tree 2&3长2+同理,综合所有信息位点:Tree 1长4,Tree 2长5,Tree 3长6+计算结果:MP tree的最优结果为Tree 1+又称距离矩阵法,首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系 计算序列的距离,建立距离矩阵通过距离矩阵建进化树简单的距离矩阵简单的距离矩阵由进化距离构建进化树的方法有很多,常见有:Fitch-Margoliash Method(FM法):对短支长非常有效 Neighbo
13、r-Joining Method(NJ法/邻接法):求最短支长,最通用的距离方法 Unweighted Pair Group Method(UPGMA法)通过矩阵建树的方法通过矩阵建树的方法+分成三组:D,E及ABC。计算距离矩阵+将DE合并,ABC单列,计算距离矩阵分成三组:分成三组:C,DE及及AB。计算距离矩阵。计算距离矩阵+选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。位置位置1位置位置2位置位置3SUM拓扑树拓扑树AL(A1)L(A2)L(A3)Asum拓扑树拓扑树BL(B1)L(B2)L(B
14、3)Bsum拓扑树拓扑树CL(C2)L(C3)L(C3)Csum似然值最大,即SUM最大的拓扑树则为最优树。1.可靠的待分析数据可靠的待分析数据2.准确的多序列比对准确的多序列比对3.选择合适的建树方法:选择合适的建树方法:A.序列相似程度高序列相似程度高,MP(最大简约法最大简约法)B.序列相似程度较低序列相似程度较低,ML(最大似然法最大似然法)C.序列相似程度太低序列相似程度太低,无意义无意义4.一般采用两种及以上方法构建进化树,无显著区一般采用两种及以上方法构建进化树,无显著区别可接受别可接受构建进化树的一般原则构建进化树的一般原则 进化树的可靠性分析:自展法(Bootstrap Me
15、thod)(统计方法)。从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性进化树的可靠性分析进化树的可靠性分析第三节第三节 常用分子进化与常用分子进化与系统发育分析的软件系统发育分析的软件1.Phylip 由华盛顿大学遗传学系开发,是一个免费的系统发育分析软件包(版本3.69),可以通过以下地址下载。http:/evolution.gs.washington.edu/phylip.html2.PAUP*最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,
16、后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件。软件名称网址说明PHYLIPhttp:/evolution.gs.washington.edu/phylip.htmlIt includes programs to carry out parsimony,distance matrix methods,maximum likelihood,and other methods on a variety of types of data,including DNA and RNA sequences,protein sequences,restrict
17、ion sites,0/1 discrete characters data,gene frequencies,continuous characters and distance matrices.PAUPhttp:/paup.csit.fsu.edu/It includes parsimony,distance matrix,invariants,and maximum likelihood methods and many indices and statistical tests.Tree of Lifehttp:/phylogeny.arizona.edu/tree/program/
18、program.htmlArizona大学开发的软件MEGAhttp:/美国宾州州立大学Masatoshi Nei开发(It carries out parsimony,distance matrix and likelihood methods for molecular data.)软件名称网址说明MOLPHYhttp:/www.ism.ac.jp/software/ismlib/softother.e.html#molphy日本国立统计数理研究所开发。(Carrying out maximum likelihood inference of phylogenies for either
19、nucleotide sequences or protein sequences.)PAMLhttp:/abacus.gene.ucl.ac.uk/software/paml.html英国伦敦学院Z.H.YANG开发。(A package of programs for the ML analysis of nucleotide or protein sequences.)PUZZLEftp:/fx.zi.biologie.uni-muenchen.de/pub/puzzle应用Quarter puzzling方法(一种最大简约法)构建系统发育树TreeViewhttp:/taxonomy.
20、zoology.gla.ac.uk/rod/treeview.htmlA program for displaying trees on Apple Macs and Windows PCs.It can draw rooted and unrooted trees,display bootstrap values,and supports the native font and graphics file formats of both Macs and PCs.phylogenyhttp:/www.ebi.ac.uk/phylogeny.htmlEBI的系统发育树分析软件+Phylip包含
21、了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。+Phylip有多种不同平台的版本包括Windows,Macintosh,DOS,Linux,Unix和OpenVMX)。+Phylip是目前最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。分子序列组分子序列组:蛋白质序列蛋白质序列:protpars,proml,promlk,protdist核酸序列:核酸序列:dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacom
22、p+距离矩阵组:Fitch,kitsch,neighbor+基因频率组:Gendist,contml+离散字符组:Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factor+进化树绘制组:drawtree,drawgram+其他:restdist,restml,seqboot,contrast treedist,consense,retreePhylipPhylip安装安装分析程序分析程序帮助文件帮助文件ExeExe文文件件夹夹内内容容1.根据分析数据,选择适当的程序 如果分析的是DNA数据,就在核酸序列分析类中选择程序(dnapenny
23、,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp)如果分析的是离散数据,如突变位点数据,就在离散字符组里面选择程序。2.选择适当的分析方法 如分析的是DNA数据,可以选择简约法(dnapars),似然法(dnaml,dnamlk),距离法等(dnadist)。3.进行分析 选择好程序后,执行,读入分析数据,选择适当的参数,进行分析,结果自动保存为outfile,outtree。Outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。outtree是分析结果的树文件,可以用phylip提供的绘树程序打
24、开查看,也可以用其他的程序来打开,如treeview。Alignment.phykitsch.exe fitch.exeneighbor.exednadist.exeDistdnapars.exeMPdnamlk.exednaml.exeMLouttreeoutfileTreeviewconsen-se.exeoutfileouttreeAlignment.phykitsch.exe fitch.exeneighbor.exeprodist.exeDistprotpars.exeMPpromlk.exeproml.exeMLouttreeoutfileTreeviewconsen-se.exe
25、outfileouttree(1).(1).进入进入EXE文件夹,点击文件夹,点击SEQBOOT软件,输入软件,输入DNA8.phy文件名,回车后,输文件名,回车后,输Y确认参数。确认参数。并在并在Random number seed(must be odd)?的下面输入一个的下面输入一个4N+14N+1的数字的数字如如5 5,程程序开始运行,并在序开始运行,并在EXEEXE文件夹中产生文件文件夹中产生文件outfile.进化树的可靠性进化树的可靠性分析分析:自展法自展法(Bootstrap Method)(2).(2).得到一个文件得到一个文件outfile,把文件把文件outfile改名为
26、改名为infile,infile可用记事本打开,内容如下:可用记事本打开,内容如下:(3).点击点击DNADIST(PRODIST for 蛋白序列蛋白序列)程序。输入程序。输入M更更改参数,输入改参数,输入D选择选择data sets,输入输入100。输。输Y确认参数确认参数,程程序开始运行,并在序开始运行,并在EXE文件夹中产生文件夹中产生outfile。建树方法:距离矩阵法推测进化树建树方法:距离矩阵法推测进化树(4).将原先将原先infile文件名改为文件名改为infile1,再将,再将outfile文文件名改为件名改为infile。(5).(5).在在EXE文件夹中选择通过文件夹中选
27、择通过距离矩阵距离矩阵推测进化推测进化树的算法:点击树的算法:点击NEIGHBOR程序(采用的是程序(采用的是邻邻接法接法(N-JN-J)和)和UPGMAD相结合的算法)相结合的算法),输入输入M M更改参数,输入更改参数,输入D D选择选择data sets,输入输入100,100,输输入奇数种子入奇数种子5,5,输输Y Y确认参数确认参数,程序开始运行,并程序开始运行,并在在EXEEXE文件夹中产生文件夹中产生outfile和和outtree两个结果输两个结果输出。出。(6).将EXE文件夹中的outfile文件名改为outfile1,以避免被新生成的outfile 文件覆盖。点击CONS
28、ENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。(7).将EXE文件夹中的intree文件名改为intree1,将outtree改intree。点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。注注:由由consence获得最优树获得最优树(Bootstrap)。(8).点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。Treeview是一个读进化树免费软件,此软件可以根是一个读进化树免费软件,此软件可以根据据Phylip得到的树输出文件,做出无根树,有根树,得到的树输出文件,做出无根树,有根树,还能在树中显示进化距离。还能在树中显示进化距离。TREEVIEWhttp:/evolution.gs.washington.edu/phylip.html+本章讲述了分子进化的相关概念,进化树的定义,构建系统发育树的常用算法,系统发育树构建的步骤和原则,构建进化树的常用软件。着重讲述使用Phylip软件构建进化树的构成以及参数的含义和设置。+1.氨基酸替代中为什么需要用泊松校正模型?+2.为什么病毒在进化研究过程中有很重要作用?+3.如何利用序列数据判断基因存在非中性进化?