1、分子进化分析Phylogenetic analysis序列比对与进化分析1.GAATC2.GAGTT共同的祖先GA(A/G)T(C/T)核糖体RNA的进化关系有根树和无根树 Rooted Unrooted序列A序列B序列C序列D序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C序列D序列B序列A序列C对于任意一个无根树,根节点可以被放在任意一个地方穷举一组序列的进化树序列数目序列数目有根树有根树无根树无根树3314153510515710395954152134580467678757905853580625序列D序列B序列A序列C序列D序列C序列A序列B序列B序列D序列
2、A序列C进化分析的步骤相似性分析多重比对收集待分析的近似序列最大简约法极大似然法距离法高度相似中度相似低度相似验证进化预测与原始数据的匹配程度最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG列出所有的无根树序列4序列2序列1序列3序列4序列3序列1序列2序列3序列4序列1序列2区分有义列和无义列甲树丙树乙树有义列的定义:在一列上如果有分歧(即为有义列),该列上所有碱基至少应该出现2次最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点5的分析:填充碱基,计算
3、变化数A 序列4序列2 G序列1 GA 序列3A 序列4序列3 A序列1 GG 序列2A 序列3序列4 A序列1 GG 序列2GAAAAA甲树丙树乙树规定二:线段两端的碱基如果不同,属于一次变化,树图应该使变化数最小最大简约法Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位点7的分析C 序列4序列2 G序列1 GC 序列3C 序列4序列3 C序列1 GG 序列2C 序列3序列4 C序列1 GG 序列2GCCCCC甲树丙树乙树Taxa1234123456789AAGAGTGCAAGCCGTGCGAGATATCCAAGAGATCCG对位
4、点9的分析G 序列4序列2 G序列1 AA 序列3G 序列4序列3 A序列1 AG 序列2A 序列3序列4 G序列1 AG 序列2AAAAGA甲树丙树乙树最大简约法进化树进化树位点位点5位点位点7位点位点9总计总计甲1124乙2215丙2226选择进化树中变化最少的作为候选最大简约法 序列4序列2 序列1 序列3最大简约法距离法序列序列ABCDA C G C G T T G G G C G A T G G C A A CA C G C G T T G G G C G A C G G T A A TA C G C A T T G A A T G A T G A T A A TA C A C A
5、T T G A G T G A T A A T A A T距离分布表距离分布表ABCDA378B67C3DDBAC24121计算方法:Fitch and Margoliash Method(FM)Neighbor-joining Method(NJ)The Unweighted Pair Group Method with Arithmetic Mean(UPGMA)距离法Fitch and Margoliash Methoda+b=22a+c=39b+c=41a=10,b=12,c=29Fitch and Margoliash MethodDEABCd+e=10d+x=32.7e+x=34.
6、7d=4,e=6dexFitch and Margoliash MethodDEf+(d+e)/2+c=19f+(d+e)/2+y=41c+y=40f=5,c=9decABCfyFitch and Margoliash MethodDE(f+(d+e)/2+c)/2+g+a=119/3(f+(d+e)/2+c)/2+g+b=125/3a+b=22a=10,b=12,g=20decCfABabgABCDEA22119/3B125/3CDENeighbor-joining Method优选原则:所有分支总和最短AB+AC+AD+AE+BC+BD+BE+CD+CE+DE=314a,b,c,d,e五个
7、分枝总和长度为S=a+b+c+d+e=314/4=78.5=a+b+a+c+a+d+a+e+b+c+b+d+b+e+c+d+c+e+d+e=4a+4b+4c+4d+4eNeighbor-joining MethodAB+AC+AD+AE+BC+BD+BE+CD+CE+DE=a+b+(a+f+c)+(a+f+d)+(a+f+e)+(b+f+c)+(b+f+d)+(b+f+e)+(c+d)+(c+e)+(d+e)=6f+4a+4b+4c+4d+4e 6f+4a+4b+4c+4d+4e=314CDEABcdefab假设一总长度SAB组合=a+b+c+d+e+f=(314+2AB+CD+CE+DE)/
8、6=67.7计算:a+b+c+d+e+fNeighbor-joining MethodADEBCadefbc假设三平均长度SBC=81ABEDCabefdc假设二平均长度SCD=76SDE,SAC,SAD,SAE,SBDNeighbor-joining Method最小值为SAB=67.7 故进化树应为:CDEABcdefab将AB枝看作一个,再寻找CDE分枝中的树形(S最小)ABCDEAB404042C1820D10ENeighbor-joining MethodCDEABcdefabgCDEABcdefabgDCEABdcefabgThe Unweighted Pair Group Met
9、hod with Arithmetic Mean(UPGMA)d=e=10/2=5The Unweighted Pair Group Method with Arithmetic Mean(UPGMA)c=LC-DE/2=19/2=9.55+g+c=LC-DE=19 g=4.5The Unweighted Pair Group Method with Arithmetic Mean(UPGMA)a=b=22/2=11The Unweighted Pair Group Method with Arithmetic Mean(UPGMA)ABCDEAB40.67CDE外类群(Outgroup)能提
10、高预测的准确性有助于确定根节点的位置应与待分析的序列存在较大差异必需与待分析的序列存在一定的相似性Outgroup距离值(D)的确定:两两序列间碱基差异数目的百分比值由序列比对程序产生的相似性分值(S)计算S=e-DD=-ln(s)不同进化速率的修正随着序列差异的增加,同一位点可能发生多次突变或回复突变,看似保守的位点可能已经有个别序列发生过突变。ACTGAACGTAACGCACTGAACGTAACGCACTGAACGTAACGCCTTCCTTKAB=-3/4ln(1-4/3dAB)KAB=(1-(fA2+fG2+fC2+fT2)ln(1-4/3dAB)KAB=1/2ln(1/(1-2dABt
11、ransition-dABtransversion)+1/4ln(1/(1-2dABtransversion)极大似然法TT AGAGTTT AGCAATT AGGGTTT AGGGG进化树的检验自举(bootstrap)检验 BootStrap重采样法进化分析软件PhylipPAUPMacClade利用进化树进行重组分析ADCBE使用距离法逐段进行进化树的构建 逐段扫描 量化新序列在各段进化树中的位置 0G1,Ga+Gb+Gc+Gn=1 G越大,表示新序列埋在某个基因型的分枝中越深。G很小则表示新序列不在这个基因型分枝中G 新序列相对于基因型A的位置分值N 新序列到基因型A的某条序列所经过的
12、节点数Y 基因型A的样本数00.10.20.30.40.50.60.70.80.911357911 13 15 17 19 21 23 25 27 29 31Tag_1Tag_2Tag_3Tag_4Tag_5Tag_6Tag_7Tag_8Tag_900.10.20.30.40.50.60.70.80.9113579 11 13 15 17 19 21 23 25 27 29 31Tag_1Tag_2Tag_3Tag_4Tag_5Tag_6Tag_7Tag_8Tag_9AB231908Discovery of HBV Genotype IHOMEWORK 利用已知的ABCD型的参考序列:下载并比对,使用MEGA做进化树 下载X98077,与上述参考序列重新比对并做进化树,判断他的基因型。AAB076679AB194950FM199977BAB073852AB287314CAB112472FJ562317DAB188241DQ486024