1、分子进化基础分子进化基础Charles Darwin(1809 1882)达尔文进化论是科学理论吗?达尔文进化论是科学理论吗?一个人的进化(形态变化)加拉帕格斯群岛地雀的进化(鸟喙变异)观观 察察达尔文雀喙与人类工具分分 析析进化树与物种分歧图分分 析析结论:结论:结婚结婚,结婚结婚,结婚结婚!Cambridge University Library结婚的好处与坏处 不结婚的好处与坏处 观察与分析并不一定能保证产生科学理论!观察与分析并不一定能保证产生科学理论!达尔文观察豆科植物6个属达30年之久孟德尔观察豌豆的7个特征达尔文进化论的逻辑架构达尔文进化论的逻辑架构恩斯特迈尔(19042005)
2、物种可变理论 共同祖先理论 渐变理论 物种增殖理论 自然选择理论用现代科学理论的标准重新审视进化论用现代科学理论的标准重新审视进化论 可预测性 可控实验 可证伪性卡尔波普尔(1902-1994)假设假设 试试错错 删减删减/修改修改 新假设新假设加拿大北部埃尔斯米尔岛上加拿大北部埃尔斯米尔岛上3亿亿7千千5百万年前的沉积岩百万年前的沉积岩 预预 测测“大淡水鱼”棘螈 潘氏鱼 特立尼达岛阿立波河中虹鳉鱼的微进化特立尼达岛阿立波河中虹鳉鱼的微进化 长期的进化过程导致上游溪流中的虹鳉鱼个体较大,下游河流中的虹鳉鱼个体较小。自然选择实验 20 代后,发生了逆转实实 验验中性进化学说创立者中性进化学说创
3、立者Motoo Kimura 木村资生(木村资生(19241994)Nature 1968,217:624626Kimura(1983)The Neutral Theory of Molecular Evolution.8 8个蛋白质的进化速率个蛋白质的进化速率按按Kimura 分子钟计算分子钟计算,一个长度为一个长度为100aa的蛋白质平均每的蛋白质平均每28x106 年出现一次变化年出现一次变化deleteriousadvantagesdeleteriousneutralKimura(1968)Nature 217 624-626Kimura假设大多数的置换是中性的,或者说假设大多数的置换
4、是中性的,或者说很小一部分变化是由于达尔文进化引起的很小一部分变化是由于达尔文进化引起的中性突变(等位基因)与野生型具有中性突变(等位基因)与野生型具有相同的相同的适合适合度度基因的命运基因的命运 在分子水平,大多数进化的变化和同一个物种中的大多数变异不在分子水平,大多数进化的变化和同一个物种中的大多数变异不是由于选择造成的,而是由与自然选择等价的基因随机漂变造成的。是由于选择造成的,而是由与自然选择等价的基因随机漂变造成的。Graur&Li.Fundamentals of Molecular EvolutionDNA序列突变祖先基因XYt1t 时间XYDNA 序列进化AAGACTTTGGAC
5、TTAAGGCCT-3 mil yrs-2 mil yrs-1 mil yrstodayAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTTAGCCCATAGACTTAGCGCTTAGCACAAAGGGCATAGGGCATTAGCCCTAGCACTTAAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTAGCGCTTAGCACAATAGACTTTAGCCCAAGGGCAT序列置换模型序列置换模型Sequence Substitution Models序列间的核苷酸差异比较序列间核苷酸的差异,差异越少,分歧时间越短仅有
6、4种可能的状态(A,C,T,G)同一祖先序列衍生的两条后裔序列间分歧的简单测度就是两条后裔序列不同核苷酸位点的比例如何计测序列间的平均如何计测序列间的平均置换数(距离)置换数(距离)?DNA置换模型的必要性必须准确和无偏见地估计分歧度和速率数学模型可以考虑回复和平行突变等情况,尤其是在p值较大时Jukes-Cantor 单参数模型最简单的DNA序列进化模型假设任一位点的核苷酸置换概率相同,仅有一个参数,即一个核苷酸变为另一个核苷酸的概率为;一个核苷酸变为其他任何一个核苷酸的概率为3ACGT嘌呤嘧啶 一个单位时间后:A演变为3种其他任何一种核苷酸的概率为3 A保持不变的概率为A=1-329(1)
7、()(3 4)ppV dp n(3/4)ln1(4/3)dp/dpnnKimura双参数模型两类核苷酸 嘌呤:A,G 嘧啶:C,T转换(Transitions):相似置换颠换(Transversions):嘌呤被嘧啶置换,反之亦然在实际数据中,转换置换的速率常高于颠换的速率ACGT嘌呤嘧啶转换=颠换=JC 模型K-2 模型核苷酸置换模型 Jukes Cantor 单参数模型 Kimura 双参数模型 Equalinput模型 Tamura模型 HKY模型.MEGA序列分歧较小时,两个模型的结果基本相同序列分歧较大时,双参数模型更为准确(尤其是当转换概率明显高于颠换概率时)单参数和双参数模型的比
8、较ModelTest 软件网站氨基酸置换矩阵用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。该方法由Dayhoff(1978)建立较为成熟的有:Dayoff和Blosum计分矩阵Dayhoff 突变数据矩阵分析一组关系很近的蛋白质,其中的氨基酸置换不引起蛋白质功能上的显著变化,称为“可接受突变”一个PAM的进化距离定义为每100个氨基酸中一个点突变可被接受的概率Dayhoff PAM 250BLOSUM矩阵BLOSUM矩阵可以用关系较远的序列来获得矩阵元素以大于或等于80同一性的聚合序列构建BLOSUM 80 矩阵,而大于或等于62的聚合序列则
9、用于构建BLOSUM 62 矩阵BLOSUM 62Henikoff and Henikoff,PNAS.1992,89(22):10915-9 同义置换与非同义置换同义:Sequence 1:UUU CAU CGUSequence 2:UUU CAC CGU Coded Amino Acids:Phe His Arg l 非同义非同义:Sequence 1:UUU CAU CGUSequence 2:UUU CAG CGU Coded Amino Acids:Phe His Arg GlnKA:nonsynonymous substitution(非同义置换)KS:synonymous sub
10、stitution(同义置换)1Positive selection(正选择)KA/KS =1Neutral evolution(中性进化)1Negative selection(负选择)适应性/选择性检测Ka/Ks 检验的两类方法基于Maximum Parsimony原理的近似方法 Nei and Gojobori 为代表(MEGA)基于Maximum Likelihood原理 Ziheng Yang为代表(PAML)PAML by Ziheng Yang对基因的选择Housekeeping Genes.Negative(Purifying)selection.Change is Bad.G
11、enes that have a role in adaption.Positive(Adaptive)selection.Change is Good.Selectively neutral genes Genetic drift.哪些基因容易检测到正选择 Genes involved in defensive systems or immunity Genes involved in evading the defensive systems or immunity Genes involved in reproduction Genes involved in digestion Yan
12、g&Bielwaski(2000)TREE.15:496休息一下物种起源海克尔的“生命之树”核糖体DNA的“分子生命树”分子系统学支持“共同祖先理论”Willi Hennig(1913-1976)系统发育系统学系统发育系统学(分支学分支学)创始人创始人单系类群单系类群(a)、并系类群并系类群(b)、复系类群复系类群(c)有根树、无根树有根树、无根树内类群、外类群、内类群、外类群、姐妹群姐妹群标度树标度树(进化单位或时间进化单位或时间)树的数量#sequences#unrooted trees#rooted trees21131343155151056105945794510,395810,39
13、5 135,1359135,1352,027,025102,027,02534,459,425 基因复制与丧失Duplication eventLineage goes extinct(gene loss)gene lossgene lossCBA123直系同源与并系同源分子进化树分子进化树分子系统发育分析的主要方法分子系统发育分析的主要方法 1.距离矩阵法距离矩阵法(Distance Matrix)2.最大简约法最大简约法(Maximum Parsimony)3.最大似然法最大似然法(Maximum Likelihood)4.贝叶斯法贝叶斯法(Bayesian Inference)主要有UP
14、GMA法(类平均法)和NJ法(邻接法)。使用这两种方法前都必须获得一个对称距离矩阵(m阶方阵)D=dijmm。距离系数的公式很多。例如,Nei(1972)的遗传距离系数适用于限制性内切酶和同功酶数据,Jukes-Cantor 单参数距离系数和Kimura两参数模型距离系数则广泛用于各种序列数据。距离矩阵法距离矩阵法距离聚类输入输入:物种物种/序列间距离矩阵序列间距离矩阵要点要点:将最近的物种/序列聚合在一起开始用于聚合的单元是独立的在每次迭代中,将两个”最近”单元(距离最小)聚在一起形成一个新的聚合单元UPGMA方法方法(算术平均的不加权组对法)ABCDEAB1.43C2.654.24D5.2
15、44.332.52E3.081.572.193.021.找到距离矩阵中最小的距离,在这个例子中具有最小距离的聚合单元是A 和 B.2.将 A 和 B 用树枝相连并给每一个分枝赋予一半的遗传距离3.从现在起,将(A+B)作为一个单元考虑AB0.7150.715ABCDEAB1.43C2.654.24D5.244.332.52E3.081.572.193.024.根据A和B的距离来重新计算遗传距离 例如,(A+B)和 C 的距离是(2.65+4.24)/2=3.445依次计算所有影响到的距离A+BCDEA+BC3.445D4.7852.52E2.3252.193.025.重复上述步骤,找到下一个最
16、小的距离。在这个例子中 是C 和 E之间的距离.6.将 C 和 E 用树枝相连,并给每一个树枝一半的遗传距离7.将(C+E)作为 一个单元考虑AB0.7150.715CE1.0951.0958.基于C和E的距离的平均值,重新计算遗传距离 例如,(C+E)和 D 的距离是(2.52+3.02)/2=2.77 重新计算其他受到影响的距离 A+BCDEA+BC3.445D4.7852.52E2.3252.193.02A+BC+EDA+BC+E2.885D4.7852.779.现在重复这些步骤.找到下一个最小的距离。这个例子中是(C+E)和 D之间的距离.AB0.7150.715CE1.0951.09
17、5D1.3851.38510.将(C+E)和 D 用树枝,并给每一个分枝一半的遗传距离.11.将(C+E+D)作为一个单元来考虑12.最后的距离是(A+B)和(C+D+E),赋给每个树枝一半 的遗传距离AB0.7150.715CE1.0951.095D1.3851.3851.921.92邻接法(Neighbor Joining Algorithm)邻接法邻接法(NJ)关键步骤:1)计算发散系数2)生成一个速率校正距离矩阵软件软件1)PHYLIP2)TREE-PUZZLE3)MEGA4)PAUP5)PAML6)TreeView应用实例应用实例两个分子系统发育分析实例1.“走出非洲”(人类起源假说
18、 mtDNA 序列分析 Cann et al.,1987,Nature.2.佛罗里达牙医事件 HIV 相关基因序列分析 Ou et al.,1992,Science.Los Alamos HIV Sequence DB(http:/hiv-web.lanl.gov/)HIV 从哪里来从哪里来?Freeman&Herron,2001.Evolutionary Analysis.Prentice Hall2003/6/13 Science 来自不同种类猴子的两个病毒在来自不同种类猴子的两个病毒在非洲黑猩猩体内经重组后形成了引发非洲黑猩猩体内经重组后形成了引发人类艾滋病的人类艾滋病的SIV菌株菌株
19、SIVcpz是通过来自红盖猴和花鼻猴的SIVs病毒不断地传播和重组的过程变成了起源于黑猩猩的SIVcpz的。黑猩猩捕食这两种猴子。这些猴子和黑猩猩在西部中非洲有重叠的活动区域。人类不是通过自然状态下物种间的传播而获得两种不同SIVs菌株的唯一物种,这种自然状态下的物种间传播很可能是由捕食行为产生的。黑猩猩捕食小型猴子是不是导致了它们获得其它的SIV感染?这些SIV与SIVcpa的共同感染或与SIVcpz进行重组可能性有多大?这些适应了黑猩猩的SIV是不是最终更可能感染人类?哈佛大学阿哈佛大学阿布扎诺夫博布扎诺夫博士与普林斯士与普林斯顿大学格兰顿大学格兰特教授夫妇特教授夫妇 如果不按照进化思想思考问题,生物学的一切将无法理解 (Nothing in biology makes sense except in the light of evolution)杜布赞斯基杜布赞斯基 (Theodosuis Dobzhansky)