1、第四章连锁交换值的计算2亲本及其配子遗传构成亲本及其配子遗传构成 相引相相引相AB/ab 配子:亲本型:配子:亲本型:AB,ab 交换型:交换型:Ab,aB 相斥相相斥相Ab/aB 配子:亲本型:配子:亲本型:Ab,aB 交换型:交换型:AB,ab各基因型个体数各基因型个体数双显性:双显性:a=AB;单显性单显性:b=Ab;c=aB;隐隐 性性:d=ab 3如何判断连锁关系如何判断连锁关系步骤:步骤:先分析每个基因是否符合正常分离先分析每个基因是否符合正常分离 然后多对基因再联合分析然后多对基因再联合分析4n)dcba(22An)dcba(22Bn)dcba(22L测测A a与与1 1之间的偏
2、差;之间的偏差;测测B b与与1 1之间的偏差之间的偏差 测新组合;老组合与测新组合;老组合与1 1之间的偏差,即测两对基之间的偏差,即测两对基因的独立性。因的独立性。一、对测交后代进行x2测验 a=AB;b=Ab;c=aB;d=ab理论上测交后代,理论上测交后代,A:a=1:1 即即 a+b=c+d;B:b=1:1 即即 a+c=b+d 如不连锁重组类型与亲本类型如不连锁重组类型与亲本类型1:1即:即:ad=b+c5例:对例:对AaBb进行测交,产生进行测交,产生612个后代,其中个后代,其中AB=220,Ab=84,aB=102,ab=206,A、B基因之间是否存在连锁?基因之间是否存在连
3、锁?把各项数字代入公式:把各项数字代入公式:67.1612)20610284220(22B12.94)(22ndcbaL根据自由度(根据自由度(d.f.),),可以查出获得上述可以查出获得上述 2值的概率值的概率:2值 d.f.PAa0.03 10.9-0.7Bb1.67 10.25-0.1总值 95.82 30.005Aa-Bb94.1210.00503.0612)20610284220(22A6二、对F2进行2测验 n3)d3c3ba(22An3)d3b3ca(22BndcbaL9)933(22 rn)raa(22127表4-1 测验两类性状分离的不同理论比率2值公式n)aa(221n2)
4、a2a(221n3)a3a(221n15)a15a(221n9)a9a7(221rn)raa(2212公式1 12 13 115 19 7分离比率分离比率r 189例一、让例一、让AaBb自交得到自交得到AB=142,Ab=49,aB=43,ab=15,n=249,试问,试问AB之间是否连锁?之间是否连锁?把各项数值代入公式,则:把各项数值代入公式,则:d.f.=1 P=0.700.50 d.f.=1 P=0.900.80d.f.=1 P=0.98 总总 2=0.3869+0.0656+0.0004=0.4529 d.f.=3 P=0.99 0.95可见可见Aa和和Bb各自的分离都符合各自的分
5、离都符合3 1分离比率,分离比率,Aa与与Bb重组类别也符合重组类别也符合9 3 3 1之比,说明这两对基因间不存在连锁关系。之比,说明这两对基因间不存在连锁关系。3869.02493)15343349142(22A0656.02493)15349343142(22B004.02499)159493493142(22L10例二,让例二,让AaRr自交,后代出现自交,后代出现AR=152,Ar=99,aR=43,ar=9,求,求AR之间是否存在连锁关系?之间是否存在连锁关系?依依9 3 3 1假设,算得各个假设,算得各个 2值和总值和总 2值如值如下:下:A2=9.99 d.f.=1 P0.01
6、 R2=18.31 d.f.=1 P0.01 L2=13.66 d.f.=1 P0.01 总总 2=41.96 d.f.=3 P 0.01 从总从总 2来看,这个结果不符合来看,这个结果不符合9 3 3 1的分的分离比率,但从各离比率,但从各 2的分解值来看,出现这种偏的分解值来看,出现这种偏差主要在于基因对的遗传行为不正常,因而扰差主要在于基因对的遗传行为不正常,因而扰乱了整个分离群体的比例。乱了整个分离群体的比例。11例三、例三、PpSs自交,后代表现型为自交,后代表现型为PS=235,Ps=91,pS=109,ps=9,求,求PS间是否存在连锁关系。间是否存在连锁关系。算得各算得各 2值
7、及值及P值为:值为:P2=0.590 d.f.=1 P=0.500.30 S2=1.453 d.f.=1 P=0.300.20 L2=20.184 d.f.=1 P0.01 总总 2=22.227 d.f.=3 P P0.75,说明符合独立遗传,说明符合独立遗传,Aa和和Bb并不连锁。并不连锁。16五、卡方测验的正确应用五、卡方测验的正确应用1、卡方值与样本容量、卡方值与样本容量 实际观察值与期望值保持不变时,样本实际观察值与期望值保持不变时,样本容量大,则卡方变小。容量大,则卡方变小。所以,百分数不能用于卡方测验所以,百分数不能用于卡方测验2、连续矫正、连续矫正17表4-2 卡平方值,偏差和
8、样本容量n此表说明,百分数不能用于卡方测验此表说明,百分数不能用于卡方测验18这里所讲的一些原理也可以用来指导样本容量的设计:这里所讲的一些原理也可以用来指导样本容量的设计:例如,某大麦遗传学家在例如,某大麦遗传学家在200株大麦幼苗中发现有株大麦幼苗中发现有94株是浅绿苗。株是浅绿苗。而从理论上推算,幼苗应按一半绿苗一半浅绿苗分离。实际观而从理论上推算,幼苗应按一半绿苗一半浅绿苗分离。实际观察值与理论值的偏差为察值与理论值的偏差为6(或相当于期望值的(或相当于期望值的6%)这一偏差的这一偏差的2值仅为值仅为0.72,说明上述分离完全适合,说明上述分离完全适合1 1的比例。然的比例。然而,该遗
9、传学家怀疑淡绿基因可能与低生活力有关,故决定作另一而,该遗传学家怀疑淡绿基因可能与低生活力有关,故决定作另一种实验。他提的问题是:如果要在更大的样本中仍然保持种实验。他提的问题是:如果要在更大的样本中仍然保持6%的偏的偏差,需要检查多少株才能使差,需要检查多少株才能使2值增加达值增加达10倍?答案可以从表中找到,倍?答案可以从表中找到,即实际观察值与期望值之间的偏差如果保持在即实际观察值与期望值之间的偏差如果保持在6%的水平上,将样的水平上,将样本容量扩大到原来的本容量扩大到原来的10倍,就会使卡平方值达到要求的倍,就会使卡平方值达到要求的7.2。在这样。在这样大的样本中若能否定大的样本中若能
10、否定1 1的分离比例,则就足以证明浅绿苗的活力的分离比例,则就足以证明浅绿苗的活力较差。在另一方面,如果大样本的卡平方值证明对较差。在另一方面,如果大样本的卡平方值证明对1 1的分离偏差的分离偏差并不大,则可消除对淡绿苗活力较差的怀疑。并不大,则可消除对淡绿苗活力较差的怀疑。19第二节第二节 连锁强度(交换值)的计算连锁强度(交换值)的计算 一、测交法相引相相引相:ncbPndaP1)1(nPPP值的标准差S.E.p=相斥相相斥相:20利用测交法计算交换值的优点是:利用测交法计算交换值的优点是:1需要的群体较小;需要的群体较小;2能分别求出不同性别的交换值;能分别求出不同性别的交换值;3用相引
11、和相斥相的平均资料可以平衡成活率差异造成的影响;用相引和相斥相的平均资料可以平衡成活率差异造成的影响;4在三点或多点测验中求出的基因序列比较可靠。在三点或多点测验中求出的基因序列比较可靠。小麦、水稻等自花受粉作物由于人工授粉比较麻烦,测交法难于小麦、水稻等自花受粉作物由于人工授粉比较麻烦,测交法难于应用。有时,双隐性个体或不能成活,或生活力很弱,在开花授粉应用。有时,双隐性个体或不能成活,或生活力很弱,在开花授粉前死亡。在这种情况下,就不得不利用前死亡。在这种情况下,就不得不利用F2资料求算连锁强度。资料求算连锁强度。21当雌雄配子交换值相等且无选择受精时,在当雌雄配子交换值相等且无选择受精时
12、,在相引相相引相,各类配子自由结合的结果,各类配子自由结合的结果,F2 4类合子理论次数(频次)为:类合子理论次数(频次)为:4)1(22P4)1(242PPP4)1(14222PPP4)1(2Pb(Ab)=aB(c)=a(AB)=3(1-P)2/4+4P(1-P)/4+2P2/4=d(ab)=二、理论配子和合子频率的计算二、理论配子和合子频率的计算22相斥相的理论合子次数为:相斥相的理论合子次数为:424)1(24)1(443)(222PPPPPABa414)1(24)1()()(22PPPPcabAbb4)(2Pabd23表表4-2 不同连锁方式不同连锁方式F1的理论配子次数和的理论配子次
13、数和F2的理论合子次数的理论合子次数21P2P4)1(22P422P2P21P4)1(12P412P2P21P4)1(12P412P21P2P4)1(2P42P配子(及合子)类别代号理论配子次数理论合子次数相引相相斥相相引相相斥相ABaAbbaBcabd总数111124三、利用F2资料计算交换值(一)根据(一)根据F2双隐性个体出现的频率双隐性个体出现的频率 双隐性个体的出现是由于双隐性个体的出现是由于ab与与ab配子相结合的结果,在相斥相出现次数为配子相结合的结果,在相斥相出现次数为 ,即,即aabb=,故,故 。在相引相,双隐性个体出现次数在相引相,双隐性个体出现次数 ,由于,由于此法计算
14、交换值只根据此法计算交换值只根据F2 4种类型中出现概率最少的一种类型,因而常常有较种类型中出现概率最少的一种类型,因而常常有较大的取样误差。大的取样误差。42P42PaabbP24)1(2PaabbaabbP2125(二)利用(二)利用F2 4种类型的全部资料种类型的全部资料 1相加法。把a+d与b+c进行比较而计算交换值P值。例如,在相引相:4)1(224)1(4)1(2222PPPda4)1(222Pcb22)1(4)1(4)()(PPcbdaPcbda1)()()()(1cbdaP26在相斥相:在相斥相:422442222PPPda4224)1(222PPcb2244)()(PPcbd
15、a)()(cbdaP27现举一实例进行演算:玉米中有一个现举一实例进行演算:玉米中有一个 株,自交结果如下(株,自交结果如下(d为矮生株,为矮生株,pr为红色糊粉层):为红色糊粉层):prdF2表现表现型型代号代号株数株数频率频率+a4230.492+prb2120.247 d+c2150.250 Dprd100.012 总数总数 8601.000a+b=0.504 b+c=0.497交换值交换值 ,即,即8.4交换单位。交换单位。084.0007.0497.0504.0P28极大似然率(极大似然率(maximum likelihood)是连锁估计中最常用的方法。这一方法对)是连锁估计中最常用
16、的方法。这一方法对重组率估计需要从资料(数据)中获得尽可能多的信息。最大化(重组率估计需要从资料(数据)中获得尽可能多的信息。最大化(maximization)则通过求算则通过求算p的导数令其为零来进行,即求算的为的导数令其为零来进行,即求算的为p值的最大可能值,试误差达到值的最大可能值,试误差达到最小。为方便起见,往往把似然的表达转化为对数形式,使函数为最大时,对数最小。为方便起见,往往把似然的表达转化为对数形式,使函数为最大时,对数值也达最大。如果令值也达最大。如果令m1,m2,m3mt分别表示分离类型分别表示分离类型1,2t的期望比值,的期望比值,并令并令a1,a2,at为各相应类型的实
17、际个体数。期望比值为各相应类型的实际个体数。期望比值m可以用可以用p表示。例如表示。例如在测交时,由相引组连锁的双杂合子产生的在测交时,由相引组连锁的双杂合子产生的4种后代类型的比值可表示为:种后代类型的比值可表示为:m1=m4=1/2(1-P),m2=m3=1/2P。获得实测家系的似然值可由获得实测家系的似然值可由(m1+m2+mt)n展开式中的一项求出。其中展开式中的一项求出。其中n为为家系的总个体数,相应各项为:家系的总个体数,相应各项为:taaatmtmmaaan)()()(!21121似然率的对数形式为:L=C+a1logm1+a2logm2+atlogmt2、极大似然法、极大似然法
18、29通过求导数并令其为零即可得到估计方程:为了解出P,可直接将a1,a2at的实际观察值和各类型的期望值m1,m2mt代入该式。一般说来,连锁强度的估计可利用测交或F2代资料来进行。1利用测交资料计算重组率利用测交资料计算重组率 若把相引组连锁的双杂合子AB/ab与双隐性个体ab/ab杂交,那么,把这些m表达式代入估计方程得:0log)(log)(log)(2211dpmdadpmdadpmdadpdlttPabaBmabAbmpababmabABm21)()(),1(21)()(3241dppdadppdadppdadppdadpdl)2/12/1log()2/1log()2/1log()2
19、/12/1log(4321dppdadppdadppdadppda)1log(4)log()log()1log(3210114321papapapa30014132paapaanaaaaaaaap32432132这样估计的这样估计的p值就是该测交中的重组率。与此相似,在相斥组连锁情况下,双杂合子中值就是该测交中的重组率。与此相似,在相斥组连锁情况下,双杂合子中两基因的重组率两基因的重组率p可用下式估计:可用下式估计:naaaaaaaap41432141314)1(12P4)1(12P4)1(2P2、对相引组、对相引组F2代资料而言,仍以代资料而言,仍以a,b,c,d代表代表4类个体数类个体数则
20、有:则有:4)1(22P32 如令K=(1-P)2,则:L=alog(1/2+1/4K)+blog(1/4-1/4K)+clog(1/4-1/4K)+dlog(1/4K)求导:通分得:a(1-K)Kb(2+K)Kc(2+K)K+d(2+K)(1-K)0 即nK2-(a-2b-2c-d)K-2d=0,n为F2个体数 令Z=a 2b 2c d,则根据一元二次方程求根公式得:交换值:交换值:相斥相连锁得情况下K=P20112KdKcKbKadpdlndnZZK2)2)(4)(22KP133 导数实际上是在X0点切线的斜率34 =作代换 即得即得 这就是对数函数的导数公式这就是对数函数的导数公式,特殊
21、地特殊地,当当 时时,由上式得自然对数函数的导数公式由上式得自然对数函数的导数公式:35如前面例子:相斥相数字计算P值:n=860,Z=423 2 212 2 215 10=441nPPPpES)21(2)2)(1(.222)860)(16.2()04.2)(96.0(860)20.0(21 2)20.02)(20.01(2220324.000105.08602)102)(860(4)441(44122K0419.01720263281441204.00419.0P36测交例:测交例:在番茄上,基因在番茄上,基因Br代表正常节间,它们相对于短节间基因代表正常节间,它们相对于短节间基因br为显性
22、。基因为显性。基因S为可育基因,为可育基因,对半不育基因对半不育基因 s 表现为显性。用双隐性个体(表现为显性。用双隐性个体(br s/br s)对双杂合体()对双杂合体(Brs/br S)作测交。)作测交。测交后代的频数为:测交后代的频数为:Br S -131-n/2PBr s -360-n/2(1-P)br S-390-n/2(1-P)br s -119-n/2P总数总数-1000-n这样,其对数形式的似然函数表达为:这样,其对数形式的似然函数表达为:L=131log(p)+360log(1-p)+390log(1-p)+119log(p)p=250/1000=0.2500或或25%p值的
23、精确度常用其标准误值的精确度常用其标准误Sp来衡量。测交中,估计来衡量。测交中,估计Sp的一般公式为的一般公式为在上例中在上例中于是该测交所测得的重组率及其误差可表达为:于是该测交所测得的重组率及其误差可表达为:p=0.25000.01369011913901360131ppppdpdl21)1(npp01369.0100075.025.0PS37四、以四、以F2数据及测交数据估计重组率的数据及测交数据估计重组率的相对效率比较相对效率比较 当一定数量的植株(当一定数量的植株(n)被测定以后,就可以通过比较)被测定以后,就可以通过比较两种交配组合的方差来估计用测交和两种交配组合的方差来估计用测交
24、和F2资料估计重组资料估计重组率率p的相对效率。比如,在某一测交中算得的重组率的相对效率。比如,在某一测交中算得的重组率p=0.20,测定植株数为,测定植株数为400,方差应为,方差应为0.0004。在一个。在一个与之相似组合中,以与之相似组合中,以F2资料算得在相斥组连锁情况下,资料算得在相斥组连锁情况下,重组率重组率p=0.20,n=400,方差约为,方差约为0.0023(在相斥组连(在相斥组连锁情况下锁情况下:0023.0)21(2)2()1(2222pnppSp38 以一定数量的植株数所提供的信息量来衡量的两种组以一定数量的植株数所提供的信息量来衡量的两种组合的相对效率,是与它们方差值
25、的比数成反比的。在合的相对效率,是与它们方差值的比数成反比的。在上例中,上例中,p值为值为0.2,n=400,F2资料相对于测交资料的资料相对于测交资料的效率为:效率为:0.0004/0.0023,或等于,或等于1/6。也就是要获得同。也就是要获得同样的方差值,采用样的方差值,采用F2资料所需的观测植株数应为采用资料所需的观测植株数应为采用测交后代的测交后代的6倍之多。或者说,为了测出倍之多。或者说,为了测出20%的重组率,的重组率,测交中所需的样本量可以减为测交中所需的样本量可以减为F2资料的资料的1/6就可以保持就可以保持相同的精度,用方差比值来度量相对效率对于不同相同的精度,用方差比值来
26、度量相对效率对于不同p值值可能有所不同,但总的来说测交要比可能有所不同,但总的来说测交要比F2更有效(除非更有效(除非p的值很小而且的值很小而且F1处于相引组的连锁)因此在条件可能处于相引组的连锁)因此在条件可能时应尽量采用测交法。时应尽量采用测交法。39补充、似然函数估计补充、似然函数估计 在连锁分析中,亲本基因型或基因的连锁相有时并不清楚,因而在连锁分析中,亲本基因型或基因的连锁相有时并不清楚,因而无法简单地通过计算重组体出现的频率来进行连锁分析。那么如无法简单地通过计算重组体出现的频率来进行连锁分析。那么如何判断其连锁关系?在此情况下可以采用似然比方法来检验连锁何判断其连锁关系?在此情况
27、下可以采用似然比方法来检验连锁是否存在,即比较假设两个座位间可能存在连锁(是否存在,即比较假设两个座位间可能存在连锁(r0.5)的概)的概率与可能不连锁(率与可能不连锁(r=0.5)的概率。其概率之比可以用似然比统)的概率。其概率之比可以用似然比统计量来表示,即计量来表示,即L(r)/L(0.5),其中,其中L()为似然函数。为似然函数。为了计算方便,常将为了计算方便,常将L(r)/L(0.5)取以取以10为底的对数,称为为底的对数,称为LOD值。值。为了确定两对基因之间存在连锁,一般要求为了确定两对基因之间存在连锁,一般要求LOD3,即似然比大即似然比大于于1000 1,即连锁的可能性要超过
28、不连锁的可能性,即连锁的可能性要超过不连锁的可能性1000倍,与倍,与此值相对应的此值相对应的2 测验的显著水平为测验的显著水平为0.0002;而要否定连锁的存在,;而要否定连锁的存在,则要求似然比小于则要求似然比小于100 1,即,即 LOD2。如假定如假定G与与J之间存在如下可能关系:之间存在如下可能关系:40 0.9 log9/5=+0.23 0.5 log9/5=+0.130.1 log1/5=0.07 0.5 log1/5=0.35LOD值:+0.16 0.22上述结果的意义是上述结果的意义是,如要证明两基因连锁,则如要证明两基因连锁,则LOD值达到值达到3时时 的个体数为的个体数为
29、:3/0.16=18.75即即19株;株;反之,如要否定二者不连锁则需要的个体数为反之,如要否定二者不连锁则需要的个体数为:3/0.2213.63即即14株。株。412利用利用F2资料估计重组率资料估计重组率 在F2家系中,以p表示的不同类型配子的期望值与测交情况是相同的,但因为雄配子与雌配子的重组率可能相同,也可能不相同,所以以p1和p2分别表示雄配子和雌配子中的重组率则可能更为合理。为此,相引组连锁时的配子期望值应分别为:ABAbaBab雄配子雄配子1/2(1-p1)1/2(p1)1/2(p1)1/2(1-p1)雌配子雌配子1/2(1-p2)1/2(p2)1/2(p2)1/2(1-p2)相
30、斥组连锁时各种配子类型的期望值与相引组的写法相似。根据期望的配子比例就可能预期4种表型上不同的合子的比例。因为双隐性合子只能由双隐性的雄配子和双隐性的雌配子结合产生。该类型的比例应为 自交时,由于a类个体的总发生率为1/4,所以单隐性类型aB的出现率将为1/41-(1-p1)(1 p2)。同样,由于b类个体的总发生率为1/4,故Ab类型个体的出现率为1/41-(1-p1)(1 p2)。双显性类型的出现率必然为1/42+(1-p1)(1 p2)。)1)(1(4121pp42例例1:相引相:相引相在大麦上,已知二棱(V)对六棱(v)为显性,绿苗(Lg)对浅绿苗(lg)为显性。在基因型VVVLgLg
31、与vvlglg的杂种F2中,4种表型的数量及期望数分别为:类 型:VLgVlgvLgvlg总和实测数:281596058458期望数:n/4(2+p)n/4(1-p)n/4(1-p)n/4(p)n其中p=(1-p1)(1-p2)。以对数表达的似然率函数为:L=281log(1/2+1/4p)+59log(1/4-1/4p)+60log(1/4-1/4p)+58log(1/4p)因此 458p2+15p-116=0 p=0.4871如果能证明p1=p2,那么 p=p2=p1=1-=0.3021或30.21%在相引组连锁中p的标准误由下式计算:其中q=1-p。在上例中,Sp=0.0265或2.65
32、%,所以其重组率及标准误可表达为:p=(30.212.65)%0581601592281ppppdpdl4871.0)21(2)2)(1(222qnqqSp43例例2:相斥相:相斥相如果如果F2资料来自相斥组的资料来自相斥组的F1自交,其重组率也可用相似的方法估计。例如,番茄的基因自交,其重组率也可用相似的方法估计。例如,番茄的基因O(圆果)对(圆果)对基因基因o(长果)为显性。基因(长果)为显性。基因S(单花序)对(单花序)对s(复合花序)为显性。由(复合花序)为显性。由Os/oS F1值株自交产生的值株自交产生的F2植植株中株中4种类型的实际株数为:种类型的实际株数为:圆 果单花序长 果单
33、花序圆 果复合花序长 果复合花序总和实际观察数12666634458期望配子比例1/2p11/2(1-p1)1/2(1-p1)1/2(p1)1/2p21/2(1-p2)1/2(1-p2)1/2(p2)期望表型比例n/4(2+p)n/4(1-p)n/4(1-p)n/4pn其中:p=p1 p244取对数表达的似然率函数式为:取对数表达的似然率函数式为:L=126log(1/2+1/4p)+66log(1/4-1/4p)+63log(1/4-1/4p)+4log(1/4p)故故 259p2+136p-8=0从中解得从中解得p=0.05339如果假设如果假设p1=p2,则,则 或或23.11%。相斥组
34、连锁计算。相斥组连锁计算p的标准误的公式为:的标准误的公式为:041631662126ppppdpdl23107.005339.021ppp在上例中,在上例中,Sp=0.0582或或5.82%,于是重组率及其标准误可表示为:,于是重组率及其标准误可表示为:p=(23.15.82)%)21(2)2)(1(222PnPPSp453乘积法乘积法 这里先要根据F2 4类表现型的个体数,求取相应乘积的比值。在相斥相,根据ad/bc的比值,在相引相,根据bc/ad的比值,就可以计算出P值。例如,在相斥相:乘积值:4,41,42222PdPcbPa1624424222PPPPad1621)41(4222PPPbc4242212PPPPbcad查Fisher表可得P值464324324324222432222222248834416488316)1()1(24)1(4)1(2164442114)1(14)1(,4)1(1,4)1(2PPPPPPPadbcPPPPPPPPadPPPPPPbcPdPcbPa相引相的比率公式:相引相的比率公式:P值的标准差公式与极大似然法的公式相同。即:nPPPpES)21(2)2)(1(.222