1、2022-12-151一、利用遗传连锁图进行一、利用遗传连锁图进行QTL定位定位一一.数量性状的分析方法数量性状的分析方法二、用关联分析法进行二、用关联分析法进行QTL定位定位连锁分析法连锁分析法,即根据减数分裂时染色体发生交,即根据减数分裂时染色体发生交换和重组的原理,通过研究遗传标记在家系中换和重组的原理,通过研究遗传标记在家系中与目标性状连锁与否及连锁的程度,确定标记与目标性状连锁与否及连锁的程度,确定标记与目标基因的遗传距离。与目标基因的遗传距离。关联分析法以关联分析法以连锁不平衡连锁不平衡为基础,鉴定某一群体为基础,鉴定某一群体内性状与遗传标记或候选基因间的关系。内性状与遗传标记或候
2、选基因间的关系。2022-12-152 以目标性状存在较大差异的两个亲本创建以目标性状存在较大差异的两个亲本创建F2、RIL、DH等等分离群体分离群体 田间种植分离群体,考察目标性状,并构建分子标记连锁图田间种植分离群体,考察目标性状,并构建分子标记连锁图 利用适当的利用适当的QTL分析软件对控制目标性状的基因进行全基因分析软件对控制目标性状的基因进行全基因组组QTL扫描。扫描。利用遗传连锁图进行利用遗传连锁图进行QTL定位定位2022-12-153用遗传分析法进行用遗传分析法进行QTL定位的缺点定位的缺点构建分离群体时,由于杂交和自交次数的限制,发生的重组次数有限,QTL作图的精度一般在10
3、-30cM。如果控制某性状的位点在两个亲本中存在相同的等位基因,在分离群体中该位点控制的性状没有差异的,此时常规QTL分析的方法不能鉴定出该QTL。2022-12-1541.关联分析是一种以关联分析是一种以连锁不平衡连锁不平衡为基础,鉴定某一为基础,鉴定某一群体内目标性状与遗传标记或候选基因关系的分群体内目标性状与遗传标记或候选基因关系的分析方法。又称连锁不平衡作图析方法。又称连锁不平衡作图(linkage disequilibrium mapping)或关联作图或关联作图(association mapping),是传统,是传统QTL分析方法的分析方法的一种替代方法。一种替代方法。2.随着大
4、量随着大量SNP 标记的开发以及生物信息学的迅猛标记的开发以及生物信息学的迅猛发展,用关联分析方发掘植物数量性状基因已成发展,用关联分析方发掘植物数量性状基因已成为植物基因组学研究的热点之一。为植物基因组学研究的热点之一。关联分析法定位关联分析法定位QTL2022-12-155Association Tests Evaluate whether nucleotide polymorphisms associate with phenotype Natural populations Exploit extensive recombination1.3m1.5m1.4m1.8m2.0m2.0mT
5、AGAACGGAACGTAAAATCGTGTAGTGGAG2022-12-156 一般以现有的自然群体为材料(如地方品种、育成一般以现有的自然群体为材料(如地方品种、育成品种、种质资源等),无需构建专门的作图群体品种、种质资源等),无需构建专门的作图群体,花费的时间少。花费的时间少。特别适合于多年生木本植物如果树、林木等异花授特别适合于多年生木本植物如果树、林木等异花授粉植物。粉植物。可以同时检测同一座位的多个等位基因,便于发掘可以同时检测同一座位的多个等位基因,便于发掘优良的等位基因。优良的等位基因。定位的精度高,可达到单基因的水平。定位的精度高,可达到单基因的水平。关联分析的优点关联分析的
6、优点2022-12-157 连锁连锁(linkage):当同一染色体上的某些位点由于相距很近,当同一染色体上的某些位点由于相距很近,在减数分裂过程中这些位点之间发生重组的几率较小,而共在减数分裂过程中这些位点之间发生重组的几率较小,而共同从亲代传递到子代的现象。同从亲代传递到子代的现象。连锁不平衡(连锁不平衡(LD):):就是同一染色体上不同位点上等位基就是同一染色体上不同位点上等位基因的非随机组合因的非随机组合(non-random association)。单倍型:单倍型:指一条染色体上紧密连锁的分子标记位点的等位基指一条染色体上紧密连锁的分子标记位点的等位基因倾向以一个单元传递给后代。因
7、倾向以一个单元传递给后代。1、连锁不平衡的定义连锁不平衡的定义二二 关联分析的原理关联分析的原理 2022-12-158人类人类HLAHLA基因的遗传:人体细胞为二倍体型,两个单倍型分基因的遗传:人体细胞为二倍体型,两个单倍型分别来自父亲和母亲,共同组成个体的基因型(别来自父亲和母亲,共同组成个体的基因型(genotypegenotype)。)。HLAHLA是人类白细胞抗原(是人类白细胞抗原(Human Leucocyte AntigenHuman Leucocyte Antigen),由于),由于一条染色体上一条染色体上HLAHLA各位点的距离非常近,很少发生同源染色体各位点的距离非常近,很
8、少发生同源染色体之间的交换,因此后代的之间的交换,因此后代的HLAHLA以单倍型为单位将遗传信息传给以单倍型为单位将遗传信息传给子代。子代。父亲父亲母亲母亲后代后代很少出现的重组类型很少出现的重组类型单倍型单倍型品种品种1品种品种2品种品种5品种品种3品种品种4品种品种6品种品种7品种品种10品种品种8品种品种92022-12-1592022-12-15102.如何判断位点之间存在连锁不平衡如何判断位点之间存在连锁不平衡若连锁的两个基因座位上的等位基因分别为若连锁的两个基因座位上的等位基因分别为A、a 和和B、b,它们频率分别为它们频率分别为(A)、(a)、(B)和和 (b);组成的单倍型有组
9、成的单倍型有AB、Ab、aB 和和ab,这些单倍型的这些单倍型的频率分别为频率分别为(AB)、(Ab)、(aB)和和 (ab)。若若(AB)(A)(B),则表明,则表明A、B位点间存在位点间存在LD。即当位于某一座位的特定等位基因与同一条染色体即当位于某一座位的特定等位基因与同一条染色体另一座位的某一等位基因同时出现的几率大于群体另一座位的某一等位基因同时出现的几率大于群体中因两个等位基因自由组合而同时出现的几率时中因两个等位基因自由组合而同时出现的几率时,表明这两个座位间存在表明这两个座位间存在LD。ABAbaBab40个品种45个品种3个品种2个品种(A)=0.48(a)=0.52(B)=
10、0.47(b)=0.53(AB)=0.44(A)(B)=0.226(AB)(A)(B),位点A、B之间存在连锁不平衡2022-12-1511ABAbaBab20个品种22个品种18个品种22个品种(A)=0.44(a)=0.56(B)=0.54(b)=0.46(AB)=0.243(A)(B)=0.238(AB)(A)(B),位点A、B之间不存在连锁不平衡2022-12-15122022-12-15133.连锁不平衡度量方法连锁不平衡度量方法D(difference)表示某一单倍型的实际频率与期望频表示某一单倍型的实际频率与期望频率的差值。率的差值。当D=0 时,两基因座位处于连锁平衡状态;当D
11、 0 时,两基因座位处于连锁不平衡状态;当D=1 时,两基因座位处于完全连锁不平衡状态。通常用通常用D来判断两个位点间是否存在连锁不平衡来判断两个位点间是否存在连锁不平衡五 影响关联分析的因素及解决策略而优良玉米自交系则达 100kb。人类基因组进行全基因组的LD分析大约需要70 000个标记,Identification of More Favorable AllelesD1=D0(1-);交配体系是影响LD 的最重要因素之一:5 basic steps required for association studies:不同玉米种质资源的LD 衰减距离位点上只存在两个等位基因时,LD显著性可
12、以用2 2列联表进行2测验,P5%表明两位点的等位基因不是自由组合的,存在关联。如果两个等位基因频率不同的群体混合,就会产生LD。也可以分两步走:即首先利用LD衰减慢的骨干亲本进行全基因组扫描以确定候选基因区域,然后再利用地方品种和野生种质进行高分辨率的LD精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。Domestication Gene亚群的混合使整个群体的LD 强度增强,可能导致不连锁的基因多态性位点与性状的关联,从而得出假阳性结果。A total of 517 landraces were selected and comprehensively phenotyped候选基因
13、关联分析虽然获得的信息量较少,但它可以减少基因型检测的数量,更重要的是它可以避免检测覆盖全基因组的位点时所涉及到的统计问题。优良玉米自交系只需要50 000个标记。定位的精度高,可达到单基因的水平。如果目标群体LD衰减很慢,即在很长的物理距离内存在LD,那么此群体适宜采用基于全基因组扫描的策略;25,经过10代后,D10=0.有些作物中,前期的研究已经建立核心种质,并获得了相应的遗传和表型资料,可直接用于关联分析。Nucleotide variation across the O.2022-12-15143.1 连锁不平衡度量连锁不平衡度量 也可以用r 2 度量LD。对于只有两个等位基因的标记
14、如 SNP 和 AFLP,通常用 D 和r 2 来估计两个座位之间的 LD 水平,二者都是以D 为基础的。连锁不平衡系数连锁不平衡系数D 2022-12-1515 r2 和 D 取值范围:0(连锁平衡)1(连锁不平衡)。D 和r2反映了LD的不同方面,在不同条件下表现不同。R2反映了重组史和突变史,而 D 仅反映重组史。D 准确地估测重组差异,但样本较小时发现4 种等位基因低频率组合的可能性大大减小,因此 D 不适宜小样本研究中的应用。r2可以提供标记是否能与 QTL 相关的信息,因此 LD作图中通常采用 r2来表示群体的 LD水平。2022-12-1516 越大,越大,LD 衰减越快。不连锁
15、的位点之间衰减越快。不连锁的位点之间LD每代每代衰减衰减50。如果两位点紧密连锁,经过很多世代随机交配后,如果两位点紧密连锁,经过很多世代随机交配后,Dt D0e-nLD随自由交配世代增加而衰减随自由交配世代增加而衰减群体内随机交配过程中,重组导致配子和单倍型频率趋群体内随机交配过程中,重组导致配子和单倍型频率趋向平衡值。在没有突变、选择和其它随机因素影响,在向平衡值。在没有突变、选择和其它随机因素影响,在连续世代间连锁不平衡系数的关系连续世代间连锁不平衡系数的关系:D1=D0(1-);D2=D1(1-)=D0(1-)2;Dn=D0(1-)n 公式公式Dn=D0(1-)n 就是关联分析的基础理
16、论就是关联分析的基础理论 是两位点间的重组值;是两位点间的重组值;n 表示随机交配的世代数目;表示随机交配的世代数目;D0 是起始代的连锁不平衡系数是起始代的连锁不平衡系数.LD随自由交配世代增加而衰减随自由交配世代增加而衰减群体内随机交配过程中,群体内随机交配过程中,重组导致配子和单倍型频率趋向平衡值重组导致配子和单倍型频率趋向平衡值。是两位点间的重组值;是两位点间的重组值;n 表示随机交配的世代数目;表示随机交配的世代数目;D0 是起始代是起始代的连锁不平衡系数的连锁不平衡系数.越大,越大,LD 衰减越快。不连锁的位点之间衰减越快。不连锁的位点之间LD每代衰减每代衰减50。在没有突变、选择
17、和其它随机因素影响,在连续世代间连锁不平衡在没有突变、选择和其它随机因素影响,在连续世代间连锁不平衡系数的关系系数的关系:D1=D0(1-);D2=D1(1-)=D0(1-)2;Dn=D0(1-)n 公式Dn=D0(1-)n 就是关联分析的基础理论例如,在最初时配子AB和ab的概率都为0.5,D0=1,处于完全连锁不平衡状态。如果=0.01,经过10代后,D10=0.2261 如果=0.1,经过10代后,D10=0.0872 如果=0.25,经过10代后,D10=0.0141 如果=0.5,经过10代后,D10=0.0002 当n趋向无穷时,Dn趋向0,但是Dn变化速度与有很大关系。当很小时,
18、Dn趋近0的速度很慢;当接近0.5时,Dn收敛趋近的速度很快。LD衰减与重组率的关系衰减与重组率的关系2022-12-15204.LD显著性的统计检验显著性的统计检验 位点上只存在两个等位基因时,位点上只存在两个等位基因时,LD显著性可以用显著性可以用2 2列联列联表进行表进行 2测验测验,P5%表明两位点的等位基因不是自由组合表明两位点的等位基因不是自由组合的,存在关联。的,存在关联。也可以用也可以用F测验测验 存在多个等位基因时,存在多个等位基因时,LD的统计显著性的统计显著性(P-value)用多因子用多因子置换分析计算(置换分析计算(multifactorial permutation
19、 analysis)(Weir,1996).必须注意:必须注意:两个不连锁的位点间也可能存在两个不连锁的位点间也可能存在LD,这种情况,这种情况可能是由群体结构导致的。可能是由群体结构导致的。进行关联分析前,必须先进行群体结构分析。进行关联分析前,必须先进行群体结构分析。2022-12-15215 连锁不平衡的表示方法连锁不平衡的表示方法描述描述LD 在染色体上的分布有两种表示方法:在染色体上的分布有两种表示方法:LD衰减散点图:衰减散点图:可以观测可以观测LD 随遗传或物理距离的下降随遗传或物理距离的下降速率。速率。LD 配对检测的矩阵图:配对检测的矩阵图:可以直接观测同一染色体的基可以直接
20、观测同一染色体的基因座位或基因的多态性位点之间因座位或基因的多态性位点之间LD 的线性排列。的线性排列。描述描述LD在染色体上的衰减距离一般为在染色体上的衰减距离一般为D=0.5或或r2=0.1时时在染色体上的遗传距离。在染色体上的遗传距离。2022-12-15222022-12-15232022-12-1524LD 是由是由突变产生突变产生的多态性形成的,因重组的多态性形成的,因重组的发生而被打破。由此可见,突变和重组的发生而被打破。由此可见,突变和重组是影响是影响LD 的重要因素。的重要因素。其他生物因素和历史因素,例如其他生物因素和历史因素,例如物种交配物种交配体系体系、染色体位置染色体
21、位置、群体大小群体大小、基因或染、基因或染色体片段所受的色体片段所受的选择强度选择强度、遗传漂变遗传漂变等也等也影响影响LD 的程度和分布。的程度和分布。6.LD的衰减及影响的衰减及影响LD的因素的因素2022-12-1525A.交配体系是影响交配体系是影响LD 的最重要因素之一:的最重要因素之一:自交物种每次减数分裂时重组率很高,自交物种每次减数分裂时重组率很高,但由于自但由于自交趋向纯合,交趋向纯合,这样有效的重组率就会很低,最终这样有效的重组率就会很低,最终导致导致自交物种的自交物种的LD衰减距离远远大于异交物种衰减距离远远大于异交物种。拟南芥、水稻和大麦是自交物种拟南芥、水稻和大麦是自
22、交物种,LD 衰减都很慢衰减都很慢异花授粉植物异花授粉植物如玉米,其如玉米,其LD 衰减得较快。衰减得较快。无性繁殖物种无性繁殖物种如甘蔗,它们的如甘蔗,它们的LD 衰减更慢。衰减更慢。2022-12-15262022-12-1527 异花授粉植物的不同群体LD衰减也存在很大差异;玉米农家种为1 kb,具有广泛变异的玉米自交系大约为 1.5 kb,而优良玉米自交系则达 100kb。不同玉米种质资源的LD 衰减距离ae1和sh1与直链淀粉含量关联其他生物因素和历史因素,例如物种交配体系、染色体位置、群体大小、基因或染色体片段所受的选择强度、遗传漂变等也影响LD 的程度和分布。又称连锁不平衡作图(
23、linkage disequilibrium mapping)或关联作图(association mapping),是传统QTL分析方法的一种替代方法。Identification of More Favorable Alleles构建分离群体时,由于杂交和自交次数的限制,发生的重组次数有限,QTL作图的精度一般在10-30cM。进行关联分析前,必须先进行群体结构分析。Identification of More Favorable Alleles关联分析法以连锁不平衡为基础,鉴定某一群体内性状与遗传标记或候选基因间的关系。研究对象:包括7种常见病:躁郁症、冠状动脉粥样硬化、小肠克罗恩氏病、类
24、风湿关节炎、I型糖尿病、II型糖尿病和高血压如果两个等位基因频率不同的群体混合,就会产生LD。r2 和 D 取值范围:0(连锁平衡)1(连锁不平衡)。Plant Breeding5,经过10代后,D10=0.也可以分两步走:即首先利用LD衰减慢的骨干亲本进行全基因组扫描以确定候选基因区域,然后再利用地方品种和野生种质进行高分辨率的LD精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。1、连锁不平衡的定义Domestication Gene候选基因法:基于序列水平,通过统计分析在基因水平上将那些对目标性状有正向贡献的等位基因从种质资源中挖掘出来,一般涉及候选基因的功能预测。n 表示随机交
25、配的世代数目;ae1和sh2与糊化温度显著关联三 关联分析的基本方法大多数作物在顺化过程中经历了至少一次瓶颈。2022-12-1528 id1、tb1、sh1、d3 等四个基因在来自全球玉米自交系群体中的LD衰减距离大约为1.5 kb,同一群体中的 d8 和su1 两个基因的LD 衰减距离较大,尤其是su1基因在 10 kb 内几乎不衰减,这可能是在玉米的驯化过程中,近期对 su1 基因进行了人工选择。玉米八氢番茄红素合成酶基因 Y1 的 LD衰减距离为 2 kb,而其假基因 PSY2 在相同玉米群体中的LD 衰减距离却只有 250 bp。不同基因的不同基因的LD衰减距离也不同。衰减距离也不同
26、。2022-12-15290.000.100.200.300.400.500.600.700.800.901.000200040006000800010000Distance in bpd8id1sh1tb1d3fae2su1bt2sh2wx1不同玉米基因不同玉米基因LD衰减距离不同衰减距离不同r22022-12-1530B.瓶颈效应、奠基者效应和遗传漂变增加瓶颈效应、奠基者效应和遗传漂变增加LD 瓶颈效应瓶颈效应使群体大小极端减少,导致变异减少,使群体大小极端减少,导致变异减少,LD增加增加.大多数作物在顺化过程中经历了至少一次大多数作物在顺化过程中经历了至少一次瓶颈瓶颈。育种家。育种家的选
27、择导致的选择导致瓶颈效应瓶颈效应,如从很少的几个亲本材料中引入,如从很少的几个亲本材料中引入一个新抗病基因或农艺性状。一个新抗病基因或农艺性状。奠基者效应是一种特例,当一个物种在一个新环境生存下来,奠基者效应是一种特例,当一个物种在一个新环境生存下来,最开始的奠基者是非常小的一个群体最开始的奠基者是非常小的一个群体 仅仅是几个种子或几仅仅是几个种子或几个家庭个家庭.遗传漂变遗传漂变会增加会增加LD。2022-12-1531The Bottom Line for DiversityTeosintesMaizeLandracesMaizeInbred Lines Unselected GeneDo
28、mestication Gene Improvement GenePlant BreedingDomesticationIn which category do the genes responsible for YOUR trait belong?2-4%(1200)of maize genes have undergone selectionSelection ScreensVery low genetic diversityGenes that contribute to agronomic traits have been targets of selection.2022-12-15
29、32C.Migration and population admixture 如果两个等位基因频率不同的群体混合,如果两个等位基因频率不同的群体混合,就会产生就会产生LD。群体混合和迁移也会产生群体混合和迁移也会产生LD.通常,迁移和混合产生群体结构,进行通常,迁移和混合产生群体结构,进行LD分析出现假关联问题。分析出现假关联问题。2022-12-1533D.Selection 当种群受到当种群受到平衡选择平衡选择(balancing selection)的作用的作用时时,群体中会存在两群体中会存在两个个或几或几个个频率较高的等位基因频率较高的等位基因。当某当某个个等位基因受到强烈的等位基因受
30、到强烈的正选择作用正选择作用(positive selection)时时,其附近与之紧密连锁的其附近与之紧密连锁的位点位点上的等位上的等位基因基因频率也随着增加,频率也随着增加,这样的现象被称为这样的现象被称为搭载效应搭载效应(hitchhiking)或或选择扫荡选择扫荡(selective sweep)。2022-12-15342022-12-1535而优良玉米自交系则达 100kb。有些作物中,前期的研究已经建立核心种质,并获得了相应的遗传和表型资料,可直接用于关联分析。Inbred Lines躁郁症检测到1个易发病主效位点其他生物因素和历史因素,例如物种交配体系、染色体位置、群体大小、基
31、因或染色体片段所受的选择强度、遗传漂变等也影响LD 的程度和分布。公式Dn=D0(1-)n 就是关联分析的基础理论四 关联分析的基本步骤通常,迁移和混合产生群体结构,进行LD分析出现假关联问题。而优良玉米自交系则达 100kb。必须要有高通量、低成本的SNP标记检测技术:例如,在最初时配子AB和ab的概率都为0.利用遗传连锁图进行QTL定位利用遗传连锁图进行QTL定位当很小时,Dn趋近0的速度很慢;ae1和sh1与直链淀粉含量关联1,经过10代后,D10=0.当很小时,Dn趋近0的速度很慢;LD显著性的统计检验根据连锁分析的结果,选择效应值比较大的位点,利用更多的标记进行LD 分析,对目标位点
32、进行精细定位,然后根据已知基因组的信息选择适当的候选基因进行关联分析。利用适当的QTL分析软件对控制目标性状的基因进行全基因组QTL扫描。Proportion of various LD decay rate in the genome2022-12-1537Copyright 2007 by the Genetics Society of AmericaOlsen,K.M.et al.Genetics 2006;173:975-983Nucleotide variation across the O.sativa Wx genomic region on chromosome 62022-1
33、2-1538 新产生的突变与其它位点之间存在新产生的突变与其它位点之间存在LD:the new mutation only occurs on a single haplotype.在随后的世代,重组产生新的单倍型,引起在随后的世代,重组产生新的单倍型,引起LD衰减;衰减;紧密连锁的标记之间紧密连锁的标记之间LD衰减需要很多世代衰减需要很多世代.在群体中,一个突变要经过很多交配世代后才能达在群体中,一个突变要经过很多交配世代后才能达到我们能检测的等位基因频率,所以我们通常观察到我们能检测的等位基因频率,所以我们通常观察到的多态性都是古老的变异到的多态性都是古老的变异.E.Mutation202
34、2-12-1539关联分析有两种方法:关联分析有两种方法:全基因组分析法全基因组分析法:基于标记水平,通过对引起表:基于标记水平,通过对引起表型变异的突变位点进行全基因组扫描来实现,一型变异的突变位点进行全基因组扫描来实现,一般不涉及候选基因的预测。般不涉及候选基因的预测。候选基因法:候选基因法:基于序列水平,通过统计分析在基基于序列水平,通过统计分析在基因水平上将那些对目标性状有正向贡献的等位基因水平上将那些对目标性状有正向贡献的等位基因从种质资源中挖掘出来,一般涉及候选基因的因从种质资源中挖掘出来,一般涉及候选基因的功能预测。功能预测。三三 关联分析的基本方法关联分析的基本方法 两种方法如
35、何选择?两种方法如何选择?如果目标群体如果目标群体LD衰减很慢衰减很慢,即在很长的物理距离内存在,即在很长的物理距离内存在LD,那么此群体那么此群体适宜采用基于全基因组扫描的策略适宜采用基于全基因组扫描的策略;相反相反,如果目标群体的如果目标群体的LD衰减很快衰减很快,即在很短的物理距离内迅速衰退,即在很短的物理距离内迅速衰退,则此群体适宜采用基于候选基因的高分辨率则此群体适宜采用基于候选基因的高分辨率LD作图策略。作图策略。已完成全基因组测序已完成全基因组测序的物种适合采用全基因组关联分析。一般可以用的物种适合采用全基因组关联分析。一般可以用SNP芯片或全基因组重测序方法进行高通量芯片或全基
36、因组重测序方法进行高通量SNP基因型分析;没有完成基因型分析;没有完成基因组测序的物种,可以采用候选基因关联分析方法。基因组测序的物种,可以采用候选基因关联分析方法。也可以也可以分两步走分两步走:即首先利用:即首先利用LD衰减慢的骨干亲本进行全基因组扫描以衰减慢的骨干亲本进行全基因组扫描以确定候选基因区域确定候选基因区域,然后再利用地方品种和野生种质进行高分辨率的然后再利用地方品种和野生种质进行高分辨率的LD精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。2022-12-1541候选基因的选择候选基因的选择候选基因的选择需要利
37、用多学科如突变体分析、候选基因的选择需要利用多学科如突变体分析、生化途径分析、病理学、基因表达谱和比较基生化途径分析、病理学、基因表达谱和比较基因组等信息,根据这些信息列出一个因组等信息,根据这些信息列出一个候选基候选基因因清单。清单。或者在以前定位的或者在以前定位的QTL区段的基因作候选基因区段的基因作候选基因每个候选基因的序列必须是已知的,可用于设每个候选基因的序列必须是已知的,可用于设计引物。计引物。目标性状:玉米籽粒成分和淀粉特性 考察的性状:蛋白、油分和淀粉含量、直链淀粉含量、淀粉胶稠度、糊化温度 候选基因:amylose extender1(ae1),brittle endospe
38、rm2(bt2),shrunken1(sh1),sh2,sugary1,waxy1结果:bt2,sh1和sh2与籽粒成分如蛋白、油分和淀粉含量显著关联 ae1和sh2与糊化温度显著关联 ae1和sh1与直链淀粉含量关联全基因组关联分析全基因组关联分析必须要有高通量、低成本的SNP标记检测技术:SNP芯片Next-generation sequencingdHPLCRe-sequencing(traditional and novel sequencing techniques)SNaPshotSNplex研究对象:包括研究对象:包括7 7种常见病:躁郁症、冠状动脉粥样硬化、种常见病:躁郁症、冠
39、状动脉粥样硬化、小肠克罗恩氏小肠克罗恩氏病、类风湿关节炎、病、类风湿关节炎、I I型糖尿病、型糖尿病、II II型糖尿病和高血压型糖尿病和高血压SNPSNP检测:检测:Affymetrix GeneChip 500K Mapping Array SetAffymetrix GeneChip 500K Mapping Array Set群体:每种病人群体:每种病人 20002000人人对照:正常人对照:正常人 30003000人人分析方法:病例分析方法:病例-对照比较法对照比较法结果(显著度结果(显著度P 5P 5 1010-7-7)躁郁症检测到躁郁症检测到1 1个易发病主效位点个易发病主效位点
40、 冠状动脉粥样硬化检测到冠状动脉粥样硬化检测到1 1个易发病主效位点个易发病主效位点 小肠克罗恩氏病检测到小肠克罗恩氏病检测到9 9个易发病主效位点个易发病主效位点 类风湿关节炎检测到类风湿关节炎检测到3 3个易发病主效位点个易发病主效位点 I I型糖尿病检测到型糖尿病检测到7 7个易发病主效位点个易发病主效位点 II II型糖尿病检测到型糖尿病检测到3 3个易发病主效位点个易发病主效位点 高血压没有检测到效应特别大的位点高血压没有检测到效应特别大的位点所有这些位点都是以前的研究中报道的,证明全基因组所有这些位点都是以前的研究中报道的,证明全基因组关联分析定位复杂数量性状是可行的关联分析定位复
41、杂数量性状是可行的躁郁症躁郁症冠状动脉粥样硬化冠状动脉粥样硬化1 1个个小肠克罗恩氏病小肠克罗恩氏病9 9个个高血压高血压0 0个个类风湿关节炎类风湿关节炎3 3个个I I型糖尿病型糖尿病7 7个个II II型糖尿病型糖尿病3 3个个5,D0=1,处于完全连锁不平衡状态。LD随自由交配世代增加而衰减LD的衰减及影响LD的因素在没有突变、选择和其它随机因素影响,在连续世代间连锁不平衡系数的关系:群体:每种病人2000人Genes that contribute to agronomic traits have been targets of selection.用遗传分析法进行QTL定位的缺点也
42、可以分两步走:即首先利用LD衰减慢的骨干亲本进行全基因组扫描以确定候选基因区域,然后再利用地方品种和野生种质进行高分辨率的LD精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。I型糖尿病检测到7个易发病主效位点D0 是起始代的连锁不平衡系数.gelatinization temperature优良玉米自交系只需要50 000个标记。n 表示随机交配的世代数目;构建分离群体时,由于杂交和自交次数的限制,发生的重组次数有限,QTL作图的精度一般在10-30cM。所有这些位点都是以前的研究中报道的,证明全基因组关联分析定位复杂数量性状是可行的D2=D1(1-)=D0(1-)2;5 basic
43、 steps required for association studies:ae1和sh2与糊化温度显著关联Choice of target trait(s)在没有突变、选择和其它随机因素影响,在连续世代间连锁不平衡系数的关系:小肠克罗恩氏病检测到9个易发病主效位点2022-12-1547 候选基因关联分析虽然获得的信息量较少,但它候选基因关联分析虽然获得的信息量较少,但它可以减少基因型检测的数量,更重要的是它可以可以减少基因型检测的数量,更重要的是它可以避免检测覆盖全基因组的位点时所涉及到的统计避免检测覆盖全基因组的位点时所涉及到的统计问题。可能遗漏部分问题。可能遗漏部分QTLQTL。全
44、基因组关联分析信息量大,可以检测到所有的全基因组关联分析信息量大,可以检测到所有的QTLQTL。全基因组与候选基因关联分析比较全基因组与候选基因关联分析比较Genome-wide association studies of 14 agronomic traits in rice landraces A total of 517 landraces were selected and comprehensively phenotyped All sequences used for SNP calling comprised 508-fold coverage of the rice geno
45、me.A total of 3,625,200 nonredundant SNPs were identified,resulting in an average of 9.32 SNPs per kb12/15/2022LD decay rate across the genomeindicajapinica12/15/2022Proportion of various LD decay rate in the genome12/15/2022Genome wide association analysis of heading dateRegions of the genome showi
46、ng association signals around known genes controlling heading dateRegions of the genome showing strong association signals near previously identified genesgelatinization temperatureGrain length Amylose content2022-12-1554四 关联分析的基本步骤5 basic steps required for association studies:germplasm choice;esti
47、mation of population structure;trait evaluation;Genotyping of the population statistical analysis.2022-12-15552022-12-1556 种质资源选择是关联分析成功的关键。种质资源应包括尽种质资源选择是关联分析成功的关键。种质资源应包括尽可能多的表型变异,代表一个作物的育种资源谱。可能多的表型变异,代表一个作物的育种资源谱。根据遗传和表型调查数据鉴定出一套遗传多样性丰富的种根据遗传和表型调查数据鉴定出一套遗传多样性丰富的种质资源,使其包括尽可能多的等位基因。质资源,使其包括尽可能多的等位
48、基因。有些作物中,前期的研究已经建立核心种质,并获得了相有些作物中,前期的研究已经建立核心种质,并获得了相应的遗传和表型资料,可直接用于关联分析。应的遗传和表型资料,可直接用于关联分析。自然存在的异花授粉树木是关联分析最好的群体。自然存在的异花授粉树木是关联分析最好的群体。A.Choice of germplasm2022-12-1557B.Estimation of population structure 群体结构的存在可导致出现假阳性,必须通过统计分析排除.用大量独立的分子标记(通常为50-150个,根据基因组大小确定)对选用群体群体结构进行分析,判断是否存在群体结构.如果存在群体结构,
49、需要对群体数据进行校正。Genome-wide association studies of 14 agronomic traits in rice landraces根据连锁分析的结果,选择效应值比较大的位点,利用更多的标记进行LD 分析,对目标位点进行精细定位,然后根据已知基因组的信息选择适当的候选基因进行关联分析。候选基因法:基于序列水平,通过统计分析在基因水平上将那些对目标性状有正向贡献的等位基因从种质资源中挖掘出来,一般涉及候选基因的功能预测。Choice of candidate genesD2=D1(1-)=D0(1-)2;结果(显著度P 510-7)根据连锁分析的结果,选择效应
50、值比较大的位点,利用更多的标记进行LD 分析,对目标位点进行精细定位,然后根据已知基因组的信息选择适当的候选基因进行关联分析。五 影响关联分析的因素及解决策略也可以分两步走:即首先利用LD衰减慢的骨干亲本进行全基因组扫描以确定候选基因区域,然后再利用地方品种和野生种质进行高分辨率的LD精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。D0 是起始代的连锁不平衡系数.Domestication Gene异花授粉植物如玉米,其LD 衰减得较快。id1、tb1、sh1、d3 等四个基因在来自全球玉米自交系群体中的LD衰减距离大约为1.构建分离群体时,由于杂交和自交次数的限制,发生的重组次数有