1、种下数据分析方法种下数据分析方法Data Analysis at Intraspecies Level黄原2010-3主要内容主要内容1. 大进化与小进化的联系与区别大进化与小进化的联系与区别2. 用于种下研究的分子标记和数据类型用于种下研究的分子标记和数据类型3. 种下遗传多样性和分化参数及应用种下遗传多样性和分化参数及应用4. 种下系统发育分析及应用种下系统发育分析及应用5. 种界确定种界确定1. 大进化与小进化的联系大进化与小进化的联系与区别与区别进化模式不同进化模式不同大进化大进化=种上分类单元进化:树状分歧进化为主。种上分类单元进化:树状分歧进化为主。 种间由于生殖隔离和突变以及分歧
2、导致有完全不同种间由于生殖隔离和突变以及分歧导致有完全不同的基因型的固定,从而形成非重叠的基因库的基因型的固定,从而形成非重叠的基因库( non- overlapping gene pools)和相互的单系)和相互的单系性性 (reciprocally monophyletic lineages)。 小进化小进化=种下进化:网状形式的进化种下进化:网状形式的进化 种内群体内种内群体内/间的个体因随机交配有发生重组的机间的个体因随机交配有发生重组的机会,从而使个体的基因谱系呈现网状关系会,从而使个体的基因谱系呈现网状关系( reticulating relationships =tokogeny
3、)。种间树状进化种间树状进化遗传分歧遗传分歧种内网状进化种内网状进化遗传多态性遗传多态性研究内容的区别研究内容的区别种下研究种下研究 (1) 群体遗传结构(群体遗传结构(population genetic structure) (2) 群体分化(群体分化(population subdivision) (3) 谱系生物地理学(谱系生物地理学(phylogeography) (4) 分子进化动力分子进化动力(the forces of molecular evolution) (5) 个体个体/群体群体/亚种系统发育关系亚种系统发育关系(individuals/populations/subs
4、pecies phylogenetic analysis)种上研究种上研究 (1) 种界确定(种界确定(species boundary delimitation) (2) 分类单元单系性检验(分类单元单系性检验(testing taxa monophyly) (3) 系统发育关系重建(系统发育关系重建(phylogenetic relationship among taxa) (4) 性状进化(性状进化(character evolution)研究方法的区别研究方法的区别采用分子标记不同采用分子标记不同 抽样策略不同(抽样策略不同(Sampling strategy)数据分析方法不同数据分析
5、方法不同Molecules and their useful rangesin phylogenetic relationships Species Genera FamilyOrderClassDivisions Spacersitsmt DNANu rDNATaylor, et al., 1991; more sufficient statistically significant results; sufficient statistically significant results2. 用于种下研究的分子标记和用于种下研究的分子标记和数据类型数据类型分子标记分子标记SNPSSRRAP
6、DAFLP单核苷酸多态性单核苷酸多态性SNP:single nucleotide polymorphisms SNP是指由于单个核苷酸的变异所引起的是指由于单个核苷酸的变异所引起的DNA序列多态性。序列多态性。 A single base change, occurring in a population at a frequency of 1% is termed a single nucleotide polymorphism (SNP). When a single base change occurs at 1% it is considered to be a mutation. 微
7、卫星微卫星MicrosatellitesDesign primers to “flanking regions”微卫星基因分型原理微卫星基因分型原理 Li (1998). 随机扩增多态性随机扩增多态性DNA RAPD: randomly amplified polymorphic DNARAPD profile of DNA from 23 samples AFLP: amplified fragment length polymorphismDigestion of DNA with two enzymesLigation of adaptersPrimers complementary t
8、o adapters and to 3 region of some of the fragmentsAFLP Gel分子标记的性质分子标记的性质显示方式:显示方式: 共显性共显性(codominant)标记可以识别所有的等位基标记可以识别所有的等位基因,包括杂合子和隐性等位基因。因,包括杂合子和隐性等位基因。 显性显性(dominant)标记只能识别显性等位基因,无标记只能识别显性等位基因,无法区分杂合子和隐性等位基因的纯合子法区分杂合子和隐性等位基因的纯合子 。座位数目:座位数目: 单座位单座位(single locus)标记可以识别等位基因。标记可以识别等位基因。 多座位多座位(mult
9、iple loci)标记一般无法识别等位基因。标记一般无法识别等位基因。遗传方式遗传方式父系遗传标记父系遗传标记Y ChromosomeHaploid, none or little recombination1.91095.410 9 per site per year 母系遗传标记母系遗传标记Mitochondrial DNAHaploid, none or little recombination3.5108 per site per year 双亲遗传标记双亲遗传标记nDNADiploid, undergoes recombination基因型与基因分型基因型与基因分型(genotyp
10、e and genotyping)一个个体在某一座位上所拥有的一对等位基因类一个个体在某一座位上所拥有的一对等位基因类型被称作基因型型被称作基因型( genotype ) 。检定个体在特定座位上的基因型的方法被称作基检定个体在特定座位上的基因型的方法被称作基因分型因分型( genotyping) 。 单倍型与单倍型分型单倍型与单倍型分型haplotype and haplotyping单倍型是指在一条单倍型是指在一条DNA上多态性的分上多态性的分子标记的不同等位基因之间的组合。子标记的不同等位基因之间的组合。单倍型分型:单倍型分型:单倍型分型方法单倍型分型方法对于位于对于位于Y染色体或染色体或
11、mtDNA以及男性以及男性X染色染色体上的任何标记,每种基因型均为单倍型。体上的任何标记,每种基因型均为单倍型。对于位于常染色体及女性对于位于常染色体及女性X染色体上的标记,染色体上的标记,如果研究的座位为纯合子,则可以直接得到如果研究的座位为纯合子,则可以直接得到单倍型;如果研究的座位为杂合子,则得到单倍型;如果研究的座位为杂合子,则得到2个联合的单倍型。可以通过个联合的单倍型。可以通过3种方法获得单倍种方法获得单倍型。型。二倍体标记的单倍型分型方法二倍体标记的单倍型分型方法从二倍体的基因型推导单倍型的方法:从二倍体的基因型推导单倍型的方法:等位基因分离法:等位基因分离法: 等位基因特异性等
12、位基因特异性PCR;克隆法;体细胞杂;克隆法;体细胞杂交法。交法。统计推论法:统计推论法: Clarck算法;最大似然法;贝叶斯法。算法;最大似然法;贝叶斯法。家系分析法:家系分析法:单倍型块单倍型块Haplotype Blocks染色体在一代代的传递中同源片段发生重组染色体在一代代的传递中同源片段发生重组,多代之后祖先染色体片段的原有排布已被打多代之后祖先染色体片段的原有排布已被打乱。那些没有被重组打破的区域相互间被重乱。那些没有被重组打破的区域相互间被重组区域隔开组区域隔开,这些区域就是单倍型块。这些区域就是单倍型块。 单倍型单倍型块的长度一般为块的长度一般为3 92 kb 。 人类基因组
13、的人类基因组的65% -85% 是以单倍型块方式是以单倍型块方式组织起来的组织起来的. 识别单倍型的意义识别单倍型的意义构建基因树的基础构建基因树的基础识别致病基因识别致病基因理解重组和理解重组和LD模式模式单倍型的起源与进化单倍型的起源与进化位于位于Y染色体和染色体和mtDNA上的单倍体分子标记无重组,上的单倍体分子标记无重组,因而单倍型多样性仅仅是由于突变产生。因而单倍型多样性仅仅是由于突变产生。二倍体分子标记的单倍型的起源有突变和重组二种二倍体分子标记的单倍型的起源有突变和重组二种原因。如果重组是随机发生的,则原因。如果重组是随机发生的,则n个等位基因可个等位基因可以有以有2n种单倍型。
14、种单倍型。任何任何2个标记之间发生重组的可能性取决于它们的个标记之间发生重组的可能性取决于它们的相互距离和位置。不同座位的等位基因之间由于重相互距离和位置。不同座位的等位基因之间由于重组降低而导致的组降低而导致的association称为连锁不平衡称为连锁不平衡(linkage disequilibrium,LD)。)。3. 种下遗传多样性和分化参种下遗传多样性和分化参数及应用数及应用物种遗传变异程度的度量物种遗传变异程度的度量 测量遗传变异参数的方法随所研究标记的类型和测量遗传变异参数的方法随所研究标记的类型和遗传方式而异。一般地,物种的遗传变异可以从遗传方式而异。一般地,物种的遗传变异可以
15、从三个方面来描述:三个方面来描述:遗传多样性:遗传变异的量遗传多样性:遗传变异的量遗传分化:遗传变异在群体之间的分布遗传分化:遗传变异在群体之间的分布遗传距离:遗传变异在成对群体之间的数量。遗传距离:遗传变异在成对群体之间的数量。遗传多样性遗传多样性 遗传多样性通常用于描述生物学实体(个体,遗传多样性通常用于描述生物学实体(个体,群体和物种)内存在的遗传变异。杂合度和群体和物种)内存在的遗传变异。杂合度和多态性水平是多态性水平是2个在个体、群体和物种个在个体、群体和物种3个水个水平上定量描述多样性的参数。平上定量描述多样性的参数。 广义的多样性包括广义的多样性包括2个组分:丰富度个组分:丰富度
16、(richness)和均匀度()和均匀度(evenness)。前)。前者测量变异的数量,后者指示变异的分布。者测量变异的数量,后者指示变异的分布。 等位基因丰富度的测量等位基因丰富度的测量1 等位基因多样性(等位基因多样性(allelic diversity)或丰富度()或丰富度(allelic richness):每个座位上):每个座位上出现的等位基因数量的平均值。计算时也包括单态座位。可以以群体或物种为出现的等位基因数量的平均值。计算时也包括单态座位。可以以群体或物种为单位计算。单位计算。 2 多态座位百分数多态座位百分数 :当一个座位上最常见的等位基因的频率:当一个座位上最常见的等位基因
17、的频率0.95时该座位称多态时该座位称多态座位。多态座位的定义是人为的,在当代文献中,只要表现出任何水平的变异座位。多态座位的定义是人为的,在当代文献中,只要表现出任何水平的变异就认为是多态座位,而并不特别强调就认为是多态座位,而并不特别强调0.95或或0.99的标准。的标准。 3 多态座位的平均等位基因数(多态座位的平均等位基因数(mean number of alleles per polymorphic locus):计算方法同上但不包括单态座位。):计算方法同上但不包括单态座位。 4 平均观测杂合度(平均观测杂合度(mean observed heterozygosity,Ho):在所
18、观测的座位上):在所观测的座位上杂合子的数量占所有检测座位的比例。该参数广泛用于二倍体生物的共显性标杂合子的数量占所有检测座位的比例。该参数广泛用于二倍体生物的共显性标记中,显然,单倍体生物是无杂合性可言的。当用于多倍体生物时对数据的解记中,显然,单倍体生物是无杂合性可言的。当用于多倍体生物时对数据的解释须十分谨慎。该参数对显性标记不适合,因为无法识别出杂合性的个体。释须十分谨慎。该参数对显性标记不适合,因为无法识别出杂合性的个体。5 平均期望杂合度平均期望杂合度(Expected heterozygosity He),是根据哈温定律所估算的期望,是根据哈温定律所估算的期望值:值:He=1/m
19、Pij(1-Pij)M:基因座总数:基因座总数N:各基因位上的等位基因数:各基因位上的等位基因数Pij:第:第i个基因座的第个基因座的第j个等位基因的频率。个等位基因的频率。 Neis基因多样性参数(基因多样性参数(gene diversity statistics)基因多样性首先由Nei(1973)提出,通常被看作是期望杂合度(expected heterozygosity)。 Nei(1973)提出的基因多样性的计算:HT为总的期望杂合度,p为k个等位基因中的第i个在所有群体中的平均频率。基因多样性被广泛使用,但该参数也存在缺陷。如其值在0-1之间变化,随着一个座位上的等位基因频率接近相等
20、时,它变得不灵敏,此外,该参数严重依赖于2个最常见等位基因的频率。 211i kTiiHp 单倍体基因组的考虑单倍体基因组的考虑 单倍体基因组的标记在计算基因多样性参数时也用同样的方法,如计数单倍型的数目。对于单倍体标记独特的参数是计算单倍型多样性(haplotype diversity)。 群体遗传分化的度量群体遗传分化的度量1 Neis GST 2 Wrights F-statisticsNeis GST总遗传多样性(HT)是以期望的总杂合度来度量的。HT可以分解成存在于群体内部的基因多样性部分HS和存在于群体间的基因多样性的部分DST(Nei, 1973)。即 HTHSDST HS为每一
21、群体内的期望杂合度的平均值,即 其中p为每个群体中第k个座位上的第i个等位基因的平均频率(在所有群体中的均值)。多样性指数HT、HS、DST可以用于计算遗传分化参数GST,GST定义为群体之间相对于群体混合后(即总群体)的基因多样性,Nei(1973)称为基因分化系数(coefficient of gene differentiation): GSTDST/ HT GST值在01之间变化,当HTHS时 GST0,表示等位基因频率在所有群体中相同,群体之间没有遗传分化;当HS0时 GST1,亦即群体内部无变异,而每个群体都固定了不同的等位基因,因而群体达到了最大的分化,所有检测的变异都分布在不同
22、的群体中。在动物中,活动哪里强的鸟类的GST值是脊椎动物中最低的;同样能够飞行的昆虫是无脊椎动物中最低的。 211i kSiHp Wrights F-statistics多样性指数HT、HS也可以用于计算每个个体的平均观测杂合度HI,也可以用于F-统计值来分析群体的遗传结构。Wright描述的HT和HS分别是在假定处于哈代-温伯格平衡时的全部群体的总的期望杂合度和群体内的平均期望杂合度,因而Wright和Nei对HT和HS的定义是不同的,尽管他们二人所使用的符号和计算公式相同。Wright基于在个体、群体和总群体(total population)3个水平上的变异情况提出3种分析方法。 Wri
23、ghts F-statisticsWrights F-statisticsWrights F-statisticsWrights F-statistics遗传距离的计算遗传距离的计算Neis遗传距离遗传距离Chord distanceJaccard相似系数相似系数核苷酸多样度1. Average number of pairwise nucleotide differences between seqs.jiijnn2/ ) 1(12. Normalize to the length of the sequences (L)L核苷酸多样度 nucleotide diversity1. ACAG
24、CATTAGCA2. ATAGCAATAGCT3. ATAGCAATACCT(1/3)*(3+1+4) = 8/3(8/3)/12 = 0.222A pair of sequences are on average 22.2% differentExample:# of pairs# of differences between sequences遗传数据的分析方法遗传数据的分析方法多元分析方法多元分析方法 Multidimensional Scaling,MS Principal Components Analysis,PCA谱系生物地理学(谱系生物地理学(phylogeography)分析
25、)分析 Genetic boundary analysis Spatial autocorrelation Nested cladistic analysis系统发育分析方法系统发育分析方法遗传多样性的应用遗传多样性的应用遗传变异参数可以应用于估计基因流、遗传遗传变异参数可以应用于估计基因流、遗传结构、分类学、识别遗传瓶颈、群体演化历结构、分类学、识别遗传瓶颈、群体演化历史、群体大小历史过程及保育生物学等方面。史、群体大小历史过程及保育生物学等方面。哈迪哈迪-温伯格平衡是遗传变异应用的基础,已温伯格平衡是遗传变异应用的基础,已经发展了多种成熟的方法了分析偏离哈代经发展了多种成熟的方法了分析偏离
26、哈代-温温伯格平衡的因素。伯格平衡的因素。溯祖理论(溯祖理论(coalescent theory)是遗传变异)是遗传变异应用的基础。应用的基础。一个典型的群体基因型数据的分一个典型的群体基因型数据的分析内容析内容 1. 多态性、遗传多样性和杂合度水平分析(多态性、遗传多样性和杂合度水平分析(Levels of polymorphism, genetic diversity and heterozygosity)2. 观测基因型与哈迪观测基因型与哈迪-温伯格平衡的符合及数据同质性温伯格平衡的符合及数据同质性(Conformity to Hardy-Weinberg equilibrium and
27、 homogeneity of data)3. 使用使用F-统计值进行的群体遗传结构分析统计值进行的群体遗传结构分析(Hierarchical analysis of genetic structure with F-statistics,including level of significance)4. 使用遗传距离分析群体遗传结构和群体之间关系使用遗传距离分析群体遗传结构和群体之间关系(Analysis of genetic structure with pairwise genetic distance, phenogram)5. 多变量因子分析多变量因子分析Multivariate
28、analysis (Principle Component Analysis or Factor analysis).6. 连锁分析(连锁分析(Linkage analysis) 4. 种下系统发育分析及应用种下系统发育分析及应用基因谱系基因谱系Gene Genealogy来自同一个物种内由微进化来自同一个物种内由微进化(microevolutionary )过程产生的)过程产生的不同等位基因拷贝序列构建的树状图不同等位基因拷贝序列构建的树状图称为基因谱系(称为基因谱系(gene genealogy),),以区别于来自不同物种序列、反映大以区别于来自不同物种序列、反映大进化(进化(macroe
29、volutionary )过程的)过程的系统树。基因谱系上的基因序列代表系统树。基因谱系上的基因序列代表了群体中存在的不同等位基因了群体中存在的不同等位基因/单倍型,单倍型,它们可以存在于不同个体、也可以是它们可以存在于不同个体、也可以是同一个体。同一个体。 基因谱系构建基因谱系构建构建基因谱系的方法与构建普通的系统树完全一样,构建基因谱系的方法与构建普通的系统树完全一样,所不同的只是对等位基因序列的确定。所不同的只是对等位基因序列的确定。从等位基因序列构建树状图的最大障碍是重组问题,从等位基因序列构建树状图的最大障碍是重组问题,因为重组事件将因为重组事件将2个不同的等位基因的部分混合成个不同
30、的等位基因的部分混合成一个新等位基因,从而使等位基因之间的关系表现一个新等位基因,从而使等位基因之间的关系表现为网络关系,而不是树状分支关系。这种关系违反为网络关系,而不是树状分支关系。这种关系违反了系统发育分析的基本假设。了系统发育分析的基本假设。 如果重组频率不太高的话,可以识别出从来没有发如果重组频率不太高的话,可以识别出从来没有发生过重组的局部的单倍型模块(生过重组的局部的单倍型模块(haplotype blocks)。)。 基因谱系与系统树基因谱系与系统树 二种水平的系统发育分析的区别:二种水平的系统发育分析的区别:1) 抽样的一个现存群体可以是某些群体的祖先,抽样的一个现存群体可以
31、是某些群体的祖先,而在物种以上的比较中祖先一般是不存在的。而在物种以上的比较中祖先一般是不存在的。 2) 祖先群体与后代群体一样可以产生新的突变。祖先群体与后代群体一样可以产生新的突变。3) 由于重组形成等位基因或单倍型之间的网状关由于重组形成等位基因或单倍型之间的网状关系系(tokogeny)而非二分歧树。而非二分歧树。4) 群体水平上序列的分歧程度较低,传统的系统群体水平上序列的分歧程度较低,传统的系统发育分析方法在应用这样的数据建立的系统发育树发育分析方法在应用这样的数据建立的系统发育树的准确性较低。的准确性较低。 基因谱系基因谱系在分析群体数据时,我们需要一种新的能够在分析群体数据时,
32、我们需要一种新的能够考虑群体数据特征的系统发育分析方法。传考虑群体数据特征的系统发育分析方法。传统的二分歧树模型不能用于基因谱系的建立,统的二分歧树模型不能用于基因谱系的建立,网络方法更符合群体水平的谱系关系。目前网络方法更符合群体水平的谱系关系。目前已经提出了多种网络系统发育分析方法,已经提出了多种网络系统发育分析方法,Posada和和Crandall(2001)对这些方法进)对这些方法进行了总结。这些方法中以基于算法的方法占行了总结。这些方法中以基于算法的方法占大多数,基于优化标准的方法较少。大多数,基于优化标准的方法较少。基因谱系基因谱系单倍型的进化历史有树状和网络状二种,从单倍型的进化
33、历史有树状和网络状二种,从来没有发生过重组的来没有发生过重组的DNA片段与种间分歧的片段与种间分歧的序列一样为树状,而大多数单倍型之间有网序列一样为树状,而大多数单倍型之间有网状的进化关系或多歧分枝(同时形成的单倍状的进化关系或多歧分枝(同时形成的单倍型)。因而单倍型之间的谱系关系可以用多型)。因而单倍型之间的谱系关系可以用多种不同的图示表示,如种不同的图示表示,如cladogram,phylogram或或haplotypic tree。当有重组和。当有重组和基因水平转移是树状图不能很好地表达他们基因水平转移是树状图不能很好地表达他们之间的关系,这种情况下用网络更好。之间的关系,这种情况下用网
34、络更好。 最小生成网络法最小生成网络法最小生成网络法(最小生成网络法(minimum-spanning network,MSN),软件包),软件包ARLEQUIN V2.0中有此算法(中有此算法(Schneider等,等,2000)。这是)。这是一种从成对单倍型之间的距离矩阵中构建最一种从成对单倍型之间的距离矩阵中构建最小生成树(小生成树(minimum-spanning tree,MST)的算法(的算法(Rohlf,1973)经过改进以在一个)经过改进以在一个图上包含所有可能的图上包含所有可能的MST的方法(的方法(Excoffier and Smouse,1994)。多个最小生成树只)。多
35、个最小生成树只在取样的单倍型之间才有连接,没有推论未在取样的单倍型之间才有连接,没有推论未取样单倍型的能力。取样单倍型的能力。 统计简约法统计简约法TCS统计简约法(统计简约法(statistical parsimony),),Templeton等,等,1992。软件包。软件包TCS V1.13(Clement等,等,2000)中有此算法。该法首先寻找)中有此算法。该法首先寻找未校正的距离中不低于未校正的距离中不低于5%的概率(称为简约上限,的概率(称为简约上限,parsimony limit)违反简约性原则的距离,接着从)违反简约性原则的距离,接着从具有最小距离的单倍型开始迭代地建立各单倍型
36、之具有最小距离的单倍型开始迭代地建立各单倍型之间地连接,直到所有的单倍型都连上,或者对应于间地连接,直到所有的单倍型都连上,或者对应于简约上限距离的单倍型连通上为止。尽管应用简约上限距离的单倍型连通上为止。尽管应用TCS可以推论遗失的单倍型节点,但在文献中还没有正可以推论遗失的单倍型节点,但在文献中还没有正式的描述推论的算法。式的描述推论的算法。 中值连接法中值连接法中值连接法(中值连接法(median-joining network,MJN),软件包),软件包NETWORKS V2.0(Bandelt等,等,1999)中有此算法。该法首)中有此算法。该法首先将所有的先将所有的MSTs根据类似
37、于根据类似于Excoffier and Smouse(1994)提出的算法联合在单一网)提出的算法联合在单一网络上(络上(MSN),接着应用简约性标准推论出),接着应用简约性标准推论出MSN上遗失的单倍型节点并将其添加到上遗失的单倍型节点并将其添加到MSN上,以使上,以使MSN的总树长最小。的总树长最小。 最简约树联合法最简约树联合法最简约树联合法(最简约树联合法(union of most parsimonious trees,UMP),由),由Cassens等(等(2005)提出。该)提出。该法需要二个连续的步骤,首先,采用法需要二个连续的步骤,首先,采用MP法分析数法分析数据并保存据并保
38、存MPT及其分支长度信息;接着使用下述算及其分支长度信息;接着使用下述算法将所有保存的法将所有保存的MPTs联合在一个图上。算法是:联合在一个图上。算法是:将所有将所有MPTs连通到单一网络上;将不同连通到单一网络上;将不同MPTs上具有相同的分枝、单倍型或分枝单倍型(无论是上具有相同的分枝、单倍型或分枝单倍型(无论是取样的单倍型还是推论的单倍型)合并,在这个过取样的单倍型还是推论的单倍型)合并,在这个过程中,从一棵或多棵程中,从一棵或多棵MPTs上获得的独特的谱系路上获得的独特的谱系路径的环(径的环(cycles)仍然维持不变。)仍然维持不变。 基因谱系的应用基因谱系的应用 (1)基因谱系可
39、以用于检验自然选择作用)基因谱系可以用于检验自然选择作用 (2)中性理论的检验)中性理论的检验 (3)基因流估计)基因流估计 (4)从基因谱系推论群体进化)从基因谱系推论群体进化(5)从基因谱系推论群体参数)从基因谱系推论群体参数 基因谱系应用的理论基础基因谱系应用的理论基础哈迪哈迪-温伯格(温伯格(Hardy-Wenberg equilibrium)中性理论(中性理论(neutral theory)溯祖理论(溯祖理论(coalescent theory)判断群体分化判断群体分化Pons and Petit(1996)提出了利用)提出了利用DNA序序列数据判断群体分化的方法:从列数据判断群体分
40、化的方法:从DNA序列中序列中计算出计算出Gst和和Nst二个参数,二个参数,Gst仅考虑单倍仅考虑单倍型频率,而型频率,而Nst考虑单倍型之间的相似性,数考虑单倍型之间的相似性,数据集中有显著遗传分化发生可以通过比较据集中有显著遗传分化发生可以通过比较Nst接近于接近于0来检验,而来检验,而Gst和和Nst差异的统计学差异的统计学显著性提供了单倍型的系统发育及其地理分显著性提供了单倍型的系统发育及其地理分布信息,即当布信息,即当NstGst时,有着密切相关时,有着密切相关的单倍型多在同一群体而不是不同群体中存的单倍型多在同一群体而不是不同群体中存在。在。 单倍型谱系与地理分布的关系单倍型谱系
41、与地理分布的关系单倍型谱系树:根据单倍型的序列信息建立的单倍型谱系树:根据单倍型的序列信息建立的基因树。基因树。单倍型的地理分布:识别出的单倍型在地理空单倍型的地理分布:识别出的单倍型在地理空间的分布式样。间的分布式样。如果单倍型树与地理分布一致,则如果单倍型树与地理分布一致,则NstGst。如果单倍型之间没有特定的关系,则如果单倍型之间没有特定的关系,则NstGst。如果关系密切的单倍型之间不在相同分布区域如果关系密切的单倍型之间不在相同分布区域的群体中出现,则的群体中出现,则NstGst。 基因流估计基因流估计传统方法是应用等位酶、传统方法是应用等位酶、SSR等无序分子标等无序分子标记,在
42、中性模型下(假定群体处于基因流和记,在中性模型下(假定群体处于基因流和漂变作用的平衡状态)计算群体遗传结构相漂变作用的平衡状态)计算群体遗传结构相关参数进行间接估计。群体等位基因的地理关参数进行间接估计。群体等位基因的地理变异被用于计算联合参数变异被用于计算联合参数Nm(作为群体之间(作为群体之间每世代迁移个体的平均数)。每世代迁移个体的平均数)。Nm大于大于1表示表示基因流的效应大于漂变的效应,基因流的效应大于漂变的效应,Nm小于小于1说说明基因流受到限制,或无基因流。明基因流受到限制,或无基因流。 基因流估计基因流估计Templeton法常称为嵌套进化枝分析(法常称为嵌套进化枝分析(nes
43、ted clade analysis),该法将地理分布信息叠加到基因谱系上,采用),该法将地理分布信息叠加到基因谱系上,采用严密的统计学方法来检验地理分布与基因谱系的关联强度,严密的统计学方法来检验地理分布与基因谱系的关联强度,并由此来解释造成这种原因的进化过程。并由此来解释造成这种原因的进化过程。具体做法是:首先,采用统计简约法建立无根支序图具体做法是:首先,采用统计简约法建立无根支序图(cladogram),从这个基因树上可以形成一系列的嵌套的),从这个基因树上可以形成一系列的嵌套的进化枝。然后,将地理信息叠加到支序图上,计算出进化枝进化枝。然后,将地理信息叠加到支序图上,计算出进化枝距离
44、(距离(clade distance,Dc)和嵌套进化枝距离()和嵌套进化枝距离(nested clade distance,Dn)。进化枝距离)。进化枝距离Dc是从进化枝地理中是从进化枝地理中心到各进化枝成员的平均空间距离(心到各进化枝成员的平均空间距离(km),而嵌套进化枝),而嵌套进化枝距离是嵌套进化枝地理中心到嵌套进化枝各成员之间的平均距离是嵌套进化枝地理中心到嵌套进化枝各成员之间的平均空间距离。最后,采用排列检验(空间距离。最后,采用排列检验(permutation test)确定)确定对这种模式的支持度。对这种模式的支持度。 从基因谱系估计群口历史从基因谱系估计群口历史nGrant
45、 and Bowen(1998)通过比较)通过比较mtDNA单倍型和核苷酸单倍型和核苷酸多态性(多态性(nucleotide diversity)作为估算群口历史)作为估算群口历史(demographic)的方法)的方法n 5. 种界确定种界确定种界确定问题种界确定问题系统生物学的两大主要任务就是为物种定系统生物学的两大主要任务就是为物种定界和重建它们的系统发育关系界和重建它们的系统发育关系 。超越主观判断,发展种界确定的客观操作超越主观判断,发展种界确定的客观操作方法一直都是一个挑战。传统分类学家用方法一直都是一个挑战。传统分类学家用宏观的形态学数据来为物种定界;之后随宏观的形态学数据来为物
46、种定界;之后随着分子生物学技术的发展,分子数据也逐着分子生物学技术的发展,分子数据也逐步应用到种界确定上来,最近,很多研究步应用到种界确定上来,最近,很多研究提出了用提出了用DNA序列数据来检验传统的、形序列数据来检验传统的、形态学上的分类,尤其是线粒体态学上的分类,尤其是线粒体DNA(mtDNA)的分析。)的分析。 种界确定的分子方法分类种界确定的分子方法分类不依赖于系统树的方法:不依赖于系统树的方法: (1)杂交带屏障法)杂交带屏障法 (2)遗传距离与地理距离关联法)遗传距离与地理距离关联法 (3)绝对遗传距离法)绝对遗传距离法 (4)重组域法)重组域法 (5)群体聚集分析)群体聚集分析依
47、赖于系统树的方法:依赖于系统树的方法: (6)分支单倍型聚集法)分支单倍型聚集法 (7)谱系排它性标准)谱系排它性标准 (8)内聚性检验法)内聚性检验法遗传距离与地理距离关联法遗传距离与地理距离关联法Good与与Wake所提出的方法是直接根据所提出的方法是直接根据“遗传距离遗传距离-地理距离图地理距离图”来检测物种界限。这里的遗传距离根来检测物种界限。这里的遗传距离根据异型酶座位来计算。在该方法中需要对取样样本据异型酶座位来计算。在该方法中需要对取样样本进行两两比较,在进行两两比较,在“遗传距离遗传距离-地理距离直角坐标系地理距离直角坐标系”上标出每对比较的结果,然后对所得到的结果做拟上标出每
48、对比较的结果,然后对所得到的结果做拟合趋势线。若拟合趋势线过坐标原点,则表明基因合趋势线。若拟合趋势线过坐标原点,则表明基因交流的程度和地理距离相关,取样样本可被认为是交流的程度和地理距离相关,取样样本可被认为是同一物种;相反,若拟合趋势线严重偏离坐标原点,同一物种;相反,若拟合趋势线严重偏离坐标原点,则表明样本相互之间基因交流程度与地理距离之间则表明样本相互之间基因交流程度与地理距离之间的分歧度不同,取样样本可能包含了多个物种。在的分歧度不同,取样样本可能包含了多个物种。在用这种方法时可以事先在总样本内定义几个子集,用这种方法时可以事先在总样本内定义几个子集,这样在总样本包含多个物种时同时可
49、以检测出哪些这样在总样本包含多个物种时同时可以检测出哪些样本属于同一物种样本属于同一物种 。Good & Wake的遗传距离法。(a)表示取样样本之间两两比较的遗传距离-地理距离散点图;(b)表示事先定义的两个子集A、B内部的拟合趋势线;(c)表示所有样本整体散点图的拟合趋势线。根据Good & Wake的观点,子集A、B分别为独立的物种,整体取样包含多个物种。 绝对遗传距离法绝对遗传距离法Highton于于1990年提出了另一个根据遗传距离来为年提出了另一个根据遗传距离来为物种定界的方法。该方法不考虑地理距离,而是从物种定界的方法。该方法不考虑地理距离,而是从样本之间的遗传距离的分布频率来为
50、物种定界。样本之间的遗传距离的分布频率来为物种定界。Highton认为样本之间的遗传距离是由不同程度的认为样本之间的遗传距离是由不同程度的生殖隔离所产生的,并指出生殖隔离所产生的,并指出Nei D0.15时所比较的时所比较的两个样本属于同一物种,而两个样本属于同一物种,而Nei D0.15时则认为该时则认为该属于不同的物种。这个观点可以通过属于不同的物种。这个观点可以通过D距离的分布距离的分布频率柱状图来进行直观判断。若取样样本频率柱状图来进行直观判断。若取样样本D值频率值频率分布只在分布只在Nei D0.15有一个峰值,则可认为取样样有一个峰值,则可认为取样样本属于同一物种;相反,若本属于同