1、基因家族进化分析主要内容二、如何进行分析二、如何进行分析 A 基因数量的分析: 1. 进化树分析 2. 染色体定位 3. 共线性分析 4. 起源方式 B 基因结构的变化 1. 外显子内含子 2. 内含子相位 3. Domain和Motif 4. 启动子区域 5. 可变剪切 6. 选择的计算C 功能分析 1. 功能预测分析 2. 表达量一、什么是基因家族一、什么是基因家族 1. 鉴定方法 2. 基因命名 3. 进化树构建三、综合类分析三、综合类分析 基因家族,转录组, 基因组和实验互相 组合基因家族:基因家族:是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们
2、在结构和功能上具有明显的相似性,编码相似的蛋白质产物, 同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。一 基因家族AGene familyisasetofseveralsimilargenes,formedbyduplicationofasingleoriginalgene,andgenerallywithsimilarbiochemicalfunctions1.1基因家族鉴定序列相似性Blast鉴定:1. 找出已有的或者鉴定好的基因或具有某功能的基因(拟南芥)2. 用这些基因对你所需物种进
3、行blast(evalue=1e-5)3. 对blast得到的序列进行手工校对Domain相似性鉴定:1. 找到你要鉴定的基因家族的domain(Pfam)2. 根据domain对物种基因组进行Search (HMMer) 3. 对得到序列进行手工校对1.2基因家族命名根据所在染色体位置命名根据已有命名的同源基因命名1.3 建树A: 建树时物种选择1. 根据你的研究目的选择物种2. 很大的基因家族,可以少选几个物种或只选一个物种进行分3. 基因数量比较少或者比较小的基因家族(10个基因以内),可以多选几个物种(从藻类到被子植物)4. 拟南芥作为研究比较清楚的模式植物是除了研究物种外的首选物种1
4、.3 建树B: 蛋白序列和Domain序列建树Domain序列保守行较高,可以更好的反映基因家族各个成员之间的进化关系C: 常用建树软件1.NJ树:ClustalW2.ML树:RAxML和PhyML3.Bayes树:MrBayes4.MP树:PAUP2.1 进化树分析桉树 MYB 家族 MYB成员多,少选物种 亚家族分类 同源基因,功能预测 基因家族各个分支的扩张与收缩 某物种特有分支(标红)2.1 进化树分析在本分支上极大的扩张基因家族在各个物种中的成员少于10个,选了57种植物,12种动物亚家族分类同源基因,功能预测2.2 基因数量分析1. 基因的扩张(segmental and tand
5、em duplication)2. 基因的丢失3. 基因只在某支上的扩张4. 某物种特有的分支 基因起源的方式:Segmental and Tandem Duplication2.3 染色体定位制图方法:跟据gff文件得到基因的位置信息A. 软件(没有好用的)B. SVG脚本(已有)C. 手工绘制染色体定位通常与基因来源方式共线性结合起来2.4 共线性分析软件:McscanX染色体定位图 circle图2.5 基因起源A:两个片段的共线性区域B:进化树orthologs根据A,B和绿色和蓝色标记基因序列差异C:推测这些基因起源Segmental and Tandem Duplication基因
6、结构1. 外显子数量2. 某段序列的差异3. 碱基的差异4. 启动子区域的差异5. 内含子相位 3.1 外显子结构各分支外显子数量一致外显子差异会导致功能差异可以在外显子上加上domain绘制方式:SVG脚本软件:http:/bio.ieo.eu/fancygene/tutorial.html3.2 Motif和DomainMotif 主要软件Meme: http:/ Motif和DomainDomain 数量差异对功能影响极大Domain 数量的不同导致不同亚家族Motif 的差异可能会导致功能差异Domain与Motif:Domain 是保守结构域,一条序列一般只有1-2个domainMo
7、tif 是更小的分类单位,一个domain可能有多个motif组成3.3 内含子及相位 内含子相位内含子插入密码子的位置 内含子相位的差异可能会导致功能差异 可以手工绘制3.4 可变剪切有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体1.可变剪切对基因功能具有很大的影响2.基因家族鉴定的基因都是去可变剪切的3.内含子可能参与转录导致基因功能分化3.5 启动子分析基因表达量的高低与启动子有关基因功能的差异主要与基因结构有关启动子序列:1500bp预测网址:http:/bioinformatics.psb.ugent.be/webtools/plant
8、care/html/3.6 选择计算选择计算可以得到碱基的差异,之后通过实验检测对功能的影响四 功能分析1. 同源基因预测2. 转录组分析3. 实验验证4.1 同源基因4.2 转录组Heatmap与进化树和基因结构等结合检测基因在不同组织,不同胁迫的表达4.3 实验通过qRT-PCR得到基因家族各个成员的表达情况或者验证转录组结果通过实验验证你的结果或者关键基因的功能总结鉴定进化分析功能鉴定基因数目必须全面假基因,注释错误的基因先进行基因家族的分类重点看扩增的基因和序列差异的基因一个分枝上的基因功能相似对关键基因进行重点分析例一R2R3-MYB genepairsinPopulus:evolu
9、tionandcontributiontosecondarywallformationandfloweringtime.Journal of Experimental Botany例一例二Differentialevolutionofmembersoftherhomboidgenefamilywithconservativeanddivergentpatterns.New Phytologist对于数量少的基因家族,适合分析基因起源,扩张和丢失例三SubcellularRelocalizationandPositiveSelectionPlayKeyRolesintheRetentionofD
10、uplicateGenesofPopulusClassIIIPeroxidaseFamily.Plant cellGenomicinsightsintosaltadaptationinadesertpoplar.Nature Communications例四TheresurrectiongenomeofBoea hygrometrica:Ablueprintforsurvivalofdehydration.PNAS常用数据库拟南芥数据库:功能查找植物基因组下载同源基因及表达量转录因子数据库分析思路数量的扩张和收缩基因结构的变化功能分析鉴定进化树分析染色体定位共线性分析基因起源分析外显子内含子内含子相位Domain和Motif启动子区域可变剪切选择的计算特殊基因扩张的基因各个分支有结构差异的基因