1、双序列比对郭志云Email:bioinfswjtu.edu1o 序列比对基本概念o 空位罚分o 相似性与同源性o 双序列比对方法n 点阵序列比较(Dot Matrix Sequence Comparison)n 动态规划算法(Dynamic Programming Algorithm)o 记分矩阵2o 序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法o 按比对序列条数分类n 双序列比对:两条序列的比对n 多序列比对:三条或以上序列的比对3o 相似的序列可能具有相似的功能与结构o 发现一个基因或蛋白
2、哪些区域容易发生突变,哪些位点突变后对功能没有影响 o 发现生物进化方面的信息4o 全局序列比对全局序列比对l定义:在全局范围内对两条序列进行比对打分的方法l适合于非常相似且长度近似相等的序列o 局部序列比对局部序列比对l定义:一种寻找匹配子序列的序列比对方法 l适合于一些片段相似而另一些片段相异的序列56(Gap Penalties)o 空位为了获得两个序列最佳比对,必须使用空位和空位罚分o 空位罚分分类:n 空位开放罚分(Gap opening penalty)n 空位扩展罚分(Gap extension penalty)o 最优的序列比对通常具有以下两下特征:n 尽可能多的匹配n 尽可能
3、少的空位o 插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列71 GTGATAGACAC|1 GTGCATAGACAC允许空位但不罚分不允许有空位 match=5mismatch=-41 GTG-ATAGACAC|1 GTGCATAGACAC1 GTG-ATAGACAC|1 GTGC-ATAGACAC?Score:-21Score:558 A T G T T A T A CT A T G T G C G T A T A Score=4参数:匹配匹配=1非匹配非匹配=0g=3r=0.1x=3score:8-3.2=4.8Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空
4、位扩展罚分x:空位长度T A T G T G C G T A T A insertion/deletionA T G T-T A T A CWx=-3-(3-1)0.1=-3.29o 点阵序列比较(Dot Matrix Sequence Comparison)o 动态规划算法(Dynamic Programming Algorithm)o 词或K串方法(Word or K-tuple Methods)10o点阵(Dot Matrix)分析是一种简单的图形显示序列相似性的方法o沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点
5、组成的对角线,对角线之外零散的点为背景噪音11IONIZATIONIONIZATION12IONIZATNOIIONIZATNOI13o自身比对n 寻找序列中的正向或反向重复序列n 蛋白质的重复结构域(domain)n 相同残基重复出现的低复杂区(Low Complexity)n RNA二级结构中的互补区域等o对两条序列的相似性作整体的估计14TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G-T C A T|T A C T G T T C A T插入空位插入空位15人类低脂受体(human low-density lipopr
6、otein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复16o 编码噬菌体c(水平轴)和噬菌体P22 c2(垂直轴)的氨基酸序列间的点阵分析o 相同的点打印全部打印,很难找到有用的信息17T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T G A C A T A C G G T A T GWindow=3 Word Si
7、ze=318ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Match=1 Mismatch=019ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Match=1 Mismatch=020ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Ma
8、tch=1 Mismatch=021G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size=5Stringency=3Match=1 Mismatch=022G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG23G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG24(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点
9、阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab25o优点n 直观性,整体性n 点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配n 不依赖任何先决条件,是一种可用于初步分析的理想工具n 点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度26o 缺点n 不能很好地兼容打分矩阵n 滑动窗口和预值的选择过于经验化n 信噪比低 n 不适合进行高通量的数据分析27o DNA Strider(Macintosh)n cellbiol/soft.htm
10、o Dotter(Unix/Linux,X-Windows)o COMPARE,DOTPLOT(GCG软件)o PLALIGN(FASTA)o Dotletnisrec.isb-sib.ch/java/dotlet/Dotlet.html2829o动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决o在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)30o Eg.匹配=1,非匹配=0,空位罚分=-1n Sequence1:CACGAn
11、 Sequence2:CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA31Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个i-xi-1j-1i-yji Si-x,j -wx Si 1,j-1 +s(ai,bj)Si,j-y-wy Si,j 32Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-x,j-wx),maxy 1(Si,j-y-wy)Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-1,j-wx),maxy 1(Si,j-1-wy)公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j
12、的分值,s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分33ACTTCGACTAG匹配3错配-1空位-234ACTTCG0ACTAG匹配3错配-1空位-235ACTTCG0-2ACTAG匹配3错配-1空位-236ACTTCG0-2-4-6-8-10-12ACTAG匹配3错配-1空位-237ACTTCG0-2-4-6-8-10-12A-2CTAG匹配3错配-1空位-238ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10?S(2,2)-2+(-2)-2+(-2)0+3匹配3错配-1空位-239ACTTCG0-2
13、-4-6-8-10-12A-23C-4T-6A-8G-10?S(2,3)-4+(-2)3+(-2)-2+(-1)匹配3错配-1空位-240ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配3错配-1空位-241ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-3 2G-10-50S(4,4)4+(-2)4+(-2)6+3匹配3错配-1空位-242ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配3错配-1空位-243AC
14、TTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回回 溯溯44ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA45ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA461.ACTTCGAC-TAG2.ACTTCGACT-A
15、G3.ACTTCGACTA-G哪一个是最优比对哪一个是最优比对(optimal alignment)呢呢?记分矩阵47Seq1:MPRCLCQRJNCBASeq2:PBRCKCRNJCJA匹配匹配=1,错配,错配=0,空,空位罚分位罚分=048Seq1:MPRCLCQRJNCBASeq2:PBRCKCRNJCJA求出阴影部分所能达到的最大值填入当前位置,并记下到达这一位置的路径49Seq1:MPRCLCQRJNCBASeq2:PBRCKCRNJCJA550 MPRCLCQRJNCBA PBRCKCRNJCJAResult:51 F(i-1,j-1)+s(ai,bj),F(i,j)=max F(
16、i,j-1)-wy,F(i-1,j)-wx.0动态规划算法Smith-Waterman 算法52AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210T000001132212A011000224321匹配匹配=1非匹配非匹配=-1空位空位=-153AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210
17、T000001132212A011000224321A A C C T A T A G C T-G C G A T A T A-匹配匹配=1非匹配非匹配=-1空位空位=-154o Genetics Computer Group(GCG)程序 GAP(Needleman-Wunsch algorithm)and BESTFIT(Smith-Waterman algorithm)o 最相似的比对表示为:,较相似的表示为.无相关的表示为空格,carboxy-terminal55oDNA计分矩阵o蛋白质计分矩阵o广泛使用的两种矩阵n PAM n BLOSUMo空位罚分56(SCORING MATRIC
18、ES)oDNA Scoring MatricesoAmino Acid Substitution Matricesn PAM(Point Accepted Mutation)n BLOSUM(Blocks Substitution Matrix)57actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配:1错配:0分值:558CTAG嘧啶嘌呤 表示转换(transition),表示颠换(transversions)转换比颠换更容易
19、发生59AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型60PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵T:G=-2 T:T=5Score=48 CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G
20、-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .61o 氨基酸容易被其它生化、物理特性相似的氨基酸替换o PAM1(1个PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)o PAMn是PAM1自乘n次o PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对62 A R N D C Q E G H I L K M F P S T W Y V B ZA 2-2 0 0-2 0 0 1-1-1-2-1-1-3 1 1 1-6-3 0 2 1 R -
21、2 6 0-1-4 1-1-3 2-2-3 3 0-4 0 0-1 2-4-2 1 2 N 0 0 2 2-4 1 1 0 2-2-3 1-2-3 0 1 0-4-2-2 4 3 D 0-1 2 4-5 2 3 1 1-2-4 0-3-6-1 0 0-7-4-2 5 4 C -2-4-4-5 12-5-5-3-3-2-6-5-5-4-3 0-2-8 0-2-3-4 Q 0 1 1 2-5 4 2-1 3-2-2 1-1-5 0-1-1-5-4-2 3 5 E 0-1 1 3-5 2 4 0 1-2-3 0-2-5-1 0 0-7-4-2 4 5 G 1-3 0 1-3-1 0 5-2-3-4-
22、2-3-5 0 1 0-7-5-1 2 1 H -1 2 2 1-3 3 1-2 6-2-2 0-2-2 0-1-1-3 0-2 3 3 I -1-2-2-2-2-2-2-3-2 5 2-2 2 1-2-1 0-5-1 4-1-1 L -2-3-3-4-6-2-3-4-2 2 6-3 4 2-3-3-2-2-1 2-2-1 K -1 3 1 0-5 1 0-2 0-2-3 5 0-5-1 0 0-3-4-2 2 2 M -1 0-2-3-5-1-2-3-2 2 4 0 6 0-2-2-1-4-2 2-1 0 F -3-4-3-6-4-5-5-5-2 1 2-5 0 9-5-3-3 0 7-1-
23、3-4 P 1 0 0-1-3 0-1 0 0-2-3-1-2-5 6 1 0-6-5-1 1 1 S 1 0 1 0 0-1 0 1-1-1-3 0-2-3 1 2 1-2-3-1 2 1 T 1-1 0 0-2-1 0 0-1 0-2 0-1-3 0 1 3-5-3 0 2 1 W -6 2-4-7-8-5-7-7-3-5-2-3-4 0-6-2-5 17 0-6-4-4 Y -3-4-2-4 0-4-4-5 0-1-1-4-2 7-5-3-3 0 10-2-2-3 V 0-2-2-2-2-2-2-1-2 4 2-2 2-1-1-1 0-6-2 4 0 0 B 2 1 4 5-3 3 4
24、2 3-1-2 2-1-3 1 2 2-4-2 0 6 5 Z 1 2 3 4-4 5 5 1 3-1-1 2 0-4 1 1 1-4-3 0 5 6 63 u模块替换矩阵BLOSUM以序列片段为基础,它是 基于蛋白质模块(Block)数据库而建立起来的 u 在模块比对的每一列中,分别计算 两两氨基酸的变化情况,来自所有 模块的数值被用来计算BLOSUM矩阵u矩阵后面的数字表示构建此矩阵所用的 序列的相似程度,如BLOSUM62表示由 相似度为62%的序列构建AACECA-C =0A-E =-1C-E =-4A-A =4C-C =9AACEC(Blocks Substitution Matri
25、x)6465n 一般来说,在局部相似性搜索上,BLOSUM 矩阵较PAM要好n当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 n 对于数据库搜索来说一般选择BLOSUM62矩阵nPAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域66n同源性(Homologous Genes):序列来自共同的祖先,相似的序列往往具有同源性n相似性(Similarity):两序列根据某种参数设定而表现出来的相近性67o 相似的序列并不一定同源o 相似性是可以被量化的“计分表”,它是匹配的数量除以比对的长度,通常以百分比%表示o 同源性一定是指序列来自共同的祖先o 同源性是一个定性的概念,不能使用序列间具有百分之多少同源性来定义68n 直系同源(Orthologs):具有共同祖先与相似功能的同源基因(无基因复制事件)n 旁系同源(Paralogs):两个物种A和B的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代6970谢谢!71
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。