1、o 序列比对基本概念o 空位罚分o 相似性与同源性o 双序列比对方法n 点阵序列比较(Dot Matrix Sequence Comparison)n 动态规划算法(Dynamic Programming Algorithm)o 记分矩阵1o 序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法o 按比对序列条数分类n 双序列比对:两条序列的比对n 多序列比对:三条或以上序列的比对2o 相似的序列可能具有相似的功能与结构o 发现一个基因或蛋白哪些区域容易发生突变,哪些位点突变后对功能没有影响 o 发现
2、生物进化方面的信息3o 全局序列比对全局序列比对l定义:在全局范围内对两条序列进行比对打分的方法l适合于非常相似且长度近似相等的序列o 局部序列比对局部序列比对l定义:一种寻找匹配子序列的序列比对方法 l适合于一些片段相似而另一些片段相异的序列45(Gap Penalties)o 空位为了获得两个序列最佳比对,必须使用空位和空位罚分o 空位罚分分类:n 空位开放罚分(Gap opening penalty)n 空位扩展罚分(Gap extension penalty)o 最优的序列比对通常具有以下两下特征:n 尽可能多的匹配n 尽可能少的空位o 插入任意多的空位会产生较高的分数,但找到的并不一
3、定是真正相似序列61 GTGATAGACAC | 1 GTGCATAGACAC允许空位但不罚分不允许有空位 match = 5mismatch = -41 GTG-ATAGACAC | |1 GTGCATAGACAC1 GTG-ATAGACAC | |1 GTGC-ATAGACAC? ?Score: -21Score: 557 A T G T T A T A CT A T G T G C G T A T A Score=4参数:匹配匹配= 1非匹配非匹配= 0g= 3r = 0.1x = 3score:8 - 3.2 = 4.8Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空位扩展
4、罚分x:空位长度T A T G T G C G T A T A insertion / deletionA T G T - - - T A T A CWx= -3 - (3 -1) 0.1 = -3.28o 点阵序列比较 (Dot Matrix Sequence Comparison)o 动态规划算法 (Dynamic Programming Algorithm)o 词或K串方法 (Word or K-tuple Methods)9o点阵(Dot Matrix)分析是一种简单的图形显示序列相似性的方法o沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相
5、同的区域在点阵图中显示为由点组成的对角线,对角线之外零散的点为背景噪音10IONIZATIONIONIZATION11IONIZATNOIIONIZATNOI12o自身比对n 寻找序列中的正向或反向重复序列n 蛋白质的重复结构域(domain)n 相同残基重复出现的低复杂区(Low Complexity)n RNA二级结构中的互补区域等o对两条序列的相似性作整体的估计13TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G - T C A T| | | | | | | | |T A C T G T T C A T插入空位插入空位1
6、4人类低脂受体(human low-density lipoprotein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复15o 编码噬菌体c(水平轴)和噬菌体P22 c2(垂直轴)的氨基酸序列间的点阵分析o 相同的点打印全部打印,很难找到有用的信息16T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T G A C A T
7、 A C G G T A T GWindow=3 Word Size = 317ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 018ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 019ATACTACAAGACACGTACCGG C G A T G C A
8、T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 020G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size = 5Stringency = 3Match = 1 Mismatch = 021G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG22G C G A T G C A T T G A G T A T C A T AATACTACAAGAC
9、ACGTACCG23(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸, 相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab24o优点n 直观性,整体性n 点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配n 不依赖任何先决条件,是一种可用于初步分析的理想工具n 点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度25o 缺点n 不能很好地兼容打分矩阵n 滑动窗口和预值的选择过于经验化n
10、 信噪比低 n 不适合进行高通量的数据分析26o DNA Strider (Macintosh)n http:/ o Dotter (Unix/Linux, X-Windows)o COMPARE, DOTPLOT (GCG软件)o PLALIGN (FASTA)o Dotletnhttp:/www.isrec.isb-sib.ch/java/dotlet/Dotlet.html2728o动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决o在生物学中应用的两种动态规划算法:Needleman-Wunsch算法
11、(全局比对)和Smith-Waterman算法(局部比对)29o Eg. 匹配=1,非匹配=0, 空位罚分=-1n Sequence1: CACGAn Sequence2: CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA30Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个i -xi -1j -1i -yji Si - x,j - wx Si 1, j- 1 + s(ai , bj)Si, j - y - wy Si, j 31Sij=maxSi-1,j-1,+s(aibj),maxx1 (Si-x,j-wx),maxy 1 (Si,j-y-
12、wy)Sij=maxSi-1,j-1,+s(aibj),maxx1 (Si-1,j-wx),maxy 1 (Si,j-1-wy)公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j的分值, s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分32ACTTCGACTAG匹配3错配-1空位-233ACTTCG0ACTAG匹配3错配-1空位-234ACTTCG0-2ACTAG匹配3错配-1空位-235ACTTCG0-2-4-6-8-10-12ACTAG匹配3错配-1空位-236ACTTCG0-2-4-6-8-10-12A-2C
13、TAG匹配3错配-1空位-237ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10?S(2,2)-2+(-2)-2+(-2)0+3匹配3错配-1空位-238ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10?S(2,3)-4+(-2) 3+(-2)-2+(-1)匹配3错配-1空位-239ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配3错配-1空位-240ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-3 2G-10-50S(4,4) 4+(-2)
14、4+(-2) 6+3匹配3错配-1空位-241ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配3错配-1空位-242ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回回 溯溯43ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA44ACTTCG0-2-4-6-
15、8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA451.ACTTCGAC-TAG2.ACTTCGACT-AG3.ACTTCGACTA-G哪一个是最优比对哪一个是最优比对(optimal alignment)呢呢?记分矩阵46Seq1: MPRCLCQRJNCBASeq2: PBRCKCRNJCJA匹配匹配=1,错配,错配=0,空,空位罚分位罚分=047Seq1: MPRCLCQRJNCBASeq2: PBRCKCRNJCJA求出阴影部分所能达到的最大值填入当前位置,并记下到达这一位置的路径48S
16、eq1: MPRCLCQRJNCBASeq2: PBRCKCRNJCJA549 MPRCLCQRJNCBA PBRCKCRNJCJAResult:50 F(i-1,j-1) + s(ai, bj), F(i,j)= max F(i,j-1)-wy, F(i-1,j)-wx.0动态规划算法Smith-Waterman 算法51AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210T000001132212A011000224321匹配匹配=1非匹配非
17、匹配=-1空位空位=-152AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210T000001132212A011000224321A A C C T A T A G C T- G C G A T A T A - - -匹配匹配=1非匹配非匹配=-1空位空位=-153o Genetics Computer Group (GCG) 程序 GAP (Needleman-Wunsch algorithm) and BESTFIT (Smith-Wate
18、rman algorithm)o 最相似的比对表示为 :, 较相似的表示为 . 无相关的表示为空格, carboxy-terminal54oDNA计分矩阵o蛋白质计分矩阵o广泛使用的两种矩阵n PAM n BLOSUMo空位罚分55(SCORING MATRICES)oDNA Scoring MatricesoAmino Acid Substitution Matricesn PAM (Point Accepted Mutation) n BLOSUM (Blocks Substitution Matrix)56actaccagttcatttgatacttctcaaataccattaccgtg
19、ttaactgaaaggacttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配: 1错配: 0分值:557CTAG嘧啶嘌呤 表示转换(transition),表示颠换(transversions)转换比颠换更容易发生58AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型59PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵T:G= -2 T:T = 5Score=
20、 48 CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 . CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .60o 氨基酸容易被其它生化、物理特性相似的氨基酸替换o PAM1(1个PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)o PAMn是PAM1自乘n次o PAM250、PAM
21、120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对61 A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0
22、0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3
23、0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0
24、 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -
25、2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 62 u模块替换矩阵BLOSUM以序列片段为基础,它是 基于蛋白质模块(Block)数据库而建立起来的 u 在模块比对的每一列中,分别计算 两两氨基酸的变化情况,来自所有 模块的数值被用来计算BLOSUM矩阵u矩阵后面的数字表示构建此矩阵所用的 序列的相
26、似程度,如BLOSUM62表示由 相似度为62%的序列构建AACECA - C = 0A - E = -1C - E = -4A - A = 4C - C = 9AACEC (Blocks Substitution Matrix)6364n 一般来说,在局部相似性搜索上, BLOSUM 矩阵较PAM要好n当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 n 对于数据库搜索来说一般选择BLOSUM62矩阵nPAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域65n同源性(Homologous G
27、enes) :序列来自共同的祖先,相似的序列往往具有同源性n相似性(Similarity):两序列根据某种参数设定而表现出来的相近性66o 相似的序列并不一定同源o 相似性是可以被量化的“计分表”,它是匹配的数量除以比对的长度,通常以百分比%表示o 同源性一定是指序列来自共同的祖先o 同源性是一个定性的概念,不能使用序列间具有百分之多少同源性来定义67n 直系同源(Orthologs):具有共同祖先与相似功能的同源基因(无基因复制事件)n 旁系同源(Paralogs):两个物种A和B的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代6869精品课件精品课件!精品课件精品课件!谢谢!72