ImageVerifierCode 换一换
格式:PPT , 页数:71 ,大小:1.28MB ,
文档编号:3198056      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3198056.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(双序列比对的方法课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

双序列比对的方法课件.ppt

1、双序列比对郭志云Email:bioinfswjtu.edu1o 序列比对基本概念o 空位罚分o 相似性与同源性o 双序列比对方法n 点阵序列比较(Dot Matrix Sequence Comparison)n 动态规划算法(Dynamic Programming Algorithm)o 记分矩阵2o 序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法o 按比对序列条数分类n 双序列比对:两条序列的比对n 多序列比对:三条或以上序列的比对3o 相似的序列可能具有相似的功能与结构o 发现一个基因或蛋白

2、哪些区域容易发生突变,哪些位点突变后对功能没有影响 o 发现生物进化方面的信息4o 全局序列比对全局序列比对l定义:在全局范围内对两条序列进行比对打分的方法l适合于非常相似且长度近似相等的序列o 局部序列比对局部序列比对l定义:一种寻找匹配子序列的序列比对方法 l适合于一些片段相似而另一些片段相异的序列56(Gap Penalties)o 空位为了获得两个序列最佳比对,必须使用空位和空位罚分o 空位罚分分类:n 空位开放罚分(Gap opening penalty)n 空位扩展罚分(Gap extension penalty)o 最优的序列比对通常具有以下两下特征:n 尽可能多的匹配n 尽可能

3、少的空位o 插入任意多的空位会产生较高的分数,但找到的并不一定是真正相似序列71 GTGATAGACAC|1 GTGCATAGACAC允许空位但不罚分不允许有空位 match=5mismatch=-41 GTG-ATAGACAC|1 GTGCATAGACAC1 GTG-ATAGACAC|1 GTGC-ATAGACAC?Score:-21Score:558 A T G T T A T A CT A T G T G C G T A T A Score=4参数:匹配匹配=1非匹配非匹配=0g=3r=0.1x=3score:8-3.2=4.8Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空

4、位扩展罚分x:空位长度T A T G T G C G T A T A insertion/deletionA T G T-T A T A CWx=-3-(3-1)0.1=-3.29o 点阵序列比较(Dot Matrix Sequence Comparison)o 动态规划算法(Dynamic Programming Algorithm)o 词或K串方法(Word or K-tuple Methods)10o点阵(Dot Matrix)分析是一种简单的图形显示序列相似性的方法o沿X轴上序列1中的每一个单元(核苷酸或氨基酸)与沿Y轴的第二个序列中的每一个单元进行比较,相同的区域在点阵图中显示为由点

5、组成的对角线,对角线之外零散的点为背景噪音11IONIZATIONIONIZATION12IONIZATNOIIONIZATNOI13o自身比对n 寻找序列中的正向或反向重复序列n 蛋白质的重复结构域(domain)n 相同残基重复出现的低复杂区(Low Complexity)n RNA二级结构中的互补区域等o对两条序列的相似性作整体的估计14TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G-T C A T|T A C T G T T C A T插入空位插入空位15人类低脂受体(human low-density lipopr

6、otein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复16o 编码噬菌体c(水平轴)和噬菌体P22 c2(垂直轴)的氨基酸序列间的点阵分析o 相同的点打印全部打印,很难找到有用的信息17T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T G A C A T A C G G T A T GWindow=3 Word Si

7、ze=318ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Match=1 Mismatch=019ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Match=1 Mismatch=020ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size=5Stringency=3Ma

8、tch=1 Mismatch=021G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size=5Stringency=3Match=1 Mismatch=022G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG23G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG24(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点

9、阵图(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8,即10个核苷酸中有8个相同时就打一个点ab25o优点n 直观性,整体性n 点阵分析不依赖空位(gap)参数,可寻找两序列间所有可能的残基匹配n 不依赖任何先决条件,是一种可用于初步分析的理想工具n 点阵分析允许随时动态地改变最高和最低界限值,可以用来摸索区分信号和背景标准的严格程度26o 缺点n 不能很好地兼容打分矩阵n 滑动窗口和预值的选择过于经验化n 信噪比低 n 不适合进行高通量的数据分析27o DNA Strider(Macintosh)n cellbiol/soft.htm

10、o Dotter(Unix/Linux,X-Windows)o COMPARE,DOTPLOT(GCG软件)o PLALIGN(FASTA)o Dotletnisrec.isb-sib.ch/java/dotlet/Dotlet.html2829o动态规划算法(Dynamic Programming Algorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决o在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)30o Eg.匹配=1,非匹配=0,空位罚分=-1n Sequence1:CACGAn

11、 Sequence2:CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC-1ACGACGA31Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个i-xi-1j-1i-yji Si-x,j -wx Si 1,j-1 +s(ai,bj)Si,j-y-wy Si,j 32Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-x,j-wx),maxy 1(Si,j-y-wy)Sij=maxSi-1,j-1,+s(aibj),maxx1(Si-1,j-wx),maxy 1(Si,j-1-wy)公式一的简化公式一公式二说明:Sij是序列a在位置i和序列b在位置j

12、的分值,s(aibj)是位置i 和j上比对分值,wx是在序列a 中长度为x的间隔罚分,wy是序列b中长度为y的间隔罚分33ACTTCGACTAG匹配3错配-1空位-234ACTTCG0ACTAG匹配3错配-1空位-235ACTTCG0-2ACTAG匹配3错配-1空位-236ACTTCG0-2-4-6-8-10-12ACTAG匹配3错配-1空位-237ACTTCG0-2-4-6-8-10-12A-2CTAG匹配3错配-1空位-238ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10?S(2,2)-2+(-2)-2+(-2)0+3匹配3错配-1空位-239ACTTCG0-2

13、-4-6-8-10-12A-23C-4T-6A-8G-10?S(2,3)-4+(-2)3+(-2)-2+(-1)匹配3错配-1空位-240ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配3错配-1空位-241ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-3 2G-10-50S(4,4)4+(-2)4+(-2)6+3匹配3错配-1空位-242ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配3错配-1空位-243AC

14、TTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回回 溯溯44ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA45ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA461.ACTTCGAC-TAG2.ACTTCGACT-A

15、G3.ACTTCGACTA-G哪一个是最优比对哪一个是最优比对(optimal alignment)呢呢?记分矩阵47Seq1:MPRCLCQRJNCBASeq2:PBRCKCRNJCJA匹配匹配=1,错配,错配=0,空,空位罚分位罚分=048Seq1:MPRCLCQRJNCBASeq2:PBRCKCRNJCJA求出阴影部分所能达到的最大值填入当前位置,并记下到达这一位置的路径49Seq1:MPRCLCQRJNCBASeq2:PBRCKCRNJCJA550 MPRCLCQRJNCBA PBRCKCRNJCJAResult:51 F(i-1,j-1)+s(ai,bj),F(i,j)=max F(

16、i,j-1)-wy,F(i-1,j)-wx.0动态规划算法Smith-Waterman 算法52AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210T000001132212A011000224321匹配匹配=1非匹配非匹配=-1空位空位=-153AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210

17、T000001132212A011000224321A A C C T A T A G C T-G C G A T A T A-匹配匹配=1非匹配非匹配=-1空位空位=-154o Genetics Computer Group(GCG)程序 GAP(Needleman-Wunsch algorithm)and BESTFIT(Smith-Waterman algorithm)o 最相似的比对表示为:,较相似的表示为.无相关的表示为空格,carboxy-terminal55oDNA计分矩阵o蛋白质计分矩阵o广泛使用的两种矩阵n PAM n BLOSUMo空位罚分56(SCORING MATRIC

18、ES)oDNA Scoring MatricesoAmino Acid Substitution Matricesn PAM(Point Accepted Mutation)n BLOSUM(Blocks Substitution Matrix)57actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配:1错配:0分值:558CTAG嘧啶嘌呤 表示转换(transition),表示颠换(transversions)转换比颠换更容易

19、发生59AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型60PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵T:G=-2 T:T=5Score=48 CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .CSTPAGND.C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G

20、-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .61o 氨基酸容易被其它生化、物理特性相似的氨基酸替换o PAM1(1个PAM单位)被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)o PAMn是PAM1自乘n次o PAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对62 A R N D C Q E G H I L K M F P S T W Y V B ZA 2-2 0 0-2 0 0 1-1-1-2-1-1-3 1 1 1-6-3 0 2 1 R -

21、2 6 0-1-4 1-1-3 2-2-3 3 0-4 0 0-1 2-4-2 1 2 N 0 0 2 2-4 1 1 0 2-2-3 1-2-3 0 1 0-4-2-2 4 3 D 0-1 2 4-5 2 3 1 1-2-4 0-3-6-1 0 0-7-4-2 5 4 C -2-4-4-5 12-5-5-3-3-2-6-5-5-4-3 0-2-8 0-2-3-4 Q 0 1 1 2-5 4 2-1 3-2-2 1-1-5 0-1-1-5-4-2 3 5 E 0-1 1 3-5 2 4 0 1-2-3 0-2-5-1 0 0-7-4-2 4 5 G 1-3 0 1-3-1 0 5-2-3-4-

22、2-3-5 0 1 0-7-5-1 2 1 H -1 2 2 1-3 3 1-2 6-2-2 0-2-2 0-1-1-3 0-2 3 3 I -1-2-2-2-2-2-2-3-2 5 2-2 2 1-2-1 0-5-1 4-1-1 L -2-3-3-4-6-2-3-4-2 2 6-3 4 2-3-3-2-2-1 2-2-1 K -1 3 1 0-5 1 0-2 0-2-3 5 0-5-1 0 0-3-4-2 2 2 M -1 0-2-3-5-1-2-3-2 2 4 0 6 0-2-2-1-4-2 2-1 0 F -3-4-3-6-4-5-5-5-2 1 2-5 0 9-5-3-3 0 7-1-

23、3-4 P 1 0 0-1-3 0-1 0 0-2-3-1-2-5 6 1 0-6-5-1 1 1 S 1 0 1 0 0-1 0 1-1-1-3 0-2-3 1 2 1-2-3-1 2 1 T 1-1 0 0-2-1 0 0-1 0-2 0-1-3 0 1 3-5-3 0 2 1 W -6 2-4-7-8-5-7-7-3-5-2-3-4 0-6-2-5 17 0-6-4-4 Y -3-4-2-4 0-4-4-5 0-1-1-4-2 7-5-3-3 0 10-2-2-3 V 0-2-2-2-2-2-2-1-2 4 2-2 2-1-1-1 0-6-2 4 0 0 B 2 1 4 5-3 3 4

24、2 3-1-2 2-1-3 1 2 2-4-2 0 6 5 Z 1 2 3 4-4 5 5 1 3-1-1 2 0-4 1 1 1-4-3 0 5 6 63 u模块替换矩阵BLOSUM以序列片段为基础,它是 基于蛋白质模块(Block)数据库而建立起来的 u 在模块比对的每一列中,分别计算 两两氨基酸的变化情况,来自所有 模块的数值被用来计算BLOSUM矩阵u矩阵后面的数字表示构建此矩阵所用的 序列的相似程度,如BLOSUM62表示由 相似度为62%的序列构建AACECA-C =0A-E =-1C-E =-4A-A =4C-C =9AACEC(Blocks Substitution Matri

25、x)6465n 一般来说,在局部相似性搜索上,BLOSUM 矩阵较PAM要好n当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 n 对于数据库搜索来说一般选择BLOSUM62矩阵nPAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域66n同源性(Homologous Genes):序列来自共同的祖先,相似的序列往往具有同源性n相似性(Similarity):两序列根据某种参数设定而表现出来的相近性67o 相似的序列并不一定同源o 相似性是可以被量化的“计分表”,它是匹配的数量除以比对的长度,通常以百分比%表示o 同源性一定是指序列来自共同的祖先o 同源性是一个定性的概念,不能使用序列间具有百分之多少同源性来定义68n 直系同源(Orthologs):具有共同祖先与相似功能的同源基因(无基因复制事件)n 旁系同源(Paralogs):两个物种A和B的同源基因,分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代6970谢谢!71

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|