1、Orthologs and Paralogs are two types of homologous sequences.Orthology describes genes in different species that derive from a common ancestor.Orthologous genes may or may not have the same function.Paralogy describes homologous genes within a single species that diverged by gene duplication.相似性和同源性
2、关系 序列的相似性和序列的同源性有一定的关系,一序列的相似性和序列的同源性有一定的关系,一般来说般来说序列间的相似性越高的话,它们是同源序序列间的相似性越高的话,它们是同源序列的可能性就更高列的可能性就更高,所以经常可以通过序列的相,所以经常可以通过序列的相似性来推测序列是否同源。似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现价混用两个名词。所以有出现A A序列和序列和B B序列的同序列的同源性为源性为8080一说。一说。序
3、列相似性的序列相似性的概概念念 ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCTAGCTGCTAGCTAG ACGCTAGCGCACGCTAGCGCA AAGCTGCTAGCTAGAGCTGCTAGCTAG _ _序列相似性的序列相似性的概概念念等等在对一个新测定的蛋白序列进行在对一个新测定的蛋白序列进行分析时,比如分析的结果是:这分析时,比如分析的结果是:这个序列与某种细菌的个序列与某种细菌的ATPaseATPase相相似。这是否意味着这个未知序列似。这是否意味着这个未
4、知序列就是就是一个一个ATPaseATPase?MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-PRNGTIKIYENPARTFTRPYSAKNITIYKEND两个蛋白质有一定数量的氨基酸在排比的位点上是相同两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果的,即如果38个氨基酸的蛋白质中个氨基酸的蛋白质中15个位点相同,我们个位点相同,我们说它们说它们39.4%相同相同(39.4%)scoring schemes要分析两个序列是否相似,必须首先作比对分析(alignment)。最基本的条件是对序列的相似性做定量分析,然后将序列进行排比,在排比
5、中要用到gaps,insertions,substitutions。对gaps和insertions打分可用较简单的扣分方案,而substitutions的打分则比较复杂,必须先构建出一个计算机的算法矩阵(Matrix),再根据此方案对序列中氨基酸残基之间的差异或相似进行打分。要对两个序列进行排比,必须首先打出其相似性的定量分值,于是需要一个打分矩阵。Scoring Matrices给不同的氨基酸配对定义的一系列相似性分值。而一个突变打分方案(mutation data matrix)则是根据排比时序列中点突变的情况设计出的打分方案。对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的
6、定量标准,可以以多种方式来定义。Scoring Matrices 对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。因此,设计一个打分矩阵,首先必须确定用什么算法模型。在序列排比分析中,打分矩阵只是某个算法模型的量化表现,比对的结果只在该算法模型所划定的范围内有意义。生物信息生物信息学发学发展的展的3个主要阶段萌芽期萌芽期(60-70年代年代)形成期形成期(80-90年代年代):高速发展期高速发展期(2000-至今至今)以Dayhoff的替换矩阵和Neelleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列比较。它
7、们的出现,代表了生物信息学的诞生(虽然“生物信息学”一词很晚才出现),以后的发展基本是在这2项内容上不断改善。以分子数据库和BLAST等相似性搜索程序为代表。1982年三大分子数据库的国际合作使数据共享成为可能,同时为了有效管理与日俱增的数据,以BLAST、FASTA等为代表工具软件和相应的新算法大量被提出和研制,极大地改善了人类管理和利用分子数据的能力。在这一阶段,生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位以基因组测序与分析为代表。基因组计划,特别是人类基因组计划的实施,分子数据以亿计;基因组水平上的分析使生物信息学的优势得以充分表现,基因组信息学成为生物信息学中发展最
8、快的学科前沿。计算生物学生物信息学生物信息生物信息学发学发展的展的3个主要阶段萌芽期萌芽期(60-70年代年代)过渡期过渡期(80-90年代年代)序列比序列比对对的的过过程程Dr.Margaret Oakley Dayhoff,credited as the founder of Bio-Informatics,ca.1980 历史寻踪历史寻踪 最大的成绩或许就是得分矩阵的出现,最大的成绩或许就是得分矩阵的出现,DayhoffDayhoff被被称称作生物信息作生物信息学学之父或之父或许许更合适。更合适。PAM Score Matrix(1978)Log-odds matrix for PAM2
9、50PAMPAM系列矩系列矩阵阵 1.Margaret Dayhoff,1978;2.Accepted point mutation(PAM):可接受的点突变,氨基酸的改变不显著影响蛋白质的功能;3.进化模型:中性进化,Kimura,1968;使用数据 1.34个蛋白质超家族;2.72个蛋白质组;3.1572个突变;4.序列相似性 85%功能同源的蛋白质-通过中性进化,引入可接受的点突变;统计氨基酸的替代 1.对于同一个group内的蛋白质序列,统计氨基酸可能出现的频率,以及替换的个数;2.注意:不考虑空位;该例中:fFF=13 fFY=6 fFH=1 fYY=6 fYF=9对20种氨基酸做相
10、同统计注意:fab不一定等于fbaPAM1矩阵的构建 1.两个蛋白质序列的1%氨基酸发生变化的时间;2.定义进化时间以氨基酸的变异比例为准,而不是时间;因为各个蛋白质家族进化的速度并不相等;3.PAM2=PAM1*PAM1 PAM3=(PAM1)3 PAM250=(PAM1)25020种氨基酸的相对突变能力Ala:主观的设定为100PAM1的数值氨基酸改变概率值PAM2矩阵 1.基本假设:每个氨基酸的突变的概率独立于前次突变。因此,PAM2=PAM1*PAM1PAM250矩阵 1.PAM250:250%的期望的突变;2.蛋白质序列仍然有15-30%左右的相似性,例如:F-F:32%A-A:13
11、%PAM250矩阵,乘以100打分矩阵的使用打分矩阵的使用 1.PAM250:15-30%的序列相似性;2.PAM120:40%的序列相似性;3.PAM80:50%4.PAM60:60%5.如何选择最合适的矩阵?遍历尝试PAM矩阵的问题及改进 1.PAM系列矩阵存在的问题:A.氨基酸的打分矩阵,不关心核酸;B.进化模型的构建需要系统发育树的分析,因此,成为一个循环论证的问题:序列比对-矩阵构建-打分,进行新的序列比对;C.数据集很小;2.打分矩阵的改进 BLOSUM系列矩阵2.BLOSUM矩阵 1.BLOCK:蛋白质家族保守的一段氨基酸,无gap,一般几个-上百个氨基酸;2.Prosite家族
12、:至少有一个BLOCK存在于该家族的所有蛋白质序列中;3.分析500个Prosite家族;4.BLOSUM62:序列的平均相似性为62%的BLOCK构建的打分矩阵;5.最被广泛使用的氨基酸打分矩阵 Scoring Matrices blocks Scoring MatricesScoring Matrices打分矩阵 1.Dayhoff:PAM系列矩阵;2.Henikoff:BLOSUM系列矩阵;3.常用氨基酸打分矩阵:BLOSUM62;比对算法1.递归关系(recurrence relation)2.列表式运算(tabular computation)3.路径回溯(traceback)费氏数
13、(Fibonacci number)可用下列的递归关系(recurrence)来描述:.2for 211100iiFiFiFFFF10F9F8F8F7F7F6F0F1F2F3F4F5F6F7F8F9F10011235813213455 Global alignmentGlobal alignment Needleman-Wunsch algorithm Local alignmentLocal alignment Smith-Waterman algorithm在1970年代,分子生物学家Needleman 及Wunsch 以动态程序设计技巧(dynamic programming)分析了氨基
14、酸序列的相似程度;有趣的是,在同一时期,计算科学家Wagner及Fisher 也以极相似的方式来计算两序列间的编辑距离(edit distance),而这两个重要创作当初是在互不知情下独立完成的。虽然分子生物学家看的是两序列的相似程度,而计算器科学家看的是两序列的差异,但这两个问题已被证明是对偶问题(dual problem),它们的值是可藉由公式相互转换的。The Needleman-Wunsch algorithm Lets do a simple example,adapted from Needleman&Wunschs original paper.First,place the s
15、equences on a matrix of cells.At each cell where the amino acids are identical,enter a value of 1.All the other cells are implicitly given a score of 0(zero).Continue with the next column and row.Note that,on the next-to-last row,the cells upstream from the PxP match each now get a value of 1;the ce
16、ll with the DxD match gets a value of 1+1=2,since the sequences could be aligned beginning with D to give a D.P match(with a gap,of course).As we go along,the number in each cell will be the largest number of pair matches that can be found if that cell is the origin.Lets continue with the next row a
17、nd column.All three of the RxR matches get incremented by 1 because you could now get a R.P alignment,starting at an RxR cell We will work one more row&column.Now there are 5 cells containing the number 3.You could start at ANY of these 5 cells and,moving down&to the right,match up the sequence C.R.
18、P!(Remember,as we go along,the number in each cell will be the largest number of pair matches that can be found if that cell is the origin.)Ive filled in the rest of the table.You are welcome to do it by hand to check me and to be sure you understand the process In this simple example,there are two
19、optimal paths through the matrix:Here are the two optimal alignments 局部比对An exampleThe Smith-Waterman algorithm can be exemplified by the comparison of two sequences:Sequence A:CAGCCUCGCUUAGSequence B:AAUGCCAUUGACGGParameters for the scoring matrix being:,Sequence B:G C C A U U GSequence A:G C C-U C
20、 GSmith fasta 在分析两个序列时,Smith-Waterman的方法也许勉强可以接受,但如果以它做为数据库搜寻的引擎,那就有些慢了,因为这将会耗费不少宝贵的时光。使用者选定参数ktup(k-tuple,在DNA序列分析时这个值通常设成 6 到 8;蛋白质序列则常使用 1 到 2 的值),FASTA只考虑那些长度至少为 ktup 的那些相似子序列,试着藉由它们找出一些可能有相似性的对角区域(diagonal band),然后再将Smith-Waterman的方法套用在这些小区域上。在BLAST横扫千军前,FASTA曾是最常被用来分析序列的工具。在FASTA中,因为它试着去串联那些 ktup序列,所以耗费了不少时间 BLAST 初版的BLAST则以长度至少为 w 的相似区段着眼,只往对角线(diagonal)方向试着去延伸,直到分数的降低程度超过使用者所给定的范围为止,因为它完全不考虑间隔(gap),所以非常地有效率,但缺点是有时不够敏锐(sensitive)。不过在第二版的BLAST中,已针对这样的缺点加以修正,它在延伸对角线时采用的策略是跳着延伸(注:延伸对角线耗去了大部份初版BLAST执行的时间),这个立论基础是如果它真是分数很高的相似区段,跳着延伸也不会错过。知识点总结Henikoff Pam矩阵blosum矩阵局部比对