1、第四核酸序列分析(优选)第四核酸序列分析步骤一:下载水稻瘤矮病毒步骤一:下载水稻瘤矮病毒RGDV基因组基因组S8片段编码区序列片段编码区序列文本编辑器文本编辑器 UltraEdit步骤二:安装打开步骤二:安装打开BioEdit软件软件步骤三:载入序列(步骤三:载入序列(“File” “Open”)步骤四:序列分析步骤四:序列分析 互补互补反向互补反向互补核酸组成分析核酸组成分析限制性酶限制性酶切分析切分析核酸序列组分分析核酸序列组分分析步骤五:结果解读步骤五:结果解读序列变换序列变换步骤五:结果解读(互补序列)步骤五:结果解读(互补序列) 限制性内切酶分析限制性内切酶分析限制性酶切分析限制性酶
2、切分析步骤五:参数设置步骤五:参数设置限制性酶切分析限制性酶切分析步骤六:结果解读步骤六:结果解读限制性内切酶在线分析工具限制性内切酶在线分析工具Dnastar序列格式转换序列格式转换限制性内切酶分析限制性内切酶分析序列拼接序列拼接下载网址:下载网址:http:/ 结果 显示出所有的酶切位点 只需要切1次的位点,则要选择切的频率 在最低和最高都选择“1” 切1次的酶切位点 序列比对o 定义定义:序列比对是比较两个或两个以上符号序列的相似性或不相似性。o 理论基础理论基础:如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等
3、遗传变异过程分别演化而来。o 意义意义:从核酸、氨基酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、生命起源研究的基础序列比对的方式序列比对的方式o 数据库搜索比对(数据库搜索比对(BLASTBLAST) 将查询序列与整个数据库中所有序列进行比对,来获得数据库中与其最相似序列的已有数据,作为查询序列的参考信息。o 序列两两比对序列两两比对( (BLAST2sequencesBLAST2sequences) 通过比较两个序列之间的相似区域和保守性位点,寻找两者可能的分子进化关系。o 多序列比对多序列比对( (ClustalXClustalX) 将多个序列同时进行比较
4、,寻找它们之间共同的保守区域、位点和profile。 序列相似性:指两个序列之间相同碱基或氨基酸残基顺序所占比例的高低。在蛋白质序列比对中,有时也指两个序列之间具有相似特性(侧链基团的大小、电荷性、亲疏水性等)的残基所占的比例。 序列一致性:指两个序列相同位置上出现同样的碱基或氨基酸残基的比例。 同源性:用来描述蛋白质或核酸来自同一祖先。identity=8/45=17.8%similarity=(8+9)/45=37.8%相似的碱基相似的碱基:小分子、疏水性、带芳香基的氨基酸:小分子、疏水性、带芳香基的氨基酸:A,V,F,P,M,I,L,W;酸性氨基酸:酸性氨基酸: D,E;碱性氨基酸:碱性
5、氨基酸: R,H,K;带羟基、胺基、碱性氨基酸:带羟基、胺基、碱性氨基酸: S,T,Y,H,C,N,G,Q. 图中:图中:“|” 表示相同的残基,表示相同的残基, “+” 表示相似残基。表示相似残基。相似性相似性vs 同源性同源性o序列比对(sequence alignment)的结果显示序列的相似性,而不是同源性。o同源性可以根据序列相似性来推断。当相似程度高于50%时,可以推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。o相似性可以量化,如50% similarity;而同源性是定性的概念,如果来自同一祖先就是同源,否则为不同源
6、. % homology。直系同源直系同源(orthology) VS 旁系同源旁系同源(paralogy)直系同源直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是: (1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因; (2)分布于两种或两种以上物种的基因组; (3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换; (4)结构相似; (5)组织特异性与亚细胞分布相似 旁系同源旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(horizontal)产生的几个同源基因。
7、直系与旁系的共性共性是同源,都源于各自的始祖基因。其区别区别在于: 在进化起源上在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍; 在功能上在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanistically related),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。局部比对局部比对 vs
8、整体比对整体比对o 序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。 o 局部相似性比全局相似性更具有生物学意义。n 两条DNA长序列,可能只在很小的区域内(密码区)存在关系。n 不同家族的蛋白质往往具有功能和结构上的相同的一些区域(motif)。影响相似性分数的因素影响相似性分数的因素oWORD SIZE 的设定o是否允许空位且空位罚分策略o相似性分数矩阵(PAM和BLOSUM)点阵图点阵图 评估两条序列相似度最简单的方法之一是利用点阵图点阵图。 第一条被比较的序列排列在点阵图空间的横轴,第二条序列则排列在
9、纵轴。点阵空间中两条序列中的残基相同时,在对应的位点上画上圆点,两条序列间连续相同的区域在图中会形成由圆点组成的上斜线。具有连续相似区域的具有连续相似区域的两条两条DNA序列的简单点阵图序列的简单点阵图对人类与黑猩猩的对人类与黑猩猩的球蛋白基因球蛋白基因序列进行比较的完整点阵图序列进行比较的完整点阵图滑动窗口技术滑动窗口技术 使用滑动窗口滑动窗口代替一次一个位点的比较是解决噪音问题的有效方法。假设窗口大小窗口大小为10,相似度阈值相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记基于滑动窗口滑动窗口的点矩阵点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条
10、序列间具有显著相似性的区域。(a)对人类()对人类(Homo sapiens)与黑猩猩()与黑猩猩(Pongo pygmaeus)的)的球蛋球蛋白基因序列进行比较的完整点阵图。(白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈个核苷酸,相似度阈值为值为8。 (a)(b)简单比对简单比对o 比对比对就是两条序列字符间简单的两两匹配。比对可以反映出两条或多条同源序列间的进化关系.o 最简单的情况下即不考虑空位,当两条序列对比时,要做的仅是为较短的
11、序列选择比对的起始点。o 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式不考虑空位的简单比对,它的打分函数是有对比奖励和罚分的和来决定上例中三个比对从左至右分别是 4、 1、 3匹配得分:匹配得分:1失配得分:失配得分:0空位空位o两条或多条序列比对时,如果考虑到插入与删除事件发生地可能性,那么候选的比对数量就会大大增加,也就导致了比对的复杂性。等等o上节中两条核苷酸序列,在不考虑空位时仅有三种比对,而较短的那条加入了两个空位后,便产生了28种不同的比对,例如:简单空位罚分简单空位罚分o对含有空位的比对打分时,空位罚分空位罚分就必须包含到打分函数中,空位比对的简单
12、打分公式如下:例如:假设匹配得分为1,失配得分为0,空位罚分为-1三种空位比对的得分从左至右分别是1、3、3起始罚分与长度罚分起始罚分与长度罚分o 使用简单空位罚分对两条序列进行比对时,经常能找到若干同格式最优的比对。进一步区分这些比对的方法是找出哪些比对包含较多的不连续空位,哪些包含较少长度较长的空位片段。插入插入/删除事件删除事件o 假设两条序列长度分别是12和9o 假设这两条序列是真正的同源序列,那么它们之间长度的差异可以解释为 (1)较长的序列有核苷酸的插入,或者 (2) 较短的序列发生了核苷酸的删除,或者(3) 两者都发生了。o 在不知道原始父辈序列的情况下,无法判断导致空位的原因是
13、由于一条序列的插入事件还是另一条的删除事件,通常把这类事件称为插入插入/删除事件删除事件。o 多联核苷酸的插入删除事件插入删除事件相对于单个核苷酸来说会较经常发生。o 统计结果表明,两条序列长度上的差异更可能是单个三联核苷酸的插入删除事件导致的,而多个不连续核苷酸插入删除事件的可能性比较小。空位罚分空位罚分o 由序列中产生的新空位串引起的起始罚分起始罚分和根据缺少的字符数而定的长度罚分长度罚分。预设长度罚分小于起始罚分,以此建立的打分函数便能奖励空位连在一起的比对。o 假设起始罚分为-2,长度罚分为-1,匹配得分为+1,失配得分为0,则对于这三个比对,从左至右比对的得分分别是-1,+1,+2在
14、后两种比对在使用简单空位罚分时,最后得分都是在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。,现在却得到了不同的分数。这三个比对,从左至右比对的得分分别是-1,+1,+2在后两种比对在使用简单空位罚分时,最后得分都是在后两种比对在使用简单空位罚分时,最后得分都是+3,现在却得到了不同的分数。,现在却得到了不同的分数。大 大 极少插入或缺失:适用于非常相关蛋白质间的联配; 大 小 少量大块插入:用于整个功能域可 能插入的情况 起始罚分 长度罚分 说 明 小 大 大量小块插入:适用于亲缘关系较远的蛋白质同源性分析 大的起始罚分配以很小的长度罚分被普遍证实是最佳的设定思路
15、。大的起始罚分配以很小的长度罚分被普遍证实是最佳的设定思路。 打分矩阵打分矩阵o正如空位罚分空位罚分可以奖励与进化相关的比对,失配罚分失配罚分也可以用来进一步区分相似比对。o统计结果表明,两条同源的序列比对时,某些替换比其他替换常见的多。o例例: 两条蛋白质序列,其中一条在某一个位置上是丙氨酸,如果该位点被替换成另一个较小的且疏水的氨基酸,比如缬氨酸,则对蛋白质的影响很小,如果被替换成较大且带电的残基,比如赖氨酸,那么对蛋白质的影响可能就会非常大。直观的讲,比较保守的替换比随机替换更可能维持蛋白质的功能,更不容易被淘汰,因此在打分上更倾向于缬氨酸而不是赖氨酸。打分矩阵(打分矩阵(Scoring
16、 Matrix) 核酸打分矩阵设DNA序列所用的字母表为 =A,C,G,Ta.单位矩阵b.BLAST矩阵c.转换-颠换矩阵(transition,transversion) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T) ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51单位矩阵单位矩阵转换转换-颠换矩阵颠换矩阵BLAST矩阵矩阵分别利用三种矩阵计算序列分别利用三种矩阵计算序列1:GCGCCTC 和序列和序列2:GCGGGTC在不考虑空位的情在
17、不考虑空位的情况下比对的得分况下比对的得分 构建方式:收集序列一致性达到99%的序列进行计算,得到PAM1矩阵.如要产生PAM n矩阵,则把PAM1矩阵自乘n次.缺点:一旦PAM1矩阵有小的误差,自乘n此以后得到的PAMn矩阵误差有可能非常大.PAM矩阵构建方式:根据BLOCKS数据库中的序列数据计算得到.BLOSUM n矩阵由BLOCKS数据库中一致性为n%的序列计算得到.优点:不会出现误差放大,被广泛使用.BLOSUM矩阵针对不同的进化距离采用针对不同的进化距离采用PAM 矩阵矩阵序列相似度序列相似度 = 40% 50% 60% | | |打分矩阵打分矩阵 = PAM120 PAM80 P
18、AM 60PAM250 14% - 27% PAM-n中,n 越小,表示氨基酸相似的可能性越大;相似的序列之间比较应该选用n值小的矩阵, 不太相似的序列之间比较应该选用n值大的矩阵.PAM-250用于约20%相同序列之间的比较。 BLOSUM-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之间比较应该选用n 值大的矩阵,不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62相似度的序列,BLOSUM-80用来比较80左右相似度的序列。 PAM100 = Blosum90 PAM120 = Blosum80 PAM160 = Blosum60 PAM200 = Blos
19、um52 PAM250 = Blosum45 Blosum 矩阵更适合用于局部比对 Blosum62 矩阵适合于大多数的蛋白质序列比对 突变数据相似性分数矩阵PAM250主对角线上分数值是指两个相同残基之间两个相同残基之间的相似性分数值,有些残基的分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的残基的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。不同氨基酸之间不同氨基酸之间的分数值越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值是7。而相似性分数值为负数的氨基酸之间的相似
20、性则较低,如甘氨酸和色氨酸之间为-7,它们在进化过程中不易发生互相突变模块替换矩阵BLOSUM62数据库搜索数据库搜索 尽管序列比对是比较两条已知序列的极为重要的工具,然而序列比对的更为常见的用途是用来搜索大量序列的数据库,以找到与特定序列相似的那些序列。 在数据库搜索过程中,由于被搜索序列很长,而且数量巨大,用简单而直接的方法将数据库中的每条序列与查询序列进行比对并返回得分最高的序列难以奏效。作为替代方法,各种索引方法与启发方式被用来加快搜索的过程,虽然不能保证与查询序列比对的最好的,但是能返回大部分与查询序列比对较好的,而且这些方法的效率很高。数据库搜索的比对得分与统计显著性数据库搜索的比
21、对得分与统计显著性o 搜索结果的比对得分为S,E值表示比对结果的统值表示比对结果的统计学显著性,计学显著性,指的是用于随机找出的一条或多条序列,比对得分大于等于S的可能性。o 数据库搜索引擎一般都为每个搜索结果提供E得分o E的值比较低说明该结果与查询序列具有进化上的关系。BLASTo BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”。o 为了有效地搜索大型数据库,BLASTP首先将查询序列打碎成一个个单词,查询序中所有可能的单词是通过查询序列上滑动与单词等长的窗口来得到的。o 除了BLAST
22、P,还有BLASTN和BLASTX等等BLASTP搜索算法概述搜索算法概述程序名检测序列 数据库类型 方 法 Blastp 蛋白质 蛋白质 用检测序列蛋白质搜索蛋白质序列数据库 Blastn 核酸 核酸 用检测序列核酸搜索核酸序列数据库 Blastx 核酸 蛋白质 将核酸序列翻译成蛋白质序列后搜索蛋白质序列数据库 Tblastn 蛋白质 核酸 用检测序列蛋白质搜索由核酸序列数据库翻译成的蛋白质序列数据库 Tblastx 核酸 核酸 将核酸序列翻译成蛋白质序列后搜索由核酸序列数据库翻译成的蛋白质序列数据库 BLAST程序检测序列和数据库类型程序检测序列和数据库类型多序列比对多序列比对定义:定义:
23、将两条以上可能有系统进化关系的序列进行比对的方法。复杂性:复杂性: O(m1m2m3mn),其中m1为第一条序列的长度,m2为第二条序列的长度,mn是最后一条序列的长度。n个序列进行比对时的算法复杂性则为这n个序列长度的乘积。显然,随着序列数量的增加,多序列比对的算法复杂性呈指数增长。意义:意义:通过多个序列的相似性,可以了解它们在进化上亲缘关系的远近,推断分子起源和进化规律等。研究多个序列中的保守区域,可以猜测这些区域对结构和功能的重要性,从而进行分子设计。多序列比对工具多序列比对工具CLUSTALW 免费共享软件,基于动态规划算法对DNA或蛋白质序列作全局比对的多序列联配工具,结果生成具有
24、生物学意义的多序列联配排列、并构建出表征比对序列间亲缘关系的系统树。下载: ftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalW/ ftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalX/在线分析: http:/www.ch.embnet.org/software/ClustalW.html http:/www.ebi.ac.uk/clustalw/CLUSTALW算法执行的步骤Step1. 简单的两序列比对和距离矩阵 对所有序列做两序列比较,并对关系密切序列加权,两序列比对的得分用来构建距离矩阵;假如有n个序列,将要做n(n-1)/2次两
25、序列比对(pairwise alignment)。Step2.用邻接法(Neighbor-Joining)计算系统树 基于两序列比对得到的距离矩阵,用邻接法计算系统树。Step3. 累进排列,依据系统树进行排列 从关系最紧密的两个序列开始,以系统树示出的关系为指导,逐步放入临近的序列或序列簇,并重新构建比对,直到所有的序列被加入,最后产生一个多重排列。CLUSTALW在线分析登录登录ClustalW主页主页输入要比较的序列输入要比较的序列(Fasta格式格式) 按按Run键键得到比对结果得到比对结果下载比对结果下载比对结果(有有5种文件格式种文件格式)和树状图和树状图clustal格式输出的多
26、重排列结果格式输出的多重排列结果可用可用GeneDoc 软件对软件对ClustelW 比对结果进行美化比对结果进行美化GeneDoc可用各种方式标记序列,生成发表质量的输出报告可用各种方式标记序列,生成发表质量的输出报告注注: GeneDoc只能打开只能打开 GCG/MSF格式文件格式文件用用Treeview处理处理ClustalW结果结果(Phylip格式保存的文件格式保存的文件),生成,生成进化树进化树基因结构识别基因结构识别o ORFORF预测(预测(ORF FinderORF Finder) 分析核酸序列的开放阅读框。o 启动子及转录因子结合位点分析启动子及转录因子结合位点分析( (Promoter ScanPromoter Scan)o 重复序列分析重复序列分析( (RepertMaskerRepertMasker)o CpG island CpG island 搜索搜索(CpGPlot/CpGReport/IsochoreCpGPlot/CpGReport/Isochore) o 搜索搜索3 3非编码区的非编码区的polyA(polyA(POLYAHPOLYAH) )