1、NCBI数据库的搜索数据库的搜索BLAST工具的应用工具的应用NCBI生物序列的相似性p相似性相似性(similarity):p是指一种很直接的数量关系数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然可进行自身局部比较。NCBI生物序列的同源性NCBIp序列的相似性和序列的同源性有一定的关系,一般来说序序列间的相似性越高的话,它们是同源序列的可能性就更列间的相似性越高的话,它们是同源序列的可能性就更高高,所以经常可以通过序列的相似性来推测序列是否同源。p正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做
2、很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。相似性和同源性关系NCBI序列相似性比较和序列同源性分析p序列相似性比较:p就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;p序列同源性分析:p是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;NCBIu 序列对位排列(
3、序列对位排列(sequence alignment)u 将两条或多条序列对位排列,突出相似的结构区域将两条或多条序列对位排列,突出相似的结构区域序列序列1序列序列2u 用核苷酸或蛋白质序列进行数据库检索用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)NCBI两条两条DNA序列对位序列对位排列排列分析分析NCBI两条蛋白质序列对位两条蛋白质序列对位排列排列分析分析NCBIv 分析功能分析功能v 分析物种进化分析物种进化v 检测突变、插入或缺失检测突变、插入或缺失v 序列延长序列延长v 序列定位序列定位v 基因表达谱分析基因表达谱分析用途用
4、途NCBIu 序列对位排列分析的种类序列对位排列分析的种类v 序列对库对位排列分析序列对库对位排列分析 从数据库中寻找同源序列从数据库中寻找同源序列 主要涉及核苷酸数据库和蛋白质数据库主要涉及核苷酸数据库和蛋白质数据库v 两序列对位排列分析两序列对位排列分析v 多序列对位排列分析多序列对位排列分析最流行的序列数据库快速搜索程序最流行的序列数据库快速搜索程序 BLASTFastANCBIBLASTNCBI何为何为BLAST?NCBI为何为何BLASTBLAST?NCBI何处BLASTNCBINCBINCBINCBINCBIBLAST的搜索策略NCBINCBINCBINCBINCBINCBINCB
5、INCBINCBINCBINCBINCBINCBINCBINCBINCBIBLAST的操作流程的操作流程How(1)Choose the sequence(query)(2)Select the BLAST program(3)Choose the database to search(4)Choose optional parametersThen click“BLAST”NCBINCBINCBINP_006735NCBINCBIStep 1:Choose your sequence三种主要的输入方式:v 剪切然后粘贴DNA或蛋白质序列v使用FASTA格式的序列v简单地使用索引号码(如一个R
6、efSeq或GenBank(GI)的序号)。Sequence can be input in FASTA format or as accession numberNCBIExample of the FASTA format for a BLAST query一个一个FASTA格式的序列以一个单行的说明开始,接下格式的序列以一个单行的说明开始,接下来是若干个行的序列数据。来是若干个行的序列数据。在一个在一个BLAST搜索中输入搜索中输入accession number通常要容易些。通常要容易些。BLAST程序可以识别和忽略出现在你的输入序列字母中间的程序可以识别和忽略出现在你的输入序列字母中
7、间的数字。数字。NCBIStep 2:Choose the BLAST programNCBIStep 2:Choose the BLAST programblastn(nucleotide BLAST)blastp(protein BLAST)tblastn(translated BLAST)blastx(translated BLAST)tblastx(translated BLAST)NCBINCBIStep 2:Choose the BLAST programblastn(nucleotide BLAST):将一个核酸的查询序列与一个核酸序列数据库相比较。blastp(protein
8、BLAST):将一个氨基酸的查询序列与一个蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索相关的可选参数,如对各种PAM和BLOSUM打分矩阵的选择。tblastn(translated BLAST):将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较。可以用此程序来判断一个DNA数据库是否编码所感兴趣的查询蛋白。用RBP查询是否可以在某个已测序的DNA数据库中找到匹配项呢?NCBIStep 2:Choose the BLAST programblastx(translated BLAST):将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库
9、进行比较。如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的各个成员进行比较。tblastx(translated BLAST):将一个核酸查询序列的6种框架的翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较。该程序不能使用BLAST网页上提供的主要的去冗余(nr)数据库,因这一操作很消耗计算机资源。NCBIChoose the BLAST programProgram Input Database 1blastnDNA DNA 1blastpprotein protein
10、 6blastxDNA protein 6tblastnprotein DNA 36tblastxDNA DNANCBIDNA potentially encodes six proteins5 CAT CAA 5 ATC AAC 5 TCA ACT 5 GTG GGT 5 TGG GTA 5 GGG TAG5 CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 33 GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5NCBIStep 3:choose the database BLAST搜
11、索可使用的数据库会列在每一个BLAST页面上,对于蛋白质数据库搜索(blastp和blastx),两个主要的选择即nr数据库和SwissProt。nr=non-redundant(most general database)dbest=database of expressed sequence tagsdbsts=database of sequence tag sitesgss=genomic survey sequenceshtgs=high throughput genomic sequenceNCBIStep 3:choose the database nr数据库是合并了若干个主要的
12、蛋白质或DNA数据库得到的。这些数据库中经常包含有相同的序列,但nr数据库只收录其中的一个序列(即使在nr数据库中出现看上去一样的序列,实际上还是具有一些细节上的区别)。nr数据库是在要搜索现有的绝大多数序列时典型和常用的数据库。NCBI去冗余GenBank编码序列PDB+SwissProt+PIR+PRFNCBINCBI当确定了要输入的序列和要搜索的数据库之后,还有10个其他的可选参数要确定。Limit by Entrez Query:任何NCBI BLAST 搜索的范围都可以用在Entrez搜索中使用的任何一种范围限定词来限定。Step 4a:选择可选的搜索参数选择可选的搜索参数Selec
13、t optional search parametersNCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBI Max target sequences:比对之后显示的最大的比对序列的数目。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select option
14、al search parametersNCBI 期望expect:期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于blastn、blastp、blastxt和blastn期望值的默认设置是10。在这个E值下,随机出现得分等于或高于比对得分S的期望数为10个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时,返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小。增大E值将返回更多的结果。Step 4a:选择可选的搜索参数选择可选的搜索参数Select o
15、ptional search parametersNCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parameters 字段长度word size:BLAST程序是通过比对未知序列与数据库序列中的短序列来发现最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分:如果碱基对完全相同(如A与A),
16、得某一正值;如果碱基对不很匹配(W与A或T),则得某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的相似程度。NCBINCBINCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBI 矩阵matrix:对于blastp的蛋白质-蛋白质搜索有5种氨基酸替代矩阵:PAM30,PAM70,BLOSUM45,BLOSUM62(默认值)以及BLOSUM80.一些其他的BLAST服务器还提供了很多其他的替代矩阵,如PAM250。通常情况下明智的选择是在一次BLAST搜索中使用几种不同的打分矩阵。Step
17、 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIPAM1矩阵:Dayhoff和同事利用可接受点突变的数据和每个氨基酸的发现频率产生突变概率矩阵M。矩阵元素Mij表示在一给定进化时期内氨基酸j(列)替换成氨基酸i(行)的概率。进化时期为一个PAM(PAM定义为进化趋异的单位,表示两个蛋白1%氨基酸发生变化的时间)。PAM1矩阵基于紧密相关蛋白质的比对,这些蛋白质家族内的序列一致程度至少有85%。除PAM1矩阵外的其他PAM矩阵是如何得来的?Dayhoff等用PAM1矩阵乘以自身数百次,得到其他PAM矩阵。如PAM250矩阵就是
18、PAM1矩阵乘以自身250次产生,是BLAST搜索数据库的常用矩阵之一。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIDayhoffs PAM1 mutation probability matrix原始氨基酸原始氨基酸Each element of the matrix shows the probability that an originalamino acid(top)will be replaced by another amino acid(side)替代氨基酸NCBIPAM250 mutation p
19、robability matrixTop:original amino acidSide:replacement amino acidNCBI PAM0矩阵:矩阵将成为单位矩阵,因没有氨基酸发生变化。PAM矩阵:PAM相当大(如PAM2000或矩阵和自己相乘无数次)。每种氨基酸等概率出现,每行的所有值都接近于一个数值,这个数值就是氨基酸的出现频率。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIDayhoffs PAM0 mutation probability matrix:the rules for extrem
20、ely slowly evolving proteinsPAM0AAlaRArgNAsnDAspCCysQGlnEGluGGlyA100%0%0%0%0%0%0%0%R0%100%0%0%0%0%0%0%N0%0%100%0%0%0%0%0%D0%0%0%100%0%0%0%0%C0%0%0%0%100%0%0%0%Q0%0%0%0%0%100%0%0%E0%0%0%0%0%0%100%0%G0%0%0%0%0%0%0%100%Top:original amino acidSide:replacement amino acidNCBIDayhoffs PAM2000 mutation prob
21、ability matrix:the rules for very distantly related proteinsPAMAAlaRArgNAsnDAspCCysQGlnEGluGGlyA8.7%8.7%8.7%8.7%8.7%8.7%8.7%8.7%R4.1%4.1%4.1%4.1%4.1%4.1%4.1%4.1%N4.0%4.0%4.0%4.0%4.0%4.0%4.0%4.0%D4.7%4.7%4.7%4.7%4.7%4.7%4.7%4.7%C3.3%3.3%3.3%3.3%3.3%3.3%3.3%3.3%Q3.8%3.8%3.8%3.8%3.8%3.8%3.8%3.8%E5.0%5.
22、0%5.0%5.0%5.0%5.0%5.0%5.0%G8.9%8.9%8.9%8.9%8.9%8.9%8.9%8.9%Top:original amino acidSide:replacement amino acidNCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIStep 4a:Select optional search parametersNCBINCBIStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBI Composition
23、al adjustments:这个选项是默认选择的,一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBINCBI 选择过滤条件Filter:u过滤器将锁定诸如组成低复杂(low compositional complexity)序列区(如Alu序列),用一系列N(NNNNNN)替代这些程序。N代表任意碱基(IUB-code)。只有未知待检序列被过滤替代,而数据库的序列将不被过滤。过滤对绝大多数序列都是有益的,“Filter”项的缺省选项为ON。u例如
24、,多A碱基的尾部和脯氨酸富积的序列,会得到人为的高联配得分而误导分析。这是因为这类序列数量极大,遍布整个基因组,直至整个数据库。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBI 选择过滤条件Filter:过滤选项的调整对于BLAST搜索的结果将会产生显著的影响。当使用blastp nr来查询一个人类富含脯氨酸的蛋白质(NP_036522)时,会得到8个数据库中的匹配项,而其中两个具有统计显著性。而当关掉过滤选项后,就会得到包含其他一些富含脯氨酸的蛋白质在内的23个匹配。一般来讲,过滤可以帮助避免那些假的数据库匹配,但
25、在某些情况下一些可信的匹配也可能会被过滤掉。Step 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBINCBIfilteringNCBI以一种富含脯氨酸的人类唾液蛋白NP_036522作为 查 询 项 使 用blasstp nr进行搜索的结果。该蛋白质的大部分没有在数据库中的匹配,这是由于该蛋白的中间区域被默认的过滤功能给过滤掉了 NCBI关掉过滤选项后搜索的结果。这次得到了更多的与在蛋白质的全序列范围内相匹配的数据库返回结果。第一个比对显示了该蛋白极度富含脯氨酸的特点NCBINCBI blast now offers mas
26、king as lowercase/coloredNCBIEntrez!FilterScoring matrixWord sizeExpectStep 4a:选择可选的搜索参数选择可选的搜索参数Select optional search parametersNCBIBLAST:optional parameters You can.choose the organism to search turn filtering on/off change the substitution matrix change the expect(e)value change the word size ch
27、ange the output formatNCBIStep 4b:选择选择可选格式参数可选格式参数optional formatting parameters BLAST搜索有很多控制输出格式的参数:u Alignment viewu Descriptionsu AlignmentsNCBIStep 4b:选择选择可选格式参数可选格式参数optional formatting parameters BLAST搜索结果的顶部u 顶部提供关于该搜索的详细信息:BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类。NCBIdatabaseprogram
28、querytaxonomy结果网页结果网页NCBItaxonomyNCBIStep 4b:选择选择可选格式参数可选格式参数optional formatting parameters BLAST搜索结果的中间部分u 显示的是数据库中序列与查询序列相匹配的项的列表。u 简明图形提供了用不同颜色表示的搜索结果的概况。图下面的每一个条带表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列,被标以不同颜色表示亲缘关系的远近(根据比对的分),最接近匹配用红色表示。每条线的长度对应于该序列与查询序列比对上的区域大小。u 所有比对用一个被称为“描述”的单行小结列表描述。按照E值增加的顺序排列。显著性最强的匹
29、配将位于顶端。NCBI结 果 的结 果 的图示输出图示输出数 据 库数 据 库序列的列序列的列表表High scoreslow e valuesNCBIStep 4b:选择选择可选格式参数可选格式参数optional formatting parameters BLAST搜索结果的靠下面部分u 显示的是一系列的两两序列比对u 可检查查询序列(输入序列)与对象序列(如和查询序列比对的的特定的数据库匹配)之间的比对情况。u 4种衡量的分数:比特分数、期望分数、一致性百分比、正性(相似性百分比)NCBINCBIStep 4b:选择选择可选格式参数可选格式参数optional formatting p
30、arameters 可以不用整体地进行BLAST搜索而仅通过改变格式选项来提供一些不同的输出结果u一些选项可以把比对序列显示成多序列比对的形式,这对于确定一个蛋白质或DNA家族中的保守的或趋异的氨基酸残基非常有用。NCBINCBIBLAST format optionsNCBIBLAST format optionsNCBINCBINCBIthreshold score=11EVD parametersBLOSUM matrixEffective search space=mn=length of query x db length10.0 is the E valuegap penaltie
31、scut-off parametersNCBIu如何评价搜索结果的显著性u如何处理过多的结果u如何处理过少的结果u多结构域蛋白HIV-1 pol的BLAST 检索uBLAST 检索脂质运载蛋白 lipocalins:改变打分矩阵的作用BLAST 搜索的一些策略搜索的一些策略NCBIBLAST搜索策略总图.视黄醇结合蛋白NCBIu如何评价搜索结果的显著性u同源性是基于由搜索结果的统计评估支持的序列相似性推出的。指认基因或蛋白质之间的相似性的问题不能单靠序列分析解决,还需要使用生物学上的标准来支持同源性的推导。可用对于蛋白的结构和功能的评估来补充BLAST的结果。u真正有亲缘关系的蛋白质的序列可以
32、有很大的差别,即使是那些有相近三维结构的蛋白质。因此,认为数据库搜索和蛋白质比对可能会得出一定数量的假阴性匹配。如脂质运载蛋白家族很多成员如RBP4和气味分子结合蛋白OBP只有非常有限的序列一致性,但它们的三维结构关系非常近,而且它们作为疏水性配体的载体的功能也被认为是相同的。BLAST 搜索的一些策略搜索的一些策略NCBISometimes a real match has an E value 1NCBISometimes a similar E value occurs for a short exact match and long less exact matchNCBIu决定两个蛋
33、白质或DNA序列是否同源,可问下面的问题:u期望值究竟是不是显著?u两个蛋白质是不是具有近似的大小?实际上同源蛋白质不要求具有相同的大小,两个蛋白质可能只共享有限的一个相同的结构域。但是,产生一个对两个蛋白质同源的可能性的生物学上的直觉是非常重要的。比如一个1000个氨基酸具有跨膜结构域的蛋白质不太可能与RBP蛋白同源,因绝大多数脂质运载蛋白长度都近似200aa(20-25kD)。如何评价搜索结果的显著性NCBIu决定两个蛋白质或DNA序列是否同源,可以问下面的问题:u这两个蛋白是否有共同的基序或信号序列?是。孕激素相关子宫内膜蛋白和RBP4蛋白都含有一个GXW载脂蛋白标签。u这两个蛋白质是不
34、是一个合理的多序列比对的一部分?u这两个蛋白质是否共有一个相似的生物学功能?就像所有的载脂蛋白一样,这两个蛋白都是小的、亲水性的含量丰富的分泌分子。u这两个蛋白质是否具有相似的三维结构?虽然载脂蛋白序列多种多样,它们却共享一个显著的非常保守的结构。这个结构(一个杯状的盂)可使它们将疏水性配体运输通过一个水环境区间。载脂蛋白如何评价搜索结果的显著性NCBI决定两个蛋白质或DNA序列是否同源,可以问下面的问题:u如果BLAST搜索得到一个对另一个蛋白质的边缘匹配,以这个具有较远亲缘关系的蛋白质作为查询项再进行一次新的搜索。如用孕激素相关子宫内膜蛋白进行blastp nr搜索可得到一些在RBP4蛋白
35、的搜索中也检测到的蛋白。这个发现增加了认为这两个蛋白实际上是一个蛋白超家族中的同源成员的信心。载脂蛋白如何评价搜索结果的显著性NCBIAssessing whether proteins are homologousRBP4 and PAEP:Low bit score,E value 0.49,24%identity(“twilight zone”).But they are indeed homologous.Try a BLAST search with PAEP as a query,and find many other lipocalins.NCBIThe universe of
36、lipocalins(each dot is a protein)retinol-binding proteinodorant-binding proteinapolipoprotein DNCBIBLAST search with PAEP as a query finds many other lipocalinsNCBIu如何处理过多的结果u在“limit Entrez query”窗口输入“refseq”,这样所有返回结果都带有一个refseq号,可去掉冗余的数据库匹配结果。u利用生物体的种类对数据库返回结果作出限制。u利用序列的一部分进行搜索。如利用独立的结构域序列就可进行多结构域蛋
37、白的检索。u调整打分矩阵使其更恰当地体现你的query和数据库匹配之间的相似度。u调整期望值。降低E值可减少返回的数据库中的匹配项。BLAST 搜索的一些策略搜索的一些策略NCBI如何处理过少的结果u很多基因或蛋白在数据库中没有或只有极少数的匹配项。当新的微生物基因组测序完成时,预测到的蛋白质有一半不和其他任何蛋白相匹配。u用于提高BLAST搜索得到的数据库匹配项数目的策略:u去掉Entrez限制,提高期望值,尝试更高PAM值或更低BLOSUM值的打分矩阵。还可从更多附加数据库中搜索。在NCBI站点上,可搜索所有可提供的数据库如HTGS和GSS,很多基因组序列中心保存着不同的数据库可通过BLA
38、ST 进行搜索。BLAST 搜索的一些策略搜索的一些策略NCBIu多结构域蛋白HIV-1 pol的BLAST 检索BLAST 搜索的一些策略搜索的一些策略NCBISearching with a multidomain protein,polNCBI使用HIV-1 pol进行blastp nr搜索得到了非常多的看上去像是HIV-1变体的数据库匹配,这里所有显示的E值都是0。这个结果掩盖了那些不是来自HIV-1的可能的匹配NCBI使 用 H I V-1 pol进行blastp nr搜索的部分结 果。这 种平 铺 并 与 查询 序 列 一 起列 出 的 结 果输 出 格 式 表示 出 了 那 些被
39、 置 换 的 氨基 酸 残 基 以及 那 些 保 留的 不 变 氨 基酸残基NCBISearching bacterial sequences with pol将搜索范围限制在细菌中时使用HIV-1 pol进行blastp nr搜索的结果。图形化的BLAST搜索结果使很容易确定HIV-1中那些具有细菌中同源物的区域。NCBISearching bacterial sequences with pol由一个使用使用HIV-1 pol进行blastp nr搜索确定的细菌蛋白质。包括转座酶和核酸酶H蛋白。NCBINCBIuBLAST 检索脂质运载蛋白 lipocalins:改变打分矩阵的作用u默认的
40、scoring matrice 是BLOSUM62,若使用适合关系较近蛋白的PAM矩阵,将得到更少的结果。BLAST 搜索的一些策略搜索的一些策略NCBIBLOSUM62NCBIPAM30PAM70当使用PAM30时亲缘关系较远的蛋白如载脂蛋白D会得到很差的打分。PAM70矩阵被设计来从数据库中找到更多的亲缘关系较远的匹配,得到的一些蛋白在使用PAM30或BLOSUM62 矩阵时都是没有出现的NCBI作业u气味分子结合蛋白(odorant-binding protein,OBP)在大鼠中被发现,并作为牛的一种脂质运载蛋白,可选择性结合气味分子。u找到这种大鼠蛋白的序列号,检索最相近的人类同源物,它是什么。u并把这两种蛋白的pairwise alignment结果贴出来,并写出其identity百分比和similarity百分比。NCBI谢谢!