第三章核酸数据库的应用课件.ppt

上传人(卖家):晟晟文业 文档编号:4107464 上传时间:2022-11-11 格式:PPT 页数:77 大小:4.89MB
下载 相关 举报
第三章核酸数据库的应用课件.ppt_第1页
第1页 / 共77页
第三章核酸数据库的应用课件.ppt_第2页
第2页 / 共77页
第三章核酸数据库的应用课件.ppt_第3页
第3页 / 共77页
第三章核酸数据库的应用课件.ppt_第4页
第4页 / 共77页
第三章核酸数据库的应用课件.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

1、第三章第三章 核酸数据库的应用核酸数据库的应用 数据库涉及到的内容主要包括两大部分:数据库涉及到的内容主要包括两大部分:数据库组织和数据库开发工具。数据库组织和数据库开发工具。就核酸数据就核酸数据库而言,前者有库而言,前者有NCBINCBI、EBIEBI以及日本生物信息以及日本生物信息学服务器学服务器等;后者包括等;后者包括序列相似性搜索基本序列相似性搜索基本工具工具EntrezEntrez,BLASTBLAST和和FASTAFASTA。核酸数据库的应用包括两个主要方面,即核酸数据库的应用包括两个主要方面,即数据库查询(数据库查询(database querydatabase query)和数

2、据库搜)和数据库搜索(索(database searchdatabase search)。)。数据库查询和数据库搜索数据库查询和数据库搜索是分子生物信息是分子生物信息学中两个常用序语。学中两个常用序语。数据库查询是指数据库查询是指对序列、结构以及各种二对序列、结构以及各种二级数据库中的注释信息进行关键词匹配查找。级数据库中的注释信息进行关键词匹配查找。数据库搜索是指数据库搜索是指通过特定的序列相似性比通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。测序列具有一定程度相似性的序列。第一节第一节 常用的核酸数据库

3、常用的核酸数据库 一、一、GenBankGenBankNCBINCBI核酸序列数据库核酸序列数据库1 1、GenBankGenBank核酸序列数据库的检索核酸序列数据库的检索GenBank数据库的数据库的简单查询简单查询是是在在NCBI首页上的首页上的Search中中直接查询直接查询检索窗口利用著者进行查询时,输入格式应为作者利用著者进行查询时,输入格式应为作者的姓加上名的缩写。如:的姓加上名的缩写。如:ThomasThomas点击点击点击点击也可以用序列登记号(也可以用序列登记号(accession numberaccession number)进)进行一般查询,如:行一般查询,如:AF47

4、7385AF477385点击点击 高级检索是通过高级检索是通过NCBINCBI的的EntrezEntrez检索系统检索系统实实现。现。EntrezEntrez是是NCBINCBI的数据库检索查询系统的的数据库检索查询系统的核心。核心。利用利用EntrezEntrez系统,可以检索系统,可以检索GenBankGenBank和其和其他数据库的蛋白质序列数据、基因组图谱数据、他数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(来自分子模型数据库(MMDBMMDB)的蛋白质三维)的蛋白质三维结构数据、种群序列数据集,以及有结构数据、种群序列数据集,以及有PubmedPubmed获得获得Med

5、lineMedline的生物医学文献数据。的生物医学文献数据。EntrezEntrez提供方便实用的检索服务,所有操提供方便实用的检索服务,所有操作都可以在网络浏览器上完成。利用作都可以在网络浏览器上完成。利用EntrezEntrez界面提供的限制条件(界面提供的限制条件(Limit键)、键)、索引(索引(Index键)、检索历史(键)、检索历史(History键)键)和剪贴板(和剪贴板(Clipboard键)等功能实现复杂键)等功能实现复杂的检索查询工作。的检索查询工作。进入进入NCBINCBI的的EntrezEntrez主页,用户可以选择组主页,用户可以选择组成成EntrezEntrez系

6、统的系统的五个数据库五个数据库之一作为查询起之一作为查询起点。如以点。如以NucleotideNucleotide开始。选择开始。选择NucleotideNucleotide即进入即进入Entrez Nucleotide searchEntrez Nucleotide search界面,点界面,点击击LimitsLimits进入限定检索界面。如上图。完成进入限定检索界面。如上图。完成各各限制条件限制条件后,点击后,点击GoGo即进行检索。即进行检索。2、NCBI中的中的GenBank数据的格式数据的格式LOCUS DEFINITION 序列名称序列名称 基因定义基因定义ACCESSION 序列

7、编号序列编号 序列接受号或登记号序列接受号或登记号VERSION 序列版本号序列版本号DATE 序列提交、创建和更新日期序列提交、创建和更新日期DISCRIPTION 序列简要描述序列简要描述KEYWORDS 与序列相关的关键词与序列相关的关键词SOURCE 序列的来源种属序列的来源种属ORGANISM 序列的来源分类序列的来源分类REFERENCE 参考文献编号或递交序列信息参考文献编号或递交序列信息REMARK 参考文献评述参考文献评述MEDLINE 参考文献交叉索引或递交序列在参考文献交叉索引或递交序列在Medline 中的存取号中的存取号TITLEAUTHER 参考文献作者或递交序列作

8、者参考文献作者或递交序列作者TITLE 参考文献题目参考文献题目JOURNAL 参考文献出处参考文献出处FEATURES 序列特征表起始序列特征表起始 COMMENT 序列注释信息序列注释信息BASE COUNT 序列起始标序列起始标志ORIGEN 序列数据序列数据 LOCUS TG29 EDGP 839bp DNA linear INV18-APR-1998DEFINITIONToxoplasma gondii DNA encodinga29kD GRA.ACCESSION Y13863VERSION Y13863.1GI:2231107KEYWORDS 29kDa protein;dens

9、e granule protein;p29gene.SOURCE Toxoplasma gondiiORGANISM ToxoplasmagondiiEukaryota;Alveolata;Apicomplexa;Coccidia;Eimeriida;Sarcocystidae;Toxoplasma.REFERENCE1(bases1to839)AUTHORSFischer,H.G.,Stachelhaus,S.,Sahm,M.,et al.TITLEGRA7,JOURNAL Mol.Biochem.Parasitol.91(2),251-262(1998)PUBMED 9566518 1:Y

10、13863.ReportsToxoplasmagondii.gi:2231107REFERENCE2(bases1to839)AUTHORSFischer,H.G.TITLEDirectSubmissionJOURNALSubmitted(16-JUN-997)FischerH.G.,InstituteforMedicalMicrobiology and Virology,Heinrich-Heine-UniversitaetDuesseldorf,Universitaetsstr.1,D-40225Duesseldorf40225GERMANYFEATURES Location/Qualif

11、iersCDSCDS 79.78979.789n检索大分子生物学数据检索大分子生物学数据n获取获取GenBankGenBank,EMBL,EMBL等数据库的核酸序列;等数据库的核酸序列;n获取获取Swiss-Swiss-prot,PIR,PRF,PDBprot,PIR,PRF,PDB等蛋白质序等蛋白质序列;从核酸序列翻译到蛋白质的序列;列;从核酸序列翻译到蛋白质的序列;n获取基因和染色体图谱;蛋白质三维结构获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(数据及大分子模式(MMDBMMDB)等其他生物信)等其他生物信息数据库检索。息数据库检索。nPubMedPubMed书目文献数据。书目文

12、献数据。EntrezEntrez生命科学搜索引擎生命科学搜索引擎检索字段限制分子类型选择基因位置限定序列片段限定数据更新日期限定功能栏核酸序列检索核酸序列检索序列存取号基因定义数据库标识符代码物种来源参考文献特性专业评论碱基数原序列复制后,可到BLAST中进行相似性对比二、二、EMBL欧洲核酸数据库欧洲核酸数据库EMBL数据库共有数据库共有Genomes、Simple sequence retrieval 和和SRS(序列提取系统)(序列提取系统)三种检索方式。三种检索方式。1、Genomes 提供已完成测序的基因组数据,提供已完成测序的基因组数据,用户可以通过生物分类名称以分层点击浏览用户可

13、以通过生物分类名称以分层点击浏览的方式获取相关信息,通过相关链接,用户的方式获取相关信息,通过相关链接,用户可获得大量已完成测序的基因组数据。可获得大量已完成测序的基因组数据。网址为:网址为:http:/www.ebi.ac.uk/genomes2、Simple sequence retrieval:直接输入序直接输入序列接受号检索核酸序列。列接受号检索核酸序列。网址网址:http:/www.ebi.ac.uk/cgi-bin/emblfetch3、SRS(序列提取系统)(序列提取系统):是目前生物信是目前生物信息界应用最为广泛的数据库系统。息界应用最为广泛的数据库系统。网址:网址:http:

14、/srs.ebi.ac.uk/检索序列时只需用鼠标点击检索序列时只需用鼠标点击“Search”,在输入框中输入拟检索的信息即可。在输入框中输入拟检索的信息即可。SRS的的 详细信息参见:详细信息参见:http:/www.sanger.ac.uk/srs/srsman.html三、三、DDBJ日本日本DNA数据库数据库包括包括GetentryGetentry、SRSSRS、AfgateAfgateTAISTAIS、HomologyHomology等几种方法。前四种用于检索等几种方法。前四种用于检索DDBJDDBJ数据库中原数据库中原始数据,始数据,HomologyHomology采用采用FAST

15、A/BLASTFASTA/BLAST检索对用检索对用户提供的序列或片段做同源性分析。户提供的序列或片段做同源性分析。1 1、GetentryGetentry:通过登录号检索:通过登录号检索DDBJDDBJ核酸数据核酸数据库,最多可同时输入库,最多可同时输入1010个号码进行检索,各号个号码进行检索,各号码之间用空格或码之间用空格或“,”分隔,连续号码可用分隔,连续号码可用“-”表示。还可用表示。还可用Locus nameLocus name、Gene nameGene name、Product nameProduct name、P-IDP-ID、Clone numberClone number

16、和和PatentPatent号等检索。号等检索。2 2、SRSSRS:有快速检索和高级检索两种途径。快:有快速检索和高级检索两种途径。快速检索可同时选择多个数据库进行检索,并且速检索可同时选择多个数据库进行检索,并且它只对来自它只对来自“IDID”、“MoleculeMolecule”、“DiscriptionDiscription”、“AccNumberAccNumber”、“KeywordsKeywords”、“SourceSource”“OrganismOrganism”、“AuthorsAuthors”、“TitleTitle”及及“CommentComment”等等1010个默认字段

17、的信息进行检索。个默认字段的信息进行检索。3 3、AfgateAfgateTAISTAIS:比较简单的关键词检索途径,:比较简单的关键词检索途径,在检索框内输入检索策略,点击在检索框内输入检索策略,点击start searchstart search按钮即可完成。按钮即可完成。第二节第二节 常用的常用的RNA数据库及软件数据库及软件一、一、Transterm-mRNA序列和翻译调控元件数据库序列和翻译调控元件数据库1、Transterm数据库简介数据库简介 Transterm数据库由新西兰数据库由新西兰Otago大学生物化学系大学生物化学系构建并维护,是一个构建并维护,是一个mRNA序列和翻译

18、调控元件序列和翻译调控元件数数据库。据库。Transterm设计的目的是研究设计的目的是研究mRNA的构成以及翻的构成以及翻译过程中的调控信号。译过程中的调控信号。Transterm中收录的中收录的mRNA序序列包括多种功能成分,既可以对一种物种进行分析,列包括多种功能成分,既可以对一种物种进行分析,也可以借此进行信息查询。也可以借此进行信息查询。每一个从每一个从GenBank内提取的内提取的mRNA被分成以下部被分成以下部分:分:功能成分,起始编码区,终止编码区,即功能成分,起始编码区,终止编码区,即5-UTR、3-UTR和翻译信号的侧翼序列和翻译信号的侧翼序列。网址:网址:http:/ww

19、w.uther.otago.ac.nz/Transterm.html2、Transterm数据检索数据检索Transterm提供每一物种密码子使用表格,还提供描提供每一物种密码子使用表格,还提供描述述mRNA中已知的基序或特征的模式的总结。通过中已知的基序或特征的模式的总结。通过Transterm来源于来源于GenBank的编码区可被分割为的编码区可被分割为5侧侧翼、起始区、全编码区、终止区、翼、起始区、全编码区、终止区、3侧翼。在侧翼。在Transterm的的WWW界面使用与数据库文件和有关数界面使用与数据库文件和有关数据库相关联的图表,可以搜索所有或部分数据库内据库相关联的图表,可以搜索所

20、有或部分数据库内容,找寻任一条符合条件的模式或用户自定义的模容,找寻任一条符合条件的模式或用户自定义的模式。式。二、RDP-11-核糖体数据库核糖体数据库由由Maidak等人创建,提供一切与核糖体有等人创建,提供一切与核糖体有关的数据、程序及相关服务计算机程序,包关的数据、程序及相关服务计算机程序,包括括rRNA在线数据分析、进化分类系统树、在线数据分析、进化分类系统树、rRNA相似序列的排列、序列注释、相似序列的排列、序列注释、rRNA二级结构图以及各种相似序列比较分析和显二级结构图以及各种相似序列比较分析和显示软件示软件。网址:网址:http:/www.rdp.cme.msu.edu1、简

21、介、简介2、RDP-数据库提供的分析工具数据库提供的分析工具(1)Probe Match:分析特异探针在数据库中出现的频率分析特异探针在数据库中出现的频率(2)Sequence Match:通过通过nearest neighbors算法确定与算法确定与 用户序列最相近的用户序列最相近的RDP-序列。序列。(3)Sequence Align:对使用者的数据进行排列,找到与对使用者的数据进行排列,找到与 使用者序列最相近的使用者序列最相近的RDP-序列。序列。(4)Similarity Matrix:计算计算RDP-和和/或使用者序列的或使用者序列的 相似性相似性/不相似性矩阵。不相似性矩阵。(5

22、)Chimera Check:检查用户序列是否为嵌合型。检查用户序列是否为嵌合型。(6)Alignment Slices:从从RDP-全排列数据库中抽取兴全排列数据库中抽取兴 趣部分,与相邻序列精简压缩为趣部分,与相邻序列精简压缩为 一个序列,突出邻近序列的差异性一个序列,突出邻近序列的差异性.(7)Sequence Selection:从动态展示的等级分类中选取从动态展示的等级分类中选取 序列,选出的序列可被下载并序列,选出的序列可被下载并 进行进行RDP-其他软件分析。其他软件分析。(8)T-RFLP:以以ABI测序系统格式使用数据,建立一个测序系统格式使用数据,建立一个相似性矩阵。相似性

23、矩阵。(9)TAPT-RFLP:在在RDP数据库中进行数据库中进行“T-RFLP实实验验”,利于设计与分析。,利于设计与分析。(10)(Sub)Trees:一种一种Java applet,可以用来展示、,可以用来展示、操纵种属进化系统树,产生新分支,或选取序列进操纵种属进化系统树,产生新分支,或选取序列进行其他的行其他的RDP-分析。分析。(11)PCA(principal Component analysis):对那):对那些较大的序列系统进行图象化处理,些较大的序列系统进行图象化处理,PCA可通过网可通过网页上的页上的“Sopplementary Material links”找到。找到。

24、三、三、RNARNA二级结构预测二级结构预测 借助计算机生物学可以很好地利用已知的借助计算机生物学可以很好地利用已知的RNARNA序列进行二级结构预测乃至三级结构建模。目序列进行二级结构预测乃至三级结构建模。目前较成熟并实现自动化的软件主要在前较成熟并实现自动化的软件主要在二级结构二级结构预测的水平上。预测的水平上。1 1、ViennaRNAViennaRNA软件包软件包 综合了两种算法来预测综合了两种算法来预测RNARNA二级二级结构:一种是最小自由能的动态规划算法,另一种是结构:一种是最小自由能的动态规划算法,另一种是McCaskillMcCaskill的分割函数算法。除的分割函数算法。除

25、RNARNA折叠外,还可计算折叠外,还可计算给定二级结构的给定二级结构的RNARNA能量、能量、RNARNA比热及采用字符串联配比热及采用字符串联配或编辑计算二级结构间距离,还为反折叠提供一种算或编辑计算二级结构间距离,还为反折叠提供一种算法,搜索给定二级结构的法,搜索给定二级结构的RNARNA序列。序列。2 2、MFOLDMFOLD Zuker Zuker的主页含众多的主页含众多RNARNA结构站点的超链结构站点的超链接,作为接,作为RNARNA相关网站的导航站点相关网站的导航站点。该站点可以下载该站点可以下载最新最新mfoldmfold软件,也可以将序列提交给软件,也可以将序列提交给Zuk

26、erZuker的的mfoldmfold服务器完成。其中服务器完成。其中RNA structure RNA structure 是是ZukerZuker预测预测RNARNA二二级结构的级结构的Windows9X/WindowsNTWindows9X/WindowsNT版本,可以免费下载。版本,可以免费下载。3 3、RNA drawRNA draw 其主页详细介绍了程序的安装、原理、其主页详细介绍了程序的安装、原理、使用和前景。大多数使用和前景。大多数RNARNA二级结构预测均可在大型计二级结构预测均可在大型计算机上完成,一般实验室不具备这些条件。算机上完成,一般实验室不具备这些条件。4 4、RN

27、ARNA世界世界 可能是最全面的可能是最全面的RNARNA站点,其超链接包站点,其超链接包括各种数据库站点、网络工具、序列、二级结构以及括各种数据库站点、网络工具、序列、二级结构以及相关软件。可以很方便地根据相关软件。可以很方便地根据PDBPDB(protein data protein data bankbank)代码或者)代码或者NDBNDB(nucleic acid data basenucleic acid data base)代)代码来查找所需要码来查找所需要RNARNA的结构信息,同时提供包括研究的结构信息,同时提供包括研究方法、参考文献、可视化图象软件及相关数据库等信方法、参考文

28、献、可视化图象软件及相关数据库等信息。息。5 5、其他核酸数据库、其他核酸数据库 HIV Database HIVHIV Database HIV序列数据库、序列数据库、IMGT ImMunoGeneTicsIMGT ImMunoGeneTics数据库;数据库;dbESTdbEST表达序列标签数表达序列标签数据库、据库、BERLIN 5S rRNA BERLIN 5S rRNA 数据库;数据库;EPDEPD真核启动子数据真核启动子数据库。库。二、二、BLAST简介简介 BLAST和和FASTA是当前应用最广泛的程序,最新是当前应用最广泛的程序,最新版的版的BLAST和和FASTA中已消除原有各

29、自局限性。综合中已消除原有各自局限性。综合程序速度和敏感性,本节介绍程序速度和敏感性,本节介绍NCBI中的中的BLAST程序。程序。BLAST(basic local alignment search tool,局部序列相似,局部序列相似性对比工具性对比工具)集速度、敏感性、弹性与统计处理的最佳)集速度、敏感性、弹性与统计处理的最佳组合于一身,能迅速找到非空位的相似片段。在报告相组合于一身,能迅速找到非空位的相似片段。在报告相似性的同时,也报告这个相似性片段出现的可能性。似性的同时,也报告这个相似性片段出现的可能性。BLAST集成了一系列程序进行核酸和氨基酸序列不集成了一系列程序进行核酸和氨基

30、酸序列不同类型的搜索,采用卡林氏统计描述结果的显著性。同类型的搜索,采用卡林氏统计描述结果的显著性。BLAST是是NCBI提供的用于核酸或蛋白质序列相似提供的用于核酸或蛋白质序列相似性对比分析的一个软件,已发展到包括性对比分析的一个软件,已发展到包括BLASTP,BLASTN,BLASTX,TBLASTN,TBLASTX,MEGABLAST,PSI-BLAST,PHI-BLAST,RPS-BLAST等多个软件和应用工具的多功能序列分析程序。等多个软件和应用工具的多功能序列分析程序。1、BLASTN:最早的最早的BLAST程序,用于鉴定测序所程序,用于鉴定测序所得序列和查找与之相似的序列。系最常

31、用得序列和查找与之相似的序列。系最常用BLAST软件。软件。程序程序 数据库数据库 查查 询询 简简 述述 blastpblastnblastxtblastntblastx 蛋白质蛋白质核酸核酸蛋白质蛋白质核苷酸核苷酸(翻译翻译)核酸核酸(翻译翻译)蛋白质蛋白质核苷酸核苷酸核酸核酸(翻译翻译)蛋白质蛋白质核酸核酸(翻译翻译)可能找到具有远可能找到具有远源进化关系的匹源进化关系的匹配序列配序列适合寻找分值较适合寻找分值较高的匹配,不适高的匹配,不适合远源关系合远源关系适合新适合新DNA序列序列和和EST序列的分序列的分析析适合寻找数据库适合寻找数据库中尚未标注的编中尚未标注的编码区码区适合分析适

32、合分析EST序序列列 2、MEGABLAST:用于鉴定一个未知的核酸序列。用于鉴定一个未知的核酸序列。若要了解测得一个未知核酸序列是否已发表在公开若要了解测得一个未知核酸序列是否已发表在公开的核酸数据库中,以及其相关的生物研究文献时,的核酸数据库中,以及其相关的生物研究文献时,这是一个最好的工具。它可有效地找到与序列相近这是一个最好的工具。它可有效地找到与序列相近的其他序列。的其他序列。3、Discontiguous MEGABLAST:与与MEGABLAST相似,主要用于相近的序列段比较短、并且相邻的相似,主要用于相近的序列段比较短、并且相邻的序列段不连续的搜索。相近序列不易查找时,该工序列

33、段不连续的搜索。相近序列不易查找时,该工具可以提高查询灵敏度和查询效果。具可以提高查询灵敏度和查询效果。4、BLASTP:为查询蛋白质序列设计的软件,主要为查询蛋白质序列设计的软件,主要用于鉴定蛋白质的氨基酸序列和在数据库中查找相似用于鉴定蛋白质的氨基酸序列和在数据库中查找相似的序列。既可通过找到相似的已知蛋白质的功能来鉴的序列。既可通过找到相似的已知蛋白质的功能来鉴定一个未知的蛋白质序列的功能,也可用于两个或多定一个未知的蛋白质序列的功能,也可用于两个或多个蛋白质序列的比较。个蛋白质序列的比较。5、PSI-BLAST(点位重心点位重心BLAST):):最灵敏的最灵敏的BLAST程序,通过它可

34、以找到一个蛋白质的远亲序程序,通过它可以找到一个蛋白质的远亲序列。列。6、PHI-BLAST(特异片段重心特异片段重心BLAST):):可以指可以指定某一个蛋白质序列片段,并以这个片段为重心查询定某一个蛋白质序列片段,并以这个片段为重心查询相关蛋白质序列。相关蛋白质序列。7、BLASTX:把所需查询的核酸序列翻译成氨基酸把所需查询的核酸序列翻译成氨基酸序列序列,再在蛋白质数据库中查找。再在蛋白质数据库中查找。LBASTX可以将核可以将核酸序列翻译成有酸序列翻译成有6种可能的氨基酸序列后在进行查寻,种可能的氨基酸序列后在进行查寻,对编码区所有三联密码的组合所翻译的氨基酸序列都对编码区所有三联密码

35、的组合所翻译的氨基酸序列都查寻,提高了查寻灵敏度。查寻,提高了查寻灵敏度。8、TBLASTN:与与BLASTX相反,相反,TBLASTN蛋白质序蛋白质序列翻译成可能的列翻译成可能的6种三联密码核酸序列,对寻找相似功能种三联密码核酸序列,对寻找相似功能的核酸序列特别有用。多用于的核酸序列特别有用。多用于EST和大规模测序所做的和大规模测序所做的序列分析,对三联密码的错位有很高的容错度。序列分析,对三联密码的错位有很高的容错度。9、TBLASTX:把要查寻的核酸序列和进行比较的核酸把要查寻的核酸序列和进行比较的核酸序列都翻译成序列都翻译成6种可能的氨基酸序列后进行比较。种可能的氨基酸序列后进行比较

36、。10、RPS-BLAST:用于鉴定某些进化上比较稳定的蛋白用于鉴定某些进化上比较稳定的蛋白质功能片段。数据来源于质功能片段。数据来源于NCBI的的CDD数据库。数据库。11、CDART(conserved domain architeture retrieval tool):):用于筛选特定蛋白质数据库中所有的蛋白质功用于筛选特定蛋白质数据库中所有的蛋白质功能片段和功能片段结构,并得到含有某一个或多个功能能片段和功能片段结构,并得到含有某一个或多个功能片段结构的所有蛋白质序列。片段结构的所有蛋白质序列。三、三、BLAST应用举例应用举例顺序:顺序:建立建立BLAST搜索,确定查询序列;搜索,

37、确定查询序列;选择适当的搜索程序和相应的数据选择适当的搜索程序和相应的数据 库,以及参数;库,以及参数;发送查询序列;发送查询序列;读取读取BLAST结果。结果。1、具体步骤、具体步骤(1)确定查询序列;)确定查询序列;(2)选择数据库和搜索程序:数据库为核酸数据库,)选择数据库和搜索程序:数据库为核酸数据库,程序为程序为BLASTN;(3)选择默认的允许非空位的搜索;)选择默认的允许非空位的搜索;(4)E值限制,默认为值限制,默认为10;(5)用默认矩阵)用默认矩阵BLOSUM62;(6)最后确认结果输出格式。)最后确认结果输出格式。确认以上参数无误后,点击确认以上参数无误后,点击“BLAS

38、T”按钮,同时按钮,同时也可以选择也可以选择E-mail回复结果。回复结果。2、结果分析、结果分析BLAST结果分两部分,即图形化结果和文字结果,结果分两部分,即图形化结果和文字结果,后者又分为有意义的序列排列、两两对比结果、统计后者又分为有意义的序列排列、两两对比结果、统计结果三部分。结果三部分。选择对比程序基因组对比特殊对比将序列数据库中的复制序列在此粘贴点击点击(1)图形结果)图形结果得分高低以不同颜色表示:得分高低以不同颜色表示:200200红色,红色,80-20080-200分红分红色,色,50-8050-80绿色,绿色,40-5040-50蓝色,蓝色,4040黑色,也表示同源黑色,

39、也表示同源性由高到低。性由高到低。2、文字结果、文字结果搜索的分值高低排列,即同源性从高到低。排搜索的分值高低排列,即同源性从高到低。排列第一的是查询序列本身。右侧分别为随机分列第一的是查询序列本身。右侧分别为随机分值(值(scorescore,S S值)和期望值(值)和期望值(expectexpect,E E值)。值)。E E值是特定匹配中基本的随机噪声。值是特定匹配中基本的随机噪声。S S值增加,值增加,E E值呈指数性减少,即随机噪声降低,表明序列值呈指数性减少,即随机噪声降低,表明序列同源性较高。同源性较高。经验提示,经验提示,DNADNA序列具有序列具有75%75%以上的同源性才具以

40、上的同源性才具有潜在的生物学意义,但这种结果很难把握,有潜在的生物学意义,但这种结果很难把握,必须实验验证,或要求研究者具有丰富的序列必须实验验证,或要求研究者具有丰富的序列分析经验。分析经验。对比资源类似性图谱对比图谱报告对比图谱报告数据库标识符基因定义类似性积分E值为匹配期望值。说明可以找到与搜索序列相匹配的其它序列的几率。E值越接近零,越不可能找到其它的匹配序列,其背后的含义就是E值越少,匹配度越好点击可得待检序列与库存序列对排基因表达库链接单基因库基因信息库人类染色体上的抗肿瘤基因序列对排表相关文献链接相关文献链接对排序列不一致处序列对排报告序列对排报告第四节第四节 新序列的提交新序列

41、的提交提交信息到提交信息到NCBI、EBI和和DDBJ的过程非常简单。介的过程非常简单。介绍三种方式:绍三种方式:一、一、Internet的方式,如的方式,如BankIt,为在线序列数据提,为在线序列数据提交工具,基于互联网直接将数据库提交给交工具,基于互联网直接将数据库提交给GenBank的的序列提交工具,序列提交工具,提交的序列必须是提交者测定的提交的序列必须是提交者测定的DNA/RNA序列。序列。输入的格式是输入的格式是FASTA;由;由E-mail给给予回复;有基本的予回复;有基本的GenBank文本格式文件、文本格式文件、GenBank存取号和完整的存取号和完整的GenBank文本格

42、式。文本格式。BankIt是一系列表单,包括联络信息、发布要求、是一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息以及序列本身的信息等。引用参考信息、序列来源信息以及序列本身的信息等。用户提交序列后,会从电子邮件收到自动生成的数据用户提交序列后,会从电子邮件收到自动生成的数据条目。条目。GenBank的新序列号及完成注释后的完整记录。的新序列号及完成注释后的完整记录。用户还可在用户还可在BankIt页面下修改已经发布序列的信息。页面下修改已经发布序列的信息。BankIt适于独立测序工作者提交少量序列,不适适于独立测序工作者提交少量序列,不适于提交很长的序列,于提交很长的序列,ES

43、T序列和序列和GSS序列也不用序列也不用BankIt提交。提交。二、通过二、通过Sequin(authorin)提交。可将序列提交给)提交。可将序列提交给GenBank、EMBL和和DDBJ及在线更新。能处理简单及在线更新。能处理简单和复杂提交。和复杂提交。Sequin的使用说明可祥见网页。的使用说明可祥见网页。三、通过三、通过Webin提交,该程序被推荐作为提交,该程序被推荐作为EMBL序列序列提交的互联网界面。提交的互联网界面。网址:网址:http:/www.ebi.ac.uk/Tools/index.html数据提交前可以修改和审查;有成批提交数据提交前可以修改和审查;有成批提交25项或更多项或更多相关序列的程序,也有相关序列的程序,也有EBI载体剔除软件。载体剔除软件。GenBankSubmit to GenBank1

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第三章核酸数据库的应用课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|