核酸序列分析课件.ppt

上传人(卖家):三亚风情 文档编号:2922741 上传时间:2022-06-11 格式:PPT 页数:141 大小:8.88MB
下载 相关 举报
核酸序列分析课件.ppt_第1页
第1页 / 共141页
核酸序列分析课件.ppt_第2页
第2页 / 共141页
核酸序列分析课件.ppt_第3页
第3页 / 共141页
核酸序列分析课件.ppt_第4页
第4页 / 共141页
核酸序列分析课件.ppt_第5页
第5页 / 共141页
点击查看更多>>
资源描述

1、生命之书的阅读生命之书的阅读1、对生物个体的阅读、对生物个体的阅读 2 2、同种生物不同个体之间的比较分、同种生物不同个体之间的比较分析析3 3、不同物种比较、不同物种比较 更重要的是找出差异的结果更重要的是找出差异的结果 基因识别是生物信息学领域里的一个重要基因识别是生物信息学领域里的一个重要研究内容研究内容 基因识别问题,在近几年受到广泛的重视基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的理大量已测定

2、的但未知功能或未经注释的DNADNA序序列列 基因识别基因识别使用计算机手段识别使用计算机手段识别DNA序列上序列上的具有生物学特征的片段,其对象主要是蛋白的具有生物学特征的片段,其对象主要是蛋白质编码基因,也包括其他具有一定生物学功能质编码基因,也包括其他具有一定生物学功能的因子,如的因子,如RNA、MicroRNA基因等一些非编码基因等一些非编码基因,基因识别是生物信息学领域里的一个重基因,基因识别是生物信息学领域里的一个重要研究内容。要研究内容。基因语言的特点基因语言的特点真核生物中有很多重复序列,拷贝在几十几百到几万。真核生物中有很多重复序列,拷贝在几十几百到几万。通常是不编码的序列通

3、常是不编码的序列 真核生物基因是不连续的真核生物基因是不连续的 真核生物的启动子和增强子真核生物的启动子和增强子 真核生物的基因有一些特定的模式真核生物的基因有一些特定的模式 由于进化的原因,基因序列比较保守由于进化的原因,基因序列比较保守转录起始位点转录起始位点 起始密码子起始密码子终止密码子终止密码子 转录终止位点转录终止位点5启动区启动区5UTR 开放阅读框开放阅读框 3UTR 终止区终止区3原核基因的典型结构原核基因的典型结构GCGC含量含量(GC content):(GC content): 不同原核生物中,不同原核生物中,GCGC含量从含量从25%75%25%75%。基因水平转移基

4、因水平转移(horizontal gene trasferhorizontal gene trasfer) 许多细胞基因组表现具有不同许多细胞基因组表现具有不同GCGC含量的区域的含量的区域的组合物,这些区域反映了细菌的进化历史。组合物,这些区域反映了细菌的进化历史。 非翻译区域(非翻译区域(untranslated regions, untranslated regions, UTRUTR) 编码区域两端的编码区域两端的DNADNA,有一部分被转,有一部分被转录,但是不被翻译,这一部分称为非录,但是不被翻译,这一部分称为非翻译区域翻译区域 5 5UTR-UTR-基因上游区域的非翻译区域基因上

5、游区域的非翻译区域 3 3UTR-UTR-基因下游区域的非翻译区域基因下游区域的非翻译区域 对于任何给定的核酸序列(单链对于任何给定的核酸序列(单链DNA或或mRNA),根据密码子的起始位置,),根据密码子的起始位置,可以按照三种方式进行解释。可以按照三种方式进行解释。 例如,序列例如,序列ATTCGATCGCAA 这三种阅读顺序称为阅读框(这三种阅读顺序称为阅读框(reading frames)CAA A ATTCGATCGATTCGATCGCAAATTCGATCGCA(1)(3)(2)一个开放阅读框(一个开放阅读框(ORF,open reading ORF,open reading fra

6、meframe)是一个没有终止编码的密码子序)是一个没有终止编码的密码子序列。列。原核基因识别任务的重点是识别开放阅读原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。框,或者说识别长的编码区域。 真核基因远比原核基因复杂:真核基因远比原核基因复杂: 一方面,真核基因的编码区域是非连续一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。的,编码区域被分割为若干个小片段。 另一方面,真核基因具有更加丰富的基另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因因调控信息,这些信息主要分布在基因上游区域。上游区域。 真核基因组特点:真核基因组特点:u规模

7、庞大规模庞大人类基因组人类基因组 3 310109 9 bpbp 大肠杆菌基因组大肠杆菌基因组 5 5 10107 7 bp bpu巨大的非编码序列巨大的非编码序列u复杂的基因结构复杂的基因结构启动区启动区 5UTR外显子外显子内含子内含子外显子外显子内含子内含子内含子内含子5外显子外显子3UTR终止区终止区3转录位点转录位点 起始密码子起始密码子终止密码子终止密码子剪切给体位点剪切给体位点剪切受体位点剪切受体位点蛋白质序列蛋白质序列翻翻译译Codon biasGC Content酶切位点酶切位点引物设计引物设计编码区预测编码区预测基因结构分析基因结构分析选择性剪切选择性剪切SNP序列比对序列

8、比对功能注释功能注释KEGGGO系统发育树系统发育树蛋白质理化性质蛋白质理化性质二级结构预测二级结构预测结构域分析结构域分析重要信号位点分析重要信号位点分析三级结构预测三级结构预测以以DNAMANDNAMAN软件为例软件为例进行序列分析时,经常需要对进行序列分析时,经常需要对DNA序列进行各种变换,如反向序列进行各种变换,如反向序列、互补序列、互补反向序列、显示序列、互补序列、互补反向序列、显示DNA双链、转换为双链、转换为RNA序列等。序列等。序列基本信息序列基本信息具体序列具体序列显示转换后的不同序列显示转换后的不同序列GAATTCGTTAAC输入内切酶的名称,输入内切酶的名称,可查询其识

9、别序列及可查询其识别序列及酶切位点酶切位点载入序列载入序列目标目标DNA默认为线状,默认为线状,若选择若选择“环状环状”,则出,则出现的酶切图谱为环状。现的酶切图谱为环状。在在“酶文件酶文件”、“全选全选”、 “长度长度”及及“末端末端”等选等选项的选择都完成后项的选择都完成后“完完成成”。可选“DNase”或“DNA内切酶”选择选择酶酶甲基化情况甲基化情况分析结果分析结果以线状图示酶切以线状图示酶切位点位点以环状图示酶切以环状图示酶切位点位点每种酶的单酶切电每种酶的单酶切电泳模拟图泳模拟图碱基组成序列转换ORF的查找翻译成相对应的蛋白质内切酶的识别显示序列中的酶切位点显示序列中的酶切位点打开

10、.ab1文件。可输出为可输出为.txt的文本格式文件。的文本格式文件。调节按钮调节按钮导出序列导出序列测序峰图导出的文本测序峰图导出的文本再再“载入序列载入序列” “选定项目选定项目”后就可后就可以直接载入软件中分析!以直接载入软件中分析!调节按钮调节按钮选择选择“copy Fasta formatted”,相当于将文件中的序列以相当于将文件中的序列以Fasta格格式复制,可黏贴到记事本中。式复制,可黏贴到记事本中。输入序列输入序列发现载体序列发现载体序列结果结果待拼接序列显示区待拼接序列显示区某次测序的结果有两个序列,某次测序的结果有两个序列,将其拼成一条。将其拼成一条。拼接结果拼接结果导出

11、的是拼接后的序列导出的是拼接后的序列粘贴序列粘贴序列结果链接结果链接结果结果核酸序列电子延伸示意图核酸序列电子延伸示意图ESTEST序列序列种子序列种子序列ESTEST数据库中数据库中BlastBlast分析分析开始开始获得匹获得匹配序列配序列种子序列与匹种子序列与匹配序列组装配序列组装无匹配时无匹配时结束,进结束,进行行ORFORF分析分析数据库参数:应选择数据库参数:应选择non-human,non-mouse ESTs(est others)物种名参数:写物种名参数:写rice或水或水稻拉丁文稻拉丁文得到一致性最高的匹配序得到一致性最高的匹配序列(列(EST序列)序列)(2) 因为匹配序

12、列为EST序列,因此此时选择的程序为:blastn。再次对水稻ESTdb进行比对。数据库参数:选择数据库参数:选择others;物种名参数:写物种名参数:写rice或水稻拉丁文或水稻拉丁文匹配的匹配的EST序列序列点击“contigs”,获得拼装后的序列。如下图。(4) 以新生的以新生的contig序列作为种子序列重复上述过程,直至没有新的匹配序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。接序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。接下来要对延伸产物进行下来要对延伸产物进行ORF分析,确定分析,确定cDNA的完整性。

13、的完整性。粘贴序列粘贴序列序列序列IDID号或接受号号或接受号分析范围分析范围遗传密码遗传密码查看结果查看结果可点击详细查看可点击详细查看单击,详细查看一个单击,详细查看一个ORFORF。进一步。进一步确定确定ORFORF是否正确需要借助是否正确需要借助KozakKozak规规则。则。可直接查看所在可直接查看所在ORF对对应的蛋白质的对数据库应的蛋白质的对数据库的比对的比对Kozak规则可以帮助确定规则可以帮助确定ORF的起始密码子。的起始密码子。加尾信号须自行搜索。加尾信号须自行搜索。接着查看其他接着查看其他ORFORF前提是已经前提是已经load load sequencesequence

14、ORFORF的查找要求的查找要求ORFORF的查找结果,需要认真判断要那个的查找结果,需要认真判断要那个ORFORF序列上载后,也可序列上载后,也可以在这里进行分析以在这里进行分析图示图示ORFORF分析结果分析结果设置设置ORFORF分析参分析参数数双击图示中的双击图示中的ORFORF则显示则显示该该ORFORF的详细信息的详细信息该该ORFORF的详细信息的详细信息粘贴序列粘贴序列粘贴序列粘贴序列物种选项物种选项粘贴序列粘贴序列p 对于已知的对于已知的cDNA序列及其对应的基因组序列,可以将这两条序序列及其对应的基因组序列,可以将这两条序列对齐以直观显示列对齐以直观显示cDNA所编码基因的

15、结构。所编码基因的结构。pSim4程序即可完成该项工作,分析的结果可以保存下来用程序即可完成该项工作,分析的结果可以保存下来用Lalnview程序在电脑上直观地显示。程序在电脑上直观地显示。Sim4网址:网址:核酸:核酸:http:/pbil.univ-lyon1.fr/sim4.php蛋白:蛋白:http:/www.expasy.ch/tools/sim-prot.htmlLalnview下载地址:下载地址:http:/pbil.univ-lyon1.fr/software/lalnview.html 输入输入cDNAcDNA序列序列输入输入GenomeGenome序列序列然后然后Submi

16、tSubmit序列要求:序列要求:TTTGATGAAAATCGCTTAGGCCTTGCTCTTCAAACAATCCAGCTTCTTTCACTC对比结果对比结果TXTTXT格式格式保存文件保存文件a对保存的文件可用对保存的文件可用lalnviewlalnview查看查看输出结果输出结果输入序列输入序列说明:主要用于预测脊说明:主要用于预测脊椎动物的启动子椎动物的启动子丹麦丹麦输入序列输入序列参数选择参数选择美国伯克利美国伯克利http:/www-bimas.cit.nih.gov/molbio/proscan/http:/www-bimas.cit.nih.gov/molbio/proscan/

17、输入序列输入序列没有参数可选没有参数可选美国美国NIH每个序列最大每个序列最大1kb,一,一次最多次最多20个序列个序列新加坡新加坡http:/www.ebi.ac.uk/asd/index.html综合综合http:/splicenest.molgen.mpg.de/综合综合http:/cgsigma.cshl.org/new_alt_exon_db2/综合综合http:/166.111.30.65/AsMamDB/哺乳动物哺乳动物http:/www.tigr.org/tigr-scripts/tgi/splnotes.pl?species=humanhttp:/prosplicer.mbc

18、.nctu.edu.tw/http:/www.bit.uq.edu.au/altExtron人人http:/www.cse.ucsc.edu/kent/intronerator/altsplice.html线虫线虫http:/ 序列比对序列比对收集序列收集序列评判的标准:评判的标准:来自来自Unigene的高质量数据的高质量数据Exon至少有至少有3条条ESTs覆盖覆盖Exon周围有周围有GT-AG信号信号Blast比对比对Score值值100相似度相似度95%S.Gupta et al., Genome wide identification and classification of al

19、ternative splicing based on EST data, 2004, 20(16): 2579-2585研究人员对研究人员对9292个犬品种的个犬品种的1717个相对应的发育基因中的重复区个相对应的发育基因中的重复区域进行了测序。域进行了测序。足趾数目受一种叫做足趾数目受一种叫做Alx-4Alx-4的基因的控制。的基因的控制。鼻子的长度与另一种基因鼻子的长度与另一种基因Runx-2Runx-2中的重复序列数目吻合中的重复序列数目吻合牧羊犬类品种多了一种特殊的重复片断牧羊犬类品种多了一种特殊的重复片断哈巴狗类品种则多了另一个不同的重复哈巴狗类品种则多了另一个不同的重复CpG岛分

20、析岛分析NoNo调控序列所在位置调控序列所在位置Cister结果:结果:881- 896 CCAAT881- 896 CCAAT908- 923 CCAAT908- 923 CCAAT转录终止信号转录终止信号GetOrfGenScan735 - 773 735 - 773 964 - 1020 964 - 1020 10541054 - 1146 - 1146 1112 - 1156 1112 - 1156 1341 - 1625 1341 - 1625 10541054-1490-1490(1054-1145, 1268-1490 )(1054-1145, 1268-1490 )CCTAGT

21、CCAGACGCCATGGGT比对分析比对分析(Blastx,Blastn,Blastp)Blastx结果:结果: gamma globingamma globin:1054-11461054-11461266-1493 1266-1493 http:/zlab.bu.edu/mfrith/HPD.htmlHuman gene 5HSA004013: -10001000GeneBuilderhttp:/r.it/webgene/genebuilder.htmlDNA Toolhttp:/www.crc.dk/dnatools/downloads/setup/dt6_setup.exeSEQtoolshttp:/www.seqtools.dk/DNAssisthttp:/www.dnassist.org/dnassist20.zipGeneTool http:/ DNAmanhttp:/ Striderhttp:/ pDRAW32http:/ NTIhttp:/ Sequence assembly Sequence manipulation Homology comparison Multiple alignmentGene structure analysis Primer/Oligo analysis Restriction analysis Codons analysis

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(核酸序列分析课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|