1、复旦大学 实验三:基因序列分析实验三:基因序列分析基因与蛋白质组学数据分析基因与蛋白质组学数据分析整理课件整理课件2实验项目三:基因序列分析实验项目三:基因序列分析一、实验目的和要求:掌握基因可读框的识别;掌握启动子区域的预测 掌握CpG岛的预测 掌握转录终止信号的预测 采用mRNA序列预测基因:Spidey的使用 掌握各预测服务器结果的分析整理课件整理课件3原核生物基因结构原核生物基因结构1 1 长开放阅读框长开放阅读框2 2 高基因密度高基因密度3 3 简单的基因结构简单的基因结构4 4 基因组中基因组中GCGC含量变化非常大含量变化非常大特点:特点:整理课件整理课件4真核生物基因结构真核
2、生物基因结构特点:特点:1 基因结构复杂基因结构复杂2 具有复杂的基因转录调控方式具有复杂的基因转录调控方式3 具有丰富的可变剪接具有丰富的可变剪接4 有明显的有明显的CpG岛、密码子使用具有偏岛、密码子使用具有偏好性好性整理课件整理课件5基因组序列分析基因组序列分析整理课件整理课件6 例:What is Gene Prediction?Given an uncharacterized DNA sequence,find out:1.Where does the gene starts and ends?2.Which regions code for a protein?AGCATCGAAG
3、TTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATG
4、ACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGA
5、AGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCgene 1gene 2gene 3exonintergenic regionintron整理课件整理课件7整理课件整理课件8一一 开放读码框的识别开放读码框的识别 开放读码框(open reading frame,ORF)是一段起始密码子和终止密码子之间的碱基序列 ORF 是潜在的蛋白质编码区基因预测基因预测整理课件整理
6、课件9基因开放阅读框基因开放阅读框/基因结构分析识别工具基因结构分析识别工具Getorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/getorf.htmlEMBOSS通用Plotorfhttp:/bioweb.pasteur.fr/seqanal/interfaces/plotorf.htmlEMBOSS通用ORF Finder http:/www.ncbi.nlm.nih.gov/gorf/gorf.html NCBI通用BestORFhttp:/ Finderhttp:/rulai.cshl.org/tools/genefinder/Zhang l
7、ab人、小鼠、拟南芥、酵母FGENESHhttp:/ Maryland原核FgeneSBhttp:/ http:/compbio.ornl.gov/generation/ORNL原核FGENESH+http:/ Softberry原核GenomeScan http:/genes.mit.edu/genomescan.html MIT脊椎、拟南芥、玉米GeneWise http:/www.ebi.ac.uk/Wise2/EBI人、蠕虫GRAILhttp:/grail.lsd.ornl.gov/grailexp/ORNL人、小鼠、拟南芥、果蝇整理课件整理课件101.ORF Finder的使用及结果
8、分析的使用及结果分析整理课件整理课件111.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件121.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件131.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件141.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件151.ORF Finder的使用及结果分析的使用及结果分析Blast比对结果搜索到多个显著相似的序列,故所预测的比对结果搜索到多个显著相似的序列,故所预测的ORF的可信度较高。的可信度较高。如果要获取该如果要获取该ORF所编码的蛋白质序列,可以点击所编码的蛋
9、白质序列,可以点击“Accept”按钮后,在按钮后,在“1GenBank”的下拉框中选择的下拉框中选择“3Fasta”,并点击,并点击“view”,即可获取,即可获取该该ORF所编码的蛋白质序列。所编码的蛋白质序列。整理课件整理课件161.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件171.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件181.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件191.ORF Finder的使用及结果分析的使用及结果分析整理课件整理课件20提交序列提交序列提交序列文件提交序列文件运行运行GENSCA
10、N选择物种选择物种显示氨基酸或显示氨基酸或CDS序列序列序列名称(可选)序列名称(可选)是否显示非最优外显子是否显示非最优外显子2.Genscan的使用及结果分析的使用及结果分析整理课件整理课件21基因、基因、外显子外显子及类型及类型正链、正链、负链负链预测单元预测单元起始、终起始、终止及长度止及长度相位相位编码编码区打区打分值分值可信概率、可信概率、得分值得分值2.Genscan的结果分析的结果分析整理课件整理课件22http:/ 原核生物原核生物真核生物真核生物TTGACATATAATAmRNA11035PyAPyTATAATGC区区 CAAT区区mRNA14025110增强子增强子上游启
11、动子元件,上游启动子元件,UPE核心启动子元件核心启动子元件转录起始转录起始位点位点整理课件整理课件27原核生物原核生物真核生物真核生物整理课件整理课件28二二.启动子预测启动子预测输入序列的输入序列的Fasta文件文件整理课件整理课件29启动子预测结果启动子预测结果从预测结果可知,预测的启动子区在32564至32783之间,启动子阈值系统默认为53.00,预测的启动子分值为84.69,高于阈值,分值越高,说明预测的准确性大。与该启动子可能结合的转录因子如下所示整理课件整理课件30三 CpG岛预测 CpG岛 CpG 岛又称为HTF 岛,是DNA上的一个区域,此区域富含GC,二者以磷酸酯键相连。
12、位于真核生物基因转录起始位点上游,GC含50%,长度200bp CpG岛常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG岛具有阻止序列甲基化的作用,因此,搜索CpG岛可以为基因及其启动子的预测提供线索。CpG Island 分析分析CpG Island http:/ finderhttp:/ 转录终止信号转录终止信号 加polyA信号:AAUAAA 转录终止信号:转录终止信号:GC rich二重对称区、二重对称区、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA53AAUAAACAAAAAAAAAAAAA成熟成熟mRNA53AAUAAA
13、CAGUmRNA前体前体53整理课件整理课件34整理课件整理课件35转录终止信号预测转录终止信号预测Hcpolyahttp:/r.it/webgene/wwwHC_polya.htmlWeb POLYAHhttp:/ http:/rulai.cshl.org/tools/polyadq/polyadq_form.htmlWeb整理课件整理课件36POLYAH的使用及结果分析的使用及结果分析输入序列的输入序列的Fasta文件文件整理课件整理课件37POLYAH的使用及结果分析的使用及结果分析预测的预测的POLYA位点,位点,LDF为权重为权重整理课件整理课件38内含子内含子/外显子剪切位点识别外
14、显子剪切位点识别 对基因组序列的读码框区域进行预测 内含子5端供体位点(donor splice site):GT 内含子3端受体位点(acceptor splice site):AG 预测工具:GENSCAN,GENEMARK NetGene2,Splice View整理课件整理课件39整理课件整理课件40mRNA剪切位点识别:spideyNCBI开发的在线预测程序开发的在线预测程序用于用于mRNA序列同基因组序列比对分析序列同基因组序列比对分析 http:/www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/index.html整理课件整理课件4
15、1整理课件整理课件42 序列在线提交形式:界面中有两个窗口:上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号)下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析Spidey序列提交页面序列提交页面输入基因组序列输入基因组序列或序列数据库号或序列数据库号AC002390.1整理课件整理课件43输入相似输入相似mRNA序列序列判断用于分析的序列间的差异,判断用于分析的序列间的差异,并调整比对参数并调整比对参数不受默认内含子长度限制,不受默认内含子长度限制,默认长度:内部内含子默
16、认长度:内部内含子为为35kb,末端内含子为末端内含子为100kb输出格式输出格式比对阈值比对阈值选择物种选择物种整理课件整理课件44第一条蓝色序列为第一条蓝色序列为基因组序列,橘黄基因组序列,橘黄色为外显子色为外显子整理课件整理课件45外显子对应于外显子对应于基因组上的基因组上的起始起始/结束位置结束位置外显子对应于外显子对应于mRNA/cDNA上的上的起始起始/结束位置结束位置供体、受体位点供体、受体位点外显子外显子序号序号外显子外显子长度长度一致性一致性百分比百分比错配和错配和gap整理课件整理课件46序列联配结果序列联配结果整理课件整理课件47使用NCBI ORF Finder 识别检
17、索号为L03845的可读框。写下拟南芥phyA序列最长的ORF的起止区间,并粘贴此ORF编码的蛋白质序列的Fasta文件使用Genscan对检索号为D17291的序列进行基因预测,标出外显子区和PolyA位点,用FGENESH对该序列进行预测,写出预测为外显子的序列区间。并比较两个服务器预测的结果是否一致,写出二者都预测为外显子的区段。作作 业业整理课件整理课件48使用CpGPlot,POLYAH,PromoterScan对检索号为AF319968的核酸序列进行分析,识别序列中的功能元件,将预测结果(部分)进行截图,标出主要的结果。使用Spidey 对检索号为AF319968的核酸序列进行分析,标出识别为外显子的区段。整理课件整理课件49实验报告 到网络教学平台-基因与蛋白质组学数据分析B2100029-教学材料-实验课件 下载基因与蛋白质组学数据分析实验报告模版 将上述问题答案整理到实验报告中,正反打印放在2张纸上(不超过2张),下次实验课上交。复旦大学 谢谢大家!谢谢大家!