1、如何判断序列的正反向 NCBI里的序列,mRNA,CDS序列等等,都标注的很清楚,只是有的基因序列给的是反向互补的序列,需要大家在primer5等软件里转换一下。具体看是不是反向互补的序列,办法就是看在第一个CDS区的前三个碱基是不是是不是ATGATG,如果是ATG,那么这个序列就是你要的了,如果不是,那八成就是你要得序列的反向互补序列了。1PPT学习交流目的:寻找promoter区域预测核心启动子区2PPT学习交流寻找promoter区域1.用NCBI:2.用UCSC:3.用Ensembl:4.用公司信息(只包含公司拥有promoter clones的信息):/(*种类比较少)5.用SIB-
2、EPD:(可直接提供TSS,但是库容较小,很多基因查不到)6.预测核心启动子区3PPT学习交流NCBI数据库4PPT学习交流寻找promoter区域 NCBI http:/选择GeneGene,输入ankh,点击search 选择第一项,以人类Homo sapiens的ANKH为例;Chromosome 5 location 14707,complement(反义链)即-14871887 到-14704909为基因范围此例中选取-14873887 到-14871887 约2000bp核苷酸序列作为启动子区域5PPT学习交流选择Ensembl或者HGNC_,进入ensembl分析寻找promot
3、er区域6PPT学习交流寻找promoter区域图形显示FASTA格式显示的核苷酸序列输入序列可以查询染色体位置ANKH gene在反义链上,所以用负数表示可以查询具体核苷酸序列 Genomic context 点击Graphics-Tools-Sequece Text View7PPT学习交流寻找promoter区域 点击Go To Position,输入-14873887,点击Prev Page找到具体位置 复制白底黑色区域即为promoter区域。白底黑字为启动子区域紫底黑字为基因区域粉底黑字为编码区,ATG为启示密码子8PPT学习交流寻找promoter区域 在前两张幻灯片中选择FAS
4、TA 在右边Change region shown输入到 Display options选择Show reverse complement 可以直接得到FASTA格式的promoter核苷酸序列(似乎有一个bp的差距,可以输入到)可以选择展示反向互补序列9PPT学习交流1.选择基因示意图:1).向下查看“Genomic regions,transcripts and products”2).将鼠标放在Genes的”NR_”示意图上,3).在弹出的窗口中点击2.点击”FASTA View,序列范围表示NR_的位置。出现该基因的实际序列,第一个序列的位置表示“起始位置”3.调整显示位置:将起始位点
5、先前排1000bp,向后排1000bp。更改后的位置认为是启动子区。10PPT学习交流UCSC数据库11PPT学习交流寻找promoter区域 UCSC 选择左侧边栏的“Table Browser”在clade选择Mammal,genome选择Human,assmebly选择最新的数据库,在position后面的搜索框内写入待查的基因名称,如actin。点击get output。方法一12PPT学习交流寻找promoter区域出现一系列候选序列。当搜索用词不特异的时候会出来太多的结果,只显示500条。13PPT学习交流寻找promoter区域点击自己目的基因的结果链接,会出现该基因在染色体上的
6、位置(有时候会直接跳到选择genome,protein,mRNA那一页面,可能是在搜索词比较特异的情况写),继续 getout put选择 genome14PPT学习交流寻找promoter区域选择Promoter/Upstream by 2000 basesExons in upper case,everything else in lower case:外显子大写,其他小写15PPT学习交流寻找promoter区域小写字母为promoter区域大写字母为基因区域,与NCBI结果相同ATG为CDS区起始密码子16PPT学习交流寻找promoter区域 promoter/upstream前面的
7、框中打勾,一般的启动子长度大约为2kb左右,这个数字可以修改。为便于观察,可继续修改下面的几个选项。这里选择CDS大写。点击get sequence即可得到结果。17PPT学习交流寻找promoter区域UTR和upstream是分开的,CDS是大写的,可以看到起始码。Copy ATG以前的序列进行启动子分析。PCR以genome为模板。18PPT学习交流寻找promoter区域 UCSC ,点击左侧边栏的“Genome Browser”方法二19PPT学习交流寻找promoter区域以大鼠(rattus orvegicus)的结缔组织生长因子(CTGF)为例,在OrganismOrganis
8、m的下拉菜单中选择Rat,在assemblyassembly的下拉菜单中选择最新日期最新日期Nov.2004,在positionposition框中键入CTGF,image widthimage width选择默认即可,如下图所示:点击 Submit20PPT学习交流寻找promoter区域结果显示该基因的已知序列和相关mRNA序列,点击“Known Gene”中的第一个序列,21PPT学习交流寻找promoter区域出现包含这序列的图解概要为了获得这个区域更清晰的图像,可以点击紧靠zoom out的1.5X按钮,如下图:对于Known Genes(已知基因)和预测的基因路径来说,一般的惯例是
9、以一个高的垂直线或块状表示每个编码外显子,以短的垂直线或块状表示5端和3端非翻译区。起连接作用的内含子以非常细的线条表示。翻译的方向由沿着细线的箭头指示。22PPT学习交流寻找promoter区域本例的搜寻目的来说,默认设置不是理想的设置。按照视图利用页面底部的Track Controls按钮,将一些路径设置为hide模式(即不显示),其他设置为dense模式(所有资料密集在一条直线上);另一些路径设置为full模式(每个特征有一个分开的线条,最多达300)。23PPT学习交流寻找promoter区域Ensembl基因通过许多方法来预测,包括与已知mRNA和蛋白质进行同源性比较。若查询启动子区
10、域,我们需要将将Ensembl Genes选择为选择为dense 或或full模式模式,点击Refresh,即刷新,出现下图:图中多出了Ensembl Genes的预测路径,我们在红框中圈出。点击用于表达该序列的任何方块出现以下页面:24PPT学习交流寻找promoter区域点击红框中的条形深色方块(不是(不是Ensembl Genes文字)文字),25PPT学习交流寻找promoter区域选择并点击Link to sequence中的Genomic Sequence,即显示基因组序列26PPT学习交流寻找promoter区域将promoter改为2000bp,具体多少bp合适,可根据文献资料
11、和实验目的获取,有的基因可能在其上游戏几百bp就可以了,其他的几个选项分别为5端非编码区,编码区外显子,3端非编码区,内含子(内含子用绿框圈了起来)等。Sequence Formatting Options序列显示方式,选择上图红框里的内容,即外显子大写,即外显子大写,其余的小写,也就是说其余的小写,也就是说mRNA的外显子大写,其余上下游非编码区以及内含子均为小的外显子大写,其余上下游非编码区以及内含子均为小写。写。27PPT学习交流寻找promoter区域第一个大写字母以后就是第一个大写字母以后就是mRNA序列,之序列,之前的小写字母序列即为启动子区域了。前的小写字母序列即为启动子区域了。
12、28PPT学习交流第一个大写字母以后就是mRNA序列,但该序列包含外显子和内含子,是未经剪切修饰的mRNA,图中两段大写字母中间的小写字母便为内含了序列。寻找promoter区域29PPT学习交流Ensemble数据库30PPT学习交流寻找promoter区域 Ensembl:选择human 输入 ankh 选择Gene,点击 GeneID ENSG 点击左边的Export data 方法一31PPT学习交流寻找promoter区域 5 Flanking sequence 输入2000 Options for FASTA sequence中Genomic选5 Flanking sequence
13、,deselect all 点击Next(不管正反此法都适用)32PPT学习交流寻找promoter区域 得到2000 bases 的核苷酸序列33PPT学习交流寻找promoter区域Ensembl:在“Search Ensembl“标题下search后的下拉框中选中物种名homo sapiens(人),for框中输入基因名ankh,点击Go方法二34PPT学习交流寻找promoter区域找到所需要的gene,点击出来2个结果。本例中貌似是同一个。点击相应链接进入新页面。35PPT学习交流寻找promoter区域貌似有2个不同的转录本。点击Exon Info。36PPT学习交流寻找promo
14、ter区域新页面中即可看到5 upstream sequence。可以在Flanking sequence at either end of transcript后面的框中修改期望显示的序列长度。一般启动子最好选2kb。然后copy所显示的上游序列进行分析。37PPT学习交流Genecopoeia公司38PPT学习交流寻找promoter区域 点击search product,选择promoter clones,因为没有ANKH的信息,此处输入FIBRONECTIN 选择目的基因39PPT学习交流寻找promoter区域 点击click here to view the promoter se
15、quence 得到promoter信息40PPT学习交流EPD数据库41PPT学习交流寻找promoter区域SIB-EPD 网址:具体使用方法大同小异,就是输入物种名、基因名,限定启动子序列区域 42PPT学习交流预测 核心启动子区43PPT学习交流Transcript start site(TSS)附近-60bp到+40bp是核心启动子区核心启动子区,是精确转录必须的最小单元。CpG岛岛是一段200 bp 或更长的DNA 序列,核苷酸G+C 的含量较高,并且CpG双核苷酸的出现频率占G+C 含量的50%以上。许多脊椎动物的启动子区都与CpG岛的位置重合。44PPT学习交流常见的在线预测工具
16、有:真核启动子真核启动子数据库第数据库第85版版(The Eukaryotic Promoter Database Current Release 85,EPD,)转录起始位点数据库转录起始位点数据库:该数据库主要包括人,小鼠等常见生物的基因转录起始位点及该基因启动子的可能情况。Promoter scan(),Promoter2.0 Prediction Server()神经网络启动子预测器 NNPP()Soft Berry()Dragon Promoter Finder()(好像不能用了?)45PPT学习交流FirstEF()UROGENE(),可用于位点甲基化的预测CpGPlot/CpGR
17、eport/Isochore()CpGProD()CpG Island Searcher(;)CpG Prediction()/CpGCpG岛预测软件岛预测软件46PPT学习交流1、获取目的基因的mRNA序列,并且在NCBI的数据库中查获转录起始点;2、截取转录起始点为中心,上下约各1000bp,若在此范围内出现CDS,可到翻译起始点终止;3、利用在线软件进行分析;PromoterInspectorPromoterScanPromoter 2.0NNPPEMBOSS CpgplotCpG Islands PredictionCpG Islands Prediction本人是采取多种软件结合的方法,由于proscan和promoter 2.0的假阳性率较高,仅作为参考,而promoter inspector的特异性较高,结果比较可信。同时,利用CpG岛预测,作为辅助参考4、最后,可以找到小鼠的同源区,进行同源性比较,启动子区域一定是高保守区!5、到此,可以初步预测启动子区域的范围了。47PPT学习交流