1、转录组学基本研究方法陈军2011.5.10上堂课内容 mRNA检测技术 核酸杂交技术 原位杂交 逆转录PCR(Reverse transcription PCR,RT-PCR)RACE 全长cDNA文库 Real-time PCR核酸杂交northern blot 放射性同位素标记物-32P-dCTP灵敏度达0.01pg 非放射性标记物地高辛灵敏度达0.1pgDIG-dUTP-通过酶促反应掺入到DNA/RNA中去制成探针-杂交-加抗地高辛-酶的复合物加底物显色探针制备探测不同条件下的基因表达变化B.WITEK-ZAWADA,200328S rRNA18S rRNA FISH:Fluoresce
2、nce In Situ Hybridization原位杂交1原位杂交3Moroz LL,2006 逆转录酶:依赖于RNA的DNA聚合酶。这种酶是 1970 年美国科学家特明(H.M.Temin)和巴尔的摩(D.Baltimore)分别于动物致癌 RNA 病毒中发现,他们并因此获得 1975 年度诺贝尔生理学或医学奖。逆转录(Reverse transcription)RT-PCR是将RNA的反转录(RT)和cDNA的聚合酶链式扩增(PCR)相结合的技术。首先经反转录酶的作用从RNA合成 cDNA,再以cDNA为模板,扩增合成目的片段。RT-PCR 以mRNA的polyA为锚定3 RACE原理上
3、比3RACE要稍微复杂要点:逆转录酶MMLV合成cDNA具有加尾特性,即在合成的cDNA链3加上3-4个dCTP,而且当存在帽子结构时该酶的加尾活性最高然后以这段polyC为锚定5 RACE Real-time PCR 转录组学基本研究方法 概念 基于测序的转录组学方法 EST 全长cDNA文库 生物信息学分析 基于杂交的转录组学方法 基因芯片 生物信息学分析本堂课内容Ct:threshold cycleReal-time PCR 基本原理SYBR-Green荧光染料标定dsDNA理论上N1/N2=2Ct实际上PCR扩增的效率并非100%CtN1N2什么是转录组、转录组学 转录组(转录组(Tr
4、anscriptom):细胞所包含):细胞所包含mRNA的总和。的总和。与基因组不同的是,转录组的定义中包含了时间和空间的限定。转录组学(转录组学(Transcriptomics):):研究细胞研究细胞在某一功能状态下所含在某一功能状态下所含mRNA的类型与拷的类型与拷贝数;比较不同功能状态下贝数;比较不同功能状态下mRNA表达的表达的变化,搜寻与功能状态变化紧密相关的重变化,搜寻与功能状态变化紧密相关的重要要基因群基因群。转录组学的研究方法 基于测序基于测序:全长cDNA文库、EST文库、SAGE 基于杂交基于杂交:cDNA芯片(GeneChip,microarray)基因表达聚类基因表达聚
5、类cDNA文库 cDNA:为具有与某RNA链呈互补的碱基序列的单链DNA即complementary DNA之缩写。以mRNA为模板,经反转录酶在体外反转录成cDNA,与适当的载体(常用噬菌体或质粒载体)连接后转化受体菌,则每个细菌含有一段cDNA,并能繁殖扩增,这样包含着细胞全部mRNA信息的cDNA克隆集合称为该组织细胞的cDNA文库文库。全长cDNA文库构建EST 90年代初Craig Venter 提出了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时代的开始(Adams et al.,1991)。EST(Expressed Sequence tags,表达
6、序列标签)是从已建好的cDNA库中随机抽取克隆,从5末端或3末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。1993年前EST数据收录于GenBank,EBI和DDBJ。1993年NCBI(National Center of Biotechnology Information)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。95年中期GenBank 中EST的数目超过了非EST的数目。现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中序列数的60%.EST相关数据库相关数据库 储存EST原始数据的一级数据
7、库 EMBL GenBank(dbEST)DDBJ UniGene(http:/www.ncbi.nlm.nih.gov/UniGene)TIGR Gene Indices(http:/www.tigr.org/tdb/tgi/)STACK(http:/www.sanbi.ac.za/Dbases.html)对EST进行聚类拼接的二级数据库EST已经被广泛的应用于基因识别,因为EST的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguski et al.,1994).在同一物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员(paralogs)(
8、paralogs)。在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因(orthologs)(orthologs)。已知基因的不同剪切模式的搜寻。已知基因的不同剪切模式的搜寻。【注:不过很难确注:不过很难确定一个新的序列是由于交替剪切产生的或是由于定一个新的序列是由于交替剪切产生的或是由于cDNAcDNA文文库中污染了基因组库中污染了基因组DNADNA序列序列(Wolfsberg et al.,1997)(Wolfsberg et al.,1997)】EST与基因识别因为EST序列是从某特定组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析
9、特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。CGAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:Digital Gene Expression Displayer(DGED)cDNA xProfiler利用利用EST大规模分析基因表达水平大规模分析基因表达
10、水平EST技术流程:一、cDNA文库构建 非标准化的非标准化的cDNA文库的构建。文库的构建。经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNA文库。文库。Oligo d(T)cDNA文库。文库。随机引物随机引物cDNA文库。文库。二、序列测定及数据分析 ESTEST软件平台软件平台EST序列库/序列的质量检查测序量监控聚类和拼接检查(借助于基因组信息)全长ORF寻找发现全长基因研究表达基因概况的主要实验手段(DNA chip、proteomics的先驱)功能分类表达量分析SAGE的先驱交替剪接检测EST特有信息测序方向的选择根据不同的实验目的选择不同的测序方向:5 5端端 5上游非翻译
11、区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好,大部分EST计划都是选用5端进行测序的,而且从5端测序有利于将EST拼接成较长的基因序列。3 3端端 3端mRNA有一20200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少但研究也表明,10的mRNA3端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为STS标记 两端测序两端测序 获得更全面的信息。基因注释及功能分类注释:注释:序列联配 Blastn,Blastx 蛋白质功能域搜索(二结构比对)Pfam Interproscan 较好匹配Int
12、erproScanNt BlastnEST sequencesNr Blastx完成注释无理想匹配较好匹配完成注释无理想匹配较好匹配无理想匹配New sequences域的注释后 续 分 析常用的基因注释流程 手工分类手工分类 大部分以大部分以Adams 95年的文章中的采用分类体系为标准。年的文章中的采用分类体系为标准。【Adams.MD,et al.Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence.Natu
13、re.1995 377(6547 Suppl):3-174】计算机批量处理计算机批量处理 利用标准基因词汇体系Gene Ontology,进行近似的分类(分子功能、生物学过程、分子组分)。(基因产物直系同源簇的分析(基因产物直系同源簇的分析(COG:Cluster of Orthologous Groups of proteins)()基因功能分类基因功能分类 表1:家猪脂肪组织的已知基因功能分类表2:猪脂肪组织与猪胚胎胸腺组织和猪甲状腺组织表达谱的比较参考文献:1、猪脂肪组织表达序列标签(ESTs)大规模测序及分析 邓亚军等,遗传学报,Vol.31,NO.11,2004 2、两种家猪心脏组织
14、基因表达谱的分析 曾燕舞等,遗传学报,Vol.31,No.6,2004 EST的代谢途径分析(KEGG)http:/www.genome.ad.jp/kegg/后续分析 比较基因组学分析 基因表达谱分析 新基因研究 基因可变剪切分析 实验验证 MicroArray GeneChip RTPCR Northern blotting EST很短,没有给出完整的表达序列;低丰度表达基因不易获得;由于只是一轮测序结果,出错率达2%-5%;有时有外源的mRNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。EST数据的不足基因芯片Spotted Microarray
15、s cDNA Arrays Oligo Arrays In Situ Oligo Synthesis PhotosynthesisPlaner surfaceMicrofluidics chip E-field synthesisIntegrated Chips Integrated uF,microarray and detection chips with PCR,fluorescence or e-detectionMicrofluidics Plastics Ceramics Silicon Other materials不同的生物芯片技术平台不同的生物芯片技术平台点样芯片原位合成芯片
16、微流体芯片整合型芯片基因芯片的探针基因芯片的探针Tagged RNA fragments flushed over arrayLaser activation of fluorescent tagsOptical scanning of hybridization intensities基因芯片的杂交实验基因芯片的杂交实验点样芯片点样芯片非接触式非接触式接触式接触式点样芯片 预先合成探针预先合成探针 Oligo探针 (GoArrays)PCR产物探针 (Primegens)点制芯片点制芯片 预先合成好的探针通过类似于喷墨打印机的技术预先合成好的探针通过类似于喷墨打印机的技术喷射到玻璃基片表面,
17、或者用针头点在片基上。喷射到玻璃基片表面,或者用针头点在片基上。芯片探针的设计 PCR产物设计软件(Primegens)http:/compbio.ornl.gov/structure/primegens/Oligo芯片设计软件(GoArrays)http:/www.isima.fr/bioinfo/goarrays/点制过程Selectively expose array sites to lightFlush chips surface with solution of protected A,C,G,TAffymetrix 基因芯片合成原理基因芯片合成原理光源遮蔽板芯片array pro
18、besA 33 arrayCGACGACACGAGCGAGCNucleotide Deposition Sequence ACGA Mask 1AAAAA探针合成探针合成array probesA 33 arrayCGACGACACGAGCGAGCNucleotide Deposition Sequence ACGC Mask 2CCCCCCAAAAA探针合成探针合成A 33 arrayCGACGACACGAGCGAGCNucleotide Deposition Sequence ACGG Mask 3CCCCCCAAAAAGGGGGGCGACGACGAGCGAGCAC探针合成探针合成完成的芯
19、片完成的芯片L LT TL LL LL LC CL LL LL LL LL LL LL LL LA AC CT TT TT TA AC CC CC CC CC CC CG GC CC CG GA AT TA AT TC CA AT TC CA AT TC CG GA AC CG GA AA AC CT TA AC CT TA AG GC CA AG GC CT TT TO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PL LT TL LL LL LC CL LL LL LL LL LL LL LL L
20、A AC CT TT TT TA AC CC CC CC CC CC CG GC CC CG GA AT TA AT TC CA AT TC CA AT TC CG GA AC CG GA AA AC CT TA AC CT TA AG GC CA AG GC CT TT TO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PL LT TL LL LL LC CL LL LL LL LL LL LL LL LA AC CT TT TT TA AC CC CC CC CC CC CG GC CC CG G
21、A AT TA AT TC CA AT TC CA AT TC CG GA AC CG GA AA AC CT TA AC CT TA AG GC CA AG GC CT TT TO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP PO OP P全自动芯片合成全自动芯片合成 For growth step:one type of monomer is coupled to specific sites deprotected using PGA.Computer generated light irradiation
22、 patternsa bReactorDMDHg Lamp cCooledCCD DNA SynthesizerIrradiation monitor样本的处理方法 按照样本分按照样本分 DNA、RNA、DNA-蛋白复合体 按照标记信号分子划分按照标记信号分子划分 荧光燃料、生物素、放射性元素 按照标记方法分按照标记方法分 cDNA 直接标记(间接标记)、PCR扩增标记、末端标记Cy3激发波长532nmCy5激发波长635nm芯片实验流程1、分离RNA(10g)2、标记3、杂交(预杂交)4、洗片5、扫描图像扫描Cy5Cy3归一化差异基因筛选 原理:采用cy3/cy5的ratio值对差异基因进行
23、 判断,或采用统计方法对差异基因进行统计推断。方法:倍数法:cy3/cy5比值大于2或者小于 0.5 Z值法:Z=(X-)/作用:发现两个样本间的差异表达基因,便于后续分析。基因表达聚类分析 转录组学方法尤其是DNA微阵列的应用导致基因表达数据爆炸性增长。如何对这些数据进行分析,从中提取有意义的生物学信息,已成为转录组学的研究热点和技术瓶颈。聚类分析技术能将待处理的对象分配到相应的聚类中,使得同一聚类中的对象差别较小,不同聚类之间的对象差别较大。聚类分析技术在转录组学研究中,非常适合大批量分析基因群的功能。基因表达聚类的数据表现Systematic variation in gene expression patterns in human cancer cell lines.Nature,2000,Ross et al.聚类的类型 Hierarchical Clustering Link similar genes,build up to a tree of all K-means Self Organizing Maps(SOM)Principle Component(PCA)