1、第七章 表达序列分析生物信息学生物信息学 表达序列标签表达序列标签(Expressed Sequence Tag,EST)是由大规模随机挑取的是由大规模随机挑取的cDNA cDNA 克隆克隆测序得到的组织或细胞基因组的表测序得到的组织或细胞基因组的表达序列标签达序列标签表达序列标签(EST)EST的概念p EST EST是指通过对是指通过对cDNA cDNA 文库文库随机随机挑取的克隆进行挑取的克隆进行大规模测序所获得的大规模测序所获得的cDNA cDNA 的的55或或33端序列,长端序列,长度一般为度一般为60 60 500 bp.500 bp.p EST EST 是基因的是基因的“窗口窗口
2、”,可代表生物体某种组织,可代表生物体某种组织某一时间的一个表达基因,故被称之为某一时间的一个表达基因,故被称之为“表达序列表达序列标记标记”EST 技术的形成和发展 p 上世纪上世纪8080年代,对年代,对cDNAcDNA序列进行大规模测序的想序列进行大规模测序的想法就曾提出,但反对者认为法就曾提出,但反对者认为cDNAcDNA序列缺少重要的基序列缺少重要的基因调控区域的信息。因调控区域的信息。p ESTEST技术应用的首次报道是技术应用的首次报道是Adams(1991)Adams(1991)等从三种等从三种人脑组织人脑组织cDNAcDNA文库随机挑取文库随机挑取609609个克隆进行测序个
3、克隆进行测序,得得到一组人脑组织的到一组人脑组织的ESTEST,分析结果表明其中,分析结果表明其中3636个代表个代表已知基因,已知基因,337337个代表未知基因。个代表未知基因。p 运用自动化测序技术运用自动化测序技术,大规模生产大规模生产EST EST 序列。序列。http:/www.ncbi.nlm.nih.gov/projects/dbEST/体内:翻译体外研究:反转录体外研究:反转录连接,转化连接,转化EST技术流程 非标准化的非标准化的cDNAcDNA文库的构建。文库的构建。经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNAcDNA文库。文库。A.cDNA文库构建cDNA文
4、库的构建B.序列测定及数据分析测序方向的原则ESTEST编码蛋白质的信息应满足同源序列编码蛋白质的信息应满足同源序列比较分析比较分析决定于用决定于用ESTEST来进行研究的目的来进行研究的目的测序方向的选择 55端端 55上游非翻译区较短且含有较多的调控信息。一般在寻找新上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用基因或研究基因差异表达时用55端端ESTEST较好,而且从较好,而且从55端测序端测序有利于将有利于将ESTEST拼接成较长的基因序列。拼接成较长的基因序列。33端端 33端端mRNAmRNA有一有一2020200bp200bp的的polyApolyA
5、结构,同时靠近结构,同时靠近ployAployA又有特又有特异性的非编码区,所以从异性的非编码区,所以从33端测得端测得ESTEST含有编码的信息较少,含有编码的信息较少,但研究非编码区有品种的特异性,可以作为但研究非编码区有品种的特异性,可以作为STSSTS标记标记 两端测序两端测序 获得更全面的信息。获得更全面的信息。(1)(1)去除低质量的序列去除低质量的序列(2)(2)应用应用BLASTBLAST、RepeatMaskerRepeatMasker或或CrossmatchCrossmatch遮蔽数据组中不遮蔽数据组中不属于表达的基因的赝象序列属于表达的基因的赝象序列(artifactua
6、l sequences)(artifactual sequences)。载体序列载体序列 重复序列重复序列污染序列污染序列 (如核糖体如核糖体RNARNA、细菌或其它物种的基因组、细菌或其它物种的基因组DNADNA等等)(3)(3)去除其中的镶嵌克隆:去除其中的镶嵌克隆:Back-to-back poly(A)+tails;Linker-Back-to-back poly(A)+tails;Linker-to-linker in middle of the sequence.to-linker in middle of the sequence.(4)(4)最后去除长度小于最后去除长度小于10
7、0bp100bp的序列。的序列。序列前处理 聚类的目的就是将来自同一个基因或同一个转录本的具有聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分重叠部分(overlapping)(overlapping)的的ESTsESTs整合至单一的簇整合至单一的簇(cluster)(cluster)中。中。聚类作用:聚类作用:v 产生较长的一致性序列产生较长的一致性序列(consensus sequence)(consensus sequence),用于注释。,用于注释。v 降低数据的冗余,纠正错误数据。降低数据的冗余,纠正错误数据。v 可以用于检测选择性剪切。可以用于检测选择性剪切。ESTsES
8、Ts聚类的数据库主要有三个:聚类的数据库主要有三个:v UniGene UniGene()v TIGR Gene Indices TIGR Gene Indices()v STACK STACK ESTs的聚类和拼接 loose clusteringloose clustering 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTsESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因的转录本每一类中可能包含旁系同源基因的转录本 序列的保真度低序列的保真度低 strin
9、gent clusteringstringent clustering 产生的一致性序列比较短产生的一致性序列比较短 表达基因表达基因ESTsESTs数据的覆盖率低数据的覆盖率低 因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少 序列保真度高序列保真度高不严格的和严格的聚类利用cDNA克隆的信息和5、3端的序列信息,不同的Cluster可以连接在一起。Cluster的拼接常用的拼接软件 Phrap (http:/www.phrap.org/phredphrapconsed.html)CAP3(http:/pbil.univ-lyon1.fr/cap3.php)d2_cl
10、uster(http:/www.sanbi.ac.za/)(1)(1)注释:注释:序列联配 Blastn:search nucleotide databases using a nucleotide query.Blastx:search protein databases using a translated nucleotide query.蛋白质功能域搜索(二结构比对)Pfam:The Pfam database is a large collection of protein families,each represented by multiple sequence alignmen
11、ts and hidden Markov models.Interpro:InterPro is an integrated database of predictive protein signatures used for the classification and automatic annotation of proteins and genomes.基因注释及功能分类(2)(2)基因功能分类:基因功能分类:手工分类手工分类 大部分以大部分以Adams 1995Adams 1995年的文章中的采用分类体系为标准。年的文章中的采用分类体系为标准。【Adams.MD,et al.Init
12、ial assessment of human gene diversity Adams.MD,et al.Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of and expression patterns based upon 83 million nucleotides of cDNA sequence.Nature.1995 377(6547 Suppl):3-174 cDNA sequence.Nature.1995 377(654
13、7 Suppl):3-174】计算机批量处理计算机批量处理 利用标准基因词汇体系利用标准基因词汇体系Gene OntologyGene Ontology,进行近进行近似的分类。似的分类。(基因注释及功能分类基因本体(Gene Ontology,GO)http:/www.geneontology.org/GO.downloads.annotations.shtml 比较基因组学分析比较基因组学分析 基因表达谱分析基因表达谱分析 新基因研究新基因研究 基因可变剪切分析基因可变剪切分析 实验验证实验验证 MicroArray MicroArray GeneChip GeneChip RT-PCR R
14、T-PCR Northern blotting Northern blotting后续分析 表达序列标签(EST)数据的应用p 利用对某一特异组织或某一生长发育阶段的利用对某一特异组织或某一生长发育阶段的cDNA cDNA 文文库库,进行随机部分测序所得的进行随机部分测序所得的EST s,EST s,作为查询项在作为查询项在dbEST dbEST 中进行中进行同源查找同源查找,同时将由同时将由EST s EST s 序列按密码子推出的氨序列按密码子推出的氨基酸序列作为查询项在蛋白质信息资源数据库中进行基酸序列作为查询项在蛋白质信息资源数据库中进行同同源查找源查找。p 如果该如果该EST s E
15、ST s 序列在以上数据库中序列在以上数据库中存在同源序列存在同源序列,可对可对该该EST s EST s 所代表基因的功能进行分析及鉴定。如果所代表基因的功能进行分析及鉴定。如果不存在不存在同源序列同源序列,则该则该EST s EST s 所代表的基因有可能是所代表的基因有可能是新基因新基因。1.ESTs与新基因识别p 转录图谱为染色体转录图谱为染色体DNA DNA 某一区段内,所有可转录序列某一区段内,所有可转录序列的分布图,的分布图,ESTsESTs作为转录基因的产物,可直接用于构建作为转录基因的产物,可直接用于构建转录图谱转录图谱。p 由于由于ESTsESTs具有很高的多态性可用作分子
16、标记,用于建具有很高的多态性可用作分子标记,用于建立立遗传连锁图谱遗传连锁图谱。p 建染色体物理图谱需要大量的单拷贝建染色体物理图谱需要大量的单拷贝序列标记位点序列标记位点(STS)(STS)作为界标,由于大多数基因是单拷贝的,因此作为界标,由于大多数基因是单拷贝的,因此ESTsESTs可以充当可以充当STSSTS构建构建物理图谱物理图谱。2.ESTs与遗传学图谱的构建序列标签位点序列标签位点(sequence-tagged sites,STS)(sequence-tagged sites,STS):已知核苷酸序列的:已知核苷酸序列的DNADNA片段,是基因组中任何单拷贝的短片段,是基因组中任
17、何单拷贝的短DNADNA序列,长度在序列,长度在100100500bp500bp之间之间来自来自mRNAmRNA的的33非翻译区的非翻译区的ESTsESTs更适合做为更适合做为STSsSTSs,用于基因图,用于基因图谱的绘制。谱的绘制。优点优点:由于没有内含子的存在,因此在由于没有内含子的存在,因此在cDNAcDNA及基因组模板中其及基因组模板中其PCRPCR产物的大小相同。产物的大小相同。与编码区具有很强的保守性不同,与编码区具有很强的保守性不同,3UTRs3UTRs序列的保守性序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相较差,因此很容易将单个基因与编码序列关系非常紧密的
18、相似基因家族成员分开。似基因家族成员分开。2.ESTs与遗传学图谱的构建p 由于由于ESTEST来源于来源于cDNAcDNA,因此每一条,因此每一条ESTEST均代表均代表了文库建立时所采样品特定发育时期和生理状态下了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。的一个基因的部分序列。p 大于大于9090的已经注释的基因都能在的已经注释的基因都能在ESTEST库中检测库中检测到。到。p ESTsESTs可以做为可以做为其它其它基因预测算法的补充。基因预测算法的补充。3.ESTs与基因预测p 通过对通过对ESTsESTs重叠群组装,对大量重复的重叠群组装,对大量重复的ESTsE
19、STs进行序列比较,进行序列比较,可以从可以从ESTsESTs数据库中筛选另一种以测序为核心的分子标记数据库中筛选另一种以测序为核心的分子标记SNPsSNPs。来自不同个体的来自不同个体的ESTsESTs可用于发现基因组中转录区域存可用于发现基因组中转录区域存在的在的SNPsSNPs。p 注意区别真正的注意区别真正的SNPsSNPs和由于测序错误而引起的本身不存在和由于测序错误而引起的本身不存在的的SNPsSNPs。解决这一问题可以通过:。解决这一问题可以通过:提高提高ESTsESTs分析的准确性。分析的准确性。对所发现的对所发现的SNPsSNPs进行实验验证。进行实验验证。4.ESTs与单核
20、苷酸多态性(SNPs)p 某一时期基因表达的数量通常占全部基因的某一时期基因表达的数量通常占全部基因的15%,15%,细胞的分化细胞的分化由基因特异性的时空表达决定。利用由基因特异性的时空表达决定。利用未经标准化未经标准化和和差减杂交差减杂交的的cDNAcDNA文库文库ESTEST可以分析特定组织的可以分析特定组织的基因表达谱基因表达谱。p 近年来对近年来对基因差异表达基因差异表达研究的方法有研究的方法有ESTsESTs法、差减杂交法法、差减杂交法和和mRNA mRNA 差异显示技术。其中以差异显示技术。其中以ESTs ESTs 法稳定性最高法稳定性最高,分析规模分析规模最大。最大。5.EST
21、s与基因的差异表达 癌症基因组解析计划癌症基因组解析计划 (Cancer Genome Anatomy Project Cancer Genome Anatomy Project,CGAP)CGAP)为研究癌症的分子机理,美国国家癌症研究所为研究癌症的分子机理,美国国家癌症研究所NCINCI的的CGAPCGAP计划,构建了很多正常的或是癌症前期的计划,构建了很多正常的或是癌症前期的和癌症后期的组织的和癌症后期的组织的cDNAcDNA文库,并进行了大规模文库,并进行了大规模的的ESTEST测序。测序。CGAPCGAP网站提供了多种工具用以分析网站提供了多种工具用以分析不同文库间基因表达的差异,不
22、同文库间基因表达的差异,如:如:Digital Gene Expression Displayer(DGED)Digital Gene Expression Displayer(DGED)cDNA xProfilercDNA xProfiler5.ESTs与基因的差异表达 DNA DNA 芯片是指将许多许多特定的芯片是指将许多许多特定的DNA DNA 寡核苷酸或寡核苷酸或DNA DNA 片片段段(包括包括cDNA)cDNA)固定在芯片的每个预先设置的区域内固定在芯片的每个预先设置的区域内,将待将待测样本标记后同芯片进行杂交测样本标记后同芯片进行杂交,通过杂交信息的分析来检测通过杂交信息的分析来
23、检测基因的功能和基因组研究的分析系统。基因的功能和基因组研究的分析系统。ESTs ESTs 是用于制备是用于制备DNA DNA 芯片的很好基因资源。由于芯片的很好基因资源。由于EST s EST s 直直接来源于接来源于cDNA,cDNA,因此因此EST s EST s 文库可代表文库可代表cDNA cDNA 文库用于制文库用于制备备DNA DNA 芯片所需的探针库。芯片所需的探针库。6.ESTs与DNA芯片的制备绿色绿色:基因表达基因表达红色红色:基因表达基因表达 黄色黄色:基因表达相当基因表达相当基因芯片或微阵列技术流程.Clone反转录(可选)反转录(可选)读取光密度读取光密度聚类分析(
24、非同源功能注释)聚类分析(非同源功能注释)标记标记杂交杂交反转录反转录EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表达量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发现的研究已发现的基因基因)连接,连接,转化转化原位合成 基因表达系列分析基因表达系列分析(Serial Analysis of Gene(Serial Analysis of Gene Expression,SAGE)Expression,SAGE)技术技术,能同时对上千个转能同时对上千个转录物进行研究,是一种用于定量及高通量基录物进行
25、研究,是一种用于定量及高通量基因表达分析的实验方法。因表达分析的实验方法。7.ESTs与基因表达系列分析 SAGESAGE的原理的原理:(1 1)一个)一个9-14 9-14 碱基的短核苷酸序列标签包含有足够的信息,碱基的短核苷酸序列标签包含有足够的信息,能够唯一确认一种转录物。一个能够唯一确认一种转录物。一个9 9 碱基顺序能够分辨碱基顺序能够分辨262,144 262,144 个不同的转录物个不同的转录物,而人类基因组估计仅能编码而人类基因组估计仅能编码80,00080,000种转录物,所以理论上每一个种转录物,所以理论上每一个9 9 碱基标签能够代表碱基标签能够代表一种转录物的特征序列。
26、一种转录物的特征序列。(2 2)将短片段标签相互连接形成长的)将短片段标签相互连接形成长的DNA DNA 分子,对该克分子,对该克隆进行测序得到大量连续的单个标签,可对数以千计的隆进行测序得到大量连续的单个标签,可对数以千计的mRNA mRNA 转录本进行分析。转录本进行分析。(3 3)特定的序列标签的出现次数就反应了对应的基因的)特定的序列标签的出现次数就反应了对应的基因的表达丰度。表达丰度。7.ESTs与基因表达系列分析反转录反转录酶切酶切连接连接测序测序单条测序对单条测序对30304040条条ESTEST测序测序分析分析由于采样量大大提高,可对低表达基因进行分析:由于采样量大大提高,可对
27、低表达基因进行分析:基因表达量分析、寻找新基因等等基因表达量分析、寻找新基因等等SAGE技术流程8.电子克隆利用计算机技术,依托现有的网络资源利用计算机技术,依托现有的网络资源ESTEST数据库数据库、核苷酸数据库、蛋白质数据库、基因组数据库等、核苷酸数据库、蛋白质数据库、基因组数据库等,采用生物信息学方法,采用生物信息学方法(包括同源性检索、聚类、序包括同源性检索、聚类、序列拼装等列拼装等)延伸延伸ESTEST序列序列,以期获得部分乃至全长,以期获得部分乃至全长cDNAcDNA序列的一种方法。序列的一种方法。53estSearch in est databaseSearch in est d
28、atabaseSearch in est databaseSearch in est database53Complete cDNA简单电子克隆模式图简单电子克隆模式图 p ESTs ESTs很短,没有给出完整的表达序列。很短,没有给出完整的表达序列。p 低丰度表达基因不易获得。低丰度表达基因不易获得。p 由于只是一轮测序结果,出错率达由于只是一轮测序结果,出错率达2%-5%2%-5%。p 有时有载体序列和核外有时有载体序列和核外mRNAmRNA来源的来源的cDNAcDNA污染或污染或是基因组是基因组DNADNA的污染。的污染。p 有时出现镶嵌克隆。有时出现镶嵌克隆。p 序列的冗余,导致所需要处理的数据量很大。序列的冗余,导致所需要处理的数据量很大。ESTs数据的不足单核苷酸多态性(SNP)(single nucleotide polymorphism)在基因组水平上由在基因组水平上由单个核苷酸单个核苷酸的的变异变异所引起的所引起的DNADNA序列多态性序列多态性