1、1第七章第七章 基因组分析基因组分析23基因组基因组 转录组转录组蛋白质组蛋白质组化学生物学化学生物学4r 1.基因组的结构与内容基因组的结构与内容r 2.基因组注释基因组注释r 3.比较基因组学比较基因组学r 4.基因基因/蛋白质的功能预测蛋白质的功能预测5r(1)基因的结构基因的结构r(2)mRNA:可变剪切:可变剪切r(3)蛋白质:翻译后修饰蛋白质:翻译后修饰r(4)相互作用网络:基因、蛋白质、小分子之间相互作用网络:基因、蛋白质、小分子之间的相互作用的相互作用r(5)非编码区非编码区|a.功能元件功能元件:转录因子结合位点;启动子转录因子结合位点;启动子|b.Non-coding RN
2、A:MicroRNA|c.转座子转座子|d.重复片段重复片段|e.伪基因伪基因(Pseudogene)67基因组大小基因组大小&基因数基因数8r 1.基因数量的变化,无法解释生物学功能、调控机基因数量的变化,无法解释生物学功能、调控机理以及物种多样性和复杂性的巨大变化理以及物种多样性和复杂性的巨大变化r 2.当前解释:蛋白质组的多样性和复杂性当前解释:蛋白质组的多样性和复杂性-物种的物种的多样性和复杂性;多样性和复杂性;10,000,000种蛋白质分子种蛋白质分子r 3.两种观点:两种观点:|a.转录后层面,转录后层面,mRNA剪切,产生拼接异构体剪切,产生拼接异构体|b.蛋白质层面,蛋白质序
3、列上一个或多个位点上发生的蛋白质层面,蛋白质序列上一个或多个位点上发生的翻译后修饰翻译后修饰910isoform 1isoform 2isoform 3mRNA Splicing转录后层面:转录后层面:mRNA Splicing11PhosphorylationSumoylationPalmitoylationAcetylationUbiquitination蛋白质层面:翻译后修饰蛋白质层面:翻译后修饰12蛋白质蛋白质-蛋白蛋白质相互作用质相互作用网络网络13G1/S检验点:检验点:有调控方向有调控方向14r a.功能元件功能元件:转录因子结合位点;启动转录因子结合位点;启动子子r b.Non
4、-coding RNA:MicroRNAr c.转座子转座子r d.重复片段重复片段r e.伪基因伪基因(Pseudogene)1516CRM:cis-regulatory modules17Gal4pKruppel18r Exon splicing enhancer(ESE)and silencer(ESS)r Intron splicing enhancer(ISE)and silencer(ISS)19r 1.不翻译成蛋白质,具有重要的调控功能不翻译成蛋白质,具有重要的调控功能r 2.分类:分类:|a.transfer RNA(tRNA)|b.ribosomal RNA(rRNA)|c.
5、snoRNAs,|d.microRNAs,|e.siRNAs|f.piRNAs:与与piwi相互作用的相互作用的RNA|g.long ncRNAs:Xist|2021r snoRNAs:Small nucleolar RNAs;介导介导其他其他RNA分子的化学修饰,例如甲基化分子的化学修饰,例如甲基化22r 1.长度长度21-23bpr 2.调控基因的表达调控基因的表达r 3.pre-miRNA:70bp23r 转座子:在基因组中能够移动位置的转座子:在基因组中能够移动位置的DNA序列序列24r(1)基因组序列的拼装基因组序列的拼装r(2)基因预测基因预测r(3)可变剪切的预测可变剪切的预测r
6、(4)非编码的功能元件的预测非编码的功能元件的预测25262728r 直接的,序列高度匹配直接的,序列高度匹配|同一或近缘物种中,与同一或近缘物种中,与EST,cDNA,蛋白质蛋白质等序列完美或近似完美的匹配等序列完美或近似完美的匹配r 间接的,基于统计学的间接的,基于统计学的|序列比对序列比对(Homology)|从头预测从头预测(ab initio)a.以上两种方法的结合以上两种方法的结合295335 1-100 Mbp 5335 1-1000 kbp exons(cds&utr)/introns(102-103 bp)(102-105 bp)Polyadenylation sitepro
7、moter(103 bp)enhancers(101-102 bp)other regulatory sequences (101-102 bp)30r 1.ORF(Open Reading Frame):从从AUG开始,至开始,至stop codon终止终止r 2.Codon Usage:CAI r 31Kulp,D.,PhD Thesis,UCSC 200332r 将将EST,cDNA序列比对到基因组上序列比对到基因组上3334r(1)有功能的通常保守有功能的通常保守r(2)例:例:SUMO底物的预测:底物的预测:|a.SUMO化位点存在化位点存在-K-X-E模体模体|b.核定位信号核定位
8、信号(NLS)|c.人和小鼠中,人和小鼠中,SUMO化位点应当保守化位点应当保守|d.功能分析:功能分析:Gene Ontologyr(3)分析结果:分析结果:|a.2,683个人个人-小鼠保守的小鼠保守的SUMO化底物化底物|b.SUMO化的功能:参与转录调控、信号转导等化的功能:参与转录调控、信号转导等35r 1.描述基因描述基因/蛋白质的功能蛋白质的功能r 2.三类术语三类术语(Term):|a.Cellular component:在哪里?在哪里?|b.Biological process:干什么?干什么?|c.Molecular function:我是谁?:我是谁?363738394
9、0r In human proteome:r DNA binding(GO:0003677):2,255 r Transcription factor activity(GO:0003700):1,102 r regulation of transcription,DNA-dependent(GO:0006355):2,174r In SUMO Substrates:r DNA binding(GO:0003677):530 r Transcription factor activity(GO:0003700):304 r regulation of transcription,DNA-dep
10、endent(GO:0006355):510r 因此,可以估计因此,可以估计1/4 1/3的转录因子受到的转录因子受到SUMO化的调控化的调控41r(1)一级序列的比较:相似的序列具有相似一级序列的比较:相似的序列具有相似的功能的功能r(2)保守的功能结构域:保守的功能保守的功能结构域:保守的功能r(3)三级结构的比较:相似的结构具有相似三级结构的比较:相似的结构具有相似的功能的功能r(4)蛋白质相互作用的预测蛋白质相互作用的预测42r 1.同源物的鉴定:不同物种中的直系、旁系同源物的鉴定:不同物种中的直系、旁系同源物的预测同源物的预测r 2.主要工具:主要工具:BLAST43r 1.保守的功
11、能结构域:保守的功能保守的功能结构域:保守的功能r 2.常用工具:常用工具:工具工具网址网址Interprohttp:/www.ebi.ac.uk/interpro/Pfamhttp:/pfam.sanger.ac.uk/SMARThttp:/smart.embl.de/PROSITEhttp:/www.expasy.org/prosite/ProDomhttp:/prodom.prabi.fr/prodom/current/html/home.phpCDDhttp:/www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi4445r 1.Ubiquitin:泛
12、素,主要负责蛋白质的降解泛素,主要负责蛋白质的降解r 2.SUMO:小的类泛素蛋白质,基因转录:小的类泛素蛋白质,基因转录&信号通路信号通路r 3.催化反应通路的分子机制相似催化反应通路的分子机制相似r 4.序列相似性:不显著!序列相似性:不显著!464748SUMOUbiquitin49r 1.基因组信息基因组信息(Genomic information)|A.Gene fusion and fission|B.Conservation of gene order/bidirectional pairs|C.Phylogenetic profiler 2.关联的序列特征关联的序列特征(Cor
13、related sequence signatures)r 3.mRNA co-expressionr 4.Literature mining50ABABQuery proteinLinked proteinRosetta proteinMarcotte EM et al.,Science 1999,285:751-753;Enright AJ et al.,Nature,1999,402:86-90Genome AGenome B51Gene order pairsBidirectional transcribed gene pairsDandekar T et al.,TIBS,1998,
14、23:324-328;Overbeek R et al.,PNAS,1999,96:2896-2901;Korbel JO et al.,NBT,2004,22:911-91752Pellegrini M et al.,PNAS,1999,96:4285-4288;Huynen MA et al.,PNAS,1998,95:5849-585653A.B.This model is computationally faster and more convenientPID modelPIDC model545556Not PPI,but functional linkageStuart JM et al.,Science,2003,302:249-255;von Mering C et al.,NAR,2005,33:D433-D43757