1、蛋白质分析和蛋白质组学proteinRNADNA1protein4 Protein function3 Protein localizationGene ontology (GO):-cellular component-biological process-molecular function1 Molecular biology2 Protein families2视角3和4的介绍: Gene Ontology (GO) Consortium3Gene Ontology 成立的背景成立的背景Year19822005Number of records60244, 202,133 4Whats
2、 in a name?nGlucose synthesisnGlucose biosynthesisnGlucose formationnGlucose anabolismnGluconeogenesisnAll refer to the process of making glucose from simpler components5Whats in a name?nThe same name can be used to describe different conceptsnA concept can be described using different names Compari
3、son is difficult in particular across species or across databases 6本体(ontology)n计算机科学对自然世界认知的形式化的表示,既是可被计算机表示,解释和利用的知识的形式化的研究即本体 。本体是结构化的领域知识,并可以被计算机解释和利用 。n实现对生命世界中这些概念理解上的共享,包括从不同的视角,不同的术语分类, 不同的主体( 人和机器)共享概念 -概念化的规范nGene Ontology(GO)协会致力于这样一项工程:编辑一组动态的而又可控的词汇来描述基因和基因产物(主要是蛋白质)不同方面的性质。 7Ontologies
4、 can be represented as graphs, where the nodes are connected by edges n Nodes = concepts in the ontologyn Edges = relationships between the conceptsnodenodenodeedgeOntology Structure8所有这些蛋白质能做什么?n“功能”太有局限性。n生物学家想知道:每个蛋白质能做什么,属于哪条细胞回路或者为什么细胞需要这个功能,以及在什么地方发生了这样的过程。9Gene Ontology的发起的发起n芽殖酵母基因组数据库(SGD)
5、n果蝇基因组数据库(drosophila genome database,简称FlyBase) n小鼠基因组信息数据库;(mouse genome information database,简称MGDGXD) GO数据库不是以其自身为中心而是依靠外部数据库,这些外部数据库中收录的基因及其产物都将用GO定义的词汇进行注释。因此GO是与时俱进与相互合作的代表,它致力于统一基因及其产物注释的方式。 You can visit GO at http:/www.geneontology.org.10GO(Gene Ontology) structurenGO isnt just a flat list
6、of biological termsnterms are related within a hierarchy11Hierarchical structuren层次性: is a:上一个概念包括下一个概念 , 下一个概念是上一个概念的实例 。part of:下一个概念是上一个概念的一部分 树松树叶子Part ofIs a12True Path RuleTrue Path Rule:已糖代谢和单糖合成 己糖合成活性 13DAGSimple hierarchies (Trees)Directed Acyclic GraphsOne or more parentsSingle parent14Ho
7、w does GO work?nWhat does the gene product do?nWhere and when does it act?nWhy does it perform these activities?What information might we want to capture about a gene product?15GO: Three ontologiesWhere does it act?What processes is it involved in?What does it do?Molecular FunctionCellular Component
8、Biological Processgene product16Molecular Functionn分子功能描述在分子生物学上的活性,如催化活性或结合活性。nSets of functions make up a biological process.insulin bindinginsulin receptor activity17Cellular Componentnwhere a gene product acts(细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等) )18Biological Processn生物学途径是由分子功能有序地组成的,
9、具有多个步骤的一个过程。(细胞生长和维持、信号传导 、嘧啶代谢或配糖基的运输 )。cell division19Biological Process20lipocalin21以树状图形式以树状图形式显示的显示的GOGO词汇词汇之间的关系之间的关系 22Perspective 3: Protein localization23proteinPerspective 3: Protein localization24Protein localizationProteins may be localized to intracellular compartments,cytosol, the plas
10、ma membrane, or they may be secreted. Many proteins shuttle between multiple compartments. A variety of algorithms predict localization, but thisis essentially a cell biological question. 很多蛋白质不能被单一地确定存在于细胞一个固定位置上。例如膜联蛋白和小G蛋白家族就转移于胞质和膜之间(有时在胞质内,有时在膜上)。这种转移运动取决于是否有特定的细胞信号存在,例如钙离子。 25http:/psort.nibb.
11、ac.jp26http:/www.ch.embnet.org/software/TMPRED.form.html2728Localization of 2,900 yeast proteinsMichael Snyder and colleagues incorporated epitopetags into thousands of S. cerevisiae cDNAs,and systematically localized proteins (Kumar et al., 2002).See http:/ygac.med.yale.edu for a database including
12、2,900 fluorescence micrographs.29Perspective 4: Protein functionFunction refers to the role of a protein in the cell.We can consider protein function from a varietyof perspectives.301. Biochemical function(molecular function)RBP binds retinol,could be a carriern例子: 酶 结构蛋白 转运蛋白n细胞中不存在没有任何功能的蛋白。 312.
13、Functional assignmentbased on homologyRBPcould bea carriertooOthercarrier proteins增味剂结合增味剂结合蛋白是蛋白是lipocalins的一个成员,的一个成员,也被认为是也被认为是一个载体蛋一个载体蛋白白323. Functionbased on structureRBP forms a calyxX射线晶体衍射显示射线晶体衍射显示RBP形成一个类似茶杯的结构,有一圈形成一个类似茶杯的结构,有一圈疏水氨基酸组成,充当一个配体结合位点疏水氨基酸组成,充当一个配体结合位点334. Function based onli
14、gand binding specificityRBP binds vitamin A345. Function based oncellular processDNARNARBP is abundant,soluble, secreted356. Function basedon biological processRBP is essential for vision367. Function based on “proteomics”or high throughput “functional genomics”High throughput analyses show.RBP leve
15、ls elevated in renal failureRBP levels decreased in liver disease37Functional assignment of enzymes:the EC (Enzyme Commission) systemEC号类别描述酶的数目子类的例子1.-.-.-氧化还原酶10031.1.-.-作用于CH-OH基团1.2.-.-作用于醛类或氧络集团2.-.-.-转移酶10762.1.-.-转移碳基团3.-.-.-水解酶11254.-.-.-裂解酶3565.-.-.-异构酶1566.-.-.-连接酶12638Functional assignmen
16、t of proteins:Clusters of Orthologous Groups (COGs)39Proteomics: High throughput protein analysisProteomics is the study of the entire collection of proteins encoded by a genome“Proteomics” refers to all the proteins in a celland/or all the proteins in an organismLarge-scale protein analysis2D prote
17、in gelsYeast two-hybridRosetta Stone approach 40Classical biochemical approachIdentify an activityDevelop a bioassayPerform a biochemical purificationStrategies: size, charge, hydrophobicityPurify protein to homogeneityClone cDNA, express recombinant proteinGrow crystals, solve structure4142Two-dime
18、nsional protein gelsFirst dimension: isoelectric focusingSecond dimension: SDS-PAGE434445464748Evaluation of 2D gels (IEF/SDS-PAGE)Advantages:Visualize hundreds to thousands of proteinsImproved identification of protein spotsDisadvantages:Limited number of samples can be processedMostly abundant pro
19、teins visualizedTechnically difficult49Affinity chromatography/mass specBait proteinGST50Affinity chromatography/mass specBait proteinGSTAdd yeast extractProtein complexes bindMost proteins do not bind51Affinity chromatography/mass specBait proteinGSTEluteRun gelMALDI-TOFIdentify complexes52Affinity
20、 chromatography/mass specData on complexes deposited in databaseshttp:/http:/www.bind.ca535455The yeast two-hybrid systemReporter geneBait proteinDNA BindingPrey proteinDNA activationIsolate and sequence the cDNAof the binding partner you have foundWe will learn about it later when we study protein
21、interaction networks56red = cellular role & subcellular localization of interacting proteins are identical; blue = localiations are identical; green = cellular roles are identical57The Rosetta Stone approachMarcotte et al. (1999) and other groups hypothesized that some pairs of interacting proteins
22、are encoded by two genes in many genomes, but occasionally theyare fused into a single gene.By scanning many genomes for examples of “fusedgenes,” several thousand protein-protein predictionshave been made.58Yeast topoisomerase IIE. coligyrase BE. coligyrase AThe Rosetta Stone approach59罗赛塔石碑60Gene
23、Fusion (Rosetta stone method)G1:G2:It is based on the observation that some interacting proteins/domains have homologs in other genomes that are fused into one protein chain, a so-called Rosetta Stone protein.61How many “gene fusions”?MarcotteE.coli:6809Yeast:4550262protein1 Molecular biology4 Prote
24、in function2 Protein families3 Protein localizationGene ontology (GO):-cellular component-biological process-molecular function63Perspective 2: Protein family,domains and motifs为什么关注蛋白质家族?64基因重复65蛋白质同源序列和家族n在目前所有已知的数据库中均没有发现同源序列的蛋白质。 它的其他性质(如跨膜区结构域、磷酸化位点、预测出的二级结构等)也会给我们了解该蛋白质的结构或功能提供一些线索。 n有直系同源序列或旁
25、系同源序列的蛋白质。 这种蛋白质至少能找到一条同源序列,且两条序列存在具有显著相似性或显著特征的区域。这些有显著序列相似性或显著结构特征的区域有很多名称,如签名(signature)、结构域(domain)、模块(module)、模块元件(modular element)、折叠子(fold)、模体(motif)、模式(pattern)或重复(repeat)。66DefinitionsSignature: a protein category such as a domain or motifDomain: a region of a protein that can adopt a 3D st
26、ructure a fold a family is a group of proteins that share a domain examples: zinc finger domain immunoglobulin domainMotif (or fingerprint): a short, conserved region of a protein typically 10 to 20 contiguous amino acid residues67签名(signature)n签名(signatures)的概念很宽广,它确定一个蛋白质分类,可能指结构域(domain)、家族(famil
27、y)或模体(motif)。仅考虑单独的一个蛋白质时,我们仅能得到很少一部分关于其结构和功能的信息;但是将它与相关序列比对找到保守部分后,从保守序列中可以推测出很多信息。签名主要可以分为两类,每一类签名都可以用各自的方法确定。n结构域(domain)是蛋白质中能折叠成特定三维结构的一段区域。结构域也能被称为模块。一组拥有相同结构域的蛋白被称为一个蛋白质家族。n模体(motif,或称指纹,fingerprint)是蛋白质序列中较短的保守区域。模体的长度一般是1020个氨基酸残基,尽管实际中的模体有可能更长或更短。一些简单而常见的模体在一组蛋白质中发现并不意味着这组蛋白质是同源的,例如形成跨膜区结构
28、域或保守磷酸化位点的模体。而另一些情况中,小的模体则是一个蛋白质家族的标志(如prosite)。68InterPro对相关术语的定义 n家族:InterPro定义一组进化上相关的共享一个或多个结构域的蛋白质为一个家族n结构域: InterPro数据库中的结构域是指一个独立的结构单元,他们可能单独存在也可能与其他结构域相连。结构域也是进化上相关的序列。69SMART对相关术语的定义 n结构域:保守的结构单元,包含独特的二级结构组合和疏水内核。具有相同功能的同源结构域往往具有序列上的相似性。n模体:序列模体是指短的保守的多肽段。含有相同模体的蛋白质并不一定是同源的。70结构域和motifn血清蛋白
29、(581氨基酸):3个类似结构域,每个约180个氨基酸n胶原蛋白中存在着几十个有GXY三肽组成的重复片段nRNA聚合酶最大亚基C端结构域中有52个重复的六肽片段:T/SPTSPN/T.nPrP(疯牛病):有四个连续对八肽:PHGGG/SWGQn许多细胞内信号转导的蛋白质含有SH2肽段(与磷酸化丝氨酸/苏氨酸结合的肽段)71Definition of a motifA motif (or fingerprint) is a short, conserved region of a protein. Its size is often 10 to 20 amino acids.Simple mot
30、ifs include transmembrane domains andphosphorylation sites. These do not imply homologywhen found in a group of proteins.PROSITE (www.expasy.org/prosite) is a dictionary of motifs. In PROSITE,a pattern is a qualitative motif description (a proteineither matches a pattern, or not). In contrast, a pro
31、fileis a quantitative motif description. We will encounterprofiles in Pfam, ProDom, SMART, and other databases.72蛋白质motifEIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2aTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNL
32、EIVLHR progestagen-assoc. endo.VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apolipoprotein DVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding proteinLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass.VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL
33、prostaglandin D2 synthaseVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-microglobulinPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD. complement component 873例子n在在HIV-1 polHIV-1 pol蛋白的天冬氨酸蛋白酶蛋白的天冬氨酸蛋白酶(aspartyl proteases)(aspartyl proteases)结构域中,天结构域中,天冬氨酸残基冬氨酸残基(asp)(asp)对酶的催化活性至关重要。天冬氨
34、酸蛋白酶模体由对酶的催化活性至关重要。天冬氨酸蛋白酶模体由1212个氨基酸残基构成个氨基酸残基构成: LIVMFGAC-LIVMTADN-LIVFSA-D-ST -G-STAV-STAPDENQ-x-LIVMFSTNC-x-LIVMFGTA。 n几乎所有的几乎所有的lipocalinslipocalins中都可以找到一个短的模体中都可以找到一个短的模体GxW。PROSITE数据数据库定义的库定义的lipocalins的保守氨基酸模体是:的保守氨基酸模体是: DENG-x- DENQGSTARK-x(0,2)-DENQARK-LIVFY-CP-G-C-W-FYWLRH-x-LIVMTA。 74模
35、体n氨基酸残基修饰的模体n蛋白质细胞定位的模体n与活性有关的模体n其他模体75氨基酸残基修饰的模体n糖蛋白中被N糖基化的天冬酰胺(N)一定是处于NPS/T中的。n在一些与凝血过程相关的蛋白质中,被羟化的天冬氨酸或天冬酰胺处于CXD/NX4XCXC的模体中。为芳香性氨基酸,X4为任意氨基酸构成的四肽。n被磷酸化的丝氨酸和苏氨酸在不同蛋白质中处于不同的模体中。组蛋白中为SP#(#为带正电的氨基酸)。蛋白激酶PKA或PKG中的模体是#XS/T。76n当C端的4个氨基酸序列为KDEL或HDEL时,蛋白质就被局限在细胞的内质网中n能进入细胞核的肽链都有特定的序列模体。1. PKKKRKV or KRX1
36、0KKKK;2. 蛋白激酶中,KRX21RXKXKXK; 3. #RX10#XX。蛋白质细胞定位的模体77Motif与细胞定位78与活性有关的模体n在许多蛋白水解酶中,与催化有关的活性中心由D/E-H-S组成。n在ATP和GTP结合蛋白质中存在着一种序列为GXXXXGKT/S的模体: Rho家族 G DGAX GKT ATP合成酶 G GAGV GKTV 肌球蛋白重链 G ESGS GKT 胸苷激酶 G XXGX GKTT 胸苷酸激酶 G XPGX GKGT这个模体可以形成一个特定的结构,与核苷酸结合。这个模体可以形成一个特定的结构,与核苷酸结合。79其他模体n含有半胱氨酸的模体。在一些蛋白质
37、中存在着特定的序列模体,其中半胱氨酸的位置是相对固定的(锌指)。n未知功能的模体。如一些细胞因子受体的膜外侧接近膜处有WKS和WSKWS序列模体,但其功能还不清楚。80模体的意义n总结:模体( ( motif or fingerprint)motif or fingerprint) 是蛋白质序列中较短的保守区域,是按照一定的模式排列的氨基酸残基,长度一般在1020残基之间。n一些简单而常见的模体在一组蛋白质中发现并不意味着这组蛋白质是同源的(跨膜区结构域或磷酸化位点)。n在另一些情况下,模体可以成为一个蛋白质家族的标志,反映了这个家族的亲缘关系。可以利用这个族徽寻找宗亲。(载脂蛋白超家族)n1
38、986年至今,国际生物化学学会主编的Trends in Biochemical Science一直有专栏刊登不同类型的的序列模体(也同时刊登结构域、模块等)。81结构域和模体:蛋白质的模块性质82结构域的由来n从球状蛋白到晶体衍射实验。(溶菌酶)n免疫球蛋白的例子n蛋白质的折叠过程n20世纪6070年代,提出结构域(domain)的概念。从水解实验,可以看出结构域能组成一个结构单元。n结构域常由不同的外显子编码。83Definition of a domainAccording to InterPro at EBI (http:/www.ebi.ac.uk/interpro/):A domai
39、n is an independent structural unit, found aloneor in conjunction with other domains or repeats.Domains are evolutionarily related. According to SMART (http:/smart.embl-heidelberg.de):A domain is a conserved structural entity with distinctivesecondary structure content and a hydrophobic core.Homolog
40、ous domains with common functions usuallyshow sequence similarities.84总结n结构域的概念:从最初的一级结构中较长的重复片段,上升为有特征的立体结构,而且他们有一定生物功能,并且对应着基因中的某些外显子,为它们编码、形成肽链后,还能自行折叠成稳定的结构。总之,结构域可看作是一个“entity”。n一般来说,如果两个蛋白质拥有一个相同的结构域,那么这两个蛋白质有相关的功能。n序列模体是一个序列上经概括后“求同存异”的“框架”,是在一段肽段中关键位置上氨基酸残基的组合模式。二者的区别在于结构域有“结构”的含义。85人类中15个最常
41、见的结构域 86蛋白质共享一个结构域Extending along the length of a proteinOccupying a subset of a protein sequenceOccurring one or more timeslipocalin免疫球蛋白结构域免疫球蛋白结构域纤连蛋白重复区纤连蛋白重复区 与甲基化的DNA结合的转录因子家族87Example of a protein with domains: Methyl CpG binding protein 2 (MeCP2)MBDTRDThe protein includes a methylated DNA bi
42、nding domain(MBD) and a transcriptional repression domain (TRD).MeCP2 is a transcriptional repressor.Mutations in the gene encoding MeCP2 cause RettSyndrome, a neurological disorder affecting girlsprimarily. 88Result of an MeCP2 blastp search:A methyl-binding domain shared by several proteins89这些蛋白质
43、的大小差别很大,并且结合甲基化DNA的结构域也出现在蛋白质的不同位置上。从BLAST的匹配结果看,这些蛋白质除了甲基化DNA结构域以外没有其他序列上有显著相似性的区域了 90多个拷贝的结构域Occurring one or more times很多结构域在蛋白很多结构域在蛋白质中有多个拷贝,质中有多个拷贝,两个最常见的例子两个最常见的例子就是免疫球蛋白结就是免疫球蛋白结构域和纤连蛋白重构域和纤连蛋白重复区。这些结构域复区。这些结构域在蛋白质的胞外区在蛋白质的胞外区极其常见极其常见 91Are proteins that share only a domain homologous?蛋白质家族是
44、怎么定义的呢?是否一组仅共有一个结构域的同源蛋白质就可以被称为一个蛋白质家族呢?上面的例子中,5个蛋白中的MBD结构域显然是同源的(来自于同一祖先);虽然它们除了MBD结构域外没有显著相似的区域,但是这组蛋白仍旧构成一个蛋白质家族。 92蛋白质家族n蛋白质家族是根据蛋白质的同源性来定义的;同一个家族内的蛋白质就是一组进化上相关的蛋白质,这些蛋白质共享一个或多个结构域。n什么逻辑?1.在一级结构比较的基础上,发现很多蛋白质存在同源性;2.(相似性往往是区域性的)一些同源性可以简单的用结构域加以表征;3. 为了(计算机分类)方便,由结构域将相关的蛋白质归属为一个蛋白质家族。n在蛋白质家族分类的过程
45、中,有时向下细分为亚家族(subfamily),有时又向上归并为超家族(superfamily)93n并系同源蛋白: 类视紫红质受体超家族:视觉、听觉、嗅觉、激素、神经传导的受体 n脊椎动物进化过程早期分化而得到的不同视觉受体对不同的波长敏感 人类视觉系统受体包括对红光和绿光等长波敏感的各种蛋白质分子,它们之间区别不大,其序列相似性程度为95%左右。这些视觉系统长波受体分子与蓝光等短波受体分子以及视紫红质等非色彩受体分子却相差很远,序列平均相似性为43%。可见,由种类繁多的并系同源蛋白和直系同源蛋白所产生的序列复杂性,对蛋白质家族分类研究是一个巨大的挑战。 94两个“家族”n牛胰核糖核酸酶家族
46、。n丝氨酸蛋白抑制剂家族。95Example of a multidomain protein: HIV-1 pol 1003 amino acids long cleaved into three proteins with distinct activities:- aspartyl protease(天冬氨酸蛋白酶天冬氨酸蛋白酶 )- reverse transcriptase(反转录酶反转录酶 )- integrase(整合酶整合酶 )We will explore HIV-1 pol and other proteins at theExpert Protein Analysis S
47、ystem (ExPASy) server.Visit www.expasy.org/ HIV-1的pol(polymerase,聚合酶)969798SwissProt entry for HIV-1 pol links to many databases99ProDom entry for HIV-1 pol shows many related proteins100Proteins can have both domains and patterns (motifs)Domain(aspartylprotease)Domain(reversetranscriptase)Pattern(s
48、everalresidues)Pattern(severalresidues)蛋白质可能含有相对蛋白质可能含有相对较大的结构域和通常较大的结构域和通常仅由几个氨基酸残基仅由几个氨基酸残基构成的模式构成的模式(模体模体)。尽。尽管模式或模体不构成管模式或模体不构成一个已知的三维构象,一个已知的三维构象,但它包含的氨基酸残但它包含的氨基酸残基却可能是一个蛋白基却可能是一个蛋白质家族的特征序列质家族的特征序列 101思考一n同一个结构域可能出现在一个蛋白质的氨基末端,也可能出现在另一个蛋白质的羧基末端,是吗?a.是b.不是102思考二一般来说,蛋白质一般来说,蛋白质结构域结构域(domaindoma
49、in)和)和模体模体(motifmotif,也称模式或指纹)的大小关系是:也称模式或指纹)的大小关系是:A A、 它们一样长;它们一样长;B B、 模体模体比比结构域结构域长;长;C C、 结构域结构域比比模体模体长;长; D D、 只能对于特定的蛋白质才能进行比较只能对于特定的蛋白质才能进行比较103蛋白质与结构域、模体句子短语单词104氨基酸序列氨基酸序列ST-X-RKST-X-RK是蛋白激酶是蛋白激酶C C底物磷酸化的保守底物磷酸化的保守为点附近的序列,这段氨基酸序列是:为点附近的序列,这段氨基酸序列是:A A、 一个一个模体模体,可以确定一组同源蛋白;,可以确定一组同源蛋白;B B、
50、一个一个模体模体,但不足以确定一组同源蛋白;,但不足以确定一组同源蛋白;C C、 一个一个结构域结构域,可以确定一组同源蛋白;,可以确定一组同源蛋白;D D、 一个一个结构域结构域,但不足以确定一组同源蛋白,但不足以确定一组同源蛋白思考三105趋异进化和趋同进化n序列分析的基本出发点:通过数据库搜索,找出若干相同残基的功能位点(motif),由某个初看起来完全不同的蛋白质确定未知蛋白的功能。n趋异进化和趋同进化n溶菌酶和-乳清蛋白:趋异进化的例子n-折叠桶:趋同进化的例子。蛋白激酶C(PKC)保守磷酸化位点的信息:ST-x-RK(S或T是磷酸化位点,x表示任意氨基酸残基)(PROSITE do