1、 实例:对GFAP人胶质纤维酸性蛋人胶质纤维酸性蛋白白 (glial fibrillary acidic glial fibrillary acidic protein)protein)进行结构与功能预测 网址网址:www.expasy.org 点击UniPro GFAP命名与起源命名与起源蛋白质属性蛋白质属性注释注释 OMIMISOFORM ISOFORM 比对信息比对信息序列注释(特征)序列注释(特征)多态性,多态性,SNP位点位点全序列比对全序列比对三维结构分析三维结构分析蛋白与蛋白相互作用数据库蛋白与蛋白相互作用数据库功能预测及家族注释ProtsiteProtsite数据库是基于对蛋白
2、质家族中同源序列多重序列比对得到的数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,配体或金属结合位点等。因此,PrositeProsite数据库实际上是蛋白质序列功数据库实际上是蛋白质序列功能位点数据库。通过对能位点数据库。通过对PrositeProsite数据库的搜索,可判断该序列包含什么数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。样的功能位点,从而推测其可能属于哪一个蛋白质家族。PrositePros
3、ite数据数据库实际上包括两个数据库文件,一个为数据文件即库实际上包括两个数据库文件,一个为数据文件即PrositeProsite,该文件给,该文件给出了能进行匹配的序列及序列的详细信息。另一个为说明文件出了能进行匹配的序列及序列的详细信息。另一个为说明文件 PrositeDocPrositeDoc,PrositeDocPrositeDoc说明文件中给出该序列模式的生物学功能及说明文件中给出该序列模式的生物学功能及其文献资料来源。其文献资料来源。PrositeProsite数据库使用正则表达式来表示序列模式,例数据库使用正则表达式来表示序列模式,例如:如:GSK-F-x(2)-LIVMF-x(
4、4)-RKEQA-x(2)-RST-x-GA-x-GSK-F-x(2)-LIVMF-x(4)-RKEQA-x(2)-RST-x-GA-x-KN-P-x-T.KN-P-x-T.这里,方括号中为可选残基,如第一个方括号这里,方括号中为可选残基,如第一个方括号GSKGSK中中3 3个个残基中甘氨酸残基中甘氨酸G G、丝氨酸、丝氨酸S S和赖氨酸和赖氨酸L L中的任意一个均可出现。中的任意一个均可出现。x(2)x(2)表示表示可以有两个任意残基。可以有两个任意残基。中列出不许出现的氨基酸。因此,序列片段中列出不许出现的氨基酸。因此,序列片段GFxxLxxxxRxxRxGxKPxTGFxxLxxxxRx
5、xRxGxKPxT是其中一种可能的模式是其中一种可能的模式。如何根据蛋白质位点和序列模式如何根据蛋白质位点和序列模式(二次数据库)来鉴别一个未知功二次数据库)来鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族?能的蛋白质序列应该属于哪一个蛋白质家族?肽指纹图谱分析肽指纹图谱分析蛋白质基本参数,包括分子量、等电点、氨基蛋白质基本参数,包括分子量、等电点、氨基酸残基组成、疏水性等酸残基组成、疏水性等蛋白质的疏水性预测通常根据蛋白质的疏水性预测通常根据gravygravy值来预测。值来预测。GRAVYGRAVY值的范围在值的范围在2 2于于-2-2之间,正值表明此蛋白为疏水性蛋白,负值表明为亲水
6、蛋白。疏水性之间,正值表明此蛋白为疏水性蛋白,负值表明为亲水蛋白。疏水性信息可被用于跨膜螺旋的预测,信息可被用于跨膜螺旋的预测,序列比对,得到同源蛋白 跨膜区预测C-erBb2蛋白的跨膜区预测蛋白的跨膜区预测 总结:总结:GFAPGFAP为一中等分子量的酸性蛋白,分子中含有较多的为一中等分子量的酸性蛋白,分子中含有较多的GluGlu,每,每个分子大约带个分子大约带9 9个负电荷。该蛋白无跨膜区域,并且亲水,不是膜蛋个负电荷。该蛋白无跨膜区域,并且亲水,不是膜蛋白。白。GFAPGFAP是一种结构蛋白,属于是一种结构蛋白,属于IFIF家族,主要参与中间纤维的构成,家族,主要参与中间纤维的构成,在神
7、经元内环境的维持和血脑屏障中起着重要作用。到目前为止,该在神经元内环境的维持和血脑屏障中起着重要作用。到目前为止,该蛋白的空间结构尚未解析出来,有待于进一步研究蛋白的空间结构尚未解析出来,有待于进一步研究。作业 MELAALCRWGLLLALLPPGAASTQVCTGTDMKLRLPASPETHLDMLRHLYQGCQVVQGNL ELTYLPTNASLSFLQDIQEVQGYVLIAHNQVRQVPLQRLRIVRGTQLFEDNYALAVLDNG DPLNNTTPVTGASPGGLRELQLRSLTEILKGGVLIQRNPQLCYQDTILWKDIFHKNNQLA LTLIDTNRSRA
8、CHPCSPMCKGSRCWGESSEDCQSLTRTVCAGGCARCKGPLPTDCCHEQC AAGCTGPKHSDCLACLHFNHSGICELHCPALVTYNTDTFESMPNPEGRYTFGASCVTACP YNYLSTDVGSCTLVCPLHNQEVTAEDGTQRCEKCSKPCARVCYGLGMEHLREVRAVTSAN IQEFAGCKKIFGSLAFLPESFDGDPASNTAPLQPEQLQVFETLEEITGYLYISAWPDSLP DLSVFQNLQVIRGRILHNGAYSLTLQGLGISWLGLRSLRELGSGLALIHHNTHLCFVHTV PWDQLF
9、RNPHQALLHTANRPEDECVGEGLACHQLCARGHCWGPGPTQCVNCSQFLRGQEC VEECRVLQGLPREYVNARHCLPCHPECQPQNGSVTCFGPEADQCVACAHYKDPPFCVARC PSGVKPDLSYMPIWKFPDEEGACQPCPINCTHSCVDLDDKGCPAEQRASPLTSIISAVVG ILLVVVLGVVFGILIKRRQQKIRKYTMRRLLQETELVEPLTPSGAMPNQAQMRILKETEL RKVKVLGSGAFGTVYKGIWIPDGENVKIPVAIKVLRENTSPKANKEILDEAYVMAGVGSP Y
10、VSRLLGICLTSTVQLVTQLMPYGCLLDHVRENRGRLGSQDLLNWCMQIAKGMSYLEDVR LVHRDLAARNVLVKSPNHVKITDFGLARLLDIDETEYHADGGKVPIKWMALESILRRRFT HQSDVWSYGVTVWELMTFGAKPYDGIPAREIPDLLEKGERLPQPPICTIDVYMIMVKCWM IDSECRPRFRELVSEFSRMARDPQRFVVIQNEDLGPASPLDSTFYRSLLEDDDMGDLVDA EEYLVPQQGFFCPDPAPGAGGMVHHRHRSSSTRSGGGDLTLGLEPSEEEAPRSPLAP
11、SEG AGSDVFDGDLGMGAAKGLQSLPTHDPSPLQRYSEDPTVPLPSETDGYVAPLTCSPQPEYV NQPDVRPQPPSPREGPLPAARPAGATLERPKTLSPGKNGVVKDVFAFGGAVENPEYLTPQ GGAAPQPHPPPAFSPAFDNLYYWDQDPPERGAPPSTFKGTPTAENPEYLGLDVPV 1、对该段序列进行同源性搜索 2、对该段序列进行基本性质分析:蛋白质的氨基酸组成、等电点、相对分子质量、亲水性、疏水性、消光系数、信号肽、跨膜区域等。3、分析该段序列的MOTIF 4、对该段序列进行三维结构的分析 5、分析该序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白,以及与疾病的相关性。