1、蛋白质组与蛋白质结构分析 难点难点 蛋白质二级结构和三维结构算法以及软件的使用。蛋白质二级结构和三维结构算法以及软件的使用。蛋白质功能预测方法及其软件的使用。蛋白质功能预测方法及其软件的使用。蛋白质与疾病发生。蛋白质与疾病发生。常用的蛋白质组学数据库。常用的蛋白质组学数据库。熟悉熟悉第一节第一节 引言引言Section 1 Introduction 随着人类基因组及诸多物种基因组计划的完成,生命随着人类基因组及诸多物种基因组计划的完成,生命科学研究已经进入以基因组学、蛋白质组学、代谢组科学研究已经进入以基因组学、蛋白质组学、代谢组学等学等“组学组学”为研究标志的后基因组时代(为研究标志的后基因
2、组时代(post-genomic era)。在后基因组时代,蛋白质组学研究越)。在后基因组时代,蛋白质组学研究越来越受到关注和重视。来越受到关注和重视。蛋白质组(蛋白质组(proteome):指由一个基因组):指由一个基因组(genome),或一个细胞、组织表达的所有蛋白质),或一个细胞、组织表达的所有蛋白质(protein)。)。蛋白质组学(蛋白质组学(proteomics):蛋白质组学是采用大):蛋白质组学是采用大规模、高通量、系统化的方法,研究某一类型细胞、规模、高通量、系统化的方法,研究某一类型细胞、组织或体液中的所有蛋白质组成、功能及其蛋白之组织或体液中的所有蛋白质组成、功能及其蛋白
3、之间相互作用的学科。间相互作用的学科。根据不同研究目的和手段,蛋白质组学分为表达蛋根据不同研究目的和手段,蛋白质组学分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。白质组学、结构蛋白质组学和功能蛋白质组学。表达蛋白质组学:主要采用经典蛋白质组学技术如表达蛋白质组学:主要采用经典蛋白质组学技术如双向凝胶电泳和图像分析技术,开展细胞内蛋白样品双向凝胶电泳和图像分析技术,开展细胞内蛋白样品表达的定量研究;表达的定量研究;结构蛋白质组学:以绘制出蛋白复合物结构或存在结构蛋白质组学:以绘制出蛋白复合物结构或存在于一个特殊的细胞器中的蛋白为研究目标的蛋白质组于一个特殊的细胞器中的蛋白为研究目标的蛋白质
4、组学,主要用于建立细胞内信号转导网络图谱并解释某学,主要用于建立细胞内信号转导网络图谱并解释某些特定蛋白表达对细胞产生的特定作用;些特定蛋白表达对细胞产生的特定作用;功能蛋白质组学:以细胞在某一特定时间所表达或功能蛋白质组学:以细胞在某一特定时间所表达或与某个功能相关的蛋白质集合为研究对象进行研究与某个功能相关的蛋白质集合为研究对象进行研究和描述,能够提供有关蛋白糖基化、磷酸化,蛋白和描述,能够提供有关蛋白糖基化、磷酸化,蛋白信号转导通路,疾病机制或蛋白信号转导通路,疾病机制或蛋白-药物之间相互作用药物之间相互作用的重要信息。的重要信息。第二节第二节 蛋白质组数据的蛋白质组数据的获取与分析获取
5、与分析Section 2 Proteomics Data Acquisition and Analysis一、二维凝胶电泳分析技术一、二维凝胶电泳分析技术2-DE:是将样品进行电泳后在它的直角方向再进:是将样品进行电泳后在它的直角方向再进行一次电泳,又称双向电泳。行一次电泳,又称双向电泳。第一向第一向:等电聚焦(等电聚焦(isoelectric focusing,IEF),),蛋白质沿蛋白质沿pH梯度分离至各自的等电点。梯度分离至各自的等电点。第二向第二向:是十二磺酸钠是十二磺酸钠-聚丙烯酰胺凝胶电泳聚丙烯酰胺凝胶电泳(SDS-PAGE),蛋白质进行分子量的分离。),蛋白质进行分子量的分离。(
6、一)定义及特点(一)定义及特点 样品经过电荷和质量两次分离后,可获得样品分子等样品经过电荷和质量两次分离后,可获得样品分子等电点(电点(isoelectric point,pI)和分子量()和分子量(molecular weight,MW)等信息。)等信息。分离的结果不是获得蛋白条带,而是蛋白斑点。分离的结果不是获得蛋白条带,而是蛋白斑点。这是迄今分辨率最高、信息最多的蛋白电泳技术。目这是迄今分辨率最高、信息最多的蛋白电泳技术。目前使用广泛的前使用广泛的2-DE蛋白分离的方法为固相蛋白分离的方法为固相pH梯度梯度-SDS双向凝胶电泳。双向凝胶电泳。1.样品制备样品制备 目的是从成分复杂的细胞、
7、组织等材料中取得纯目的是从成分复杂的细胞、组织等材料中取得纯度高的完整蛋白质组分。度高的完整蛋白质组分。(二)固相(二)固相pHpH梯度梯度-SDS-SDS双向凝胶电泳双向凝胶电泳 (IPG-DALTIPG-DALT电泳)电泳)操作原理及技术流程操作原理及技术流程2.蛋白质定量蛋白质定量 BCA法、法、Bradford法及法及UV280法等,但由于这些定法等,但由于这些定量方法都基于吸光度测定,而样品溶液中往往含有量方法都基于吸光度测定,而样品溶液中往往含有高浓度尿素等溶剂可能影响吸光度的准确测定,故高浓度尿素等溶剂可能影响吸光度的准确测定,故推荐使用双向电泳蛋白质定量专用试剂盒进行检测。推荐
8、使用双向电泳蛋白质定量专用试剂盒进行检测。3.一向电泳一向电泳 一向电泳等电聚焦(一向电泳等电聚焦(isoelectric focusing,IEF),是),是根据蛋白质根据蛋白质pI值不同,在电场力的作用下将其分离。值不同,在电场力的作用下将其分离。4.一向胶条的平衡一向胶条的平衡 进行第二向电泳前,需要对进行第二向电泳前,需要对IPG胶条进行平衡胶条进行平衡(equilibration),平衡过程是将),平衡过程是将IPG胶条浸没在第胶条浸没在第二向电泳所必需的二向电泳所必需的SDS缓冲体系中,以便被分离蛋白缓冲体系中,以便被分离蛋白质与质与SDS完全结合并顺利转移入二向电泳的凝胶中。完全
9、结合并顺利转移入二向电泳的凝胶中。平衡后应立即进行第二向电泳。平衡后应立即进行第二向电泳。5.二向电泳二向电泳 即十二烷基磺酸钠即十二烷基磺酸钠-聚丙烯酰胺凝胶电泳,是根据分聚丙烯酰胺凝胶电泳,是根据分子量大小各异的蛋白质在电场中的泳动速率不同的子量大小各异的蛋白质在电场中的泳动速率不同的原理而分离蛋白质的方法。原理而分离蛋白质的方法。6.凝胶检测凝胶检测 适用于适用于SDS凝胶中蛋白质检测的方法都可用于双向电凝胶中蛋白质检测的方法都可用于双向电泳凝胶检测。银染和考马斯亮蓝(泳凝胶检测。银染和考马斯亮蓝(R250、G250)染)染色,是蛋白质组研究中最为广泛使用的两种染色方法。色,是蛋白质组研
10、究中最为广泛使用的两种染色方法。不直接用已知模板的方法称为自由建模(free modeling)或从头预测(ab initio)法。成功的从头预测依赖于以下因素的有效性:这样的树状层次,便于对目标蛋白的结构功能特征进行定位。(3)人工神经网络学习法Jpred预测二级结构(7)确定估计等电点(pI)及分子量数值用于检测现行建模方法的能力和局限、确定研发的进展并阐明问题的瓶颈,是蛋白质结构预测领域的一个重要里程碑。主要用于预测两个蛋白质间的相互作用位点,但对体积很大的蛋白质分子,相互作用的可能界面太多而计算工作量很大。蛋白质表达分布图数据库第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系,
11、与SCOP中的折叠模式fold相当。样品经过电荷和质量两次分离后,可获得样品分子等电点(isoelectric point,pI)和分子量(molecular weight,MW)等信息。根据不同研究目的和手段,蛋白质组学分为表达蛋白质组学、结构蛋白质组学和功能蛋白质组学。二、蛋白质结构分类数据库一、蛋白质结构预测概述第四个层次为结构的同源性,是先通过序列比对再用结构比较来确定的。图6-3 MASCOT搜索主界面质谱(mass spectrometry,MS)是按照物质的质量与电荷的比值(质荷比,mass-to-charge ratio,m/z)顺序排列成的图谱。第二向:是十二磺酸钠-聚丙烯酰
12、胺凝胶电泳(SDS-PAGE),蛋白质进行分子量的分离。检索前必须先获得肽序列标签(PST)。这一层次的分类主要依靠人工方法。质谱(质谱(mass spectrometry,MS)是按照物质的质)是按照物质的质量与电荷的比值(质荷比,量与电荷的比值(质荷比,mass-to-charge ratio,m/z)顺序排列成的图谱。)顺序排列成的图谱。质谱分析法是按照离子的质荷比大小对离子进行分质谱分析法是按照离子的质荷比大小对离子进行分离和测定,从而对样品进行定性和定量分析的一种离和测定,从而对样品进行定性和定量分析的一种方法。方法。二、蛋白质组质谱分析技术二、蛋白质组质谱分析技术 质谱仪(质谱仪(
13、mass spectrometer)是利用电磁学原理使)是利用电磁学原理使离子按照质荷比进行分离,从而测定物质的质量与离子按照质荷比进行分离,从而测定物质的质量与含量的科学实验仪器。含量的科学实验仪器。(一)质谱仪(一)质谱仪1.基质辅助激光解吸基质辅助激光解吸/电离电离(matrix assisted laser desorption/ionization,MALDI)利用激光脉冲将与基质结晶混合的蛋白质样品升华并利用激光脉冲将与基质结晶混合的蛋白质样品升华并电离出来。电离出来。2.电喷雾电喷雾(electrpspray ionization,ESI)将分析物从溶液中电离出来,可以方便地与液
14、相色谱将分析物从溶液中电离出来,可以方便地与液相色谱(liquid-chromatography,LC)联用。)联用。1.分子量测定分子量测定2.肽谱测定肽谱测定 生物质谱通过与特异性蛋白酶解相结合,可测定肽生物质谱通过与特异性蛋白酶解相结合,可测定肽质量指纹图(质量指纹图(peptide mass fingerprint,PMF),并),并获得全部肽段的准确分子量,结合蛋白质数据库检获得全部肽段的准确分子量,结合蛋白质数据库检索就可实现蛋白质的快速鉴别和高通量筛选。索就可实现蛋白质的快速鉴别和高通量筛选。(二)质谱的应用(二)质谱的应用3.肽序列测定肽序列测定 串联质谱技术可直接用于肽段的测
15、序,从一级质谱串联质谱技术可直接用于肽段的测序,从一级质谱产生的肽段中选择母离子进入二级质谱,经惰性气产生的肽段中选择母离子进入二级质谱,经惰性气体碰撞后,肽段沿肽链断裂,由所得各肽段质量数体碰撞后,肽段沿肽链断裂,由所得各肽段质量数差值推定肽段序列,并用于数据库查寻,称为肽序差值推定肽段序列,并用于数据库查寻,称为肽序列标签技术(列标签技术(peptide sequence tag,PST),目前广),目前广泛应用于蛋白质组大规模筛选。泛应用于蛋白质组大规模筛选。4.巯基和二硫键定位巯基和二硫键定位 利用生物质谱的准确分子量测定特性,同时结合碘利用生物质谱的准确分子量测定特性,同时结合碘乙酰
16、胺、乙酰胺、4-乙烯吡啶等化学试剂对蛋白质进行烷基乙烯吡啶等化学试剂对蛋白质进行烷基化和还原烷基化以及蛋白质酶切、肽谱技术等,可化和还原烷基化以及蛋白质酶切、肽谱技术等,可实现对二硫键和自由巯基的快速定位。实现对二硫键和自由巯基的快速定位。5.蛋白质翻译后修饰蛋白质翻译后修饰 如用如用MALDI-TOF-MS 对双向电泳分离蛋白质磷酸对双向电泳分离蛋白质磷酸化位点进行定位、化位点进行定位、MALDI-TOF-MS结合不同酶解结合不同酶解方式确定糖基化位点等。方式确定糖基化位点等。1MALDI-TOF质谱测定肽质量指纹图质谱测定肽质量指纹图 将质谱分析获得的肽段分子质量与蛋白质数据库中将质谱分析
17、获得的肽段分子质量与蛋白质数据库中理论肽段的分子质量进行比较,通过软件分析可获理论肽段的分子质量进行比较,通过软件分析可获得蛋白质信息,根据匹配情况判断出所鉴定分析的得蛋白质信息,根据匹配情况判断出所鉴定分析的蛋白质是已知的还是未知的。蛋白质是已知的还是未知的。(三)基质辅助激光解吸电离飞行时间质谱(三)基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MSMALDI-TOF-MS)分析技术)分析技术2MALDI-TOF质谱技术用于蛋白质质谱技术用于蛋白质C-端序列分析端序列分析 在质谱仪内,应用源后衰变(在质谱仪内,应用源后衰变(post-source decay,PSD)和碰撞诱导解离
18、()和碰撞诱导解离(collision-induced dissociation,CID)可产生包含有仅异于一个氨基)可产生包含有仅异于一个氨基酸残基质量的一系列肽峰质谱。此外,用酶或化学酸残基质量的一系列肽峰质谱。此外,用酶或化学方法从方法从N-或或C-末端按顺序除去不同数目氨基酸,亦末端按顺序除去不同数目氨基酸,亦可形成大小不同的一系列梯形肽片段,所得的一定可形成大小不同的一系列梯形肽片段,所得的一定数目肽质量由数目肽质量由MALDI-TOF-MS测量。测量。1电喷雾电离质谱测定蛋白质和多肽分子质量电喷雾电离质谱测定蛋白质和多肽分子质量 蛋白质和多肽分子经电喷雾电离时,会吸附一个或蛋白质和
19、多肽分子经电喷雾电离时,会吸附一个或多个质子,形成一系列带电荷状态不同的分子离子,多个质子,形成一系列带电荷状态不同的分子离子,在质谱中形成荷质比不同的谱峰。一般可根据谱峰在质谱中形成荷质比不同的谱峰。一般可根据谱峰的同位素离子峰分布情况以及利用相邻两峰的荷质的同位素离子峰分布情况以及利用相邻两峰的荷质比和电荷数关系计算求得离子分子质量。比和电荷数关系计算求得离子分子质量。(四)电喷雾质谱分析(四)电喷雾质谱分析质谱分析法是按照离子的质荷比大小对离子进行分离和测定,从而对样品进行定性和定量分析的一种方法。包含了26 238个蛋白质相关的条目信息,分为17 620个蛋白质家族、7497个蛋白质结
20、构域、277个重复区域、108个活性位点、73个结合位点、647个保守基序(motif)、16个后转录修饰位点等信息。二、蛋白质功能预测方法目前使用广泛的2-DE蛋白分离的方法为固相pH梯度-SDS双向凝胶电泳。一、蛋白质结构预测概述PDB格式的文件可以用于一些图形软件直观观察蛋白质的三维结构,例如VMD、Jmol、Swiss-PDBviewer及RasMol等。基于神经网络系统,被认为是二级结构预测的标准。(三)基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS)分析技术基质辅助激光解吸/电离基于学习的方法(learning-based approaches)是利用有效的分类方法,从
21、最相关的结构特征中识别最合适的功能类别,如SVM和KNN等分类方法。芯片检测:对于荧光标记芯片,用荧光扫描仪或激光共聚焦显微镜扫描,利用计算机分析各点平均荧光密度;统计学方法:同源建模,折叠识别Analysis of Protein Function2MALDI-TOF质谱技术用于蛋白质C-端序列分析2液相色谱-电喷雾质谱法鉴定双向凝胶电泳蛋白质整合MODELLER用于同源建模,和后续模型评价。数据库包括:SWISS 2D-PAGE数据库、Argonne 2D-PAGE数据库、Max Planck感染生物学研究所(MPIB)创建的蛋白质2D-PAGE数据库等。从头预测法的理论依据是Anfins
22、en假说,即在给定条件下蛋白质的天然结构对应其自由能最低的状态。LiveBench(LB)实验方法是基于已知功能域四周原子的叠合认证保守性预测蛋白质功能。2液相色谱液相色谱-电喷雾质谱法鉴定双向凝胶电泳蛋白质电喷雾质谱法鉴定双向凝胶电泳蛋白质 对双向凝胶电泳分离的蛋白质点经酶解后的多肽对双向凝胶电泳分离的蛋白质点经酶解后的多肽混合物进行液相色谱混合物进行液相色谱-电喷雾质谱联用(电喷雾质谱联用(LC-ESI MS)鉴定分析,同样可以得到鉴定分析,同样可以得到PMF。串联质谱的使用能够对基于串联质谱的使用能够对基于PMF的结果进行再分的结果进行再分析或对未赋值的质谱峰信号进行研究。对于初始析或对
23、未赋值的质谱峰信号进行研究。对于初始用用PMF法鉴定的蛋白,可选择其中部分肽段峰进法鉴定的蛋白,可选择其中部分肽段峰进行行MS/MS分析,得到肽段的序列。分析,得到肽段的序列。(五)串联质谱(五)串联质谱(MS/MSMS/MS)三、蛋白质芯片分析技术三、蛋白质芯片分析技术 蛋白质芯片(蛋白质芯片(protein chips)技术又称蛋白质微阵列)技术又称蛋白质微阵列(protein microarrays),是一种高通量的、小型化),是一种高通量的、小型化的、平行性的生物检测技术。的、平行性的生物检测技术。原理原理 蛋白质芯片是将已知蛋白点印在固定于不同种类支蛋白质芯片是将已知蛋白点印在固定于
24、不同种类支持介质上,制成由高密度蛋白质或多肽分子微阵列持介质上,制成由高密度蛋白质或多肽分子微阵列组成的蛋白微阵列,阵列中固定分子的位置及组成组成的蛋白微阵列,阵列中固定分子的位置及组成已知,未经标记或标记(荧光物质、酶或化学发光已知,未经标记或标记(荧光物质、酶或化学发光物质)的生物分子与芯片上探针反应,通过扫描装物质)的生物分子与芯片上探针反应,通过扫描装置如激光扫描系统(置如激光扫描系统(laser scanner basessystem)或)或电荷偶联照像系统(电荷偶联照像系统(charge coupled device-camera,CCD-camera)检测信号强度,量化分析杂交结
25、果,)检测信号强度,量化分析杂交结果,检测蛋白质。检测蛋白质。蛋白质芯片具有以下特点蛋白质芯片具有以下特点特异性强特异性强;敏感性高;敏感性高;高通量高通量;重复性好;重复性好;应用性强;应用性强;适用范围广。适用范围广。分类分类 根据功能:功能研究型芯片根据功能:功能研究型芯片(functional protein microarrays)和分析检测型芯片和分析检测型芯片(analytical protein microarrays)。根据蛋白质种类:抗体芯片和抗原芯片。根据蛋白质种类:抗体芯片和抗原芯片。根据芯片表面化学成分:化学表面芯片和生物表根据芯片表面化学成分:化学表面芯片和生物表面
26、芯片。面芯片。根据点样蛋白质活性功能:无活性芯片和有活性根据点样蛋白质活性功能:无活性芯片和有活性芯片。芯片。根据载体:普通玻璃载体芯片(根据载体:普通玻璃载体芯片(plain-glass slide)、)、多孔凝胶覆盖芯片(多孔凝胶覆盖芯片(porous gel pad chip)及微孔)及微孔芯片(芯片(microwell chip)等。)等。待测样品准备待测样品准备 反应过程:待蛋白质芯片与被测样品溶液在适宜反应过程:待蛋白质芯片与被测样品溶液在适宜温度下孵育一定时间后用温度下孵育一定时间后用PBST洗去未反应分子,洗去未反应分子,再根据不同标记物直接检测(如荧光标记)或显再根据不同标记
27、物直接检测(如荧光标记)或显色后检测(如酶标记)。色后检测(如酶标记)。蛋白质芯片检测及分析蛋白质芯片检测及分析 芯片检测:对于荧光标记芯片,用荧光扫描仪或芯片检测:对于荧光标记芯片,用荧光扫描仪或激光共聚焦显微镜扫描,利用计算机分析各点平激光共聚焦显微镜扫描,利用计算机分析各点平均荧光密度;对于酶标记芯片,显色后可用均荧光密度;对于酶标记芯片,显色后可用CCD照相机拍摄,利用计算机处理信号得到各点灰度。照相机拍摄,利用计算机处理信号得到各点灰度。质谱分析法是按照离子的质荷比大小对离子进行分离和测定,从而对样品进行定性和定量分析的一种方法。(三)蛋白质三维结构的从头预测方法这样的树状层次,便于
28、对目标蛋白的结构功能特征进行定位。蛋白质组与蛋白质结构分析聚集的纤维状A构象;(二)固相pH梯度-SDS双向凝胶电泳蛋白质二级结构和三维结构算法以及软件的使用。第四个层次为结构的同源性,是先通过序列比对再用结构比较来确定的。是基于已知功能域四周原子的叠合认证保守性预测蛋白质功能。三、蛋白质芯片分析技术DPM(双重预测方法)最大的挑战是对模板链进行空隙和插入的建模。二、蛋白质结构分类数据库PIR提供三种类型的检索服务:三、其他常用蛋白质结构数据库其基本依据是:每段相邻的氨基酸残基具有形成一定二级结构的倾向,通过统计和分析发现这些倾向或者规律,二级结构预测问题可转化为模式分类和识别问题。根据GAL
29、4特性,可构建两种重组质粒载体,分别表达GAL4蛋白的DNA-BD(N端1147个氨基酸)和AD(羧基端768881个氨基酸)。Section 6图6-6 搜索结果蛋白详细信息Analysis of Protein Function 结果分析:设计对照反应,或设定阴阳性结果阈结果分析:设计对照反应,或设定阴阳性结果阈值。排除各点荧光密度或灰度背景干扰后与阈值值。排除各点荧光密度或灰度背景干扰后与阈值比较并定量分析。比较并定量分析。应用领域应用领域 基因表达筛选基因表达筛选 特异性抗原抗体检测特异性抗原抗体检测 蛋白质组学研究蛋白质组学研究 蛋白质相互作用研究蛋白质相互作用研究四、酵母双杂交系统
30、四、酵母双杂交系统 酵母双杂交系统(酵母双杂交系统(yeast two-hybrid system)是一种)是一种直接于酵母细胞内检测蛋白质直接于酵母细胞内检测蛋白质-蛋白质相互作用且灵蛋白质相互作用且灵敏度很高的分子生物学方法。敏度很高的分子生物学方法。酵母中转录活化因子酵母中转录活化因子GAL4蛋白能激活转录主要因为蛋白能激活转录主要因为其二个结构可分功能相互独立的结构域,即位于氨其二个结构可分功能相互独立的结构域,即位于氨基(基(N)端的)端的DNA-BD及位于羧基(及位于羧基(C)端的)端的AD。根据根据GAL4特性,可构建两种重组质粒载体,分别表特性,可构建两种重组质粒载体,分别表达
31、达GAL4蛋白的蛋白的DNA-BD(N端端1147个氨基酸)和个氨基酸)和AD(羧基端(羧基端768881个氨基酸)。若在个氨基酸)。若在DNA-BD上连上连接接“诱饵诱饵”蛋白蛋白X基因,在基因,在AD上连接上连接“猎物猎物”蛋白蛋白Y基因,再将这两个质粒共同转入酵母体内表达。基因,再将这两个质粒共同转入酵母体内表达。如果酵母体内表达的蛋白如果酵母体内表达的蛋白X和和Y在酵母核内发生交互在酵母核内发生交互作用,可使得作用,可使得DNA-BD和和AD在空间上接近,从而激在空间上接近,从而激活活UAS下游启动子调节的酵母特定报告基因的表达,下游启动子调节的酵母特定报告基因的表达,使转化子由于报告
32、基因的表达而可以在特定的营养使转化子由于报告基因的表达而可以在特定的营养缺陷培养基上生长,同时因激活转录下游缺陷培养基上生长,同时因激活转录下游GAL1-LacZ和和/或或MEL1基因的表达,从而在基因的表达,从而在X-Gal和和/或或X-Gal存在下显蓝色,可用于排除筛选假阳性克隆。存在下显蓝色,可用于排除筛选假阳性克隆。这样可根据报告基因是否转录表达判断这样可根据报告基因是否转录表达判断“诱饵诱饵”蛋蛋白白X与与“猎物猎物”蛋白蛋白Y之间相互作用。之间相互作用。(二)酵母双杂交系统特点与应用(二)酵母双杂交系统特点与应用1.特点特点 不仅可以精确测定蛋白质间微弱相互作用,且在不仅可以精确测
33、定蛋白质间微弱相互作用,且在DNA水平操作,不需要在体外进行大量表达和纯化水平操作,不需要在体外进行大量表达和纯化蛋白质。蛋白质。2.应用应用 分析已知蛋白质间相互作用;可筛选分析已知蛋白质间相互作用;可筛选cDNA文库,分文库,分离与已知蛋白作用的新配体及其基因序列。发现新离与已知蛋白作用的新配体及其基因序列。发现新基因的主要途径,是研究蛋白间交互作用最有力的基因的主要途径,是研究蛋白间交互作用最有力的工具之一。工具之一。3.局限性局限性 转化效率低;转化效率低;适用范围有限;适用范围有限;存在假阳性及假阴性;存在假阳性及假阴性;外源蛋白毒性及翻译后修饰。外源蛋白毒性及翻译后修饰。五、五、R
34、osetta StoneRosetta Stone方法方法 某物种中基因某物种中基因C的两个片段分别与同一物种或另一的两个片段分别与同一物种或另一物种中基因物种中基因A及基因及基因B同源,既可认为基因同源,既可认为基因A与基因与基因B存在功能相关性,借助于基因存在功能相关性,借助于基因C能找到无同源性能找到无同源性的基因的基因A及基因及基因B之间关联。之间关联。基因基因C称为罗塞塔石碑基因(称为罗塞塔石碑基因(Rosetta Stone gene),),其表达蛋白称为罗塞塔石碑蛋白。其表达蛋白称为罗塞塔石碑蛋白。(一)(一)Rosetta StoneRosetta Stone方法来源方法来源
35、根据罗塞塔石碑蛋白根据罗塞塔石碑蛋白C可预测蛋白质可预测蛋白质A与蛋白质与蛋白质B之之间存在相互作用。该方法理论基础是基于功能相关间存在相互作用。该方法理论基础是基于功能相关蛋白常常共进化的性质。蛋白常常共进化的性质。MOWSE(molecular weight search)由美国威斯康星大学麦迪逊分校组织构建的专门用于存放蛋白质、多肽、核酸等物质磁共振NMR波谱数据,以及对应的分子研究的源数据、研究所使用的实验条件和设备、与研究相关的重要出版物等信息。2MALDI-TOF质谱技术用于蛋白质C-端序列分析Analysis of Protein Function检索前必须先获得肽序列标签(PS
36、T)。从三维信息角度认证与生物学功能相关位点的保守性。66%、延伸链(e)19.蛋白质组(proteome):指由一个基因组(genome),或一个细胞、组织表达的所有蛋白质(protein)。包含了26 238个蛋白质相关的条目信息,分为17 620个蛋白质家族、7497个蛋白质结构域、277个重复区域、108个活性位点、73个结合位点、647个保守基序(motif)、16个后转录修饰位点等信息。(4)确定允许漏切的酶切位点个数酵母双杂交系统(yeast two-hybrid system)是一种直接于酵母细胞内检测蛋白质-蛋白质相互作用且灵敏度很高的分子生物学方法。在阿尔兹海默病发生过程中
37、出现A。利用生物质谱的准确分子量测定特性,同时结合碘乙酰胺、4-乙烯吡啶等化学试剂对蛋白质进行烷基化和还原烷基化以及蛋白质酶切、肽谱技术等,可实现对二硫键和自由巯基的快速定位。丹麦Aarhus大学人类基因组研究中心的2D-PAGE数据库、英国心脏科学中心Harefield医院维护的心脏内皮细胞HSC 2D-PAGE数据库、德国柏林心脏研究所的人类心肌2D-PAGE数据库等。另一种为多个A聚集形成的片层,不溶且出现在AD患者脑组织(图6-13)。此方法包括两步:将目标蛋白序列和已知的折叠进行匹配,根据比对的进化信息在已知的结构中找到一个或几个匹配最好的折叠结构,作为建模的模板。适用于SDS凝胶中
38、蛋白质检测的方法都可用于双向电泳凝胶检测。蛋白质芯片是将已知蛋白点印在固定于不同种类支持介质上,制成由高密度蛋白质或多肽分子微阵列组成的蛋白微阵列,阵列中固定分子的位置及组成已知,未经标记或标记(荧光物质、酶或化学发光物质)的生物分子与芯片上探针反应,通过扫描装置如激光扫描系统(laser scanner basessystem)或电荷偶联照像系统(charge coupled device-camera,CCD-camera)检测信号强度,量化分析杂交结果,检测蛋白质。蛋白质组数据的获取与分析包含了26 238个蛋白质相关的条目信息,分为17 620个蛋白质家族、7497个蛋白质结构域、27
39、7个重复区域、108个活性位点、73个结合位点、647个保守基序(motif)、16个后转录修饰位点等信息。利用利用Rosetta Stone方法,检索大肠杆菌基因组中方法,检索大肠杆菌基因组中4290种编码蛋白基因在其他生物细胞基因组的融合种编码蛋白基因在其他生物细胞基因组的融合情况,共发现情况,共发现6809对蛋白能构成对蛋白能构成Rosetta Stone序列,序列,其中其中3950对蛋白能在对蛋白能在SWISS-PROT数据库检索到注数据库检索到注释功能,有释功能,有2682对蛋白共享至少同一个关键词,说对蛋白共享至少同一个关键词,说明蛋白对功能相关。应用此法检索酵母菌基因组,明蛋白对
40、功能相关。应用此法检索酵母菌基因组,发现发现45502对相关蛋白的基因序列。对相关蛋白的基因序列。(二)(二)Rosetta StoneRosetta Stone方法的应用方法的应用 Rosetta Stone方法预测得到的蛋白互作网络,必须方法预测得到的蛋白互作网络,必须进一步通过实验分析以提高其准确性。可利用噬菌进一步通过实验分析以提高其准确性。可利用噬菌体展示技术、酵母双杂交系统、免疫共沉淀法、体展示技术、酵母双杂交系统、免疫共沉淀法、X射线结晶学以及表面等离子共振技术等有效检测蛋射线结晶学以及表面等离子共振技术等有效检测蛋白质相互作用高通量实验技术,为蛋白质组学发展白质相互作用高通量实
41、验技术,为蛋白质组学发展奠定坚实的基础。奠定坚实的基础。六、蛋白质组学分析软件与数据库六、蛋白质组学分析软件与数据库1.蛋白质表达分布图数据库蛋白质表达分布图数据库 日内瓦大学的日内瓦大学的xPASy系统。系统。2.蛋白质组图谱自动识别软件包蛋白质组图谱自动识别软件包 肽图(肽图(peptide mapping)包含一个蛋白质全部质)包含一个蛋白质全部质谱(谱(MS)信息,肽段()信息,肽段(peptide fragment)包含)包含蛋白质多个片段质谱信息(类似于蛋白质多个片段质谱信息(类似于EST)。)。(一)常用蛋白质组分析工具(一)常用蛋白质组分析工具(二)蛋白质组分析软件(二)蛋白质
42、组分析软件1.图像分析图像分析2.微量测序(微量测序(microsequencing)N-末端末端Edman降解技术降解技术3.质谱数据质谱数据 质谱鉴定主要包括数据的计算机处理和蛋白质的数质谱鉴定主要包括数据的计算机处理和蛋白质的数据库搜寻鉴定。质谱数据经计算机处理后,可使用据库搜寻鉴定。质谱数据经计算机处理后,可使用三种数据库搜寻方式三种数据库搜寻方式“鉴定鉴定”蛋白质:利用蛋白质:利用MS数据搜寻,即数据搜寻,即PMF法;利用法;利用“原始原始”MS/MS数数据搜寻法;先对串联质谱数据进行解析,获得部据搜寻法;先对串联质谱数据进行解析,获得部分多肽片段氨基酸序列后对蛋白质进行序列查询法分
43、多肽片段氨基酸序列后对蛋白质进行序列查询法鉴定。鉴定。4.肽质谱指纹图(肽质谱指纹图(PMF)与肽序列测定)与肽序列测定 由于氨基酸序列不同,蛋白质酶(如胰酶)酶解后由于氨基酸序列不同,蛋白质酶(如胰酶)酶解后产生的酶切肽片段序列也不同,其肽混合物质量数产生的酶切肽片段序列也不同,其肽混合物质量数具一定特征,称为肽质谱指纹图(具一定特征,称为肽质谱指纹图(PMF)。)。5.氨基酸组分氨基酸组分 利用氨基酸组分异质性,基于双向凝胶电泳图谱鉴利用氨基酸组分异质性,基于双向凝胶电泳图谱鉴定蛋白质。多种工具可用于氨基酸组分分析,如定蛋白质。多种工具可用于氨基酸组分分析,如AACompIdent、ASA
44、、FINDER、AAC-PI及及PROP-SEARCH等。等。(三)蛋白质组数据库(三)蛋白质组数据库1.综合性蛋白质综合性蛋白质2DE数据库数据库 具有数据直观性,以蛋白质双向电泳图片为基础,具有数据直观性,以蛋白质双向电泳图片为基础,并整合其他数据库中信息,如蛋白质序列、结构及并整合其他数据库中信息,如蛋白质序列、结构及功能等。数据库包括:功能等。数据库包括:SWISS 2D-PAGE数据库、数据库、Argonne 2D-PAGE数据库、数据库、Max Planck感染生物学感染生物学研究所(研究所(MPIB)创建的蛋白质)创建的蛋白质2D-PAGE数据库等。数据库等。2.哺乳类哺乳类2D
45、E数据库数据库 丹麦丹麦Aarhus大学人类基因组研究中心的大学人类基因组研究中心的2D-PAGE数数据库、英国心脏科学中心据库、英国心脏科学中心Harefield医院维护的心脏医院维护的心脏内皮细胞内皮细胞HSC 2D-PAGE数据库、德国柏林心脏研数据库、德国柏林心脏研究所的人类心肌究所的人类心肌2D-PAGE数据库等。数据库等。3.微生物类和植物类微生物类和植物类2DE数据库数据库 微生物类微生物类2DE数据库主要包括细菌、真菌和寄生数据库主要包括细菌、真菌和寄生虫三类。植物类虫三类。植物类2DE数据库包括:澳大利亚国立数据库包括:澳大利亚国立大学大学ANU 2D-PAGE、法国、法国I
46、NRA Cestas的树木的树木2D-PAGE 等。等。从头预测法的理论依据是Anfinsen假说,即在给定条件下蛋白质的天然结构对应其自由能最低的状态。(7)确定估计等电点(pI)及分子量数值(二)蛋白质结构域识别方法统计学方法:同源建模,折叠识别(三)蛋白质三维结构的从头预测方法文件中除了原子坐标外,还包括物种来源、化合物名称、结构以及有关文献等基本注释信息。CASP和CAFASP实验方法数据库包括:SWISS 2D-PAGE数据库、Argonne 2D-PAGE数据库、Max Planck感染生物学研究所(MPIB)创建的蛋白质2D-PAGE数据库等。顶级的种类class则依据二级结构组
47、成分为:全螺旋,全折叠,螺旋和折叠,螺旋折叠以及其他特殊种类。五、Rosetta Stone方法将目标序列作为查询序列来搜索PDB和SWISS-PROT等已知蛋白质结构数据库,确定和识别一个同源模板,或选择已知结构的同源序列作为建模的模板;主要用于预测两个蛋白质间的相互作用位点,但对体积很大的蛋白质分子,相互作用的可能界面太多而计算工作量很大。DPM(双重预测方法)基于学习的方法(learning-based approaches)是利用有效的分类方法,从最相关的结构特征中识别最合适的功能类别,如SVM和KNN等分类方法。SWISS-MODEL数据库蛋白质芯片是将已知蛋白点印在固定于不同种类支
48、持介质上,制成由高密度蛋白质或多肽分子微阵列组成的蛋白微阵列,阵列中固定分子的位置及组成已知,未经标记或标记(荧光物质、酶或化学发光物质)的生物分子与芯片上探针反应,通过扫描装置如激光扫描系统(laser scanner basessystem)或电荷偶联照像系统(charge coupled device-camera,CCD-camera)检测信号强度,量化分析杂交结果,检测蛋白质。蛋白质二级结构和三维结构算法以及软件的使用。二级结构预测的目标是根据一级结构判断残基是否处于特定二级结构。反应过程:待蛋白质芯片与被测样品溶液在适宜温度下孵育一定时间后用PBST洗去未反应分子,再根据不同标记物
49、直接检测(如荧光标记)或显色后检测(如酶标记)。基于学习的方法(learning-based approaches)是利用有效的分类方法,从最相关的结构特征中识别最合适的功能类别,如SVM和KNN等分类方法。(四)质谱数据库查询和蛋白质鉴定常用软件(四)质谱数据库查询和蛋白质鉴定常用软件1.PepSea 检索前必须先获得肽序列标签(检索前必须先获得肽序列标签(PST)。在检索)。在检索较大蛋白时积分较高,随机匹配的可能性也较大。较大蛋白时积分较高,随机匹配的可能性也较大。2.SEQUEST 可使用多个肽片段序列信息进行查询,无需人工可使用多个肽片段序列信息进行查询,无需人工干预,但查询相当费时
50、。干预,但查询相当费时。3.PeptIdent/MultiIdent 基于遗传算法。基于遗传算法。4.ProbID 基于概率模型。基于概率模型。5.MOWSE(molecular weight search)基于概率算法的数据库查询软件。基于概率算法的数据库查询软件。6.ProFound 基于基于Bayesian算法,综合考虑每个蛋白质序列详细算法,综合考虑每个蛋白质序列详细信息,同时考虑了酶解产生肽片段的蛋白质序列信信息,同时考虑了酶解产生肽片段的蛋白质序列信息,大大提高算法的灵敏度和选择性。息,大大提高算法的灵敏度和选择性。(五)(五)PMFPMF质谱分析基本步骤质谱分析基本步骤1.核对谱