1、Thermo FisherS C I E N T I F I CThe World Leader in Serving Science Protein Biomarker Discovery 发现蛋白的生物标志物发现蛋白的生物标志物蛋白生物标志物发现是理解病理的非常重要的一步,也是在药物研发过程中,鉴定潜在药物和诊断目标物的重要一步。需使用一个相对定量的差别分析方法,发现这些假定的、跟疾病有关的标志物,并要求严格的实验方法来减少样本样本之间的差异性。定量方法DIGE:2D凝胶电泳和荧光显色分析昂贵的同位素标记方法:ICAT、iTRAQ、SILAC等Label-Free的方法:完全不用同位素标记
2、Thermo Scientific完整的工作流程提高了检测方法的可靠性那些被检测到的差别,即真实地反映了生物意义上的差别ICAT定量定量Differential Quantitation of 491 ProteinsiTRAQ定量技术定量技术PepQuan:用于同位素标记的定量分析软件:用于同位素标记的定量分析软件Label-Free 定量技术(不用昂贵的同位素试剂)定量技术(不用昂贵的同位素试剂)Global protein identification and quantification technology using two-dimensional liquid chromatog
3、raphy nanospray mass spectrometry.Anal Chem.2003 Dec 1;75(23):6658-65Chelius D,Zhang T,Wang G,Shen RF.The peak areas(integrated ion counts over the peptide elution time)of all identified peptides are calculated,and the relative concentration of each protein is determined by comparing the peak areas
4、of all peptides from that protein in one sample versus those from the other.Using this strategy,we compared the relative level of protein expression of A431 cells(an epidermal cell line)grown in the presence or absence of epidermal growth factor(EGF).Our results are consistent with the published obs
5、ervations of the transient effects of EGF 举例:发现生物标记物举例:发现生物标记物Biomarkers的新方法的新方法定量复杂混合物中的蛋白的方法:使用LC-MS/MS实验,用肽产生的峰面积定量理论上,肽的峰面积同浓度成正比。因此,来自于一种蛋白的肽的峰面积,就同这种蛋白在混合物体系中的浓度成正比。如果一种蛋白在一种体系中和另一种体系中的表达量不同,或者是有/无的差异,或者是浓度的差异,在LC-MS/MS中,就可以体现:可以通过检测和搜索,来判断体系中,蛋白是否表达。同时,峰面积的差异(比值)可以推导出不同的体系中,蛋白被表达的量不同,和表达量的相对比
6、较。我们的目标我们的目标:不要凝胶不要凝胶!不用同位素标记不用同位素标记!当然也不用当然也不用SELDI!Mass spec dataSCXWasteSample loopSampe PumpMS PumpSampleAutosamplerWasteWaste200 nl/min10 l/minRPSCXWasteSample loopSampe PumpMS PumpSampleAutosamplerWasteWaste200 nl/min10 l/minRPSample 1Sample 2DigestAnalyzeseparatlyProtein 1Protein 2Protein 3Pr
7、otein 4Protein 51110.52Protein RatioBiomarkers(新方法新方法)用于鉴定的MS/MS数据:Peptide:DGAGDVAFVKProtein:Serotransferrin1.Identification,鉴定蛋白的有无,鉴定蛋白的有无Relative Abundance202530Time(min)0255075100RT:25.30AA:24048812740BP:490.4RT:25.17AA:21669592737BP:490.30255075100AB202530Relative AbundanceRT:23.37AA:1430502253
8、BP:780.5RT:23.17AA:3126382858BP:780.602550751000255075100CD全扫描MS的峰面积用于相对定量Peptide:DGAGDVAFVKRatio 1:1Peptide:VLPVPQK Ratio 0.5:1Sample A:Sample B:2.Quantitation定量定量Prove of concept:一个蛋白的峰面积是否和其浓度正相关?Test:肌红蛋白myoglobin用胰蛋白酶酶解后,用LC-MS/MS分析,浓度从 10 fmol 100 pmolBiomarkers(新方法新方法)建立方法的模型体系Prove of concep
9、t:肌红蛋白myoglobin用胰蛋白酶酶解后,用LC-MS/MS分析,浓度从 10 fmol 100 pmol607005101520253035404550556065707580859095100Relative Abundance6070607060706070Time(min)6070607060700607001048015399728532808394192195019Peptide:A L E L F RBiomarkers(新方法新方法)肌红蛋白浓度肌红蛋白浓度 fmol1101001000100001000001000000胰蛋白酶胰蛋白酶 酶解肽的峰面积酶解肽的峰面积11
10、01001000100001000001000000所有不同浓度的肌红蛋白产生的5个肽的合并的色谱峰面积R2=0.991Biomarkers(新方法新方法)结论结论:一个蛋白的峰面积和其浓度正相关!Biomarkers(新方法新方法)The real test:What about a real life sample?Test:Human A431 Cells应用到真实的样品Biomarkers(新方法新方法)Human A 431 cells(Epidermoid Carcinoma Line)样品 1:EGF treated样品 2:Untreated分析分析比较ProteomeX11
11、Salt Steps!Protein a Peptide identified Ratio b SD ANX2_HUMAN 35 1.157 0.276 KPY1_HUMAN 29 1.070 0.260 G3P2_HUMAN 22 0.99 0.130 ROK_HUMAN 22 1.002 0.225 ENOA_HUMAN 15 0.973 0.324 TPIS_HUMAN 9 1.008 0.229 PTB_HUMAN 8 1.052 0.205 143Z_HUMAN 7 1.078 0.250 GTP_HUMAN 6 1.083 0.169 S111_HUMAN 5 0.976 0.17
12、1 ROM_HUMAN 4 0.952 0.141 G19P_HUMAN 3 0.889 0.167 143T_HUMAN 2 1.000 0.101 SRC8_HUMAN 2 0.970 0.093 K2CF_HUMAN 2 0.925 0.084 RIB1_HUMAN 1 1.180-PMGM_HUMAN 1 1.050-TALI_HUMAN 1 1.070-GDIR_HUMAN 1 1.150-UBL3_HUMAN 1 1.000-共有 280 个蛋白,被鉴定和被定量左图是不存在差别的蛋白Protein a Peptide Chargeb Stepc Ratio d Mean SD G3
13、P2 VIHDNFGIVEGLMTTVHAITATQK 2 0 0.91 0.99 0.13 VIHDNFGIVEGLMTTVHAITATQK 3 0 1.00 WGDAGAEYVVESTGVFTTMEK 2 0 0.75 LISWYDNEFGYSNR 2 0 1.00 VVDLMAHMASKE 2 0 1.06 VIISAPSADAPMFVMGVNHEK 2 0 0.88 RVIISAPSADAPMFVMGVNHEK 3 0 0.94 WGDAGAEYVVESTGVFTTMEK 2 20 1.26 LISWYDNEFGYSNR 2 20 1.01 GALQNIIPASTGAAK 2 20 1
14、.01 VPTANVSVVDLTCR 2 20 0.99 WGDAGAEYVVESTGVFTTMEK 2 40 0.89 LISWYDNEFGYSNR 2 40 1.06 VPTANVSVVDLTCR 2 40 1.14 VIISAPSADAPMFVMGVNHEK 3 40 0.79 VIHDNFGIVEGLMTTVHAITATQK 3 60 1.16 VVDLMAHMASK 2 60 0.95 VIISAPSADAPMFVMGVNHEK 2 60 0.99 VIHDNFGIVEGLMTTVHAITATQK 3 80 0.88 RVIISAPSADAPMFVMGVNHEK 3 80 1.13
15、GILGYTEHQVVSSDFNSDTHSSTFDAGAGIALNDHFVK 3 100 0.83 RVIISAPSADAPMFVMGVNHEK 3 100 1.12 Proteina Peptides Observed ratio EGF/NO-EGFb P-Valuec Involved in growthd SFPQ 5 0.68 0.23 P=0.019 THYA 3 0.25 0.20 P=0.013 RU2B 2 0.35 0.06 P=0.035 ROU 8 1.51 0.56 P=0.010 ENPL 6 1.41 0.26 P=0.005-SACS 3 NO-EGFf -TP
16、M3 3 NO-EGFf -1A68 2 EGFg -Proteins which ARE differentially expressed:在两种样品中表达量不同的蛋白Observed ratio两种体系中量的比值Protein a Peptide Peptide ratio Protein ratio P-site knownb HS9B IEDVGS#DEEDDSGKDK EGF*1.10(34)Yes MYH9 KGAGDGS#DEEVDGK EGF*1.11(5)No CDK9 AFSLAKNSQPNRYT#NR EGF*-No CAP1 SGPKPSSAPKPQTS#PSPK 1.
17、60 0.72(6)No Phosphopeptide which are differentially expressed:被表达的磷酸化肽从初始的从初始的15 ug 样品中,共计鉴定、并定量了280 种蛋白种蛋白标明 8种蛋白种蛋白 在两个样品中的表达量有差异在EGF细胞信号传递中,共有 4 个磷酸化位点个磷酸化位点 S tatistical 统计的 I terative 重复的 E xploratory 探测的 V isualization 直观可见的 E nvironment 环境效率更高的效率更高的SIEVE分析差别表达的软件包,分析差别表达的软件包,Label-Freen SIEV
18、E:自动化的软件包,使用Label-free的相对定量方法,确定蛋白和肽的差别表达水平n 对“健康的”控制组和处理组(病理的)进行LC/MSn 分析,比较原始的谱图信息,确定在两组样本中是否存在表达的差异,和差异量的多少。在生物标志物发现实验中使用在生物标志物发现实验中使用SIEVE 建立在可靠的技术基础上建立在可靠的技术基础上LTQ XL更快、更灵敏、更准确LTQ Orbitrap和LTQ FT Ultra终极的分辨率和精确质量稳定的、易用的Xcalibur工作站内嵌SEQUEST的Bioworks工业标准、被引用最多的蛋白搜索算法 自动的差别表达软件自动的差别表达软件强制性的工作流程色谱图
19、校正/对齐递归的基峰Framing蛋白鉴定建立在严格统计学基础上,确保定量的可靠结果使用易于追溯的流程产生高度互动的、图形化的界面 完全不用同位素标记的方法学(完全不用同位素标记的方法学(Label-Free)没有在样品制备中加入变量的危险不必使用及其昂贵的同位素标记物试剂(耗材)SIEVE概述概述SIEVE提供统计学上可靠的工具,来分析在蛋白生物标志物发现的试验中获得的数据,并可比较2100个LC/MSn数据文件。在SEQUEST数据库检索之前使用SIEVE比较分析。那些揭示了样本组之间的特征的、统计学上有意义的差异统计学上有意义的差异的谱图特性,被送入SEQUEST数据库检索,去鉴定相应的
20、肽和蛋白。SIEVE不需操作或“模型化”峰,直接使用从LC/MSn数据中产生的质谱强度,去发现统计学上的差异。这个过程是Label-Free的,不需要使用任何形式的同位素标签或标记。SIEVE对齐色谱峰对齐色谱峰,发现那些统计学上有意义的差异SIEVE使用量化的p-值值来表示每种推测的标志物的表达比率SIEVE使用SpotFire DecisionSite软件,交互的、图形化的环境去浏览和处理结果“Staining”for differential expression!control(s)treatment(s)有效的生物标志物研究,要求许多控制组和有效的生物标志物研究,要求许多控制组和tr
21、eatments的的重复的重复的样本样本第一步:获取原始的第一步:获取原始的LC/MSn数据(成千上万张谱图的数据)数据(成千上万张谱图的数据)第二步:合并多个第二步:合并多个MS数据数据 有效的生物标志物发现的实验,应至少包括两个原始文件,但统计学上有意义的,必须包含多个多个控制和处理的、技术上重复的和生物上重复的样本。为使比较更有效,SIEVE有统一的数据显示,类似考马斯蓝染色的胶带,能够迅速地找出差别。SIEVE能够合并和比较2100个数据文件。第三步:色谱对齐第三步:色谱对齐ChromAlign消除样本间由色谱保留时间引起的偏差消除样本间由色谱保留时间引起的偏差Before Align
22、ment第四步:自动测定差别第四步:自动测定差别SIEVE从每个原始文件中提取数据,把它们放在一个三维图中,m/z vs.保留时间 vs.峰强度。使用一套Recursive Base Peak Framing的递归算法,对每组有特定的m/z和保留时间范围的峰,生成一个唯一的frame,并且测定在每个frame中,是否在控制组和处理组样本间有统计上显著的差别。然后,每个frame被赋予一个p-值和比率。第五步:显著性胶带第五步:显著性胶带“Significance Gel”SIEVE在Spotfire内生成一个显著性胶带图,代表frames。较深蓝的条带代表那些在统计学上存在显著差别的frame
23、。较浅蓝的条带代表那些差异较不显著的。可以按代表显著性的p-值“dial up”向上拨或“dial down”向下拨,看看所有的frames,或者仅仅显示那些具有最显著差别的frames第六步:使用第六步:使用SEQUEST进行蛋白鉴定进行蛋白鉴定 使用SEQUEST,仅用具有确定的p-值的frames搜索数据库,因此鉴定的是那些差别表达的肽/蛋白。SIEVE对数据进行预过滤,大大减少了需要搜索的谱图数量;显著地节省了花费在蛋白鉴定上的时间,提高了复杂的生物标志物发现实验的通量。第七步:交互式的结果浏览器第七步:交互式的结果浏览器 SIEVE用优化设计的Spotfire界面,提供交互式的结果浏
24、览器,使生物标志物发现实验的结果最丰富地呈现。在ChromAlign、Recursive Base Peak Framing、SEQUEST之后的浏览器,提供迅速检查结果或调整处理参数的选项 在“显著性胶带”中点击一个frame,可以显示所有LC/MSn实验中重组的离子流图(RICs),frame信息,控制组和处理组样品之间的峰强度比,以及显示差别的p-值。如果在frame上使用SEQUEST数据库搜索,SEQUEST会输出一个稳定的列表,包括肽序、鉴定的蛋白和SEQUEST得分。蛋白生物标志物发现的流程实例蛋白生物标志物发现的流程实例收集样品收集样品3个时间点/每个病人,加入蛋白内标随机化随
25、机化所有的病人、时间点所有的整数净化前处理净化前处理免疫法去除血浆丰度最高的12个蛋白酶解酶解加入Trypsin,然后加入进样标准(Angio I和II)序列的序列的LC-MS/MS分析分析每个样品三针进样,进入LTQ或Orbitrap分析高通量数据分析高通量数据分析SIEVE自动化软件Bio-replicates生物重复样本生物重复样本Technical replicates技术重复样本技术重复样本treatment色谱保留时间m/z强度ControlstreatmentTreatments实例:实例:在一个三维空间中,所有的文件被同时分析在一个三维空间中,所有的文件被同时分析:chroma
26、tographic timem/zintensity把色谱图对齐(消除同一把色谱图对齐(消除同一分子之间保留时间的漂移)分子之间保留时间的漂移)然后进行递归的基峰然后进行递归的基峰Framing(Recursive Base Peak Framing)chromatographic timem/zintensityLabel Free使用内标法的测定准确度使用内标法的测定准确度CV:14.99%内标法CV:4.59%进样标准品2 Weeks2 Weeks5%的标的标准偏差,确准偏差,确保技术上的保技术上的重现性重现性方法的标方法的标准偏差,准偏差,优于同位优于同位素标记技素标记技术术不同的病人用不同的颜色不同的病人用不同的颜色 P4 P5 P6 表示表示Y轴上平均轴上平均 1.0的的标准偏差,关于格子,只使标准偏差,关于格子,只使用被选择的记录用被选择的记录区别时间点的不同形状区别时间点的不同形状 0小时小时 1小时小时 24小时小时