1、Negative impact of noise on the principal component analysisof NMR data对核磁共振数据进行主成分分析时噪音的负面影响Challenges of MetabonomicsSample Complexity and Data Handling a wide range of compound classes a wide variation in metabolite concentrations a large number of potential componentsmany sample analyses are req
2、uired for statistical relevancea complex raw dataset that needs to be processeddifferences between sample groups which need to be highlightedThe strategy for large scale metabonomics research核磁共振(NMR) 主要技术 能对样品实现非破坏性,非选择性的分析1H-NMR对含氢化合物均有响应,能完成代谢产物中大多数化合物的检测,满足代谢组学中的对尽可能多的化合物进行检測的目标. 不足: 其对每个分子的化学和物
3、理环境敏感,样品制备的要求很高,且数据处理比较复杂 NMR的动态范围有限,很难同时測定生物体系中共存的浓度相差较大的代谢产物 硬件投资较大 一、主成分分析一、主成分分析 主要原理 基本思想 几何意义 数学模型 软件应用 图形解释主成份分析的主要原理 在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。 从数学角度来看,这是一种降维处理技术。很显然,识辨系统在一个低维空间要比在一个高
4、维空间容易得多。主成分分析的基本思想 将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。 以两个指标为例,信息总量以总方差表示:2222112222112222112111)()(xxxxyyyyxxnxxnxxDxDiiiiii 其中y1、y2分别都是x1、x2的线性组合,并且信息尽可能地集中在y1上。在以后的分析中舍去y2,只用主成分y1来分析问题,起到了降维的作用。 主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事物的一种方法。主成分分析的几何意义 为了方便,我们在二维空间中讨论主成分的几何意义。设有n个样品,每个样品有
5、两个观测变量xl和x2,在由变量xl和x2所确定的二维平面中,如果n个样本点形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的) 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;椭圆的长短轴相差得越大,降维越有道理。 在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F 主成分分析的几何解释平移、旋转坐标轴数学模型定义:记x1,x2
6、,xP为原变量指标,z1,z2,zm(mp)为新变量指标pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111.(3.5.2) 各主成分的得分nmnnmmzzzzzzzzzZ212222111211基本步骤基本步骤(1)对原变量的样本数据矩阵进行标准化变换(2)求标准化数据矩阵的相关系数矩阵R(3)求R的特征根及相应的特征向量和贡献率等(4)确定主成分的个数(5)解释主成分的实际意义和作用具体步骤具体步骤(1 1)、将所获得的)、将所获得的P P个指标个指标 (每一指标有(每一指标有n n个样品)的一批数据写成一个个样品)的一批数据写成一个(P
7、Pn)n)维数据矩阵维数据矩阵pYYY,21npppnnyyyyyyyyyy,2,1 ,22,21 ,2,12,11 ,1(2 2)为了消除各个变量量纲之间的差异,对数据矩阵)为了消除各个变量量纲之间的差异,对数据矩阵Y Y作标作标准化处理,即对每一个指标分量作标准化变换,变换公式为:准化处理,即对每一个指标分量作标准化变换,变换公式为:iiijijSYYXnjpi, 2 , 1, 2 , 1其中:样本均值其中:样本均值nkikiYnY11样本标准差样本标准差2111nkiikiYYnS得标准化后的数据矩阵得标准化后的数据矩阵pnppnnxxxxxxxxxX212222111211(3 3)、
8、计算样本相关系数矩阵)、计算样本相关系数矩阵R R11121221112pppprrrrrrXXR其中:其中:nkjkikijXXnr111(4 4)、由下列特征方程式)、由下列特征方程式0 RI(I I为单位矩阵)为单位矩阵)可求出可求出R R的特征值的特征值p21pii, 2 , 1再根据求出的特征向量再根据求出的特征向量piiii,21122221piiii(5 5)、把标准化后数据矩阵)、把标准化后数据矩阵X X的行向量的行向量 的线性组合的线性组合pXXX,21ipiiiiXXXF2211 称为主成份,称称为主成份,称F1F1是第一主成份,是第一主成份,F2F2是第二主是第二主成份,
9、成份,FiFi是第是第I I主成份。主成份。注:求各主成份的关键是求特征根(注:求各主成份的关键是求特征根( )及其相应的特)及其相应的特征向量(征向量( )。又称为主成分载荷()。又称为主成分载荷(loadingloading),它),它表示主成分和相应的原先变量的相关系数。表示主成分和相应的原先变量的相关系数。(6 6)主成份分析的方差贡献率)主成份分析的方差贡献率要说明主成份的方差贡献率先要说明特征值要说明主成份的方差贡献率先要说明特征值 的的意义意义i 是样本点在其第是样本点在其第 i i个主成份方向上的方差个主成份方向上的方差(分散程度),如果(分散程度),如果 的值很小,说明样本间
10、的值很小,说明样本间在坐标在坐标 的方向上分散程度很小,这个主成份的方向上分散程度很小,这个主成份在分析样本数据时所起作用不大,可以忽略不计。在分析样本数据时所起作用不大,可以忽略不计。那么那么 小到什么程度才认为无足轻重,可以忽略小到什么程度才认为无足轻重,可以忽略呢?为此引入方差贡献率。呢?为此引入方差贡献率。称比值称比值 为第为第k k个主成分个主成分 的方差贡献率。的方差贡献率。iiZipkkk1kZipiimii11为前为前m个主成分个主成分 的累计方差贡的累计方差贡献率。献率。mZZZ,21由于由于 ,所以,所以p个主成分的方差贡献率个主成分的方差贡献率是依次递减的,这样是依次递减
11、的,这样 对应的第一主成分对应的第一主成分F1起起的作用最大,其次是第二主成分的作用最大,其次是第二主成分F2。通常要求作为主成份的特征值通常要求作为主成份的特征值 要大于要大于1,各个主,各个主成分按累计方差贡献率要达到成分按累计方差贡献率要达到85%。其实,这只其实,这只是一个大体的说法;具体选几个,要看实际情况是一个大体的说法;具体选几个,要看实际情况而定。而定。p211i软件应用 成绩数据(成绩数据(student.sav) 100个学生的数学、物理、化学、语文、历个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分史、英语的成绩如下表(部分)。)。 SPSS数据形式数据形式主
12、成分分析实例1不旋转使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components)菜单:菜单:AnalyzeData ReductionFactor(主成分分析法(主成分分析法Principal components,选取特征值,选取特征值1,不旋转,不旋转) Total Variance ExplainedTotal Variance Explained3.73562.25462.2543.73562.25462.2541.13318.88781.1421.13318.88781.142.4577.61988.761.3235.37694.137.1993.
13、32097.457.1532.543100.000Component123456Total% of Variance Cumulative %Total% of Variance Cumulative %Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method: Principal Component Analysis.这里的这里的Initial EigenvaluesInitial Eigenvalues就是这里的六个主轴长度,即就是这里的六个主轴长度,即特征值。特征值。 怎么解释这两个主成分。主成分是原始
14、六个变量的线性组合。这由下表给出。 Component MatrixComponent Matrixa a-.806.353-.040.468.021.068-.674.531-.454-.240-.001-.006-.675.513.499-.181.002.003.893.306-.004-.037.077.320.825.435.002.079-.342-.083.836.425.000.074.276-.197MATHPHYSCHEMLITERATHISTORYENGLISH123456ComponentExtraction Method: Principal Component An
15、alysis.6 components extracted.a. 这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分为11234562123456-0.806-0.674-0.6750.8930.8250.8360.3530.5310.5130.3060.4350.425yx
16、xxxxxyxxxxxx 这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。 可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。PCA实例2 不同嫌疑人头发中元素的含量(g/g) 样品CuMnClBrI19.20.30 173012.0 3.6 212.40.39 93050.0 2.3 37.20.32 275065.3 3.4 410.20.36 15003.4 5.3 510.10.50 104039.2 1.9 66.50.20 249090.0 4.6 75.60.29 294088.0 5.6 811.
17、80.42 86743.1 1.5 98.50.25 16205.2 6.2 原始数据原始数据X(95)autoscaling计算计算相关矩阵相关矩阵计算计算特征值特征值模式识别与分类得分图主成分图形解释PCA实例2-1.5-0.50.51.52.5-3-2-10123t1t2258491367-1.5-0.50.51.52.5-3-2-10123t1t22584913673个聚类分属三人t1对t2作图经过聚类分析后经过聚类分析后结果如图所示结果如图所示模式识别与分类主成分图形解释PCA实例2载荷图-1-0.8-0.6-0.4-0.200.20.40.60.8-0.6-0.4-0.200.20
18、.40.6l1l2CuMnBrClIl1对l2作图载荷大小是重要性的度量位于原点的载荷不重要可用于进行生物标记物的筛选 PCA is used to simplify the examination of complex metabolite mixtures obtained from biological samples that may be composed of hundreds or thousands of chemical components. A common concern with PCA of NMR data is the potential over emphas
19、is of small changes in high concentration metabolites that would over-shadow significant and large changes in low-concentration components that may lead to a skewed or irrelevant clustering of the NMR data.We have identified an additional concern, very small and random fluctuations within the noise
20、of the NMR spectrum can also result in large and irrelevant variations in the PCA clustering. Alleviation of this problem is obtained by simply excluding the noise region fromthe PCA by a judicious choice of a threshold above the spectral noise.The success of the application of PCA in the analysis o
21、f NMR metabolomic data is intrinsically dependent on the consistency of sample and data handling .数据输出的最终目的是将代谢组数据转化为标准化和统一的格式数据输出的最终目的是将代谢组数据转化为标准化和统一的格式 。分析仪。分析仪器直接导出的元数据,由于原始谱图的信号量大、噪音复杂、格式各样、尺器直接导出的元数据,由于原始谱图的信号量大、噪音复杂、格式各样、尺度迥异、基线漂移和测试重现性等问题,不能直接用于模式识别分析,此前度迥异、基线漂移和测试重现性等问题,不能直接用于模式识别分析,此前须经过原始
22、数据的预处理,如采用多种方法进行原始图谱的分段积分、滤噪、须经过原始数据的预处理,如采用多种方法进行原始图谱的分段积分、滤噪、峰匹配、标准化和归一化等处理,最后提取出二维数据表形式,即行代表样峰匹配、标准化和归一化等处理,最后提取出二维数据表形式,即行代表样品或试验数目;列表示相应的单个测定指标品或试验数目;列表示相应的单个测定指标( (通常为信号强度等通常为信号强度等).).Any observed variations in the NMR data should be related to the state of the cell and organism, as opposed to
23、 subtle changes in chemical shifts, line-widths, baseline or artifacts from processing. To minimize these affects and to simplify data handling, NMR spectral data are usually divided into buckets with widths of 0.010.04 ppm . This tends to smooth out errors from fluctuations in chemical shifts and l
24、ine-shape between NMR spectra caused by sample handling or preparation. Another similar concern is the impact of changes in abundant metabolites relative to changes in the majority of low-concentration chemicals . To minimize this issue, a transformation of the original data is performed that enhanc
25、es the intensity of weak peaks relative to strong peaks and generates a constant variance in the data.In this article, we describe the observation of another potential source of error in PCA of NMR metabolomic data that resulted in poor clustering of ideal NMR data with high similarity. Extremely sm
26、all variations within the noise of high signal-to-noise NMR spectra had a significantly and surprisingly negative impact in the quality of the clustering in PCA scores plot.The NMR metabolomics test data sets consisted of three individual samples composed of either 500 mM or 1 mM of(i)ATP, (ii) gluc
27、ose, and (iii) ATP and glucose.The NMR data were Fourier transformed,phased and baseline corrected.To our surprise, we observed a relatively large scattering along PC2, equivalent in magnitude to the separation in PC1, but even more troubling was the observation that one of the ATP spectrum (#2) fel
28、l outside the 95% confidence level in the PCA plot. The success of PCA of NMR metabolomics data is intrinsically tied to the consistency in the handling, preparation,collection, and processing of the NMR data .Problems in phasing(相位调整), baseline correction(基线矫正),zero filling(零填充)or instrument stabil
29、ity(设备稳定性) would easily lead to the observed scatter and the outlier seen along PC2. But, if any of these problems were present it would also result in a similar scatter along PC1. This is clearly not the case. It is also apparent that these processing or acquisition problems are not present by visu
30、ally inspecting the NMR spectra. Fig. 2 compares the outlier ATP spectrum (#2) against the ATP spectrum (#9), which has a minimal variation along PC2.There is no visual difference between these two spectra that would easily justify the large difference along PC2.( (化学位移化学位移) ) PCA including the gluc
31、ose NMR data with and without a noise thresholdConclusion A fundamental benefit of PCA is the identification of distinct clusters in a scores plot that highlights discriminating characteristics reflecting the source or treatment of the NMR samples. Essential to the successful interpretation of NMR P
32、CA data is a requirement that the observed variations identified by PCA are related to features of the biological sample and not an artifact of data manipulation or sample handling. Processing NMR data for PCA generally includes binning the entire spectrum,which also incorporates all the noise regio
33、ns. Our analysis of ideal metabolomic data indicates that this inclusion of noise may result in significant and irrelevant spreading of the PCA scores clusters that may inhibit proper interpretation of the data. A simple solution is a routine application of a filter to exclude the noise region below a defined peak intensity threshold. Q&A