主成分分析讲解课件.ppt

上传人(卖家):晟晟文业 文档编号:4283587 上传时间:2022-11-25 格式:PPT 页数:43 大小:629KB
下载 相关 举报
主成分分析讲解课件.ppt_第1页
第1页 / 共43页
主成分分析讲解课件.ppt_第2页
第2页 / 共43页
主成分分析讲解课件.ppt_第3页
第3页 / 共43页
主成分分析讲解课件.ppt_第4页
第4页 / 共43页
主成分分析讲解课件.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

1、11/25/2022Dept.of Epidemio&Biostat,SPH1主成分分析主成分分析Principal Component Analysis11/25/2022Dept.of Epidemio&Biostat,SPH2统计学研究的核心问题统计学研究的核心问题?没有变异就没有统计学没有变异就没有统计学变变 异异VARIATION变异性的度量?变异性的度量?方差方差 Variance11/25/2022Dept.of Epidemio&Biostat,SPH3方差是什么?方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息

2、量越小11/25/2022Dept.of Epidemio&Biostat,SPH4谁更重要?492.008.667477.50337.667历史成绩数学成绩NMeanVariance11/25/2022Dept.of Epidemio&Biostat,SPH5两组变量:A BDescriptive Statistics3080.9561.2773079.4361.7913060.8374.3923080.3782.7723080.8268.3913060.8243.628A1A2A3B1B2B3NMeanVariance11/25/2022Dept.of Epidemio&Biostat,S

3、PH611/25/2022Dept.of Epidemio&Biostat,SPH711/25/2022Dept.of Epidemio&Biostat,SPH8Correlations1.335.046.3351.056.046.0561A1A2A3A1A2A3Correlations1.996.249.9961.258.249.2581B1B2B3B1B2B311/25/2022Dept.of Epidemio&Biostat,SPH9协方差矩阵协方差矩阵样本的方差样本的方差-协方差矩阵(协方差矩阵(variance-covariance matrix)如果有如果有p个观测变量个观测变量

4、,则样本则样本的协方差矩阵记为的协方差矩阵记为pxxx,21ppppppsssssssssS212222111211pixxnssjiijiii,2,1,)(1122pkpikixxxxnssjkkjiijkiik,2,1;,2,1;)(1111/25/2022Dept.of Epidemio&Biostat,SPH10相关矩阵相关矩阵 如果有如果有p个观测变量个观测变量 ,其相,其相关阵(关阵(correlation matrix)记为)记为pxxx,2111121221112pppprrrrrrRkipkpisssrkkiiikik;,2,1;,2,1;/11/25/2022Dept.of

5、 Epidemio&Biostat,SPH11矩阵的特征值和特征向量矩阵的特征值和特征向量 对于方阵对于方阵A,如存在常数,如存在常数及非零向量及非零向量x,使使 Ax=x 则则为为A的一个特征值,的一个特征值,x为与为与对应的矩对应的矩阵阵A的特征向量。的特征向量。n介方阵有介方阵有n对特征值和特征向量对特征值和特征向量11/25/2022Dept.of Epidemio&Biostat,SPH12正交向量(阵)、单位向量正交向量(阵)、单位向量 正交向量:正交向量:a=(a1,ap),b=(b1,bp)如果如果ab=a1b1+apbp=0,则称则称a、b正交正交 单位向量:向量单位向量:向

6、量a=(a1,ap),如果如果 则称则称a为单位向量为单位向量 正交阵:正交阵:n阶方阵阶方阵A,如果,如果 AA=AA=I,则称,则称A为为n阶正交阵,其中阶正交阵,其中A的列向量(或行向量)为正交向量,的列向量(或行向量)为正交向量,A=A-11.22221paaa11/25/2022Dept.of Epidemio&Biostat,SPH13WEIGHT7472706866646260HEIGHT19018017016015011/25/2022Dept.of Epidemio&Biostat,SPH1411/25/2022Dept.of Epidemio&Biostat,SPH1511

7、/25/2022Dept.of Epidemio&Biostat,SPH1611/25/2022Dept.of Epidemio&Biostat,SPH17Total Variance ExplainedTotal Variance Explained1.91395.66495.6648.672E-024.336100.000Component12Total%of Variance Cumulative%Initial EigenvaluesExtraction Method:Principal Component Analysis.11/25/2022Dept.of Epidemio&Bio

8、stat,SPH18 主成分的概念主成分的概念 1 设设x1,x2,xp为为 p 维随机变量维随机变量 X1,X2,Xp的标准化变换的标准化变换 如果其线性组合如果其线性组合 满足满足则称则称C1为第一主成分。为第一主成分。iiiiSXXx/)(ppxaxaxaC12121111.最大,且使)(,1.121212211CVaraaap11/25/2022Dept.of Epidemio&Biostat,SPH19主成分的概念主成分的概念 2 若若满足满足则称则称C2为第二主成分。为第二主成分。类似地,共可得到至多类似地,共可得到至多 p 个主成分。个主成分。ppxaxaxaC22221212.

9、最大,且使)(,0.,1.2112112222122222221CVaraaaaaaaaappp11/25/2022Dept.of Epidemio&Biostat,SPH20主成分的性质主成分的性质 主成分主成分 C1,C2,Cp 具有以下性质:具有以下性质:(1)主成分间互不相关主成分间互不相关Corr(Ci,Cj)=0 i j(2)组合系数组合系数(ai1,ai2,aip)构成的向量为单位构成的向量为单位向量向量(3)各主成分的方差是依次递减的,各主成分的方差是依次递减的,即即Var(C1)Var(C2)Var(Cp)(4)总方差不增不减,总方差不增不减,即即 Var(C1)+Var(C

10、2)+Var(Cp)=Var(x1)+Var(x2)+Var(xp)=p 11/25/2022Dept.of Epidemio&Biostat,SPH21主成分的计算主成分的计算 1设设 R 为为 X1,X2,Xp 的相关矩阵,则存在的相关矩阵,则存在 1 2 p0,和正交矩阵,和正交矩阵A,使,使其中其中 i为相关矩阵为相关矩阵R的第的第i个特征值个特征值(eigenvalue)(ai1 ai2 aip)则是相关矩阵则是相关矩阵R的第的第i个特征值对应的特征向量。个特征值对应的特征向量。i是第是第i个主成分的方差个主成分的方差即RAA1.1.1.212211121212221212111pp

11、ppppppppprrrrrraaaaaaaaaA0011/25/2022Dept.of Epidemio&Biostat,SPH22主成分的计算主成分的计算 2 记主成分记主成分C=(C1 C2 Cp),则,则 C=Ax 即即ppppppppxxxaaaaaaaaaCCC.212122221112112111/25/2022Dept.of Epidemio&Biostat,SPH23主成分的计算主成分的计算 3 因子模型(全分量模型)表达形式因子模型(全分量模型)表达形式 x=AC 即即矩阵矩阵A称载荷矩阵,反映各主成分对原始称载荷矩阵,反映各主成分对原始变量变量x各分量的贡献大小。各分量的

12、贡献大小。ppppppppCCCaaaaaaaaaxxx.212122212121112111/25/2022Dept.of Epidemio&Biostat,SPH24主成分的计算主成分的计算 4 因子模型(全分量模型)表达因子模型(全分量模型)表达-主成分标准化变换主成分标准化变换ppppppppppppCCCaaaaaaaaaxxx/./.22112211222211212211112111/25/2022Dept.of Epidemio&Biostat,SPH25x=Lcppppppppccclllllllllxxx.2121222121211121lij是是xj和和ci的相关系数的相

13、关系数SPSS输出的系数矩阵是输出的系数矩阵是L矩阵矩阵iijijla/11/25/2022Dept.of Epidemio&Biostat,SPH26实例实例 城市男生形态资料城市男生形态资料数据来自方积乾数据来自方积乾医学统计学与电脑试验医学统计学与电脑试验第第2 2版版 28城市男生形态指标平均数28城市男生形态指标平均数a a173.28173.2893.6293.6286.7286.7238.9738.9727.5127.5160.1060.10172.09172.0992.8392.8387.3987.3938.6238.6227.8227.8260.3860.38171.4617

14、1.4692.7892.7885.5985.5938.8338.8327.4627.4659.7459.74170.08170.0892.2592.2585.9285.9238.3338.3327.2927.2958.0458.04170.61170.6192.3692.3687.4687.4638.3838.3827.1427.1459.6759.67171.69171.6992.8592.8587.4587.4538.1938.1927.1027.1059.4459.44171.46171.4692.9392.9387.0687.0638.5838.5827.3627.3658.7058.

15、70171.60171.6093.2893.2888.0388.0338.6838.6827.2227.2259.7559.75171.60171.6092.2692.2687.6387.6338.7938.7926.6326.6360.5060.50171.16171.1692.6292.6287.1187.1138.1938.1927.1827.1858.7258.721 12 23 34 45 56 67 78 89 91010身高身高坐高坐高胸围胸围肩宽肩宽骨盆宽骨盆宽体重体重Limited to first 10 cases.Limited to first 10 cases.a.a

16、.11/25/2022Dept.of Epidemio&Biostat,SPH27实例主成分分析结果特征值(方差)及其比例Total Variance ExplainedTotal Variance Explained3.1733.17352.88552.88552.88552.8851.3171.31721.94621.94674.83174.831.937.93715.61315.61390.44590.445.420.4207.0057.00597.44997.449.121.1212.0222.02299.47299.472.032.032.528.528100.000100.000C

17、omponentComponent1 12 23 34 45 56 6TotalTotal%of Variance%of VarianceCumulative%Cumulative%Extraction Sums of Squared LoadingsExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.11/25/2022Dept.of Epidemio&Biostat,SPH28主成分分析结果L矩阵Component MatrixComponent Matrixa a.930.93

18、0-.225-.225-.184-.184-.164-.164.079.079.130.130.936.936-.092-.092-.162-.162-.252-.252.106.106-.119-.119.616.616-.054-.054.718.718.296.296.121.121-.003-.003.336.336.753.753-.455-.455.323.323.088.088.002.002.330.330.802.802.379.379-.302-.302-.109-.109.016.016.911.911-.209-.209-.101-.101.217.217-.264-.

19、264-.016-.016身高身高坐高坐高胸围胸围肩宽肩宽骨盆宽骨盆宽体重体重1 12 23 34 45 56 6ComponentComponentExtraction Method:Principal Component Analysis.6 components extracted.a.注意注意L矩阵的下标,是列在前,行在后矩阵的下标,是列在前,行在后11/25/2022Dept.of Epidemio&Biostat,SPH29主成分分析结果L矩阵Component MatrixComponent Matrixa a.930.930-.225-.225-.184-.184-.164-.

20、164.079.079.130.130.936.936-.092-.092-.162-.162-.252-.252.106.106-.119-.119.616.616-.054-.054.718.718.296.296.121.121-.003-.003.336.336.753.753-.455-.455.323.323.088.088.002.002.330.330.802.802.379.379-.302-.302-.109-.109.016.016.911.911-.209-.209-.101-.101.217.217-.264-.264-.016-.016身高身高坐高坐高胸围胸围肩宽肩

21、宽骨盆宽骨盆宽体重体重1 12 23 34 45 56 6ComponentComponentExtraction Method:Principal Component Analysis.6 components extracted.a.注意注意L矩阵的下标,是列在前,行在后矩阵的下标,是列在前,行在后654321xxxxxx654321cccccc11/25/2022Dept.of Epidemio&Biostat,SPH30主成分和原变量的关系 观察观察L矩阵,由相关系数做出解释矩阵,由相关系数做出解释 主成分未必一定有明确的解释主成分未必一定有明确的解释 选取有明确解释的主成分做综合指标

22、,选取有明确解释的主成分做综合指标,主成分得分就是主成分得分就是“综合指数综合指数”。11/25/2022Dept.of Epidemio&Biostat,SPH31实例的标准化第一主成分得分11/25/2022Dept.of Epidemio&Biostat,SPH32实例的标准化第一、二主成分得分11/25/2022Dept.of Epidemio&Biostat,SPH33主成分数目的保留主成分数目的保留降维问题降维问题 保留多少个主成分取决于保留部分的累保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡志

23、着前几个主成分概括信息之多寡。实际上就是看特征值实际上就是看特征值 的大小的大小 保留多少主成分为宜主要根据实际问题保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。和经验决定,并无严格统计规则。11/25/2022Dept.of Epidemio&Biostat,SPH34主成分分析的应用主成分分析的应用 综合指标的抽取综合指标的抽取 主成分回归主成分回归 解决自变量严重共线性问题解决自变量严重共线性问题 主成分判别主成分判别 解决解释变量的共线性问题解决解释变量的共线性问题 变量聚类中计算相似系数变量聚类中计算相似系数 因子分析因子分析11/25/2022Dept.of Ep

24、idemio&Biostat,SPH35例例-主成分回归主成分回归 22例胎儿受精龄(例胎儿受精龄(Y,周)与胎儿外型测周)与胎儿外型测量指标:量指标:均数均数 标准差标准差身高(身高(X1,cm)33.05 9.71 头围(头围(X2,cm)23.26 6.86体重(体重(X3,g)936.9 690.3 试求由试求由X1、X2、X3推算推算Y的回归方程的回归方程11/25/2022Dept.of Epidemio&Biostat,SPH36例例-主成分回归主成分回归 结果结果1 直接做多重回归结果直接做多重回归结果321007.016.269.101.11XXXY11/25/2022Dep

25、t.of Epidemio&Biostat,SPH37X1、X2、X3与与Y的相关阵的相关阵X1X2X3YX11X20.9981X30.9440.9471Y0.9520.9430.970111/25/2022Dept.of Epidemio&Biostat,SPH38主成分分析结果主成分分析结果(表中上半部的系数矩阵是矩阵表中上半部的系数矩阵是矩阵A)C1C2C3x1 0.58 -0.42 0.70 x2 0.58 -0.39 -0.71x3 0.57 0.82 0.02Var 2.93 0.07 0.00%97.54 2.38 0.08累积累积%97.54 99.92 10011/25/20

26、22Dept.of Epidemio&Biostat,SPH39主成分回归分析结果主成分回归分析结果2110.388.373.23CCY333222111157.058.058.0SXXSXXSXXC333222111282.039.042.0SXXSXXSXXC11/25/2022Dept.of Epidemio&Biostat,SPH40主成分回归分析结果主成分回归分析结果321Pr007.015.010.044.10)2(XXXYin321005.019.021.012.8)1.0(XXXYRidge附:本例岭回归分析结果附:本例岭回归分析结果11/25/2022Dept.of Epid

27、emio&Biostat,SPH41主成分分析应用实例主成分分析应用实例综合指标选取综合指标选取计算主成分的两种方法计算主成分的两种方法 如果各变量具有同等尺度如果各变量具有同等尺度 对角化相关阵还是协方差阵?对角化相关阵还是协方差阵?从协方差阵计算主成分的一个特点:从协方差阵计算主成分的一个特点:方差大的变量倾向在第一主成分上占方差大的变量倾向在第一主成分上占有更大的比重(与从相关阵计算比较)。有更大的比重(与从相关阵计算比较)。11/25/2022Dept.of Epidemio&Biostat,SPH42广州市某年空气污染指标的主成分分析结果广州市某年空气污染指标的主成分分析结果从相关阵计算从相关阵计算从协方差阵计算从协方差阵计算C1C2C3C1C2C3iNOx 0.63-0.17-0.76 0.93-0.30-0.21iTSP 0.51 0.82 0.25 0.29 0.95-0.06iSO2 0.58-0.55 0.60 0.21 0.00 0.97 1.88 0.70 0.424349 891 350%62.723.413.977.815.9 6.311/25/2022Dept.of Epidemio&Biostat,SPH43广州市某2个月的空气污染指数jjjjjaXaiw11/)(_

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(主成分分析讲解课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|