1、1Department of Health Statistics,School of Public Health,LZMC相关和回归相关和回归主讲教师主讲教师 张俊辉张俊辉2Department of Health Statistics,School of Public Health,LZMC目的和要求:目的和要求:熟悉相关和回归的熟悉相关和回归的SPSSSPSS操作过程操作过程掌握结果的分析和解释掌握结果的分析和解释3Department of Health Statistics,School of Public Health,LZMC内容内容双变量关联性分析双变量关联性分析 直线相关(直线
2、相关(重点重点)秩相关(秩相关(适用条件适用条件)分类变量的关联性分析分类变量的关联性分析直线回归(直线回归(重点重点)4Department of Health Statistics,School of Public Health,LZMCSPSS软件中:软件中:双变量关联性分析双变量关联性分析 直线回归直线回归5Department of Health Statistics,School of Public Health,LZMC直线相关直线相关Linear correlation6Department of Health Statistics,School of Public Healt
3、h,LZMC直线相关的定义直线相关的定义统计学上两个随机变量之间呈直线趋势的关系被统计学上两个随机变量之间呈直线趋势的关系被称为称为直线相关,直线相关,又称又称简单相关简单相关。直线相关系数直线相关系数(linear correlation coefficient):定量描述两变量间直线关系的方向和密切程度的指标。又称又称Pearson 积矩积矩相关系数相关系数(Pearson product moment coefficient)总体相关系数总体相关系数,样本相关系数样本相关系数r7Department of Health Statistics,School of Public Health
4、,LZMC1.考察数据的分布,即分析变量考察数据的分布,即分析变量x和和y的的正正态性态性。2.绘制散点图绘制散点图,看有无线性趋势。,看有无线性趋势。3.计算样本相关系数计算样本相关系数。4.总体相关系数的总体相关系数的假设检验假设检验t检验和查表法检验和查表法。8Department of Health Statistics,School of Public Health,LZMC 9Department of Health Statistics,School of Public Health,LZMC第一步第一步:数据录入数据录入设置两个变量:设置两个变量:x体重体重()y 肾总体积肾总
5、体积(mL)10Department of Health Statistics,School of Public Health,LZMCAnalyze Descriptive Statistics ExploreDependent list:x yPlots:Normality plots with tests正态性检验正态性检验第二步第二步:统计分析统计分析11Department of Health Statistics,School of Public Health,LZMCTests of Normality.14515.200*.97015.865.12815.200*.95015.
6、528体 重肾 总 体 积StatisticdfSig.StatisticdfSig.Kolmogorov-SmirnovaShapiro-WilkThis is a lower bound of the true significance.*.Lilliefors Significance Correctiona.P0.10,服从正态分布,服从正态分布12Department of Health Statistics,School of Public Health,LZMC第二步第二步:统计分析统计分析2 2.绘制散点图绘制散点图 Graphs Scatter Simple13Departm
7、ent of Health Statistics,School of Public Health,LZMCGraphs Scatter Simple简单散点图简单散点图14Department of Health Statistics,School of Public Health,LZMCSimple Scatterplot 对话框对话框应变量应变量y自变量自变量x15Department of Health Statistics,School of Public Health,LZMC 从图中可见,从图中可见,体重和肾总体重和肾总体积有比较体积有比较明显的明显的直线直线相关趋势相关趋势,也
8、没有发现也没有发现影响过强的影响过强的异常点,可异常点,可以进行相关以进行相关分析。分析。16Department of Health Statistics,School of Public Health,LZMC3.相关性分析:相关性分析:AnalyzeCorrelateBivariate17Department of Health Statistics,School of Public Health,LZMCBivariate 对话框对话框x y同时选入同时选入默认默认18Department of Health Statistics,School of Public Health,LZM
9、Cx和和y的相关系数的相关系数 r=0.875对对r假设检验的假设检验的 P0.001Correlations1.875*.0001515.875*1.0001515Pearson CorrelationSig.(2-tailed)NPearson CorrelationSig.(2-tailed)N体重肾总体积体重肾总体积Correlation is significant at the 0.01 level(2-tailed).*.19Department of Health Statistics,School of Public Health,LZMC20Department of He
10、alth Statistics,School of Public Health,LZMC 秩相关(练习)秩相关(练习)教材教材 例例13.413.4数据录入与数据录入与Pearson相关完全相同,相关完全相同,只是分析时的选项要选择只是分析时的选项要选择Spearman相关相关21Department of Health Statistics,School of Public Health,LZMC表表 1 15 例例成年男子的舒张压与夜间最低血氧含量分级测量值成年男子的舒张压与夜间最低血氧含量分级测量值 编号编号 舒张压舒张压 x 夜间夜间最低血氧最低血氧 含量分级含量分级 y(1)(2)(
11、4)1 75 1 2 80 1 3 80 2 4 90 1 5 90 2 6 90 2 7 90 3 8 95 2 9 95 3 10 100 3 11 100 3 12 110 4 13 115 4 14 120 4 15 125 4 合计合计 22Department of Health Statistics,School of Public Health,LZMC1、数据录入:设置、数据录入:设置x和和y两个变量两个变量设置两个变量:设置两个变量:px舒张压舒张压py 夜间最低血氧夜间最低血氧 含量分级含量分级23Department of Health Statistics,Schoo
12、l of Public Health,LZMC2、秩相关操作、秩相关操作x y同时选入同时选入选择选择Spearman24Department of Health Statistics,School of Public Health,LZMC3、秩相关结果、秩相关结果x和和y的相关系数的相关系数 rs=0.897对对r假设检验的假设检验的 P0.00125Department of Health Statistics,School of Public Health,LZMC 分类变量的关联性分析分类变量的关联性分析教材教材 例例13.713.726Department of Health St
13、atistics,School of Public Health,LZMC计算列联系数计算列联系数27Department of Health Statistics,School of Public Health,LZMCSymmetric MeasuresSymmetric Measures.355.000238Contingency CoefficientNominal by NominalN of Valid CasesValueApprox.Sig.Not assuming the null hypothesis.a.Using the asymptotic standard erro
14、r assuming the null hypothesis.b.Chi-Square TestsChi-Square Tests34.213a3.00035.1093.00028.0151.000238Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)0 cells(.0%)have expected count less than 5.Theminimum expected count is 18.03.a.列联系数列联系数=0.355
15、,P0.00128Department of Health Statistics,School of Public Health,LZMC直线回归直线回归Linear Regression29Department of Health Statistics,School of Public Health,LZMC直线回归含义 p用用直线回归方程直线回归方程描述描述成对观测数成对观测数据据中中两变量两变量间的间的数量依存关系数量依存关系30Department of Health Statistics,School of Public Health,LZMCv直线回归方程:直线回归方程:x为自变量
16、为自变量(independent variable),也称为解释变也称为解释变量量(explanatory variable)y为因变量为因变量(dependent variable),也称为应变量也称为应变量(response variable)yabx直线回归方程31Department of Health Statistics,School of Public Health,LZMC直线回归方程:直线回归方程:p 为当为当 x取某一值时应变量取某一值时应变量y的的平均估计值平均估计值 p a为截距为截距(intercept),即当,即当 x=0 时时y的的平均估平均估计值计值p b为回归
17、系数为回归系数(regression coefficient),即直线,即直线的斜率,表示的斜率,表示x改变一个单位时改变一个单位时y的的平均改变平均改变量量。yabx y32Department of Health Statistics,School of Public Health,LZMC直线回归方程直线回归方程直线回归分析目的在于找出一条直线回归分析目的在于找出一条最能代表这些数最能代表这些数据关系据关系的直线,用直线方程来描述两变量的回归的直线,用直线方程来描述两变量的回归关系。关系。最小二乘法原理:实测点到直线的最小二乘法原理:实测点到直线的纵向距离平方纵向距离平方之和之和达到最小
18、。达到最小。yab x33Department of Health Statistics,School of Public Health,LZMC直线回归的统计推断直线回归的统计推断对对的两种假设检验方法包括:的两种假设检验方法包括:t检验检验 方差分析方差分析 H0:=0,即无直线关系,即无直线关系H1:0,即有直线关系,即有直线关系34Department of Health Statistics,School of Public Health,LZMC方差分析的基本思想方差分析的基本思想 将全部数据的离均差平方和将全部数据的离均差平方和SS总总分解成分解成若干部分,其自由度也做相应的分解
19、。若干部分,其自由度也做相应的分解。35Department of Health Statistics,School of Public Health,LZMC36Department of Health Statistics,School of Public Health,LZMCp方差分析法的原理:方差分析法的原理:对应变量对应变量y的离均差平方和进行的离均差平方和进行分解分解直线回归的统计推断直线回归的统计推断37Department of Health Statistics,School of Public Health,LZMCP(x,y)yyyy yyyxy(,)x y0残差残差回
20、归回归总变异总变异因变量因变量y的离均差平方和分解示意图的离均差平方和分解示意图Y的均值的均值实测值实测值y估计值估计值38Department of Health Statistics,School of Public Health,LZMC 的分解的分解上述三段的数学表达式为:上述三段的数学表达式为:将等式两端平方后再求和,最后得到:将等式两端平方后再求和,最后得到:即即SS总总(lYY)=SS回回 +SS残残YYl)()(YYYYYY222)()()(YYYYYY39Department of Health Statistics,School of Public Health,LZMC
21、:总离均差平方和:总离均差平方和,即不考虑,即不考虑y与与x回归关系的回归关系的y的总的总 变异变异 :回归平方和,:回归平方和,即即y的总变异中可以用的总变异中可以用y与与x的回归关的回归关 系所解释的部分。值越大,说明回归效果越好系所解释的部分。值越大,说明回归效果越好。:残差平方和,即:残差平方和,即y的总变异中无法用的总变异中无法用y与与x的回归关的回归关 系解释的部分,反映系解释的部分,反映随机误差随机误差。在散点图中,各实。在散点图中,各实 测点离回归直线越近,测点离回归直线越近,SS残残 越小,说明直线回归越小,说明直线回归 的估计误差越小。的估计误差越小。SS总SS回SS残40
22、Department of Health Statistics,School of Public Health,LZMC自由度的分解自由度的分解41Department of Health Statistics,School of Public Health,LZMC构造构造F统计量统计量/MSSSFMSSS回回回残残残42Department of Health Statistics,School of Public Health,LZMC方差分析表方差分析表变异变异来源来源离均差离均差平方和平方和SS自由度自由度 均方均方MS统计量统计量F总总 总总=n-1回归回归 回回=1MS回回=SS
23、回回/1MS回回/MS残残残差残差 残残=n-2MS残残=SS残残/(n-2)2yySS 总2(yy)SS 回2SS(yy)残43Department of Health Statistics,School of Public Health,LZMC 本例本例 1.建立检验假设,确定检验水准建立检验假设,确定检验水准=0.0544Department of Health Statistics,School of Public Health,LZMC2.计算检验统计量计算检验统计量45Department of Health Statistics,School of Public Health,
24、LZMC3.确定确定P值,作出统计推断值,作出统计推断 P0.01,按照,按照0.05检验水准拒绝检验水准拒绝H0。回归方程有回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系。直线回归关系。46Department of Health Statistics,School of Public Health,LZMC1.1.考察数据的分布考察数据的分布,即分析即分析y y变量的变量的正态性正态性。2.2.作作散点图散点图,确定有无线性趋势。确定有无线性趋势。3.3.建立建立直线回归方程直线回归方程。4.4.对方程及其对方程及其参数参
25、数进行进行估计估计与与假设检验假设检验。5.5.绘制回归直线绘制回归直线。47Department of Health Statistics,School of Public Health,LZMC 例例14.1 某研究欲探讨男性腰围与腹腔内某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对脂肪面积的关系,对20名男性志愿受试名男性志愿受试者测量其腰围者测量其腰围(cm),并采用磁共振成像,并采用磁共振成像法测量其腹腔内脂肪面积法测量其腹腔内脂肪面积(cm2),结果,结果如表如表14.1所示。试建立腹腔内脂肪面积所示。试建立腹腔内脂肪面积(y)和腰围和腰围(x)的直线回归方程。的直线回归方程。48
26、Department of Health Statistics,School of Public Health,LZMC第一步第一步:数据录入数据录入设置两个变量:设置两个变量:x腰围腰围(cm)y 腹腔内脂肪面积腹腔内脂肪面积(cm2)与直线相关相同与直线相关相同注意区分注意区分x和和y49Department of Health Statistics,School of Public Health,LZMC第二步第二步:统计分析统计分析1.1.绘制散点图绘制散点图Graphs Scatter SimpleY Axis框框:yX Axis框框:x50Department of Health
27、Statistics,School of Public Health,LZMC 从图中可见,腰从图中可见,腰围和腹腔内脂肪围和腹腔内脂肪面积有比较明显面积有比较明显的线性趋势,也的线性趋势,也没有发现影响过没有发现影响过强的异常点,可强的异常点,可以进行回归分析。以进行回归分析。51Department of Health Statistics,School of Public Health,LZMC2.直线回归分析:直线回归分析:AnalyzeRegression Linear52Department of Health Statistics,School of Public Health,
28、LZMC应变量应变量y自变量自变量x点击点击53Department of Health Statistics,School of Public Health,LZMCStatistics对话框对话框默认,计算相关系默认,计算相关系数、决定系数等数、决定系数等要勾选,计算回归要勾选,计算回归系数的置信区间系数的置信区间默认,计算回归系默认,计算回归系数及假设检验数及假设检验54Department of Health Statistics,School of Public Health,LZMC第三步:结果解释第三步:结果解释 介绍了模型拟合优度的情况:介绍了模型拟合优度的情况:相关系数相关系
29、数r=0.762r=0.762 决定系数决定系数R R2 2=SS=SS回回/SS/SS总总=0.581=0.581 剩余标准差(残差标准差)剩余标准差(残差标准差)S Syxyx=13.0353=13.0353Model Summary.762a.581.55713.0353Model1RR SquareAdjusted RSquareStd.Error ofthe EstimatePredictors:(Constant),腰围(cm)a.模型总结模型总结55Department of Health Statistics,School of Public Health,LZMC决定系数决定
30、系数(coefficient of determination)2SSRSS回总 反映了回归贡献的相对程度,即在反映了回归贡献的相对程度,即在因变量因变量y的的总变异中用总变异中用y与与x回归关系所能解释的比例回归关系所能解释的比例。在实。在实际应用中,常用际应用中,常用决定系数来反映回归的实际效果决定系数来反映回归的实际效果。值越大,说明方程拟合的效果越好。值越大,说明方程拟合的效果越好。本例决定系数为本例决定系数为0.581,说明男性的,说明男性的腰围信息可腰围信息可以解释其腹腔内脂肪面积变异的以解释其腹腔内脂肪面积变异的58.1%,还有剩,还有剩余的余的41.9%的信息需要通过腰围以外的
31、其它因素的信息需要通过腰围以外的其它因素来加以解释。来加以解释。2R56Department of Health Statistics,School of Public Health,LZMCANOVAb4235.10014235.10024.924.000a3058.54918169.9197293.65019RegressionResidualTotalModel1Sum of SquaresdfMean SquareFSig.Predictors:(Constant),腰围(cm)a.Dependent Variable:腹腔内脂肪面积(cm2)b.F=24.924 P 0.001 按按
32、0.05的检验水准拒绝的检验水准拒绝H0接受接受H1,回归方回归方程有统计学意义程有统计学意义,可以认为腹腔内脂肪面,可以认为腹腔内脂肪面积与腰围之间积与腰围之间有直线回归关系有直线回归关系。结果解释结果解释回归方程的回归方程的方差分析方差分析57Department of Health Statistics,School of Public Health,LZMC1.截距截距a=-96.392,回归系数,回归系数b=2.1112.tb=4.992,P0.001,结论同前(,结论同前(F检验)。检验)。3.写出直线回归方程:写出直线回归方程:Coefficientsa-96.39238.576
33、-2.499.022-177.438-15.3472.111.423.7624.992.0001.2222.999(Constant)腰 围(cm)Model1BStd.ErrorUnstandardized CoefficientsBetaStandardizedCoefficientstSig.Lower BoundUpper Bound95%Confidence Interval forBDependent Variable:腹 腔 内 脂 肪 面 积(cm2)a.96.3922.111yx 回归系数的假设检验等价于相关系数的结果回归系数的假设检验等价于相关系数的结果结果解释结果解释回归
34、系数的假回归系数的假设检验:设检验:t检验检验58Department of Health Statistics,School of Public Health,LZMC故所求回归方程为:故所求回归方程为:96.392122.11053yx b=2.11053表明腹腔内脂肪面积随腰围增加而增加,表明腹腔内脂肪面积随腰围增加而增加,且腰围每增加且腰围每增加1cm,腹腔内脂肪面积增加,腹腔内脂肪面积增加2.11053cm259Department of Health Statistics,School of Public Health,LZMC4.绘制回归直线绘制回归直线Analyze Curve Estimation 60Department of Health Statistics,School of Public Health,LZMCCurve Estimation 对话框对话框应变量应变量y自变量自变量x61Department of Health Statistics,School of Public Health,LZMC62Department of Health Statistics,School of Public Health,LZMC