1、8/11/20221第十二章第十二章广东医学院公共卫生学院流行病与统计学教研室第1页,共67页。8/11/20222第一节 直线相关 第2页,共67页。医学上许多现象之间都有相互联系,例如:医学上许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝乙肝病毒与乙肝等。在这些有关系的现象中,它等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系
2、则介与二者关系密切得多,而体重和身高的关系则介与二者之间。之间。一一 直线相关直线相关 Linear correlation第3页,共67页。相关与回归就是用于研究和解释两个变量之间相关与回归就是用于研究和解释两个变量之间相互关系的。相互关系的。相关分析相关分析用于分析两变量间相互联系的密切用于分析两变量间相互联系的密切程度及相关方向。程度及相关方向。回归分析回归分析适用于分析变量间的依适用于分析变量间的依存关系;用一个自变量的值来估计另一个应变量的值存关系;用一个自变量的值来估计另一个应变量的值。第4页,共67页。8/11/20225 前面描述性统计及假设检验只前面描述性统计及假设检验只涉及
3、到一个变量涉及到一个变量,如体,如体重、红细胞数、血压下降值等重、红细胞数、血压下降值等,着重于描述某一变量着重于描述某一变量的统计特征或比较该变量的组间差别。的统计特征或比较该变量的组间差别。在大量的医学问题研究中常常还要分析在大量的医学问题研究中常常还要分析两个随机变两个随机变量之间的关系,如体重与肺活量、年龄与血压之间量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系是否存在线性联系,此联系是正向还是负向以及联,此联系是正向还是负向以及联系的程度如何?系的程度如何?第5页,共67页。8/11/20226如果两个连续型变量如果两个连续型变量 X和和 Y 都随机变动且不分主次,可通
4、过都随机变动且不分主次,可通过线线性相关(性相关(linear correlation)分析来估计它们之间可能存在分析来估计它们之间可能存在的线性联系的方向与程度。的线性联系的方向与程度。两个随机变量两个随机变量 X 和和 Y,可以是对同一观察单位同时测量,可以是对同一观察单位同时测量 X 与与 Y 的数值,也可以是测量成对观察单位的同一变量的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。或不同变量的数值,而产生一对观察值。第6页,共67页。直线相关直线相关(linear correlation)又称简单相关又称简单相关(simple correlation)或或
5、 Pearson 相关分析,用于研究具有相关分析,用于研究具有直线关系的两个变量间相关关系的密直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方切程度与相关方向的一种统计分析方法,用于法,用于双变量双变量正态分布资料正态分布资料(要求两要求两个变量均服从正态分布个变量均服从正态分布)第7页,共67页。在线性相关分析中,两个变量X 和Y的值总是成对的出现,记为(X1,Y1)、(X2,Y2)(Xn,Yn),这些观察值在直角坐标系中形成一幅散点图,这种散点图可以简单而直观的表示两变量间的线性关系第8页,共67页。例如例如 为研究中年女性体重指数和收为研究中年女性体重指数和收缩压之间的关
6、系,随机测量了缩压之间的关系,随机测量了16名名40岁以上的女性的体重指数和收缩岁以上的女性的体重指数和收缩压,见表压,见表13-1,试绘制散点图。,试绘制散点图。实实 例例第9页,共67页。解:解:以体重指数为变量以体重指数为变量X,收缩压为,收缩压为变量变量Y作散点图,见下图。可见,体作散点图,见下图。可见,体重指数与收缩压有比较密切的线性相重指数与收缩压有比较密切的线性相关关系。关关系。第10页,共67页。图13-1 16名中年女性体重指数和收缩压的散点图101520252.533.544.5体重指数收缩压(kpa)第11页,共67页。某地方病研究所调查了某地方病研究所调查了 8 8名正
7、常儿童的尿肌名正常儿童的尿肌酐含量(酐含量(mmol/24hmmol/24h)如表)如表9-19-1。估计尿肌酐含。估计尿肌酐含量(量(Y Y)对其年龄()对其年龄(X X)的相关关系。)的相关关系。表表14-1 8名正常儿童的年龄名正常儿童的年龄 X(岁岁)与尿肌酐含量与尿肌酐含量 Y(mmol/24h)编号编号12345678年龄年龄X131196810127尿肌酐含量尿肌酐含量 Y3.543.013.092.482.563.363.182.65实实 例例第12页,共67页。(,)X Y第13页,共67页。8/11/202214一、概述 概念概念 又称简单相关或又称简单相关或Pearson
8、Pearson相关分析,用于研究具相关分析,用于研究具有直线关系的两个变量间有直线关系的两个变量间相关关系的密切程度相关关系的密切程度与与相关相关方向方向的一种统计分析方法的一种统计分析方法 应用条件应用条件 要求两个变量均服从正态分布要求两个变量均服从正态分布 (双变量正态分布双变量正态分布)第14页,共67页。8/11/202215 相关系数的意义及计算相关系数的意义及计算 又称又称积差相关系数积差相关系数或或PearsonPearson相关系数相关系数,说明具有,说明具有直线关系的两个变量间相关关系的直线关系的两个变量间相关关系的密切程度与相关方密切程度与相关方向的指标向的指标 r r
9、表示样本相关系数表示样本相关系数,表示总体相关系数表示总体相关系数 第15页,共67页。8/11/202216 没有单位,取值介于没有单位,取值介于-1与与1之间之间 相关方向用正负号表示相关方向用正负号表示 相关的密切程度用绝对值表示相关的密切程度用绝对值表示22xyxx yylx xy yrl lx xy y第16页,共67页。相关系数,说明具有直线关系的两个变相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的量间相关关系的密切程度与相关方向的指标指标.r 表示样本相关系数表示样本相关系数,表示总体相表示总体相关系数关系数,-1 r 1 r 的计算结果说明了两个变量的计算
10、结果说明了两个变量X与与Y之之间关联的间关联的密切程度密切程度(绝对值大小)与(绝对值大小)与关联关联的性质或方向的性质或方向(正负号)。(正负号)。第17页,共67页。l 相关分析的目的在于通过相关系数相关分析的目的在于通过相关系数r来描述和度量来描述和度量两变量线性联系的程度和方向。两变量线性联系的程度和方向。r0 正相关正相关 r0 负相关负相关 r=0 零相关零相关 零相关即两变量间无关。零相关即两变量间无关。l 样本相关系数不等于零,并不表示总体相关系数不样本相关系数不等于零,并不表示总体相关系数不等于零,还要作显著性检验。等于零,还要作显著性检验。第18页,共67页。8/11/20
11、2219相关关系图示第19页,共67页。8/11/202220r r无单位,无单位,-1 r 1 r 值为正值为正 正相关正相关 r 值为负值为负 负相关负相关|r|=1-完全相关完全相关 r=0-零相关零相关 第20页,共67页。8/11/202221相关关系密切程度的判断相关关系密切程度的判断 低度相关低度相关 中度相关中度相关 高度相关高度相关4.0r7.04.0 r7.0 r第21页,共67页。相关系数的计算:相关系数的计算:nyxxyyyxxYYXXXYlllYYXXYYXXr22)()()(X和和Y的离均差积和的离均差积和nxxxx222X的离均差平方和的离均差平方和第22页,共6
12、7页。y的离均差平方和的离均差平方和nyyyy222其中,其中,为为X 的离均差平方和的离均差平方和 为为Y 的离均差平方和的离均差平方和 为为X和和Y 的离均差积和的离均差积和xxlYYlXYl第23页,共67页。编号编号年龄年龄X X肌酐肌酐Y YX X2 2Y Y2 2XYXY1 1133.5416916912.53 12.53 46.0246.022 2113.011211219.06 9.06 33.1133.113 393.0981819.55 9.55 27.8127.814 462.4836366.15 6.15 14.8814.885 582.5664646.55 6.55
13、20.4820.486 6103.3610010011.29 11.29 33.6033.607 7123.1814414410.11 10.11 38.1638.168 872.6549497.02 7.02 18.5518.55合计合计767623.8723.8776476472.27 72.27 232.61232.61 S SX XS SY YS SX X2 2 S SY Y2 2S SXYXYnYXXYlXY)(nXXlXX22)(nYYlYY22)(第24页,共67页。8/11/202225【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。编号123456
14、78910111213141516体重(kg)24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0胸围(cm)61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0表表12-1 2000年某地年某地16名名7岁男孩体重与胸围资料岁男孩体重与胸围资料 第25页,共67页。8/11/202226散点图散点图图图12-2 2000年某地年某地16名名7岁男孩体重与胸围散点图岁男孩体重与胸围散点图 第26页,共67页。8/11/202227计算例计算例1
15、2-1中体重与胸围间相关系数中体重与胸围间相关系数l计算基础数据,并列成相关系数计算表计算基础数据,并列成相关系数计算表l求出求出 、(见表见表12-2)l代入公式,求出相关系数代入公式,求出相关系数 值值xy2x2yxyr第27页,共67页。8/11/202228表表12-2 2000年某地年某地16名名7岁男孩体重与胸围相关系数计算表岁男孩体重与胸围相关系数计算表编号编号(1)x体重体重(kg)(2)y胸围胸围(cm)(3)x2(4)(2)2y2(5)=(3)2xy(6)=(2)(3)124.561.0600.253721.001494.50227.062.0725.003844.0016
16、74.00323.560.0552.253600.001410.00428.564.0812.254096.001824.001520.258.0408.043364.001171.601621.057.0441.003249.001197.00合计合计366.0926.68548.3053813.5621332.38xy2x2yxy第28页,共67页。8/11/20222922366 926.621332.38160.8343366926.68548.3053813.561616r22xyxx yylxxyyrl lxxyy第29页,共67页。8/11/202230 r0原因:原因:由于抽样
17、误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系,0t t检验检验 查表法查表法,按,按v=n-2查查r界值表,做出推断结论界值表,做出推断结论 二、相关系数的假设检验二、相关系数的假设检验0rrrtS第30页,共67页。8/11/202231 查表法查表法 根据自由度根据自由度 =n-2,查附表,查附表14,将所得,将所得 r 值与某值与某概率水平(如概率水平(如0.05)对应的)对应的 r 界值相比较,若界值相比较,若 r 值小于值小于 r 界值,则界值,则P大于相应的概率水平,反之大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断小于相应的概率水平,然后作出推断第3
18、1页,共67页。8/11/202232 t 检验方法检验方法2 n0rrrtS212nrSr第32页,共67页。8/11/202233【检验步骤】【检验步骤】1.建立检验假设,确定检验水准建立检验假设,确定检验水准0:0H1:0H05.0第33页,共67页。8/11/2022342.计算检验统计量计算检验统计量 值值 rt6623.52168343.018343.021022nrrtr第34页,共67页。8/11/2022353.确定确定P值,做出统计推断值,做出统计推断 按自由度按自由度 =n-2=16-2=14,查附表,查附表4,得,得P r2 就说就说r1比比 r2相关更密切。相关更密切
19、。因为查附表因为查附表13-1,前一样本得,前一样本得 P 0.05,后一样本后一样本P 50时,可用正态近似法进行检验时,可用正态近似法进行检验检验统计量检验统计量z的计算公式为:的计算公式为:ssrsr第48页,共67页。8/11/202249补充例题第49页,共67页。8/11/202250第50页,共67页。8/11/202251第三节第三节 列联表的关联性分析列联表的关联性分析 【例12-4】某研究者欲研究幽门螺杆菌感染某研究者欲研究幽门螺杆菌感染(Hp)与家庭成员胃病史的关联性,随机抽取与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成例慢性胃炎或胃溃疡的
20、患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组家庭成员有胃病史组182例,例,Hp阳性阳性125例;例;家庭成员无胃病史组家庭成员无胃病史组417例,例,Hp阳性阳性198例。例。第51页,共67页。8/11/202252第52页,共67页。8/11/202253 两样本率比较与两分类变量关联性的对比两样本率比较与两分类变量关联性的对比二者二者 2检验公式、理论频数计算和自由度的检验公式、理论频数计算和自由度的计算应用条件等完全相同。计算应用条件等完全相同。形式相同,是从不同角度推导的形式相同,是从不同角度推导的第53页,共67页
21、。8/11/202254研究目的、设计方案、数据结构以及对结果的研究目的、设计方案、数据结构以及对结果的解释都是不同的解释都是不同的 n两样本率比较检验的是两个样本率所代表两样本率比较检验的是两个样本率所代表的未知的两总体率是否相同的未知的两总体率是否相同n分类变量关联性分析是要检验两个分类变量分类变量关联性分析是要检验两个分类变量是否独立,二者之间是否存在关联是否独立,二者之间是否存在关联第54页,共67页。8/11/202255一、一、22列联表的关联性分析列联表的关联性分析【检验步骤】1.建立检验假设,确定检验水准 H0:Hp与家庭成员胃病史之间互相独立与家庭成员胃病史之间互相独立 H1
22、:Hp与家庭成员胃病史之间互相关联与家庭成员胃病史之间互相关联 =0.05第55页,共67页。8/11/2022562.计算检验统计量计算检验统计量 值值 240599nmin182 27683.865599T222125 21957 19859922.917412557 198219 125 19857219adbcnabcdacbd 1121211CR第56页,共67页。8/11/2022573.确定确定P值,做出统计推断值,做出统计推断 查附表查附表9,0.005P0.01,按,按 =0.05水准,水准,拒绝拒绝H0,接受,接受H1,差异有统计学意义,可,差异有统计学意义,可认为幽门螺杆
23、菌感染(认为幽门螺杆菌感染(Hp)与家庭成员胃)与家庭成员胃病史之间有关联病史之间有关联第57页,共67页。8/11/202258l计算关联系数计算关联系数Pearson列联系数(列联系数(contingency coefficient)nc221920.05999174.229174.22c第58页,共67页。8/11/202259 列联系数列联系数c(用于行列数相同):(用于行列数相同):Cramer 校正校正v(用于行列数不同):(用于行列数不同):nc22),min()1(2crkknv第59页,共67页。8/11/202260二、配对设计二、配对设计22表的关联性分析表的关联性分析
24、【例【例12-5】有】有56份咽喉涂抹标本,把每份标本一分为二份咽喉涂抹标本,把每份标本一分为二,按同样的条件分别接种在甲、乙两种白喉杆菌培养基,按同样的条件分别接种在甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,结果见表上,观察白喉杆菌生长的情况,结果见表12-5。实验者。实验者欲研究甲乙两种培养基的结果有无关联,用配对欲研究甲乙两种培养基的结果有无关联,用配对 2检验检验(或(或McNemar检验)对资料进行了分析,得检验)对资料进行了分析,得 2=11.25,查,查 2界值表,界值表,P 0.05,认为甲乙两种培养基的结果有,认为甲乙两种培养基的结果有关联关联第60页,共67页。8
25、/11/202261第61页,共67页。8/11/202262 当比较甲乙两种方法测定结果的阳性率是当比较甲乙两种方法测定结果的阳性率是否有差别时,可采用配对否有差别时,可采用配对 2 检验(或检验(或McNemar检验)检验)当了解甲乙两法测定结果之间有无相关关当了解甲乙两法测定结果之间有无相关关系时,应采用普通四格表的检验。系时,应采用普通四格表的检验。第62页,共67页。8/11/202263【检验步骤】1.建立检验假设,确定检验水准 H0:两种培养基的结果之间互相独立:两种培养基的结果之间互相独立 H1:两种培养基的结果之间互相关联:两种培养基的结果之间互相关联 =0.05第63页,共
26、67页。8/11/2022642.计算检验统计量计算检验统计量 值值 25640n min16 246.86556T 1121211CR43.83224164056)2181422(22第64页,共67页。8/11/2022653.确定确定P值,做出统计推断值,做出统计推断 查附表查附表9,P0.005,按,按 =0.05水准,拒绝水准,拒绝H0,接受,接受H1,差异有统计学意义,可认为,差异有统计学意义,可认为两种培养基的结果之间有关联两种培养基的结果之间有关联 第65页,共67页。8/11/202266小小 结结1、直线相关的概念和应用、直线相关的概念和应用2、相关系数的计算和意义、相关系数的计算和意义3、等级相关的分析、等级相关的分析4、列联表资料的关联分析及应用、列联表资料的关联分析及应用第66页,共67页。谢谢大家谢谢大家第67页,共67页。