1、2022-12-241第十二章第十二章广东医学院公共卫生学院流行病与统计学教研室2022-12-242第一节 直线相关 医学上许多现象之间都有相互联系,例医学上许多现象之间都有相互联系,例如:如:身高与体重、体温与脉搏、产前检查与身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝婴儿体重、乙肝病毒与乙肝等。在这些有关等。在这些有关系的现象中,它们之间联系的程度和性质也系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。
2、体重和身高的关系则介与二者之间。一一 直线相关直线相关 Linear correlation 相关与回归就是用于研究和解释两个变量相关与回归就是用于研究和解释两个变量之间相互关系的。之间相互关系的。相关分析相关分析用于分析两变量间相互联系的密用于分析两变量间相互联系的密切程度及相关方向。切程度及相关方向。回归分析回归分析适用于分析变量适用于分析变量间的依存关系;用一个自变量的值来估计另一间的依存关系;用一个自变量的值来估计另一个应变量的值个应变量的值。2022-12-245 前面描述性统计及假设检验只前面描述性统计及假设检验只涉及到一个变量涉及到一个变量,如体重、红细胞数、血压下降值等如体重、
3、红细胞数、血压下降值等,着重于描述某着重于描述某一变量的统计特征或比较该变量的组间差别。一变量的统计特征或比较该变量的组间差别。在大量的医学问题研究中常常还要分析在大量的医学问题研究中常常还要分析两个随机两个随机变量之间的关系,如体重与肺活量、年龄与血压变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系之间是否存在线性联系,此联系是正向还是负向,此联系是正向还是负向以及联系的程度如何?以及联系的程度如何?2022-12-246 如果两个连续型变量如果两个连续型变量 X和和 Y 都随机变动且不分主次都随机变动且不分主次,可通过,可通过线性相关(线性相关(linear correlat
4、ion)分析来估计分析来估计它们之间可能存在的线性联系的方向与程度。它们之间可能存在的线性联系的方向与程度。两个随机变量两个随机变量 X 和和 Y,可以是对同一观察单位同时,可以是对同一观察单位同时测量测量 X 与与 Y 的数值,也可以是测量成对观察单位的的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。同一变量或不同变量的数值,而产生一对观察值。直线相关直线相关(linear correlation)又称简单相关又称简单相关(simple correlation)或或 Pearson 相关分析,用于研究具有相关分析,用于研究具有直线关系的两个变量间相关关系的密直线
5、关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方切程度与相关方向的一种统计分析方法,用于法,用于双变量双变量正态分布资料正态分布资料(要求两要求两个变量均服从正态分布个变量均服从正态分布)在线性相关分析中,两个变量X 和Y的值总是成对的出现,记为(X1,Y1)、(X2,Y2)(Xn,Yn),这些观察值在直角坐标系中形成一幅散点图,这种散点图可以简单而直观的表示两变量间的线性关系 例如例如 为研究中年女性体重指数和收为研究中年女性体重指数和收缩压之间的关系,随机测量了缩压之间的关系,随机测量了16名名40岁以上的女性的体重指数和收缩岁以上的女性的体重指数和收缩压,见表压,见表13-1
6、,试绘制散点图。,试绘制散点图。实实 例例1.解:解:以体重指数为变量以体重指数为变量X,收缩压为,收缩压为变量变量Y作散点图,见下图。可见,体作散点图,见下图。可见,体重指数与收缩压有比较密切的线性相重指数与收缩压有比较密切的线性相关关系。关关系。图13-1 16名中年女性体重指数和收缩压的散点图101520252.533.544.5体重指数收缩压(kpa)某地方病研究所调查了某地方病研究所调查了 8 8名正常儿童的尿肌名正常儿童的尿肌酐含量(酐含量(mmol/24hmmol/24h)如表)如表9-19-1。估计尿肌酐含。估计尿肌酐含量(量(Y Y)对其年龄()对其年龄(X X)的相关关系。
7、)的相关关系。表表14-1 8名正常儿童的年龄名正常儿童的年龄 X(岁岁)与尿肌酐含量与尿肌酐含量 Y(mmol/24h)编号编号年龄年龄X尿肌酐含量尿肌酐含量 Y1133.542113.01393.09462.48582.566103.367123.18872.65实实 例例(,)X Y2022-12-2414一、概述 概念概念 又称简单相关或又称简单相关或PearsonPearson相关分析,用于研究相关分析,用于研究具有直线关系的两个变量间具有直线关系的两个变量间相关关系的密切程度相关关系的密切程度与与相关方向相关方向的一种统计分析方法的一种统计分析方法应用条件应用条件 要求两个变量均服
8、从正态分布要求两个变量均服从正态分布 (双变量正态分布双变量正态分布)2022-12-2415相关系数的意义及计算相关系数的意义及计算 又称又称积差相关系数积差相关系数或或PearsonPearson相关系数相关系数,说,说明具有直线关系的两个变量间相关关系的明具有直线关系的两个变量间相关关系的密切程密切程度与相关方向的指标度与相关方向的指标 r r 表示样本相关系数表示样本相关系数,表示总体相关系数表示总体相关系数 2022-12-2416 没有单位,取值介于没有单位,取值介于-1与与1之间之间 相关方向用正负号表示相关方向用正负号表示 相关的密切程度用绝对值表示相关的密切程度用绝对值表示2
9、2xyxx yylx xy yrl lx xy y 相关系数,说明具有直线关系的两个变相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的量间相关关系的密切程度与相关方向的指标指标.r 表示样本相关系数表示样本相关系数,表示总体相表示总体相关系数关系数,-1 r 1 r 的计算结果说明了两个变量的计算结果说明了两个变量X与与Y之之间关联的间关联的密切程度密切程度(绝对值大小)与(绝对值大小)与关联关联的性质或方向的性质或方向(正负号)。(正负号)。l 相关分析的目的在于通过相关系数相关分析的目的在于通过相关系数r来描述来描述和度量两变量线性联系的程度和方向。和度量两变量线性联系
10、的程度和方向。r0 正相关正相关 r0 负相关负相关 r=0 零相关零相关 零相关即两变量间无关。零相关即两变量间无关。l 样本相关系数不等于零,并不表示总体相样本相关系数不等于零,并不表示总体相关系数不等于零,还要作显著性检验。关系数不等于零,还要作显著性检验。2022-12-2419相关关系图示2022-12-2420r r无单位,无单位,-1 r 1 r 值为正值为正 正相关正相关 r 值为负值为负 负相关负相关|r|=1-完全相关完全相关 r=0-零相关零相关 2022-12-2421相关关系密切程度的判断相关关系密切程度的判断 低度相关低度相关 中度相关中度相关 高度相关高度相关4.
11、0r7.04.0 r7.0 r相关系数的计算:相关系数的计算:nyxxyyyxxYYXXXYlllYYXXYYXXr22)()()(X和和Y的离均差积和的离均差积和nxxxx222X的离均差平方和的离均差平方和y的离均差平方和的离均差平方和nyyyy222其中,其中,为为X 的离均差平方和的离均差平方和 为为Y 的离均差平方和的离均差平方和 为为X和和Y 的离均差积和的离均差积和xxlYYlXYl编号编号1 12 23 34 45 56 67 78 8合计合计年龄年龄X X1311968101277676 S SX X肌酐肌酐Y Y3.543.013.092.482.563.363.182.6
12、523.8723.87S SY YX X2 21691691211218181363664641001001441444949764764S SX X2 2Y Y2 212.53 12.53 9.06 9.06 9.55 9.55 6.15 6.15 6.55 6.55 11.29 11.29 10.11 10.11 7.02 7.02 72.27 72.27 S SY Y2 2XYXY46.0246.0233.1133.1127.8127.8114.8814.8820.4820.4833.6033.6038.1638.1618.5518.55232.61232.61S SXYXYnYXXYl
13、XY)(nXXlXX22)(nYYlYY22)(2022-12-2425【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。编号体重(kg)胸围(cm)1924.524.861.058.521027.019.762.056.031123.519.560.055.641228.517.264.054.551323.020.059.353.061426.719.058.452.071526.820.258.658.081624.621.058.757.0表表12-1 2000年某地年某地16名名7岁男孩体重与胸围资料岁男孩体重与胸围资料 2022-12-2426散点图散点图
14、图图12-2 2000年某地年某地16名名7岁男孩体重与胸围散点图岁男孩体重与胸围散点图 2022-12-2427计算例计算例12-1中体重与胸围间相关系数中体重与胸围间相关系数l计算基础数据,并列成相关系数计算表计算基础数据,并列成相关系数计算表l求出求出 、(见表见表12-2)l代入公式,求出相关系数代入公式,求出相关系数 值值xy2x2yxyr2022-12-2428表表12-2 2000年某地年某地16名名7岁男孩体重与胸围相关系数计算表岁男孩体重与胸围相关系数计算表编号编号(1)12341516合计合计x体重体重(kg)(2)24.527.023.528.520.221.0366.0
15、y胸围胸围(cm)(3)61.062.060.064.058.057.0926.6x2(4)(2)2600.25725.00552.25812.25408.04441.008548.30y2(5)=(3)23721.003844.003600.004096.003364.003249.0053813.56xy(6)=(2)(3)1494.501674.001410.001824.001171.601197.0021332.38xy2x2yxy2022-12-242922366 926.621332.38160.8343366926.68548.3053813.561616r22xyxx yyl
16、xxyyrl lxxyy2022-12-2430 r0原因:原因:由于抽样误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系,0t t检验检验 查表法查表法,按,按v=n-2查查r界值表,做出推断结论界值表,做出推断结论 二、相关系数的假设检验二、相关系数的假设检验0rrrtS2022-12-2431 查表法查表法 根据自由度根据自由度 =n-2,查附表,查附表14,将所得,将所得 r 值与某值与某概率水平(如概率水平(如0.05)对应的)对应的 r 界值相比较,若界值相比较,若 r 值小于值小于 r 界值,则界值,则P大于相应的概率水平,反之大于相应的概率水平,反之,P小于相应的概
17、率水平,然后作出推断小于相应的概率水平,然后作出推断2022-12-2432 t 检验方法检验方法2 n0rrrtS212nrSr2022-12-2433【检验步骤】【检验步骤】1.建立检验假设,确定检验水准建立检验假设,确定检验水准0:0H1:0H05.02022-12-24342.计算检验统计量计算检验统计量 值值 rt6623.52168343.018343.021022nrrtr2022-12-24353.确定确定P值,做出统计推断值,做出统计推断 按自由度按自由度 =n-2=16-2=14,查附表,查附表4,得,得P r2 就说就说r1比比 r2相关相关更密切。因为查附表更密切。因为
18、查附表13-1,前一样本得,前一样本得 P 0.05,后一样本后一样本P 50时,可用正态近似法进行检验时,可用正态近似法进行检验检验统计量检验统计量z的计算公式为:的计算公式为:ssrsr2022-12-2449补充例题2022-12-24502022-12-2451第三节第三节 列联表的关联性分析列联表的关联性分析 【例12-4】某研究者欲研究幽门螺杆菌感染某研究者欲研究幽门螺杆菌感染(Hp)与家庭成员胃病史的关联性,随机抽取与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果员有胃病史组和家
19、庭成员无胃病史组,结果家庭成员有胃病史组家庭成员有胃病史组182例,例,Hp阳性阳性125例;例;家庭成员无胃病史组家庭成员无胃病史组417例,例,Hp阳性阳性198例。例。2022-12-24522022-12-2453 两样本率比较与两分类变量关联性的对比两样本率比较与两分类变量关联性的对比二者二者 2检验公式、理论频数计算和自由检验公式、理论频数计算和自由度的计算应用条件等完全相同。度的计算应用条件等完全相同。形式相同,是从不同角度推导的形式相同,是从不同角度推导的2022-12-2454研究目的、设计方案、数据结构以及对研究目的、设计方案、数据结构以及对结果的解释都是不同的结果的解释都
20、是不同的 n两样本率比较检验的是两个样本率所代两样本率比较检验的是两个样本率所代表的未知的两总体率是否相同表的未知的两总体率是否相同n分类变量关联性分析是要检验两个分类分类变量关联性分析是要检验两个分类变量是否独立,二者之间是否存在关联变量是否独立,二者之间是否存在关联2022-12-2455一、一、22列联表的关联性分析列联表的关联性分析【检验步骤】1.建立检验假设,确定检验水准 H0:Hp与家庭成员胃病史之间互相独立与家庭成员胃病史之间互相独立 H1:Hp与家庭成员胃病史之间互相关联与家庭成员胃病史之间互相关联 =0.052022-12-24562.计算检验统计量计算检验统计量 值值 24
21、0599nmin182 27683.865599T222125 21957 19859922.917412557 198219 125 19857219adbcnabcdacbd 1121211CR2022-12-24573.确定确定P值,做出统计推断值,做出统计推断 查附表查附表9,0.005P0.01,按,按 =0.05水准,水准,拒绝拒绝H0,接受,接受H1,差异有统计学意义,可,差异有统计学意义,可认为幽门螺杆菌感染(认为幽门螺杆菌感染(Hp)与家庭成员胃)与家庭成员胃病史之间有关联病史之间有关联2022-12-2458l计算关联系数计算关联系数Pearson列联系数(列联系数(con
22、tingency coefficient)nc221920.05999174.229174.22c2022-12-2459 列联系数列联系数c(用于行列数相同):(用于行列数相同):Cramer 校正校正v(用于行列数不同):(用于行列数不同):nc22),min()1(2crkknv2022-12-2460二、配对设计二、配对设计22表的关联性分析表的关联性分析 【例【例12-5】有】有56份咽喉涂抹标本,把每份标本一份咽喉涂抹标本,把每份标本一分为二,按同样的条件分别接种在甲、乙两种白分为二,按同样的条件分别接种在甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,结喉杆菌培养基上,观察白
23、喉杆菌生长的情况,结果见表果见表12-5。实验者欲研究甲乙两种培养基的结。实验者欲研究甲乙两种培养基的结果有无关联,用配对果有无关联,用配对 2检验(或检验(或McNemar检验)检验)对资料进行了分析,得对资料进行了分析,得 2=11.25,查,查 2界值表,界值表,P 0.05,认为甲乙两种培养基的结果有关联,认为甲乙两种培养基的结果有关联2022-12-24612022-12-2462 当比较甲乙两种方法测定结果的阳性率是当比较甲乙两种方法测定结果的阳性率是否有差别时,可采用配对否有差别时,可采用配对 2 检验(或检验(或McNemar检验)检验)当了解甲乙两法测定结果之间有无相关关当了
24、解甲乙两法测定结果之间有无相关关系时,应采用普通四格表的检验。系时,应采用普通四格表的检验。2022-12-2463【检验步骤】1.建立检验假设,确定检验水准 H0:两种培养基的结果之间互相独立:两种培养基的结果之间互相独立 H1:两种培养基的结果之间互相关联:两种培养基的结果之间互相关联 =0.052022-12-24642.计算检验统计量计算检验统计量 值值 25640n min16 246.86556T 1121211CR43.83224164056)2181422(222022-12-24653.确定确定P值,做出统计推断值,做出统计推断 查附表查附表9,P0.005,按,按 =0.05水准,拒绝水准,拒绝H0,接受,接受H1,差异有统计学意义,可认为,差异有统计学意义,可认为两种培养基的结果之间有关联两种培养基的结果之间有关联 2022-12-2466小小 结结1、直线相关的概念和应用、直线相关的概念和应用2、相关系数的计算和意义、相关系数的计算和意义3、等级相关的分析、等级相关的分析4、列联表资料的关联分析及应用、列联表资料的关联分析及应用谢谢大家谢谢大家