1、医学统计学相关分析医学统计学相关分析直线相关分析(linear correlation analysis)1 问题的提出问题的提出 the Relationship 2 确定性关系与相关关系确定性关系与相关关系3 相关关系相关关系4 散点图散点图5 Pearson相关系数相关系数6 相关系数的计算相关系数的计算7 相关系数的性质相关系数的性质8 相关关系示意图相关关系示意图9 相关系数的含义相关系数的含义10 相关系数的假设检验相关系数的假设检验11 总体相关系数的区间估计总体相关系数的区间估计12 相关分析的正确应用相关分析的正确应用2020/12/192问题的提出问题的提出以往方法的局限以
2、往方法的局限仅限于考察一个观察指标仅限于考察一个观察指标 昆明治疗羊角风医院昆明治疗羊角风医院 昆明军海医院癫痫病昆明军海医院癫痫病 昆明治疗羊角风医院昆明治疗羊角风医院 昆明治疗癫痫病比较好的医院昆明治疗癫痫病比较好的医院2020/12/193问题的提出问题的提出人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?身高来推测体重的多少?儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和
3、音调长度的数量关系?关系?人的肺活量往往随着胸围的增加而增加。人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是否与他的体重有关?举重运动员所能举起的最大重量是否与他的体重有关?2020/12/194联系与相互影响是普遍的现象联系与相互影响是普遍的现象受教育的受教育的水平水平工作后的工作后的收入收入预防疾病预防疾病支出支出疾病的发疾病的发病率病率2020/12/1951 the RelationshipCould you give me some examples about the relationship between two variables?2020/12/196R
4、1R1R2R1R2R322113.14 13.14()cRSm 22223.14 1.57.07()cmRS 22333.14212.56()cRSm 1 the Relationship Type One2020/12/1971 the Relationship Type Two2020/12/1982 确定性关系与相关关系确定性的函数关系确定性的函数关系:两变量间的函数关系。随机性的相关关系随机性的相关关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。圆的周长与半径的关系:圆的周长与半径的关系:C2 R 速度、时间与路程的关系:速度、时间与路程的关系:LST 青少年身高与年龄
5、的关系;青少年身高与年龄的关系;体重与体表面积的关系;体重与体表面积的关系;2020/12/199相关关系与确定性关系(2)当对事物的规律了解加深时,相关关系可以转变为确定性关系。当对事物的规律了解加深时,相关关系可以转变为确定性关系。父亲患白化病X,(X=是,否);子女患白化病Y,(Y=是,否);X与Y的关系不确定。当母亲患白化病时,X与Y的关系确定:X=是,则Y=是;X=否,则Y=否。(父亲为异常基因的携带者出外。)2020/12/19103 相关关系相关关系当一个变量增大,另一个也随之增大当一个变量增大,另一个也随之增大(或减少或减少),我们称这种现象为共变,或相关,我们称这种现象为共变
6、,或相关(correlation)。两个变量有共变现象,称为有相关关系。两个变量有共变现象,称为有相关关系。2020/12/1911若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。3 相关关系相关关系2020/12/1912直线相关(直线相关(linear correlation),又称
7、简单相关,用以描述两个呈正态分布的变量之间的),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。线性共变关系,常简称为相关。直线相关的概念2020/12/19133 相关关系相关关系 The story Sir Francis Galton 1822-1911 an explorer and anthropologist half-cousin of Charles Darwin 2020/12/1914Heredity experiments lead to initial concepts of correlation and regression.Sweet
8、peas experiment (1875)Symmetric studies of Stature (1885)3 相关关系相关关系 The story2020/12/19152020/12/1916Correlation exists between two variables when one of them is related to the other in some way.3 相关关系相关关系 The story2020/12/19174 Scatter plot(or scatter diagram)is a graph in which the paired(x,y)samp
9、le data are plotted with a horizontal x axis and a vertical y axis.Each individual(x,y)pair is plotted as a single point.散点图散点图(Scatter plot)在平面直角坐标系上标识两变量在平面直角坐标系上标识两变量(x,y)间关系的统计图。间关系的统计图。2020/12/191816.51717.51818.515161718192021Figue 1 Plot of Diameter of Daughter Seed versus Diameter of Parent
10、Seed from the data in Table 1.2020/12/1919反映两定量指标间的相关关系用反映两定量指标间的相关关系用 Pearson 相关系数,相关系数,r。(Pearson correlation coefficient)用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标.Correlation analysis Analysis of the degree to which changes in one variable are associated with changes in a
11、nother variable.5 Pearson相关系数2020/12/19205 Pearson相关系数22XYXX YYXXYYrXXYlYll2XXlXX2YYlYYX 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和:YYXXlXY2020/12/1921以下资料选自以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。英寸)有关。6 相关系数的计算相关系数的计算2020/12/1922绘制散点图Y 成年后身高(单位:英寸)X X 2 2岁时的身高(单位:英寸)岁时的身高(单位
12、:英寸)30323436384063656769712020/12/19232222272931870.008XXXlXXXn22225343571267.508YYYlYYYn272 5341822165.008XYXYlXXYYXYn6 相关系数的计算相关系数的计算2020/12/192465.000.945670.00 67.50XYXX YYlrll6 相关系数的计算相关系数的计算2020/12/1925例例10.1 10名名3岁男童体重与体表面积的关系岁男童体重与体表面积的关系 编号编号 体重体重(X,kg)体表面积体表面积(Y,103cm2)111.05.283211.85.299
13、312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计合计133.457.2662020/12/192610名名3岁男童体重与体表面积散点图岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)2020/12/1927例例10.1资料相关系数的计算资料相关系数的计算9396.55439.19040.247266.544.13XYYYXXlllY X 9579.05439.19040.249396.5r2020/12/1
14、9286 相关系数的计算2020/12/192918 17.5128 2.23 7.36XXYYXYX Ylll 6 相关系数的计算93.023.22836.7YYXXXYlllr2020/12/19307 相关系数的性质-1 r 1r0为正相关为正相关r0为负相关为负相关r0为零相关或无相关为零相关或无相关相关系数绝对值越大,两变量间相关程度越密切;相关系数绝对值越大,两变量间相关程度越密切;相关系数越接近于相关系数越接近于0,表示相关越不密切。,表示相关越不密切。2020/12/1931r=0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c)r 0(e)r 0(g)零相关正
15、相关负相关完全正相关完全负相关零相关零相关零相关8 相关关系示意图2020/12/1932r=-1-1r 0r=0直线相关的图示与相关系数的关系0r 1r=12020/12/1933相关系数的正负示意图体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.62020/12/1934体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.6相关系数的大小示意图r=1 0 r 1r=02020/12/19359 相关系数的含义(了解)(了解)的方差的方差的协方差与YXY
16、Xr2020/12/1936协方差协方差(covariance,COV):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。:两个变量与其均值离差乘积的平均数,是相互关系的一种度量。1)(nyyxxSiixy样本协方差:样本协方差:9 相关系数的含义(了解)(了解)2020/12/1937对协方差的理解对协方差的理解Nyxyixixy)()(yyxx为正为正)(yyxx为负为负)(yyxx为正为正)(yyxx为负为负xy协方差为大的正值时,表示强的正相关。协方差为大的正值时,表示强的正相关。2020/12/1938对协方差的理解对协方差的理解Nyxyixixy)(xy协方差接近于零时,表
17、示很小或没有线性相关关系。协方差接近于零时,表示很小或没有线性相关关系。2020/12/1939对协方差的理解对协方差的理解Nyxyixixy)(xy协方差为大的负值时,表示强的负相关。协方差为大的负值时,表示强的负相关。2020/12/1940协方差为大的正值时,表示强的正相关。协方差为大的正值时,表示强的正相关。协方差接近于零时,表示很小或没有线性相关关系。协方差接近于零时,表示很小或没有线性相关关系。协方差为大的负值时,表示强的负相关。协方差为大的负值时,表示强的负相关。对协方差的理解对协方差的理解-Are they right?-Maybe.2020/12/1941Nyxyixixy)
18、(Nyxyixixy)(cmkgmmkg大于大于基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。2020/12/19422222()()()()11()()()()1iixyxyiiiiiiXYXX YYxXyYSrS SxXyYxnnnXyYxXyYlll 相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。2020/12/1943XY10 相关系数的假设检验 00r 2020/12/1944H 0:0,亲代种子直径与子代无相关关
19、系;H 1:0,亲代种子直径与子代有相关关系。=0.05。t t 服从自由度为n-2的 t t 分布。2102nrrsrtr10 相关系数的假设检验2020/12/1945Table 1 资料相关系数的假设检验220.935.77110.93272rtrn自由度102,P=0.0020拒绝H0,接受H1。可以认为亲代种子直径与子代之间有正相关关系,相关系数为0.93。2020/12/1946H 0:0,体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。=0.05。t t 服从自由度为n-2的 t t 分布。2102nrrsrtr例例10.1资料相关系数的假设检验资料相关系数的假设
20、检验2020/12/1947例例10.1资料相关系数的假设检验资料相关系数的假设检验4369.92109579.019579.02122nrrt自由度102,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。2020/12/194811 总体相关系数的区间估计总体相关系数的区间估计从相关系数从相关系数 不等于不等于0的总体中抽样,样本相关系数的分布是偏态的。的总体中抽样,样本相关系数的分布是偏态的。2020/12/1949相关系数的抽样分布(=-0.8)-0.8-0.6-0.4-0.20.00100200300-1.02020/12/1950相关系数的抽样分布(=
21、0)-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81.001002003002020/12/1951相关系数的抽样分布(=0.8)00.20.40.60.81.001002003002020/12/1952R.A.Fisher(1921)的 z 变换1111ln2122zzeerrrz z 近似服从均数为 ,标准差为 的正态分布。)1/()1(ln21rr3/1n2020/12/1953相关系数的z 值的抽样分布(=-0.8)00.51.01.52.00501001502002020/12/1954相关系数的z 值的抽样分布(=0)-2-1012050100150200
22、2020/12/1955相关系数的z 值的抽样分布(=0.8)012340501001502002020/12/1956相关系数的可信区间估计将 r 变换为 z;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r。31nuzsuzz2020/12/1957相关系数的可信区间估计相关系数的可信区间估计 Fishers 变换变换 r z 正态近似正态近似 Fishers 反变换反变换 的的95CI z的的95CI 2020/12/19582z2 0.91202z2 0.91202z2 2.66502z2 2.665011 0.9456ln()1.788521 0.94561.788
23、5 1.96/83=(0.9120,2.6650)e110.7221e+11e110.9904e+11lowupzeleele该可信区间有什么含义?2020/12/1959例 某医院分别测定正常成年男子12人和正常成年女子12人的心率(X,次/分)与心脏左室电机械收缩时间QS(Y,毫秒)的数据见表10.2,试比较男子和女子的心率(次/分)与心脏左室电机械收缩时间QS(毫秒)的相关是否相同。两个相关系数的比较(了解)两个相关系数的比较(了解)2020/12/1960两个相关系数的比较(了解)两个相关系数的比较(了解)男女的心率和电机械收缩时间2020/12/1961分析思路:两组资料的相关性如何
24、?两个相关系数是否相等?由于相关系数并不服从正态分布,因此对两个相关系数的差别的假设检验可以通过z变换的原理,对两个z变换值作假设检验得到。2020/12/196224名成年男女的心率(X)与收缩时间(Y)的散点图 男性 女性 5060708090100300350400450心率心率(次次/分分)收缩时间(毫秒)5060708090300350400450100心率心率(次次/分分)2020/12/19631427.33330.8827858.6667 3044.9167r 男2351.250.91791338.9167 4900.2500r 女2020/12/1964分别对两相关系数是否为
25、0进行假设检验。=122=10,则P10.001,P20.20,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。2020/12/1967等级资料的相关(了解)(了解)Spearman等级相关将各变量X,Y分别编秩RX,RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS。-1rs12020/12/1968例例 抗白指数与临床疗效的关系抗白指数与临床疗效的关系某研究所用野百合治疗白血病,并作抗白血病指数某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数简称抗白指数)与疗效的分析,问抗与疗效的分析,问抗白指数与临床疗效间有无关系?白指数与
26、临床疗效间有无关系?病例号病例号 抗白指数抗白指数X 临床疗效临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+11881290RX(3)123456789101112RY(4)99911.511.53336.56.5332020/12/1969RX(3)123456789101112RY(4)99911.511.53336.56.533rs=-0.6894等级资料的相关(了解)(了解)XYXXYYlll2020/12/1970等级相关的假设检验H 0:S0,抗白指数与疗效无相关关系;H 1:S0,抗白指数与疗效有相关关系。=0.05。当n50时,用查
27、“等级相关界值表”;当n50时,用 t 检验:t t 服从自由度为n-2的 t t 分布。)2()1(2nrrtSS2020/12/1971资料的假设检验本例 n=12,查界值表,得:rs(0.05,12)=0.587即,若 H0 成立,则等级相关系数有95%的可能在(-0.587,0.587)之间。现 rs=-0.6894,故 P 0.05。可以认为,抗白指数与疗效有等级相关关系。2020/12/1972例 母亲文化程度与儿童智商的关系母亲文化程度 儿童智商等级(Y)合计 (X)中下中等中上上等 小学2281303136 初中5723613526454高中或中专1111210517245大专
28、与以上1410722 合计9143328053857rs=0.22612020/12/1973大样本时的等级相关检验本例 n=857,大于50,用 t 检验:P0.01。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。8552857787.62857/2261.012261.02,t2020/12/1974 相关关系不等于因果关系;相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数;极端值可能影响相关系数;注意相关关系成
29、立的数据范围;注意相关关系成立的数据范围;警惕虚假相关。警惕虚假相关。12 相关分析的正确应用相关分析的正确应用2020/12/1975定量资料在进行相关分析定量资料在进行相关分析(Pearson相关相关)前,需作散点图,从散点图的趋势判断是否可以作前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;线性相关分析;12 相关分析的正确应用相关分析的正确应用2020/12/1976某地某地160名名20岁男子身高与体重散点图岁男子身高与体重散点图(双变量正态分布双变量正态分布)2020/12/1977成都市男中小学生12个年龄组的平均身高 2020/12/1978紫外光对新生小鼠背皮ATP
30、酶阳性的郎格汉斯细胞(LC)照射不同时间的细胞密度(个/mm3)2020/12/1979某肿瘤病人的生存率 2020/12/1980大白鼠进食量(X,g)与体重增加(Y,g)的关系 2020/12/1981免疫球蛋白A(IgA,g)与火箭电泳高度(Y,mm)的关系 2020/12/198226名病人的胃液的pH值与尿中亚硝酸盐浓度的散点图 尿中亚硝酸盐的浓度尿中亚硝酸盐的浓度胃液的胃液的pHpH值值2020/12/1983建湖县19781985年疟疾逐月发病数 月份月份月发病人数月发病人数 2020/12/1984我国19401988年间不同月份的男性婴儿死亡率()的季节性分析 男性婴儿死亡率()月份2020/12/1985识别离群值;PQ图10.5 离群值对相关的影响12 相关分析的正确应用相关分析的正确应用2020/12/1986排除间杂性。(a)(b)样本甲观察点 样本乙观察点图10.6 样本的间杂性对相关性的误导12 相关分析的正确应用相关分析的正确应用2020/12/1987
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。