相关分析.ppt

上传人(卖家):金钥匙文档 文档编号:458084 上传时间:2020-04-11 格式:PPT 页数:89 大小:6.27MB
下载 相关 举报
相关分析.ppt_第1页
第1页 / 共89页
相关分析.ppt_第2页
第2页 / 共89页
相关分析.ppt_第3页
第3页 / 共89页
相关分析.ppt_第4页
第4页 / 共89页
相关分析.ppt_第5页
第5页 / 共89页
点击查看更多>>
资源描述

1、818 East Tianyuan Rd. Nanjing, PR China, 211166 | 两指标间的关系分析两指标间的关系分析 线性相关线性相关 Linear Correlation 南京医科大学公共卫生学院南京医科大学公共卫生学院 易洪刚易洪刚 honggangyi Medical Statistics 医学统计学 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 2 主要内容主要内容 问题的提出问题的提出 相关关系相关关系 散点图散点图 Pearson相关系数相关系数 正确应用正确应用 818 East Tianyuan Rd.

2、Nanjing, PR China, 211166 | 有有其父其父,必有其必有其子子 名师出高徒名师出高徒 瑞雪兆丰年瑞雪兆丰年 3 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 4 问题的提出问题的提出 2008年,甲型H1N1流感爆发的几周前 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 5 问题的提出问题的提出 谷歌工程师提前预测了美国冬 季H1N1流感的传播。 Ginsberg J, Mohebbi Ginsberg J, et al. Nature, 2

3、009, 457(7232): 1012-1014. 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 6 图图A:2003年年2008年流感传播情况年流感传播情况 图图B:2008年年5月流感爆发前几周传播情况月流感爆发前几周传播情况 图1 Google预测流感传播(黑线)与实际流感传播(红线)的比较 Ginsberg J, et al. Nature, 2009, 457(7232): 1012-1014. 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Google预测速度比美国疾控中心

4、还要快12周; 不仅预测了全美范围的传播,而且还可以预测具 体到特定的地区和州。 7 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 利用了两个不同来源的数据: 搜索引擎上的5000万个高频词条 流感有哪些症状? 哪些是治疗咳嗽和发热的药物? 美国疾控中心近5年的流感传播数据 8 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 9 问题的提出问题的提出 Relationship! 818 East Tianyuan Rd. Nanjing, PR

5、China, 211166 | 问题的提出问题的提出 联系与相互影响是普遍的现象 Relationship! 人的体重往往随着身高的增加而增加。二者之间是否 存在某种关联? 某地区肺癌发病率是否和该地空气中PM2.5浓度有关? 吸烟量与肺功能之间是否有联系? 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 11 仅限于研仅限于研 究究一个一个变变 量量 以往方法以往方法 不局限于不局限于 研究一个研究一个 变量变量 实际情况实际情况 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211

6、166 | 两变量之间的分析方法两变量之间的分析方法 线性相关线性相关 线性回归线性回归 12 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 寻找变量间的关系是科学研究的首要目的;寻找变量间的关系是科学研究的首要目的; 变量间关系的分类变量间关系的分类 13 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | R1 R1 R2 R1 R2 R3 22 11 3.14 13.14()cRSm 22 22 3.14 1.57.07()cmRS 22 33

7、 3.14 212.56()cRSm 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 15 问题的提出问题的提出 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 确定性的函数关系:两变量间的函数关系 。 随机性的相关关系:两变量在宏观上存在关 系,但并未精确到可以用函数关系来表达。 圆的周长与半径的关系: C2R 速度、时间与路程的关系:LST 青少年身高与年龄的关系; 体重与体表面积的关系; 确定性关系与相关关系确定性关系与相关关系 818 East Tianyuan

8、 Rd. Nanjing, PR China, 211166 | x y x y 确定性关系与相关关系确定性关系与相关关系 一一对应确定性函数关系 变量 y 随变量 x 一起变化, 并完全依赖于 x 各观测点落在一条线上 不能用函数关系精确表达 一个变量的取值不能由另一个 变量唯一确定 各观测点分布在直线周围 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 18 主要内容主要内容 问题的提出问题的提出 相关关系相关关系 散点图散点图 Pearson相关系数相关系数 正确应用正确应用 818 East Tianyuan Rd. Nanjing,

9、 PR China, 211166 | 当一个变量增大,另一个也随之增大(或减少), 我们称这种现象为共变,或相关(correlation)。 两个变量有共变现象,称为有相关关系。 相关关系相关关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 正相关正相关(positive correlation): 若两个变量同时增加或减少若两个变量同时增加或减少,变化趋势是同向的;变化趋势是同向的; 负相关负相关(negative correlation): 若一个变量增加时若一个变量增加时,另一个变量减少另一个变量减少,变化趋势变化趋势 是反向的是

10、反向的。 相关关系相关关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 直线相关(直线相关(linear correlationlinear correlation),又称简单相),又称简单相 关,用以描述两个呈正态分布的变量之间的线性关,用以描述两个呈正态分布的变量之间的线性 共变关系,常简称为相关。共变关系,常简称为相关。 相关关系相关关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Sir Francis Galton (1822-1911) 优生学家 遗传学家 探险家 地理学

11、家 气象学家 发明家 统计学家 心理学家 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Heredity experiments lead to initial concepts of correlation and regression. Sweet peas experiment (1875) Symmetric studies of stature (1885) 相关关系相关关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关关系相关关系 SweetSweet peaspeas

12、 experimentexperiment 18751875年年,GaltonGalton把把7 7包甜豌豆种子分发给包甜豌豆种子分发给7 7位朋位朋 友友,朋友们种下这些种子朋友们种下这些种子,又把收获的豆子寄又把收获的豆子寄 还给还给GaltonGalton; GaltonGalton研究了亲代种子和子代种子之间的关系研究了亲代种子和子代种子之间的关系。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Table 1 Data on Diameters of Parent and Daughter Seeds Generated from

13、 Galton (1894) Table 2 in Natural Inheritance . Diameter of Parent Seed (0.01 inch) Diameter of Daughter Seed (0.01 inch) 15 16.77 16 17.28 17 16.92 18 17.35 19 17.69 20 18.28 21 18.29 相关关系相关关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 26 CorrelationCorrelation exists between two variables w

14、hen one of them is related to the other in some way. 相关关系相关关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 27 主要内容主要内容 问题的提出问题的提出 相关关系相关关系 散点图散点图 Pearson相关系数相关系数 正确应用正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 散点图(Scatter plot ) 在平面直角坐标系上标识两变量(x, y)间 关系的统计图。 散点图散点图 818 East Tianyuan

15、Rd. Nanjing, PR China, 211166 | 16.5 17 17.5 18 18.5 15 16 17 18 19 20 21 Figue 1 Plot of Diameter of Daughter Seed versus Diameter of Parent Seed from the data in Table 1. (0.01 inch) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | SymmetricSymmetric studiesstudies ofof staturestature 为了研究父亲与成年儿子

16、身高之间的关系为了研究父亲与成年儿子身高之间的关系,卡尔卡尔. .皮尔皮尔 逊测量了逊测量了10781078对父子的身高对父子的身高。 把把10781078对对数据画散点图数据画散点图。 水平轴水平轴X X代表父亲身高代表父亲身高,垂直轴垂直轴Y Y代表儿子身高代表儿子身高。 30 散点图散点图 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 31 它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,线性,其 主要部分是一个椭圆。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | B S A

17、 (103cm2), Y 32 Weight (kg),X 11 12 13 14 15 16 5.0 5.5 6.0 6.5 y, Survival rate (%) x, Month 0 1 2 3 4 5 6 7 8 9 10 11 12 0 20 40 60 80 100 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 33 主要内容主要内容 问题的提出问题的提出 相关关系相关关系 散点图散点图 Pearson相关系数相关系数 正确应用正确应用 818 East Tianyuan Rd. Nanjing, PR China, 2111

18、66 | 反映两定量指标间的相关关系用Pearson相关 系数,r; Pearson correlation coefficient; 用以说明具有直线关系的两个数值变量间相 关关系的密切程度和相关方向的指标。 Pearson相关系数相关系数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Pearson相关系数相关系数 计算计算 含义含义 性质性质 假设检验假设检验 可信区间可信区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 22 XY XX YY XXYY r XXY l Y ll

19、 2 XXlXX 2 YYlYY X 的离均差平方和: Y 的离均差平方和: X与Y 间的离均差积和: YYXXlXY Pearson相关系数相关系数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | GaltonGalton曾探讨成年时身高是否与两岁时的身高曾探讨成年时身高是否与两岁时的身高 (单位:英寸单位:英寸)有关有关。 两岁时的两岁时的 身高(英寸)身高(英寸) 3939 3030 3232 3434 3535 3636 3636 3030 成年成年 身高身高(英寸)(英寸) 7171 6363 6363 6767 6868 6868

20、 7070 6464 Pearson相关系数相关系数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 绘制散点图 Y 成年后身高(单位:英寸) X 2岁时的身高(单位:英寸) 30 32 34 36 38 40 63 65 67 69 71 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 2 2 2 2 272 931870.00 8 XX X lXXX n 2 2 2 2 534 3571267.50 8 YY Y lYYY n 272 534 1822165.00 8 XY XY lXX

21、YYXY n Pearson相关系数相关系数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 65.00 0.9456 70.00 67.50 XY XX YY l r ll Pearson相关系数相关系数 成年时身高与两岁时的身高的相关系数为成年时身高与两岁时的身高的相关系数为0.94560.9456。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 10名名3岁男童体重与体表面积的关系岁男童体重与体表面积的关系 编号编号 体重体重( (X X,kg,kg) ) 体表面积体表面积( (Y

22、Y,10,103 3cmcm2 2) ) 1 1 11.011.0 5.2835.283 2 2 11.811.8 5.2995.299 3 3 12.012.0 5.3585.358 4 4 12.312.3 5.2925.292 5 5 13.113.1 5.6025.602 6 6 13.713.7 6.0146.014 7 7 14.414.4 5.8305.830 8 8 14.914.9 6.1026.102 9 9 15.215.2 6.0756.075 1010 16.016.0 6.4116.411 合计合计 133.4133.4 57.26657.266 Pearson相关

23、系数相关系数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 10名名3岁男童体重与体表面积散点图岁男童体重与体表面积散点图 11 12 13 14 15 16 5.0 5.5 6.0 6.5 体重(kg),X 体 表 面 积 Y (103cm2) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 9396. 55439. 19040.24 7266. 544.13 XYYYXX lll Y X 9579. 0 5439. 19040.24 9396. 5 r Pearson相关系数相关系数

24、818 East Tianyuan Rd. Nanjing, PR China, 211166 | Table 1 Data on Diameters of Parent and Daughter Seeds Generated from Galton (1894) Table 2 in Natural Inheritance . Diameter of Parent Seed Diameter of Daughter Seed 15 16.77 16 17.28 17 16.92 18 17.35 19 17.69 20 18.28 21 18.29 Pearson相关系数相关系数 818

25、East Tianyuan Rd. Nanjing, PR China, 211166 | 18 17.51 28 2.23 7.36 XXYYXY X Y lll 93. 0 23. 228 36. 7 YY XX XY ll l r Pearson相关系数相关系数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Pearson相关系数相关系数 计算计算 含义含义 性质性质 假设检验假设检验 可信区间可信区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 22 22 ()() ()()

26、1 1 ()() ()() 1 ii xy xy ii ii ii XY XX YY xXyY S r S S xXyY x n nn XyY xXyY l ll 协方差 标准差 协方差与两变量标准差乘积的比值,是没有量纲的、标准 化的协方差。 Pearson相关系数的含义相关系数的含义 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Pearson相关系数相关系数 计算计算 含义含义 性质性质 假设检验假设检验 可信区间可信区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | -1 r 1

27、 r0为正相关 r0为负相关 r0为零相关或无相关 相关系数绝对值越大,两变量间相关程度越密切; 相关系数越接近于0,表示相关越不密切。 Pearson相关系数的性质相关系数的性质 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 50 y x y x 完全负相关 零相关 y x y x 完全正相关 零相关 y x 负相关 y x 正相关 Pearson相关系数的性质相关系数的性质 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 51 Strength Direction Magnitude

28、Sign r = + 0.8 Pearson相关系数的性质相关系数的性质 818 East Tianyuan Rd. Nanjing, PR China, 211166 | -1.0 +1.0 0 -0.5 +0.5 完全负相关 无线性相关 完全正相关 负相关程度增加 r 正相关程度增加 Pearson相关系数的性质相关系数的性质 818 East Tianyuan Rd. Nanjing, PR China, 211166 | r =-1 -1r 0 r =0 0r 1 r =1 Pearson相关系数的性质相关系数的性质 相关系数的大小示意图 818 East Tianyuan Rd. N

29、anjing, PR China, 211166 | 54 Strength Direction Magnitude Sign r = + 0.8 Pearson相关系数的性质相关系数的性质 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Pearson相关系数的性质相关系数的性质 818 East Tianyuan Rd. Nanjing, PR China, 211166 | Pearson相关系数相关系数 计算计算 含义含义 性质性质 假设检验假设检验 可信区间可信区间 818 East Tianyuan Rd. Nanjing, PR

30、 China, 211166 | 57 X Y 0 总体总体 Pearson相关系数的假设检验相关系数的假设检验 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 58 X Y X Y 样本样本 0r 0 总体总体 Pearson相关系数的假设检验相关系数的假设检验 818 East Tianyuan Rd. Nanjing, PR China, 211166 | H 0: 0,亲代种子直径与子代无相关关系; H 1: 0,亲代种子直径与子代有相关关系。 = 0.05。 t 服从自由度为n-2的 t 分布。 2 1 0 2 n r r s r

31、t r Pearson相关系数的假设检验相关系数的假设检验 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 22 0.93 5.77 110.93 272 r t r n 自由度72,P=0.0022 拒绝H0,接受H1,差别有统计学意义。 可以认为亲代种子直径与子代之间有正相关关系, 相关系数为0.93。 Pearson相关系数的假设检验相关系数的假设检验 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 2 1 0 2 n r r s r t r H 0:0,体重与体表面积无相关关系; H

32、 1: 0,体重与体表面积有相关关系。 = 0.05。 t 服从自由度为n-2的 t 分布。 Pearson相关系数的假设检验相关系数的假设检验 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 4369. 9 210 9579. 01 9579. 0 2 1 22 n r r t 自由度102,P0.001 拒绝H0,接受H1,差别有统计学意义。 可以认为3岁男童体重与体表面积之间有正相关 关系。 Pearson相关系数的假设检验相关系数的假设检验 818 East Tianyuan Rd. Nanjing, PR China, 211166

33、 | Pearson相关系数相关系数 计算计算 含义含义 性质性质 假设检验假设检验 可信区间可信区间 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 总体相关系数的区间估计总体相关系数的区间估计 从相关系数从相关系数 不等于不等于0 0的总体中抽样的总体中抽样,样本相关系样本相关系 数的分布是数的分布是偏态偏态的的。 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的抽样分布( = - 0.8) -0.8 -0.6 -0.4 -0.2 0.0 0 100 200 300 -1.0

34、818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的抽样分布( = 0) -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的抽样分布( =0.8) 0 0.2 0.4 0.6 0.8 1.0 0 100 200 300 818 East Tianyuan Rd. Nanjing, PR China, 211166 | R.A. Fisher(1921)

35、的 z 变换 1 1 1 1 ln 2 1 2 2 z z e e r r r z z 近似服从均数为 , 标准差为 的正态分布。 )1/()1(ln 2 1 rr 3/1n 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的z 值的抽样分布( = - 0.8) 0 0.5 1.0 1.5 2.0 0 50 100 150 200 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的z 值的抽样分布( = 0) -2 -1 0 1 2 0 50 100 150 200 818

36、East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的z 值的抽样分布( = 0.8) 0 1 2 3 4 0 50 100 150 200 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关系数的可信区间估计 将 r 变换为 z ; 根据 z 服从正态分布,估计 z 的可信区间; 再将 z 变换回 r 。 3 1 n uzsuz z 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 73 Fishers 变换变换 r z 正态近似正态近似 F

37、ishers 反变换反变换 的的95CI z的的95CI 相关系数的可信区间估计相关系数的可信区间估计 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 2z2 0.9120 2z2 0.9120 2z2 2.6650 2z2 2.6650 11 0.9456 ln()1.7885 21 0.9456 1.7885 1.96/ 83 = (0.9120,2.6650) e11 0.7221 e +11 e11 0.9904 e +11 low up z e l e e l e 相关系数的可信区间估计相关系数的可信区间估计 818 East Ti

38、anyuan Rd. Nanjing, PR China, 211166 | 75 主要内容主要内容 问题的提出问题的提出 相关关系相关关系 散点图散点图 Pearson相关系数相关系数 正确应用正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相关关系不等于因果关系; 相关系数只度量变量间的线性关系,因此,弱 相关不一定表明变量间没有关系; 极端值可能影响相关系数; 注意相关关系成立的数据范围; 警惕虚假相关。 相关分析的正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 相

39、关分析的正确应用相关分析的正确应用 定量资料在进行相关分析(Pearson相关)前, 需作散点图,从散点图的趋势判断是否可以作 线性相关分析; 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 某地某地160名名20岁男子身高与体重散点图岁男子身高与体重散点图 (双变量正态分布双变量正态分布) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 成都市男中小学生12个年龄组的平均身高 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 紫外光对新生小

40、鼠背皮ATP酶阳性的郎格汉斯细胞(LC) 照射不同时间的细胞密度(个/mm3) 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 某肿瘤病人的生存率 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 免疫球蛋白A(IgA,g)与火箭电泳高度(Y,mm)的关系 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 26名病人的胃液的pH值及尿中亚硝酸盐浓度的散点图 尿 中 亚 硝 酸 盐 的 浓 度 胃液的pH值 818 East Tianyuan R

41、d. Nanjing, PR China, 211166 | 84 建湖县19781985年疟疾逐月发病数 月份 月 发 病 人 数 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 我国19401988年间不同月份的 男性婴儿死亡率()的季节性分析 男 性 婴 儿 死 亡 率 () 月份 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 识别离群值; P Q 图10.5 离群值对相关的影响 相关分析的正确应用相关分析的正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 排除间杂性。 (a) (b) 样本甲观察点 样本乙观察点 图10.6 样本的间杂性对相关性的误导 相关分析的正确应用相关分析的正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 | 88 总结总结 相关关系相关关系 散点图散点图 Pearson相关系数相关系数 正确应用正确应用 818 East Tianyuan Rd. Nanjing, PR China, 211166 |

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(相关分析.ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|