医学精品课件:10第十章直线相关与回归.ppt

上传人(卖家):金钥匙文档 文档编号:438587 上传时间:2020-04-06 格式:PPT 页数:49 大小:2.19MB
下载 相关 举报
医学精品课件:10第十章直线相关与回归.ppt_第1页
第1页 / 共49页
医学精品课件:10第十章直线相关与回归.ppt_第2页
第2页 / 共49页
医学精品课件:10第十章直线相关与回归.ppt_第3页
第3页 / 共49页
医学精品课件:10第十章直线相关与回归.ppt_第4页
第4页 / 共49页
医学精品课件:10第十章直线相关与回归.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、,2020/4/6,1,医学统计学 人民卫生出版社,第十章 直线相关与回归,2020/4/6,2,学习目标 1.掌握:相关与回归的概念;相关系数与回归 系数的意义和计算;相关系数与回归 系数的假设检验。 2.熟悉:相关与回归的区别与联系;相关分析 与回归分析中应注意的问题;秩相关 的应用条件。 3.了解:最小二乘法原理;线性相关与回归的 应用。,2020/4/6,3,在前面我们所研究的资料仅涉及到一个变量,主要是描述该变量的统计特征或统计推断。譬如求出该变量的集中趋势和离散程度指标,对该变量进行均数的假设检验或进行方差分析等。然而,在医学研究中会涉及到两个或两个以上的变量,譬如,人的身高与体重

2、、体温与脉搏、年龄与血压、体重与肺活量等,它们之间存在一定的联系。,2020/4/6,4,变量间的关系,确定性关系(函数关系),非确定性关系(相关关系),如圆的面积公式:,人的身高与体重、体温与脉搏、年龄与血压、体重与肺活量,变量间非确定性关系称为相关关系(correlation),2020/4/6,5,第一节 直线相关 一、相关系数的意义 (一)散点图 数据点在平面直角坐系上的分布图称为散点图(scatter diagram)。散点图表示因变量随自变量而变化的大致趋势,当两正态分布变量在散点上的变化呈直线趋势时称为直线相关(linear correlation)或称简单相关(simple c

3、orrelation),反之称为非线性相关。(nonlinear correlation)。,2020/4/6,6,图10-1 几种常见的散点图,2020/4/6,7,相关的种类,按影响因素多少,按影响因素的表现方式,按相关的方向,按相关的程度,单相关,复相关,线性相关,非线性相关,正相关,负相关,完全相关,不完全相关,不相关,2020/4/6,8,(三)相关的程度和方向 用于描述两变量间相关密切程度和相关方向的指标称为相关系数(correlation coefficient),样本相关系数用符号r表示,总体相关系数用符号表示。相关系数没有单位,其取值范围为: 1r1。,2020/4/6,9,

4、一般认为,当样本含量较大的情况下(n100),大致可按下列标准估计两变量相关的程度: r0.7 高度相关 0.7r0.4 中度相关 0.4r0.2 低度相关,2020/4/6,10,二、相关系数的计算,(10-1),式中l与l分别为变量X与Y的离均差平方和,lXY为两变量X、Y的离均差积和,n为样本容量。,(10-2),(10-3),(10-4),2020/4/6,11,例10-1 某医师测量12名20岁健康男大学生的身高与前臂长,资料见表10-1。试求身高与前臂长的相关系数。,表10-1 12名20岁健康男大学生身高与前臂长资料,2020/4/6,12,解:(1)绘制散点图 如图10-2所示

5、。,图10-2 12名20岁男大学生身高与前臂长散点图,2020/4/6,13,表10-2 例10-1相关系数计算表,(2)列相关系数计算表 从图中可以知,这些点近似分布在一条直线上,呈线性相关。列出相关系数计算表,如表10-2所示。,2020/4/6,14,(2)计算相关系数r 已知 ,把表10-2的结果代入公式10-2,10-3,10-3,10-1得:,2020/4/6,15,三、相关系数的假设检验 在相关系数计算出来后,还不能认为这两个变量间就存在相关关系,因为它只是一个样本相关系数,仅为总体相关系数的估计值。要判断r是否来自总体相关系数=0的一个样本,还需对样本相关系数进行假设检验后,

6、才能判断两总体是否存在直线相关关系。相关系数的假设检验常用t检验法和查表法。,相关系数计算出来后,能否认为两变量间存在线性关系?不能,2020/4/6,16,(一)t 检验,自由度,(10-5),式中Sr为相关系数的标准误,n为样本含量。,2020/4/6,17,例10-2 对例10-1资料所得r值,检验20岁健康男大学生的身高与前臂长是否存在直线相关关系。 (1)建立检验假设,确定检验水准 H0:0,两变量间无直线相关关系 H1:0,两变量间有直线相关关系 =0.05,(2)计算r值 已知n=12,r=0.7953, 代入公式(10-5)、(10-6)得:,2020/4/6,18,(3)确定

7、值,作出推断结论 按n-2=10,查附表2,t 界值表,t0.002/2,10=3.930 ,现tr3.930,故P0.002。按的检验水准,拒绝H0,接受H1,可认为20岁健康男大学生的身高与前臂长呈正直线相关关系。,2020/4/6,19,(二)查表法 查附表11,r界值表,列出相关系数r与0差别有无统计学意义的判断界值,按自由度=n-2查r界值表,当rr/2,(n-2)时,则P,可认为两变量间存在直线相关关系;反之,rr/2,(n-2) 时,则P,则认为两变量间不存在直线相关关系。,2020/4/6,20,例10-3 对例10-1资料所得r值,用查表法检验20岁健康男大学生的身高与前臂长

8、是否存在直线相关关系。 解:本例r0.7953,按=10查附表11,得r0.002/2.10=0.795,现rr0.002/2,10,故P0.002,按的检验水准,拒绝H0,接受H1,可认为该地20岁健康男大学生的身高与前臂长呈正直线相关关系。检验结果与t检验相同。,2020/4/6,21,第二节 直线回归 一、直线回归的概念 在描述两变量X与Y的关系时,如果散点图呈直线趋势或有直线相关关系,就可以用一个直线方程来表示两个变量在数量上的依存关系,这个直线方程叫做回归方程(regression equation),用直线回归方程表示两个变量在数量上的依存关系的统计分析方法叫做回归分析。,2020

9、/4/6,22,二、直线回归方程的计算公式,(10-7),(10-8),(10-7),这里 就是给定X时Y的估计值,a为回归直线在Y轴上的截距(intercept),b为回归方程的斜率,称为回归系数(regression coefficient),,2020/4/6,23,三、直线回归方程的计算 例10-4 利用例10-1资料,已知12名20岁健康男大学生的身高与前臂长存在直线相关关系,现求身高与前臂长的直线回归方程。 计算步骤: (1)列回归系数计算表 同表10-2,求出X ,Y ,XY ,X2 , Y2 。 本例X=2079 ,Y=545 ,XY=94683 ,X2=361493 ,Y2=

10、24835。,2020/4/6,24,(2)求 、 、,前面已经计算出 =1306.25 , =261.75,(3)求回归系数b和截距a,2020/4/6,25,(4)列出回归方程 将求出的a和b代入公式(10-7)得出,(5)绘制回归方程图 本例取X1=155,则 ;X2=190,则 。在图上确定(155,41.77)和(190,48.78)两个点直线连接,即得出直线回归方程的图形,见图10-3。,2020/4/6,26,图10-3 12名20岁男大学生身高与前臂长回归直线,2020/4/6,27,三、回归系数的假设检验 求出回归方程后,还不断定X与Y就存在直线回归关系,这是因为b只是一个样

11、本回归系数,只是对总体回归方程的一个统计推断,由于抽样误差是客观存在的,还需检验b是否来自于总体回归系数=0的一个样本。回归系数的假设检验有t检验和方差分析,这里仅介绍 t 检验。,回归方程建好能否认为两变量间存在直线关系?,回答 No,2020/4/6,28,(10-10),(10-11),(10-12),式中 是样本回归系数 b的标准误, 表示样本回归系数的变异程度;为剩余标准差(residual standard deviation),是指扣除X对Y的影响后,Y对回归直线的离散程度。,t 检验法,2020/4/6,29,例10-5 根据例10-4的结果,用t检验法检验身高与前臂长有无直线

12、回归关系。 (1)建立检验假设,确定检验水准 H0:0,即身高与前臂长无直线回归关系 H1:0,即身高与前臂长有直线回归关系 0.05,(2)计算值tb 前面已求出lXX =1306.25,lYY=82.92,lXY=261.75,代入上述公式有:,2020/4/6,30,(3)确定P值,作出推断结论 按n-2=10,查附表2,t界值表,t0.002/2,10=3.930 ,现tb3.930,故P0.002。按0.05的检验水准,拒绝H0,接H1受,可认为20岁健康男大学生的身高与前臂长存在直线回归关系。,2020/4/6,31,四、总体回归系数的区间估计 样本回归系数b只是总体回归系数的一个

13、点估计值。类似与总体均数的可信区间的估计,的双侧(1-)可信区间可由公式(10-13)计算:,(10-13),2020/4/6,32,例10-6 根据例10-4中所得的b=0.2004,估计其总体回归系数的双侧95%可信区间。 上述假设检验中已得出Sb=0.0483,自由度=10,查t界值表,得到t0.05/2,10=2.179,按公式(10-13)计算出的95%可信区间为(0.0952,0.3056)。得出的95%的可信区间中未包含0,这与前面假设检验结果一致。,2020/4/6,33,五、直线回归方程的应用 1.定量描述两变量之间的依存关系 通过回归系数的假设检验,若认为两变量间存在着直线

14、回归关系,则可用直线回归来描述。 2.利用回归方程进行预测 利用回归方程进行预测这是回归方程的重要应用。 3.利用回归方程进行统计控制 统计控制是利用回归方程进行逆估计,即要求应变量Y值在一定范围内波动,进一步来得到自变量X的取值,然后通过X取值来控制Y的变化。,2020/4/6,34,第三节 进行直线相关与回归分析时应注意的问题 一、直线相关与回归分析的注意事项 1. 作相关与回归分析不要把两种毫无联系现象的作相关与回归分析。 2. 相关关系不一定是因果关系,它可能是伴随关系。要证明两事物间确实存在因果关系,必须凭借专业知识加以证明。 3. 在进行直线相关与回归分析之前,应先绘制散点图。当观

15、察点的分布呈直线趋势时,方可进行相关与回归分析。 4. 回归方程一般只适用于自变量X的原始数据范围内,不能任意外延。 5. 建立回归方程的条件一旦改变,原回归方程不宜继续使用。 6. 正确解释结果,2020/4/6,35,二、直线相关与回归的区别与联系 (一)区别 1. 资料要求不同 2. 统计意义不同 3. 分析目的不同 4范围不同-1r1 ,-b+。 5量度单位不同 r没有单位,b有单位。,2020/4/6,36,(二)联系 1变量间关系的方向一致 对同一资料,其与的正负号一致。 2假设检验等价 对同一样本,tr=tb。 3与值可相互换算,(10-14),(10-15),2020/4/6,

16、37,第四节 秩相关分析 前面所研究的直线相关分析要求资料服从双变量的正态分布,对于那些资料分布类型不明、呈偏态分布和有序分类变量资料,就不能在沿用前面的方法,要描述两事物间的相关关系,常采用秩相关(rank correlation)来分析两个变量相关方向与密切程度。秩相关也称等级相关,属于非参数统计方法,可用于有序分类变量或相对数表示的资料。,2020/4/6,38,一、秩相关系数的计算 Spearman秩相关分析法是将原始数据、按数值从小到大排序编秩,以秩次作为新的变量计算秩相关系数(rank correlation coefficient)系数,用来表示与间线性相关关系的密切程度和方向。

17、与直线相关系数一样,相关系数的取值范围也在1rs1之间, rs0为正相关。秩相关系数是总体相关系数的估计值。,2020/4/6,39,Spearman秩相关系数rs计算公式为:,(10-16),(10-17),(10-18),(10-19),式中p、q分别为变量X、Y的秩次。,2020/4/6,40,例10-7 在肝癌病因研究中,某地调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(以最高含量为10),资料见表10-3(2)、(4)两栏。试求黄曲霉毒素相对含量与肝癌死亡率的秩相关系数rs。,2020/4/6,41,黄曲莓毒素相对含量 肝癌死亡率(1/10万) 乡编号 ,表1

18、0-3 黄曲莓毒素相对含量与肝癌死亡率,2020/4/6,42,解:1. 先将X、Y 分别由小到大编秩次,见表10-3中的第(3)栏和第(5)栏。在编秩过程中遇到数字相同时,求平均秩次。 2. 计算出p2、q2和pq见表中的第(6)、第(7)和第(8)栏。 3.计算Spearman秩相关系数。,2020/4/6,43,2020/4/6,44,二、秩相关系数的假设检验 rs是由样本资料计算出来的相关系,它是总体相关系数s的估计值,由于存在抽样误差,需要检验rs是否来自s=0的总体。 当时n50,可根据n的大小查附表12,rs界值表,若rsa,说明X、Y两变量之间不存在相关系数;若rsr,n,则P

19、,说明、两变量存在相关关系。当n50时,可以进行t检验。,2020/4/6,45,例10-8 对例10-7的资料检验黄曲霉毒素相对含量与肝癌死亡率有无相关关系。 解:(1)建立检验假设,确定检验水准 H0:s0,即两变量间无相关关系 H1:s0,即两变量间有相关关系 =0.05,(2)计算秩相关系数 本例。rs=0.7455,2020/4/6,46,(3)确定P值,作出推断结论 查rs界值表得r0.05,10=0.648,现rsr0.05,10,故P0.05。按a=0.05的检验水准,拒绝H0,接受H1,可认为黄曲霉毒素相对含量与肝癌死亡率存在相关关系。,2020/4/6,47,本章小结 分析

20、两个变量之间有无相关关系时,需根据数据先绘制散点图,散点图呈现直线趋势时,再作相关分析,只有当两个变量都服从正态分布时才可计算相关系数。 2. 计算出的样本相关系数,仅是总体相关系数的一个估计值,由于抽样误差的存在,还不能直接根据样本相关系数判断两变量之间有无相关关系,以及相关的密切程度,还必须对样本相关系数进行假设检验。 3在回归分析中,因变量是随机变量,自变量可以是随机变量,也可以是给定变量。当自变量是随机变量时,两个变量都应该服从正态分布;当自变量是给定变量时,与每个自变量X取值相对应的因变量Y必须服从正态分布。,2020/4/6,48,4. 建立回归方程后必须进行假设检验,只有经假设检验拒绝无效假设后,回归方程才有意义;使用回归方程时,若无足够理由,不能将自变量的取值范围任意扩大到建立回归方程时自变量的取值范围以外。 5.对于资料分布类型不明、呈偏态分布和有序分类变量资料,要用秩相关来描述两事物间的相关关系。 6. 要理解相关与回归的意义、联系与区别。,2020/4/6,49,Thank You !,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中职 > 医药护理
版权提示 | 免责声明

1,本文(医学精品课件:10第十章直线相关与回归.ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|