1、双变量回归与相关概念:概念:回归与相关是研究两个或多个变量之间相互关系的回归与相关是研究两个或多个变量之间相互关系的一种分析方法一种分析方法。回归:回归:是研究变量之间在数量上依存关系的一种方法。是研究变量之间在数量上依存关系的一种方法。相关:相关:是研究随机变量之间相互联系密切程度和方向的方法是研究随机变量之间相互联系密切程度和方向的方法。直线相关与回归:直线相关与回归:只涉及两个变量,而且分析是否呈直线关系,是回只涉及两个变量,而且分析是否呈直线关系,是回归、相关分析中最简单的一种。又称简单相关和回归归、相关分析中最简单的一种。又称简单相关和回归。一、直线回归一、直线回归1.直线回归方程直
2、线回归方程 :X为某值时应变量为某值时应变量Y的平均估计值的平均估计值a:截距:截距b:回归系数:回归系数注意注意:直线回归方程与函:直线回归方程与函数方程的不同数方程的不同 Y=a+bX表 6.1 20 名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值 病例号 血糖 胰岛素 I YI Xi 病例号 血糖 胰岛素 I Yi Xi1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86 11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.711 6.44 25.11
3、2 9.49 16.413 10.16 22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.4 20名糖尿病人的血糖水平与胰岛素水平的散点图名糖尿病人的血糖水平与胰岛素水平的散点图直线回归方程的求法直线回归方程的求法 原理(最小二乘法):原理(最小二乘法):各散点距离回归直线各散点距离回归直线纵向纵向距离平方和为最小而得到直线。距离平方和为最小而得到直线。计算:计算:回归直线必通过点回归直线必通过点xxxyll 资料要求:资料要求:应变量应变量Y服从正态分布,通常自变
4、量服从正态分布,通常自变量X为为可以精确测量或严格控制的因素。可以精确测量或严格控制的因素。2.建立直线回归方程的具体步骤建立直线回归方程的具体步骤表 6.1 20 名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值 病例号 血糖 胰岛素 I YI Xi 病例号 血糖 胰岛素 I Yi Xi1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86 11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.711 6.44 25.112 9.49 16.413 10.16
5、22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.4 20名糖尿病人的血糖水平与胰岛素水平的散点图名糖尿病人的血糖水平与胰岛素水平的散点图绘制散点图观察两变量见是否呈直线趋势绘制散点图观察两变量见是否呈直线趋势正 态性 检验.13820.200*.91420.078.12520.200*.95920.522yx统计量dfSig.统计量dfSig.Kolmogorov-SmirnovaShapiro-Wilk这 是 真 实显 著 水 平 的 下 限。*.Lillief
6、ors 显 著 水 平修 正a.H0:正态分布正态分布H1:非正态分布非正态分布 =0.10 x x,y y是否服从正态分布是否服从正态分布 X =346.6,Y=217.00,X2=6552.16,Y2=2517.1014 XY=3510.45,n=20,X=17.33,Y=10.85 7961.1833.17)4585.0(85.10 xbya0.4585545.582250.16/n(x)x(x)(y)/n-xyb22xy4585.07961.18 即推断总体回归系数(即推断总体回归系数()是否为零)是否为零(1)方差分析方差分析 即:即:SS总总=SS回归回归+SS残余残余3.直线回归
7、的假设检验直线回归的假设检验查附表查附表3,P698,F0.01(1,18)=8.29 P 0.01农村相对贫困,店铺经营不稳定。因此,针对农村客户设计了两层型的冰柜,有两个分离式的压缩机,省电的时候使用上层,里面的结构非常简单,降低成本和价格。这就是服务的策略,产品的设计能够满足顾客的细分化的技巧。5、不得占用公共走道,原占用的必须打通。4.2熟悉本单位工艺流程和设备技术标准,有较强的专业知识,具有重大事故的处理能力。_2、人员监控、管理:4 知识产权成为OTC药的直接使用点;8.1 卖方应提供买方要求的有关合同项下由卖方提供的备品备件。成功企业案例(一)成交候选供应商存在违法、违纪行为的;
8、(2)检验检验H0:=0H1:0bSbt0(0.4585 0)/0.0699=6.56 =18,t0.01(18)=2.878 P 0.01F=t2=(-6.56)2=43.03(1)描述两分析变量间的数量依存变化关系)描述两分析变量间的数量依存变化关系4.4.直线回归方程的应用直线回归方程的应用xy4585.07961.18表 6.1 20 名糖尿病人血糖(mmol/L)与胰岛素(mU/L)测定值 病例号 血糖 胰岛素 I YI Xi 病例号 血糖 胰岛素 I Yi Xi1 12.21 15.22 14.54 16.73 12.27 11.94 12.04 14.05 7.88 19.86
9、11.10 16.27 10.43 17.08 13.32 10.39 19.59 5.910 9.05 18.711 6.44 25.112 9.49 16.413 10.16 22.014 8.38 23.115 8.49 23.216 7.71 25.017 11.38 16.818 10.82 11.219 12.49 13.720 9.21 24.44.直线回归方程的应用直线回归方程的应用(2)预测预测:1)点预测:)点预测:一般把易于测定、控制的变量作为自变量,建一般把易于测定、控制的变量作为自变量,建立回归方程,然后对难以测定或控制的变量值进行立回归方程,然后对难以测定或控制的变
10、量值进行预测。预测。2)区间预测:)区间预测:当当X是已知时,按一定概率估计是已知时,按一定概率估计应变量值应变量值或其或其均数均数所在范围所在范围当当X为某固定值为某固定值X0时,时,总体均数(总体均数()的可信区间)的可信区间2)()(1.220.000 nSSMSSxxxxnSSstyxyxyyy剩余(残)剩余(残)剩余剩余 0 y0XY 例例6.1资料资料,当当 X0=15 mU/L,求,求 总体均总体均数的数的95%可信区间。可信区间。即:即:11.918 2.1010.3396=(11.08,12.76)3996.053.545)33.1715(201632.120 yS018,0
11、5.00ysty 9182.11154585.07957.180 y101.218,05.0t0 y个体个体Y值的预报区间(容许区间)值的预报区间(容许区间)意义意义:当当X是某一固定值是某一固定值X0时,按一定概率估时,按一定概率估计应变量计应变量Y0的波动范围。的波动范围。220.0)()(1100 xxxxnSSstyxyyy 6.1资料,当资料,当X=15,求,求Y的波动范围(的波动范围(=0.05)669.153.545)33.1715(2011632.12yS不同与注意:.yystysty15.42),41.8(669.1101.2918.11 某地疾控中心根据某地疾控中心根据10
12、年来乙脑发病率(年来乙脑发病率(1/10万,万,Y)与相应前一年与相应前一年7月份日照时间(小时,月份日照时间(小时,X)建立回归方)建立回归方程,将乙脑发病率做平方根反正弦变换,即程,将乙脑发病率做平方根反正弦变换,即求得回归方程求得回归方程已知已知7月份日照时间月份日照时间X=260小时,试估计小时,试估计该地该地的乙脑发病率(设的乙脑发病率(设=0.05)。)。Yy1 sinxy006801971.10569002230 nlSxxxy ,237.43,x ,.万之间。即(得:(取原函数,双侧,11.97/108.08,0.0001197),.,)sin).,.().(.,.).(.00
13、0080806270515002430306257103062571026000680197102430569043237260101102230280502yYtysy (3)控制控制:指当要求因变量指当要求因变量Y在一定范围内波动时,如何控制自变在一定范围内波动时,如何控制自变量量X的取值。的取值。例例:已知血糖正常范围为(:已知血糖正常范围为(4.446.66 mmol/L),在例),在例6.1资料的基础上,问欲将血糖水平控制在正常范围内时,血中资料的基础上,问欲将血糖水平控制在正常范围内时,血中胰岛素应维持在什么范围内?胰岛素应维持在什么范围内?(=0.05)632.1101.2)45
14、85.07961.18(66.6632.1101.2)4585.07961.18(44.418,05.018,05.0 xstyxstyyy解得:解得:X(33.95,38.79)mU/L(4)(4)利用回归方程获得精度更高的参考值范围利用回归方程获得精度更高的参考值范围100 例正常人胆固醇含量与年龄有关,资料如下表:例正常人胆固醇含量与年龄有关,资料如下表:正常组正常组 年龄(年龄(X)胆固醇(胆固醇(Y)48 3.5 33 4.6 51 5.8 43 5.8 44 4.9 63 8.7 49 3.6 42 5.5 40 4.9 47 5.1 41 4.1 41 4.6 56 5.1 xy
15、07600691.P 0,正相关正相关;r 0,负相关。负相关。2.相关系数的计算步骤相关系数的计算步骤(1)绘制散点图观察两变量见是否呈直线趋势;)绘制散点图观察两变量见是否呈直线趋势;X3020100Y2018161412108620名糖尿病人的血糖水平与胰岛素水平的散点图正 态性 检验.13820.200*.91420.078.12520.200*.95920.522yx统计量dfSig.统计量dfSig.Kolmogorov-SmirnovaShapiro-Wilk这 是 真 实显 著 水 平 的 下 限。*.Lilliefors 显 著 水 平修 正a.H0:正态分布正态分布H1:非
16、正态分布非正态分布 =0.10(2 2)x x,y y是否服从正态分布是否服从正态分布(3)计算相关系数)计算相关系数计算例计算例6.1资料的相关系数资料的相关系数 yyxxxylllnyynxxnyxxyr /)(/)(/)(22223.相关系数的假设检验(相关系数的假设检验(t 检验)检验)例例6.1资料:资料:H0:=0;H1:0;=0.05 查表得:查表得:P 0.01 (结果同回归系数检验结果同回归系数检验)三、三、直线相关、回归的区别与联系直线相关、回归的区别与联系1.区别区别:(1)在资料要求上不同在资料要求上不同;回归回归:要求要求Y服从正态分布,服从正态分布,X是可以精确测量
17、或严是可以精确测量或严格控制格控制 的。此类回归一般称的。此类回归一般称型回归。型回归。相关相关:要求:要求X、Y均服从正态分布(双变量正态分均服从正态分布(双变量正态分布)。此类资料进行回归分析,称布)。此类资料进行回归分析,称II 型回归。型回归。(2)在应用上不同。)在应用上不同。回归:反映两变量间依存变化的数量关系;回归:反映两变量间依存变化的数量关系;相关:反映两变量间相关的密切程度和方向。相关:反映两变量间相关的密切程度和方向。2.联系联系(1)同一组资料,)同一组资料,r 与与 b符号(正负号)一致;符号(正负号)一致;(注意:两者大小有一定关系,但不绝对)(注意:两者大小有一定
18、关系,但不绝对)(2)同一组资料,)同一组资料,r 与与 b的假设检验是等价的,即的假设检验是等价的,即tb=tr(3)可用回归解释相关)可用回归解释相关 r2 称为确定系数,其意义为回归变异占总变异的比值。称为确定系数,其意义为回归变异占总变异的比值。总变异回归变异ssssr 2例如:某一资料例如:某一资料 r=0.20,n=100,求得,求得 t=2.021,P 0.05 但但 r2=(0.20)2=0.04,表示回归变异在总变异中仅占表示回归变异在总变异中仅占4%,说明,说明两变量间的相关关系实际意义不大。两变量间的相关关系实际意义不大。四、四、秩相关(等级相关)秩相关(等级相关)1.适
19、用于下列资料适用于下列资料:(1)不服从双变量正态分布的资料;(如二项分布)不服从双变量正态分布的资料;(如二项分布)(2)总体分布型未知;)总体分布型未知;(3)原始数据是用等级表示。)原始数据是用等级表示。2.秩相关系数(秩相关系数(rs)意义)意义 不用原始数据计算,而是根据数值大小的秩次进行不用原始数据计算,而是根据数值大小的秩次进行计算。其意义同直线相关系数。计算。其意义同直线相关系数。3.3.秩相关系数的计算秩相关系数的计算(1)按直线相关系数公式计算,只是用秩次代替原)按直线相关系数公式计算,只是用秩次代替原始观察值。始观察值。(2)Sperman公式法:公式法:yyxxxysl
20、llr nndris 3261iiiyxd 例例6.2 为研究饮水中氟含量与氟中毒患病率之间的关为研究饮水中氟含量与氟中毒患病率之间的关系,测定了系,测定了9个居民点井水中的氟含量个居民点井水中的氟含量X(mg/L),并同),并同时通过体检得到这些居民点中常住居民的氟中毒患病率时通过体检得到这些居民点中常住居民的氟中毒患病率Y(%),资料如下表:),资料如下表:表 6.4 井水中氟含量(X)与氟中毒患病率(Y)的资料 氟含量 患病率 居民点号 I 测定值 XI 测定值 YI 1 0.97 9.7 2 1.97 12.7 3 2.39 15.6 4 2.56 14.4 5 3.46 18.3 6
21、 3.54 18.3 7 3.71 21.0 8 3.71 23.3 9 6.01 43.421.投标的有效期在动态培训的过程中,学员应该主动、积极、热忱、开放,服务的时候充满自信,要让对方感到满意,掌握使顾客满意的标准,那么培训就取得效果了。这些方法都可以带动服务人员具体服务水平的提高。收款单位:法正项目管理集团有限公司青海分公司4.2承包方可在需要时向业主申请领用日常维护所需的材料和备品配件。(2)提供本企业制造的货物、承担的工程或者服务,或者提供其他中小企业制造的货物。本项所称货物不包括使用大型企业注册商标的货物。5.2 卖方应在合同规定的交货期前五日以传真形式通知买方。4、设备故障与5
22、S4.5及时完成领导交待的其他各项工作。成为产品的售后服务者。对废止的对外报表,由各部门提出方案,交生产部备案,在总目录中予以注销。银行账号:1050 3651 38575.2 卖方应在合同规定的交货期前五日以传真形式通知买方。表表 6.4 井水中氟含量井水中氟含量(X)与氟中毒患病率)与氟中毒患病率(Y)的资料)的资料 氟氟 含含量量患患 病病率率居民点居民点测定值测定值秩次秩次测定值测定值秩次秩次秩次秩次差值差值差值差值平方平方iXiXiYiYiDidi210.9719.710021.79212.720032.39315.64-1142.56414.431153.46518.35.5-0.
23、50.2563.54618.35.50.50.2573.717.521.070.50.2583.717.523.38-0.50.2596.01943.4900合计合计454503.0(1)(2)4.秩相关系数的假设检验秩相关系数的假设检验 H0:s=0;H1:s 0;=0.05(1)查表法:)查表法:n 50时,查附表时,查附表14(P830)秩相关系秩相关系数界值表进行假设检验。数界值表进行假设检验。查表得:查表得:rs 0.001(9)=0.933,P 50时时,用下式进行假设检验。用下式进行假设检验。五、五、曲线配合(曲线拟合)曲线配合(曲线拟合)两变量之间不呈直线而是呈曲线关系时,两变
24、量之间不呈直线而是呈曲线关系时,要用适当的曲线方程来描述两变量间的要用适当的曲线方程来描述两变量间的关系。关系。1.曲线的类型曲线的类型 如指数曲线、幂曲线、多项式曲线、如指数曲线、幂曲线、多项式曲线、生长曲线等。生长曲线等。2.曲线配合的基本步骤曲线配合的基本步骤(1)绘制散点图;)绘制散点图;(2)根据两变量间相关变化的曲线类型选择适当的)根据两变量间相关变化的曲线类型选择适当的曲线方程;曲线方程;(3)用计算机有关统计软件进行拟合;)用计算机有关统计软件进行拟合;(4)根据配合适度指标(常用确定系数)根据配合适度指标(常用确定系数R2)来确定)来确定最优方程。最优方程。3.曲线配合的实例
25、曲线配合的实例 例例6.3 在一次麻疹流行中,调查了某小学各班级麻疹在一次麻疹流行中,调查了某小学各班级麻疹曾患率曾患率X(%)与发病率)与发病率 Y(%)资料如下:)资料如下:表表 6.5 某小学各班级麻疹曾患绿与发病率资料某小学各班级麻疹曾患绿与发病率资料班级班级曾患率曾患率 X(%)发病率发病率 Y(%)111.013.9248.99.5357.97.8454.57.6570.05.0665.94.9763.63.9874.32.0975.00.2合计合计521.154.8Independent:X Independent:X Dependent Mth Rsq d.f.F Sigf b
26、0 b1 b2 b3Dependent Mth Rsq d.f.F Sigf b0 b1 b2 b3 Y LIN .865 7 44.98 .000 17.4036 -.1954 Y LIN .865 7 44.98 .000 17.4036 -.1954 Y LOG .714 7 17.45 .004 29.0928-5.8222 Y LOG .714 7 17.45 .004 29.0928-5.8222 Y INV .588 7 9.97 .016 3.0157 126.323 Y INV .588 7 9.97 .016 3.0157 126.323 Y Y QUA .944QUA .
27、944 6 50.94 .000 13.5857 .0599 -.0030 6 50.94 .000 13.5857 .0599 -.0030 Y Y CUB .945CUB .945 5 28.73 .001 15.1887 -.1339 .0020-4.E-05 5 28.73 .001 15.1887 -.1339 .0020-4.E-05 Y COM .409 7 4.84 .064 43.4677 .9599 Y COM .409 7 4.84 .064 43.4677 .9599 Y POW .267 7 2.54 .155 295.188-1.0849 Y POW .267 7
28、2.54 .155 295.188-1.0849 Y S .181 7 1.55 .253 .8806 21.3896 Y S .181 7 1.55 .253 .8806 21.3896 Y GRO .409 7 4.84 .064 3.7720 -.0410 Y GRO .409 7 4.84 .064 3.7720 -.0410 Y EXP .409 7 4.84 .064 43.4677 -.0410 Y EXP .409 7 4.84 .064 43.4677 -.0410 Y LGS .409 7 4.84 .064 .0230 1.0418 Y LGS .409 7 4.84 .064 .0230 1.0418YX807060504030201014121086420ObservedQuadratic