1、直线相关与回归分析直线相关与回归分析作者:胡良平作者:胡良平单位:军事医学科学院单位:军事医学科学院 生物医学统计咨询中心生物医学统计咨询中心 实例导引实例导引 下面是直线回归与下面是直线回归与直线相关方面的错误直线相关方面的错误实例,请辨析其错误实例,请辨析其错误所在。所在。例例1 1:树高树高 与与 子高子高 例例2 2:狗按直线规律咬人:狗按直线规律咬人 某人在北京郊区调查居民被某人在北京郊区调查居民被狗咬伤的情况,结果显示:各狗咬伤的情况,结果显示:各年龄组中被狗咬伤的百分率是年龄组中被狗咬伤的百分率是不同的,即:年龄由小到大,不同的,即:年龄由小到大,被狗咬伤的百分率依次为:很被狗咬
2、伤的百分率依次为:很小、较小、较大、很大、较大、小、较小、较大、很大、较大、较小、很小、较大。较小、很小、较大。狗按直线规律咬人吗?狗按直线规律咬人吗?原作者的原作者的一个惊人的发一个惊人的发现是:现是:年龄与百分率之间的年龄与百分率之间的相关系数相关系数r=0.9956r=0.9956,P0.0001P0.0001;因此拟合的直线因此拟合的直线回归方程也是有非常显著性回归方程也是有非常显著性意义的。意义的。狗按直线规律咬人吗?狗按直线规律咬人吗?故可以认为在所调查的市郊,故可以认为在所调查的市郊,被狗咬者年龄与被狗咬伤的百分被狗咬者年龄与被狗咬伤的百分率之间有很好的线性关系率之间有很好的线性
3、关系,可用,可用此回归方程来预测该地任何一位此回归方程来预测该地任何一位居民被狗咬伤的概率,以便提醒居民被狗咬伤的概率,以便提醒人们外出时携带必要的防身器械,人们外出时携带必要的防身器械,要倍加小心,尽可能减少被狗咬要倍加小心,尽可能减少被狗咬的机会。的机会。例例3 3:直线两端:直线两端“闹地震闹地震”某地进行核试验某地进行核试验,在一定条在一定条件下件下,离爆心的距离离爆心的距离x(km)x(km)与冲击与冲击伤发生率伤发生率y(y()有如下试验数据:有如下试验数据:x(km):4.1 4.4 6.8 8.7 10.3 11.9 13.5 x(km):4.1 4.4 6.8 8.7 10.
4、3 11.9 13.5 15.3 17.3 19.5 23.4 30.015.3 17.3 19.5 23.4 30.0 y(y():100 99 90 80 70 60 50 40 ):100 99 90 80 70 60 50 40 30 20 10 130 20 10 1 若采用直线相关与回归分析:若采用直线相关与回归分析:相关系数相关系数r r0.97540.9754,回归方程回归方程y=-4.2960 x+113.3081,y=-4.2960 x+113.3081,对相关系数及回归方程的假设检验均有:对相关系数及回归方程的假设检验均有:P0.0001P0.05P0.05或对相关系数或
5、对相关系数r r检检验的结果为验的结果为P0.05P0.05P0.05,结论结论为胰岛素含量和血糖的含量之间无直为胰岛素含量和血糖的含量之间无直线相关关系。线相关关系。表表6-4 6-4 不同喷雾压力不同喷雾压力(kg/cm)(kg/cm)下下MMDMMD观测结果观测结果 MMD(m)实验次序实验次序 压力:压力:0.3 0.5 0.7 0.9 1.1 1.3 1.5 2.0 1 10.2 8.6 8.4 8.9 8.1 7.1 9.0 6.4 2 11.0 9.7 8.6 7.2 8.4 7.5 8.1 6.0 3 11.6 13.1 8.2 6.9 7.9 6.5 8.5 6.1 4 12
6、.1 8.0 10.1 6.6 7.2 8.1 8.6 5.8 5 11.5 9.7 8.5 6.7 8.0 7.1 7.8 5.9 Y 11.28 9.82 8.76 7.26 7.92 7.26 8.40 6.04 s 0.719 1.974 0.764 0.945 0.444 0.590 0.464 0.230下面的做法错在哪?下面的做法错在哪?某作者欲分析年龄与淋某作者欲分析年龄与淋巴细胞转化率的关系,巴细胞转化率的关系,n=252,n=252,r=-0.20r=-0.20,回归方程回归方程 y=76.0-y=76.0-0.4x0.4x。P0.01P0.01,结论是淋巴结论是淋巴细胞转
7、化率与年龄密切相关。细胞转化率与年龄密切相关。例例8 8:用年龄预测淋巴细胞转化率有价值吗?:用年龄预测淋巴细胞转化率有价值吗?分析与释疑分析与释疑 关于样本相关系数的假设检验结果,若关于样本相关系数的假设检验结果,若得到得到P0.05P0.05,仅说明两定量变量在总体中有,仅说明两定量变量在总体中有直线相关关系,并没有说明关系密切到何种直线相关关系,并没有说明关系密切到何种程度。程度。可否由可否由X X的值去预测因变量的值去预测因变量Y Y的值,应看的值,应看决定系数,即相关系数决定系数,即相关系数r r的平方之值的大小,的平方之值的大小,此值至少应大于此值至少应大于0.50.5才有价值!它
8、反映了才有价值!它反映了X X对对Y Y的贡献率!的贡献率!分析与释疑分析与释疑 本例中,本例中,r=-0.20r=-0.20,其决定,其决定系数为系数为0.04;0.04;说明在淋巴细胞转化率的变说明在淋巴细胞转化率的变化中,只有化中,只有4%4%的量可由年龄来的量可由年龄来预测;可见,没有任何实用价预测;可见,没有任何实用价值!值!实例分析实例分析例例1 1:献血者人数、仪器台数、:献血者人数、仪器台数、献血量与采血者人数之间的献血量与采血者人数之间的多元回归分析;多元回归分析;例例2 2:全国各县年平均气温、:全国各县年平均气温、湿度、风速等因素与疟疾发湿度、风速等因素与疟疾发病率之间的
9、多元回归分析。病率之间的多元回归分析。例例9 9:错在哪?:错在哪?某研究者收集到某研究者收集到200200名献血者的下列资名献血者的下列资料:年龄、性别、献血次数和骨矿含量。根料:年龄、性别、献血次数和骨矿含量。根据专业知识得知,骨矿含量与献血者的年龄、据专业知识得知,骨矿含量与献血者的年龄、性别、献血次数有关。于是,他用逐步回归性别、献血次数有关。于是,他用逐步回归分析方法分别为男性(分析方法分别为男性(135135名)和女性(名)和女性(6565名)献血者建立了由年龄和献血次数推算骨名)献血者建立了由年龄和献血次数推算骨矿含量的二元回归方程,并对回归方程的截矿含量的二元回归方程,并对回归方程的截距和两个斜率都作了假设检验,距和两个斜率都作了假设检验,P P值均小于值均小于0.050.05。