1、第八章第八章 直线回归与相关直线回归与相关(答案答案) 一、选择题一、选择题 1B 2C 3D 4B 5B 6E 7A 8B 9B 10B 11D 12C 13A 二、问答题二、问答题 1 答: 用途: 定量描述两变量之间的依存关系: 对回归系数b进行假设检验时, 若P , 可认为两变量间存在直线回归关系。利用回归方程进行预测:把预报因子(即自变量X) 代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。利用 回归方程进行统计控制:规定Y值的变化,通过控制X的范围来实现统计控制的目标。 分析步骤:首先控制散点图:若提示有直线趋势存在,可作直线回归分析;若提示无明显 线性趋势
2、,则根据散点图分布类型,选择合适的曲线模型,经数据变换后,化为线性回归来 解决。若出现一些特大特小的异常点,应及时复核检查。求出直线回归方程 YabX, 其中: XY XX l b l , aYbX对回归系数b进行假设检验:方差分析,基本思想是将因变 量Y的总变异SS总分解为SS回归和SS剩余,然后利用F检验来判断回归方程是否成立。t 检验: 基本思想是利用样本回归系数b与总体均数回归系数进行比较来判断回归方程是否 成立,实际应用中用r的检验来代替的检验。直线回归方程的图示回归方程拟合效果评 价:决定系数 2 2 2 () () yySS R yySS 回归 总 ,如 2 0.9R 说明回归能
3、解释90%,此方程较好 校正决定系数 2 adj R直线回归方程的区间估计:总体回归系数的区间估计; Y 的区间估 计;个体值Y的容许区间; 2 答: 区别: (1) 资料要求不同 相关要求两个变量是双变量正态分布; 回归要求应变量Y 服从正态分布,而自变量X是能精确测量和严格控制的变量。 (2)统计意义不同 相关反映 两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间 的依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。 这种依存关系可能是因果关系或从属关系。 (3)分析目的不同 相关分析的目的是把两变量 间直线关系的密切程度及方向用
4、一统计指标表示出来; 回归分析的目的则是把自变量与应变 量间的关系用函数公式定量表达出来 联系: (1)变量间关系的方向一致 对同一资料,其r与b的正负号一致。 (2)假设 检验等价 对同一样本, rb tt,由于 b t计算较复杂,实际中常以r的假设检验代替对b的 检验。 (3)r与b值可相互换算 YY XX l br l 。 (4)相关和回归可以相互解释。 3 答:直线回归是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变 量分析的范畴。 如果某一个变量随着另一个变量的变化而变化, 并且它们的变化在直角坐标 系中呈直线趋势, 就可以用一个直线方程来定量地描述它们之间的数量依存
5、关系, 这就是直 线回归分析。 一般表达式: iii YX, i X和 i Y分别为第i个体的自变量和应变量取值。称为 截矩,为回归直线或其延长线与y轴交点的纵坐标。称为回归直线的斜率。 i 为误差。 4 答:线性回归模型的前提条件是线性、独立、正态与等方差。 (1) 线性是指任意给定的X所对应的应变量Y的总体均数与自变量X呈线性关系。 (2) 独立是指任意两个观察单位之间相互独立。否则会使参数估计值不够准确和精确。 (3) 正态性是指对任意给定的X值,Y均服从正态分布,该正态分布的均数就是回归直 线上与X值相对应的那个点的纵坐标。 (4) 等方差是指在自变量X的取值范围内,不论X取什么值,Y
6、都有相同的方差。 5 答:曲线拟合是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变 量间的关系。 曲线拟合一般分为两类:曲线直线化法和直接拟合曲线方程。 三、 计算题 1 解: (1) 2 2 2 () 631 347611580.92 12 XX X lX n ()() 631 224.25 12026.77234.96 12 XY XY lXY n 52.58X ,18.69Y 234.96 0.149 1580.92 XY XX l b l ,18.690.149 52.5810.856aYbX 故所求直线回归方程为 10.8560.149YX。 (2) 0 H:0,即认
7、为健康妇女的年龄与收缩压之间不存在直线关系 1 H:0,即认为健康妇女的年龄与收缩压之间存在直线关系 0.05 2 2 2 () 224.25 4234.14143.469 12 YY Y SSlY n 总 ,111vn 总 22 234.96 34.920 1580.92 XY XY XX l SSbl l 回归 ,1v 回归 43.46934.9208.549SSSSSS 总回归剩余 ,210vn 剩余 34.920 1 40.85 8.549 10 MS F MS 回归 剩余 。 由 1 1v , 2 10v 查表得0.01P,按0.05的水准拒绝 0 H,接受 1 H。故可认为健康 妇
8、女的年龄与收缩压之间存在直线关系。 (3) 8.549 10 0.023 1580.92 b XX MS S l 剩余 , 0.05/2,10 2.228t,则总体回归系数的 95% 可信区间为(0.1492.228 0.0230.1492.228 0.023)(0.098 0.200),。 2 解: (1)分别求出X与 1 Y、 2 Y之间的回归直线 1 YX: 1 1.79298.7YX, 2 0.9277r (0.05P) 2 YX: 2 2.01557.6286YX, 2 0.929r (0.05P) (2) 0 H: 12 0 1 H: 12 0 0.05 (3) 计算t值: 估计误
9、差平方和: 2 2 2 11 1111 2 ()() ()()63.14 () XXYY YYYY XX 2 2 2 22 2222 2 ()() ()()78.25679 () XXYY YYYY XX 22 11222 12 ()() 14.139 (2)(2) c YYYY S nn 12 2 22 1122 11 0.332 bbc SS XXXX 12 12 0.6704 bb bb t S (4) 查t值表,做结论 以77410v 查表得, 0.5,10 0.700tt,故0.5P ,不拒绝 0 H,尚不能 认为两样本回归系数相差显著。 3解:由以上数据计算得: (1) 1252X
10、 ,1232Y , 2 105288X , 2 101532Y ,103209XY 787.73 XX l,343.73 YY l,378.07 XY l 则相关系数0.7266 XY XX YY l r ll 。 (2) 0 H:0 1 H:0 0.05 本题15n ,0.7266r , 得 22 0.7266 3.813 11 0.7266 2152 r t r n ,213vn 查t界值表,得0.005P。按0.05的水准,拒绝 0 H,接受 1 H,认为学生的历史和语 文成绩存在直线相关关系。 4解: (1) 将两个变量的观察值分别由小到大编秩 (2) 求各观察单位的两变量的秩次之差d
11、、d的平方 2 d及其总和 2 d , (3) 由13n , 2 5.5d 得 2 22 6 6 5.5 110.985 (1)13(131) s d r n n 。 (4) 对该相关系数进行假设检验: (5) 0 H:0 s 1 H:0 s 0.05 查表得, 0.001(13) 0.824 s r,故0.001P,按0.05水准拒绝,接受,可以认为在 高血压脑出血微创外科治疗中,术前 GSC 值与预后之间存在正相关关系。 表 8-5 高血压脑出血微创外科治疗术前 GIS 值与预后评测 编号 术前 GSC 值 预后评测分值 d 2 d X 秩次 Y 秩次 (1) (2) (3) (4) (5
12、) (6)=(3)-(5) (7) 1 7.0 6 6.0 6 0 0 2 11.0 7.5 7.0 7 0.5 0.25 3 4.0 1 2.5 1 0 0 4 6.0 4.5 5.4 4 0.5 0.25 5 11.0 7.5 8.3 9 -1.5 2.25 6 14.0 12.5 9.0 12 0.5 0.25 7 5.0 2.5 3.9 2 0.5 0.25 8 5.0 2.5 4.6 3 -0.5 0.25 9 13.0 10.5 8.6 10 0.5 0.25 10 12.0 9 7.9 8 1 1 11 14.0 12.5 9.2 13 -0.5 0.25 12 6.0 4.5 5.6 5 -0.5 0.25 13 13.0 10.5 8.7 11 -0.5 0.25 合计 5.5