1、实例实例1: 1:中国妇女生育水平的决定因素是什么中国妇女生育水平的决定因素是什么? ?妇女生育水平除了受计划生育政策影响以外,还可能妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。与社会、经济、文化等多种因素有关。1、影响中国妇女生育率变动的因素有哪些?2、各种因素对生育率的作用方向和作用程度如何?3、哪些因素是影响妇女生育率主要的决定性因素?4、如何评价计划生育政策在生育水平变动中的作用?5、计划生育政策与经济因素比较,什么是影响生育率的 决定因素?6、如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样
2、的影响? 据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文)问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗?实例实例2:2:全球吃死的人比饿死的人多全球吃死的人比饿死的人多? ?发生车祸的次数与司机的年龄有关吗发生车祸的次数与司机的年龄有关吗 ?这些类型的问题可以运用相关分析与回归分析这些类型的问题可以运用相关分析与回归分析的方法去解决。的方法去解决。 学习目标1 1、变量间的相关关系与相关系数的计算、变量
3、间的相关关系与相关系数的计算2 2、总体回归函数与样本回归函数、总体回归函数与样本回归函数3 3、线性回归的基本假定、线性回归的基本假定4 4、一元线性回归参数的估计与检验、一元线性回归参数的估计与检验5 5、多元线性回归参数的估计与检验、多元线性回归参数的估计与检验6 6、回归预测的方法、回归预测的方法 一、一、相关关系的概念相关关系的概念 确定性的函数关系确定性的函数关系 Y=f (X) 不确定性的统计关系相关关系相关关系 Y= f(X)+ (为随机变量) 没有关系没有关系 变量间关系的图形描述: 坐标图(散点图) 变量间的相互关系变量间的相互关系数量表现上不严格对应数量表现上不严格对应
4、这些数值虽然有波这些数值虽然有波动,但总是以一定的分布动,但总是以一定的分布规律围绕其均值上下波动规律围绕其均值上下波动 XY(二)相关关系的种类(二)相关关系的种类 (非非直直线线相相关关)曲曲线线相相关关直直线线相相关关按按相相关关现现象象的的表表现现形形式式负负相相关关正正相相关关按按相相关关现现象象变变化化的的方方向向复复相相关关单单相相关关按按涉涉及及的的变变量量多多少少相相关关关关系系xyxyxyxy进行相关分析的一般程序:进行相关分析的一般程序:定量分析定量分析相关表和相关图相关表和相关图计算相关系数计算相关系数和判定系数和判定系数二、二、 相关关系的测定相关关系的测定(一)相关
5、表和相关图(一)相关表和相关图能源消耗能源消耗量与工量与工业总产业总产值的相值的相关表关表能源消耗量能源消耗量(十万吨)(十万吨)工业总产值工业总产值(亿元)(亿元)能源消耗量能源消耗量(十万吨)(十万吨)工业总产值工业总产值(亿元)(亿元)3524624138256440402465474228685049326949523171515437724859407658 0 01010202030304040505060607070303040405050606070708080能源消耗量(十万吨)能源消耗量(十万吨)工业总产值(亿元)工业总产值(亿元)能源消耗能源消耗量与工业量与工业总产值相总
6、产值相关图关图X Variable 1 Line Fit Plot0 050501001001501502002002502503003003503500 02 24 46 68 81010X Variable 1Y(二)相关系数(二)相关系数 0 0.4 0.7 1.0 ( ,)( )( )XYXYCov x yVar x Var y nyynxxnyyxxsssryxxy/)(/)(/ )( )(22 从公式可以看出,从公式可以看出,r r的符号决定于分子。的符号决定于分子。 案例研究:案例研究:发生车祸次数发生车祸次数与与司机年龄有关吗司机年龄有关吗 ? 作为交通安全研究的一部分,美国交
7、通部采集了每作为交通安全研究的一部分,美国交通部采集了每10001000个驾驶执照发生死亡事故的车祸次数和有驾驶执个驾驶执照发生死亡事故的车祸次数和有驾驶执照的司机中照的司机中2121岁以下者所占比例的数据,样本由岁以下者所占比例的数据,样本由4242个个城市组成,在一年间采集的数据及散点图如下:城市组成,在一年间采集的数据及散点图如下: 0 00.50.51 11.51.52 22.52.53 33.53.54 44.54.57 78 89 91010111112121313141415151616171718181919202021岁以下者所占比重(%)21岁以下者所占比重(%)每1000
8、个驾驶执照中发生车祸次数每1000个驾驶执照中发生车祸次数(次)(次) 80.885100.039121.913152.81480.368101.014132.962162.80180.645100.493131.142163.62382.19101.926132.634162.94380.82112.091142.885172.62781.267111.849142.352174.191.082111.294142.89173.25691.433120.708141.443183.8390.338121.652141.643183.61490.835121.405152.623 90.926
9、122.246153.2248388. 0368.5773833.4842579.197316889833.4842825.8053.20242515671742825.80515374.110642)()(222222 yynxxnyxxynr( (三三) )相关系数的显著性检验相关系数的显著性检验 相关系数的检验 为什么要检验?为什么要检验? 样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:检验的依据: 如果x与都服从正态分布,在总体相关系数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布: 0221(2)tr nrtn22
10、1221rnrnrrrtr 111 nrnrrZr 之之拒拒绝绝。,不不能能拒拒绝绝原原假假设设,反反若若2/ ZZ 拒绝原假设,认为总体的这两个变量(拒绝原假设,认为总体的这两个变量(每千个驾驶每千个驾驶执照中发生车祸的次数执照中发生车祸的次数和有驾驶执照的司机中和有驾驶执照的司机中2121岁以岁以下者所占比例下者所占比例)之间线性相关显著。之间线性相关显著。7442. 954443. 030504. 58388. 012428388. 01222 rnrt0:0 H0:1 H对于前例:对于前例:0.02529.7442(2)(40)2.0211ttnt xYX XYXYYE )(X bxa
11、yc 因变量的估计值(回归理论值、预测值)。因变量的估计值(回归理论值、预测值)。cy截距,回归直线的起始值,即自变量为截距,回归直线的起始值,即自变量为0 0时因变时因变量的回归估计值;从经济意义上理解,是在没有自变量量的回归估计值;从经济意义上理解,是在没有自变量的影响时,其它各种因素对因变量的平均影响。的影响时,其它各种因素对因变量的平均影响。 回归系数(斜率),表示自变量回归系数(斜率),表示自变量x x每变动一个单每变动一个单位引起因变量位引起因变量y y的平均变动量。的平均变动量。min)(2 cyy0)( cyybxayc x(xi , yi )iiiyye yab理想的回归线应
12、该尽可能接近各个实际观察点理想的回归线应该尽可能接近各个实际观察点。min)()(22 bxayyyQc0)(2; 0)(2 xbxaybbxaya 2xbxaxyxbnay22)( xxnyxxynb xbynxbnya yxssbr “发生交通事故与年龄有关吗发生交通事故与年龄有关吗”例例286745. 016889833.4842515671742825.80515374.110642)(222 xxnyxxynb5916. 1)2619.122867. 0(9244. 1 xbyaxy2867. 05916. 1 b b表示有驾驶执照的司机中表示有驾驶执照的司机中2121岁以下者所占比
13、例每增岁以下者所占比例每增加加1%1%,每千个驾驶执照中发生车祸的次数每千个驾驶执照中发生车祸的次数平均增加平均增加0.28670.2867次。次。2)(2 nyyscenyy2)( nyysce2)( y)()()(yyyyyycc 222)()()(yyyyyycc 222)()(yyyyrc)2221(rssye 221yssre 2、计算检验的统计量、计算检验的统计量 式中,式中, 为回归估计标准差,为回归估计标准差, 为为b b的抽样平均误的抽样平均误差(估计量的标准差);差(估计量的标准差);es3、确定显著性水平、确定显著性水平 和临界值,或计算和临界值,或计算P-值值4、进行决
14、策:、进行决策: t t (n-2)或或P-值值 ,拒绝,拒绝H0;反;反之,不能拒绝之,不能拒绝H0。bs73. 9119.402591. 02867. 0)(222 xxsbteb 0211. 2)40()2(73. 9025. 02/ tnttb 1 1、 提出假设:提出假设:2 2、确定检验统计量:确定检验统计量:0010 :,:HH221)2(rnrF 或或3、确定显著性水平、确定显著性水平 ,找出临界值,找出临界值F ( 1,n-2)或计或计算算P-值;值;4、作出决策:若、作出决策:若F F 或或P-值值 ,拒绝,拒绝H0;反之不能;反之不能拒绝拒绝H0。 在一元线性回归分析中,
15、回归方程的检验等价于回在一元线性回归分析中,回归方程的检验等价于回归系数的检验。对于同一样本资料,检验与归系数的检验。对于同一样本资料,检验与 t t 检检验的结果完全一致,有:验的结果完全一致,有: 但多元回归中,二者有所不同(略)。但多元回归中,二者有所不同(略)。2tF 0:0 H0:1 H对于前例,对于前例,08. 4)40, 1(67.94)2()(1)(05. 022 FnyyyyFcc在在=0.05=0.05的显著性水平下,可计算得:的显著性水平下,可计算得:1 1、就是根据自变量、就是根据自变量 x x 的一定值来估计或预测因变量的一定值来估计或预测因变量 y y 的可能值;经
16、检验认为有意义的回归方程,可进的可能值;经检验认为有意义的回归方程,可进行内插预测。行内插预测。2 2、估计或预测的类型、估计或预测的类型给定给定x=xox=xo,因变量,因变量 y y 对应的点预测为:对应的点预测为:00bxay 在在1-1- 置信水平下,因变量置信水平下,因变量 y y 对应的对应的预测区间为预测区间为, 00yy ececSZySZy22, 3 3、如果两个变量是互为因果关系的,要反映、如果两个变量是互为因果关系的,要反映y y对于对于x x的线性影响关系,根据的线性影响关系,根据y y的确定值估计的确定值估计x x,应另外建应另外建立立y y倚倚x x的回归方程:的回归方程:而不能根据而不能根据倒推。倒推。1 1、内插效果优于外推效果,不宜外推太远;、内插效果优于外推效果,不宜外推太远;2 2、用于拟合回归方程的数据不能太少;、用于拟合回归方程的数据不能太少;1)( rRyyc或或时时,当当; 0)( rRyyc或或时时,当当 22)()(1yyyyRc 222)() (1yyyyR