1、第 4 章 回归分析 用最小二乘法求最佳拟合参数用最小二乘法求最佳拟合参数(如变量系数如变量系数)的过程。的过程。还包括:变量间的相关性、回归参数的标准偏差、数据与表达还包括:变量间的相关性、回归参数的标准偏差、数据与表达式的吻合程度、分析变量是否独立式的吻合程度、分析变量是否独立.曲线拟合曲线拟合应用数学方法对观测数据进行处理应用数学方法对观测数据进行处理,从而得出比从而得出比较符合测量结果的数学较符合测量结果的数学表达式,即近似函数关系即近似函数关系 y=f(x),直线直线/曲线。曲线。最佳拟合判据残差平方和(Sum of Square of Residual)最小,即最小二乘法。即最小二
2、乘法。第第6讲讲 数据处理数据处理-线性与线性与LOGIT回归回归 任务要求:任务要求:1.完成上节课的完成上节课的EXCEL处理工作;处理工作;2.完成以下统计分析工作:完成以下统计分析工作:2.1 对各地对各地GDP与就业人数进行两两比较:与就业人数进行两两比较:4个城市,光个城市,光GDP就有就有6对比较结果,所以一共有对比较结果,所以一共有12对结果;对结果;2.2 对每个城市的对每个城市的GDP与就业人数进行回归:共与就业人数进行回归:共8个结果个结果(思考为什么)(思考为什么)2.3 任选一个城市做因变量,另外三个做自变量,进行多重任选一个城市做因变量,另外三个做自变量,进行多重线
3、性回归:回归完成之后逐一剔除自变量观察结果;线性回归:回归完成之后逐一剔除自变量观察结果;2.4 做所有城市就业人数对总做所有城市就业人数对总GDP的多重线性回归:提示,的多重线性回归:提示,之前应对之前应对GDP数据进行简单操作;数据进行简单操作;2.5 选用选用“员工薪酬与离职决策员工薪酬与离职决策”数据,进行离职决策对薪数据,进行离职决策对薪资进行资进行Logit回归回归23第 4 章 线性回归4.1 基本概念 计算方法 4.2 Excel 函数的使用方法4.3 4.4 多元线性回归4nii12residSS4.1 基本概念 计算方法xyABC若已知若已知a,b,则由则由 xi和方程得计
4、算值和方程得计算值 yi 计算计算。第第 i 点点残差残差 i:i=yi-yi 计算计算=yi-(axi+b)残差残差(residual)平方和平方和 不同直线不同直线a,b 值不同,值不同,SSresid亦不同,亦不同,SSresid,C SSresid,B SSresid,A,SSresid,A最小。最小。yiyi 计算计算 i 一元一元线性回归线性回归,又称又称直线拟合。直线拟合。一个自变量。一个自变量。p914.1.1 最小二乘法(1)概念:设从实验得到:设从实验得到 n 组组x,y数据数据 x:x1,x2 xi xn y:y1,y2 yi yn 若理论上若理论上x,y呈呈线性关系,则
5、应符合方程关系,则应符合方程 y=ax+b 求出斜率求出斜率a、截距截距b;几何上是得到一条几何上是得到一条尽可能靠近各各(xi,yi)点的直线。点的直线。判断标准残差平方和最小。图图4.1 SSresid与与a,b 54.1.1 最小二乘法niiibaxy12resid)(SS由前式由前式 即即 SSresid=f(a,b)残差平方和最小残差平方和最小(极值极值)的条件的条件0SS0SS2resid2resida;a(2)求回归系数斜率a,截距b的计算方法0SS0SS2resid2residb;b 回归直线:残差平方和最小的直线;残差平方和最小的直线;Excel的趋势线。的趋势线。回归方程回
6、归方程:回归直线的方程。拟合方程回归直线的方程。拟合方程 最小二乘法使残差平方和最小的方法。计算斜率计算斜率a,截距截距b。最小计算测量残差 SS2 1)(iniiyy64.1.1 最小二乘法代入代入 b 得得 0)(1 122iiiiiixxnayxnyx 22)(11iiiiiixnxyxnyxa 0)0)()(2SS 12residniiiiiiiiaxbxyxxbaxya 求斜率 aniiiniiibaxybaxyb11resid0)(0)1()(2SS xayxaynbii)(1niiibaxy12resid)(SS分母分母0即即即即求截距b74.1.2 相关系数 r 相关系数衡量回
7、归方程与原始数据相符合的程度的数值衡量回归方程与原始数据相符合的程度的数值。总离差平方和SS:yi-y平均平均 称为称为yi的离差。全部的离差。全部 yi 的离差平的离差平方之和称为方之和称为 y 的总离差平方和的总离差平方和 SSniiyy12)(SS平均 由由 yi y平均平均=(yi yi 计算计算)+(yi 计算计算 y平均平均)则则 )(2)()(SS 1 12 12 平均计算计算平均计算计算yyyyyyyyiniiiniiniii 可推导出,上式第三项为可推导出,上式第三项为 0,故,故回归平均计算计算 SSSS)()y(SSresid1212 niiniiiyyy SSresid
8、残差平方和残差平方和 反映了实验值反映了实验值 yi 与按回归方程计算的值与按回归方程计算的值 y计算 的的总偏差,它越总偏差,它越小小,表明回归效果,表明回归效果好。好。SS回归回归平方和回归平方和 反映了因反映了因 x 与与 y 的线性关系而引起的线性关系而引起 y 变化的大小变化的大小,它越它越大大,表明回归效果,表明回归效果好。回归好。回归 regression8 r2 r的平方 p95 Coefficient of Determination,决定系数决定系数,判定系数判定系数 定义 r2 的意义意义:SS回归回归大,大,x 与与 y 的回归关系的回归关系重要,重要,r2大;大;另另
9、 SSresid小,小,r2大,线性关系大,线性关系好。故好。故 r2 表明表明回归方程反反映映 x 与与 y 变量间关系的相关程度的标志。变量间关系的相关程度的标志。r2计算计算 Excel 趋势线趋势线,RSQ函数,回归分析等中的函数,回归分析等中的 r2 2222归111SSSS)y(ny)x(nxyxnyxriiiiiiii回 22222residresid)(1)(1)1(SSSS1SSSSSSSSSS def 2iiiiiiiiynyxnxyxnyxr回归 r 值及其意义 x与与y 的相关系数的相关系数 22)(11iiiiiixnxyxnyxa9 r 值范围r 正负号号取决于其计
10、算式中的分子取决于其计算式中的分子,且与斜率且与斜率 a 符号相同。符号相同。xyxyxyxy r 0,a0,x,y,y与与x正相关;正相关;r 0,a0,x,y,y与与x负相关;负相关;r=0,y与与x不存在线性相关关系。不存在线性相关关系。|r|=1,y与与x存在完全的相关性,存在完全的相关性,实验数据点与回归线完全重合。实验数据点与回归线完全重合。|r|0,SS回归回归SS,|r|1,即范围,即范围 r=1+1 总之总之,|r|1,y与与x相关性相关性好好,线性回归的线性回归的线性关系关系好好。图图4.2 y与与x的相关性的相关性 2222归)(1)(11SSSSiiiiiiiiynyx
11、nxyxnyxr回 r0 r相同相同 f及及 的的r,f 临界值临界值,则则 y与与 x 线性关系好线性关系好;若计算值若计算值r 的的|r|r0.01,8 n=10,临界值临界值r0.01,8=0.7646,由最小二乘法计算得到由最小二乘法计算得到 r0.01,8=0.9936,r0.01,8=0.7646,线性显著相关。线性显著相关。12表4.2 相关系数 r 临界值表(数理统计给出)n-2 =0.05 =0.01n-2 =0.05 =0.0110.996920.999877110.55290.683520.950000.99000120.53240.661430.87830.958731
12、30.51390.641140.81140.91720140.49730.622650.75450.8745150.48210.605560.70670.8343160.46830.589770.66640.7977170.45550.575180.63190.7646180.44380.561490.60210.7348190.43290.5487100.57600.7079200.42270.536813(1)相关系数检验法resid22 SSSS)2(1)2(def 归回回 nrrnFr 相关系数相关系数 查表可得查表可得 F 临界值临界值F(m,f),其中,其中 m为自变量个数为自变量
13、个数,f=n-2。上题上题F0.01(1,8)=11.3;由由r=0.9936,得得 F=619,F0.01(1,8),则则 y与与x 线性线性 相关关系显著。相关关系显著。多用于多变量检验多用于多变量检验(2)F 检验法 n,与 r 通常要求通常要求 n4 (?)一般要求一般要求,=0.05,置信度,置信度=1-a=95%,n=4时时,r0.05,2=0.950;高要求,高要求,=0.01,置信度,置信度=99%,n=4时,时,r0.01,2=0.990。定义:在一元线性回归中:在一元线性回归中14(3)其它统计参数 Page 93,101v y值的标准误差值的标准误差 SE(y)反映测量值
14、的准确度。反映测量值的准确度。2SS)(SEresidnySE(y)小,根据拟合方程计算的小,根据拟合方程计算的 y 值值 准确。准确。斜率斜率a的标准误差的标准误差 SE(a)截距截距b的标准误差的标准误差 SE(b)niiniixxnxyb1212()(SE)(SE)平均niixxya12()(SE)(SE)平均 SE(a)、SE(b)是衡量拟合函数好坏的参数;是衡量拟合函数好坏的参数;用于计算斜率用于计算斜率a、截距、截距b的置信区间的置信区间(t 检验检验)。154.2 Excel 函数的使用方法 p24 函数函数:计算机执行的一步或多步运算过程计算机执行的一步或多步运算过程,包括数学
15、和三角函数、包括数学和三角函数、较复杂的矩阵运算函数及复杂的数据分析函数等。较复杂的矩阵运算函数及复杂的数据分析函数等。12类类,300多种。多种。(1)Excel 函数函数组成组成 函数名、参数函数名、参数函数名:函数名:指定要执行的运算。指定要执行的运算。参数参数 指定函数使用的数值或单元格数据。要放在括号指定函数使用的数值或单元格数据。要放在括号()内。内。(2)基本语法基本语法 开头必须有开头必须有=。如。如 =LOG(10)(也可用也可用+,-开头开头)参数必须放在圆括号参数必须放在圆括号()内内,()前后无空格前后无空格,不用参数的函数用空不用参数的函数用空()。参数间要用逗号参数
16、间要用逗号“,”隔开隔开;参数可以是数值参数可以是数值、数组、单元格、单元数组、单元格、单元 格区域、表达式、函数格区域、表达式、函数(嵌套嵌套7层层)等。等。可用名称作为参数,如已定义的单元格名、区域名。可用名称作为参数,如已定义的单元格名、区域名。16(3)函数调用方法 先先选定选定插入函数的单元格插入函数的单元格,用下列方法之一调用函数。用下列方法之一调用函数。“插入插入”/fx插入插入函数函数 搜索函数搜索函数/选择类别选择类别/选择函数选择函数 函数名函数名输入参数;输入参数;键盘键盘输入输入=函数名函数名,参数;参数;输入输入=,再点击左侧函数列表框,再点击左侧函数列表框,选已用过
17、的函数;在选已用过的函数;在()内输入参数;内输入参数;点击点击按钮按钮 S S 选选函数名函数名。例例 概念概念:函数:函数调用使用函数的过程。函数的使用函数的过程。函数的返回值结果。结果。用好用好 菜单栏菜单栏帮助帮助/“F1”键;键;有关该函数的帮助帮助Excel174.3 由最小二乘法求直线方程由最小二乘法求直线方程 y=ax+b 的参数:的参数:斜率斜率 slope a,截距截距 intercept b;还有还有相关系数 correlation r/R2,其它其它回归统计值。184.3.1 用用SLOPE()函数求函数求斜率a 用用INTERCEPT()函数求函数求截距b名名 称称
18、格格 式式 返回值返回值 SLOPE SLOPE(y值数列值数列,x值数列值数列)斜率斜率a值值 INTERCEPT INTERCEPT(y值数列值数列,x值数列值数列)截距截距b值值语法 示例:乙酸乙酯皂化反应,为二级反应。:乙酸乙酯皂化反应,为二级反应。CH3COOC2H5+NaOH DD CH3COONa+C2H5OH c0-x c0-x x x 二级反应速率方程Bktxcx xcktx020 )(dd积分用电导率法,测定的电导率用电导率法,测定的电导率 Ltx 呈直线关系,从上二式呈直线关系,从上二式ktcLLLLtt00 00/cLLLLtt以对对 t 作图,其直线斜率为作图,其直线
19、斜率为 k。Excel19 4.3.2 用用 CORREL()函数求函数求相关系数相关系数R语法 CORREL函数 Coefficient of correlation 格式格式:CORREL(数列数列1,数列数列2)参数参数:自变量、因变量数列。:自变量、因变量数列。返回值返回值:两数列的相关系数:两数列的相关系数R值。值。实例204.3.3 用LINEST()函数作线性回归分析 Linest 函数可对一组数据作线性回归分析。函数可对一组数据作线性回归分析。Line Statistic 线性方程的通式为线性方程的通式为 y=ax+b 或或 y=a1x1+a2x2+.+amxm+b Lines
20、t 给出回归参数给出回归参数a,b,或或 a1,a2,.,am,b,数值数组数值数组形式形式,即返即返回回 a,b 回归参数回归参数,还可有附加回归统计值还可有附加回归统计值r2,F,df,SS,误差等。误差等。Linest函数函数语法语法 格式格式 Linest(y值数列值数列,x值数列值数列,常数常数_逻辑,逻辑,统计统计_逻辑逻辑)参数参数 因变量数列,因变量数列,自变量数列;自变量数列;常数常数是否是否不不强制截距为强制截距为0;为逻辑值为逻辑值:缺省缺省/1/True不不强制强制b=0;0/False 强制强制b=0 得到过原点的直线方程得到过原点的直线方程 y=ax。统计统计是否返
21、回附加回归统计值是否返回附加回归统计值,逻辑值逻辑值:1/True有有;省省/False 无。无。返回值返回值 为为数值数组。21数值数组(回归参数回归参数+回归统计值回归统计值)数值数组数值数组的顺序的顺序斜率斜率mn .m1 截距截距bm的标准误差的标准误差.b的标准误差的标准误差r2 2 y的标准误差的标准误差F值值自由度自由度df回归平方和回归平方和残差平方和残差平方和 使用使用Linest 函数函数的操作过程的操作过程:应应先先选定选定将要显示数组的将要显示数组的区域区域,然后输入函数、适当参数,再依然后输入函数、适当参数,再依次按下次按下(不松手不松手)Ctrl+Shift+Ent
22、er输入参数后输入参数后“确定确定”的方的方法法。不能删除数值数组中的单个元素。不能删除数值数组中的单个元素。Excel224.3.4 使用使用“数据分析数据分析”“回归回归”的线性拟线性拟合合 Excel 有附加的独立程序包有附加的独立程序包“分析工具库分析工具库”,可作线性回归分析。,可作线性回归分析。未曾用过未曾用过“分析工具库分析工具库”的的,需需加载加载。“工具工具”菜单中有菜单中有“数据分析”。n 加载方法:加载方法:(MS Office CD)“工具工具”菜单菜单加载宏加载宏分析工具库分析工具库 。&“数据分析数据分析”中中“回归回归”进行进行线性回归分析线性回归分析的的方法方法
23、 “工具工具”菜单菜单“数据分析数据分析”“分析工具分析工具”“回归回归”“回归回归”对话框:对话框:在在“输入输入”选项区选项区 输入数据区域输入数据区域(可含数据栏名可含数据栏名称称)。“标志标志”数据栏名称。数据栏名称。“置信度”95%,99%.“常数为零常数为零”截距截距=0,若选中就是强制回归线通过原点若选中就是强制回归线通过原点。由需要确定由需要确定。“输出选项输出选项”指定回归分析数据输出的区域。指定回归分析数据输出的区域。“线性拟合图线性拟合图”数据点数据点+预测点。预测点。“残差”,“正态分布”可不可不选。选。%输出汇总表输出汇总表SUMMARY OUTPUT包括包括:回归统
24、计回归统计、方差分析方差分析、回归参回归参数及统计。数及统计。Multiple R=R 的绝对值(复相关系数);Adjusted R Square 修正的R2(=1-(1-R2)*(N-1)/(N-k-1),与n 和变量个数k 有关,用于多变量回归)Excel23 提示 回归值与与预测值 回归值回归值:将实验数据中自变量值代入回归方程得到的计算值将实验数据中自变量值代入回归方程得到的计算值。n 预测值预测值:将其它自变量值代入回归方程得到的计算值将其它自变量值代入回归方程得到的计算值。244.4 多元线性回归vLINEST和和“数据分析数据分析”的的“回归回归”还可对还可对多个自变量多个自变量
25、xi 的函的函数式数式 y=a1x1+a2x2+.+amxm+b 作线性拟合,计算出作线性拟合,计算出 m 个个xi 相对应的系数相对应的系数 a1,a2,.,am 及常及常数数 b,还有回归统计。,还有回归统计。4.4.1 多元一次方程回归多元一次方程回归 例:已知配位场分裂能的大小已知配位场分裂能的大小 与配位原子种类与配位原子种类、数量直接相关数量直接相关 n nmax=S Snin ni 式中式中 ni 配位原子配位原子i 在配合物中的在配合物中的数目数目;n ni 配位原子配位原子i 对配合物分裂能的对配合物分裂能的贡献贡献。Cu(II)与氨基酸与氨基酸N、肽、肽N、羰基、羰基O、水
26、、水O等形成平面四边形配合物,等形成平面四边形配合物,N和和O有有4类配位原子,拟合方程为:类配位原子,拟合方程为:n nmax/cm-1=n n1n1+n n2n2+n n3n3+n n4n4 其中其中 ni 自变量,拟合前已知;自变量,拟合前已知;n ni 需要拟合的系数。需要拟合的系数。Excel254.4.2 多项式拟合实验数据为一曲线实验数据为一曲线,其拟合函数的形式不清楚时其拟合函数的形式不清楚时,常用多项式常用多项式(普适函数普适函数)进行拟合进行拟合 y=b+a1x+a2x2+.+amxm 用用Excel拟合方法拟合方法 (1)直接拟合法:直接拟合法:“添加趋势线添加趋势线”类型类型多项式多项式阶数。阶数。(2)变量变换法变量变换法:变换变换方法方法 x1=x,x2=x2,.,xm=xm 化为化为多元一次函数多元一次函数:y=b+a1x1+a2x2+.+amxm 求多项式的参数求多项式的参数 b,a1,a2,.,am 可用 LINEST函数;“数据分析”“回归”工具拟合。方次尽量低;常用到方次尽量低;常用到 3 次方。次方。n个数据点,拟合的多项式最高个数据点,拟合的多项式最高阶数为阶数为 n1。示例示例 方法方法 1,2,注意 趋势线公式的系数的位数。Excel