1、长沙民政职业技术学院教案课程名称数学应用基础课题相关分析与线性回归授课课时2课型新授课教案编号 3-2 教学目标(知识、技能、素质):1、知识目标:掌握相关分析的含义及相关系数的计算;掌握一元线性回归和多元线性回归的过程2、技能目标:分析解决问题的能力和严谨的逻辑思维能力3、素质目标:培养学生理性的思维方式和数学应用意识教学重点: 相关系数的计算;一元线性回归和多元线性回归方法教学难点:多元线性回归方法主要教学方法:启发引导式、讲授法教学环节与内容一、问题引入相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示的一种统计分析方法。其目的是揭示现象之间是否存在相关关系,确定相关关系的表
2、现形式以及确定现象变量间相关关系的密切程度和方向。二、新课讲授(1)相关分析相关分析的含义一般地,客观现象之间的数量关系表现为两大类型:函数关系与相关关系。(1) 函数关系反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的一个数值,都有另一变量的确定的值与之对立。如反映圆的面积s与半径r的函数关系,r值发生变化,则圆面积s值随之改变。(2) 相关关系是指现象之间确实存在某种联系,但数量关系表现为不严格相互依存关系。即对一个变量或几个变量为一定值时,另一变量值表现为在一定范围内随机波动,具有非确定性。如产品销售收入与广告费用之间的关系。相关的种类i)根据自变量的多少划分,可分为单相关
3、和复相关:ii)根据相关关系的方向划分,可分为正相关和负相关:iii)根据变量间相互关系的表现形式划分,线性相关和非线性相关:iv)根据相关关系的程度划分,可分为不相关、完全相关和不完全相关:线性相关的测定定义1 根据样本数据计算的对两个变量之间线性关系强度的度量值称为相关系数。若相关系数根据总体全部数据计算,称为总体相关系数,记为,若根据样本数据计算,则称为样本相关系数,记为。样本相关系数的计算公式为.上式也可以变形为: .案例1 根据某部门8个企业产品销售额和销售利润的资料如下(单位:元):=189127,=2969700,=4290,=12189.11,=260.1.试求产品销售额与利润
4、额的相关关系。解 根据相关系数计算公式,可得 = 0.9934.说明产品销售额与利润额存在高度正相关。由例8不难发现,根据样本数据计算两个变量的相关系数的计算量比较大,在实际应用过程中,我们可通过EXCEL的函数CORRE求相关系数,基本调用格式是=CORREL(Array1, Array2).其中:Array1为第一组数值单元格区域,Array2为第二组数值单元格区域。相关系数的性质:(1) 相关系数的取值范围为1。(2) 若,表明x与y之间存在正线性相关关系;若,表明x与y之间存在负线性相关关系。(3) 当时,可视x与y之间高度相关;时,可视x与y之间中度相关; 时,视x与y之间低度相关;
5、 当时,说明x与y之间的相关程度极弱,可视为不线性相关。(4) 若=1,则x与y之间存在确定的函数关系。(2)线性回归回归分析的含义相关分析研究的是现象之间是否相关、相关的方向和密切程度,而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。回归的种类i)根据自变量的个数,可分为一元回归与多元回归ii)根据回归的表现形式,可分为线性回归与非线性回归一元线性回归设随机变量与之间存在着线性相关关系。这里,是可以控制或可以精确观测的变量,如年龄、试验时的温度、电压等。对于的一组不完全相同的值,作独立试验得到n对观测结果,其中,是处对随机变量的观测结果,构成一个容量为
6、n的样本。我们假定与之间有如下关系:其中,表示所有的随机因素对影响的总和(也称为随机误差),并假定是一组相互独立且同分布的随机变量。则一元线性回归的任务就是从样本出发去估计上式中的未知参数。案例2 从我校学生中随机选取8名女大学生,其身高和体重数据如表3-9所示。表3-9 随机选取的8名女大学生身高与体重数据编号12345678身高/cm150152157160162165168170体重/kg4350485761545964试求根据女大学生的身高预报体重的回归方程,并预报身高为172cm的女大学生的体重。解 由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y,设一元线性回
7、归方程为:,其中,分别是的估计值。当变量取时,可以得到,它与实际体重之间的偏差是(如图3-12所示).若记,则问题转化为:当取什么值时使Q值最小,即总体偏差最小。也可以理解为确定回归直线,使得样本数据的点到它的距离的平方和最小。这一方法叫做最小二乘法。图3-12据最小二乘法的思想和数学推导,可得回归系数在本例中,因此,.于是,得到回归方程.据此可以预测,对于身高172cm的女大学生,其体重的估计值为(kg).显然,身高172cm的女大学生的体重不一定是 64.357kg,但一般可以认为她的体重接近于64.357kg,图3-12中的样本点和回归直线的相互位置说明了这一点。在实际应用中,通过回归方
8、程得到的预报值与实测值之间会有一个误差,该误差的产生可归结为以下两个原因:(1) 预报值与实测值之间会产生一个随机误差。因为一个人的体重除了受身高的影响外,还受到许多其他因素的影响,如饮食习惯、是否喜欢运动等。这些因素对预报值的干扰即产生了随机误差。(2) 根据回归系数公式得到的估计值,它们与真是值之间也存在误差。对于任何一组实验数据,不管它们实际上是否存在线性关系,我们都可以用最小二乘法在形式上得到y对x的回归方程,这显然有问题。因此,还需要对随机变量y与非随机变量x之间的线性关系的存在性进行统计检验。对于统计检验的数学原理,我们不做介绍,这里只根据EXCEL求解结果分析回归模型的有效性。单
9、击【数据】中的【数据分析】选项,选中【回归】,按要求输入数据,选择求解参数(置信度定为95%),可得回归分析的部分结果如表3-10所示(详细求解方法见实训三)。表3-10 例9的EXCEL求解结果回归系数估计值置信区间83.0714161.3310, 4.81180.85710.3699, 1.3443r = 0.8692, R2 =0.7554, Significance F=0.0051表3-10显示, 相关系数 r = 0.8692,说明身高与体重高度线性相关。R2表示身高变量对于体重变量变化的贡献率,R2越接近于1,表示回归的效果越好。在例9中,R2 =0.7554,表明“女大学生的身
10、高解释了75.54%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”。Significance F对应的是在显著性水平下的模型弃真概率,即模型为不可靠的概率。显然,Significance F的值越小越好,本例中,其值为0.0051,故置信度达到99.49%。表3-10不仅给出了回归系数的估计值,还给出了回归系数的置信度为95%的置信区间,即我们可以有95%的把握保证回归系数,。多元线性回归在线性回归分析中,如果有两个或两个以上的自变量,就称为多元线性回归。案例3 某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销
11、售量与销售价格、广告投人等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投人的广告费用,以及同期其它厂家生产的同类牙膏的市场平均销售价格,见表3-11。试根据这些数据,分析牙膏销售量与这些因素之间的关系,为制订价格策略和广告投人策略提供数量依据。表3-11 牙膏销售量与销售价格、广告费用等数据销售周期公司销售价格其他厂家平均价格(元)广告费用(百万元)价格差(元)销售量(百万支)13.853.805.50-0.057.3823.754.006.750.258.5133.704.307.
12、250.609.5243.703.705.500.007.5053.603.857.000.259.3363.603.806.500.208.2873.603.756.750.158.7583.803.855.250.057.8793.803.655.25-0.157.10103.854.006.000.158.00113.904.106.500.207.89123.904.006.250.108.15133.704.107.000.409.10143.754.206.900.458.86153.754.106.800.358.90163.804.106.800.308.87173.704.2
13、07.100.509.26183.804.307.000.509.00193.704.106.800.408.75203.803.756.50-0.057.95213.803.756.25-0.057.65223.753.656.00-0.107.27233.703.906.500.208.00243.553.657.000.108.50253.604.106.800.508.75263.654.256.800.609.21273.703.656.50-0.058.27283.753.756.750.007.67293.803.855.800.057.93303.704.256.800.559
14、.26注:价格差指其它厂家平均价格与公司销售价格之差解 由于牙膏是生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌之间的价格差异,而不是它们的价格本身,因此,在研究各个因素对销售量的影响时,用价格差代替公司销售价格和其它厂家平均价格更为合适。记牙膏销售量为,其它厂家平均价格与公司销售价格之差(价格差)为,公司投入的广告费用为, 为了大致地分析与及的关系,首先利用表3-11的数据分别作出y对及的散点图,如图3-13和3-14。图3-13 销售量对价格散点图 图3-14 销售量对广告费用散点图从图3-13及3-14可以发现,随着、的增加,的值有比较明显的线性增长趋势,可用线
15、性回归模型来拟合销售量与广告费用及价格差二者之间的数量关系。借助Excel回归分析工具,得到回归分析结果如表3-12所示。表3-10 例10的EXCEL求解结果回归系数估计值置信区间4.84693.2986, 6.39511.80611.1860, 2.42610.48570.2332, 0.7382r = 0.9316, R2 =0.8678, Significance F=1.3710-12根据表3-10的结果,得回归方程模型为=4.8469+1.8061+0.4857相关系数 r = 0.9316,,说明牙膏销售量与价格差、广告费用高度线性相关。R2=0.8678表明“价格差和广告费用两个因素解释了86.78%的销售量的变化”。Significance F的值为1.3710-12,故置信度几乎达到100%。回归系数的置信度为95%的置信区间分别为,。课后小记