1、统计实务 项目8 相关分析与回归分析 1.了解相关分析与回归分析的基本内容、相关关系的判断方法、计算方法。 2.理解相关关系的概念和特点、相关关系的种类、回归分析的概念和特点。 3.掌握相关系数的计算方法、一元线性回归分析。 近年,我国经济不断发展,各项经济指标呈现增长趋势,人民生活水平不断提高。通 过前面和胡琴的学习,张华已经掌握了统计相关知识,她想独立来研究我国各项经济相关 指标 和人民生活质量是不是有关联以及它们之间的关系。 任务1 相关分析 任务2 回归分析 任务1 张华为了研究我国经济的发展和各项经济相关指标的关系,搜集了我国2009-2018年这10 年的财政收入和税收收入情况资料
2、,并绘制成统计图。她希望了解财政收入与税收收入是否有 关系,以及两者之间有什么关系。 相关分析 知识链接 一 相关关系的含义和特点 1. 相关关系的含义 相关关系是客观现象存在的一种非确定的相互依存关系,即自变量的每一个取值,因变量由于受随 机因素影响,与其所对应的数值是非确定性的。例如,人的身高和体重、空气中的湿度与降雨量之间都 存在一定的依存关系。 2. 相关关系的特点 (1) 相关关系表现为数量上的相互依存 关系 (2) 现象之间数量依存的具体关系是不 确定的 知识链接 延伸阅读 相关关系与函数关系的区别 函数关系是指现象之间存在着严格的确定性的数量依存 关系。在这种关系中,对于某一变量
3、的每一个数值,都有 着另一个变量的确定值与之对应,并且这种关系可以用一 个数学表达式表示出来。例如,圆的面积S 与其半径R 之间 的依存关系可表示为S=R2。 相关关系一般不是完全确定的,对自变量的一个数值, 与之对应的因变量的数值不是唯一的。相关关系一般不能 用数学公式准确地表示出来。它们既存在着密切的关系, 但又不能由一个或几个变量的数值精确地求出另一个变量 的值。 知识链接 二 相关关系的种类 知识链接 1. 完全相关、不完全相关和不相关 完全相关是指一种现象数量的变化完全由另一种现象的数量变化来确定,即自变量每取一个值,因 变量就有一个确定的值与之对应。这样两个变量间的关系则称为完全相
4、关。这种情况下的相关关系转变 为函数关系,可以用一定的方程式来准确地表示它们的关系。 圆的面积S与其半径R 之间的关系是完全相关,表示为S=R2 例 2. 单相关和复相关 单相关指两个变量之间的相关关系,它只涉及两个变量。复相关指多个自变量与因变量间的相关关 系,又称多元相关。 企业利润的高低与产品销售量、销售价格、产品成本、销售费用之间的关系就是复 相关关系。 例 知识链接 3. 线性相关和非线性相关 将相关因素的数值变化表示在平面直角坐标系中,线性相关是指相关因素的散点近似呈直线分布, 故又称直线相关;非线性相关则是指相关因素的散点呈曲线分布,如抛物线、指数曲线、双曲线等,故 又称曲线相关
5、。 一般情况下,化肥的施用量与农产品的产量的关系就是非线性相关关系。农产品的 产量开始随着化肥施用量的增加而增加, 当化肥用量超过一定量时,农产品的产量会随着化 肥施用量的增加而减少,其散点图的分布形态近似一个曲线。 例 4. 正相关和负相关 正相关指两个相关变量之间的变化方向一致,都呈增长趋势或下降趋势。负相关指两个相关变量之 间的变化趋势相反,一个下降而另一个上升,或一个上升而另一个下降。 当商品价格提高时,通常商品的销售量会减少;企业单次购进材料数量越多,则单位成本通常会越低。 例 知识链接 三 相关关系的判断 1. 定性分析 对现象进行定性分析,就是根据现象的性质,运用一定的知识、实践
6、经验来进行判断和分析。 根据生物学理论来分析中学生看电视时长与近视是否存在相关关系;根据消费心理学理论来判断商品定价与销量是否存在 相关关系。 例 2. 相关表 相关表是把研究对象的观察值对应排列所形成的统计表格。主要有 简单相关表 和 分组相关表 两 种类型。 知识链接 (1) 简单相关表 简单相关表是按两列成对的变量数值编制的统计表。 下表是某公司8名工人工龄与日工资的相关表。 例 从表中可以粗略看出,随着工 龄的增加,工人日工资呈上升趋势。 (2) 分组相关表 分组相关表是将原始资料进行分组后编制的相关表。 下表是某公司单批原朴采购量与单位成本的相关表。 例 从表中可以粗略看出,随着单批
7、 采购数量的增加,平均单位成本呈降 低趋势。 知识链接 3. 相关图 相关图又称散点图,它是根据相关表中的观测数据在坐标系上所绘制的点状图形。相关图有正相关、 负相关、非线性相关、不相关等。 在相关图中,若相关点呈现出一定的规律性,如大致为一条直线或一条曲线,这表明变量之间存在 相关关系,且为直线相关或曲线相关。相关点越密集,表明相关关系越密切。若相关点分布毫无规律, 即零碎、杂乱地分布在坐标系中,则表明变量之间是不相关关系或存 在的相关关系较弱。 知识链接 4. 相关系数 相关系数是反映客观现象之间相关关系及关系密切程度的统计分析指标,通常用符号r表示。 相关系数比相关图更能概括表示相关的形
8、式和程度。相关系数的取值范围在-1和+1之间, 即 。当r0时,两变量成正相关;当r0时,两变量成负相关。 相关系数r的绝对值越接近1,表示相关关系越强;越接近0,表示相关关系越弱。 (1) 相关系数的含义和特点 知识链接 (2) 相关系数的计算 相关系数的计算公式为: 式中: 为协方差; 为自变量x的数列的标准差; 为自变量y的数列的标准差。 将上述公式经过数学推理可以得到以下相对简捷的公式: 知识链接 下表是我国20132017年城镇居民人均可支配收入与城镇居民国内旅游总花费的资料,请分析其相关关系。 例 计算结果得出相关系数r为0.997, 它表示城镇居民人均可支配收入与城 镇居民国内旅
9、游总花费的相关关系很 强,是高度相关。 任务实施 STEP 2 明确国家财政收入和税收收入之间相关关系的类型。 查找数据,编制简单相关表。 根据相关表可以看 出,国家财政收入和税 收收入之间存在相关关 系,并且是正相关。 STEP 1 判断我国国家财政收入和税收收入是否有相关关系。 根据定性判断,即个人知识经验,可以判断财政收入和税收收入具有相关关系。 STEP 3 计算分析国家财政收入和税收收入的相关系数。 根据相关系数的简捷公式,编制相关系数计算表。 计算结果得出相关系数r为0.998,它表示国家财政收入和税收收入的相关关系很强,是高度相关。 任务2 经过计算分析,张华了解到国家财政收入和
10、税收收入之间关系密切。前面淜查分析发现 网络购物用户规模逐年递增,那么网络购物和我国人均居民可支配收入有关系吗?张华搜集了 近5年我国居民人均可支配收入与天猫 “双11“销售额数据。通过初步分析,张华发现两个数据 相关关系很强,是高度相关。她想,按居民可支配收入的增长速度, 如果2019年我国居民可 支配收入比2018年增长10%,即达到31050元,那么是否可以预测出2019年天猫 “双11“的销售 额呢?又该如何预测呢? 回归分析 知识链接 一 回归分析的含义和特点 1. 回归分析的含义 回归分析是对具有某种相关关系的两个或两个以上变量之间数量变化关系进行测定,确定一个相应 的数学表达式,
11、进而从一个自变量的已知值来推测因变量的可能取值的统计分析方法。 2. 回归分析的特点 第一,回归分析中 两个变量之间的关 系不是对等的,要 区分自变量和因变 量。 第二,因变量是随 机变量,而自变量 是给定的量。 第三,回归方程是 用自变量的给定值 来推算因变量的估 计值,它反映的是 变量间具体的变动 关系。 第四,建立回归方 程的目的主要是用 来预测因变量的未 来数值,要求自变 量的值必须精确或 容易求得。 知识链接 二 回归分析的种类 一元回归和多元回归 一元回归是指只有一个因变量和一个自变 量的回归,又称简单回归。多元回归是指含有 两个或两个以上的自变量和一个因变量的回归, 又称复回归。
12、 线性回归和非线性回归 线性回归又称直线回归,是指因变量与自 变量之间数量关系的数学表达式是线性方程。 非线性回归又称曲线回归,是指因变量与自变 量之间数量关系的数学表达式是非线性方程。 知识链接 三 回归分析和相关分析的区别和联系 1. 回归分析和相关分析的联系 (1)相关分析是回归分析的前 提和基础 (2) 回归分析是相关分析的深 入和继续 2. 回归分析和相关分析的区别 (1)研究变量性质不同 (2) 任务和目的不同 知识链接 四 一元线性回归分析 1. 建立一元线性回归模型的前提条件 回归分析的任务是根据散点图初步确定的相关关系方程表达式的类型,拟合一个恰当的数学模型, 从而对变量之间
13、的相关程度进行较精确的计算分析。这个数学模型称为回归方程。表明两个变量之间一 般数量关系的线性方程称为一元线性回归方程。 现象间确实存在数量上 的相互依存关系 1 2 3 现象之间存在着直线相 关关系 具有一定数量的自变量 和因变量的对应观测值 知识链接 2. 直线回归方程的算法 直线回归方程又称一元一次线性回归方程,若以x为自变量,y为因变量,则其基本公式为: 式中:a表示直线的纵向截距;b表示直线斜率,又称回归系数; 表示回归估计值。 统计中使用最多的是最小平方法,用这个方法求出的回归线是原资料的最适线,即 用最小平方法求解直线回归方程中的参数a,b的标准方程式为: 依据上述方程组,可分别
14、求出a,b两个参数的值,其计算公式为: 知识链接 下表是2013 2017年我国城镇居民人均可支配收入与城镇居民国内旅游总花费计算表。 例 代入参数a,b的公式,则 计算得到方程y=-260+174.08x。 这个回归直线方程式的意义是城镇居民人均可支配收入每增加1万元,城镇居民国内旅游总花费将增加174.08百亿元。根 据此公式可以预测,当2019年城镇居民人均可支配收入达到4.3万元时,城镇居民国内旅游总花费的预测值为488.54百亿元。 知识链接 延伸阅读 从啤酒与尿布案例看数据分析六步思维 伴随着人类的进步,历史给我们留下的数据和经验越来越多。大多数的商业决策也 从原来的 拍脑 门”方
15、式变为数据决策。数据分析师这个角色变得至关重要,他们可以基于数据进行统计分析,给出一个 具有科学性的决策建议。 例如,一个非常经典的数据分析案例啤酒与尿布”。沃尔玛需要提高公司的收益,数据分析师整理 了几大区域的超市物品销售量,从销售量中发现周末啤酒和尿布的 销售量都会上升,对这类购买人群进 行分析,发现大多数用户是家有幼儿的爸爸。这些爸爸在周末采购前会被他们的老婆嘱咐采购尿布,而男 人在购买尿布时也会自发采购喜 爱的啤酒。发现这个现象后,沃尔玛公司决定将啤酒和尿布这两个本来 不相关的物品摆 放在一起。这一决策大大提高了商品的销量,沃尔玛的收益也大大提高。 下面我们从数据分析师的角度,用数据决
16、策分析的思维来解释这个案例。 第一步, “构建问题“。分析始于认识一个问题或者一个决策,然后开始解决问题。它是分析开始的第 一步,也是最重要的一环。 案例中提高沃尔玛的收益,要做的就是增加商品的销售量,所以构建的问题就是如何提高商品的销售 量。 第二步,“回顾“。整理以往相关问题的经验。 通过调取超市的售卖流水清单发现消耗量较大的商品,也就是购买人购买最多的商品。在整理订单过 通过调取超市的售卖流水清单发现消耗量较大的商品,也就是购买人购买最多的商品。在整理订单过 程中发现出货量最大的商品是啤酒和尿布。 第三步,“建模(选择变量)“。简化影响问题的因素,去掉无关紧要的信息,保留最重要、最有效、
17、最 关键的且会造成影响的因素。但是由于种种原因保留的信息不一定完 全精准,分析性的思维是由假设驱 动的,后期再通过数据不断地完善修正。 本案例中选择啤酒、尿布两个商品的购买人、购买时间进行建模。 第四步,“搜集数据“。搜集已确定变量的数值,为最后的数据分析提供支撑。 在沃尔玛销售场景中可以发现,啤酒的购买人以男人为主,尿布的购买人也以男人为主。购买的时间 都是在周末。 第五步,“数据分析“。数据和以往的问题并不能告诉我们明确的信息,需要我们分析它,以破译出它 的恋义和隐含的关系。 在对购买人进行分析的过程中,可以发现同时购买两种物品的男人有很多,原因是 大多家有幼儿的 爸爸主要承担了周末采购的
18、任务。他们的老婆给其下达的任务是要采购 孩子的尿布,而爸爸们在采购的 同时又会采购自己喜爱的啤酒。所以将两种不相关的物 品放在一起会大大降低这类人群的购买思索时间, 让用户更容易完成购买流程。 第六步,“传达结果并持续分析“。验证后的问题会有一个结果,我们需要将这个结 果传达给关键人让其做出决策,并基于事情的发展不断完善推理分析内容。 将尿布和啤酒销售情况分析后的结果反馈给决策人,并将两种物品摆放在一起。通过后期的持续分析 跟进,我们发现这两种物品的销售量得到了大大的提高,同时沃尔玛的超市收益也得到了显著的提升。 任务实施 STEP 1 以居民可支配收入作为自变量x,天猫 “双11“销售额作为因变量y,编制我国居民人均可支 配收入与天猫 “双11“销售额计算表 STEP 2 依据公式,计算出a,b的数值,确定方程。 将表中的数值代入参数a,b的公式,则 STEP 3 预测2019年天猫 “双11“销售额。 则方程为 该回归直线方程的意义是居民人均可支配收入每增加1万元,天猫 “双11“销售额将增加19.88百亿元。 将预测的2019年居民可支配收入3.11万元代入方程,得 则预测2019年天猫 “双11“的销售额将达到27.05百亿元。 努力造就实力 态度决定高度