1、 统计是一门关于使用科学的方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的技术,其关键在于对数据的分析与加工。统计在日常生活和各类职业中有着广泛的应用,例如:在社会学领域,需要调查青年对婚姻家庭、经济收入、相貌等因素的态度,以便进行正确引导;在康复医疗领域,需要对患有抑郁症的病人,按照测量得到的指标,进行恰当的归类,以便进行有针对性的治疗;在经济活动中,需要考虑商品的市场反应与价格、消费者收入和广告等因素之间的相互关系,以及建立数学模型进行预测等问题。本章将主要介绍描述性统计、单因素方差分析、相关分析、回归分析与时间序列分析等内容,并借助Excel工具进行统计分析。通过这
2、些内容的学习,你将了解统计是如何被应用到与我们有着密切联系的各个领域的。第第一一节节 描述性统计分析描述性统计分析01第一节第一节 描述性统计分析描述性统计分析:研究对象的某一个(或多个)指标全体。组成总体的每一个单元。总体中所包含个体的总数。在总体中随机地抽取 个个体,记其指标值为样本中的个体。样本中所包含个体总数 。12,nXXXnn 例:对于某一个地区而言,我们往往很难得到全体男性成人的身高 与体重 ,只能抽取 个男性成人进行测量,根据测量结果来推断和 的分布情况,则该地区全部男性成人的身高 与体重 是一个总体,而其中每一个男性成人的身高与体重是一个个体,所抽取的 个男性成人的身高和体重
3、 是一个个样本。HWnHWHWn1122(,),(,),(,)nnH WH WH W1.11.1重要统计概念重要统计概念第一节第一节 描述性统计分析描述性统计分析 通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。用简单随机抽样方法得到的样本。注意:注意:最常用的“简单随机抽样”有如下两个要求:()样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一个样品 与总体 有相同的分布。()样本要有独立性,即要求样本中每一个样品的取值不影响其他样品的取值,这意味着 相互独立。ixX12,nXXX 第一节第一节 描
4、述性统计描述性统计分析分析 把样本数据转化为对应的统计图,通过统计图直观地描述数据的分布。针对不同的问题构造出样本的某种函数,这种函数就是统计量,利用统计量描述观测数据的集中、分散等情况。描述性统计描述性统计:包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。第一节第一节 描述性统计描述性统计分析分析某车间加工装配一种金属制品,产品在装配线上的一道关键工序所需要的时间是该装配线工作效率的一个重要指标为了了解具体情况,从中抽取100个样品,其测量数据(单位:秒)见表3-1。试绘制频数分布直方图和频率分布直方图,并描述该直方图。用直方图描述区间数据51.7
5、56.954.553.953.753.953.153.154.553.950.651.955.353.553.153.152.953.354.355.757.952.154.953.354.553.353.155.155.555.956.955.154.353.953.955.354.354.755.753.756.754.953.753.556.755.753.154.955.553.556.754.753.553.554.556.152.754.354.953.155.355.353.752.554.354.753.153.955.352.356.155.353.153.355.153.1
6、53.353.755.552.753.754.554.553.554.153.353.153.953.752.954.554.953.153.354.552.753.353.554.153.3表3-1 关键工序所需时间表1.2 1.2 用图描述数据用图描述数据 第一节第一节 描述性统计分析描述性统计分析解解绘制频数分布直方图和频率分布直方图一般分为以下四个步骤。第一步第一步:计算极差,即样本数据最大值与最小值的计算极差,即样本数据最大值与最小值的差。差。在表3-1的数据中,最小值是50.6秒,最大值是57.9秒,极差是7.3秒,说明关键工序的装配时间变化范围是7.3秒。第一节第一节 描述性统计
7、分析描述性统计分析第三步:列频数分布和频率分布列频数分布和频率分布表表。对落在各小组内的数据进行统计,得到各小组内数据的频数和频率,见表3-2。第四步:绘制频数分布直方图和频率分布绘制频数分布直方图和频率分布直方图直方图。根据表3-2,画出频数分布直方图(如图3-1所示)和频率分布直方图(如图3-2所示).图3-1 频数分布直方图 图3-2 频率分布直方图表3-2 频数分布和频率分布表时间分组时间分组频数频数频率频率x52.140.0452.1x53.6350.3553.6x55.1400.4055.156.660.06 第一节第一节 描述性统计分析描述性统计分析在图3-1中,横轴表示时间,纵
8、轴表示频数与组距的比值。容易看出:=频数小长方形的面积 组距频数组距 可见,频数分布直方图是以小长方形的面积来反映数据落在各小组内的频数的大小。同理,图3-2中小长方形的面积反映数据落在各小组内的频率的大小。图3-1 频数分布直方图 图3-2 频率分布直方图第一节第一节 描述性统计分析描述性统计分析基于下列特征来描述直方图的基于下列特征来描述直方图的轮廓轮廓:(1)对称性对称性 由直方图的中心画一条垂直于横轴的直线,两边的形状和大小相同时,则其直方图被称为是对称的,如图3-3(1)所示。(2)偏态偏态 一个偏态的直方图是指具有一条延伸向右或向左的长尾,前者称为正偏 态,如图3-3(2)所示,后
9、者称为负偏态,如图3-3(3)所示。图3-3(1)图3-3(2)图3-3(3)第一节第一节 描述性统计分析描述性统计分析(3)众数组个数众数组个数 众数是指发生最多次数的观测值,而众数组则为一个具有最多观测值个数的小组。具有单一高峰者(众数组只有个)称为单峰直方图,如图3-4(1)所示。(4)钟形钟形 对称单峰直方图称为钟形。钟形直方图对应的数据一般服从正态分布,而正态分布是概率与统计中最重要的一种分布,如图3-4(2)所示。图3-4(1)图3-4(2)第一节第一节 描述性统计分析描述性统计分析某电缆厂有两台生产设备(A、B),最近,经常有不符合规格值(克)的异常产品发生。现就A、B两台设备分
10、别测量了50个产品,数据见表3-3。试分别画出它们的频数分布直方图并分析由直方图所得的结论。A设备设备B设备设备1201791681651831561481651521611681881841701721671501501361231691821771861501611621701391621791601851801631321191571571631871691941781761571581651641731731771671661791501661441571621761831631751611721701371691531671741721841881771551601521561541
11、73171162167160151163158146165169176155170153142169148155表3-3 两台设备生产的产品规格值135210第一节第一节 描述性统计分析描述性统计分析图3-5(1)A设备图3-5(2)B设备比较这两个直方图,不难得到以下信息:(1)A设备的产品规格值直方图的中心高于B设备的产品规格值直方图的中心;(2)两个直方图都呈现稍微的负偏态。若产品规格值低于135克为不合格产品,则B设备产品异常的可能性更大;如果产品规格值越高,产品质量越好,则A设备的产品的质量会高于B设备。解:解:分别就A、B两台设备绘制出它们的产品规格值频数分布直方图,如图3-5所示
12、。第一节第一节 描述性统计分析描述性统计分析 对名目数据唯一被允许的计算是统计随机变量的每一个可能值出现的次数,进一步借助条形图或饼图来描述统计结果。用条形图和饼图描述名目数据一所大学的学生就业指导中心对去年商学院的毕业生进行一项调查,以了解其找到的工作的一般领域。就业的领域有会计、财务、一般管理、销售、其他,资料被分别以数字1、2、3、4、5来表示,已整理好的数据见表3-4。试绘制相应的条形图和饼图以描述这一组名目数据。领域毕业生数毕业生比例会计7328.9%财务5220.6%一般管理3614.2%销售6425.3%其他2811.1%合计253100%表3-4 学生就业领域统计表第一节第一节
13、 描述性统计分析描述性统计分析解:解:条形图由绘制出代表每一个类别的长方形构成,长方形的高代表次数,底则为任意决定的。图3-6为表3-5对应的条形图。图图3-6 毕业生就业领域条形图毕业生就业领域条形图图图3-7 毕业生就业领域饼图毕业生就业领域饼图0360090第一节第一节 描述性统计分析描述性统计分析用散点图描述两变量的关系 在统计中,我们常常需要知道两个随机变量之间是否存在某种关联。一种描述两个随机变量间关系的方法称为散点图。为了绘制一个散点图,我们需要两个随机变量的数据。应用上,当一个随机变量某种程度上依赖于另一个随机变量时,我们分别用X和Y表示。第一节第一节 描述性统计分析描述性统计
14、分析某大型牙膏制造企业为了更好地拓展产品市场,公司董事会要求销售部根据市场调查,找出公司生产的牙膏销售量与广告投入之间的关系,从而预测出不同广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量和投入的广告费用,见表3-5。试根据这些数据,用统计图的方法描述牙膏销售量与广告投入之间的关系。销售周期广告费用(百万元)销售量(百万支)销售周期广告费用(百万元)销售量(百万支)销售周期广告费用(百万元)销售量(百万支)15.57.38116.57.89216.257.6526.758.51126.258.152267.2737.259.5213
15、79.1236.5845.57.5146.98.862478.5579.33156.88.9256.88.7566.58.28166.88.87266.89.2176.758.75177.19.26276.58.2785.257.871879286.757.6795.257.1196.88.75295.87.931068206.57.95306.89.26表3-5 牙膏销售量与广告费用数据第一节第一节 描述性统计分析描述性统计分析 散点图显示,一般而言,广告费用越高,其销售量也就越高,并且销售量可近似地看成随着广告费用的增加而成线性增加趋势。图3-8 销售量现对于广告费用散点图解:解:设纵坐标
16、Y表示牙膏的销售量,横坐标X表示广告费用,绘制散点图如图3-8所示。第一节第一节 描述性统计描述性统计分析分析用折线图描述时间序列数据 时间序列数据常用折线图来描述,即以横轴为时间轴,纵轴为对应时间点随机变量的观测值,将统计数据用对应于平面内的点表示,相邻两点用一条线段连接,形成点划线。第一节第一节 描述性统计描述性统计分析分析已知某商场19781998年的年销售额见表3-6,试绘制这些数据的折线图并描述其所包含的信息。年份销售额(万元)年份销售额(万元)年份销售额(万元)1978321985641992841979411986691993861980481987671994871981531
17、9886919959219825119897619969519835819907319971011984571991791998107表3-6 某商场1978-1998年的年销售额第一节第一节 描述性统计分析描述性统计分析 结合图3-10不难发现,该商场的销售额保持基本一致的增长趋势,统计的前4年保持了较快的增长速度,然后出现了10年的小幅波动中增长,1990年以后保持了平稳的增长趋势。这可能跟公司的发展与经营政策的改变有密切联系。解:解:1978-1998年的年销售额随着年份的变化的折线图如图3-10所示。图3-10 商场销售额时间序列图第一节第一节 描述性统计分析描述性统计分析 统计量:统
18、计量:统计理论中用来对数据进行分析、检验的变量。中心趋势:中心趋势:又又称称定位度量或者定位度量或者平均数平均数,是一组数据典型的或者有代表意义的值。离散离散趋势趋势:对数据进行统计描述还需要知道数据围绕中心点是如何分散的,称之为离散趋势。分布形状:分布形状:随机变量的分布形状主要包括偏度和峰度。1.3 1.3 常用统计量常用统计量第一节第一节 描述性统计分析描述性统计分析 几何平均数几何平均数:度量平均值的另一种方法,特别是在计算平均增长率、平均收益率时经常被使用。设 表示第 期的投资回报率,则投资回报率 的几何平均数 定义为 1211nniixxxxxnn中心趋势12(1)(1)(1)1n
19、gnrrrrir(1,2,)ini12,nr rrgr第一节第一节 描述性统计分析描述性统计分析 众众数数:样本观测值中发生次数最多的观测值。使用众数作为中心趋势统计量,会有两个问题:第一,在一个小样本内,它可能不是一个很好的观测值;第二,它可能不唯一。中位数中位数:把所有观测值依序排列(递增或递减),位于最中间的观测值就是中位数。当观测值个数为偶数时,则中位数是位于中间的两个观测值的平均数。中心趋势第一节第一节 描述性统计分析描述性统计分析离散趋势 极差极差:样本最大观测值和最小观测值之间的差。12,nx xx22222121()()()1()11nniixxxxxxsxxnn 极差极差:样
20、本方差的算术平方根,即 2ss 方差方差系数系数:样本观测值的标准差除以样本均值的结果,即 scvx第一节第一节 描述性统计分析描述性统计分析表3-7给出了东风汽车和上海机场两只股票在12个交易日的价格,试比较两只股票价格在这12个交易日内的活跃程度。日期东风汽车上海机场日期东风汽车上海机场200503103.1716.06200503182.9716.52200503113.1616.55200503212.9416.65200503143.1017.27200503222.7117.17200503153.1016.82200503232.7416.90200503163.0916.602
21、00503242.7616.86200503173.0216.65200503252.7516.79表3-7两只股票12个交易日的价格表第一节第一节 描述性统计分析描述性统计分析解:解:分别计算两组样本均值、样本标准差和方差系数,得东风汽车:均值为2.96,标准差为0.176,方差系数为0.059。上海机场:均值为16.74,标准差为0.316,方差系数为0.019。如果从标准差来看,上海机场的股票活跃程度要大于东风汽车,但从方差系数来看,上海机场的方差系数仅为0.019,远小于东风汽车的0.059。两者存在矛盾是因为上海机场的股价要高于东风汽车,所以含有量纲的标准差就会偏高,而采用方差系数考
22、虑了股价的均值,能更好地反映股价的活跃程度,因此可以从方差系数作出判断,即东风汽车股价的活跃度高于上海机场股价的活跃度。第一节第一节 描述性统计分析描述性统计分析分布形状31()(1)(2)niixxnsknns若若sksk0,0,0,则分布则分布具有正偏态具有正偏态若若sksk接近接近0 0,则分布是对称的,则分布是对称的第一节第一节 描述性统计分析描述性统计分析分布形状若若b bk k00,0,则表示峰度比正态分布陡峭则表示峰度比正态分布陡峭若若bkbk=0=0,则表示峰度与正态分布相同则表示峰度与正态分布相同241(1)3(1)()(1)(2)(3)(2)(3)niixxn nnbknn
23、nsnn第一节第一节 描述性统计分析描述性统计分析表3-8给出了某股票在18个交易日的价格,试求该股票价格的偏度和峰度。日期价格日期价格日期价格200503106.4200503186.29200503285.97200503116.38200503216.16200503295.93200503146.44200503226.12200503305.94200503156.36200503236.08200503315.54200503166.24200503245.99200504015.36200503176.35200503255.93200504045.4表3-8 某股票18个交易日
24、的价格表数据的偏度和峰度的计算公式较为复杂,我们可以借助Excel辅助算。其中,偏度的Excel指令是“SKEW(数据对象)”,峰度的Excel指令“KURT(数据对象)”。借助Excel求解,可得该股票价格的偏度sk0.9236,峰度bk0.0687。这说明股票价格呈负偏态;峰度值接近于,其陡峭程度与正态分布接近。第二第二节节 相关分析与线性回归相关分析与线性回归02第二节第二节 相关分析与相关分析与线性回归线性回归相关关系:相关关系:现象之间确实存在某种联系,但数量关系表现为不严格的相互依存关系 即对一个变量或几个变量为一定值时,另一变量值表现为在一定范围内的随机波动,具有非确定性。一般一
25、般地,客观现象之间的数量关系表现为两大类型:函数关系与相地,客观现象之间的数量关系表现为两大类型:函数关系与相关关关关系系。函数函数关系关系:反映现象之间存在严格的依存关系,在这种关系中,对于某一变量的一个数值,都有另一变量的确定的值与之对应。相关分析第二节第二节 相关分析与线性回归相关分析与线性回归 相关相关的的种类种类根据自变量的多少划分,可分为根据自变量的多少划分,可分为单相关单相关和和复相关复相关。根据相关关系的方向划分,可分为根据相关关系的方向划分,可分为正相关正相关和和负相关负相关。根据变量间相互关系的表现形式划分,根据变量间相互关系的表现形式划分,线性相关线性相关和和非线性相关非
26、线性相关。根据相关关系的程度划分,可分为根据相关关系的程度划分,可分为不相关不相关、完全相关完全相关和和不完全相关不完全相关。第二节第二节 相关分析与线性回归相关分析与线性回归 线性相关线性相关的测定的测定样本相关系数的计算公式为:上式也可变形为:2222r=()()nxyxynxxnyy 22()()()()xxyyrxxyy第二节第二节 相关分析与线性回归相关分析与线性回归 解:解:根据相关系数计算公式,可得2222()()nxyxyrnxxnyy 228 1891274290 260.1=0.99348 296970042908 12189.11 260.1()()说明产品销售额与利润额
27、存在高度正相关产品销售额与利润额存在高度正相关可通过EXCEL的函数CORREL求相关系数,基本调用格式是:=CORREL(Array1,Array2)其中:Array1为第一组数值单元格区域,Array2为第二组数值单元格区域第二节第二节 相关分析与线性回归相关分析与线性回归 相关系数相关系数的几个简单的几个简单性质性质(1)相关系数的取值范围为1。()若,表明x与y之间存在正线性相关关系;若,表明x与y之间存在负线性相关关系。()当0.8时,可视狓与狔之间高度相关;当0.5 0.8时,可视与之间中度相关;当0.3 0.5时,可视x与y之间低度相关;当r0.3时,说明x与y之间的相关程度极弱
28、,可视为非线性相关。()若r,则x与y之间存在确定的函数关系。第二节第二节 相关分析与线性回归相关分析与线性回归线性回归回归分析回归分析:回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型能否很好地拟合实测数据。第二节第二节 相关分析与线性回归相关分析与线性回归(1)根据自变量的个数,可分为一元回归与多元回归。一元回归:只有一个自变量,又称为简单回归。多元回归:含有两个或两个以上的自变量,又称为复回归。回归的回归的种类:种类:(2)根据回归的表现形式,可分为线性回归与非线性回归。线性回归:回归方程的因变量是自变量的一次函
29、数形式,回归线在直角坐标系下表现为一条直线。非线性回归:回归方程的因变量不是自变量的一次函数形式,回归线在直角坐标系下表现为曲线形状。非线性回归的方程可以是二次或二次以上函数、指数函数和对数函数等初等函数的形式。第二节第二节 相关分析与线性回归相关分析与线性回归一元线性回归ixx01,1 2niiiyxi 2N 0(,)()iix y(1,2,)in1122(,),(,),(,)nnx yxyxy12,nx xx01、nniyiyixiixxxyy第二节第二节 相关分析与线性回归相关分析与线性回归从我校学生中随机选取8名女大学生,其身高和体重数据见表3-9。编号编号12345678身高身高/c
30、m150152157160162165168170体重体重/kg4350485761545964表3-9 随机选取的8名女大学生身高与体重数据试求根据女大学生的身高预报体重的回归方程,并预报身高为172厘米的女大学生的体重。第二节第二节 相关分析与线性回归相关分析与线性回归由于问题中要求根据身高预报体重,因此选取身高为自变量 ,体重为因变量 ,设一元线性回归方程为:xy01 yx其中,分别是 的估计值当变量 取 时,可以得到 ,它与实际体重 之间的偏差是(如图3-13所示):若记则问题转化为:当 取什么值时使值 最小,即总体偏差小。也可以理解为确定回归直线,使得样本数据的点到它的距离的平方小。
31、这一方法叫做最小二乘法最小二乘法。01、01(1,2,8)iiyx i01()(1,2,8).iiiiyyyxi222112288()()().Qyyyyyy01、01、x(1,2,8)ix i iyQ第二节第二节 相关分析与线性回归相关分析与线性回归据最小二乘法的思想和数学推导,可得回归系数 在本例中,因此 于是,得到回归方程 据此可以预测,对于身高172厘米的女大学生,其体重的估计值为 显然,身高172厘米的女大学生的体重不一定是64.357千克,但一般可以认为她的体重接近于64.357千克,图3-13中的样本点和回归直线的相互位置说明了这一点。1112221101()()()nniiii
32、iinniiiixxyyx ynxyxxxnxyx88211160.5,54.5,70290,206446,iiiiixyx yx100.857,83.071 83.071 0.857yx 83.071 0.857 17264.357()y 千克第二节第二节 相关分析与线性回归相关分析与线性回归 图3-13 预报体重与实际体重之间的偏差第二节第二节 相关分析与线性回归相关分析与线性回归在实际应用中,通过回归方程得到的预报值与实测值之间会有误差,该误差的产生可归结为以下两个原因:()预报值与实测值之间会产生一个随机误差。()根据回归系数公式得到的估计值 与真实值 之间也存在误差。根据EXCEL求
33、解结果分析回归模型的有效性:单击“数据”中的“数据分析”选项,选中“回归”,按要求输入数据,选择求解参数(置信度定为95)回归系数回归系数估计值估计值置信区间置信区间83.0714161.3310,4.81180.85710.3699,1.3443r=0.8692,R2=0.7554,Significance F=0.005101、01、01第二节第二节 相关分析与线性回归相关分析与线性回归 表3-10显示,相关系数 ,说明身高与体重呈高度线性相关。表示身高变量对于体重变量变化的贡献率,越接近于,表示回归的效果越好。在例中,表明“女大学生的身高解释了75.54%的体重变化”,或者说“女大学生的
34、体重差异有64%是由身高引起的”。Significance F对应的是在显著性水平下的模型弃真概率,即模型为不可靠的概率 显然,Significance F的值越小越好,对于例,其值为0.0051,故置信度达到99.49%。表3-10不仅给出了回归系数的估计值,还给出了回归系数的置信度为95%的置信区间,即我们可以有95%的把握保证回归系数0.8692r 2R2R20.7554R 01 161.3310,4.8118,0.3699,1.3443 第二节第二节 相关分析相关分析与线性回归与线性回归 某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部根据市场调查,找出公
35、司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其他厂家生产的同类牙膏的市场平均销售价格,见表3-11。试根据这些数据,分析牙膏销售量与这些因素之间的关系,为制定价格策略和广告投入策略提供数量依据。多元线性回归多元线性回归:在线性回归分析中,如果有两个或两个以上的自变量。第二节第二节 相关分析相关分析与线性回归与线性回归销售周期公司销售价格其他厂家平均价格(元)广告费用(百万元)价格差(元)销售量(百万支)13.853.805.
36、50-0.057.3823.754.006.750.258.5133.704.307.250.609.5243.703.705.500.007.5053.603.857.000.259.3363.603.806.500.208.2873.603.756.750.158.7583.803.855.250.057.8793.803.655.25-0.157.10103.854.006.000.158.00113.904.106.500.207.89123.904.006.250.108.15133.704.107.000.409.10143.754.206.900.458.86153.754.10
37、6.800.358.90163.804.106.800.308.87173.704.207.100.509.26183.804.307.000.509.00193.704.106.800.408.75203.803.756.50-0.057.95213.803.756.25-0.057.65223.753.656.00-0.107.27233.703.906.500.208.00243.553.657.000.108.50253.604.106.800.508.75263.654.256.800.609.21273.703.656.50-0.058.27283.753.756.750.007.
38、67293.803.855.800.057.93303.704.256.800.559.26表3-11牙膏销售量与销售价格、广告费用等数据第二节第二节 相关分析相关分析与线性回归与线性回归问题分析问题分析:由于牙膏是生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌之间的价格差异,而不是它们的价格本身,因此,在研究各个因素对销售量的影响时,用价格差代替公司销售价格和其他厂家平均价格更为合适。解解:记牙膏销售量为 ,其他厂家平均价格与公司销售价格之差(价格差)为 ,公司投入的广告费用为 ,为了大致地分析 与 及 的关系,首先利用表3-11的数据分别作出 对 及 的散点图,如
39、图3-14和3-15所示。1x2xy1x2x1x2xyy第二节第二节 相关分析相关分析与线性回归与线性回归图3-13 销售量对价格散点图 图3-14 销售量对广告费用散点图 从图3-14及图3-15可以发现,随着 、的增加,的值有比较明显的线性增长趋势,可用线性回归模型1x2xy01 122yxx 来拟合销售量与广告费用及价格差二者之间的数量关系。第二节第二节 相关分析相关分析与线性回归与线性回归 借助Excel回归分析工具,得到回归分析结果如表3-12所示。回归系数回归系数估计值估计值置信区间置信区间4.84693.2986,6.39511.80611.1860,2.42610.48570.
40、2332,0.7382r=0.9316,R2=0.8678,Significance F=1.3710-12 根据表3-12的结果,得回归方程模型为124.8469 1.80610.4857yxx表3-12例10的Excel求解结果012第二节第二节 相关分析相关分析与与线性回归线性回归v v 相关系数 0.9316,说明牙膏销售量与价格差、广告费用呈高度线性相关。表明“价格差和广告费用两个因素解释了86.78的销售量的变化”。Significance F的值为 ,故置信度几乎达到100。回归系数的置信度为95的置信区间分别为121.37 100123.2986,6.3951,1.1860,2
41、.4261,0.2332,0.7382r20.8678R 第第三三节节 时间序列分析时间序列分析03第三节第三节时间序列分析时间序列分析时间序列时间序列反映客观现象的同一指标在不同时间上的数值按时间先后顺序排列而形成的序列。3.13.1 时间序列的概念时间序列的概念时间顺序时间顺序指标数值指标数值0t1t2t1ntntna1na2a1a0a表3-13 时间序列的一般形式第三第三节时间序列分析节时间序列分析年份(年)年份(年)国内生产国内生产总值(亿总值(亿元)元)第一产业增第一产业增加值比重加值比重(%)年末人口年末人口总数(万总数(万人)人)年均国内生产年均国内生产总值(元总值(元人)人)1
42、99558 478.120.51121 1214 584199667 884.620.39122 3895 576199774 462.619.09123 6266 054199878 345.218.57124 7616 308199982 067.517.63125 7866 551200089 468.116.35126 7437 086200197 314.815.84127 6277 6512002105 172.315.32128 4538 2142003117 390.214.42129 2279 1112004136 875.915.17129 98810 561表3-14 国
43、内生产总值及其部分构成统计表第三第三节时间序列分析节时间序列分析3.2 3.2 长期趋势的测定长期趋势的测定长期趋势是指客观现象在一段较长时期内,持续呈现为同一方向发展变化的趋势。季节变动:客观现象因受自然条件或社会经济季节因素的影响,在一年或更短的时间内,随时序变化而引起的有规律的周期性变动。影响时间序列的因素归纳起来有四类,即长期趋势、季节变动、循环波动和不规则变动。季节变动:客观现象因受自然条件或社会经济季节因素的影响,在一年或更短的时间内,随时序变化而引起的有规律的周期性变动。第三第三节时间序列分析节时间序列分析3.3 3.3 时间序列的趋势分析时间序列的趋势分析 测定长期趋势就是用一
44、定的方法对时间序列进行修匀,以消除序列中季节变动、循环波动和不规则变动等因素的影响,以显示出现象变动的基本趋势,作为预测的依据。第三第三节时间序列分析节时间序列分析简单平均法 设时间序列已有的 观测值为 则第 期的预测值 为12,nY YY1n1nF112111()nnniiFYYYYnn当有了第 期的实际值,便可计算出第 期的预测误差。1n1n111nnneYF第 期的预测值为2n12121111()11nnnniiFYYYYYnnn第三第三节时间序列分析节时间序列分析某商场2008-2014年的年销售额见表3-15,试用简单平均法预测2015年该商场的年销售额。表3-15 某商场2008-
45、2014年的年销售额年份年份2008200920102011201220132014销售额销售额(万元万元)989610510199110103解:解:根据简单平均法的计算公式,可得20151(9896 105 101 99 110 103)7F101.71()万元即预测2015年该商场的年销售额为101.71万元。第三第三节时间序列分析节时间序列分析移动平均法设移动间隔为 ,则第 期的移动平均值为1211n kn knnnn knnYYYYYYYYkk 当然,也可以用它来进行预测。第 期的简单移动平均预测值为1211n kn knnnnYYYYFYk k(1)knn1n第三节第三节 时间序列
46、分析时间序列分析移动步长为奇数时,移动平均数就是平均期中间一期的“修匀”值移动步长为偶数时,要进行二次平均(即移正平均)表3-16移动步长不同时平均数的计算第三节第三节 时间序列分析时间序列分析表3-17给出了一个移动平均计算实例,图3-16画出了移动平均的趋势线。年份年份(年年)销售收入销售收入三年移动平均三年移动平均四年移动平均四年移动平均四年移动平均修正四年移动平均修正198811989149.6719901417.3313.2516.2519912421.0019.2519.8819922522.6720.5019.7519931917.3319.0018.131994814.6717
47、.2516.0019951713.3314.7517.8819961525.3321.0025.0019974433.0029.0030.0019984036.3331.0030.2519992524.6729.5028.382000923.0027.2526.6320013526.3326.0029.7520023541.6733.5035.1320035537.3336.7538.3820042241.6740.00200548表表3-17 移动平均法计算实例 单位:万元第三第三节时间序列分析节时间序列分析指数平滑法指数平滑法1(1)nnnFYF 其中,是 和 的加权平均数,的取值决定 和
48、 对 的影响程度,当 时,;当 时,设 为第 期的实际观察值,为第 期的预测值,为平滑系数 ,则第 期的预测值为nYnnF(01)n1n1nFnYnFnYnF1nF11nnFY01nnFF第三第三节时间序列分析节时间序列分析图3-16移动平均趋势线第三第三节时间序列分析节时间序列分析解为了分析加权系数 的不同取值的特点,分别取 计算一次指数平滑。当 时,取 则 例2已知某种产品最近15个月的销售量见表3-18。试用一次指数平滑法预测下一个月的销售量。时间序列时间序列123456789101112131415销售量销售量10158201016182022242026272929表3-18某产品最
49、近15个月的销售量0.5=0.7=0.9、0.52110FY,322=0.50.50.5 150.5 1012.5FYF433=0.50.50.5 80.5 12.510.25FYF 依次计算,得表3-19。第三第三节时间序列分析节时间序列分析表3-19一次指数平滑值计算表根据表3-19,分别取 时,下一个月的销售量预测值为28.06、28.75、28.98。时间序列时间序列销售量销售量=0.5=0.7=0.9110.00 215.0010.0010.0010.0038.0012.5013.5014.50420.0010.259.658.65510.0015.1316.9018.87616.0
50、012.5612.0710.89718.0014.2814.8215.49820.0016.1417.0517.75922.0018.0719.1119.771024.0020.0421.1321.781120.0022.0223.1423.781226.0021.0120.9420.381327.0023.5024.4825.441429.0025.2526.2426.841529.0027.1328.1728.7816 28.0628.7528.980.5=0.7=0.9、第三第三节时间序列分析节时间序列分析趋势线预测法 趋势线预测法是采用适当的方程对时间序列予以描述,并据此计算各期趋势值