1、SPSS 19(中文版)统计分析实用教程 电子工业出版社1第十章主成分分析和因子分析SPSS 19(中文版)统计分析实用教程 电子工业出版社2主要内容主要内容10.1 主成分分析和因子分析简介主成分分析和因子分析简介10.2 主成分分析主成分分析10.3 因子分析因子分析SPSS 19(中文版)统计分析实用教程 电子工业出版社310.1主成分分析和因子分析简介主成分分析和因子分析简介10.1.1 基本概念和主要用途基本概念和主要用途(1 1) 基本概念基本概念 主成分分析就是考虑各指标之间的相互关系,利用降维的方法将多个指标转换为少数几个互不相关的指标,从而使进一步研究变得简单的一种统计方法。
2、主成分分析是由Hotelling于1933年首先提出的,是利用“降维”的思想,在损失很少信息的前提下把多个指标转化为几个综合指标,称为主成分。每个主成分均是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。 因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的分析方法,最早是由心理学家Chales Spearman在1904年提出的,它的基本思想是将实测的多个指标,用少数几个潜在指标(因子)的线性组合表示。SPSS 19(中文版)统计分析实用教程 电子工业出版社410.1主成分分析和因子分析简介主成分分析和因子分析简介(2 2)主要用途)
3、主要用途解决共线性问题; 评估问卷的结构效度;寻找变量之间的潜在结构; 内在结构证实。(3 3)常用术语)常用术语因子载荷变量共同度公共因子的方差贡献SPSS 19(中文版)统计分析实用教程 电子工业出版社510.1主成分分析和因子分析简介主成分分析和因子分析简介3 3 常用术语常用术语(1)因子载荷(2)变量共同度(3)公共因子的方差贡献 SPSS 19(中文版)统计分析实用教程 电子工业出版社610.1主成分分析和因子分析简介主成分分析和因子分析简介10.1.2主成分和公因子数量的确定主成分和公因子数量的确定(1 1) 确定时遵循几个原则确定时遵循几个原则主成分的累积贡献率:主成分的累积贡
4、献率:一般来说,提取主成分的累积贡献率达到80%85%以上就比较满意了,可以由此确定需要提取多少个主成分。 特征值:特征值:特征值在某种程度上可以看成表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的解释力度还不如直接引入原变量的平均解释力度大。因此一般可以用特征值大于1作为纳入标准。 综合判断:综合判断:大量的实际情况表明,如果根据累积贡献率来确定主成分数往往较多,而用特征值来确定又往往较少,很多时候应当将两者结合起来,以综合确定合适的数量。SPSS 19(中文版)统计分析实用教程 电子工业出版社710.1主成分分析和因子分析简介主成分分析和因子分析简介10.1.3 两者两者的区
5、别与联系的区别与联系(1)两者都是在多个原始变量中通过它们之间的内部相关性来获得新的变量(主成分变量或因子变量),达到既能减少分析指标个数,又能概括原始指标主要信息的目的。 (2)提取公因子主要有主成分分析法和公因子法,若采用主成分法,则主成分分析和因子分析基本等价。(3)因子分析提取的公因子比主成分分析提取的主成分更具有解释性。 (4)两者分析的实质和重点不同。 (5)两者的SPSS操作都是通过“分析降维因子分析”过程实现的,主成分分析不需要因子旋转,而因子分析需要经过旋转。SPSS 19(中文版)统计分析实用教程 电子工业出版社8主要内容主要内容10.1 主成分分析和因子分析简介主成分分析
6、和因子分析简介10.2 主成分分析主成分分析10.3 因子分析因子分析SPSS 19(中文版)统计分析实用教程 电子工业出版社910.2 主成分分析主成分分析10.2.1 统计原理与分析步骤统计原理与分析步骤(1)(1)统计原理统计原理 SPSS 19(中文版)统计分析实用教程 电子工业出版社1010.2 主成分分析主成分分析(1)(1)统计原理统计原理 111 11221221 122221 122mmmmppppmmye xe xe xye xe xexye xexexSPSS 19(中文版)统计分析实用教程 电子工业出版社1110.2 主成分分析主成分分析10.2.1 统计原理与分析步骤
7、统计原理与分析步骤(2 2)分析步骤)分析步骤 第1步 原始数据的标准化处理。 第2步 计算相关系数矩阵。第3步 计算特征值及单位特征向量。第4步 计算主成分的方差贡献率和累积方差贡献率。第5步 计算主成分。 SPSS 19(中文版)统计分析实用教程 电子工业出版社1210.2 主成分分析主成分分析10.2.2 SPSS实例分析实例分析【例10-1】 为了从总体上反映世界经济全球化的状况,现选择了具有代表性的16个国家的数据,这些国家参与经济全球化的程度指标值如下表所示。试分析一个国家参与经济全球化的程度主要受哪些因素的影响。编号国家x1x2x3x4x5x6x7x8x9x10 x11x12x1
8、3x14x151中国3.20554.528.530.8781.4090.89411.62.3050.5472.9324.8189.0032.73.9141.4722印度1.44931.10.2790.3390.2720.12.70.1280.1930.8252.3185.1270.640.2183日本14.07952.30.65310.25411.7691.09701.9671.36.17814.74627.29730.957.73415.1254韩国1.318136.31.0111.60.421.8381.30.770.782.26723.3242.8759.112.1290.4525新加坡
9、0.275739.53.57227.8410.88413.31428.60.6220.1431.885169.772 319.90754.2917.3280.7186美国29.64146.13.6826.42920.5634.8085.424.25329.94115.63810.78424.55513.624.49521.2747加拿大2.056101.50.8988.2762.3135.36910.52.4445.1453.85434.69167.04715.121.831.3628巴西2.43427.11.5842.3270.9622.9056.81.9532.30.8574.71610.
10、1016.75.4981.1049墨西哥1.567151.41.6572.8370.7971.47110.90.670.2122.18618.48537.9864.54.8870.46810英国4.67118.40.49726.15112.45622.13711.216.55219.6425.54228.43458.766.1278.96811.28911法国4.639120.61.849.2424.49210.8488.58.2825.8415.2128.4654.05229.256.4538.88912德国6.84132.92.2529.5586.6467.7472.28.5898.971
11、8.84332.12163.1743651.51412.1813意大利3.792104.50.3218.1533.7241.0592.50.771.9134.03222.86943.9242717.7765.67814俄罗斯1.358.61.5331.4990.5520.4992.50.310.2980.9877.7712.5811.12.0010.46915澳大利亚1.30994.50.5025.7730.9411.98718.90.5271.3711.13115.74533.79513.224.1170.797SPSS 19(中文版)统计分析实用教程 电子工业出版社1310.2 主成分分析
12、主成分分析第第1步步 分析:分析:从数据来看,一共有15个因素,但有些因素是存在相关性的,同时各因素对全球化影响的程度也是不一样的,故可采用主成分分析。 第第2步步 数据组织:数据组织:按如教材所示的“指标”一列定义变量,输入数据并保存。第第3步步 主成分分析的设置:主成分分析的设置:按“分析降维因子分析”顺序打开“因子分析”对话框,将x1x15这15个变量移入“变量”对话框中,并按如下所示的图形进行设置。 SPSS 19(中文版)统计分析实用教程 电子工业出版社1410.2 主成分分析主成分分析SPSS 19(中文版)统计分析实用教程 电子工业出版社1510.2 主成分分析主成分分析 由于在
13、SPSS中并没有完整的主成分分析过程,其主成分分析过程是集成在“因子分析”过程中的,但并不完善。由于主成分的得分需要对因子得分情况进行进一步计算,故不需设置“得分”子对话框,即不需保存因子得分情况,即使保存了,因子得分也不是各主成分得分的结果。 对于提取因子的个数问题,一般遵循两个标准,其一是累计方差贡献率在80%以上,其二是其特征值大于1。本例之所以设置为3,是因为通过预先分析,发现前3个主成分可以解释总体信息的86.7%。 SPSS 19(中文版)统计分析实用教程 电子工业出版社1610.2 主成分分析主成分分析第四步第四步 因子分析的结果:因子分析的结果:特征值和方差贡献表成分初始特征值
14、提取平方和载入合计方差的%累积%合计方差的%累积%16.04940.32540.3256.04940.32540.32525.81338.75579.0805.81338.75579.08031.1427.61686.6961.1427.61686.6964.8765.84292.5385.5993.99696.5346.3262.17498.7097.119.79699.5058.041.27299.7769.018.12199.89710.010.06399.96111.004.02799.98812.001.00999.99713.000.00299.99914.000.001100.0
15、00154.080E-72.720E-6100.000提取方法:主成分分析。从表中可以看出前3个主成分已经解释了总方差的近86.7%,故可以选择前3个主成分进行分析。 SPSS 19(中文版)统计分析实用教程 电子工业出版社1710.2 主成分分析主成分分析第四步第四步 因子分析的结果:因子分析的结果:主成分的碎石图 该图从另一个侧面说明了取前三个主成分为宜。SPSS 19(中文版)统计分析实用教程 电子工业出版社1810.2 主成分分析主成分分析第四步第四步 因子分析的结果:因子分析的结果:旋转前的因子载荷矩阵 成分123x1.407.805.268x2.596-.727.209x3-.14
16、7.016.821x4.895-.333-.181x5.614.763.028x6.826-.124-.281x7.273-.627.184x8.636.703.041x9.619.703.008x10.552.766.196x11.654-.691.172x12.666-.685.166x13.863-.191-.297x14.728-.632.144x15.579.760.005提取方法 :主成分。a. 已提取了 3 个成分。教材中公式10.7中的 是标准化正交向量,并不是SPSS输出“因子载荷矩阵”中的系数。而“因子载荷矩阵”中各分量的系数为单位特征向量乘以相应的特征值的平方根的结果,其
17、公式为 。故需进一步利用因子分析的结果进行主成分分析。12(,)iiipieeee /ijijieaSPSS 19(中文版)统计分析实用教程 电子工业出版社1910.2 主成分分析主成分分析第五步第五步 利用因子分析的结果进行主成分分析。利用因子分析的结果进行主成分分析。SPSS 19(中文版)统计分析实用教程 电子工业出版社2010.2 主成分分析主成分分析第六步第六步 主要结果:主要结果:y综编号国家y1y2y31中国-2.190.073.01-0.632印度-2.56-0.11-0.46-1.113日本0.451.85-0.270.884韩国-1.69-0.46-0.27-0.885新加
18、坡5.28-6.261.19-0.206美国3.306.071.463.807加拿大-0.43-0.47-0.31-0.388巴西-1.91-0.06-0.43-0.839墨西哥-1.68-0.680.03-0.9410英国4.460.98-1.752.0511法国0.870.46-0.520.4912德国1.401.34-0.261.0613意大利-0.610.10-0.54-0.2514俄罗斯-2.35-0.20-0.30-1.0515澳大利亚-1.36-0.92-0.30-0.9316新西兰-0.99-1.73-0.28-1.09过综合得分的高低可知各国参与国际化水平的高低,其中美国最高
19、,印度最低。SPSS 19(中文版)统计分析实用教程 电子工业出版社21主要内容主要内容10.1 主成分分析和因子分析简介主成分分析和因子分析简介10.2 主成分分析主成分分析10.3 因子分析因子分析SPSS 19(中文版)统计分析实用教程 电子工业出版社2210.3 因子分析因子分析10.3.1 统计原理与分析步骤统计原理与分析步骤(1)统计原理)统计原理111 11221221 122221 122mmmmppppmmxa Fa Fa Fxa Fa FaFxa FaFaFXAFa其中x1,x2, ,xp为p个原有变量,是均值为零,标准差为1的标准化变量,F1,F2,Fm为m个因子变量,m
20、小于p,表示成矩阵形式为:SPSS 19(中文版)统计分析实用教程 电子工业出版社2310.3 因子分析因子分析10.3.1 统计原理与分析步骤统计原理与分析步骤(2)分析步骤)分析步骤第1步 将原始数据进行标准化;第2步 确定待分析的原有若干变量是否适合于因子分析;第3步 构造因子变量;第4步 利用旋转使得因子变量更具有可解释性;第5步 计算因子变量的得分。计算因子得分和模型为:11jjjppFXXj=1,2,m SPSS 19(中文版)统计分析实用教程 电子工业出版社2410.3 因子分析因子分析10.3.2 SPSS实例分析实例分析【例10-2】 为了研究几个省市的科技创新力问题,现取了
21、2005年8个省市的15个科技指标数据,试分析一个省的科技创新能力主要受哪些潜在因素的影响?省市x1x2x3x4x5x6x7x8x9x10 x11x12x13x14x15北京 229 80.2648.524.49 3.55 5.55 10.23 44774.45 25.0224.1 779.24 226.01 34.42 3183.29 2.12天冿8767.48 36.82 14.08 2.62 1.964.49 35451.77 33.59 21.38 410.34 73.15 25.06 495.78 1.82辽宁4465.69 35.948.342.32 1.562.4518974.2
22、 11.295.57 263.35 22.32 15.21 204.98 1.78上海 104 74.06 35.98 17.84 4.78 2.284.851485.83 39.72 19.08 654.31 112.32 15.85 1303.322江苏5060.79 34.076.82.13 1.473.17 24489.18 43.13 17.99 206.6816.69.14134.89 1.41浙江5363.48 31.085.423.95 1.221.83 27435.38 7.947.63 257.65 22.665.8279.011.72山东3064.59 33.224.44
23、1.81 1.051.59 20022.57 9.175.69 117.739.768.41106.36 1.34广东3569.64 37.275.813.66 1.092.18 24327.32 35.67 24.99 117.5120.45.08122.33 1.47SPSS 19(中文版)统计分析实用教程 电子工业出版社2510.3 因子分析因子分析第第1步步 分析:分析:如题所述,要分析一个省的科技创新能力受哪些潜在因素的影响,可用因子分析法进行分析。第第2步步 数据组织:数据组织:建立x1x15共15个数据变量和一个“省市”字符型变量,将北京、天津等8个省市作为个案数据输入并保存。第
24、第3步步 因子分析设置:因子分析设置:按“分析降维因子分析”打开“因子分析”对话框,将x1x15这15个变量移入“变量”对话框中,表示对这15个变量数据进行因子分析。SPSS 19(中文版)统计分析实用教程 电子工业出版社2610.3 因子分析因子分析“得分”对话框的设置:单击“得分(S)”按钮,弹出此子对话框,选择“保存为变量”,即将因子得分保存下来。第第4步主要结果及分析:步主要结果及分析:特征值与方差贡献表可以看出前3个特征值大于1,同时这3个公共因子的方差贡献率占了93.924%,说明提取这3个公共因子可以解释原变量的绝大部分信息。SPSS 19(中文版)统计分析实用教程 电子工业出版
25、社2710.3 因子分析因子分析旋转前的因子载荷矩阵 表的底部表明使用的是主成分分析法,3个主成分被抽取出来。成分123x1.973-.158.052x2.919.036-.090 x3.883-.161.334x4.985-.004-.022x5.482.497-.664x6.947-.242.131x7.972-.108.178x8.849.340-.301x9.300.834.386x10.611.637.399x11.955-.001-.211x12.992-.091-.001x13.876-.282.205x14.968-.156.032x15.859-.092-.385提取方法 :
26、主成分。a. 已提取了3个成分。SPSS 19(中文版)统计分析实用教程 电子工业出版社2810.3 因子分析因子分析旋转后的因子载荷矩阵 是按照前面设定的“方差极大法”对因子载荷矩阵旋转的结果。在表10.10所示未经旋转的载荷矩阵中,因子变量在许多变量上均有较高的载荷,从旋转后的因子载荷矩阵可以看出,因子1在1、3、4、6、7、12、13、14上有较大载荷 ,反映科技投入与产出情况,可以命名为创新水平因子;因子2在指标5、8、15上有较大载荷,反映地区经济发展及财政科教投入水平,可以命名为创新环境因子;因子3在指标9和指标10上有较大载荷,可以命名为高技术产业发展因子。成分123x1.936
27、.286.130 x2.776.459.202x3.924.016.251x4.867.413.221x5.068.940.180 x6.966.177.095x7.944.202.235x8.541.726.327x9.018.137.956x10.377.172.876x11.794.558.118x12.913.365.161x13.937.071.084x14.926.301.119x15.705.626-.069提取方法:主成分。旋转法:具有Kaiser标准化的正交旋转法。a. 旋转在 5 次迭代后收敛。SPSS 19(中文版)统计分析实用教程 电子工业出版社2910.3 因子分析因
28、子分析因子转换矩阵表 表明因子提取的方法是主成分分析,旋转的方法是方差极大法。成分1231.884.403.2392-.405.400.8223.236-.823.517提取方法:主成分。旋转法:具有Kaiser标准化的正交旋转法。因子得分及综合因子得分情况 省市F1F2F3F综合排序山东-0.344-1.001-0.945-0.5368浙江-0.7910.905-1.223-0.4737江苏-0.488-1.0241.073-0.3426广东-0.791-0.1041.202-0.3275辽宁-0.002-0.500-1.206-0.2694天冿0.248-0.2750.5720.1773上
29、海-0.1361.9470.4810.3662北京2.3050.0530.0451.40611230.60280.195070.14137FFFFSPSS 19(中文版)统计分析实用教程 电子工业出版社30The EndSPSS 19(中文版)统计分析实用教程 电子工业出版社31第十一章时间序列分析SPSS 19(中文版)统计分析实用教程 电子工业出版社32主要内容主要内容11.1 时间序列的建立和平稳化时间序列的建立和平稳化11.2 指数平滑法指数平滑法11.3 ARIMA模型模型11.4 时序序列的季节性分解时序序列的季节性分解SPSS 19(中文版)统计分析实用教程 电子工业出版社331
30、1.1 时间序列的建立和平稳化时间序列的建立和平稳化11.1.1 填补缺失值填补缺失值 时间序列分析中的缺失值不能采用通常删除的办法来解决,因为这样会导致原有时间序列周期性的破坏,而无法得到正确的分析结果。 按“转换替换缺失值”打开“替换缺失值”对话框缺失值替换示例SPSS 19(中文版)统计分析实用教程 电子工业出版社3411.1 时间序列的建立和平稳化时间序列的建立和平稳化11.1.2 定义日期变量定义日期变量 定义日期模块可以产生周期性的时间序列日期变量。使用“定义日期”对话框定义日期变量,需要在数据窗口读入一个按某种时间顺序排列的数据文件,数据文件中的变量名不能与系统默认的时间变量名重
31、复,否则系统建立的日期变量会覆盖同名变量。系统默认的变量名有:年份,年份、季度,年份、月份,年份、季度、月份,日,星期、日,日、小时等。 按“数据定义日期”顺序打开“定义日期”对话框 定义日期变量示例SPSS 19(中文版)统计分析实用教程 电子工业出版社3511.1 时间序列的建立和平稳化时间序列的建立和平稳化11.1.3 创建时间序列创建时间序列 时间序列分析建立在序列平稳的条件上,判断序列是否平稳可以看它的均数方差是否不再随时间的变化而变化,自相关系数是否只与时间间隔有关而与所处时间无关。在时间序列分析中,为检验时间序列的平稳性,经常要用一阶差分、二阶差分,有时为选择一个合适的时间序列模
32、型还要对原时间序列数据进行对数转换或平方转换等。这就需要在已经建立的时间序列数据文件中,再建立一个新的时间序列变量。 按“转换创建时间序列”顺序打开“创建时间序列”对话框创建时间序列示例SPSS 19(中文版)统计分析实用教程 电子工业出版社3611.1 时间序列的建立和平稳化时间序列的建立和平稳化11.1.3 创建时间序列创建时间序列 时序图举例,按“分析预测序列图”顺序打开“序列图”对话框 时序图示例SPSS 19(中文版)统计分析实用教程 电子工业出版社37主要内容主要内容11.1 时间序列的建立和平稳化时间序列的建立和平稳化11.2 指数平滑法指数平滑法11.3 ARIMA模型模型11
33、.4 时序序列的季节性分解时序序列的季节性分解SPSS 19(中文版)统计分析实用教程 电子工业出版社3811.2 指数平滑法指数平滑法11.2.1 基本概念及统计原理基本概念及统计原理(1)基本概念)基本概念 指数平滑法的思想来源于对移动平均预测法的改进。指数平滑法的思想是以无穷大为宽度,各历史值的权重随时间的推移呈指数衰减,这样就解决了移动平均的两个难题。(2)统计原理)统计原理 0100(1)jtjjjttjjjjzzz-SPSS 19(中文版)统计分析实用教程 电子工业出版社3911.2 指数平滑法指数平滑法11.2.1 基本概念及统计原理基本概念及统计原理(2)统计原理)统计原理 简
34、单模型211121(1)(1)(1)Nttttt Nzzzzz-Holt线性趋势模型 1111(1)(), , 01ttttzzzbzz-111()(1) 0, 01ttttbzzbb-,t mttzzbmSPSS 19(中文版)统计分析实用教程 电子工业出版社4011.2 指数平滑法指数平滑法11.2.2 SPSS实例分析实例分析【例11-4】 为了研究上海市的人口情况,某研究小组提取了19782004年上海市的人口数据,其中有3个统计指标,即x1:年末人口数(万人),x2:非农业人口数(万人),x3:人口密度(人/平方千米),具体数据如下表所示。试用指数平滑法对上海市的“年末人口数”进行预
35、测分析。年份x1x2x3年份x1x2x319781098.28645.23177619921289.37875.55203419791132.14687.38183019931294.74893.46204219801146.52702.43185419941298.81910.49204819811162.84715.08188019951301.37921.7205219821180.51731.31190819961304.43932.14205719831194.01745.86193019971305.46943.03205919841204.78760.75194819981306
36、.58953.65206119851216.69776.37196719991313.12969.63207119861232.33802.56194420001321.63986.16208419871249.51822.31197120011327.14999.07209319881262.42838.93199120021334.231018.81210419891276.45855.84201320031341.771041.39211619901283.35864.46202420041352.391097.62133SPSS 19(中文版)统计分析实用教程 电子工业出版社4111.
37、2 指数平滑法指数平滑法第第1步步 数据组织:数据组织:将数据组织成4列,一列是“年份”,另外3列是3个人口数据的变量,输入数据并保存。第第2步步 分析:分析:看用指数平滑法处理是否恰当。按11.1.3节所述创建年末人口数的时序图,如下图所示。从此图可以看出,年末人口数呈逐年增加趋势,开始增长较快,然后变慢,近似线性趋势,也可以说呈衰减的线性趋势,或者用指数趋势描述更准确。所以选用指数平滑法进行处理。SPSS 19(中文版)统计分析实用教程 电子工业出版社4211.2 指数平滑法指数平滑法第第3步步 定义日期变量:定义日期变量:按11.1.2节所述将“年份”定义为日期变量。第第4步步 指数平滑
38、法设置:指数平滑法设置:按“分析预测创建模型”顺序打开“时间序列建模器”对话框。具体设置如几下几张图所示:SPSS 19(中文版)统计分析实用教程 电子工业出版社4311.2 指数平滑法指数平滑法SPSS 19(中文版)统计分析实用教程 电子工业出版社4411.2 指数平滑法指数平滑法第第5步步 主要结果及分析:主要结果及分析:模型的描述表模型类型模型 ID年末人口数模型_1Holt表示对“年末人口数”变量进行指数平滑法处理,使用的是“Holt”模型。模型的拟合情况表 拟合统计量均值SE最小值最大值百分位5102550759095平稳的R方-.005.-.005-.005-.005-.005-
39、.005-.005-.005-.005-.005R方.995.995.995.995.995.995.995.995.995.995RMSE4.811.4.8114.8114.8114.8114.8114.8114.8114.8114.811MAPE.243.243.243.243.243.243.243.243.243.243MaxAPE1.632.1.6321.6321.6321.6321.6321.6321.6321.6321.632MAE3.001.3.0013.0013.0013.0013.0013.0013.0013.0013.001MaxAE18.707.18.70718.707
40、18.70718.70718.70718.70718.70718.70718.707正态化的BIC3.386.3.3863.3863.3863.3863.3863.3863.3863.3863.386包含了8个拟合情况度量指标,其中“平稳的R方”值为0.005,“R方”值为0.995,并给出了每个度量模型的百分位数。SPSS 19(中文版)统计分析实用教程 电子工业出版社4511.2 指数平滑法指数平滑法模型统计量表从中可以看出模型的决定系数为0.995,说明拟合模型可以解释原序列99.5%的信息量,正态化的BIC值也比较小,说明模型的拟合效果是很好的,另外还给出了拟合统计量及Ljung-Bo
41、x统计情况。此外,所有数据中没有离群值(孤立点)。指数平滑法拟合的模型参数表模型预测变量数模型拟合统计量Ljung-Box Q(18)离群值数R方正态化的 BIC统计量DFSig.年末人口数-模型_10.9953.3865.87116.9890模型估计SEtSig.年末人口数-模型_1无转换 Alpha(水平)1.000.1576.351.000Gamma(趋势).799.3002.659.013SPSS 19(中文版)统计分析实用教程 电子工业出版社4611.2 指数平滑法指数平滑法预测表表中给出了20052009年“年末人口”变量的预测值、上区间和下区间值。模型20052006200720
42、082009年末人口数-模型_1预测1362.361372.341382.311392.281402.26UCL1372.271392.731415.151439.301465.02LCL1352.451351.941349.471345.261339.49对于每个模型,预测都在请求的预测时间段范围内的最后一个非缺失值之后开始,在所有预测值的非缺失值都可用的最后一个时间段或请求预测时间段的结束日期(以较早者为准)结束。观测值与预测值的时序图SPSS 19(中文版)统计分析实用教程 电子工业出版社4711.2 指数平滑法指数平滑法数据文件中保存情况SPSS 19(中文版)统计分析实用教程 电子工
43、业出版社48主要内容主要内容11.1 时间序列的建立和平稳化时间序列的建立和平稳化11.2 指数平滑法指数平滑法11.3 ARIMA模型模型11.4 时序序列的季节性分解时序序列的季节性分解SPSS 19(中文版)统计分析实用教程 电子工业出版社4911.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概念及统计原理(1)基本概念)基本概念 在预测中,对于平稳的时间序列,可用自回归移动平均(AutoRegres- sive Moving Average, ARMA)模型及特殊情况的自回归(AutoRegressive, AR)模型、移动平均(Moving Average, MA)模型
44、等来拟合,预测该时间序列的未来值,但在实际的经济预测中,随机数据序列往往都是非平稳的,此时就需要对该随机数据序列进行差分运算,进而得到ARMA模型的推广ARIMA模型。 ARIMA模型全称综合自回归移动平均(AutoRegressive Integrated Moving Average)模型,简记为ARIMA(p, d, q)模型,其中AR是自回归,p为自回归阶数;MA为移动平均,q为移动平均阶数;d为时间序列成为平稳时间序列时所做的差分次数。ARIMA(p, d, q)模型的实质就是差分运算与ARMA(p, q)模型的组合,即ARMA(p, q)模型经d次差分后,便为ARIMA(p, d,
45、 q)。 SPSS 19(中文版)统计分析实用教程 电子工业出版社5011.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概念及统计原理(2)统计原理)统计原理 ARMA过程 11221122tttptptttqt qxxxxaaaa-1122ttttqt qxaaaa-1122tttptptxxxxa-212( )1ppBBBB -212( )1qqBBBB -则ARMA(p, q)模型简记为( )( )ttB xB a1( ) ( )ttxBB a-或 SPSS 19(中文版)统计分析实用教程 电子工业出版社5111.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概
46、念及统计原理(2)统计原理)统计原理 ARMA模型的识别 设ACF代表xt的自相关函数,PACF代表xt的偏自相关函数。根据Box-Jenkins提出的方法,用样本的自相关函数(ACF)和偏自相关函数(PACF)的截尾性来初步识别ARMA模型的阶数。具体如下表所示。 模 型自相关函数(ACF)偏自相关函数(PACF)AR(p)拖尾p阶截尾MA(q)q阶截尾拖尾ARMA(p, q)拖尾拖尾SPSS 19(中文版)统计分析实用教程 电子工业出版社5211.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概念及统计原理 所谓拖尾是自相关系数或偏相关系数逐步趋向于0,这个趋向过程有不同的表现
47、形式,有几何型的衰减,有正弦波式的衰减;而所谓截尾是指从某阶后自相关或偏相关系数为0。SPSS 19(中文版)统计分析实用教程 电子工业出版社5311.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概念及统计原理(2)统计原理)统计原理 非平稳时间序列ARIMA过程 SPSS 19(中文版)统计分析实用教程 电子工业出版社5411.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概念及统计原理(2)统计原理)统计原理 季节ARIMA模型 时间序列常呈周期性变化,或称为季节性趋势。用变通的ARIMA模型处理这种季节性趋势会导致参数过多,模型复杂。季节性乘积模型可以得到参数简
48、约的模型。季节性乘积模型表示为ARIMA(p, d, q, sp, sd, sq)(或ARIMA(p, d, q) (sp, sd, sq)k)。其中,sp表示季节模型的自回归系数;sd表示季节差分的阶数,通常为一阶季节差分;sq表示季节模型的移动平均参数。如是月度资料,要描述年度特征,则sd = 12;如是日志资料,要描述每周特征,则sd = 7。SPSS 19(中文版)统计分析实用教程 电子工业出版社5511.3 ARIMA模型模型11.3.1 基本概念及统计原理基本概念及统计原理(3)ARIMA建模步骤建模步骤 ARIMA建模实际上包括3个阶段,即模型识别阶段、参数估计和检验阶段、预测应
49、用阶段。其中前两个阶段可能需要反复进行。 ARIMA模型的识别就是判断p,d,q,sp,sd,sq的阶,主要依靠自相关函数(ACF)和偏自相关函数(PACF)图来初步判断和估计。一个识别良好的模型应该有两个要素:一是模型的残差为白噪声序列,需要通过残差白噪声检验,二是模型参数的简约性和拟合优度指标的优良性(如对数似然值较大,AIC和BIC较小)方面取得平衡,还有一点需要注意的是,模型的形式应该易于理解。SPSS 19(中文版)统计分析实用教程 电子工业出版社5611.3 ARIMA模型模型11.3.2 SPSS实例分析实例分析【例11-5】表是某加油站55天的燃油剩余数据,其中正值表示燃油有剩
50、余,负值表示燃油不足,要求对此序列拟合时间序列模型并进行分析。天12345678910111213141516171819燃油数据 92-858012103-1-20-90 100 -40-22078-98-97565天20212223242526272829303132333435363738燃油数据 80-20 -8501150 -100 135 -70 -60 -5030-103-65108-10 10天3940414243444546474849505152535455燃油数据 -2590-30 -32 1520159015-10-88025 -12070-10SPSS 19(中文版)