SPSS在数据挖掘中的应用课件.ppt_163文库

资源描述

1、第第16章章 SPSS在数据挖掘中的应用在数据挖掘中的应用16.1 实实例提出：168信息点播业务业务数据16-1.sav是某月陕西主要地区各类业务的流量数据，数据16-2.sav是该月每天各类业务的流量数据。请利用这些资料分析以下问题：问题一：请分析在168信息点播服务方面陕西各地区（西安、宝鸡、咸阳等）总流量的差别。问题二：请指出该月点播业务最好三项栏目，并分析它们之间的流量有无显著性差异。问题三：请预测该月点播业务最好栏目的长期发展趋势。 16.2 实实例的SPSS软软件操作详详解问题一操作详解问题一要求分析在168信息点播服务方面陕西各地区（西安、宝鸡、咸阳等）总流量的差别。

2、由于各地区在股票点播、指数点播等业务上的流量数据差异较大，并没有统一的大小顺序关系，因此可以采用聚类分析研究陕西各地区的总流量差异。问题一操作详解问题一操作详解 Step01：打开数据文件及对话框打开数据文件16-1sav，选择菜单栏中的【Analyze(分析)】【Classify(分类)】【Hierarchical Cluster(系统聚类)】命令，弹出【Hierarchical Cluster Cluster Analysis(系统聚类分析)】对话框。Step02：选择聚类分析变量在左侧的候选变量列表框中选择西安、宝鸡、榆林等十个地区变量设定为聚类分析变量，将其添加至【Variabl

3、es(变量)】列表框中。同时点选【Variable(变量)】单选钮，表示选择聚类对象为指标变量。Step03：输出聚类数目在主对话框中单击【Statistics】按钮，弹出相应对话框。点选【Single solution(单一方案)】单选钮，并在【Number of clusters(聚类数)】文本框中键入数字“3”表示利用聚类分析将十个地区分为三类。其他选项保持系统默认，单击【Continue】按钮返回主对话框。问题一操作详解问题一操作详解 Step04：输出聚类图在主对话框中单击【Plots】按钮，弹出【Plots(绘制)】对话框。勾选【Dendrogram(树状图)】复选框，表示输出

4、样品的聚类树形图。其他选项保持系统默认，单击【Continue】按钮返回主对话框。Step05：聚类方法选择在主对话框中单击【Method】按钮，弹出【Method(方法)】对话框。在【Transform Values(转换值)】选项组的【Standardize】下拉菜单中选择【Z scores(Z得分)】标准化方法。其他选项保持系统默认，单击【Continue按】钮返回主对话框。Step06：单击【OK】按钮，完成操作。问题一操作详解问题一操作详解问题二操作详解问题二操作详解 Step01：计算各项业务的日平均流量打开数据文件16-2.sav，选择菜单栏中的【Analyze(分析)】

5、【Compare Means(比较均值)】【Means(均值)】命令，弹出【Means(均值)】对话框。在左侧的候选变量列表框中选择“股票点播”、“指数点播”等业务。其他选项保持系统默认，单击【OK】按钮完成操作。接着根据输出的业务流量统计数据表16-2.sav，可以确定日平均流量最大的三项业务“股票点播”、“每日运程”和“劲爆笑话”为点播业务最大的业务。问题二操作详解问题二操作详解问题二操作详解问题二操作详解 Step02：业务流量的差异性研究选择菜单栏中的【Analyze(分析)】【Nonparametric Tests（非参数检验）】【Legacy Dialogs(旧对话框)】【

6、K Related Samples(K个相关样本)】命令，弹出【Tests for Sevearl Related Samples(多个关联样本检验)】对话框。在候选变量列表框中同时选择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检验变量，将其同时添加至【Test Variable(s)(检验变量)】列表框中。在【Test Type(检验类型)】选项组中勾选【Friedman】复选框作为配对样本检验的方法。最后单击主对话框中的【OK】按钮，完成操作。问题二操作详解问题二操作详解问题三操作详解问题三操作详解1. Step01：绘制序列图打开数据文件16-2.sav，选择菜单栏中的【A

7、nalyze(分析)】【Forecasting(预测)】【Sequence Charts(序列图)】命令，弹出【Sequence Charts(序列图)】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【Variables(变量)】列表框。其他选项保持系统默认，单击【OK】按钮完成操作。根据序列图，观测到股票点播数据虽然平稳，但具有明显的周期性波动特征，因此可以利用ARMA模型来描述点播数据的波动性。问题三操作详解问题三操作详解问题三操作详解问题三操作详解 Step02：时间序列ARMA模型选择菜单栏中的【Analyze(分析)】【Forecasting(预测)】【Creat

8、e Models(创建模型)】命令，弹出【Time Series Modeler(时间序列建模器)】对话框。在左侧的候选变量列表框中选择“股票点播”进入右侧的【Dependent Variables(因变量)】列表框，表示对其进行ARMA模型分析。选择【Method(方法)】下拉菜单中的【ARIMA】选项，表示进行ARMA模型估计。接着单击【Criteria(条件)】按钮，弹出ARIMA模型阶数设定窗口。观察序列图发现点播数据以7天为周期进行波动，反复进行ARMA模型滞后阶数的尝试后，最终选择AR(7)模型来描述股票点播流量的波动性。于是在【Time Series Modeler(时间序列建

9、模器)】窗口【Autogressive(p)(自回归(p)】选项组的【Nonseasonal(非季节性)】文本框中填入数字“7”。在【Transformation(转换)】选项组中点选【Natural log(自然对数)】单选钮，再单击【Continue】按钮，返回主对话框。问题三操作详解问题三操作详解问题三操作详解问题三操作详解问题三操作详解问题三操作详解单击【Statistics】按钮，勾选其中的【Parameter estimates(参数估计)】复选框，表示输出模型参数估计结果和模型预测值；同时取消勾选【Goodness of fit(拟合优度)】复选框，其他选项保持系统默认。单击【

10、Plots】选项，勾选其中的【Residual autocorrelation function(ACF)(残差自相关函数)】和【Residual partial autocorrelation function(PACF)(残差部分自相关函数)】复选框，表示绘制残差的自相关图和偏相关图。不仅如此，勾选【Fit values(拟合值)】复选框输出模型的拟合效果图。其他选项保持系统默认。最后，单击【OK】按钮完成操作。16.3 实实例的SPSS输输出结结果详详解问题一输出结果详解问题一输出结果详解（1）聚类过程表 SPSS软件首先给出了进行系统聚类分析的过程表，它动态显示了所有地区的聚类过程。

11、下表显示第二地区和第九个地区首先被合在一起，聚类系数等于2.356，它们将在第二步中与其他类再进行合并。其他结论可以依此类推。问题一输出结果详解问题一输出结果详解 StageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 21292.3560022266.12310637106.48900743810.45900553411.16640762520.56420973727.80153881336.82307991242.702860问题一输出结

12、果详解问题一输出结果详解（2）聚类分析结果表下表显示了系统聚类法的聚类结果。可以看到聚类结果分为两大类：第类：西安；第类：宝鸡、咸阳、铜川、汉中；第类：榆林、延安、渭南、安康、商洛。其中第类地区西安是168信息各类点播业务流量最大的地区，第类的五个地区在所有地区中是相对168信息点播业务流量最低，而第类地区的点播业务流量是介于第类和第类之间，保持中游水平。分析地区间的点播量的差异部分是由于地区特征的差异引起的，例如人口数量、经济发展状况（收入水平、手机拥有量、物价水平等），同时也与地区业务的宣传力度有密切联系。分析清楚这些原因后公司就可以采取相应的措施扩大业务。问题一输出结果详解问

13、题一输出结果详解Case3 Clusters西安1宝鸡2榆林3延安3咸阳2铜川2渭南3安康3汉中2商洛3问题一输出结果详解问题一输出结果详解（3）树形图上表已给出了相关聚类结果，最后用树形图（Dendrogram）直观反映整个聚类过程和结果。问题一输出结果详解问题一输出结果详解问题二输出结果详解问题二输出结果详解下表（部分）是利用【Means(均值)】功能计算的各项业务在当月的平均点播量。表中具体给出了均值、统计数目及标准差等基本统计量。比较均值大小可以看到，“股票点播”、“每日运程”和“劲爆笑话”为点播量最大的业务，说明这些业务深受消费者欢迎，公司应努力增加在这些业务方面的内容更新及促销

14、。而相反的，“商讯点播”、“区号邮编”等业务的点播量太低，因此公司可以考虑停止这些服务功能以节约成本。问题二输出结果详解问题二输出结果详解 MeanNStd. Deviation股票点播7317.9677314634.75391指数点播278.548431164.77658外汇点播38.41943114.17927到价提示11.6452318.24439到价报警176.064531125.84486新闻点播2040.225831204.82427外地天气139.83873132.26153本地天气185.12903154.01280航班点播156.93553152.17786列车时刻49.0

15、6453116.98614话费查询2139.0645313322.93176头脑体操124.61293169.72311问题二输出结果详解问题二输出结果详解（2）秩统计表下表是多配对样本非参数检验的秩统计表。可以看到，“股票点播”变量的平均秩最大，等于2.42，说明它的点播量最大，排名更靠后；相反的，“劲爆笑话”变量的平均秩最小，等于1.35，说明它的点播量最小，排名更靠前。Mean Rank股票点播2.42劲爆笑话1.35每日运程2.23问题二输出结果详解问题二输出结果详解（3）Friedman统计表 Friedman检验结果如下表所示，样本容量等于31，Chi-Square统计量等于1

16、9.935，自由度df等于2，近似相伴概率P值为0.000，远远小于显著性水平0.05。所以拒绝零假设，认为这三种业务的点播量存在显著差异。这说明虽然它们位居所有业务的前三位，但其点播量还是存在显著的差异。因此，公司需要分开对待它们各自的点播业务特点。N31Chi-Square19.935df2Asymp. Sig.000问题三输出结果详解问题三输出结果详解（1）时间序列折线图下图绘制了“股票点播”业务在该月每日点播量的时间序列图。可以看到，股票点播量是平稳的，但具有显著的周期性，在每个周末的点播量明显低于周内的点播量，这与股票周末休市有密切联系。于是考虑利用ARMA模型来刻画其波动性。问

17、题三输出结果详解问题三输出结果详解问题三输出结果详解问题三输出结果详解（2）模型拟合优度检验表下表给出了AR(7)模型的拟合优度值，可以看到拟合优度统计量R2等于0.880，说明模型的整体的拟合效果较好。Ljung-Box Q统计量是对点播序列的线性相关性进行检验。从检验结果看，LB检验概率P值大于显著性水平0.05，说明序列基本不存在自相关性问题三输出结果详解问题三输出结果详解 ModelNumber of PredictorsModel Fit statisticsLjung-Box Q(18)Number of OutliersStationary R-squaredStatisti

18、csDFSig.股票点播-Model_10.8805.98511.8740问题三输出结果详解问题三输出结果详解（3）模型参数估计值表下表列出了AR(7)模型的参数估计值。可以看到除了滞后7阶（Lag 7）的系数显著外，其他滞后项系数都没有通过显著性检验，其t检验的概率P值都大于0.05。假设“每日股票点播量”记为Xt，则最终拟合的模型为： Xt=8.268+0.916 Xt-1问题三输出结果详解问题三输出结果详解 EstimateSEtSig.股票点播Natural LogConstant8.268.08497.924.000ARLag 1-.052.075-.697.493Lag 2-.0

19、64.081-.798.433Lag 3-.064.081-.786.440Lag 4-.047.084-.561.580Lag 5-.077.080-.965.345Lag 6-.028.079-.354.727Lag 7.916.07412.379.000问题三输出结果详解问题三输出结果详解（4）残差自相关和偏相关图下图给出了不同阶数下拟合模型的残差的自相关和偏相关图。可以看到，两列相关系数都落在置信区间内，说明残差序列的各阶自相关函数值和偏相关函数值都显著等于0，符合白噪声的特征。这也进一步反映了AR(7)模型的合理性。问题三输出结果详解问题三输出结果详解问题三输出结果详解问题三输出

20、结果详解（5）模型拟合效果图最后，下图显示了本实例提出的AR(7)模型预测值与实际值的拟合效果图。从图形来看，除了在初始几天的模型拟合值偏高外，其他时间的模拟拟合效果都较好，这样可以利用该模型进行后续日期的预测。问题三输出结果详解问题三输出结果详解第第17章章 SPSS在金融市场中的应用在金融市场中的应用17.1 实实例提出：美国国金融危机下全球股市的波动动影响响由于金融市场的传染效应，美国次贷危机已不仅仅影响到本国的股票市场，同时也影响了全球其他国家和地区的股票市场，例如，英国、日本和新加坡市场等。下图表示了美国、英国、德国、日本、中国香港和新加坡等全球主要股票市场从2007年1月至2

21、008年10月的股票价格日收盘指数。具体数据见17-1.sav所示。不同国家股票指数走势图三个问题请你利用这些数据，分析以下问题：请建立美国股指波动的数学模型；请分析美国股指波动对其他国家地区的股票市场造成的影响程度；请分析不同国家地区股指波动的差异性。17.2 实实例的SPSS软软件操作详详解问题问题一操作详详解问题一要建立美国道琼斯指数的波动模型，由于该指数主要随着时间的变动而变动，于是可以考虑建立该指数和时间之间的回归模型。首先从图形特点看，美股指数在研究日期内呈现明显的下降趋势，这反映了金融危机对其造成的显著影响。但是，指数的下跌并不是线性关系，而是表现为显著的非线性特征，于

22、是可以考虑采用非线性回归模型进行数据的拟合分析。具体操作步骤 Step01：打开数据文件打开数据文件17-1.sav。单击数据浏览窗口的【Variable View(变量视图)】按钮，检查各个变量的数据结构定义是否合理，是否需要修改调整。 Step02：设置因变量和自变量选择菜单栏中的【Analyze(分析)】【Regression(回归)】【Curve Estimation(曲线估计)】命令，弹出【Curve Estimation(曲线估计)】对话框。在候选变量列表框中选择“美国道琼斯指数”变量设定为因变量，将其添加至【Dependent(s)(因变量)】列表框中。同时点选【Time(时

23、间)】按钮，表示设置自变量为时间变量。Step03：选择曲线拟合模型类型从原始图像看到美股指数呈显著的非线性下跌趋势，于是在【Model(模型)】复选框中除了保留系统默认的【Linear(线性)】选项外，同时勾选【Exponential(指数分布)】和【Quadratic(二次项)】模型。这表示要对这三种模型进行曲线拟合，同时比较其拟合效果。单击【OK】按钮，完成本部分操作。问题问题二操作详详解具体操作步骤如下：Step01：打开相关分析对话框打开数据文件17-1.sav，选择菜单栏中的【Analyze(分析)】【Correlate(相关)】【Bivariate(双变量)】命令，弹出【

24、Bivariate Correlations(双变量相关)】对话框。 Step02：选择相关分析变量在候选变量列表框中选择美国、日本、德国等五个国家股指变量，将其添加至【Variables(变量)】列表框中。这表示要分析两两国家之家股指的相关关系。相关分析窗口Step03：选择相关系数类型在【Correlation Coefficients(相关系数)】选项组中勾选【Pearson(皮尔森)】、【Kendall(肯德尔)】和【Spearman】三种相关系数类型，表示结果窗口输出这三种类型的相关系数。单击【OK】按钮，完成本部分操作。问题问题三操作详详解具体操作步骤如下： Step01：

25、打开数据文件及对话框打开数据文件17-1.sav，选择菜单栏中的【Analyze(分析)】【Classify(分类)】【Hierarchical Cluster(系统聚类)】命令，弹出【Hierarchical Cluster Analysis(系统聚类分析)】对话框。Step02：选择聚类分析变量在候选变量列表框中选择美国、德国和日本等五个国家股指变量设定为聚类分析变量，将其添加至【Variables(变量)】列表框中。同时点选【Variable(变量)】单选钮。Step03：输出聚类图在主对话框中单击【Plots(绘制)】按钮，弹出【Plots(绘制)】对话框。勾选【Dendrogr

26、am(冰柱)】复选框，表示输出样品的聚类树形图。其他选项保持系统默认，单击【Continue】按钮返回主对话框。Step04：聚类方法选择在主对话框中单击【Method(方法)】按钮，弹出【Method(方法)】对话框。选择【Transform Values(转换值)】【Standardize(标准化)】下拉菜单的【Z scores(Z得分)】标准化方法。其他选项保持系统默认，单击【Continue】按钮返回主对话框。Step05：单击【OK】按钮，完成操作。聚类分析17.3 实实例的SPSS输输出结结果详详解问题一输出结果（1）模型汇总及参数估计下表给出了样本数据分别进行三种曲线方程拟合

27、的检验统计量和相应方程中的参数估计值。从拟合优度值R Square看到，二次曲线的拟合效果相对较好，达到了76.3%，而线性模型和指数函数的拟合优度连50%都没有达到。虽然上述三个模型都有显著的统计学意义，但从拟合优度值的大小可以看到二次曲线方程较其他两种曲线方程拟合效果更好，因此选择它来描述美股下跌的趋势。EquationLinearQuadraticExponentialModel SummaryR Square.330.763.340F215.314702.740225.819df1121df2438437438Sig.000.000.000Parameter EstimatesCo

28、nstant13495.48512292.73813524.252b1-3.66812.659.000b2-.037 模型汇总及参数估计（2）拟合曲线图最后给出的是实际数据的散点图和三种估计曲线方程的预测图，这也进一步说明二次函数曲线方程的拟合效果最好。需要注意的是，虽然选择的二次函数曲线拟合效果最好，但是它的拟合优度值也只有76.3%，其值也偏低。这说明股市的波动情况复杂，在较长时间范围内，很难用单一的非线性函数加以刻画；相反的，在短期内，由于股市波动变动不大，用曲线拟合的方法能得到较好的结果。拟合曲线图问题问题二输输出结结果（1）Pearson(皮尔森)相关系数表首先SPSS列出

29、了道琼斯工业指数和德国DAX指数、伦敦金融时报指数等其他五类指数的Pearson(皮尔森)相关系数表。从Pearson(皮尔森)相关系数大小看到，受美国股市影响强弱大小的其他国家股市分别为：新加坡、德国、英国和日本。可若从系数值看到，其他国家股市受美国股市影响都很大，说明它们的协同运动特征很显著。（2）非参数相关系数表非参数相关系数表列出了这些股票指数的Kendall(肯德尔)和Spearman相关系数，它们系数值概率P值也远小于显著性水平。问题问题三输输出结结果 StageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 211564.98000221285.258103313107.802204414213.213300聚类过程表树形图

展开阅读全文