1、数据统计与分析技术统计软件及应用w1.1 数据的排序w1.2 数据的转置w1.3 数据的拆分w1.4 数据文件的合并w1.5 数据的选择w1.6 数据的加权w1.7 数据的转换w2.1 基本数学模型w2.2 频数分析过程w2.3 数据描述过程w2.4 数据探察过程w2.5 列联表分析过程w3.1 分组平均数的比较w3.2 单一样本t检验w3.3 独立样本t检验w3.4 配对样本t检验w4.1 相关系数w4.2 偏相关系数w4.3 距离分析w5.1 线性回归w5.2 曲线回归非 参 数 检 验w6.1 非参数检验概述w6.2 单样本检验 w6.3 独立样本差异的显著性检验w6.4 相关样本差异的
2、显著性检验 方 差 分 析w7.1 方差分析概述w7.2 方差分析的基本步骤w7.3 单因素方差分析w7.4 多因素方差分析w7.5 协方差分析聚类分析和判别分析w8.1 聚类分析和判别分析过程概述w8.2 快速样本聚类过程w8.3 分层聚类分析w8.4 判别分析主成分分析和因子分析w9.1 主成分分析 w9.2 因子分析时间序列分析w10.1 指数平滑法w10.2 季节分解法w10.3 自回归法w10.4 自回归综合移动平均模型Bye ByeBye数据的排序1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Sort Cases选项,打开对话框;3.在左边窗口选定变量名,再用箭头按钮,
3、将变量转到Sort by 窗口中;4.在Sort Order方框中,选择排序方式。数据的排序数据的排序对话框对话框数据的转置1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Transpose选项,打开对话框;3.在左边窗口选定变量名,再用箭头按钮,将变量转到Transpose窗口中;4.单击“OK”按钮,确认后,生成新的数据文件。数据的转置数据的转置对话框对话框数据的拆分1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Split File选项,打开对话框;3.选择进行拆分的方式;4.在左边窗口选定变量名,用中间箭头按钮,将变量转到Groups Based on窗口中;5.注
4、意拆分前的排序,选择两种方式。数据的拆分数据的拆分对话框对话框数据文件合并1.样本合并(横向拼接)DataMerge FilesAdd Cases2.变量合并(纵向拼接)DataMerge Files Add Variable 数据的选择1.根据逻辑关系表达式选择数据2.随机选取数据3.在给定范围内选择数据 4.用过滤器变量选择数据数据的加权1.加权(Weight)是一种通过人为方法来调节样本或数据大小的方法,在资料输入、样本分析和科学评价中经常起到举足轻重的作用。2.加权有两种情况:对变量的值加权对个案加权 对话框数据的加权数据的加权对话框对话框数据的转换1.利用Compute功能选项转换数
5、据2.利用Count功能选项转换数据3.利用Recode功能选项转换数据4.利用Automatic Recode功能选项转换数据 5.利用随机数种子转换数据基本数学模型1.1.描述集中趋势的统计量描述集中趋势的统计量:算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数众数众数 中位数中位数2.2.描述离散趋势的统计量描述离散趋势的统计量极差极差 平均差平均差 标准差(方差)标准差(方差)标准误标准误 3.3.描述分布特征的统计量描述分布特征的统计量偏度偏度 峰度峰度 算术平均数算术平均数 算术平均数等于所有样本数据的总和除以数据个数。算术平均值是描述样本数据中心趋势最常用的统计量
6、。在分组条件下,其公式为:niiniiiffXX11标准差(方差)标准差(方差)标准差()与方差(2)是反映数据离散趋势最常用的统计量。在分组条件下,方差的公式为:niiniiiffXX1122)(标准差是方差方差的算术平方根。频数分析过程该过程可计算数据资料的各种该过程可计算数据资料的各种描述统计指标、给出变量简单频数描述统计指标、给出变量简单频数分布表、绘制几种变量分布图。分布表、绘制几种变量分布图。Analyze Descriptive Statistics Frequencies出现对话框频数分析过程对话框统计量选择对话框统计量选择对话框 数据描述过程该过程计算数据资料的各种描该过程计
7、算数据资料的各种描述统计指标,但不给出分布图。述统计指标,但不给出分布图。Analyze Descriptive Statistics Descriptives出现对话框数据描述过程对话框Options对话框 数据探察过程探索性数据分析是指对数据的初步考察,探索性数据分析是指对数据的初步考察,由描述统计指标和直观的图形组成。包括检由描述统计指标和直观的图形组成。包括检查数据错误、描述整体或分组数据的数量特查数据错误、描述整体或分组数据的数量特征和分布特征,假设检验,奇异值辨认等。征和分布特征,假设检验,奇异值辨认等。Analyze Descriptive Statistics Explore
8、出现对话框数据探察过程对话框列联表分析过程列联表是按两个标志对一组观察值进行交列联表是按两个标志对一组观察值进行交叉分组所得到的频数分布表,表中列出同时联叉分组所得到的频数分布表,表中列出同时联系于横行和纵行某特定标志名称的观察值数目,系于横行和纵行某特定标志名称的观察值数目,在表的右边栏列出各行频数的合计,在表的底在表的右边栏列出各行频数的合计,在表的底行列出各列频数的合计,在两者交叉处,即表行列出各列频数的合计,在两者交叉处,即表的右下角,列出频数总计。的右下角,列出频数总计。Analyze Descriptive Statistics Crosstabs 出现对话框列联表分析过程对话框平
9、均数分析该过程主要用于分组计算各统该过程主要用于分组计算各统计指标,也可以进行单因素随机设计指标,也可以进行单因素随机设计方差分析和线性检验。计方差分析和线性检验。Analyze Compare Means Means 出现对话框平均数分析对话框OptionsOptions对话框对话框 单一样本t检验Analyze Compare Means One Sample T Test 出现对话框 该过程用于检验样本平均数与总体平均数之间是否存在差异。单一样本t检验对话框独立样本t检验Analyze Compare Means Independent-Sample T test 出现对话框 该过程用于
10、检验两个独立样本的平均数之间是否存在差异。独立样本t检验对话框独立样本 独立样本(Independent Sample)是指两个样本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。但这里的独立样本是广义的独立,仅是指非关联变量。两独立的样本各接受相同的测量,研究者的兴趣在比较两批样本群在测量结果总体上是否存在差异。独立样本中,所有观测都是独立的,即具体个别样本的顺序可以变化的,与变量无关。配对样本t检验Analyze Compare Means Paired-Sample T test 出现对话框 该过程用于检验两个配对样本的平均数之间是否
11、存在差异。配对样本t检验对话框配对样本 配对样本(Paired Sample)或相关样本(Correlated Sample),指两个样本的观测值之间彼此有关联,如同一批被试者接受两种实验条件,即同一批观测对象接受两种不同的测量。对于此类样本,研究者所感兴趣的是二次测量之间是否存在差异。如实验前和实验后的测量,即具体个别样本的顺序不可以变化的。相关分析相关分析 相关分析是研究两变量之间的关系。相关模型包括皮尔逊(Pearson)、斯皮尔曼(Spearman)和肯特尔(Kendall)三种子模型。相关模型要求X、Y变量都是随机变量,并都呈正态分布。满足上述正态分布的定量数据可用Pearson相关
12、模型。对于定序、计数数据、对于不满足正态分布的数据,则非参数检验模型,即Spearman和Kendall相关模型。相关分析相关分析相关过程调用:AnalyzeCorrelate Bivariate:PearsonPearson相关模型相关模型 Pearson相关系数计算公式:22)()()(YYXXYYXXriiii r是最常用的相关系数偏相关系数偏相关系数 多个变量之间的相关关系是错综复杂的,任何两个变量之间都有简单相关关系,而这种相关关系中夹杂了其他变量所带来的影响。固定其他因素,而计算某两个因素之间的相关系数称为偏相关系数。偏相关系数偏相关系数相关过程调用:AnalyzeCorrelat
13、e Partial:距离分析距离分析 对于更复杂数据资料之间的关系,可利用距离分析来进行研究。距离分析通过计算各样本点之间的距离,来观测样本之间的相似或不相似程度,从而可进一步进行聚类分析、因子分析和多维分析。一元线性回归多元线性回归可化为线性回归的非线性回归 多元回归的方法多元回归的方法线性回归过程调用:AnalyzeRegression Linear Regressionx:可控制或可精确观测得到的数据的变量;:可控制或可精确观测得到的数据的变量;Y:与:与x具有相关关系的随机变量。具有相关关系的随机变量。xi(i=1,2,n)yi(i=1,2,n)数据对(样本值):数据对(样本值):(x
14、i,yi)i=1,2,n 散点图散点图(Scatter Graph)假定假定Y与与x具有线性相关关系:具有线性相关关系:(xi,yi)bxaY其中,其中,是数学期望为是数学期望为0的随机变量,的随机变量,假假设设 满足正态分布,于是:满足正态分布,于是:bxaYEx1,x2,xr:r个可控制或可精确观测得到的数据的变量;个可控制或可精确观测得到的数据的变量;Y:与:与x1,x2,xr具有相关关系的随机变量。具有相关关系的随机变量。假定假定Y与与x1,x2,xr具有线性相关关系:具有线性相关关系:rrxbxbxbbY.22110其中,其中,是数学期望为是数学期望为0的随机误差,且满足正态分布。的
15、随机误差,且满足正态分布。对于对于n组样本观察值(组样本观察值(nr):):xi1,xi2,xir (i=1,2,n)yi(i=1,2,n)多元线性回归模型为:多元线性回归模型为:niExbxbxbbyiiirriii,.,2,10.22110其中,其中,i互不相关。互不相关。1.Enter(全回归法)2.Stepwise(逐步回归法)3.Remove(剔除法)4.Backward(向后回归法)5.Forward(向前回归法)引入自变量的显著性水平引入自变量的显著性水平 1剔除自变量的显著性水平剔除自变量的显著性水平 2对不在方程中的对不在方程中的自变量能否引入?自变量能否引入?对已在方程中的
16、对已在方程中的自变量能否剔除?自变量能否剔除?能能否否能能否否buayxuxbay得到令,1buavyvxuxbay得到1,11令方法:变量替换方法:变量替换bxaey 若若a0,则令,则令v=lny,得到:,得到:bxav ln若若a0,则令,则令v=lny,u=lnx,得到(,得到(a0情况类推):情况类推):buav lnxbaylog令令u=logx,得到:,得到:buay令令v=logy,得到:,得到:bxaylogbxavxbayloglog令令u=logx,v=logy,得到:,得到:buavxbeay1令:令:yveux1得到:得到:buav 客观实现中各因素之间呈现线性关系的
17、现象并不很多,更多的是呈现曲线关系,这时应采用非线性回归分析。非线性回归模型包括两种形式:一是可线性化的,如二次曲线模型、对数模型等;一是不可线性化的,如逻辑曲线模型。SPSS提供了拟合各种常用曲线模型的功能。线性回归过程调用:AnalyzeRegression Curve EstimationLinear(线性模型)Linear(线性模型)Quadratic(二次曲线模型)Quadratic(二次曲线模型)Compound(复合曲线模型)Compound(复合曲线模型)Growth(增长曲线模型)Growth(增长曲线模型)Logarithmic(对数模型)Logarithmic(对数模型)
18、Cubic(三次曲线模型)Cubic(三次曲线模型)S(S型曲线模型)S(S型曲线模型)Exponential(指数模型)Exponential(指数模型)Inverse(双曲线模型)Inverse(双曲线模型)Power(幂函数模型)Power(幂函数模型)Logistic(逻辑曲线模型)Logistic(逻辑曲线模型)非参数检验概述非参数检验概述 非参数检验的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置,形状是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。非参数检验概述非参数检验概述Nonparametri
19、c Tests 菜单提供八种非参数检验的分析方法,分为两类:1.分布类型检验方法Chi-Square过程;检验二项分类变量分布的Binomial过程;检验样本序列随机性的Runs过程及检验样本是否服从各种常用分布的l-Sample K-S过程。2.分布位置检验方法独立样本分布位置检验的2、K Independent Samples过程;相关样本分布位置检验的2、K Related Samples过程。单样本检验单样本检验1.卡方检验(Chi-Square)2.二项分布检验(Binomial)3.游程检验(Runs)4.单样本K-S检验(1-Sample K-S)卡方检验属于拟合优度型检验,适用
20、于具有明显分类特征的某种数据,用来检验属于某一类别的对象的个数与根据零假设所得期望数目之间是否有显著差异,进行检验时,需要构造统计量:kiiiiEEO122)(二项检验属于拟合优度检验,适用于数据只能划分为两类的总体。二项检验是检验是否认为从样本中观察到的两类比例来自具有指定P的总体。游程检验有游程最大长度检验和游程总个数检验两种检验方法,SPSS采用的是游程总个数检验方法,用该法可以检验一组样本数据是否来自同一总体(或差异不明显服从同一分布),即考察按随机顺序得到的一组样本的观测值是否表现出足够的随机性。K-S检验是一种拟合优度检验,研究的是样本观察值的分布和设定的理论分布间符合程度的问题,
21、通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。单样本K-S检验中的理论分布可为正态分布、均匀分布、泊松分布、指数分布。独立样本差异的显著性检验独立样本差异的显著性检验 SPSS提供了检验两个或多个独立样本所属的总体分布位置/形状是否相同的功能,具体说,2 Independent Samples 过程提供了四种检验两个独立样本所属总体分布是否相同的方法,K Independent Samples 过程提供了两种检验多个独立样本所属总体分布是否相同的方法。相关样本差异的显著性检验相关样本差异的显著性检验 SPSS提供了检验两个或多个相关样本所属的总体分布位置/形
22、状是否相同的功能,具体说,2 Related Samples 过程提供了三种检验两个相关样本所属总体分布是否相同的方法,K Related Samples 过程提供了两种检验多个相关样本所属总体分布是否相同的方法。方差分析 如果要检验两个总体的均值是否相等,我们可以用t检验。当要检验多个总体的均值是否相等,则需要采用方差分析。方差分析是通过对误差的分析研究来判断多个正态总体均值是否相等的一种统计方法。其优点是实用、有效,可以节省时间。方差分析方差分析的三个条件()被检验的各总体均服从正态分布;()各总体的方差皆相等;()从每一个总体中所抽出的样本是随机且独立的。方差分析方差分析的分类方差分析按
23、所涉及因素涉及因素的多少可分为:单因素方差分析双因素方差分析多因素方差分析方差分析的基本步骤()将各不同水平间的总离差分成两个部分()将各不同水平间的总离差分成两个部分组间差异和组内差异组间差异和组内差异()构造检验统计量()构造检验统计量F=MSR/MSEF=MSR/MSE()判断()判断在零假设为真时,在零假设为真时,F F(k-l),(n-k)(k-l),(n-k)的的F F分布。分布。若各样本平均数的差异很大,则分子组间差异会随之若各样本平均数的差异很大,则分子组间差异会随之变大,而变大,而F F值也随之变大,故值也随之变大,故F F检验是右尾检验。检验是右尾检验。当检验统计量当检验统
24、计量F F大于临界值时则拒绝原假设大于临界值时则拒绝原假设。单因素方差分析 单因素方差分析只考虑单个因素对观察值是否有影响,比较因素各个水平下的均值是否相等。相应的原假设H0:各组均值无显著性差异(在不同因素水平下);备择假设H1:各组均值不全相等。SPSS实现的方法有两种:方法一 方法二方法一单因素方差分析过程调用:AnalyzeAnalyzeCompare MeansOne-Way ANOVACompare MeansOne-Way ANOVA方法二AnalyzeGeneral Linear ModelUnivariateAnalyzeGeneral Linear ModelUnivari
25、ate 单因素方差分析过程调用:UnivariateUnivariate 对话框对话框 多因素方差分析 多因素方差分析指研究影响因素为两个或两个以上时,因素对因变量的影响是否显著。另外,分析时还需要考虑影响因素之间是否有交互作用。多因素方差分析多因素方差分析过程调用:AnalyzeGeneral Linear ModelUnivariateAnalyzeGeneral Linear ModelUnivariate 协方差分析因素 当因变量是定量的,自变量中既有定性也有定量变量时,则常选用介于方差分析和线性回归分析之间的方法协方差分析。在协方差分析中,选为定量变量的自变量称为协变量,并要求协变量
26、间相互独立,与定性因素间无交互作用。协方差分析因素协方差分析过程调用:AnalyzeGeneral Linear ModelUnivariateAnalyzeGeneral Linear ModelUnivariate 聚类分析和判别分析过程概述聚类分析和判别分析过程概述 聚类分析是研究物以类聚问题的一种有效方法,它将一批样本数据按照其性质上的相近程度,在没有先验知识的情况下客观进行分类,该方法被视为是一种探索性的分析方法。判别分析是一种有效的分类方法,分析时各类的特征是事先已知,即根据判别,将新样本划分到不同的组中去。分类形成后相同的类就是一个具有相近个体的集合,不同类之间具有明显的区别。聚
27、类分析和判别分析过程概述聚类分析和判别分析过程概述SPSS的Classify菜单共包括三个主要过程:1)快速聚类(K-Means Cluster)是非系统聚类法中最常用的K-均值聚类法,只能用于对样本的快速聚类。2)分层聚类(Hierarchical Cluster)提供了全面而强大的聚类分析功能,可以对多种数据类型进行样本或变量的聚类分析。3)判别分析(Discriminant)提供了全面的判别分析功能。快速样本聚类过程快速样本聚类过程 快速样本聚类(Quick C1uster),也称逐步聚类或动态聚类,其基本思想是:开始按照一定方法选取一批凝聚点(聚心),其次让样本向最近的聚心凝聚形成初始
28、分类,然后按最近距离原则修改不合理的分类,直到合理为止。该方法适合于大样本的Q型聚类分析。根据经验,若样本容量大于100,则可以考虑使用这种方法。快速样本聚类过程快速样本聚类过程界面界面快速样本聚类过程快速样本聚类过程结果结果Cluster MembershipA314.361B211.785C39.014D27.993E216.415F19.718G110.541H215.366I317.500J24.082K312.162L313.769M49.682N49.682O28.819P314.361Q112.693R29.860S213.540T212.910Case Number123456
29、7891011121314151617181920COMPANYClusterDistance分层聚类分析分层聚类分析分层聚类分析(Hierarchical Cluster Analysis),也叫系统聚类分析,是聚类分析中应用最广泛的一种方法。其聚类过程是:开始把参与聚类的每个样本(或变量)各视为一类,然后根据两类之间的距离或相似性逐步合并,直到所有的样本(或变量)合并为一个大类为止。分层聚类分析分层聚类分析界面界面分层聚类分析分层聚类分析结果结果1 1Vertical IcicleXXXXXXXXXXXXXXXX XXXXXXXXXXXXXX XXXXX XXXXXXXX XXXXX XX
30、XXX XX XXXXX X XXX XX X XXX X XXX XX X XXX X X X XNumber of clusters1234567Armchair Enthusiast United States France South Korea Russia China Romania ItalyCase分层聚类分析分层聚类分析结果结果2 2判别分析判别分析 判别分析在分析之前就应该明确所研究的变量共有几个类别,该分析方法的目的就是从现有已知类别的样本数据中,利用某种技术建立起一个判别函数,以后再有未知类别的数据进入,就利用建立的函数来判断其类别。判别分析判别分析步骤步骤(1)选择自
31、变量及组变量,并计算各组单变量描述统计量,对判别分析所要求的前提假定进行统计检验。(2)推导判别系数,给出标准化或末标准化的典则判别函数系数,并对函数显著性进行检验;(3)建立Fisher线性判别模型,根据Bayes规则或Fisher规则进行判别分组;(4)进行样本回判分析,分析判别函数的结果;(5)输出结果,结合研究对象的实际情况分析输出结果,作出结论。判别分析判别分析界面界面判别分析判别分析结果结果dis_1:将所有变量都加入进行分析dis_2:用逐步选择判别进行分析主成分分析 主成分分析从解释变量的方差出发,假设变量的方差能完全被主成分所解释;而因子模型是从解释变量之间的相关关系出发,假
32、设观察变量之间的相关能完全被公因子解释。主成分分析法是一种实用的多元统计分析方法,它能够将大量、繁复的原始指标、数据简化为少量的综合指标,同时使这少量指标尽可能地包合原指标群中的信息资料。这些综合指标能够更好地反映各样本之间的主要差别,而且在统计意义上是相互独立。主成分分析主成分分析过程调用:AnalyzeAnalyzeData ReductionData ReductionFactorFactor因子分析 因子分析的基本思想是将实测的多个指标,用少数几个潜在的指标(因子)的线性组合来表示,因子分析的主要应用有两个方面,一是寻求基本结构,简化观测系统,即构造一个因子模型,确定模型中的参数,然后
33、根据分析结果进行因子解释;二是对变量或样本进行分类,对公共因子进行估计,并作进一步分析。因子分析因子分析过程调用:AnalyzeAnalyzeData ReductionData ReductionFactorFactor指数平滑法 指数平滑法是统计预测中广泛使用的一种方法,源于移动平均法。所谓移动平均就是从一个时间数列中任取连续的n项数值,求其平均数,再逐项向前推进,从而得到一个新的数列。由于移动平均法给出了比较稳定的发展变化趋势,所以往往用它作预测。其基本预测公式是:x x tttxxx1)1(指数平滑法指数平滑过程调用:AnalyzeTime SeriesExponential Smoo
34、thing AnalyzeTime SeriesExponential Smoothing 平滑后,会在数据窗口产生一列平滑后,会在数据窗口产生一列fitfit值和一列值和一列errerr值值季节分解法 时间序列(Y)可分解成长期变化趋势(T)、季节变化趋势(S)、周期变化趋势(C)和不规则变动(I)四种因素的函数。人们把四者的关系构造为加法模型和乘法模型,乘法模型更常用。季节分解法季节分解过程调用:AnalyzeTime SeriesSeasonal DecompositionAnalyzeTime SeriesSeasonal Decomposition在结果窗生成季节比率在结果窗生成季节
35、比率自回归法时间数列自身相关理论认为,现象之间的相互联系也表现在动态方面,即随着时间的不同,变量之间也表现出一定的依赖性和规律性。这种变量值自身随着时间不同,其值在前后期之间表现出一定的依存关系称做时间数列的自身相关。研究这种相关关系对于分析社会经济现象发展的规律和进行经济预测,都有重要的意义。自回归法自回归分析过程调用:AnalyzeTime SeriesAutoregressionAnalyzeTime SeriesAutoregression自回归综合移动平均模型 ARIMA是结合移动平均的自回归模型(Autoregressive Integrated Moving Average models),也被称为Box-Jenkins模型,它常用以估计存在季节变化、或无季节变化平稳性的单因素模型。自回归综合移动平均模型自合格证综合移动平均模型分析过程调用:Analyze Time SeriesARIMAAnalyze Time SeriesARIMA