第五基本统计分析课件1.ppt_163文库

资源描述

1、第五基本统计分析内容提要内容提要1、频数分析（重点：统计量含义、相互联系）、频数分析（重点：统计量含义、相互联系）2、描述统计、描述统计3、列联表分析、列联表分析(掌握分析适用条件、作用、结果判定掌握分析适用条件、作用、结果判定)4、多选项问题、多选项问题n多选问题赋值方法（重点掌握）n定义多选变量集合（重点掌握）n多选变量的频次分析（重点掌握）n多选变量的列联表分析（重点掌握）5、探索分析（了解分析工作的作用、掌握假设检验的判断、探索分析（了解分析工作的作用、掌握假设检验的判断/认识茎叶图）认识茎叶图）6、比率分析（了解）、比率分析（了解）SPSS的主要分析工具的主要分析工具Analyze菜

2、单菜单报告报告Rports描述性统计分析描述性统计分析Descriptive Statistics菜单菜单表格表格Tables均数间的比较均数间的比较Compare Means菜单菜单一般线性模型一般线性模型General Linear Model菜单菜单相关分析相关分析Correlate菜单菜单多元线性回归与曲线拟合多元线性回归与曲线拟合 Regression菜单菜单对数线性模型对数线性模型Loglinear菜单菜单聚类分析与判别分析聚类分析与判别分析Classify菜单菜单因子分析与对应分析因子分析与对应分析Data Reduction菜单菜单信度分析与多维尺度分析信度分析与多维尺度分析S

3、cale菜单菜单非参数检验非参数检验Nonparametric Tests菜单菜单时间序列分析时间序列分析Time series SPSS基本统计分析（描述性统计分析）的作用：基本统计分析（描述性统计分析）的作用：分析数据的基本统计特征（如集中度、离散度等）；分析数据的基本统计特征（如集中度、离散度等）；分析数据的总体分布情况；分析数据的总体分布情况；是下一步的建模和进行正确统计推断的先决条件是下一步的建模和进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在目的而设计的几个模块则集中在Descript

4、ive Statistics菜单中，包括：菜单中，包括：Frequencies：频数分析过程，特色是产生频：频数分析过程，特色是产生频数表（主要针对分类变量）数表（主要针对分类变量）Descriptives：数据描述过程，进行一般性的：数据描述过程，进行一般性的统计描述（主要针对定距型变量）统计描述（主要针对定距型变量）Explore：数据探察过程，用于对数据概况不清：数据探察过程，用于对数据概况不清时的探索性分析时的探索性分析Crosstabs：多维频数分布交叉表分析（列联表：多维频数分布交叉表分析（列联表分析）分析）Ratio statistics：比率分析，用于两个定距型：比率分析，用于

5、两个定距型变量间变量值比率变化分析。变量间变量值比率变化分析。5.1 频数分析5.1.1 5.1.1 频数分析的目的和基本任务频数分析的目的和基本任务 1、目的：基本统计分析往往从频数分析开始。、目的：基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况，对把握通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。数据的分布特征是非常有用的。（如：样本是否有（如：样本是否有代表性、抽样是否存在系统性偏差等）代表性、抽样是否存在系统性偏差等）适用对象：主要是定序或分类变量适用对象：主要是定序或分类变量 2、基本任务、基本任务（1）频数分析的第一个基本任务是编制频数

6、分布表（可选）频数分析的第一个基本任务是编制频数分布表（可选项）。项）。n频数（Frequency）：即变量值落在某个区间（或某个类别）中的次数n百分比（Percent）：即各频数占总样本数的百分比n有效百分比（Valid Percent）：即各频数占有效样本数的百分比，这里有效样本数总样本缺失样本数n累计百分比（Cumulative Percent）：即各百分比逐级累加起来的结果。最终取值为100。（2）频数分析的第二个任务是绘制统计图）频数分析的第二个任务是绘制统计图n条形图（Bar Chart）：用宽度相同的条形的高度或长短来表示频数分布（或百分比）变化的图形，适用于定序和定类变量的分析

7、。n饼图（Pie Chart）：用圆形及圆内扇形的面积来表示频数（或百分比）变化的图形，以利于研究事物内在结构组成等问题。n直方图（Histograms）：用矩形的面积来表示频数分布变化的图形，适用于定距型变量的分析。5.1.2 频数分析的基本操作频数分析的基本操作（1）选择菜单）选择菜单AnalyzeDescriptive StatisticsFrequencies。（2）将若干频数分析变量选择到）将若干频数分析变量选择到Variable(s)框框中。中。（3）单击）单击Chart按钮选择绘制统计图形，在按钮选择绘制统计图形，在Chart Values框中选择条形图中纵坐标（或饼框中选择条形

8、图中纵坐标（或饼图中扇形面积）的含义，其中图中扇形面积）的含义，其中Frequencies表示表示频数；频数；Percentages表示百分比。表示百分比。5.1.3 SPSS频数分析的扩展功能频数分析的扩展功能 1、计算分位数（、计算分位数（Percentile Values）分位数是变量在不同分位点上的取值。分位点在分位数是变量在不同分位点上的取值。分位点在0100之间。一般使用较多的是四分位点（之间。一般使用较多的是四分位点（Quartiles），即将所有数据按升序排序后平均等分成四份，各分位点，即将所有数据按升序排序后平均等分成四份，各分位点依次是依次是25，50，75。于是四分位数便

9、分别是。于是四分位数便分别是25，50，75点所对应的变量值。此外，还有八分位点所对应的变量值。此外，还有八分位数、十六分位数等。数、十六分位数等。SPSS提供了计算任意分位数的功能，用户可以指定提供了计算任意分位数的功能，用户可以指定将数据等分为将数据等分为n份（份（Cut points for n equal groups）。还可以直接指定分位点（）。还可以直接指定分位点（Percentile）。）。问题2：择业中考虑的主要因素（多选）例如表中第一行中的33.输出单元格中观测值的数目占整列全部观测量数目的百分比通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。即分析两个

10、或两个以上分类变量的分布情况。对不同工作单位性质人员购买商业养老保险的原因进行分析，采用多选项交叉分组下的频数分析。Standardized为标准化剩余，又称Pearson剩余，定义为：7劳动强度 8社会福利（2）利用SPSS的频数分析计算所有样本的存（取）款金额的四分位数；V1 购物影响因素1 1,2,3,4,5 1-交通条件；分别计算其分子、分母的平均数分析变量（Dependent List）：数值型变量然后为每个答案设置一个SPSS变量，变量取值为多选项问题中的所有可选答案。峰度大于0表示数据的分布比标准正态分布更陡峭，为尖峰分布；有效百分比（Valid Percent）：即各频数占有效

11、样本数的百分比，这里有效样本数总样本缺失样本数例如表中第一行中的33.输出百分位数：输出四分位数，显示25%、50%、75%的百分位数；将数据平均分为所设定的相等等份，可输入2100 的整数，如键入4则输出第25、50、75百分位数自定义百分位数，可输入0100 的整数。离散趋势分布形态栏集中趋势栏输出统计量对话框 2、计算其他基本描述统计量、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计频数分析还能够计算其他基本统计量，其中包括描述集中趋势（量，其中包括描述集中趋势（Central Tendency）的基本统计量、描述离散程度）的基本统计量、描述离散程度（Dispersion

12、）的基本统计量、描述分布形）的基本统计量、描述分布形态（态（Distribution）的基本统计量等。）的基本统计量等。Format 对话框对话框控制频数表输出的分类数量。默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列，此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列（2）multiple variables单选框组：单选框组：如果选择了两个以上变量作频数表，则如果选择了两个以上变量作频数表，则compare variables可以将所有变量的结果可以将所有变量的结果在同一个频

13、数表过程输出结果中显示，便于互在同一个频数表过程输出结果中显示，便于互相比较；相比较；organize output by variables则将结果在不同的频数表过程输出结果中显示则将结果在不同的频数表过程输出结果中显示，每一个变量一张表。，每一个变量一张表。3、频数分布表格式（、频数分布表格式（Format）的定义）的定义（1）调整频数分布表中数据的输出顺序（）调整频数分布表中数据的输出顺序（Order by）：频数分布表中的内容的输出顺序）：频数分布表中的内容的输出顺序可以可以按变量值的升序输出（按变量值的升序输出（Ascending values）按变量值的降序输出（按变量值的降序输

14、出（Descending values）（以上两类适合分类数量较少的情形）（以上两类适合分类数量较少的情形）按频数的升序输出（按频数的升序输出（Ascending counts）按频数的降序输出（按频数的降序输出（Descending counts）（以上两类适合分类数量较多的情形）（以上两类适合分类数量较多的情形）（3）压缩频数分布表（）压缩频数分布表（Suppress tables with more than n categories）如果变量取值的个数或取值区间的个数太如果变量取值的个数或取值区间的个数太多，频数分布表将很庞大，此时可以压缩它。多，频数分布表将很庞大，此时可以压缩它。S

15、PSS默认，如果变量取值的个数或取值区间默认，如果变量取值的个数或取值区间的个数大于的个数大于10，则不输出相应的频数分布表，则不输出相应的频数分布表。应用中可以修改该值。应用中可以修改该值。1、刻画集中趋势的描述统计量（recode，frequency）然后，按照户口类型对数据进行拆分（Split file）并重新计算分位数，分别得到城镇户口和农村户口的存（取）款金额的四分位数。V3 购物影响因素3 同上同上为便于分析，通常还应指定输出Percentage框中的行百分比（Row）、列百分比（Column）、总百分比（Total）。（5）单击Format按钮指定列联表各单元格的输出排列顺序。

16、对不同年龄段储户储蓄目的进行分析，采用多选项交叉分组下的频数分析。编制交叉列联表是交叉分组下频数分析的第一个任务。（3）为多选项变量集命名，系统会自动在该名字前加字符$。（3）如果做不同组间的比率比较，则将分组变量选择到Group Variable框中。偏度绝对值越大，表示数据分布形态的偏斜程度越大。多选项二分法及其编码（multiple dichotomies method）：3、适用对象：一般是考察定距变量；（1）菜单选项AnalyzeDescriptive StatisticsCrosstabs，出现窗口如下：限选：如在11种工作种类中，选你喜欢的，最多可选4种（Var1-Var4)；P

17、ercentages表示百分比。适用于两定类变量的方法：Nominal框中列出的方法属该类方法。时间序列分析Time series为进行多选项分析，首先定义名为set1的多选项变量集，其中包括q13a、q13b、q13c三个变量，然后对多选项变量集进行频数分析；5.1.4 频数分析的应用举例频数分析的应用举例利用居民储蓄调查数据进行频数分析，有利用居民储蓄调查数据进行频数分析，有以下两个分析目标：以下两个分析目标：q目标一：分析储户的户口和职业的基本情况。q目标二：分析储户存取款金额的分布，并对城镇储户和农村储户进行比较。目标二：分析储户存款金额的分布，并对城镇储目标二：分析储户存款金额的分

18、布，并对城镇储户和农村储户进行比较。户和农村储户进行比较。1、分析思路：、分析思路：（1）由于存（取）款金额数据为定距型变量，）由于存（取）款金额数据为定距型变量，直接采用频数分析不利于对其分布形态的把握直接采用频数分析不利于对其分布形态的把握，因此考虑依据第三章中的数据分组功能对数，因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。（据分组后再编制频数分布表。（recode，frequency）（2）进行数据拆分，并分别计算城镇储户和农）进行数据拆分，并分别计算城镇储户和农村储户的一次存（取）款金额的四分位数，并村储户的一次存（取）款金额的四分位数，并通过四分位数比较两者分布上

19、的差异。通过四分位数比较两者分布上的差异。2、分析过程：、分析过程：（1）数据分组，将存（取）款金额重新分成五）数据分组，将存（取）款金额重新分成五组，五组区间分布为，少于组，五组区间分布为，少于500元，元，5002000元，元，20003500元，元，35005000元，元，5000元以上。分组后进行频数分析并绘元以上。分组后进行频数分析并绘制带正态曲线的直方图。制带正态曲线的直方图。（2）利用）利用SPSS的频数分析计算所有样本的存的频数分析计算所有样本的存（取）款金额的四分位数；然后，按照户口类（取）款金额的四分位数；然后，按照户口类型对数据进行拆分（型对数据进行拆分（Split fi

20、le）并重新计算）并重新计算分位数，分别得到城镇户口和农村户口的存（分位数，分别得到城镇户口和农村户口的存（取）款金额的四分位数。取）款金额的四分位数。5.2 计算基本描述统计量5.2.1 基本描述统计量基本描述统计量适用对象：定距数据适用对象：定距数据常见的基本描述统计量有三大类：常见的基本描述统计量有三大类：n刻画集中趋势的统计量n刻画离中趋势的统计量n刻画分布形态的统计量1、刻画集中趋势的描述统计量、刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢集中趋势是指一组数据向某一中心值靠拢的倾向。的倾向。（1）均值（）均值（Mean）：即算术平均数，是反映）：即算术平均数，是反映

21、某变量所有取值的集中趋势或平均水平的指标某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为。如某企业职工的平均月收入。其计算公式为：11niixxn均值适用条件：均值适用条件：定距变量；单峰或基本对称分布情况下适用（为什么？）（2）中位数（）中位数（Median）：即一组数据按升序）：即一组数据按升序排序后，处于中间位置上的数据值。如评价排序后，处于中间位置上的数据值。如评价社会的老龄化程度时，可用中位数。社会的老龄化程度时，可用中位数。中位数特点：中位数特点：位置平均数，不受极端值影响，适用于任意分布类型数据；定序和定价数据都适用；样本量很小时，中位数不稳定；问

22、题2：择业中考虑的主要因素（多选）Dichotomies表示以多选二分法编码，并在counted value中输入用哪个数值来表示选中该选项。3发展前途 4地理区位由“茎”和“叶”两部分构成，其图形是由数字组成的2 交叉列联表的主要内容（1）均值（Mean）：即算术平均数，是反映某变量所有取值的集中趋势或平均水平的指标。2、然后对综合变量的各种取值进行分析。75的计算公式是3*4/16=0.（1）频数分析的第一个基本任务是编制频数分布表（可选项）。但大多数情况下，观测频数分散在列联表的各个单元格中，不容易直接发现行列变量之间的关系强弱程度，此时就要借助非参数检验方法。（2）选择和计算检验统计量

23、多变量框中可设定多变量表格输出的格式（6）单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，其中，Chi-Square为卡方检验。例如：购买商业保险的原因(P126)当总差值越大时，卡方值也就越大，实际分布与期望分布的差距越大，表明行列变量之间越相关；例如：购买商业保险的原因(P126)补充：多选项问题的分析指标被称为观察到的(或实测的)显著性水平。（2）将若干频数分析变量选择到Variable(s)框中。多选问题赋值方法（重点掌握）（3）众数（）众数（Mode）：即一组数据中出现次数最多）：即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的的数据

24、值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。生产计划时应该运用众数。众数特点：众数特点：出现频数最高的数，不受极端值影响，但是不容易确定；适用于任意类型数据，特别是单峰对称分布；仅使用频数最高这一信息，信息损失较大；2、刻画离散程度的描述统计量、刻画离散程度的描述统计量离散程度是指一组数据远离其离散程度是指一组数据远离其“中心值中心值”的程度。的程度。如果数据都紧密地集中在如果数据都紧密地集中在“中心值中心值”的周的周围，数据的离散程度较小，说明这个围，数据的离散程度较小，说明这个“中心值中心值”对数据的代表性好；相反，如果数据仅是比对数据的代表性好；相反，如果数据仅是比较松

25、散地分布在较松散地分布在“中心值中心值”的周围，数据的离的周围，数据的离散程度较大，则此散程度较大，则此“中心值中心值”说明数据特征是说明数据特征是不具有代表性的。不具有代表性的。常见的刻画离散程度的描述统计量如下：常见的刻画离散程度的描述统计量如下：（1）全距（）全距（Range）：也称极差，是数据的最）：也称极差，是数据的最大值（大值（Maximum）与最小值（）与最小值（Minimum）之间的绝对离差。）之间的绝对离差。特点：特点：易受极端值影响；不能反映中间数据分布；一般是作预备性检查。（2）方差（）方差（Variance）：也是表示变量取值）：也是表示变量取值离散程度的统计量，是各变

26、量值与算数平均离散程度的统计量，是各变量值与算数平均数离差平方的算术平均数。其计算公式为：数离差平方的算术平均数。其计算公式为：特点：特点：容易受极端值影响；计算中使用了均值，因此，均值必须能够代表集中度时才能适用。是离散指标中最可靠的。2211()niixxn（3）标准差（）标准差（Standard Deviation：Std Dev）：表示变量取值距离均值的平均离散程）：表示变量取值距离均值的平均离散程度的统计量。其计算公式为：度的统计量。其计算公式为：标准差值越大，说明变量值之间的差异越标准差值越大，说明变量值之间的差异越大，距均值这个大，距均值这个“中心值中心值”的离散趋势越大。的离散

27、趋势越大。211()niisxxn（4）均值标准误差（）均值标准误差（Standard Error of Mean）：）：描述样本均值与总体均值之间的平均差异程度的统计量描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为：。其计算公式为：其中：其中：为总体标准差，为总体标准差，n为样本单位数为样本单位数22().()xXS E of MeanMxE xMn3、刻画分布形态的描述统计量、刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称数据的分布形态主要指数据分布是否对称，偏斜程度如何，分布陡峭程度等。，偏斜程度如何，分布陡峭程度等。刻画分布形态的统计量主要有两种：刻画分

28、布形态的统计量主要有两种：（1）偏度（）偏度（Skewness）：描述变量取值分）：描述变量取值分布形态对称性的统计量。其计算公式为：布形态对称性的统计量。其计算公式为：3311()/niiSkewnessxxn 当分布为对称分布时，正负总偏差相等，偏当分布为对称分布时，正负总偏差相等，偏度值等于度值等于0；当分布为不对称分布时，正负总偏差不相等当分布为不对称分布时，正负总偏差不相等，偏度值大于，偏度值大于0或小于或小于0。偏度值大于偏度值大于0表示正偏差值大，称为正偏或表示正偏差值大，称为正偏或右偏右偏(众数众数中位数中位数中位数中位数平均数平均数)。偏度绝对值越大，表示数据分布形态的偏斜偏

29、度绝对值越大，表示数据分布形态的偏斜程度越大。程度越大。（2）峰度（）峰度（Kurtosis）：描述变量取值分布形态陡峭）：描述变量取值分布形态陡峭程度的统计量。其计算公式为：程度的统计量。其计算公式为：当数据分布与标准正态分布的陡峭程度相同时，当数据分布与标准正态分布的陡峭程度相同时，峰度值等于峰度值等于0；峰度大于；峰度大于0表示数据的分布比标准正态表示数据的分布比标准正态分布更陡峭，为尖峰分布；峰度小于分布更陡峭，为尖峰分布；峰度小于0表示数据的分表示数据的分布比标准正态分布平缓，为平峰分布。布比标准正态分布平缓，为平峰分布。4411()/3niiKurtosisxxn5.2.2 计算基

30、本描述统计量的操作计算基本描述统计量的操作（1）选择菜单）选择菜单AnalyzeDescriptive StatisticsDescriptives,出现如下窗口：出现如下窗口：（2）将需计算的数值型变量选择到）将需计算的数值型变量选择到Variable(s)框中。框中。（3）单击）单击Option按钮指定计算哪些基本描述统计量，出现按钮指定计算哪些基本描述统计量，出现如下窗口：如下窗口：Options 对话框对话框基本统计量当Variables框中有多个变量时，此框确定其输出顺序：按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布在上面窗口中

31、，用户可以指定分析多变在上面窗口中，用户可以指定分析多变量时结果输出的次序（量时结果输出的次序（Display Order）。）。其中，其中，Variable list表示按变量在数据窗口表示按变量在数据窗口中从左到右的次序输出；中从左到右的次序输出；Alphabetic表示按表示按字母顺序输出；字母顺序输出；Ascending Means表示按表示按均值升序输出；均值升序输出；Descending Means表示按表示按均值降序输出。均值降序输出。至此，至此，SPSS便自动计算所选变量的基便自动计算所选变量的基本描述统计量并显示到输出窗口中。本描述统计量并显示到输出窗口中。5.2.3 计算基

32、本描述统计量的应用举例计算基本描述统计量的应用举例 1.利用居民储蓄调查数据，对存款金额利用居民储蓄调查数据，对存款金额变量计算基本描述统计量。有以下分析变量计算基本描述统计量。有以下分析目标：目标：计算存款金额的基本描述统计量，并分计算存款金额的基本描述统计量，并分别对城镇储户和农村储户进行比较。别对城镇储户和农村储户进行比较。分析思路：分析思路：首先，由于存（取）款金额数据为定距型变首先，由于存（取）款金额数据为定距型变量，可直接采用基本描述统计分析。量，可直接采用基本描述统计分析。然后，按照户口对数据进行拆分（然后，按照户口对数据进行拆分（Split file），然后计算存（取）款金额的

33、基本描），然后计算存（取）款金额的基本描述统计量。述统计量。2.分析储户一次存款的数量是否存在不均衡现象分析储户一次存款的数量是否存在不均衡现象。分析：分析：(1)假设储户一次存款金额服从正态分布，跟据假设储户一次存款金额服从正态分布，跟据3 原则，异常值通常为原则，异常值通常为3个标准差范围之外的值个标准差范围之外的值，可通过对数据的标准化处理来判断。标准化的，可通过对数据的标准化处理来判断。标准化的数学定义为：数学定义为：iixxz(2)计算储户一次存款金额的标准化值。计算储户一次存款金额的标准化值。（通过标准化可以（通过标准化可以得到一系列新变量值，通常称为标准化值或得到一系列新变量值，

34、通常称为标准化值或z分数。计算标准化值可以通过对话框中的分数。计算标准化值可以通过对话框中的复选框复选框save standardized values as variables来实现，并将结果保存在一个来实现，并将结果保存在一个新变量中。该变量的命名规则为字母新变量中。该变量的命名规则为字母z+原变量名的前七个字符。）原变量名的前七个字符。）（3）接下来可对新变量进行排序并浏览其标准化）接下来可对新变量进行排序并浏览其标准化值的取值情况，可以发现值的取值情况，可以发现z分数值得绝对数大于分数值得绝对数大于3的储户是存在的。的储户是存在的。（4）对其分组为三组：）对其分组为三组：za5-3，-

35、3za53.(5)进行频数分析可以发现存款金额存在不均衡现进行频数分析可以发现存款金额存在不均衡现象。象。思考：频数和基本描述统计量可以思考：频数和基本描述统计量可以描述单个变量的分布情况。能否用描述单个变量的分布情况。能否用于分析多个变量的联合分布情况？于分析多个变量的联合分布情况？5.3 交叉分组下的频数分析5.3.1 目的和基本任务目的和基本任务交叉分组下的频数分析又称列联表分析。交叉分组下的频数分析又称列联表分析。1、目的：分析多个分类变量不同取值下的、目的：分析多个分类变量不同取值下的分布，进而分析变量之间的相互影响和关分布，进而分析变量之间的相互影响和关系。即分析两个或两个以上分类

36、变量的分系。即分析两个或两个以上分类变量的分布情况。布情况。适用范围：两个或两个以上定类或定序适用范围：两个或两个以上定类或定序变量变量.2、基本任务：、基本任务：（1）根据收集到的样本数据，产生二维）根据收集到的样本数据，产生二维或多维交叉列联表；或多维交叉列联表；（2）在交叉列联表的基础上，对两两变）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。量间是否存在一定的相关性进行分析。若p-值 ,拒绝 H0问题2：择业中考虑的主要因素（多选）例如：购买商业保险的原因(P126)有效百分比（Valid Percent）：即各频数占有效样本数的百分比，这里有效样本数总样本缺失样本数

37、Explore 主对话框因为限选三项，故应设三个变量，编码依次为1，3，6。如果该估计量离均值较远，则说明数据可能存在异常值，此时宜用该估计量替代均值以反映集中趋势。为进行多选项分析，首先定义名为set1的多选项变量集，其中包括q13a、q13b、q13c三个变量，然后对多选项变量集进行频数分析；还可以直接指定分位点（Percentile）。累计百分比（Cumulative Percent）：即各百分比逐级累加起来的结果。如果行和列变量在统计上是独立的或不相关的，那么会在单元格中输出期望的观测值的数量。2 多选项分析的基本操作仅使用频数最高这一信息，信息损失较大；00 2 .一共会输出四种m估

38、计量，其中huber适用于数据接近正态分布时，另三种则适用于数据中有许多异常值的情况；为观察频数，为期望频数（Expected Count）。然后，按照户口对数据进行拆分（Split file），然后计算存（取）款金额的基本描述统计量。3发展前途 4地理区位至此，SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。然后，按照户口类型对数据进行拆分（Split file）并重新计算分位数，分别得到城镇户口和农村户口的存（取）款金额的四分位数。5.3.2 交叉列联表的主要内容交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表

39、是两个或两个以的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度例：职工基本情况数据按职称和文化程度编制的二维交叉列联表（见下页表）：编制的二维交叉列联表（见下页表）：职职称称 *文文化化程程度度 C Cr ro os ss st ta ab bu ul la at ti io on n1110333.3%33.3%33.3%.0%100.0%25.0%25.0%20.0%.0%18.8%6.3%6.3%6.3%.0%18.8%1300425.0%75.0%.0%.0%100.0%25.0%

40、75.0%.0%.0%25.0%6.3%18.8%.0%.0%25.0%2013633.3%.0%16.7%50.0%100.0%50.0%.0%20.0%100.0%37.5%12.5%.0%6.3%18.8%37.5%00303.0%.0%100.0%.0%100.0%.0%.0%60.0%.0%18.8%.0%.0%18.8%.0%18.8%44531625.0%25.0%31.3%18.8%100.0%100.0%100.0%100.0%100.0%100.0%25.0%25.0%31.3%18.8%100.0%Count%within 职称%within 文化程度%of TotalC

41、ount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of Total高级工程师工程师助理工程师无技术职称职称Total本科专科高中初中文化程度Total 上表中的职称变量称为行变量（上表中的职称变量称为行变量（Row），文化程度称），文化程度称为列变量（为列变量（Column）。行标题和列标题分别是两个变量）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数（

42、的变量值（或分组值）。表格中间是观测频数（Observed Counts）和各种百分比。）和各种百分比。16名职工中，本名职工中，本科、专科、高中、初中的人数分别为科、专科、高中、初中的人数分别为4，4，5，3，构成，构成的分布称为交叉列联表的列边缘分布；高级工程师、工程的分布称为交叉列联表的列边缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分布；，构成的分布称为交叉列联表的行边缘分布；4个本科学个本科学历职工中各职称的人数分别是历职工中各职称的人数分别是1，1，2等，这些频数构成等，这些频数

43、构成的分布称为条件分布，即在行变量（列变量）取值条件下的分布称为条件分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。的列变量（行变量）的分布。在交叉列联表中，除了频数外还引进了各种百分比。在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的例如表中第一行中的33.3，33.3，33.3分别是分别是高级工程师高级工程师3人中各学历人数所占的比例，称为行百分比人中各学历人数所占的比例，称为行百分比（Row percentage），一行的百分比总和为），一行的百分比总和为100；表中第一列的；表中第一列的25.0，25.0，50.0分别是本科分别是本科学历学历4人中各职称人

44、数所占的比例，称为列百分比（人中各职称人数所占的比例，称为列百分比（Column percentage），一列的列百分比总和为），一列的列百分比总和为100，表中的，表中的6.3，6.3，12.5等分别是总人数等分别是总人数16人中各交叉组中人数所占的百分比，称为总百分比（人中各交叉组中人数所占的百分比，称为总百分比（Total percentage），所有格子中的总百分比之和也），所有格子中的总百分比之和也为为100。5.3.3 交叉分组下的频数分析的基本操交叉分组下的频数分析的基本操作作（1）菜单选项）菜单选项AnalyzeDescriptive StatisticsCrosstabs，出

45、现窗口如下：，出现窗口如下：该框中的变量该框中的变量作为分布表中作为分布表中的行变量和列的行变量和列变量。变量。该框中的变量作该框中的变量作为控制变量，决为控制变量，决定频数分布表中定频数分布表中的层，可有多个的层，可有多个控制变量。控制变量。显示每显示每一组中一组中各变量各变量的分类的分类条形图。条形图。只输出统只输出统计量，不计量，不输出多维输出多维列联表。列联表。Crosstabs 对话框对话框（2）如果进行二维列联表分析，则将行变量选）如果进行二维列联表分析，则将行变量选择到择到Row(s)框中，将列变量选择到框中，将列变量选择到Column(s)框中。如果框中。如果Row(s)和和C

46、olumn(s)框中有多个变量名，框中有多个变量名，SPSS会将会将行列变量一一配对后产生多张二维列联表。如行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析，则将其他变量果进行三维或多维列联表分析，则将其他变量作为控制变量选到作为控制变量选到Layer框中。多控制变量间框中。多控制变量间可以是同层次的，也可以是逐层叠加的，可通可以是同层次的，也可以是逐层叠加的，可通过过Previous或或Next按钮确定控制变量间的层次按钮确定控制变量间的层次关系。关系。（3）选择）选择Display clustered bar charts选项，指定绘制各变量交叉分组下频数分布条选项，指定

47、绘制各变量交叉分组下频数分布条形图。形图。Suppress tables表示不输出列联表表示不输出列联表，在仅分析行列变量间关系时可选择该选项。，在仅分析行列变量间关系时可选择该选项。（4）单击）单击Cells按钮指定列联表单元格中的输按钮指定列联表单元格中的输出内容，窗口如下：出内容，窗口如下：Crosstabs的的Cell Display 对话框对话框选择在列联表中输出的统计量，选择在列联表中输出的统计量，包括观测量数、百分比、残差包括观测量数、百分比、残差输出观测量的实际数量输出观测量的实际数量如果行和列变量在统计如果行和列变量在统计上是独立的或不相关的，上是独立的或不相关的，那么会在单

48、元格中输出期那么会在单元格中输出期望的观测值的数量。望的观测值的数量。输出单元格中观测量的数目占输出单元格中观测量的数目占整行全部观测量数目的百分比整行全部观测量数目的百分比输出单元格中观测值的数目占输出单元格中观测值的数目占整列全部观测量数目的百分比整列全部观测量数目的百分比输出单元格中观测量的数目占输出单元格中观测量的数目占全部观测量数目的百分比全部观测量数目的百分比计算非标准化残差计算非标准化残差计算标准化残差计算标准化残差计算调整后残差计算调整后残差 SPSS默认列联表单元格中只输出观测频数（默认列联表单元格中只输出观测频数（Observed）。为便于分析，通常还应指定输出）。为便于分

49、析，通常还应指定输出Percentage框中的行百分比（框中的行百分比（Row）、列百分比（）、列百分比（Column）、总百分比（）、总百分比（Total）。）。Counts框中的框中的Expected表示输出期望频数；表示输出期望频数；Residuals框中的各个框中的各个选项表示在各个单元格中输出剩余。其中，选项表示在各个单元格中输出剩余。其中，Unstandardized为非标准化剩余，定义为观测频数为非标准化剩余，定义为观测频数期望频数；期望频数；Standardized为标准化剩余，又称为标准化剩余，又称Pearson剩余，定义为：剩余，定义为：0.ReeeffStdsiduals

50、f（5）单击）单击Format按钮指定列联表各单元格的按钮指定列联表各单元格的输出排列顺序。输出排列顺序。Ascending表示以行变量取表示以行变量取值的升序排列，是值的升序排列，是SPSS默认项；默认项；Descending表示以行变量取值的降序排列表示以行变量取值的降序排列。（6）单击）单击Statistics按钮指定用哪种方法分析按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，其中，行变量和列变量间的关系，窗口如下，其中，Chi-Square为卡方检验。为卡方检验。5.3.4 交叉列联表行列变量间关系的分析交叉列联表行列变量间关系的分析对交叉列联表中的行变量和列变量之间关系进

展开阅读全文