SPSS统计分析基础教程课件.ppt_163文库

资源描述

1、统计学实践第1 1章数据分析概述与软件入门1.1 SPSS软件概述1.1.1 SPSS简介 SPSS（Statistics Package for Social Science ）for Windows是一种运行在Windows系统下的社会科学统计软件软件包。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。一、功能强大（1）囊括了各种成熟的统计方法与模型，为统计分析用户提供了全方位的统计学算法，为各种研究提供了相应的

2、统计学方法。（2）提供了各种数据准备与数据整理技术。（3）自由灵活的表格功能。（4）各种常用的统计学图形。SPSS附加模块功能SPSS Advanced一般线性模型、混合线性模型、对数线性模型、生存分析等SPSS Categories对应分析、感知图、Proxscal等SPSS Complex Sample多阶段复杂抽样技术等SPSS Conjoint正交设计、联合分析等，适用于市场研究SPSS Exact Test精确P值计算、随机抽样P值计算等SPSS Maps在地图上展示数据等SPSS Missing Value Analysis缺失数据的报告与填补等SPSS RegressionLog

3、istic回归、非线性回归、Probit回归等SPSS Tables交互式创建各种表格（如堆积表、嵌套表、分层表等）SPSS TrendsArima模型、指数平滑、自回归等1.1.2 spss的安装一、启动Windows 后，把SPSS 系统安装软盘（或光盘）插入软驱（或光驱），并找到SPSS的安装程序的可执行文件Setup.exe。二、双击 Setup.exe 文件，安装程序向导将给出每一步操作的提示。在出现Welcome（欢迎）窗口后，选择Next进入下一步。三、安装程序显示Software License Agreement对话框时，选择Yes接受显示的协议条款。1.2 spss操作入门

4、1.2.1 spss软件的启动与退出单击Windows 的开始按钮，在程序菜单项SPSS for Windows中找到SPSS 16.0 for Windows并单击。1.2.2 SPSS的窗口（1）数据编辑窗口（SPSS Data Editor）Spss处理数据的工作全在此窗口进行。（2）结果管理窗口（SPSS Output viewer）此窗口用于存放分析结果。左边是目录区，右边是内容区。1.2.3 SPSS的四种运行方式一、菜单对话方式首先打开SPSS软件，然后选择菜单File Open file。然后，利用菜单Analyze Descriptive Statistics Frequen

5、cies，二、程序方式在Syntax编辑窗口中键入以下程序：Get file=c:program filesspssemployee data.sav.Frequencies variables = jobcat/order = analysis。只需要选择菜单Run All，运行该程序也一样会出现相同的分析结果。三、Include命令方式当编写Syntax程序时，如果发现将要编写的程序语句正好是另一个Syntax文件的内容；或者发现所需要的程序语句其实是几个Syntax文件的总和是，除了可以通过“Copy”、“Paste”的方法利用资源，生产一个新的Syntax文件外，还可以利用Inclu

6、de命令。Include c:sytaxsample.sps.第2章数据录入与数据获取spss数据分析的一般步骤：（1）.spss数据准备阶段：数据编辑窗口中定义数据结构，录入和修改spss数据。（2）.spss数据的加工整理阶段（3）.spss数据的分析阶段（4）.spss分析结果的阅读和解释2.1.1 统计软件中数据的录入格式（1）不同观测对象的数据不能在同一记录中出现，即同一观测数据应当独占一行。（2）每一个观测量指标或影响因素只能占据一列的位置，即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述数据格式概述即：一个观测占一行，一个变量占一列在录入数据时，归纳为以下

7、三步：第一步：定义变量名；第一步：指定每个变量的各种属性；第一步：录入数据。变量名不能与spss保留字相同，spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍变量属性介绍一、变量的储存类型SPSS中，变量有三种的基本类型：数值型、字符型和日期型。标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型：数值型的数据是0-9的阿拉伯数字和其他符号，如美元符号、逗号或圆点组成的。字符型：字符型数据的默认显示宽度为8个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。注意：在输入数据时不应输

8、入引号，否则双引号将会作为字符型数据的一部分。日期型：日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多，SPSS以菜单方式列出日期型数据的显示格式以供用户选择。关于日期型格式的几点说明：“m”在年与日（字母y与d）之间表示月份；在时与秒（字母h与s）之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式，不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期，回车后，系统将自动将输入的格式转化为指定的格式，显示在单元各种。二、变量的测量尺度在SPSS中使用Meas

9、ure属性对变量的测量尺度进行定义。（1）定类尺度（Nominal Measurement）：定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。特点：其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。（2）定序尺度（Ordinal Measurement）：定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。特点：由于定序变量只能侧度类别之间的

10、顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只能排序，不能进行运算。（3）定距尺度（Interval Measurement）：指如身高、体重、血压等连续数值型数据，也包括人数、商品件数等离散数值型数据特点：不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定距变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。三、变量名与变量标签值Label：定义变量名标签Value：定义变量值标签四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中，对字符型变量，默认的缺失值为空

11、格；对数值型变量，默认的缺失值为零。2.2 数据的直接录入2.2.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条Variable View表用来定义和修改变量的名称、类型及其他属性，如图所示。如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等。Name：变量名。Type：变量类型。变量类型有8 种，最常用Numeric数值型。Width：变量所占的宽度。Decimals：小数点后位数。Label：变量标签。关于变量涵义的详细说明。Values：变量值标签。关于变量各

12、个取值的涵义说明。Missing：缺失值的处理方式。Columns：变量在Date View 中所显示的列宽（默认为8）。Align：数据对齐格式（默认为右对齐）。Measure：数据的测度方式。定距尺度、定序尺度和定类距尺度三种。2.2.2单选题的录入单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。2.2.3多选题的录入一、多重二分法（Multiple Dichotomy Method）所谓多重二分法，是在编码的时候，对应每一个选项都要定义一个变量，有几个选项就有几个变量，这些变量均为二分类，他们各自代表对一个选项的选择结果。二、多重分类法（Mu

13、ltiple Category Method）多重分类法，也是利用多个变量对一个多选题的答案进行定义，应该用多少个变量，由被访者实际可能给出的最多答案数而定。三、多选题录入在三、多选题录入在spss中的实现中的实现2.3 数据的保存2.3.1 存为spss格式2.4.2 存为其他数据格式Excluded Variables：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作区中。New Working Data：新工作数据变量栏。Match Case on Key Variable in sort：排序文件中按关键变量匹配记录选项。Both files provide case：由外部文

14、件和当前数据量两者提供记录。External file is keyed table：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。Working Data File is keyed table：当前数据为关键表。Key Variables：关键变量栏，在拒绝变量选择某变量作为关键变量。Indicate case source as variable：指示记录来源的变量选项。第4章连续性变量的统计描述与参数估计4.1 连续变量的统计描述概述4.1.1 统计描述中的可用工具（1）各种初步汇总描

15、述方法频数、百分位数。（2）各种统计描述指标均值、标准差、四分位数间距。（3）统计表（4）统计图4.1.2 连续变量的统计描述指标体系年龄70.065.060.055.050.045.040.035.030.025.0年龄Frequency3020100Std. Dev = 10.23 Mean = 42.7N = 70.00（1）集中趋势（Central Trend）：均数（Mean）中位数（Median）众数（Mode）总合（Sum）（4）其他趋势百分位数指标（Percentile）、M统计量（M-Estimators)、极端值（Outlier）。（2）离散趋势（Dispersion Tr

16、end）标准差（Std. Deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E. Mean）（3）分布特征（Distribution Tendency）偏度系数（Skewness）和峰度系数（Kurtosis）4.1.3 spss中的相应功能1、Spss的用于连续变量统计描述的过程，均集中在Descriptive Statistics子菜单中。（1）Frequencies：产生原始数据的频数表，并能计算各种百分位数。控制频数表输出范围类型的最大数目（2）Descriptive过程该过程用于一般性的统计描述，相对于

17、Frequencies过程而言，它不能绘制统计图。（3）Explore 过程该过程用于对连续性资料分布状况不清楚时的探索性分析，它可以计算许多描述统计量，给出各种统计图，并进行简单的参数估计。（4）Ratio 过程用于对两个连续性变量计算相对比指标。2、Compares means 均值比较means过程：means过程的优势在于各组的描述指标被放在一起便于相互比较，并且如果需要，可以直接输出结果，无须再次调用其它过程。4.2集中趋势的的描述指标4.2.1 算术平均算术平均（Arithmetic Mean）是最常用的描述输送距分布的集中趋势的统计良。总体均数（Population Mean）用

18、希腊字母表示，样本均数常用表示。一、算术平均数的定义和性质XXaaXXXXXnXnXXXXiiiin22210二、均数的意义二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时，却丢失了某些有用的信息，一方面它把各个观测数据之间的差异性掩盖了起来，另一方面由于平均数对于个别极端值反应比较灵敏，因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围三、均数的适用范围严格的讲平均数指示用于定距变量。但有时对于定序变量，求平均等级也可以使用平均数。4.2.2 中位数中位数（Median）是将总体各单位的标志值

19、按大小顺序排列，处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料，首先必须将标志值按大小顺序。设排序结果为：则中位数就可以按下列方式确定：二、中位数的适用范围nXXXX321为偶数时当为奇数时当n2/n12/2/2/1nnnXXMXM4.2.3其他集中趋势指标一、截尾均数由于均数较易受极端之的影响，因此可以考虑将数据排序后，按照一定的比例去掉最两端的数据，只是用中部的数据来求均数。如果截尾均数河源均数相差不大，则说明数据不存在极端值，或者两侧极端值的影响正好抵消；反之，则说明数据中有极端值，此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数，即两端各去掉5%的数据。

20、二、几何均数二、几何均数几何均数适用于原始数据分布不对称，但经过对数转换后称对称分布的资料。nXGXXXXGinnlglg1321几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数。四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数（Mode）众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量，特别适用于单峰对称的情况，是比较两个分布是否接近首先要考虑的参数。在SPSS中，众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。在SPSS中，调和均数可以在Report子菜单的4个报表过程过程中计算出来。xnxxxnnxxxGnn111

21、1111121214.3 离散趋势的描述指标4.3.1全距（Range）又称为极差，是一组数据中最大值（Maximun）与最小值（Minimum）之差。极差反映的是变量分布的差异范围或离散程度，在总体中，任何两个标志值之差都不可能超过极差。极差存在两点不足：一是它仅仅取决于两个极端之的水平，不能反映其间的变量分布情况，提供的信息太少。二是它容易受个别极端值的影响，不符合稳健型的要求。minmaxXXR4.3.2 方差和标准差一、方差（Variance）和标准差（Standard Deviation）的定义将离均差平方和（Sum of Squares of Deviation from Mean

22、，SS）除以观察例数N，就得到方差：方差越大，数据分布离散程度越大。对于样本数据而言，方差的计算公式为：将方差开方，就得到标准差。对于同性质的数据来说，标准差越小，表明数据的变异程度越小，即数据越整齐，数据的分布范围越集中；标准差越大，表明数据的变异程度越大，即数据越参差不齐，分布越分散。二、方差和标准差的适用范围：方差和标准差的适用范围应当是正态分布。NXXi22122nXXSi4.3.3 百分位数、四分位数与四分位数间距分位差是对极差指标的一种改进，是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。一、分位数一、分位数分位数：是一种位

23、置指标，用PX表示。一个百分位数PX将一组观测之分为两部分，理论上有x%的观测值比它小，（100-x）%的观测值比它大。四分位数（quartile）、十分位数（decile）、百分位数（percentile），他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。二、四分位数二、四分位数四分位数：实际上是三个数值的总称，分别是P25、P50、P75分位数。很显然，中间的分位数是中位数，因此通常所说的四分位数是指第一个四分位数（下四分位数）和第三个四分位数（上四分位数）。上下四分位数的差值称为四分位数间距：QR=Q3-Q14.3.4 变异系数当需要比较两组数据离

24、散程度大小的时候，往往直接使用标准差来进行比较并不合适。这可以被分为两种情况：（1）测量尺度相差太大；（2）数据量纲不同。在以上情形中，就应当消除测量尺度和量纲的影响，而变异系数（Coefficient of Variance），它是标准差和其平均数的比率。XSCV 4.4 连续变量统计描述实例4.4.1 数据背景介绍4.4.2 使用Explore过程进行分析探索分析是对数据进行初步的观察分析，主要的分析项目有：观察数据的分布特征：可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性，包括考察数据中是否存在异常值等。正态分布检验：检验数据是否服从正态分布。方差齐性的检验：用

25、Levene检验比较各组的方差是否相等。1、单击Analyze-Descriptive statistics-Explore，打开Explore主对话框：一、分析操作一、分析操作（3）在Display栏中选择输出项，依次是Both选择项，输出图形与描述统计量（系统默认），只输出描述统计量和只输出图形。本例中选择默认项。（1）从左侧的变量列表中选出变量”身高”，送入Dependent List栏。（2）选择”性别”作为因子变量，送入Factor List栏。有了因子变量，SPSS会把所有的观测个体按照因子变量的取值分成若干各组，再分组考察Dependent List中

26、的各个变量，如果不选择因子变量，SPSS会对全部观测来做探索分析。2、单击Statistics统计量按钮，打开Statistics对话框,选择统计输出量。（1）Descriptives基本统计描述。同时指定均值的置信区间的置信度，系统默认为95。（2）M-估计（M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化）。（3）Outliers输出分析数据中五个最大值和五个最小值。（4）Percentiles输出百分数。 3、单击Plots 图形按钮，打开Plots对话框。（1）Boxplot 箱图选择栏 Factor levels together因变量按因素水平分组（系统默认）

27、；Dependents together 所有因变量生成一个并列箱图（本例中选择项）；None不显示箱图。（2）Descriptive 描述图形栏Stem-and-leaf 茎叶图Histogram 直方图（3）Normality plots with test(复选项)，正态分布检验并输出Q-Q图。 None：不产生回归直线的斜率和方差齐性检验；Power Estimation转换幂值估计（对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图）选项；Transformed 变换原始数据选择项；Untransformed不变换变换原始数据选择项。（4）Spread vs level

28、with Levene Test栏，对所有的散布层次图，同时输出回归直线的斜率以及方差齐性的Levenes检验。4、单击Option按纽，打开Option对话框如图所示。可选择缺失值的处理方式，SPSS提供三种处理方式：（1）Exclude cases listwies 剔除带缺失值的观测量（系统默认）。（2）Exclude cases pairwise 剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。（3）Report values 输出频数表时同时输出缺失值。5、单击OK，得到相应的输出结果如表所示。二、基本的分析结果Case Processi ng Sum m aryCas

29、e Processi ng Sum m ary6995.8%34.2%72100.0%14699.3%1.7%147100.0%性别男女身高NPercentNPercentNPercentVali dM i ssingTotalCasesDescript ivesDescript ives174.71.671173.37176.05174.70175.0031.0625.573159188298-.034.289.138.570162.88.430162.03163.73162.83163.0026.9505.191151178277.157.201-.203.399M eanLower Bo

30、undUpper Bound95% ConfidenceInt erval f or M ean5% Trim m ed M eanM edianVar ianceStd. Deviati onM i nim umM axi m umRangeInt erquarti le RangeSkewnessKur tosisM eanLower BoundUpper Bound95% ConfidenceInt erval f or M ean5% Trim m ed M eanM edianVar ianceStd. Deviati onM i nim umM axi m umRangeInt e

31、rquarti le RangeSkewnessKur tosis性别男女身高StatisticStd. Error三、输出百分位数和极端值列表Percentil esPercentil es165.00168.00170.00175.00178.00182.00185.00155.00156.70159.00163.00166.00170.00172.00170.00175.00178.00159.00163.00166.00性别男女男女身高身高W eightedAverage(Definiti on 1)Tukey s Hinges5102550759095Percentiles16017

32、0180190身高05101520FrequencyMean = 174.71Std. Dev. = 5.573N = 69for sex= 男Histogram身高 Stem-and-Leaf Plot forsex= 男 Frequency Stem & Leaf 1.00 15 . 9 .00 16 . 9.00 16 . 555778999 20.00 17 . 00000000011112334444 24.00 17 . 555555555556677777788889 12.00 18 . 000000122234 3.00 18 . 668 Stem width: 10 Eac

33、h leaf: 1 case(s)男女性别150160170180190身高114箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的水平线段是数据的最大值（奇异点除外），中间矩形箱子的底所在位置是数据的第一个四分位数（即25分位数），箱子顶部所在位置是数据的第三个四分位数据（即75分位数）。箱子中间的水平线段刻画的是数据的中位数（即50分位数）。 4.4.3使用其他过程过程进行分析一、Descriptive过程的结果Descriptive StatisticsDescriptive Statistics215151188166.677.668215身高Valid N (listwis

34、e)NMinimumMaximumMeanStd. Deviation二、Frequencies过程的结果Statisti csStatisti cs身高2154155.80160.00165.00172.00180.00Val idM issi ngN525507595Per centiles4.5 连续性变量的参数估计根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断（Statistical Inference），它可以被分为参数估计和假设检验两大类。4.5.1 正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布（Normal Distr

35、ibution） 22221Xexf二、正态分布的特征（1）正态分布是一条对称曲线，关于均数对称，因此均数被称为正态分布的位置参数。（2）曲线是单峰，在均值出达到最高点。（3）正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。（4）曲线无论向左或向右延伸，都越来越接近横轴，但不会与横轴相交，以横轴为渐近线。（5）约68%的个体的取值与平均数在距离一个标准差之内。（6）约95%的个体取值与平均数的距离在1.96个标准差之内。（7）99%个体的取值与平均数的距离在2.58个标准差。三、标准正态分布（Standard Normal Distribution）将原来的正态分布转换

36、为标准正态分布。X在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分，只需要选中主对话框左下角的Save standardized values as variables 复选框即可。四、偏度和峰度（1）偏度（Skewness）：偏度是用来描述变量取值分布形态的统计量，只分布不对称的方向和程度。样本偏度系数：331/1sxxnnii分布为对称分布。偏右；即长尾巴在左边，峰尖分布，为负偏或左偏，偏左；即长尾巴在右边，峰尖分布，为正偏或右偏，000偏态的方向指的应当是长尾的方向，而不是高峰的位置。(2)峰度（Kurtosis）：峰度用来描述变量取值分布形态陡缓的统计量，是

37、指分布图形的的尖削程度或峰凸程度。样本的峰度系数：3/1441SXXnnii分布为正态峰。峰平坦。即形状要比正态分布的分布为低峰度的，峰的形状也比较尖。即比正态分布峰要陡峭分布为高峰度的，0004.5.2 参数的点估计参数的点估计就是选定一个适当的样本统计量作为参数的估计量，并计算出估计值。对于所选统计量是否适于作参数估计量，有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数，但应在真实值附近摆动。一致性是指样本容量越大，估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求，则应当选取误差更小的一个作为估计值。在许多种情况下，样本统计量本身往往就是相应的

38、总体参数的最佳估计，此时就可以直接取相应的样本统计量作为总体参数的点估计。一、矩法一、矩法二、极大似然估计法该方法的原理是在已知总体的分布，但未知其参数值时，在待估参数的可能取值范围内进行搜索，使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计值的是该统计量具有稳健性，当数据存在异常值时受影响较小，而且对大部分的分布而言都很好。M-EstimatorsM-Estimators174.66174.74174.70174.75162.80162.81162.82162.81性别男女身高HubersM-EstimatoraTukeysBiweightbHampelsM-Estimat

39、orcAndrewsWavedThe weighting constant is 1.339.a. The weighting constant is 4.685.b. The weighting constants are 1.700, 3.400, and 8.500c. The weighting constant is 1.340*pi.d. 文件估计有M估计、R估计等不同方法。SPSS中数出的M估计量有4种，它们分别是Huber、Andrews、Hampel和Tukey所提出的，实际上就是所用的函数不同。一般而言，Huber适用于数据接近正态分布的情况，另外三种则适用于数据中许多异常

40、值的情况。如果M估计量里平均数和中位数较远，则数据中可能存在异常值。此时，应该用M估计量替代平均数以反映集中趋势。4.5.3 参数的区间估计一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间，该区间称为总体参数的1-a可信区间或置信区间（Confidence Interval）。对于任意可信度的区间情况，总体均值在100（1-a）%可信区间为：nSuXnSuX2/2/的正态分布。、方差为值为的抽样分布近似服从均样本通常要求充分大时的随机样本，当为的总体中，抽取容量、方差为从均值这一定理可以

41、表述为：中心极限定理。的。这就是统计学上著名总体方差的，方差为均值分布的数学期望为总体于正态分布，其均值的抽样分布都将趋样本从正态分布不论原来的总体是否服通常要求的增大随着样本容量nnnnnnn/X),30(/1,),30(22第5 5章分类变量的统计描述与参数估计5.1分类变量的统计描述概述5.1.1分类变量的统计描述指标体系一、频数分布情况描述各个类别的样本数和所占比例分别称为频数（绝对频数）和百分比（构成比）。累计频数是指本类别及较低类别出现的次数之和，累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。根据类别的有序性，分类变量可以分为有序分类变量（Ordinal Var

42、iable）和无序分类变量（Nominal Variable）。当集中趋势显著时，用众数（Mode）作为总体的代表值。二、集中趋势的描述二、集中趋势的描述所谓众数，使之出现次数最多的那个数。如果只有一个众数称为单众数，多于一个的称为复众数。（1）比（Ratio）：比指的是两个有关指标之比A/B，用于反映两个指标在数量/频数上的大小关系。三、使用相对数进行深入描述三、使用相对数进行深入描述（2）构成比（Proportion）总样本数某一组成部分的样本数构成比象数该时期开始时的观察对对象数观察期内发生某事件的某事件的发生率率是一个时间概念，或者说具有速度、强度含义的指标，用于说明某个时间发生的

43、频率或强度。分观察对象为K部分（A1、A2、Ak），其中某一个/多个部分的例数占总例的比例未构成比，它描述某个事物内部各构成部分所占的比重。（3）率（）率（Rate）5.1.2 分类变量的联合描述当一共有两个分类变量时，这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表，也称列联表。当观察的现象与两个因素有关时，如某种服装的销量受价格和居民收入影响；某种产品的生产成本受原材料价格和产量的影响等等，交叉列联表分析可以比较好的反映出两个因素之间有无关联性，两因素与现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务：1、根据收集的样本数据，产生二维或多维交叉列联表；2、在交叉列

44、联表的基础上，对两两变量间是否存在关联性进行检验。jjiiiijjjijinnnnnnn.,个。类的有于类又有属个个体中既有属于。，类：有，属性，类：有进行分类。属性和个个体根据两个属性列联表为例。假设有以二维的ijjic21r21nBAnBBBcBAAArABAncr5.2分类变量的统计描述实例5.2.1使用Frequencies过程输出频数表具体操作:Analysis Descriptive Statistics FrequenciesStatisticsStatistics21921900ValidMissingN性别血型性别性别7232.932.932.914767.167.1100.

45、0219100.0100.0男女TotalValidFrequencyPercentValid PercentCumulativePercent血型血型6730.630.630.63013.713.744.33716.916.961.28538.838.8100.0219100.0100.0AABBOTotalValidFrequencyPercentValid PercentCumulativePercent1、打开数据，单击AnalyzeDescriptive Statistics Crosstabs对话框。 2、如果是二维列联表分析，可以将行变量选择进入Row(s)中，将列变量选择进入C

46、olumn(s)框中。如进行三维以上的列联表，可以将其它变量作为控制变量选到Layer框中。多控制变量可以是同层次的也可以是逐层叠加的。5.2.2 使用使用Crosstabs过程输出列联表过程输出列联表3、Display clustered bar chart选择项，可以指定绘制各变量交叉频数分布柱形图。Suppress table表示不输出列联表，只有在分析行列变量间关系时选择此项。此例中不选择这一项。4、单击Cell按纽，打开Crosstabs：Cell Display对话框，如图所示。从对话框中指定列联表单元格中的输出内容。在 C o u n t s 框中选择Observe

47、d 观察值(系统默认)或E x p e c t e d 期望频数。在Percentages框内选择Row行百分比、Column列百分比及Total总百分比。在Residuals框中选择输出残差。其中Standardize为标准化残差。 Adj. standardize 为修正的标准化残差。 Case Processing SummaryCase Processing Summary219100.0%0.0%219100.0%性别 * 血型NPercentNPercentNPercentValidMissingTotalCases性别 * 血型 Crosstabulation性别 *

48、血型 Crosstabulation16817317222.2%11.1%23.6%43.1%100.0%23.9%26.7%45.9%36.5%32.9%7.3%3.7%7.8%14.2%32.9%5122205414734.7%15.0%13.6%36.7%100.0%76.1%73.3%54.1%63.5%67.1%23.3%10.0%9.1%24.7%67.1%6730378521930.6%13.7%16.9%38.8%100.0%100.0%100.0%100.0%100.0%100.0%30.6%13.7%16.9%38.8%100.0%Count% within 性别% wit

49、hin 血型% of TotalCount% within 性别% within 血型% of TotalCount% within 性别% within 血型% of Total男女性别TotalAABBO血型Total5.3 多选题的统计描述5.3.1 多选题的描述指标体系在多选题分析中比较特别的描述指标有：（1）应答人数：是指选择了本项人数。（2）应答人数百分比（Percent of Cases）：选择该项的人占总人数的比例。（3）应答人次：选择本选项的人次。（4）应答次数百分比（Percent of Responses）：在作出的选择中，选择该项的人数占总次数的比例。5.3.2 分析实

50、例操作步骤：Analyze Multiple Response Frequencies1、Define Sets过程该过程指定变量组成一个多重响应或多重两分数集，并应用于频数表和交叉列表。2、Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表。3、Crosstabs过程该过程提供带有另一种变量的，已定义的多重或多重两分数据集交叉表。5.4 分类变量的参数估计5.4.1 二项分布的参数估计一、二项分布二项分布又称为贝努里（Bernoulli）分布，是一种具有广泛应用的离散型随机变量的概率分布。二项分布研究的是试验仅有两种结果的分布（这种试验称为贝努里试验），如某产品质量合

展开阅读全文