第三章描述性统计分析37课件.ppt_163文库

资源描述

1、第3章描述性统计分析描述性统计和推断性统计n统计描述q单变量统计描述：描述单个变量之分布q双变量统计描述：描述两个变量之相关n统计推论q参数估计q假设检验统计量n统计分析往往是从了解数据的基本特征开始的。统计上，需要把样本数据所含信息进行概括、融合和抽象，从而得到反映样本数据的综合指标，这些指标称为统计量。描述性统计分析指标n统计量可分为两类q一类表示数据的中心位置，例如均值、中位数、众数等q一类表示数据的离散程度，例如方差、标准差、极差等用来衡量个体偏离中心的程度。描述单变量分布的三种方式n用数字呈现一个变量的分布n用表格呈现一个变量的分布n用图形呈现一个变量的分布nFrequencies

2、nDescriptivenExplore1、Frequenciesn即适用于分类变量，也适用于连续变量n能够产生统计值n能够产生统计表（频数表）n能够产生统计图（饼图、条图和直方图）3.1 频率分析 n频率分析主要通过频率分布表、条形图和直方图，以及集中趋势和离散趋势的各种统计量来描述数据的分布特征SPSS频率分析n步骤1：点击Frequencies，弹出对话框步骤2：从左侧变量框，选择分析变量步骤3：点击“OK”，自动出现频数分析nFrequencies的三个操作选项带有正态曲线的直方图按变量值升序排按频数降序排设置多变量表输出格式在同一表中输出多个变量的统计结果每个表中只输出一个变量的统

3、计结果3.2 中心趋势的描述n均值n均值标准误差n中位数n众数均值n均值即数据的算术平均数，是数据中心趋势的主要度量指标，n设变量有n个测量值，则算术均值为：12,nxxx均值的特点n最常用的中心位置度量n 受极端值影响n 例：1，3，5，7，9 和 1，3，5，7，14均值标准误差（S.E.mean）n均值标准误差（Standard Error of Mean,S.E.mean）就是描述这些样本均值与总体均值之间平均差异程度的统计变量。中位数n重要的中心位置度量n在递增排序后的数据列中q 若数据个数为奇数，中位数是正中央的数q 若数据个数是偶数，中位数是正中央的两数的平均值.n不受极端值的

4、影，例如：1，5，7，3，9众数n发生频数最高的数据值n不受极端值的影响n众数可能不存在n可能有多个众数（单峰，双峰，多峰）n可用于定量或定性数据3.3 离散趋势的描述n仅仅根据数据的中心趋势指标进行决策是不够的。例如，如果一个国家的不同家庭收入差距很少；而另一个国家的家庭收入差距很大，既存在大量的贫困家庭，也存在许多十分富有的家庭，那么即使这两个国家的中等收入家庭的收入完全一样，其家庭收入情况仍然完全不同。例子n假设我们有以下的三组观测值：q观测A：11，12，13，16，16，17，18，21q观测B：14，15，15，15，16，16，16，17q观测C：11，11，11，12，19，2

5、0，20，20n这三组观测值的均值都是15.5，那么这三组数据是否相似呢？离散趋势离散趋势的描述 n极差（全距）（range）n方差（Variance）n标准差（S.d.)n分位数(Percentage)极差n极差=最大值-最小值n受极端值影响较大方差和标准差n方差n标准差四分位数（Quartiles）n四分位数是将一组个案由小到大（或由大到小）排序后，用3个点将全部数据分为四等份，与3个点上相对应的变量为四分位数，分别记为Q1（第一四分位数）、Q2（第二四分位数）、Q3（第三四分位数）。n其中Q3到Q1之间的距离的一半又称为四分位差，记为Q。四分位差越小，说明中间的数据越集中；四分位差越大，

6、则意味着中间部分的数据越分散。3.4 分布的形状n偏度（Skewness）是描述数据分别形态的，它是描述某变量取值分布对称性的统计量。n峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量。偏度（Skewness）q当偏度大于0时，分布为正偏或右偏，布图形在右边拖尾，分布图有很长的右尾，尖峰偏左q当偏度小于0，分布为负偏或左偏，即分布图形在左边拖尾，分布图有很长的左尾，峰尖偏右 q当偏度为0，分布对称峰度（Kurtosis）n峰度n 3，分布为高峰度，即比正态分布的峰要陡峭；0.05 数据服从正态分布Sig.0.05 接受方差相同的假设Sig.0.05 拒绝方差相同的假设茎叶

7、图茎叶图分为3大部分：频数（Frequency）茎（Stem）和叶（Leaf）。茎表示数值的整数部分，叶表示数值的个数部分。每行的茎和叶组成的数字相加再乘以茎宽（Stem Width），即茎叶所表示的是实际值的近似值。正态概率图斜线是正态分布标准线，散点是实际数据的取值，散点图组成的曲线越接近直线，表示数据分布越接近正态分布。离散正态概率图散点随机落在中间横线周围，不能拒绝正态分布。箱图箱子中间的黑粗线为中位数箱子上框为上四分位数（75），下框为下四分位数（25）n箱子上下两个细线分别为去掉极端值以后的最大值和最小值n细线外面的圆圈和星号为极端值交叉列联表分析n交叉分组下的频数分析又称列联表分

8、析。通过前面的频数分析能够掌握单个变量的数据分布情况，在实际分析中，不仅要了解单个变量的分布特征，还要分析多个变量不同取值下的分布，进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。交叉列联表分析2、基本任务：（1）根据收集到的样本数据，产生二维或多维交叉列联表；（2）在交叉列联表的基础上，对两两变量间是否存在一定的相关性进行分析。n5.3.2 交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例：职工基本情况数据按职称和文化程度编制的二维交叉列联表

9、（见下页表）：职职称称 *文文化化程程度度 C Cr ro os ss st ta ab bu ul la at ti io on n1110333.3%33.3%33.3%.0%100.0%25.0%25.0%20.0%.0%18.8%6.3%6.3%6.3%.0%18.8%1300425.0%75.0%.0%.0%100.0%25.0%75.0%.0%.0%25.0%6.3%18.8%.0%.0%25.0%2013633.3%.0%16.7%50.0%100.0%50.0%.0%20.0%100.0%37.5%12.5%.0%6.3%18.8%37.5%00303.0%.0%100

10、.0%.0%100.0%.0%.0%60.0%.0%18.8%.0%.0%18.8%.0%18.8%44531625.0%25.0%31.3%18.8%100.0%100.0%100.0%100.0%100.0%100.0%25.0%25.0%31.3%18.8%100.0%Count%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%within 文化程度%of TotalCount%within 职称%wi

11、thin 文化程度%of Total高级工程师工程师助理工程师无技术职称职称Total本科专科高中初中文化程度Totaln 上表中的职称变量称为行变量（Row），文化程度称为列变量（Column）。行标题和列标题分别是两个变量的变量值（或分组值）。表格中间是观测频数（Observed Counts）和各种百分比。16名职工中，本科、专科、高中、初中的人数分别为4，4，5，3，构成的分布称为交叉列联表的列边缘分布；高级工程师、工程师、助理工程师、无技术职称的人数分别为3，4，6，3，构成的分布称为交叉列联表的行边缘分布；4个本科学历职工中各职称的人数分别是1，1，2等，这些频数构成的分布称为条件

12、分布，即在行变量（列变量）取值条件下的列变量（行变量）的分布。n 在交叉列联表中，除了频数外还引进了各种百分比。例如表中第一行中的33.3，33.3，33.3分别是高级工程师3人中各学历人数所占的比例，称为行百分比（Row percentage），一行的百分比总和为100；表中第一列的25.0，25.0，50.0分别是本科学历4人中各职称人数所占的比例，称为列百分比（Column percentage），一列的列百分比总和为100，表中的6.3，6.3，12.5等分别是总人数16人中各交叉组中人数所占的百分比，称为总百分比（Total percentage），所有格子中的总百分比之和也为100

13、。n交叉分组下的频数分析的基本操作（1）菜单选项AnalyzeDescriptive StatisticsCrosstabs，出现窗口如下：n（2）如果进行二维列联表分析，则将行变量选择到Row(s)框中，将列变量选择到Column(s)框中。如果Row(s)和Column(s)框中有多个变量名，SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析，则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的，也可以是逐层叠加的，可通过Previous或Next按钮确定控制变量间的层次关系。n（3）选择Display clustered bar charts

14、选项，指定绘制各变量交叉分组下频数分布条形图。Suppress tables表示不输出列联表，在仅分析行列变量间关系时可选择该选项。（4）单击Cells按钮指定列联表单元格中的输出内容，窗口如下：（5）单击Format按钮指定列联表各单元格的输出排列顺序。Ascending表示以行变量取值的升序排列，是SPSS默认项；Descending表示以行变量取值的降序排列。（6）单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系，窗口如下，其中，Chi-Square为卡方检验。卡方统计检验n零假设是：行和列变量之间彼此独立，不存在显著的相关关系。n相伴概率小于显著性水平0.05，应拒

15、绝零假设，认为行列变量之间彼此相关。SPSS中列联表分析的其他检验方法对列联表中行列变量的分析，除上述卡方检验方法之外，SPSS还提供了其他测度变量间相关关系的检验方法，包括：适用于两定类变量的方法：适用于两定类变量的方法：Nominal框中列出的方法属该类方法框中列出的方法属该类方法。适用于两定序变量的方法：适用于两定序变量的方法：Ordinal框中列出的方法属该类方法。框中列出的方法属该类方法。适用于定类变量、定距变量的方法：适用于定类变量、定距变量的方法：Nominal by interval框中的框中的Eta方法属该类方法。方法属该类方法。其他方法。其他方法。交叉列联表统计结果卡方检

16、验统计结果多选项分析n多选项分析是对多选项问题的分析方法。所谓多选项问题，就是一个问题的答案都是顺序变量或名义变量，并且允许选择的答案可以有多个的问题。n可以选多个，分为限选和不限选：n限选：如在限选：如在1111种工作种类中，选你喜欢的，最多可种工作种类中，选你喜欢的，最多可选选4 4种（种（Var1-Var4)Var1-Var4)；求所有人喜欢各种工作的频；求所有人喜欢各种工作的频数或频率。数或频率。n不限选：如在所列的不限选：如在所列的2020种电器中，你家所拥有的电种电器中，你家所拥有的电器，不限选（器，不限选（Var1-Var20Var1-Var20），求所有被调查家庭拥），求所有被

17、调查家庭拥有各种电器的频数或频率。有各种电器的频数或频率。n多选项二分法及其编码（multiple dichotomies method）：n多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量，每个变量值有0或1两个取值，分别表示不选择该答案和选择该答案。如对下面问题有9个可能的答案，每个可选择的答案由一个变量表示，每个变量的值只能有表明“是”和“否”的两个代码1或者0。编号编号调查内容调查内容选选项项 1 1 您喜欢红色吗您喜欢红色吗是是否否 2 2 您喜欢橙色吗您喜欢橙色吗是是否否 3 3 您喜欢黄色吗您喜欢黄色吗是是否否 4 4 您喜欢绿色吗您喜欢绿色吗是是

18、否否 5 5 您喜欢青色吗您喜欢青色吗是是否否 6 6 您喜欢蓝色吗您喜欢蓝色吗是是否否 7 7 您喜欢紫色吗您喜欢紫色吗是是否否 8 8 您喜欢黑色吗您喜欢黑色吗是是否否 9 9 您喜欢白色吗您喜欢白色吗是是否否左边的表格为向顾客发放的颜色左边的表格为向顾客发放的颜色调查，在选择服装时，您喜欢什么颜调查，在选择服装时，您喜欢什么颜色作为主体颜色，在答案的色作为主体颜色，在答案的“”中中打打“”（可多选）（可多选）这是一组问题，每个问题均有两这是一组问题，每个问题均有两个答案，回答者只能选择其中一种。个答案，回答者只能选择其中一种。在建立数据文件时，变量名使用相同在建立

19、数据文件时，变量名使用相同的变量主名，后面加以不同序号组成，的变量主名，后面加以不同序号组成，本组问题的本组问题的9 9个变量名可以是个变量名可以是color1-color9color1-color9。而答案的编码规则。而答案的编码规则为：回答为：回答“是是”变量值为变量值为1 1，回答，回答“否否”变量值为变量值为0 0，其他值为缺失值。，其他值为缺失值。q多选项分类法及其编码选项分类法及其编码（multiple category multiple category method method）：多选项分类法中，首先应估计多选项）：多选项分类法中，首先应估计多选项问题最多可能出现的答案个数；

20、然后为每个答案设问题最多可能出现的答案个数；然后为每个答案设置一个置一个SPSSSPSS变量，变量取值为多选项问题中的所有变量，变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色，您可可选答案。如上面有关选择服装的主体颜色，您可以选择喜欢的三种，在提供的以选择喜欢的三种，在提供的1010种答案前上选择。种答案前上选择。1、红 2、橙 3、黄 4、绿 5、青6、蓝 7、紫 8、黑 9、白10说不清这是一个问题，可以有三个答案。在建立数据文件时，要建立三个变量color1-color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑，则变量color1的值为1,变量c

21、olor2的值为6,变量color3的值为8。如果采用多选二分法则有6个选项，故应设6个变量，运用0-1编码方法编码，即：1，0，1，0，1，1。如果采用多选分类法，则编码为1，3，5，6，0，0。编码应为：1，0，1，1，1，0，1，1，0。或1，3，4，5，7，8，0，0，0。因为限选三项，故应设三个变量，编码依次因为限选三项，故应设三个变量，编码依次为为1，3，6。首先将每个题的若干答案组成一个综合变量即变量集(Set)，然后对综合变量的各种取值进行分析。只有通过定义多选项变量集，spss才能确定应对哪些变量取相同值的个案数进行累加。q多选项分析在SPSS中是通过Analyze-Mult

22、iple Response中的各项功能实现的。1.Define Sets：（1）从左边的变量中将多选变量集的变量选择到variables in sets框中，建立多选二分变量集或多选分类变量集。（2）在variables are coded as框中指定多选变量集中的变量是按照那种方法编码的。Dichotomies表示以多选二分法编码，并在counted value中输入用哪个数值来表示选中该选项。categories表示以多选分类法编码，并在range框中输入变量取值的最小值和最大值。多选项分析的基本操作多选项分析的基本操作（3）为多选项变量集命名，系统会自动在该名字前加字符$。（4）单击a

23、dd按钮将定义好的多选项变量集加到mult response sets框中。Spss可以定义多个多选项变量集。多选项二分法定义变量集在Set Definition框中选择多选项变量，使之添加到Variables in Set框中。Variables are Coded as 框用来选择变量编码方式。多选项二分法选Dichotomles Counted value,并在后面框中输入数值1，表示等于1的为一组。下面的Name 框输入多选项变量集的名称，在Label中输入说明“6个选项集合”输入完毕后点击右边的Add按钮，使之添加到右边的Mult Response Sets框中。多选项二分法定义变量

24、集多选项分类法定义变量集多选项分类法定义变量集多选项分析2.Frequencies：对多选变量集进行频数分析。从mult response sets中把待分析的多选项变量集选择到tables for框中；3.Crosstabs：对多选变量集与其他变量集或与原基本变量进行交叉表分析。2.Frequencies：对多选变量集进行频数分析3.Crosstabs：对多选变量集与其他变量集或与原基本变量进行交叉表分析单击Row(s)框中的“性别(?)”变量，下方Define Ranges变亮单击Define Ranges按钮出现左侧对话框，用于确定行变量的取值，这里1表示男性，2表示女性。输入完毕，单击

25、Continue按钮，回到下图对话框，可见性别变量变为“性别（1 2）”单击Multiple Response Crosstabs对话框右下方的Options按钮出现下方对话框，选择列联表的输出内容和计算方法基本统计分析报表制作SPSS提供了基本统计分析报表的制作功能，根据报表制作的侧重点不同，可以分为3种：n1.个案简明统计报表（Cases Summary）计算主要变量的分组统计量n2.行形式报表（Report Summaries in Rows）行形式报表以行为对象生成各种统计结果n3.列形式报表（Report Summaries in Columns）列形式报表是以列为对象生成各个列相应

26、的统计信息（各个列的统计方法可以不同）。1.个案简明统计报表1.个案简明统计报表单击“statistics”按钮，选择统计量单击“Options”按钮，输入表格标题及脚注2.行形式报表2.行形式报表单击Data Columns框中的某一变量，此时下面的Format按钮变亮，单击Format按钮可输入该列标题单击Break Columns框中的变量，此时下面的Summary、Options、Format三个按钮变亮单击Break Columns框下面的Summary按钮，出现下面对话框，用于选择需要输出的统计量（可选择多个统计量）单击Break Columns框下面的Options按钮出现下面对

27、话框，该对话框用于页面控制单击Break Columns框下面的Format按钮出现下面对话框输入分组列标题Report下面的四个按钮用于设置对全部数据的统计输出结果单击Report栏中的Summary按钮，出现下面对话框，用于设置对全部数据的统计输出结果单击Report栏中的Options按钮，用于缺失值和输出页码的设置单击Report栏中的Layout按钮，用于报告格式的布局设置单击Report栏中的Title按钮，用于标题和脚注内容的设置3.列形式报表在左边的变量列表框中选择变量“基本工资”“奖金”“分红”，使之添加到Data Columns框中，选择“部门”变量使之添加到Break C

28、olumns框中。单击Data Columns框中“奖金”变量，此时下面的Summary按钮变亮，单击Summary按钮，出现下面对话框，用于选择该列变量需要输出的统计量，由于是单选框，因此一列只能选择一种统计量类似的，分别设置“基本工资”和“分红”两列需要输出的内容。各列输出的统计量可以不同。单击Data Columns框下面的Insert Total按钮，此时Data Columns框中增加了一个Total变量下一步，单击Summary按钮单击Summary按钮，出现下面对话框，将左边变量列表中3个变量移动到右边的Summary Column框中，在下面的Summary function下拉框中可以设置输出这3个列的函数统计量单击Break Columns框中的“部门”变量，下方的Options和Format按钮变亮，可以进行分组输出格式的设置。

展开阅读全文