1、第第4 4章章 基本统计分析基本统计分析o Frequencies 频数分析表频数分析表o Descriptive 描述性统计分析过程描述性统计分析过程o Explore 探索分析过程探索分析过程o Crosstabs 列联表分析过程列联表分析过程本章主要内容本章主要内容数据分布的特征集中趋势(Central tendency)1 均值均值(Mean):2 众数众数(Mode):出现频率最高的数:出现频率最高的数3 中位数中位数(Median):将数据排序后位于正中间:将数据排序后位于正中间 的数值。适合于所有分布类型的数据的数值。适合于所有分布类型的数据4 总和总和(Sum)基本描述统计量基
2、本描述统计量niixnx11众数(mode)1. 出现次数最多的变量值2. 不受极端值的影响3. 一组数据可能没有众数或有几个众数4. 主要用于分类数据,也可用于顺序数据和数值型数据众数(不唯一性)o无众数无众数原始数据: 10 5 9 12 6 8中位数(median)1.排序后处于中间位置上的值数值型数据的中位数 (9个数据的算例)o 【例例】:9个家庭的人均月收入数据o原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630o排排 序序: 750 780 850 960 1080 1250 1500 1630 2000o位位 置置: 1 2 3
3、 4 5 6 7 8 9数值型数据的中位数 (10个数据的算例)o 【例例】:10个家庭的人均月收入数据o排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置: 1 2 3 4 5 6 7 8 9 10 四分位数(quartile)1. 排序后处于25%,50%和75%位置上的值数值型数据的四分位数 (9个数据的算例)o 【例例】:9个家庭的人均月收入数据o原始数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630o排排 序序: 750 780 850 960 1080 1250 1500
4、1630 2000o位位 置置: 1 2 3 4 5 6 7 8 9数值型数据的四分位数 (10个数据的算例)o 【例例】:10个家庭的人均月收入数据o排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000o位位 置置: 1 2 3 4 5 6 7 8 9 10 均值(mean)1. 集中趋势的最常用测度值2. 一组数据的均衡点所在3. 体现了数据的必然性特征4. 易受极端值的影响5. 用于数值型数据,不能用于分类数据和顺序数据均值(数学性质)1. 各变量值与均值的离差之和等于零众数、中位数和均值的关系众数、中位数和均值的特点和应用1. 众数n
5、不受极端值影响n 具有不唯一性n 数据分布偏斜程度较大时应用2. 中位数n 不受极端值影响n 数据分布偏斜程度较大时应用3. 均值n 易受极端值影响n 数学性质优良n 数据对称分布或接近对称分布时应用离散趋势标准差标准差(Std Dev):方差方差(Variance):最小值、最大值最小值、最大值(Maxium,Minimum)均值标准误均值标准误(S.E.of.Mean): 样本均值的标准差样本均值的标准差极差极差(Range):数据最大值减去最小值:数据最大值减去最小值基本描述统计量基本描述统计量21)(11niixxnSniixxnS122)(11nS /极差(range)1.一组数据的
6、最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布方差和标准差(variance and standard deviation)1. 数据离散程度的最常用测度值2. 反映了各变量值与均值的平均差异3. 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差偏态与峰态偏度系数:偏度系数:Skew ness,当分布对称时,当分布对称时, 偏度系数为偏度系数为0。当偏度系数为正值,。当偏度系数为正值, 可以判断为右偏可以判断为右偏(正偏正偏),反之,判断为左偏,反之,判断为左偏 (负(负 偏)。偏)。 基本描述统计量基本描述统计量331/)
7、(11SxxnSkewnessnii峰度系数:峰度系数:Kurtosis ,是对数据分布平峰,是对数据分布平峰或尖峰程度的测度。峰度是针对正态分布或尖峰程度的测度。峰度是针对正态分布而言的。峰度系数为而言的。峰度系数为0,表明数据为正态分布。,表明数据为正态分布。若峰度系数大于若峰度系数大于0,则数据为尖峰分布;反之为,则数据为尖峰分布;反之为平峰分布。平峰分布。基本描述统计量基本描述统计量3/)(11441SxxnSkewnessnii标准分数(standard score)1. 也称标准化值2. 对某一个值在一组数据中相对位置的度量3. 可用于判断一组数据是否有离群点4. 用于对变量的标准
8、化处理5. 计算公式为标准分数(性质)1. 均值等于02. 方差等于1频数分析表频数分析表一、目的一、目的 可对数据按组进行归类整理,形成可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。据的分布趋势进行初步分析。频数分析表频数分析表二、二、 Frequencies对话框简介对话框简介AnalyzeDescriptive StatisticFrequencies【 Variables 】需要分析的变量需要分析的变量【 Display frequency tables】 确定是否在结果中输出频数表。确定是否在结果中输出
9、频数表。频数分析表频数分析表【Statistics】 描述统计量。描述统计量。nPercentile Values: 定义需要输出的百分位数定义需要输出的百分位数 Quartiles :四分位数四分位数 Cut points for equal groups: 每隔指定百分位输出当前百分位数每隔指定百分位输出当前百分位数 Percentiles:直接指定某个百分位数直接指定某个百分位数nCentral tendency: 用于定义描述用于定义描述 集中趋势的一组指标:集中趋势的一组指标: 均数均数(Mean)、中位数、中位数(Median)、 众数众数(Mode)、总和、总和(Sum)。 频数
10、分析表频数分析表nDispersion:定义描述定义描述 离散趋势的一组指标:离散趋势的一组指标: Std.deviation:标准差标准差 Variance:方差方差 Range :全距全距 Minimum:最小值最小值 Maximum:最大值最大值 S.E.mean:标准误标准误频数分析表频数分析表nDistribution:定义描述分布定义描述分布 特征的两个指标:偏度系数特征的两个指标:偏度系数 (Skewness)和峰度系数)和峰度系数(Kurtosis)。 nValues are group midpoints:在计算百分在计算百分位数值和中位数时,假设数据已分组,且位数值和中位数
11、时,假设数据已分组,且用各组的组中值代替各组数据用各组的组中值代替各组数据频数分析表频数分析表 【 Charts】 统计图统计图n Chart type单选钮组单选钮组 定义统计图类型,定义统计图类型, 有四种选择:有四种选择: 无、条图(无、条图(Bar chart)、)、 圆图圆图(Pie chart)、直方图、直方图(Histogram),), 其中直方图还可以选择是否加上正态曲线其中直方图还可以选择是否加上正态曲线 (With normal curve)。)。 频数分析表频数分析表nChart Values: 定义是按照频数还定义是按照频数还 是按百分比做图(即影响纵坐标刻度)。是按百
12、分比做图(即影响纵坐标刻度)。 【Format】 弹出弹出Format对话框,用于定义输出频数表的格对话框,用于定义输出频数表的格 式式,不过用处不大,一般不管。不过用处不大,一般不管。nOrder by单选钮组单选钮组 定义频数表的排列次序,定义频数表的排列次序, 有四个选项:有四个选项:Ascending values为根据数值大小按升序从小到大作频数分布;为根据数值大小按升序从小到大作频数分布; Descending values为根据数值大小按降序从大到小作频数分布;为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;为根据频
13、数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。为根据频数多少按降序从多到少作频数分布。 频数分析表频数分析表nMultiple Variables单选钮组单选钮组 如果选择了两个如果选择了两个 以上变量做频数表,则以上变量做频数表,则 Compare variables 可以将他们的结果在同一个频数表过程输出结果可以将他们的结果在同一个频数表过程输出结果 中显示,便于互相比较,中显示,便于互相比较, Organize output by variables 则将结果在不同的频数表过程输出结果中显示。则将结果在不同的频数表过程输出结果中
14、显示。 频数分析表频数分析表nSuppress Tables more than: 当频数表的当频数表的 分组数大于下面设定数值时禁止它在结果中输出,分组数大于下面设定数值时禁止它在结果中输出, 这样可以避免产生巨型表格。这样可以避免产生巨型表格。实例实例例例1: frequen1.sav,进行单变量频数分析并进行单变量频数分析并 绘制直方图绘制直方图FREQUENCIES VARIABLES=serum /NTILES= 4 /PERCENTILES= 95 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE
15、SUM SKEWNESS SESKEW /GROUPED= serum /HISTOGRAM NORMAL /ORDER= ANALYSIS .练习练习:居民储蓄调查数居民储蓄调查数1 分别分析户口和职业的基本分布情况分别分析户口和职业的基本分布情况2 分析储户一次存分析储户一次存(取取)款金额的分布款金额的分布要求要求(1)绘制带正态曲线的直方图绘制带正态曲线的直方图 (2)分别对城镇和农村储户进行四分位数比分别对城镇和农村储户进行四分位数比较分析较分析FREQUENCIES VARIABLES=a13 a14 /NTILES= 4 /STATISTICS=STDDEV VARIANCE R
16、ANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SUM /BARCHART FREQ /ORDER= ANALYSIS .练习练习:居民储蓄调查数居民储蓄调查数2 分析储户一次存分析储户一次存(取取)款金额的分布款金额的分布 (2)分别对城镇和农村储户进行四分位数分析分别对城镇和农村储户进行四分位数分析SORT CASES BY a13 .SPLIT FILE SEPARATE BY a13 .FREQUENCIES VARIABLES=a5 /FORMAT=NOTABLE /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE M
17、INIMUM MAXIMUM MEAN MEDIAN /ORDER= VARIABLE .SPLIT FILE OFF.Descriptives过程是连续资料统计描述应用过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。统计分析,计算并列出一系列相应的统计指标。该过程还有个特殊功能就是可将原始数据转换该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库成标准正态评分值并以变量的形式存入数据库供以后分析。供以后分析。目的目的基本描述统计量基本描述统计量AnalyzeDescrip
18、tive StatisticDescriptives基本操作基本操作【Save standardized values as variables】将原始数据的标准正态评分存为新变量。将原始数据的标准正态评分存为新变量。 【Options】uDisplay Order:可以选择为变量列表顺序、字母顺序、均数可以选择为变量列表顺序、字母顺序、均数升序或均数降序。升序或均数降序。实例实例抑郁症资料抑郁症资料:Cesd.sav, 对对 educ ,income ,age进行统计分析进行统计分析例例1:DESCRIPTIVES VARIABLES=educ income age sex /STATIST
19、ICS=MEAN STDDEV VARIANCE RANGE MIN MAX .实例实例练习练习:居民储蓄调查数据居民储蓄调查数据分析储户存分析储户存(取取)款金额的基本描述统计量款金额的基本描述统计量,并对城市储户和农村储户进行比较并对城市储户和农村储户进行比较SORT CASES BY a13 .SPLIT FILE SEPARATE BY a13 .DESCRIPTIVES VARIABLES=a5 /STATISTICS=MEAN STDDEV MIN MAX .SPLIT FILE OFF.作业要求o 以上作业中数据均保存为*.sav文件,数据分析结果保存为结果保存为word文件,文件,以本人学号 姓名为文件名。o 如有多个文件,所有文件保存到一个文件夹(以本人学号 姓名为文件夹名),下课前提交。o ftp的ip地址是10.108.6.252 用户名:spss 密码:123456