1、基本统计分析 频数分析 计算基本描述统计量(分布特征测度)图形分析工具 列联分析l目的粗略把握变量值的分布状况。例:研究被调查者的特征(如:性别、年龄、收入)研究被调查者对某个问题的总体看法(如:教学方式、选修课程)研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)l采用的方法计算频分布表:包括计算 频数、累计频数、百分比、累计百分比绘制统计图形:条形图、饼图l基本操作步骤(1)菜单选项:analyze-descriptive statistics-frequencies(2)选择几个待分析的变量到variables框.(3)chart选项,选择所需要的图形l目的精确把握变量的总体
2、分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。l基本方法计算基本描述统计量l描述集中趋势的统计量均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。l适用于定距数据。l特点:利用了全部数据,易受极端值的影响。l描述离散程度的统计量标准差(standard deviation-Std Dev):表示某变量的所有变量值离散程度的统计量。lSPSS中计算的是样本标准差。方差(variance):标准差的平方。lSPSS中计算的是样本方差。极差(range):最大值(maximum)最小值(minimum)l描述对称程度的统计量 偏度(skewness):描述某变量分布形态
3、的偏斜程度和方向的统计量.l偏度为0表示对称;l大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;l小于0表示负偏差大(左偏)。l描述陡峭程度的统计量峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。l峭度为0表示与标准正态分布峭度相同。l大于0表示比标准正态分布陡,尖峰。l小于0表示比标准正态分布缓;平峰。计算描述统计量 其他统计量 标准误差(standard error S.E):抽样分布中的标准差,反映样本误差。均值标准误差(means of S.E)中心极限定理认为:样本均值N(u,2/n)反映样本均值与总体真值间的平均离散程度 样本数越大,样本均值
4、的离散程度越小,对真值的估计越准确l基本操作步骤(1)菜单选项:analyze-descriptive statistics-descripive(2)选择将参加计算的数值型数值型变量名到variables框。l其他功能数据标准化处理l新变量的均值为0,标准差为1;l小于0表示在平均水平下,大于0反之.l正态分布的数据标准化后呈标准正态分布(68.2%,95.4%,99.7%)lsave standardized values as variables选项l将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.l目的 了解不同变量在不同水平下的数据分布情况 l例:学习成绩与性别有关联吗?(
5、两变量)l例:职业、性别、爱逛商店有关联吗?(三变量)l分析的主要步骤产生交叉列联表分析列联表中变量间的关系收入 职称 高(人)中(人)低(人)高工 工程师 助工 技术员 合计 什么是列联表列变量行变量地区控制变量频数l基本操作步骤(1)菜单选项:analyze-descriptive statistics-crosstabs(2)选择一个变量作为行变量到row框.(3)选择一个变量作为列变量到column框.(4)可选一个或多个变量作为控制变量到layer框.控制变量的层次设置:同层为水平数加水平数加;不同层为水平数积水平数积.(5)是否显示各分组的棒图(display clustered
6、bar charts)l进一步计算 cells选项:选择在频数分析表中输出各种百分比.lrow:行百分比(Row pct);lcolumn:列百分比(Col pct);ltotal:总百分比(Tot pct);l目的:通过列联表分析,检验行列变量之间是否独立。l方法:卡方检验:对品质数据的相关性进行度量l卡方检验 年龄与工资收入交叉列联表 低 中 高 青 400 00 中 0 5000 老 0 0600 低 中 高 青 0 0500 中 0 6000 老 400 00卡方检验基本步骤(1)H0:行列变量之间无关联或相互独立(2)构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布c
7、ount:观察(实际)频数expected count:期望频数(期望频数反映的是H0成立情况下的数据分布特征)Residual:剩余(观察频数-期望频数)优良中及格总数男1055323女8124125总数1817944837.535.418.88.3100eeofff22)(l卡方检验基本步骤(3)计算卡方统计量的值,并得到该统计量值的概率P值(4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝l实现步骤lstatistics选项lcells选项l卡方检验的要求:一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以合并单元格。卡方值会受
8、样本数的影响l多选项分析的基本思路定义多选项变量集多选项频数分析多选项交叉分组下的频数分析l定义多选项变量集目的:将已分解的变量定义为一个集合,便于进行多选项分析菜单选项:analyze-multiple response-define sets从原变量中选取被分解的变量(数值型)到variables in sets框指定被分解的变量是按多选项二分法(dichotomize)分解还是按多选项分类法(categories)分解的为变量集命名。系统自动在名字前加字符$.l多选项频数分析菜单选项:analyze-multiple response-frequenciesl多选项交叉分析下的频数分析菜单选项:analyze-multiple response-crosstabs