1、第六章 基本定量分析方法单变量统计分析多变量统计分析常用统计分析方法拓展一、单变量统计分析 描述统计 推论统计(一)描述性统计 用最简单的形式概括出大数据资料所包含的基本信息,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。1、频数分析与频率分析频数分析 频数bai(Frequency),又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。频率分析 一组数据中不同取值的频数相对于总数的比率分布情况。婚姻状况婚姻状况人数人数比例比例未婚3207.84在婚366189、64离婚230、56
2、丧偶741、81分局60、152、集中趋势分析 集中趋势所反映的是一组资料中各种数据所具有的共同趋势,即资料的各种数据所集聚的位置。集中趋势常用指标集中趋势常用指标 1.平均数 算术平均数 加权平均数 几何平均数 2.中位数中位数中位数是指将一组数据按大小顺序排列起来,处于中间位置的那个数。(1)未分组。首先把没有分组的数据按大小顺序排列,然后运用公式求中位数所在位置,处于该位置的数就是中位数。当n为奇数时则居中间位置上的那个数就是中位数 当n为偶数时,居中间位置上就有两个数,此时的中位数就是这两个数的算术平均数。(2)分组。首先要根据算术平均数算法确定出中位数所在的组别,然后运用内插法计算中
3、位数的近似值。由于这种情况出现较少且求难度较大,在此就不介绍。3.众数众数众数是指将一组数据按大小顺序排列出现次数最多的那个数值,通常通过观察法直接得到。3、离散趋势分析 仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来,才能全面地认识事物。我们经常会碰到平均数相同的两组数据其离散程度可以是不同的。一组数据的分布可能比较集中,差异较小,则平均数的代表性较好。另一组数据可能比较分散,差异较大,则平均数的代表性就较差。在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况极差极差又称全距,是指一组数据的观察值中的最大值和最小值之差。用公式表示为:极差=最大观察值-
4、最小观察值四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布。平均差平均差是指一组数据中的各数据对平均数的离差绝对值的平均数。一组数据中的各数据对平均数的离差有正有负,其和为零,因此平均差必须用离差的绝对值来计算。平均差愈大,表示数据之间的变异程度越大,反之则变异程度越小。(二)推论统计 区间估计法:根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。二、多变量统计分析 卡方检验 相关关系 回归分析(一)卡方检验 卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实
5、际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。(二)相关分析 相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法 相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量(三)回归分析 确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变
6、量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定三、常用统计方法拓展 方差分析 聚类分析 因子分析(一)方差分析 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小(二)聚类分析 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术(三)因子分析 因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科
7、成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。假如有3个旅游胜地A、B、C供你选择,你会根据诸如景色、费用和居住、饮食、旅途条件等一些准则去反复比较这3个候选地点首先,你会确定这些准则在你的心目中各占多大比重,如果你经济宽绰、醉心旅游,自然分别看重景色条件,而平素俭朴或手头拮据的人则会优先考虑费用,中老年旅游者还会对居住、饮食等条件寄以较大关注。其次,你会就每一个准则将
8、3个地点进行对比,譬如A景色最好,B次之;B费用最低,C次之;C居住等条件较好等等。最后,你要将这两个层次的比较判断进行综合,在A、B、C中确定哪个作为最佳地点。生活中,我们经常面临需要按照一定的标准进行决策 在海尔、雪花、新飞冰箱中选择一种,要考虑品牌的可信度、价格、功能、耗电量 大学生选择就业单位,有几个Offer,考虑地域、位置、收入、发展空间。层次分析法 层次分析法将定性分析与定量分析结合起来,用决策者的经验判断各衡量目标能否实现的标准之间的相对重要程度,并合理给出每个决策方案的每个标准的权数,利用权数求出各方案的优劣次序,软件:Expert Choice层次分析法的步骤 建立层次结构模型步骤 构造成对比较阵 计算权向量并做一致性检验 计算组合权向量并做组合一致性检验小练习 以三个旅游地为例,做出决策方案三、Excel 电子表格软件各种图形的应用 特点:清楚表述不同类别数据的差异,数据的总和不是100%饼形图:数据的总和不是100%折线图:表示事物发展情况和发展趋势,四、Spss 术目前应用最广泛、功能最为完善的统计软件,中文名称为“社会科学统计软件包”。集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。图形绘制 条形图、圆形图、直方图、散点图、线形图五中常见的图形都可以绘制出来。思考:在你的论文中,将用到哪些数据分析方法?