1、1应用统计学2几种常用的统计软件 典型的统计软件典型的统计软件 SAS SPSS MINITAB STATISTICA Excel3 本章教学目标:本章教学目标:l了解统计学的基本知识;l统计数据的收集、调查;第1章 统计和统计数据收集4本章主要内容 1.1 统计学概述 1.2 统计数据的收集 1.3 问卷设计 1.4 变量类型 51.1 什么是统计学?6Statistics的定义 Statistics:the science of collecting,analyzing,presenting,and interpreting data.Copyright 1994-2000 Encyclo
2、paedia Britannica,Inc.(不列颠百科全书)7统计数据的内在规律1.正常条件下新生婴儿的性别比为107:1002.投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/63.农作物的产量与施肥量之间存在相关关系8统计学的应用领域9 基于统计学的数据转换应用 财 务 分 析 产 品 开 发 计 划 市 场 研 究 工 序 管 理 和 质 量 控 制 人 力 资 源 管 理 其 他 应 用 数 据(data)信 息(information)转 化/抽 取 统统计计学学 决 策(decision)10应用统计的领域11应用统计的领域(续)12统计研
3、究对象的特点 1.数量性数量性 统计学研究的对象是客观现象的数量特征和规律性。2.总体性总体性 统计学研究的是客观现象总体的数量特征与规律性,而不是个体的量。3.具体性具体性 统计的对象是一定时间、地点、条件下事物的量,而不是抽象对象的量,这是统计学和数学的一个重要区别。4.差异性差异性 组成统计研究对象总体的个体是有差异的,否则就不需要进行统计分析。统计研究中需要对总体中大量的个体进行观察并进行综合分析,由此才能获得总体的数量分布特征。13统计学的分类 统计学大致有以下两种主要的分类方法。1.描述统计学和推断统计学描述统计学和推断统计学 这一分类方法既反映了统计学发展的两个主要阶段,同时也反
4、映了各自不同的侧重。l 描述统计学描述统计学是研究如何对客观现象进行数量的计量、加工、概括和表示的方法。在二十世纪之前统计学基本上处于描述阶段。描述统计学是统计学的基础。l 推断统计学推断统计学是研究如何根据样本数据去推断总体的情况,概率论是其理论基础。推断统计学是近代统计学的核心,也是统计学中的主要内容。14统计学的分科 统计学的分科统计学的分科15描述统计与推断统计的关系16理论统计学和应用统计学l 理论统计学理论统计学 是研究统计学的数学原理,它基于概率论的原理,还包括不属于传统概率论的一些内容,如随机化原则的理论、各种估计的原理、假设检验的原理以及一般决策的原理。在统计实践中经常会遇到
5、一些原有的统计方法不能适应的新问题,需要创造新的统计模型和统计分析方法,这就需要统计理论的研究与指导。l 应用统计学应用统计学 将统计学的基本原理应用于各个领域就形成各种应用统计学的分支。它包括适用于各个领域的一般性的统计方法,如参数估计、假设检验、方差分析、回归分析等,还包括在某一领域中特定的分析方法,如经济统计中的时间数列分析和指数分析等。应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。17统计基本术语 变量:变量:事物的特征,是运用统计方法所分析的对象。例如,在商业模型中,销售额、每年的开支和每年的净利润都是企业想要分析的变量。数据数据:是与变量相关的值
6、。变量可能随时间变动,如某一公司的期望销售额、开支和净利润每年都有所不同。这些不同的值就是与变量相关的数据,或者简单地说,就是统计所要分析的“数据”。注意注意:变量需赋予可操作定义,否则会产生歧义。如:对销售额的操作性定义可能会发生这样错误的理解:一个人认为年销售额是指全部连锁店的年销售额,而另一个人则认为是每家店的年销售额。18统计基本术语 总体总体:所研究对象的全体。个体个体:指总体中的每个元素或单元。总体依其所包含的个体总数分为有限总体和无限总体。样本样本:从总体中挑选出来用于分析的一部分。这种挑选通常是相对独立的。样本是进行推断统计的依据。参数参数:参数是描述总体特征的数值。统计量:统
7、计量:是描述样本特征的数值19 统计数据的收集是统计整理和分析,以及统计推断和预测的基础。社会经济统计中所需要的数据与资料主要来源于统计调查。统计数据的收集就是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料的过程。确定数据最合适的来源和收集数据的合理方法是非常重要的任务,因为如果收集的数据有偏差,模糊不清或有其他类型的错误时,即使最复杂的统计方法也无法得到有用的信息,即需要避免“Garbage In Garbage Out(垃圾数据产生垃圾统计结果)”的统计应用情况。1.2 统计数据的收集20一.数据采集的基本要求 准确性准确性 及时性及时性 完整性完整性 系统性系统性 统计
8、调查的数据资料应配套,要能从不同侧面反映所研究总体的特征,才能为科学的判断和决策提供依据。在实际应用中,我们要依据特定的研究目的或工作任务,结合研究对象所具有的性质和特点,相应地选择适合的调查方法,必要时也可以几种调查方法结合使用。21二.普遍调查普遍调查简称普查,是专门组织的一次性的全面调查。如全国的人口普查、能源普查、工业普查等。组织方式有两种:1.建立专门的普查机构2.利用调查单位的原始记录和核算资料,发放调查表,由登记单位填报。普查时注意的原则:(1)规定统一的标准时点(2)规定统一的普查期限(3)规定普查的项目和指标。22普遍调查实例【例1.1】2002年在国务院统一部署下,开展全国
9、“基本单位普查”。关于这次普查的部分重要要求与规定如下:调查目的:统计分析全国和各省市地区的单位总数、性质、隶属关系、分布情况等。标准时间:2001年12月31日。调查对象:各类法人单位,各类法人单位所属的产业活动单位。调查项目:单位总数;性质分类(企业法人、事业法人、社团法人、机关法人、其他法人);基本情况 性质划分、隶属关系(中央、省市、区县、街道等);主要构成(产业结构、行业分布、地区分布、经济成分、规模结构);分布情况。23三.重点调查 在总体中选择部分重点单位进行调查,以了解总体基本情况总体基本情况的一种非全面调查。重点调查的特点:重点调查的特点:(1)重点调查适用于调查对象的标志值
10、比较集中于某些单位的场合,这些单位的管理比较健全,统计力量比较充实,能够及时取得准确资料。(2)重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。(3)重点调查比实际调查的单位数目少,在满足调查目的所要求的前提下,可以比全面调查节省人力、物力和时间。24四.典型调查 也是专门组织的一种非全面调查,在总体中选择有代表性的典型单位进行深入细致深入细致的调查。典型调查的作用和目的典型调查的作用和目的(1)研究新事物或某种倾向性的社会问题研究新事物或某种倾向性的社会问题 通过对典型单位深入细致的调查,可以发现新情况、新问题,探测事物发展变化的趋势,形成科学的预见。(2)
11、分析事物的不同类型分析事物的不同类型 通过研究造成它们间差别的原因,总结经验教训,研究对策,促进事物的转化和发展。(3)典型调查可用来研究事务的变化规律。典型调查可用来研究事务的变化规律。(4)典型调查的资料可用来补充和验证全面统计的数字,推典型调查的资料可用来补充和验证全面统计的数字,推论和测算有关现象的总体。论和测算有关现象的总体。25六.抽样调查 是指按随机原则从总体中抽取部分单位组成样本。目的是利用样本数据推断(估计)总体的数量分布特征。抽样调查是现代推断统计的核心,也是最重要的统计调查方法。26抽样调查中四种误差1.涵盖误差涵盖误差:当某一组代表性的样本被排除在抽样调查之外时所引起的
12、选择偏差。2.无回应误差无回应误差:抽样时,对样本个体数据收集失败会导致无回应偏差。3.抽样误差:抽样误差:选择抽样调查是因为这种方法简单、低成本和有效。但同时也意味着有的个体被抽中,有的个体没有被抽中。4.测量误差:测量误差:测量误差是指由于样本数据测量程序的设计和应用不当所引起的误差。课堂讨论课堂讨论:举例说明这几种误差。27七.网上调查 截至2009年6月底,中国网民规模达到3.38亿人,较2008年底增长13.4%,上网普及率达到25.5%。网民规模持续扩大,互联网普及率平稳上升。其中宽带网民数达到3.2亿,占比高达94.3%,较2008年底上升了3.7个百分点。另外,截至2009年6
13、月底,作为国家域名,CN域名总计达到1,296万个。作为我国互联网的重要基础资源,CN域名已经广泛地应用在金融、汽车等各个行业中。截止2009年6月我国互联网用户发展情况如图1.2所示。28图 2008-2009年我国互联网用户发展情况(资料来源:第23次中国互联网络发展状况统计报告)29网上调查优势l 及时性和共享性 l 便捷性和低成本 l 可靠性和客观性 l 更好的接触性 l 穿越时空性 30 问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。l 合理性:合理性
14、指的是问卷必须紧密与调查主题相关。l 一般性:即问题的设置是否具有普遍意义。l 逻辑性:问卷的设计要有整体感,这种整体感即是问题与问题之间要具有逻辑性,独立的问题本身也不能出现逻辑上的谬误。l 明确性:所谓明确性,事实上是问题设置的规范性。l 非诱导性:非诱导性指的是问题要设置在中性位置、不参与提示或主观臆断,完全将被访问者的独立性与客观性摆在问卷操作的限制条件的位置上。l 便于整理和分析 1.3 问卷设计31 统计学中将变量分为分类变量或数值变量。分类变量分类变量(也称为定性变量)的值只能按类别分开。数值变量数值变量(也称为定量变量)的值表示数量。数值变量可进一步分为离散变量和连续变量。1.
15、4 变量类型32 四种计量尺度数据的计量尺度数据的计量尺度331.计量层次最低2.对事物进行平行的分类3.各类别可以指定数字代码表示4.使用时必须符合类别穷尽和互斥的要求5.数据表现为“类别”6.具有=或的数学特性定类尺度(概念要点)341.对事物分类的同时给出各类别的顺序2.比定类尺度精确3.未测量出类别之间的准确差值4.数据表现为“类别”,但有序5.具有或的数学特性定序尺度(概念要点)35 1.对事物的准确测度 2.比定序尺度精确 3.数据表现为“数值”4.没有绝对零点 5.具有+或-的数学特性定距尺度(概念要点)36 1.对事物的准确测度 2.与定距尺度处于同一层次 3.数据表现为“数值
16、”4.有绝对零点 5.具有 或 的数学特性定比尺度(概念要点)37四种计量尺度的比较四种计量尺度的比较四种计量尺度的比较定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度 分类(,分类(,)排序(排序()间距(间距(+,-)比值(比值(,)计量尺度计量尺度数学特性数学特性“”38数据类型与统计方法 数据类型与统计方法数据类型与统计方法定类数据定类数据定序数据定序数据品质数据品质数据39 本章教学目标:本章教学目标:l掌握利用统计图表整理和表示统计数据的基本方法;l掌握利用 Office 软件绘制各种统计图表、计算各种统计综合指标。l掌握分类数据图表的制作方法。l掌握数值数据图表的
17、制作方法。l了解图表汇总和制作原则。第2章 统计表和统计图40 在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。表格和图形是整理和反映统计资料的主要工具。当数据是分类数据时,可以对每一分类数据制作频率或百分比表格和图表。2.1 分类数据的图表 41 频数分布表列出了一系列分类数据的频率、总数或百分比,可以看出不同类别数据间的区别。表2-1 1 000美元用途的频数分布表用钱做什么百分比/%购买奢侈品、旅游或礼物20向慈善机构捐款2还贷24储蓄31购买必需品16
18、其他71.频数分布表422.条形图05101520253035购买奢侈品、旅游或礼物向慈善机构捐款还贷储蓄购买必需品其他100美元的使用百分比/%433.圆饼图向慈善机构捐款 2%储蓄 31%购买必需品 16%购买奢侈品、旅游或礼物 20%其他 7%还贷 24%44 在帕累托图中,不同类别的数据是按其频率降序排列的,并在同一张图中画出累积百分比图。帕累托图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下剩余的数据分散在大部分类别中。这两组经常被称为“至关重要的极少数”和“微不足道的大多数”0 5 10 15 20 25 30 35 储蓄 还贷 购买奢侈品、旅游或礼物 购买必需品 其
19、他 捐款 有钱要做什么 0 20 40 60 80 100 120 4.帕累托图45 当数据量很大时,首先可以将数值数据进行排序或用茎叶图描述以获得初步信息。(1)排序 从没有排序的数据中很难看出数据的整体范围。排序是把数据从小到大(或从大到小)进行排列。(2)茎叶图 茎叶图就是将数据分成几组(称为茎),每组中数据的值(称为叶)放置在每行的右边。结果可以显示出数据是如何分布的,以及数据中心在哪里。为了制作茎叶图,可以将整数作为茎,把小数(叶)化整。例如,数值5.40,它的茎(行)是5,叶是4;数值4.30,它的茎(行)是4,叶是3。也可以将数据的十位数作为茎,个位数作为叶。2.2 数值数据的整
20、理 46 当数据量很大时,排序和茎叶图都很难得出结论。此时需要使用图表。有多种不同类型的图表可以用来精确描述数值数据,包括频数分布表、折线图、面积图、柱形图、条形图、直方图、频数多边形、圆饼图、散点图、时间序列、曲线图以及对数图等等。2.3 数值数据的图表 47例:例:某公司汽车销售量(单位:辆)487152533641695847605329417281374358684273625944515347665952344973294716395843294652384680585167545758634940546158664750 481.频数分布表 分组统计整理后,将杂乱无章的 60 个原
21、始数据压缩到8组,清晰地反映了更多的有用信息。49制作频数分布表的注意事项1)分组的数量 实际应用中分组的数量和组距应根据对象的特点和分析的需要决定。如果分组是为了揭示数据的分布规律,则分组不能过多和过少。通常应在515 之间。在绘制直方图时可以参照下表:样本容量 n 参考分组数 2050 56 51100 78 101200 89 201500 910 5011000 1011 1000以上 112050制作频数分布表的注意事项 2)分组的方法 分组的方法可以有等距分组和不等距分组两类。采用哪种分组方法应根据数据的分布特点而定。通常,当数据在一定范围内基本呈对称分布时,宜采用等距分组;而当数
22、据的分布状态极度偏斜时,则宜采用不等距分组。51例:按雇工人数分组的私营企业规模统计 52制作频数分布表的注意事项3)组限:)组限:组限也即各组区间的上、下限。确定各组区间的上限和下限时,应保证各组之间既不重叠,又不能遗漏任一数据,使每一个数据都属于某一确定的分组。重叠和组限不重叠组限重叠和组限不重叠组限重叠组限重叠组限相邻组的上下限重合。适用于连续型变量。但各组上、下限中有一个不包含再内。通常按“上限不在内”处理,即组区间是 a,b)的形式。注意:注意:Excel在制作频数分布表时采用的是“上限在内”的规则。不重叠组限不重叠组限相邻组的上下限不重合。适用于离散型变量。53例:离散型变量的分组
23、(不重叠组限)某公司某月汽车销售量的频数分布表 54例:连续型变量的分组(上限不在内)月工资(分组)人数(频数)比率(频率%)1000 以下15014.51000150018517.91500200025624.72000300026225.33000350012011.635004000545.24000 及以上80.8合 计1035100某企业职工工资的分组统计某企业职工工资的分组统计55制作频数分布表的注意事项 4)组中值 组中值是各组的代表值,在计算分组数据的许多统计指标时要用到。通常取该组上限和下限的平均值为组中值。如表2-7所示,1019的组中值是14.5,2029的组中值是24.
24、5,等等。5)表格线 统计表中的表格线应当是两边开口的表格。56使用 Excel 制作频数分布表 利用 Excel 的 FREQUENCY 函数 语法规则:格式:格式:FREQUENCY(,)接收区间各组上限值组成的一列区域 功能:功能:返回各组的频数。使用【工具】“数据分析”“直方图”功能 57 统计图可以形象、直观、生动、简洁地显示数据的特征。常用的统计图有以下几种:1.折线图折线图 通常用来描述时间序列数据,用以表示某些指标的变化趋势。制作折线图时应正确选择坐标轴轴的刻度。对同样的统计资料,延伸或压缩某一坐标轴可能传达不同的甚至是误导的印象。其它数值数据统计图其它数值数据统计图58图1.
25、2 失业人数统计图过分压缩了过分压缩了Y轴轴59图1.3 失业人数统计图过分压缩了过分压缩了X轴轴602.面积图 面积图可以直观地表示时间序列各组成部分的变化情况。0%10%20%30%40%50%60%70%80%90%100%199719981999200020012002百百分分比比信息产业信息产业工业原料工业原料能源能源民用产品民用产品100 90 80 70 60 50 40 30 20 10 0 百分比/%1997 1998 2000 2001 1999 2002 年 图图 某地区各产业增加值构成比例的变化情况某地区各产业增加值构成比例的变化情况613.柱形图、条形图和直方图 柱形
26、图、条形图和直方图是使用的最为广泛的统计图表。通常将横向绘制的柱形图称为条形图,而将各柱形之间没有间隔的称为直方图,但在Office中将直方图和柱形图统称为柱形图。(1)柱形图柱形图 主要用于表示时间序列数据。62图1.4 各类进口商品的变化情况柱形图示例柱形图示例63(2)直方图用以表示数据的频数分布规律。图1.5 比特公司啤酒销售量的频数分布64未分组数据的茎叶图 用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 对于n(20n300)个数据,茎叶图最大行数不超过 L=10 log 10 n 茎叶图类似于横置的直方
27、图,但又有区别 直方图可大体上看出一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息65未分组数据茎叶图(茎叶图的制作)664.频数多边形 频数多边形是直方图的另一种表现形式,是由直方图的顶端中点(各组的组中值)连线而成,其中两边都要连接到横轴上的某点,以便通过覆盖的面积反映总频数。当希望在一个图上比较两种频数分布的特征时,就需要使用频数多边形。02040608010035455565758595 105体重频数女学生女学生男学生男学生体重/千克 频数 男、女学生的体重分布特征男、女学生的体重分布特征 675.圆饼图 当要表示总
28、体各组成部分的个体数量在总体中占的比率时,经常使用圆饼图,圆饼中各扇形的大小代表了不同组成部分的相对重要性。某企业资产、负债与所有者权益的构成情况某企业资产、负债与所有者权益的构成情况 686.散点图、时间序列图和曲线图Microsoft Office中的曲线图属于平滑线散点图。散点图散点图:在回归分析中,经常需要用样本数据的散点图来分析两个变量之间大致的曲线关系,如正相关关系,即一个变量的增长引起另一个变量的增长;负相关关系,即一个变量的增长引起另一个变量的减少。时间序列图时间序列图:研究数值变量随时间变化的趋势。X轴代表时间,Y轴代表数值。时间序列图可用折线图来实现。曲线图曲线图:当变量是
29、连续型数据时,通常使用曲线图来描述数据的分布情况,如连续型随机变量的密度函数和分布函数曲线。696.散点图、时间序列图和曲线图 Office 中曲线图的绘制中曲线图的绘制方法一:使用“平滑线散点图”绘制方法二:将折线图转换为曲线图右击折线后选择“数据系列格式”,在“图案”标签下选“平滑线”复选框,就将折线图转换为曲线图。70经济管理中几种常见的频数分布曲线正态分布曲线正态分布曲线这是客观事物数量特征上表现得最为普遍的一类频数分布曲线。如人的身高、体重、智商,钢的含碳量、抗拉强度,某种农作物的产量等等。正态分布曲线71偏态曲线图1.8 偏态曲线右偏(正偏)左偏(负偏)例如收入和财富的频数分配曲线
30、就是右偏的,大量财富都集中在极少数富豪手中,而多数人则是低收入者。此外,在产品质量管理中也普遍存在这种现象,如多数次品都集中出在少数工人手中;次品也大都出在少数几道工序上。这就要求在管理和控制上需要突出重点、抓住关键因素。按其长尾拖向哪一方又可分为右偏(正偏)和左偏(负偏)两类。72 J 形曲线 其典型的应用分别是经济学中的供给曲线和需求曲线。供给曲线(正 J 形)表现为随着价格的增加,供给量以更快的速度增加;需求曲线(倒 J 形)表现为随着价格的增加,需求量以更快的速度减少。供给和需求曲线的交点即供求平衡点。正 J 形倒 J 形图1.9 J 形曲线73 U形曲线 人和动物的的死亡率、设备的故
31、障率等通常都服从于 U 形曲线分布。图1.10 U形曲线 又称生命曲线或浴盆曲线747.对数图 人们经常对时间序列变量的相对变化率而不是绝对数值的变化感兴趣,如各种经济变量的环比发展速度。此时若要用统计图直观反映增长率等现象的变动趋势,就需要使用对数图。对数图是以时间为横轴,以10为底的对数比率刻度为纵轴的折线图。可以通过对数图中各线段的斜率比较各时期增长率的大小。考虑以下统计数据:时期绝对数值对数值120.3240.6380.94161.275对数图可以直观反映时间序列的环比变化趋势 可以在Office图表类型中选择自定义类型中的“对数图”,也可通过将一般折线图纵轴“坐标轴格式”中的“刻度”
32、设为“对数刻度”来绘制对数图。76例:某公司总成本和劳动成本的增长 该公司总成本和劳动成本每年增加相同的数量,因而用绝对数据作图时两条线是平行的,不小心可能会得出劳动成本占总成本固定比例的误解。实际上第1年占40%,第6年占60%。使用对数图就可以清晰反映劳动成本有更高的增长率。年 份总 成 本(百 万 元)劳 动 成 本(百 万 元)11004021105031206041307051408061509077对数图反映了劳动成本增长率大于总成本增长率对数图反映了劳动成本增长率大于总成本增长率78 交叉表可以由列联表和并行条形图来表示。1.列联表 列联表表示两类变量的结果。横轴表示一类变量,纵
33、轴表示另一类变量。值位于横纵轴的交叉处,称为单元。根据列联表的结构类型,每横纵轴组合单元包含频率、总值的百分比、横行的百分比或列的百分比。2.并行条形图 一个更有效的显示交叉分类数据的方式是作并行条形图。2.4 交叉表 79分析类型分析类型数据类型数据类型数值数值分类分类单变量值的图表单变量值的图表排序,茎叶图,频数分布表,折排序,茎叶图,频数分布表,折线图,直方图,面积图,柱形图线图,直方图,面积图,柱形图和条形图,圆饼图,频数多边形和条形图,圆饼图,频数多边形汇总表,条形图,圆饼图,汇总表,条形图,圆饼图,帕累托图帕累托图两变量关系的图表两变量关系的图表散点图,时间序列图,曲线图散点图,时
34、间序列图,曲线图列联表,并行条形图列联表,并行条形图图表选择指导图表选择指导2.5 图表汇总和制作原则 80图表制作原则 对于分类数据和数值数据,有些图表是专用的,如帕累托图专门用于分类数据的单变量值描述;而有些图表是通用的,如条形图既可以描述单变量的数值数据,也可以描述单变量的分类数据。为了提供图表表述的合理性,在日常的统计数据整理中,应该遵循下列一些基本原则,以更精确、更形象地抽取统计数据中所蕴含的特征信息和意义:图表不能扭曲数据。图表不应有不必要的修饰图(有时是图表垃圾)。任何两维图标应尽可能地在坐标轴上标上刻度。纵轴的起始点应该合理。所有的轴应合理布置。图表应包含标题。使用最简单的图表
35、。81 本章主要介绍以下 3类综合统计指标:l度量中心(集中)趋势的平均指标l度量离散程度(变异性)的指标l度量偏斜程度的指标l度量两种数值变量关系的指标 第3章 统计数据的描述度量82 常用的这类指标有以下五种:算术平均数、中位数、众数、四分位数、几何平均数、五数汇总和箱线图。3.1 度量集中趋势的指标83(1)基本公式:)基本公式:总体单位总数总体单位标志总量算术平均数 1.算术平均数84(1)简单算术平均数简单算术平均数niixnx11(2)算术平均数的计算)算术平均数的计算 n 总体单位总数;xi 第 i 个单位的标志值。(2)加权算术平均数加权算术平均数 xi 第 i 组的代表值(组
36、中值或该组变量值);f i 第 i 组的频数。iiiffxx85使用 Excel 函数求加权算术平均数 利用 Excel“数学和三角函数”中的SUMPRODUCT 函数可以方便地计算出分组数据的加权算术平均数。语法规则:语法规则:格式:SUMPRODUCT(,)功能:返回两个或多个区域中对应元素乘积之和。例例:利用比特啤酒公司各销售点分组频数分布数据,求各销售点的平均销售量。862.几何平均数 当统计资料是各时期的发展速度等前后期的两两比环数据,要求每时期的平均发展速度时,就需要使用几何平均数。几何平均数是 n 个数连乘积的 n 次方根。(1)简单几何平均数简单几何平均数nnGxxxx 21
37、(2)加权几何平均数加权几何平均数 ffnffGnxxxx 2121f i 各比率出现的频数 87例:某公司原料成本随时间增长的情况如下表求原料成本的平均年增长率。解一解一:1992199319941995成本200228239.4244.2年增长率(%)1452302.105.114.1Gx解二解二:3200/2.244Gx 年平均增长率=1.0688-1=6.88%0688.10688.188(3)使用 Excel 求几何平均数 可以使用 Excel 统计函数中的 GEOMEAN 函数返回几何平均数。语法规则:格式:GEOMEAN(,)功能:返回所有参数中数据的几何平均数。89 将总体各单
38、位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数中位数,记为Me。中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。比如有 5 笔付款:9元,10元,10元,11元,60元 付款的均值为 20 元,显然这并不是一个很好的代表值,而中位数 Me=10 元则更能代表平均每笔的付款数。3.中位数90 (1)使用 Excel 的统计函数返回未分组数据的中位数 可以使用 Excel 统计函数中的 MEDIAN 函数返回未分组数据的中位数。格式:MEDIAN(,)功能:返回所有参数中数据的中位数。91(2)分组数据中位数的确定 对
39、于分组数据的统计资料,中位数要用插值法来估算。(1)计算各组的累计频数;(2)确定中位数所在的组 是累计频数首次包含中位数位次f/2的组。dfSfLMmme121其中:L 中位数所在组的下限;Sm-1 中位数所在组前一组的累计频数;fm 中位数所在组的频数;d 中位数所在组的组距。92例:计算下表数据的中位数解解:f/2=27.5,中位数在“15-25”的组中,分组 各组频数 累计频数 0-5 2 2 5-15 6 8 15-25 20 28 25-35 15 43 35-45 8 51 45 4 55 dfSfLMmme121102085.271575.24 934.众数 是总体中出现次数最
40、多的标志值,记为M 0。众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。在某些情况下,众数是一个较好的代表值。例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。94(1)未分组数据众数的确定 在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。格式:MODE(,)功能:返回所有参数中数据的众数。95(2)分组数据众数的确定 对于分组数据的统计资料,众数也要用插值法来估算。(1)确定众数所在
41、的组 对于等距分组,众数组是频数最高的组;(2)使用以下插值公式计算dLM2110其中:L 众数组的下限1 众数组与前一组的频数之差2 众数组与后一组的频数之差 d 众数组的组距12众数Ld96例:计算下表数据的众数解:解:众数组是“15-25”的组,则分组 各组频数 0-5 2 5-15 6 15-25 20 25-35 15 35-45 8 45 4 dLM211010)1520()620(6201537.22 97算术平均数、中位数和众数间的关系 0 xf(Me,M0)X0 xfMeXM00 xfMeXM02.频数分布为右偏态 时,众数小于中位数,算术平均数大于中位数。3.频数分布为左偏
42、态时,众数大于中位数,算术平均数小于中位数。1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。98补充习题补充题3:某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众数。注册资金(万元)50以下 50100 100150 150200 200250 250以上企业数2035422615599 补充题3答案注册资金(万元)企业数 累计企业数组中值50以下2020255010035557510015042971251502002612317520025015138225250以上5143275(万元)6.123iiiffxx(万元)64.119504
43、2555.711002/1dfSfLMmmef/2=143/2=71.5,中位数所在组为“100150”的组,众数组为“100150”的组,)(22.11550)2642()3542(35421002110万元dLM1005.四分位数(概念要点)1.集中趋势的测度值之一集中趋势的测度值之一 2.排序后处于排序后处于25%和和75%位置上的值位置上的值101四分位数位置的确定102数值型未分组数据的四分位数(7个数据的算例)原始数据原始数据:23 21 30 32 28 25 26 排排 序序:21 23 25 26 28 30 32 位位 置置:1 2 3 4 5 6 7 103数值型未分组数
44、据的四分位数(6个数据的算例)原始数据原始数据:23 21 30 28 25 26 排排 序序:21 23 25 26 28 30 位位 置置:1 2 3 4 5 6104数值型分组数据的四分位数上四分位数上四分位数:下四分位数下四分位数:105数值型分组数据的四分位数QL位置位置50/412.5QU位置位置350/437.5表表 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计5010
45、6使用Excel统计函数中的QUARTILE函数 在数据量很大的时候,可以使用Excel统计函数中的QUARTILE函数返回四分位数,语法规则如下:格式:QUARTILE(数据集,第nthquart分位数)功能:返回不同nthquart的四分位数。如果nthquart等于函数QUARTILE的返回值0最小值1第一四分位数(第25 个百分点值)2中位数(第 50个百分点值)3第三四分位数(第 75 个百分点值)4最大值1076.五数汇总和箱线图 五数汇总包括最小值、第一分位数、中位数、第三分位数和最大值这样五个数据,即 X最 小 1Q Me 3Q X最 大 箱线图(亦称箱须图)提供了基于五数汇总
46、的几何图形 3 03 54 04 55 01?Me 数据集 X最 小 Q1 Q3 X最 大 值 108箱线图和四种不同类型分布图的联系 c)右偏分布a)钟形分布b)左偏分布d)矩形分布109xx频数 要分析总体的分布规律,仅了解中心趋势指标是不够的,还需要了解数据的离散程度或差异状况。几个总体可以有相同的均值,但取值情况却可以相差很大。变异指标就是用来表示数据离散程度特征的。变异指标主要有:极差、平均差、标准差和变异系数。3.2 度量离散程度的指标110【案例】道格拉斯公司应如何选择供应商 道森公司和克拉克公司是道格拉斯公司的两家供货商。两家供货商都表示大约需要10个工作日交付定货。下表是两家
47、供应商定货交付时间的历史数据。今后道格拉斯公司应选择哪家供应商供货?道森公司:道森公司:克拉克公司:克拉克公司:交货天数次数交货天数次数927110682112931041131221311111.极差 极差也称全距,是一组数据的最大值和最小值之差,通常记为R。显然,一组数据的差异越大,其极差也越大。极差是最简单的变异指标,它广泛应用于产品质量管理中控制质量的差异,一旦发现超过控制范围,就采取措施加以纠正,以保证产品质量的稳定。但极差有很大的局限性,它仅考虑了两个极端的数据,没有利用其余数据的信息,因而是一种比较粗糙的变异指标。1122.平均差 平均差是各数据与其均值离差绝对值的算术平均数,通
48、常记为A.D。|1XXNDAi.平均差越大,反映数据间的差异越大。但由于使用了绝对值,其数学性质很差,因而很少使用。1133.四分位差1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性1144.方差和标准差 方差和标准差是应用得最为广泛的变异指标。标准差是方差的算术平方根,也称均方差或根方差。应注意总体方差、标准差与样本方差、标准差是有区别的。(1)总体方差和总体标准差总体方差和总体标准差 总体方差是各总体数据与其均值离差平方的均值,记为 2,总体标准差记为。22)(1XXNi
49、2)(1XXNi 115(2)样本方差与样本标准差 样本方差记为 S 2,样本标准差记为 S,在推断统计中,它们分别是总体方差和标准差的优良估计。2)(11XXnSi其中:n 为样本容量,Xi 为样本观察值为样本均值。X22)(11XXnSi 116未分组数据方差和标准差的计算 方差和标准差的手工计算非常烦琐,只要求掌握以下两种方法。使用计算器的统计功能使用计算器的统计功能(SD或STAT功能)使用使用 Excel 的统计函数的统计函数 VARP(,)功能:返回所有参数中数据的总体方差。STDEVP(,)功能:返回所有参数中数据的总体标准差。VAR(,)功能:返回所有参数中数据的样本方差。ST
50、DEV(,)功能:返回所有参数中数据的样本标准差。1175.变异系数当需要比较不同总体的离散程度时,如果使用的度量单位不同,或它们在数量级上相差很大,则用绝对数值表示的方差和标准差就缺乏可比性,此时就应使用相对变异指标(变异系数)。例如,对汽车发动机的汽缸而言,0.05毫米的标准差就很大了,但对建筑工程而言则可完全忽略不记。相对变异指标中最重要的是标准差系数标准差系数,是标准差与均值之比,记为V。XV1186.Z值极端值是远离均值的量。Z值有助于定义极端值。Z值越大,数据远离均值的距离越大。Z值记为,是数据与均值的差再除以标准差。其计算公式如下:XXZS通常,Z值小于3.0或大于+3.0时,认