1、第四节 标志变异指标一、标志变异指标的意义和作用二、全距三、平均差四、标准差五、离散系数六、用EXCEL计算描述统计量 上一页下一页返回本章首页一、标志变动度的意义和作用标志变异指标标志变异指标也称为标志变动度,是与平均指也称为标志变动度,是与平均指标相联系的一种综合指标。用于标相联系的一种综合指标。用于综合反映总体各个单位标志值的综合反映总体各个单位标志值的差异的程度。差异的程度。总体指标和平均指标都是对总体的规模和一般水平的总体指标和平均指标都是对总体的规模和一般水平的认识,但这些指标不能反映各单位的差异情况,相反认识,但这些指标不能反映各单位的差异情况,相反地却掩盖了这些差异。如:地却掩
2、盖了这些差异。如:例某车间两个生产小组各人日产量如下:甲组:20,40,60,70,80,100,120乙组:67,68,69,70,71,72,73从下图可以看出甲组离散程度大,乙组离散程度小。上一页下一页返回本节首页70 x甲甲70 x乙乙上一页下一页返回本节首页上一页下一页返回本节首页标志变动度的作用标志变动度的作用minmaxXXR指所研究的数据中,最大值与指所研究的数据中,最大值与最小值之差,又称最小值之差,又称极差极差。元310440750minmaxXXR统计学统计学第五章第五章 变量数列分析变量数列分析Xf解:4080120109010110minmaxXXR统计学统计学第五章
3、第五章 变量数列分析变量数列分析统计学统计学第五章第五章 变量数列分析变量数列分析第第 个单位个单位的变量值的变量值iNXXNXXXXDANiiN11是各个数据与其算术平均数的离差是各个数据与其算术平均数的离差绝对值的算术平均数,用绝对值的算术平均数,用 表示表示DA总体算术总体算术平均数平均数总体单总体单位总数位总数统计学统计学第五章第五章 变量数列分析变量数列分析元6.93546855587505584401NXXDANii元558527905750600520480440X统计学统计学第五章第五章 变量数列分析变量数列分析miimiiimmmffXXfffXXfXXDA11111总体算术
4、总体算术平均数平均数第第 组变量值组变量值出现的次数出现的次数i第第 组的变量组的变量值或组中值值或组中值i统计学统计学第五章第五章 变量数列分析变量数列分析月工资(元)月工资(元)组中值(元)组中值(元)职工人数(人)职工人数(人)300以下以下300400400500500600600700700800800900900以上以上2503504505506507508509502083143824563052377820合计合计2000Xf统计学统计学第五章第五章 变量数列分析变量数列分析元95.52220001045900200020950208250X元95.13820006.27789
5、320002095.52295020895.5222501ffXXDAmii统计学统计学第五章第五章 变量数列分析变量数列分析统计学统计学第五章第五章 变量数列分析变量数列分析NXXNii21 简单标准差简单标准差是各个数据与其算术平均数的是各个数据与其算术平均数的离差平方的算术平均数的开平离差平方的算术平均数的开平方根,用方根,用 来表示;标准差的来表示;标准差的平方又叫作方差,用平方又叫作方差,用 来表示。来表示。2总体单总体单位总数位总数第第 个单位个单位的变量值的变量值i总体算术总体算术平均数平均数统计学统计学第五章第五章 变量数列分析变量数列分析元558527905750600520
6、480440X元62.10956008055587505584402221NXXNii统计学统计学第五章第五章 变量数列分析变量数列分析miiimiiffXX121总体算术总体算术平均数平均数第第 组变量值组变量值出现的次数出现的次数i第第 组的变量组的变量值或组中值值或组中值i统计学统计学第五章第五章 变量数列分析变量数列分析月工资(元)月工资(元)组中值(元)组中值(元)职工人数(人)职工人数(人)300以下以下300400400500500600600700700800800900900以上以上2503504505506507508509502083143824563052377820合
7、计合计2000Xf统计学统计学第五章第五章 变量数列分析变量数列分析元95.52220001045900200020950208250X元9.167200001.5638659520002095.52295020895.52225022统计学统计学第五章第五章 变量数列分析变量数列分析33222cbacba统计学统计学第五章第五章 变量数列分析变量数列分析 22XX 22NXNX22fXfffX变量值平方变量值平方的平均数的平均数变量值平均变量值平均数的平方数的平方统计学统计学第五章第五章 变量数列分析变量数列分析kg500大象kg5.0免子kgx3500大象kgx5.2免子可比可比统计学统计
8、学第五章第五章 变量数列分析变量数列分析身高的差异水平:身高的差异水平:cmcm体重的差异水平:体重的差异水平:kgkg用用变异系数变异系数可以相互比较可以相互比较身高身高x体重体重x可可比比统计学统计学第五章第五章 变量数列分析变量数列分析100XDAVDA100XV统计学统计学第五章第五章 变量数列分析变量数列分析02.19100826.15100111XV47.19100768.14100222XV21VV统计学统计学第五章第五章 变量数列分析变量数列分析0N1NN统计学统计学第五章第五章 变量数列分析变量数列分析NNP1NNQ010101NNNNNNNNNQP且有统计学统计学第五章第五
9、章 变量数列分析变量数列分析PNNNNNfXfXP10101PQPQPQQPPQNNNPNPffXXp22010212201)(统计学统计学第五章第五章 变量数列分析变量数列分析25.05.02max时,有当QPPPPQ12PQPPPPPXVPP11统计学统计学第五章第五章 变量数列分析变量数列分析218.0)95.01(95.095.054002095400380203804000101PQPXNNQNNPNNNpP所以有:,则件,件,件,己知统计学统计学第五章第五章 变量数列分析变量数列分析三、平均差n平均差的概念与计算 平均差是各单位标志值对平均数离差绝对值的平均数。计算公式ffXXDA
10、nXXDA.:.:分组资料未分组资料上一页下一页返回本节首页n平均差的特点:n计算方便、易于理解n指标粗糙上一页下一页返回本节首页n例:书上P131表4-23n用加权平均数公式计算加权算术平均数2ndF,ON,7.5,30,M+,12.5,70,M+,17.5,100,M+,22.5,50,M+,27.5,10,M+,xM,结果为16.35n计算离差绝对值,分别为8.85、3.85、1.15、6.15、11.15n对离差绝对值计算加权平均数2ndF,ON,8.85,30,M+,3.85,70,M+,1.15,100,M+,6.15,50,M+,11.15,10,M+,xM,结果为4.11上一页
11、下一页返回本节首页四、标准差n标准差的概念与计算 平均差是各单位标志值与其算术平均数离差平方的算术平均数的平方根。计算公式ffnXXXX22:分组资料未分组资料上一页下一页返回本节首页n例:书上P133表4-242ndF,ON,55,10,M+,65,19,M+,75,50,M+,85,36,M+,95,27,M+,105,14,M+,115,8,M+,2ndF,RM,结果为14.85 称为方差。2上一页下一页返回本节首页五、离散系数n标志变动度的数值大小,不仅受离散程度影响,而且还受平均水平高低的影响,因此,在平均数不相等时,不能简单根据标准差或平均差大小来比较离散程度。n例:有两组工人日产
12、量n甲组:60、65、70、75、80n乙组:2、5、7、9、12不能简单断言甲组离散程度大于乙组离散程度70X甲7X乙07.7甲41.3乙上一页下一页返回本节首页n可以计算离散系数本例中%100X标准差系数%7.48%100741.3%1.10%1007007.7VV乙甲即乙组的离散程度大于甲组。由此可见,当我们比较两组数据的离散程度时,如两组平均数相等,可以直接比较标准差;如两组平均数不等,则需比较两组的离散系数。上一页下一页返回本节首页六、用EXCEL计算描述统计量n用EXCEL计算平均数、标准差等描述性统计量有两种方法,一是用函数,二是用“数据分析”工具。n第一次使用“数据分析”时,需
13、在EXCEL工具菜单中选“加载宏”,选“分析工具库”。这样在“工具”菜单中就会出现“数据分析”。上一页下一页返回本节首页打开“4数据描述.xls”工作簿,选择“网上冲浪”工作表。打开“工具”菜单,选择“数据分析”选项,打开数据分析对话框如图所示。上一页下一页返回本节首页双击“描述统计”项或先单击此项再选择“确定”按钮,描述统计对话框打开如图所示。在“输入区域”中输入A1:A21。上一页下一页返回本节首页由于所选数据范围包括一个标志名称,单击“标志位于第一行”选项边上的复选框。单击“输出区域”项,旁边出现了一个输入框,单击此框出现插入符,单击C1,在输入框中出现输出地址“$B$1”,这是输出结果
14、的左上角起始位置。单击“汇总统计”,如不选此项,则Excel省略部分输出结果。上一页下一页返回本节首页单击“确定”按钮,将产生输出结果,如下图所示。上一页下一页返回本节首页在上表中:平均算术平均数标准误差估计标准误差,在抽样调查一章会讲到中值中位数模式众数标准偏差样本标准差s,分母除以n-1样本方差s平方峰值反映钟形分布峰高的一个指标偏斜度反映偏斜程度的一个指标区域全距,等于最大值减最小值计数单位数上一页下一页返回本节首页第五节 案例研究:“Old Faithful”间歇喷泉的喷发间歇喷泉是一种向空中喷出热水和热气的温泉,其名字的由来是因为这种喷泉要经过一段相对稳定的状态后才能喷发。有时它喷射
15、的时间间隔不太稳定。Ohio(俄亥俄)州黄石国家公园中的“Old Faithful”间歇喷泉是世界上最著名的间歇喷泉之一。参观者们都希望到公园后不用等多久就能看到喷泉的喷发。国家公园的服务部门就在喷泉处安装了一个指示牌预报下次喷泉喷发的时间如下表所示。上一页下一页返回本章首页开始时间持续时间预测区间预测下一次喷发时间6:351分55秒58分7:33am7:32接近4秒82分8:54am8:591分51秒58分9:57am10:124分33秒89分11:41am11:461分42秒58分12:44am中午吃饭 2:061分41秒55分3:01am注:数据来源:应用线性回归第二版,作者:SWeis
16、berg。“Old Faithful”间歇喷泉喷发时间表上一页下一页返回本节首页那么,公园是如何得到这个结果的呢?为了了解喷泉喷发间隔时间的规律,以1978年8月至1979年8月间喷泉222次喷发)的间隔时间记录为样本(见上表)进行分析。打开”4数据描述.xls”工作簿,“喷泉“工作表。单击“工具”菜单,选择“数据分析”选项,打开“直方图”对话框。在输入区域输入单元格C1:C223,选择“标志”,在输出区域中输入单元格“D1”,选择“图表输出”,单击“确定”按钮。上一页下一页返回本节首页将所得的直方图进行修饰,便得到下图:从图中可以看出,喷泉喷发的间隔时间一般在40100分钟内变动。但是,在数
17、据中明显地存在两个子群,它们的中心大约分别在喷发间隔55分钟和80分钟,这样在图形中间形成一个缺口。然而我们利用描述统计分析工具所得的结果与此便大不一样。Old Faithful 时间间隔直方图0510152025303540454246505357616569727680848791其他间隔时间频率上一页下一页返回本节首页利用描述统计分析工具分析该喷泉的间隔时间,方法如下:打开“4数据描述.xls”工作簿,选择“喷泉”工作表。从“工具”菜单中选择“数据分析”选项,打开“描述统计”对话框。在输入区域中输入“C1:C223”,选择标志位于第一行。“输出区域”选择D19。选择“汇总统计”和“平均数
18、置信度”,单击“确定”按钮,结果如下表所示。上一页下一页返回本节首页 “Old Faithfaul”喷泉间隔时间描述统计表 (表一)(表二)统计指标数值 平均数71.00901标准误差0.859024中位数75众数75标准差12.799018样本方差163.8189峰度-0.48552统计指标数值 偏度-0.48552全距53最小值42最大值95合计15764单位数222置信度1.692928上一页下一页返回本节首页由于描述统计指标的概括性与抽象性,容易使人对事物的真实情况产生误解。例如:从上表中可以看出平均间隔时间大约为71分钟。事实上,间歇时间大致呈现双峰分布,因而这一平均数并不能确切描述
19、上述两个子群中任何一个子群的特征。按喷发持续的时间将观察值分成两组,可以对两种喷 发的不同特性在更多细节上作出检测。下表是以喷发 持续的时间是少于还是大于3分钟为依据分组,分别列 出喷发间歇时间的主要统计指标。上一页下一页返回本节首页喷泉喷发间歇时间的主要描述统计指标 间歇时间统计指标喷发时间3分钟样本数67155平均数54.46378.161标准差6.29896.8911最小值42.00053.000中位数53.00078.000最大值78.00095.000上一页下一页返回本节首页根据上述统计指标和图表,可以得出一个简单的预测规律:一个持续时间少于3分钟的喷发将必然伴随着一个大约55分钟的间歇;一个持续时间大于3分钟的喷发将必然伴随着一个大约80分钟的间歇。并且,后者这种较长的间歇发生的可能性为67%。这样,通过一个非常简单的规则,国家公园的工作人员能够保证来黄石公园的游客不用等很长时间就会观看到“旧费尔斯福”间歇喷泉的喷发。上一页下一页返回本节首页