1、统计学统计学第2章 统计数据的描述第第1章章 回顾回顾l知识点l统计学内涵l统计学概念及含义l要求l掌握统计学的涵义l了解统计学产生与发展l掌握统计学几个概念是一门收集、整理、是一门收集、整理、显示和分析统计数据显示和分析统计数据的科学,其目的是探的科学,其目的是探索数据内在的规律性索数据内在的规律性。总体变量样本参数统计量第第2章章 统计数据的描述统计数据的描述l2.1数据的计量尺度l2.2统计数据的来源l2.3统计数据的质量l2.4统计数据的整理l2.5分布集中趋势的测度l2.6分布离散程度的测度l2.7分布偏态与峰度的测度l2.8茎叶图与箱线图l2.9统计表与统计图数据整理数据分析数据显
2、示结果2.1 数据的计量尺度数据的计量尺度一、列名尺度一、列名尺度二、顺序尺度二、顺序尺度三、间隔尺度三、间隔尺度四、比率尺度四、比率尺度2.1 数据的计量尺度数据的计量尺度l分类方法(4种计量尺度):列名尺度、顺序尺度、间隔尺度和比例(率)尺度。列名尺度列名尺度顺序尺度顺序尺度间隔尺度间隔尺度比例尺度比例尺度精精确确程程度度良好良好19801980134134公斤公斤休斯顿火箭休斯顿火箭俱乐部:健康状况:出生年份:体重:1、列名尺度列名尺度(Nominal Scale)l例如:性别、民族、职业l数据表现为“类别”l各类之间无等级次序 l各类别可以用数字代码表示l根据列名尺度得到的数据为分类数
3、据。2、顺序尺度(Ordinal Scale)l例如健康状况、质量等级l数据表现为“类别”l可对等级、大小等排序l未测量出类别之间的准确差值l根据顺序尺度得到的数据为顺序数据。3、间隔尺度 Interval Scalel例如年份、摄氏温度l数据表现为“数值”l可以进行加减运算l“0”是只是尺度上的一个点,不代表“不存在”l根据间隔尺度得到的数据为间隔数据。4、比例尺度 Ratio Scalel例如体重、身高l数据表现为“数值”l可以进行加减、乘除运算l“0”表示“没有”或“不存在”l根据比例尺度得到的数据为比例数据。间隔尺度与比例尺度的区别间隔尺度中“0”表示一个具体数值,不表示“没有”或“不
4、存在”,比例尺度中“0”表示“没有”或“不存在”。间隔尺度间隔尺度 -273.15 -123.15 0 26.85比例尺度比例尺度 0KM 150KM 300KM课堂练习下列数据中哪些采用了间隔尺度?下列数据中哪些采用了间隔尺度?海拔海拔88488848米米 960960万平方公里万平方公里 100100元元 北纬北纬3838度度四种计量尺度的比较四种计量尺度的比较l1、四种尺度所包含的信息量是依次递增的。l2、根据较高层次的计量尺度可以获得较低层次的计量尺度。四种计量尺度的比较:数学性质四种计量尺度的比较:数学性质“”表示该尺度所具有的特性四种计量尺度的比较四种计量尺度的比较列名尺度列名尺度
5、 顺序尺度顺序尺度 间隔尺度间隔尺度 比例尺度比例尺度 分类分类(=,)排序排序()间距间距(+,-)比值比值(,)数据和变量类型数据的类型数据的类型分类数据顺序数据定性数据定量数据间隔数据比例数据品质变量AttributeCategorical数量变量Numerical变量类型变量的类型 l变量变量是用来描述现象某种令人感兴趣的特是用来描述现象某种令人感兴趣的特征的概念。征的概念。l品质变量品质变量是描述现象有关属性特征的变量,本是描述现象有关属性特征的变量,本质上不能用数字来表示。例如性别。质上不能用数字来表示。例如性别。l数量变量数量变量是描述现象有关数量特征的变量,都是描述现象有关数量
6、特征的变量,都是用数字来表示的。例如人数,年龄等。是用数字来表示的。例如人数,年龄等。l离散型变量离散型变量指的是有限个数值或诸如指的是有限个数值或诸如0,1,2之之类无限可列值的变量。类无限可列值的变量。l如果某一变量可以取某一区间或多个区间中任意数值,如果某一变量可以取某一区间或多个区间中任意数值,则该变量称为则该变量称为连续型变量连续型变量。2.1 例子例子l请判断下列数据分别属于什么类型?l灯炮使用寿命l将产业划分为三类l广州市8月份各天的气温记录l将服务质量分为五个等级:好、较好、一般、差、较差。分类数据顺序数据比例数据间隔数据2.2 统计统计数据的来源数据的来源一、间接获取的数据一
7、、间接获取的数据 二、直接获取的数据二、直接获取的数据 间接取得的数据间接取得的数据间接取得的数据间接取得的数据中国统计出版社1.统计部门和政府部门公布的有关资料,如各类统计年鉴2.各类经济信息中心、信息咨询机构、专业调查机构等提供的数据3.各类专业期刊、报纸、书籍所提供的资料4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料5.从互联网或图书馆查阅到的相关资料 提供统计数据的部分政府网站提供统计数据的部分政府网站中国政府及相关机构中国政府及相关机构 网址网址数据内容数据内容国家统计局http:/统计年鉴、统计月报等国务院发展研究中心信息网http:/宏观经济、财经、
8、货币金融等 中国经济信息网http:/经济信息及各类网站华通数据中心http:/国家统计局授权的数据中心中国决策信息网http:/决策知识及案例三农数据网http:/三农信息、论坛及相关网站提供统计数据的部分政府网站提供统计数据的部分政府网站美国政府机构美国政府机构 网址网址数据内容数据内容人口普查局http:/www.census.gov人口和家庭等联邦储备局http:/www.bog.frb.fed.us货币供应、信誉、汇率等预算编制办公室http:/www.whitehouse.gov/omb财政收入、支出、债券等商务部http:/www.doc.gov商业、工业等直接取得的数据直接取得
9、的数据普查普查(census)1.为特定目的专门组织的非经常性全面调查2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间4.数据的规范化程度较高5.应用范围比较狭窄抽样调查抽样调查(sampling survey)l1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 2.3数据的质量数据的质量l非抽样误差:由于调查过程中各有关环节工作失误造成的。l调查方案有关规定或解释不明确导致填报错误、抄录错误、汇总错误、不完整抽样框导致的误差,调查中不回答产生的误差。l人为干扰:隐瞒、虚报。l从理论上看,这类误差可以避免。l加强培训l掌握获取完整抽样框
10、的方法,科学抽样的方法与技术。l抽样误差:利用样本推断总体时产生的误差。l不可避免l可以计量、可以控制抽样框全部总体单元或范围。1抽样误差样本容量2.3 统计统计数据的质量数据的质量数据的误差数据的误差抽抽样样误误差差抽样框误差回答误差无回答误差调查员误差非非抽抽样样误误差差数数据据的的误误差差抽样误差抽样误差(sampling error)1.由于抽样的随机性所带来的误差 2.所有样本可能的结果与总体真值之间的平均性差异 3.影响抽样误差大小的因素l样本容量的大小l总体的变异性非抽样误差非抽样误差(non-sampling error)1.相对于抽样误差而言2.除抽样误差之外的,由于其他原因
11、造成的样本观察结果与总体真值之间的差异3.存在于所有的调查之中4.有抽样框误差、回答误差、无回答误差、调查员误差、测量误差数据来源与数据质量数据来源与数据质量l1936年,罗斯福和兰登竞选总统。文学摘要调查了240万人,预测兰登以57%对43%获胜;Gallup(盖洛普)调查了50000人,结论是罗斯福以56%获胜。实际结果是罗斯福以62%获胜。l1952年至1988年,Gallup公司在每次调查中只抽取3439至8144人,实际预测误差在0.2至4.4 个百分点之间。数据来源与数据质量数据来源与数据质量l第二次世界大战期间,美国国家民意调查中心(The National Opinion Re
12、search Center)派两组调查人员对一个南方城市的500名黑人进行提问,一组调查人员由白人组成,另一组由黑人组成。3个问题:l问题一:“如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?”l黑人调查组中,9的被调查者回答“变好”,25回答“变坏”;l白人调查组中,2回答“变好”,45回答变坏。l问题二:用“纳粹分子”代替“日本”,两组的结果大体相同。l问题三:“你认为目前致力于打败轴心国比在本国内进一步推进民主更重要吗?”l黑人调查组中,选择“打败轴心国”的比例是39,l而白人调查组则是62。l是什么原因造成了调查结果的差异呢?误差的控制误差的控制1.抽样误差可计算和控制2.非
13、抽样误差的控制l调查员的挑选l调查员的培训l督导员的调查专业水平l调查过程控制l调查结果进行检验、评估l现场调查人员进行奖惩的制度2.4 统计统计数据的整理数据的整理一、统计数据的分组一、统计数据的分组 二、次数分配二、次数分配三、次数分配直方图三、次数分配直方图 四、洛伦茨曲线四、洛伦茨曲线统计数据的分组统计数据的分组2.4数据的整理数据的整理统计数据的分组统计数据的分组l按照统计研究目的,将数据分别列入不同的组内。l按品质标志分组:列名尺度和顺序尺度。l按数量标志分组:间隔尺度和比例尺度。2.4 数据的整理数据的整理次数分配次数分配l次数分配是观察值按其分组标志分配在各组内的次数。分组目的
14、:找出数据分布的规律。l步骤:l分多少组?确定组数l每一组的范围?确定组距=(Max.-Min.)/组数l等组距分组、不等组距分组l开口组l经验:组数不少于5组,也不应多于15组l原则:“不重不漏”、上组限(一个组的最大值)不在内l累积次数分配l向下累积:由表的上方向表的下方累加l向上累积:由表的下方向表的上方累加组距分组组距分组 (步骤步骤)1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的2.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即l组距组距(最大值最大值-最小值最小值)组数组数3.统计出各组的频数并
15、整理成频数分布表 频数(frequency):每个组中的数据个数,也称次数。频率(relative frequency):频数/总数据个数。补充补充Sturges 提出的经验公式:分组组数K应满足其中n 为数据的个数(总体单位数或样本数),一般对结果取整数。组距分组组距分组 (几个概念几个概念)l1.下限下限(low limit):一个组的最小值l2.上限上限(upper limit):一个组的最大值l3.组距组距(class width):上限与下限之差l4.组中值组中值(class midpoint):下限与上限之间的中点值次数分配表的编制次数分配表的编制(例题分析例题分析)Max=128
16、Min=84频数分布表频数分布表Max=128Min=84(Max-Min)/5=(128-84)/5=8.810上组限(一个组的最大值)不在内。90、100、110、120这几个数究竟属于哪一组?课堂练习:课堂练习:某月啤酒公司某月啤酒公司60个销售点的销量个销售点的销量l48 71 52 53 36 41 69 58 47 60 53 29 l41 72 81 37 43 58 68 42 73 62 59 44l51 53 47 66 59 52 34 49 73 29 47 16l39 58 43 29 46 52 38 46 80 58 51 67 l54 57 58 63 49 4
17、0 54 61 58 66 47 50l 单位:桶Max=81Min=16(Max-Min)/8=(81-16)/8=8.1259啤酒销售量的频数分布 销售桶数销售桶数 销售点数销售点数 频率频率(%)1019 1 1.7 2029 3 5.0 3039 5 8.3 4049 16 26.7 5059 20 33.3 6069 9 15.0 7079 4 6.7 8089 2 3.3 合计合计 60 100.0频数/次数次数分配直方图次数分配直方图直方图直方图 (histogram)1.在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图2.用矩形的
18、宽度和高度来表示频数分布的图形,实际上是用矩形的面积面积来表示各组的频数分布分组数据的图示分组数据的图示(直方图的绘制直方图的绘制)809010011012013004812折线图折线图 (frequency polygon)1.折线图也称次数多边形图2.折线图是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉3.折线图的两个终点要与横轴相交,具体的做法是l第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴lS直方图=S折线图,二者所表示的频数分布是一致的分组数据的图示分组数据的图示(折线图的绘制折线
19、图的绘制)S直方图直方图=S折线图折线图 809010011012013004812次数分布曲线次数分布曲线l次数分布曲线:当观察次数越多,组距越小且组数越多,所给出的折线图就会越光滑,然后直方图抹掉,就只剩一条光滑的曲线,用于反映数据或统计量的分布规律。l正态分布曲线l偏态曲线lJ形曲线lU形曲线次数分配的类型次数分配的类型洛伦茨曲线与基尼系数洛伦茨曲线与基尼系数洛伦茨曲线洛伦茨曲线20世纪初美国经济学家、统 计 学 家 洛 伦 茨(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制而成。描述了收入和财富分配性质的,这条曲线用于分析某国家或地区收入分配
20、的公平程度。AB基尼系数基尼系数1.20世纪初意大利经济学家基尼(G.Gini)根据洛伦茨曲线计算出一个数值,用这个统计指标可以衡量收入分配的平等程度。2.A表示实际收入曲线与绝对平均线之间的面积3.B表示实际收入曲线与绝对不平均线之间的面积4.如果A=0,则基尼系数=0,表示收入绝对平均5.如果B=0,则基尼系数=1,表示收入绝对不平均6.基尼系数在0 和1之间取值ABA基尼系数=A+B0.4,分配不公洛伦茨曲线与基尼系数计算步骤:洛伦茨曲线与基尼系数计算步骤:假设一个国家有假设一个国家有100100个人,计算这个国家的基尼系数分为下面个人,计算这个国家的基尼系数分为下面四步:四步:1.1.
21、将这将这100100人按收入从低往高排列,第一名是收入最低的,人按收入从低往高排列,第一名是收入最低的,第一百名是收入最高的;第一百名是收入最高的;2.2.画一个边长为一的正方形,并将左下角与右上角的对画一个边长为一的正方形,并将左下角与右上角的对角线相连;角线相连;3.3.依次计算前十名,前二十名,前三十名依次计算前十名,前二十名,前三十名一直到前一直到前九十名所拥有的收入占整个九十名所拥有的收入占整个100100人的收入的比值;人的收入的比值;4.4.以正方形的左下角为原点,用水平边标记累计人口,以正方形的左下角为原点,用水平边标记累计人口,垂直边标记累积的收入比,将在上面计算出的累计收入
22、比值,垂直边标记累积的收入比,将在上面计算出的累计收入比值,在正方形中标出。然后,将这些点同原点以及正方形的右上在正方形中标出。然后,将这些点同原点以及正方形的右上角连接,就可以得到一条曲线。角连接,就可以得到一条曲线。这条曲线被称为这条曲线被称为洛洛伦伦茨茨曲线曲线。基尼系数就是对角线与基尼系数就是对角线与洛洛伦伦茨茨曲线之间的面积,与对角曲线之间的面积,与对角线以下的三角形的面积之比。线以下的三角形的面积之比。各国基尼系数的比较各国基尼系数的比较l美国 40.8%英国 36.1%法国 32.7%俄罗斯 31.0%韩 国 31.6%德 国 30%意大利 27.3%匈牙利 26.9%瑞典 25
23、%日 本 24.9%0.4,分配不公1978-2005中国基尼系数变化情况中国基尼系数变化情况亚行揭露:中国基尼系数扩大到亚行揭露:中国基尼系数扩大到0.473,己达到拉美平均水平,勇夺亚洲冠军己达到拉美平均水平,勇夺亚洲冠军l2007年8月8日,亚洲开发银行发表了减少不平等,中国需要具有包容性的增长的新闻稿并公布了亚洲的分配不均的研究报告。l在22个纳入亚行研究范围的国家中,中国勇夺贫富差距之冠,在衡量分配不平等的两个常见指标中,收入最高的20%人口的平均收入与收入最低的20%人口的平均收入的比率,中国是11倍,高出其它国家一大截;l基尼系数,2004年中国的数值是0.4725,仅比尼泊尔的
24、0.4730低微小,远远高于印度、韩国、台湾。l亚行指出,从1993到2004年,中国的基尼系数从0.407扩大到0.473,己达到拉丁美洲的平均水平,不得不让人怀念“公平的增长”的典范:韩国和台湾(地区)。)。l贫富差距排名贫富差距排名l国家 最高20%人口收入/最低20%人口收入 基尼系数 l l中国 11.37倍 0.4725l尼泊尔 9.47倍 0.4730l菲律宾 9.11倍 0.4397l土库曼斯坦 8.33倍 0.4302l泰国 7.72倍 0.4196l马来西亚 7.7倍 0.4033l柬埔寨 7.04倍 0.3805l斯里兰卡 6.83倍 0.4018l越南 6.24倍 0.
25、3708l台湾 6.05倍 0.3385l阿塞拜疆 5.95倍 0.3650l哈萨克斯坦 5.61倍 0.3383l印度 5.52倍 0.3622l印度尼西亚 5.52倍 0.3430l韩国 5.47倍 0.3155l蒙古 5.44倍 0.3284l老挝 5.4倍 0.3463l塔吉克斯坦 5.14倍 0.3263l亚美尼亚 5.08倍 0.338l文莱 5.03倍 0.3408l巴基斯坦 4.46倍 0.3118l吉尔吉斯 4.43倍 0.303 2.5 分布集中趋势的测度分布集中趋势的测度一、一、众数(mode)二、二、中位数(median)三、四三、四分位数四、四、均值(mean)五、五
26、、几何平均数(geometric mean)六、六、切尾均值(trimmed mean)七、众数、中位数和均值的比较七、众数、中位数和均值的比较集中趋势集中趋势l常用的集中趋势的测度指标:l算术平均数l调和平均数l几何平均数l中位数l众数l集中趋势:一组数据向其中心值靠拢的倾向和程度。l集中趋势测度:寻找数据水平的代表值或中心值众数众数众数众数 Mo(mode)1.一组数据中出现次数最多的变量值2.适合于数据量较多时使用3.不受极端值的影响4.一组数据可能没有众数或有几个众数5.主要用于分类数据,也可用于顺序数据和数值型数据众数众数(不惟一性不惟一性)l无众数无众数原始数据:10 5 9 12
27、 6 8众数(众数(mode)Mol数据按大小顺序排队形成次数分配后,在统计分布中有明显集中趋势的数值。l正态分布和一般偏态分布中,分布的最高峰点所对应的数值就是众数。l是一种位置代表值。112oiML 众数众数l对于分组数据来说,计算众数的近似公式为:112oiML 其中:lL:表示众数所在组的下组限l1:表示众数组次数与下一组次数之差l2:表示众数组次数与上一组次数之差li:表示众数所在组的组距众数的计算:分组资料众数的计算:分组资料*,例子,例子l1、众数所在的组:80-90。l2、或者:众数等于众数所在组的组中值85。成绩频数60以下360-70870-801280-901590以上4
28、合计4214.8210113380211dLMo例题分析结果例题分析结果15119690481216频数可口可乐旭日升冰茶百事可乐汇源果汁露露品牌不同品牌饮料的频数分布不同品牌饮料的频数分布中位数中位数中位数中位数 Me (median)1.排序后处于中间位置上的值中位数中位数 (位置的确定位置的确定)数值型数据的中位数数值型数据的中位数【例】【例】9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6
29、 7 8 9数值型数据的中位数数值型数据的中位数【例】:【例】:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 中位数的计算:分组资料中位数的计算:分组资料*l对分组资料的一种计算方法:中位数所在组的次数总次数。个数所在的组)第中位数所在组下组限mmmefNLifSNLM2n/(21中位数所在组的组距组的累计次数至中位数所在组的前一的组)最低的组向变量值最高的累积次数(由变量值中位数所在组以下各组iSm 1中位数的计算:例子中位数的计算:例子l根据考试成绩的数据计
30、算考试成绩的中位数。-42合计合计42490以上以上381580-90231270-8011860-703360以下以下累计频数累计频数频频数数成绩成绩第第21个个数所在数所在的组的组33.8710121124270eM12mmNSifMe L四分位数四分位数四分位数四分位数 (quartile)1.排序后处于25%和75%位置上的值四分位数四分位数 (位置的确定位置的确定)数值型数据的四分位数数值型数据的四分位数【例】:【例】:9个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960
31、1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9数值型数据的四分位数数值型数据的四分位数【例】:【例】:10个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 位置 2 2.75 3 数值 750 7800.75(780-750)分位数分位数l与中位数性质相似。l四分位数、十分位数、百分位数l十分位数(Decile):D1 D2 D9l百分位数(percentile):P1 P2 P99均值均值均值均值 (mean)1.集中趋
32、势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据算术平均数算术平均数加权均值加权均值 (weighted mean)加权均值加权均值(例题分析例题分析)l 均值均值 (数学性质数学性质)l1.各变量值与均值的离差之和等于零几何均值几何均值几何均值几何均值 (geometric mean)1.n 个变量值乘积的 n 次方根2.适用于对比率数据的平均3.主要用于计算平均增长率4.计算公式为几何均值几何均值 (例题分析例题分析)【例】【例】一位投资者购持有一种股票,在2000年、2001年、2002年和2003年收益
33、率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率是多少?切尾均值切尾均值切尾均值切尾均值 (trimmed Mean)1.去掉大小两端的若干数值后计算中间数据的均值2.在电视大奖赛、体育比赛及需要人们进行综合评价的比赛项目中已得到广泛应用3.计算公式为表示观察值的个数表示切尾系数 a=0,切尾均值=算术平均数a1/2,切尾均值=中位数切尾均值切尾均值(例题分析例题分析)【例】【例】某次比赛共有11名评委,对某位歌手的给分分别是:123456,9.22,9.25,9.20,9.30,9.65,9.30,xxxxxx7891011,9.27,9.20,9.28,
34、9.25,9.24xxxxx(1)(2)(3)(4)(5)(6),9.20,9.20,9.22,9.24,9.25,9.25,xxxxxx(7)(8)(9)(10)(11),9.27,9.28,9.30,9.30,9.65xxxxx 众数、中位数和均值的比较众数、中位数和均值的比较一个故事一个故事l周先生开办了一个小工厂。周先生开办了一个小工厂。管理人员:周先生、他的弟弟和六个亲戚。管理人员:周先生、他的弟弟和六个亲戚。工作人员:工作人员:5个领工和个领工和10个工人。个工人。工厂经营得很顺利,现在需要招聘一个新工人。工厂经营得很顺利,现在需要招聘一个新工人。现在周先生正在面试王先生。现在周先
35、生正在面试王先生。周:我们这里报酬不错。周:我们这里报酬不错。平均薪金平均薪金是每周是每周300元。你在元。你在学徒期间每周得学徒期间每周得75元,不过很快就可以加工资。元,不过很快就可以加工资。王先生工作了几天之后,要求见厂长。王先生工作了几天之后,要求见厂长。王:周厂长你欺骗我!我已经找其他工人核对过了没王:周厂长你欺骗我!我已经找其他工人核对过了没有一个人的工资超过每周有一个人的工资超过每周100元。平均工资怎么可能是元。平均工资怎么可能是一周一周300元呢?元呢?周:啊,王先生,不要激动。平均工资真的是周:啊,王先生,不要激动。平均工资真的是300元。元。我要向你证明这一点。我要向你证
36、明这一点。周先生每周付出的酬金如下:周先生每周付出的酬金如下:l我得我得2400元元l我弟弟得我弟弟得1000元元l我的六个亲戚每人得我的六个亲戚每人得250元,元,250*6=1500l五个领工每人得五个领工每人得200元,元,10个工人每人个工人每人100元,元,共共2000l总共是每周总共是每周6900元,付给元,付给23个人个人周先生拿出了工资表周先生拿出了工资表平均工资:平均工资:6900/23=3006900/23=300元元对话继续:对话继续:王:?你是对的,平均工资是每周王:?你是对的,平均工资是每周300元。可好像你还是蒙元。可好像你还是蒙骗了我。骗了我。周:我不同意!你实在
37、是不明白。我把工资表都告诉你了,周:我不同意!你实在是不明白。我把工资表都告诉你了,看,工资的中位数是看,工资的中位数是200元,可这不是平均工资,而是中元,可这不是平均工资,而是中等工资。等工资。王:每周王:每周100元又是怎么回事呢?元又是怎么回事呢?周:那是众数,是大多数人挣的工资。老弟,你的问题是出周:那是众数,是大多数人挣的工资。老弟,你的问题是出在你不懂平均数、中位数和众数之间的区别。在你不懂平均数、中位数和众数之间的区别。王:好,现在我可懂了。我辞职,我要先去学习统计了王:好,现在我可懂了。我辞职,我要先去学习统计了?众数、中位数和均值的关系众数、中位数和均值的关系0_MMxe0
38、_MMxe_0 xMMe众数、中位数、均值的众数、中位数、均值的特点和应用特点和应用1.众数l不受极端值影响l具有不惟一性l数据分布偏斜程度较大时应用2.中位数l不受极端值影响l数据分布偏斜程度较大时应用3.均值l易受极端值影响l数学性质优良l数据对称分布或接近对称分布时应用2.6 分布离散程度的测度分布离散程度的测度一、极差一、极差二、内距二、内距三、方差和标准差三、方差和标准差四、离散系数四、离散系数极差极差 R(range)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布内距内距 (Inter-Quartile Range,IQR)1.也称
39、四分位差2.上四分位数与下四分位数之差l 内内 距距=Q3 Q13.反映了中间50%数据的离散程度4.不受极端值的影响5.可用于衡量中位数的代表性方差和标准差方差和标准差方差和标准差方差和标准差(Variance and Standard deviation)l1.离散程度的测度值之一l2.最常用的测度值l3.反映了数据的分布4.反映了各变量值与均值的平均差异5.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体方差和标准差总体方差和标准差(Population variance and Standard deviation)l未分组数据:样本方差和标准差样
40、本方差和标准差(simple variance and standard deviation)l未分组数据:注意:注意:样本方差用自样本方差用自由度由度n-1去除去除!样本方差样本方差 自由度自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4
41、.样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差2时,它是2的无偏估计量例:方差和标准差例:方差和标准差l某工会随机调查了5名工人上月的加班时间如下表,计算数据的方差和标准差。06.41566s加班小时数绝对离差离差平方13130018185251212111515247 7636合计合计1466135715121813nxxi5.1615662s离散系数离散系数离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不
42、同组别数据离散程度的比较5.计算公式为离散系数离散系数 (例题分析例题分析)某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)x1销售利润(万元)销售利润(万元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0离散系数离散系数 (例题分析例题分析)例:某地两个不同类型的企业全年平均月产量资料如下表,计算离散系数。企 业 单位 月平均产量 标准差 离散系数%钢厂吨500102.0纺纱厂锭20052.5比较结果:钢厂的标准差比纺纱厂大,但我们却不能
43、直接断定炼钢厂的平均月产量的差异程度比纺纱厂的大。因为,首先这两个厂的平均月产量相差悬殊,其次两个厂属于性质不同(计量单位不同)的两个企业。因此只能根据离散系数的大小来判断。表中最后一栏的两个企业的离散系数表明,钢厂的平均月产量的差异程度比纺纱厂的小,生产比较稳定。其结果与用标准差判断的结果正好相反。例:离散系数例:离散系数l对30名经理人员的调查表明年平均收入=$500,000,标准差=$50,000。l对30名工人的调查表明平均收入=$32,000,标准差=$5,000。l离散系数:l经理人员:l工人:l虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。%1
44、0%100500000500001v%625.15%1003200050002v数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散系数离散系数方差和标准差方差和标准差峰峰 度度四分位距四分位距极差极差偏偏 态态LocationDispersionShape数据的特征和测度数据的特征和测度2.7 茎叶图与箱线图茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图茎叶图茎叶图 (stem-and-leaf display)1.用于显示未分组的原始数据的分布2.由“茎”和“叶”两部分构成,其图形是由数字组成的3.以该组数据的高位
45、数值作树茎,低位数字作树叶4.树叶上只保留一位数字5.茎叶图类似于横置的直方图,但又有区别l直方图可观察一组数据的分布状况,但没有给出具体的数值l茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息茎叶图茎叶图 (例题分析例题分析)茎叶图茎叶图(扩展的茎叶图扩展的茎叶图)例:地区1 高三男生身高数据的茎叶图HEIGHT Stem-and-Leaf Plot Frequency Stem&Leaf 9.00 15.001223344 17.00 15.55666667778899999 20.00 16.01112222223333333444 35.00 16.55555
46、666666667777788888888888999999 25.00 17.0000000011112222233333344 24.00 17.555666677777777777888899 13.00 18.0111111122333 11.00 18.55667788899 4.00 19.2333 2.00 19.56 3.00 Extremes (=198)Stem width:10.00 Each leaf:1 case(s)箱线图箱线图 (box plot)1.用于显示未分组的原始数据的分布2.箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3.箱线图的绘制
47、方法l首先找出一组数据的5个特征值,即最大值最大值、最小值最小值、中位数中位数Me和两个四分位数四分位数(下四分位数QL和上四分位数QU)l连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 箱线图箱线图 (箱线图的构成箱线图的构成)中位数中位数QUQLX最大值最大值X最小值最小值箱线图箱线图 (例题分析例题分析)分布的形状与箱线图分布的形状与箱线图未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销
48、学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)min-max25%-75%median value455565758595105学生1学生2学生3
49、学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分例题分析析)2.9 统计表与统计图统计表与统计图一、统计表一、统计表二、统计图二、统计图统计表统计表l统计表是显示统计数据的基本工具。l表头l行标题l列标题l数字资料l下方:表外附加l三线表统计表的构成统计表的构成 表表 3-1 2003年我国就业基本情况年我国就业基本情况 项目项目20012002 2003经济活动人口 (万人)就业人员合计 (万人)城镇登记失业人数(万人)城镇登记失业率 ()74432730256813.6 75360737407704.0 760757443280
50、04.3 资料来源:2004年统计年鉴中国统计出版社注:1990年至2000年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计。行行标标题题表头表头列列标标题题数数字字资资料料附加附加统计图统计图l统计图是统计数据的直观表现形式。如何用图形来表示数据?P er cap ita G D P 20 044 215 -86 068 607 -13 8971 389 8-3 155 03 155 1-5 530 7常用统计图常用统计图数据类型数据类型品质数据品质数据定量数据