1、第3章 数据的图表展示数据的预处理品质数据的整理与展示数值型数据的整理与展示合理使用图表学习目的和要求学习目的和要求 通过本章学习,通过本章学习,掌握掌握统计数据的分类统计数据的分类及数据的整理。及数据的整理。重点掌握统计分组重点掌握统计分组的方法和次数分布表的编制。能的方法和次数分布表的编制。能熟练运用统计软件对数据进行整熟练运用统计软件对数据进行整理。理。3.1 数据的预处理3.1.1 数据审核检查数据中是否有错误。原始原始数据数据二手二手数据数据适用性适用性时效性时效性完整性完整性审核审核准确性准确性审核审核应调查的单位是否有遗漏所有的调查项目是否填写齐全数据是否有错误是否存在异常值应尽
2、可能使用最新的统计数据来源、口径以及有关的背景材料是否符合自己分析研究的需要3.1.2 数据筛选3.1.3 数据排序:发现数据的基本特征发现数据的基本特征 把定量数据按从大到小或从小到大的顺序把定量数据按从大到小或从小到大的顺序排列,排列, 把定性数据按习惯的文字顺序排列,便于把定性数据按习惯的文字顺序排列,便于我们研究其条理我们研究其条理 方法:升序和降序方法:升序和降序例3.13.1.4 数据透视表例3.2统计数据类型统计数据类型定类定类定序定序定距定距定比品质数据数量数据1 12 23 34 41 12 23 34 4四个测定层次的比较四个测定层次的比较 3.2 品质数据的整理与展示3.
3、2.1 分类数据的整理与展示1.频数与频数分布频数:落在各类别中的数据个数。 频数分布:将各类别及落在其中的相应频数列出,用表格形式表现出来。例3.32.分类数据的图示(1)条形图是用宽度相同的条形的高度或长短来表示数据变动的图形条形图有单式、复式等形式在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率例3.3(2)帕累托图不同类别的数据根据其频率降序排列的,并在同一张图中画出累积百分比图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率(3)饼图用圆形及园内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用例3.3(4)
4、环形图环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形3.2.2 顺序数据的整理与图示1.累积频数和累积频率累积频数:将各有序类别或组的频数逐级累加所得到的频数。分:向上累积和向下累积。 累积频率:将各有序类别或组的百分比逐级累加。分:向上累积和向下累积。例3.53.3 数值型数据的整理与展示3.3.1 数据分组将原始数据按照某种标准分成不同的组别,用于观察数据的分布特征等距分组等距分组异距分组异距分组单变量值分组单变量值分组组距分组组距分组组距分组与不等距分组组距分组与不等距分组(在表现频数分布上的差异)1.1.等距分组等距分组各组频数的分布不受组距大小的影响各组频
5、数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律可直接根据绝对频数来观察频数分布的特征和规律2.2.不等距分组不等距分组各组频数的分布受组距大小不同的影响各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度(频数密度频数需要用频数密度(频数密度频数/ /组距)反映频组距)反映频数分布的实际状况数分布的实际状况统计分组 基本原则:组内同质性,组间差异性基本原则:组内同质性,组间差异性 作用:作用: (1 1)划分现象的类型)划分现象的类型 (2 2)表明总体内部的结构及整个结构表明总体内部的
6、结构及整个结构的类型和特征的类型和特征 (3 3)揭示现象间的依存关系揭示现象间的依存关系1.1.按按分组标志个数分组标志个数不同不同 1 1)简单分组)简单分组: :把总体只按一个标志分组 2)2)复合分组复合分组: :对同一总体选择两个或两个以上标志层叠起来进行分组。例如,可以 同时选择学科、学制、 性别三个标志对某学院全体在校学生这个总体 进行分组。 2.2.按分组标志按分组标志种类种类不同不同 1) 1) 品质标志分组品质标志分组 2) 2) 数量标志分组数量标志分组 统计分组的形式A.单项式分组:即变量的一个取值为一即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。组,适
7、用于离散型变量,并且变量的取值较少。 如家庭人如家庭人口数分组口数分组 1 1人人 2 2人人 3 3人人 4 4人人 5 5人人 6 6人人2) 2) 数量标志分组数量标志分组 B组距式分组:即每一组有一个即每一组有一个上限值和一个下限值所形成的区间,上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量适用于连续性变量,或离散型变量且变量的取值较多不便一一列举的且变量的取值较多不便一一列举的情况。情况。 按销售额分组按销售额分组( (万元万元) )5050以下以下5020050200200400200400400600400600600800600800800800以上以上例:对商
8、店按销售额进行分组例:对商店按销售额进行分组组距分组组距分组(要点)(要点)1.1. 将变量值的一个区间作为一组将变量值的一个区间作为一组2.2. 适合于连续变量适合于连续变量3.3. 适合于变量值较多的情况适合于变量值较多的情况4.4. 必须遵循必须遵循“不重不漏不重不漏”的原则的原则5.5. 可采用等距分组,也可采用不等距可采用等距分组,也可采用不等距分组分组组距分组组距分组(步骤)(步骤)1.1.确定组数确定组数:组数的确定应以能够显示数据的分布特征和规律为目的:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按。在实际分组时,可以按 Sturges Sturges
9、提出的经验公式来确定组数提出的经验公式来确定组数K K分组中要注意的关键分组中要注意的关键 1.选择分组标志 选择分组标志时,一般应考虑原则: 根据研究问题的目的和任务选择分组标志 在若干标志中,选择能反映问题本质的标志 结合现象所处的历史条件具体情况具体分析 2.划分各组的界限:在分组标志的变异范围内,划定各相邻组之间的性质界限和数量界限THANK YOUSUCCESS2022-6-1组距分组组距分组(几个概念) 下下 限:限:一个组的最小值一个组的最小值 上上 限:限:一个组的最大值一个组的最大值 组组 距:距:上限与下限之差上限与下限之差 组中值:组中值:下限与上限之间的中点值下限与上限
10、之间的中点值 ( (闭口组闭口组) ) (缺上限的开口组)(缺上限的开口组) (缺下限的开口组)(缺下限的开口组) 2上限上限下限下限组中值组中值 2邻组组距邻组组距下限下限组中值组中值 2邻组组距邻组组距上限上限组中值组中值 实例某生产车间50名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 1
11、20 123 127 135 137 114 120 128 124 115 139 128 124 121单变量值分组表某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表零件数零件数(个个)频数频数(人人)零件数零件数(个个)频数频数(人人)零件数零件数(个个)频数频数(人人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112等距分组表(上下组限重叠)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表
12、按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105110110115115120120125125130130135135140358141064610162820128合计合计50100等距分组表(上下组限间断)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)频率(频率(%)105109110114115119120124125129130134135139358141064610162820128合计合计50100等距分组表(使用开口组)某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按
13、零件数分组频数(人)频数(人)频率(频率(%)110以下以下110114115119120124125129130134135以上以上358141064610162820128合计合计501003.3.2 数值型数据的图示1.分组数据:直方图用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)2.未分组数据:茎叶图和箱线图(1)茎叶图用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字
14、作树叶(2)箱线图将一组数据从大到小排列,分别计算出他的上边缘,上四分位数,中位数,下四分位数,下边缘,还有一个异常值。4681012图3-9 简单箱线图中位数中位数Q QU UX X最大值最大值X X最小值最小值Q QL L不同分布的箱线图不同分布的箱线图未分组数据多批数据箱线图8门课程考试成绩的箱线图门课程考试成绩的箱线图11名学生名学生8门课程考试成绩的箱线图门课程考试成绩的箱线图Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生113.时间序列数据:线图时间一般绘在横轴,指标数据绘在纵轴图
15、形的长宽比例要适当,其长宽比例大致为10:7一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断例3.84.多变量数据的图示(1)散点图用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式例3.9(2)气泡图展示三个变量之间的关系例3.9(3)雷达图数据类型与显示数据类型与显示数值型数据数值型数据品质数据品质数据分组数据分组数据总计表总计表茎茎叶叶图图条条形形图图圆圆形形图图环环形形图图直直方方图图箱箱线线图图折折线线图图原始数据原始数据时序数据时序数据线线图图雷雷达达图图多元数据多元数据3.
16、4 合理使用图表3.4.1 鉴别图形优劣的准则强调数据间的比较强调数据间的比较有对图形的统有对图形的统计描述和文字计描述和文字说明说明服务于一个明确服务于一个明确的目的的目的让读者的注意力集让读者的注意力集中在图形内容上中在图形内容上避免歪曲避免歪曲显示数据显示数据好图好图3.4.2 统计表的设计项目单位1997年 1998年 一、调查户数 二、平均每户家庭人口数 三、平均每户就业人口数 四、平均每人全部收入 五、平均每人实际支出 消费性支出 非消费性支出 六、平均每人居住面积户人人元元元元平方米 37890 3.19 1.83 5188.54 4945.87 4185.64 755.94 11.90 39080 3.16 1.80 5458.34 5322.95 4331.61 987.17 12.40资料来源:中国统计摘要1999,中国统计出版社,1999,第79页。注:1本表为城市和县城的城镇居民家庭抽样调查材料。 2消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。19971998年城镇居民家庭抽样调查资料THANK YOUSUCCESS2022-6-1