1、统计学tatistics杭州电子科技大学杭州电子科技大学 薛洁薛洁 主讲主讲2022-11-111第3章 数据的整理与显示v教学内容教学内容v3.1 3.1 数据预处理数据预处理v3.2 3.2 数据分组数据分组v3.3 3.3 频数分布频数分布v3.4 3.4 数据的显示数据的显示2022-11-112学习目标v1.1.理解数据分组的原则、分类理解数据分组的原则、分类v2.2.熟悉并会判断频数分布的类型熟悉并会判断频数分布的类型v3.3.掌握并会编制组距式分布数列掌握并会编制组距式分布数列v4.4.会绘制统计图表会绘制统计图表数据整理的程序2022-11-1143.1 数据预处理v3.1.1
2、 3.1.1 数据审核数据审核v(一)准确性审核(一)准确性审核v(二)适用性审核(二)适用性审核v(三)及时性审核(三)及时性审核v(四)一致性审核:可比性(四)一致性审核:可比性v3.1.2 3.1.2 数据排序数据排序2022-11-1153.2 数据分组(重点)3.2.1 3.2.1 数据分组的意义数据分组的意义2022-11-1163.2 数据分组 统计分组的原则:穷尽原则、互斥原则统计分组的原则:穷尽原则、互斥原则例:从业人员按文化程度分组例:从业人员按文化程度分组 小学毕业小学毕业 中学毕业(含中专)中学毕业(含中专)大学毕业大学毕业 文盲或识字不多文盲或识字不多小学毕业小学毕业
3、中学毕业(含中专)中学毕业(含中专)大专毕业大专毕业大学毕业大学毕业研究生及以上研究生及以上()2022-11-117()3.2 数据分组例:某商场把服装分为例:某商场把服装分为 男装男装 女装女装 童装童装 成年装(男、女装)成年装(男、女装)儿童装(男、女装)儿童装(男、女装)2022-11-118()()3.2.2 数据分组标志(统计分组的种类)v分组的关键问题是分组的关键问题是选择分组标志选择分组标志和和确定各组确定各组的界限的界限。选择分组标志选择分组标志统计分组的核心问题统计分组的核心问题分组标志分组标志是将总体区分为各个性质不同的组的标是将总体区分为各个性质不同的组的标准或依据。
4、准或依据。选择分组标志的原则选择分组标志的原则是:结合一定的是:结合一定的历史条件或历史条件或经济条件经济条件,根据统计研究的,根据统计研究的目的和任务目的和任务,选用那,选用那些最能反映现象些最能反映现象本质特征本质特征的标志作为分组标志。的标志作为分组标志。2022-11-1193.2.2 数据分组标志(统计分组的种类)v(一)品质标志分组(一)品质标志分组:按品质特征分组按品质特征分组v(二)数量标志分组(二)数量标志分组:按数量特征分组按数量特征分组v3.2.3 数据分组体系v(一)平行分组,简单分组(一)平行分组,简单分组v(二)复合分组,按两个及以上标志分组(二)复合分组,按两个及
5、以上标志分组2022-11-1110例例 为了了解某地区银行存款的构成,可以选用存款性质、为了了解某地区银行存款的构成,可以选用存款性质、期限两个标志分别进行分组:期限两个标志分别进行分组:按存款性质分组按存款性质分组 企业存款企业存款 储蓄存款储蓄存款 财政性存款财政性存款按存款期限分组按存款期限分组 活期存款活期存款 定期存款定期存款简单分组复合分组存款同时按其性质及期限分组存款同时按其性质及期限分组 企业存款企业存款 活期活期 定期定期 储蓄存款储蓄存款 活期活期 定期定期 财政性存款财政性存款 活期活期 定期定期例例 企业职工按工龄分组:企业职工按工龄分组:5年以下年以下 510年年
6、1015年年 1520年年 20年以上年以上品质标志分组数量标志分组2022-11-11113.3 频数分布(重点)v在统计分组的基础上,将总体所有的单位按在统计分组的基础上,将总体所有的单位按某一标志进行归类排列,称为频数分布,或某一标志进行归类排列,称为频数分布,或次数分布。次数分布。各组名称各组名称(常用(常用x x 表示)表示)两个两个构成要素构成要素 各组各组次数次数(有两种表现形式:(有两种表现形式:绝对数也称绝对数也称频数频数,用,用 f f 表示表示 相对数称为相对数称为频率频率,用,用表示)表示)2022-11-1112v3.3.1 品质分布数列v(一)定类尺度的频数分布(一
7、)定类尺度的频数分布 例例P35-36 3.1P35-36 3.1v(二)定序尺度的频数分布(二)定序尺度的频数分布 例例P36-37 3.2P36-37 3.2v3.3.2 变量数列v(一)种类(一)种类v1.1.单项式:适用于离散型变量且变量变动范围不单项式:适用于离散型变量且变量变动范围不大的场合。大的场合。v2.2.组距式:适用于连续型变量或者变动范围较大组距式:适用于连续型变量或者变动范围较大的离散型变量。的离散型变量。2022-11-1113单项式分组:一个变量值列为一组。单项式分组:一个变量值列为一组。如:对居民家庭按家庭人口数进行分组:如:对居民家庭按家庭人口数进行分组:人人人
8、人人人人人人及以上人及以上组距式分组:若干个变量值列为一组。组距式分组:若干个变量值列为一组。如:工人按工资水平分组(连)如:工人按工资水平分组(连)300-400 300-400 400-500 400-500 500-600 500-600 600-700 600-700 700-800 700-800适用于离适用于离散型变量,散型变量,且变量值且变量值不多时。不多时。适用于连续型适用于连续型变量,且变量变量,且变量值变化范围大值变化范围大时。时。2022-11-1114(二)组距式数列的编制(难点)v1.1.确定组数:斯特杰斯经验公式确定组数:斯特杰斯经验公式n n=1+3.3=1+3.
9、3 LgLg N N v2.2.确定组距:组距确定组距:组距=(最大变量值(最大变量值-最小变量值)最小变量值)/(1+3.31+3.3LgLg N N)v等距数列与异距数列等距数列与异距数列v3.3.确定组限:上限与下限,组限重叠与否,分为连续组距确定组限:上限与下限,组限重叠与否,分为连续组距式分组与不连续组距分组,式分组与不连续组距分组,“上组限不在内上组限不在内”原则原则v4.4.计算组中值:计算组中值:v缺下限开口组的组中值缺下限开口组的组中值v缺上限开口组的组中值缺上限开口组的组中值2下限上限组中值2022-11-1115全距与组距全距与组距等距与异距等距与异距组限与组中值组限与组
10、中值开口组与闭口组开口组与闭口组 连续组距分组连续组距分组 和不连续组距分组和不连续组距分组 重叠组限重叠组限 “上限不在内上限不在内”原则原则 关于组距式分组的几个问题关于组距式分组的几个问题例:学生按成绩分组(分)例:学生按成绩分组(分)(1)5060 6070 7080 8090 90100(2)60以下以下 6069 7079 8089 90以上以上组距=80-70=10上限:80下限:70开口组闭口组组中值组中值75270805.552960组中值5.942990重叠组限值70归于7080组不连续组距式分组连续组距式分组2022-11-1116注:关于划分分组界限的问题注:关于划分分
11、组界限的问题 按品质标志分组按品质标志分组,只要根据事物的性质划分界,只要根据事物的性质划分界限。目前我国实践中有制定和实施的几种最重要的、限。目前我国实践中有制定和实施的几种最重要的、基础性国家分类标准。基础性国家分类标准。按数量标志分组按数量标志分组,要根据事物的数量变动来判要根据事物的数量变动来判断事物性质上的差异。注意客观界限。断事物性质上的差异。注意客观界限。例:例:1、人口按年龄分组(岁):人口按年龄分组(岁):06 婴幼儿婴幼儿 717 少年儿童少年儿童 1859 中青年中青年 60以上以上 老年老年2022-11-11172、学生按成绩分组(分):学生按成绩分组(分):6070
12、 7080 8090 90以上以上3、企业按产值计划完成程度分组(企业按产值计划完成程度分组(%):):100110 110以上以上例:例:55-6060-6565-7095-10055-6565-7575-8585-9595以上以上95-105105-115115以上以上2022-11-11185.5.频数计量频数计量v累计频数与累计频率累计频数与累计频率 1.1.向上累计与向下累计:向上累计与向下累计:向上累计向上累计频频数(频率)分布,首先列出各组的上限,数(频率)分布,首先列出各组的上限,然后然后由由标志值标志值低低的组的组向向标志值标志值高高的组依次的组依次累计累计。向下累计向下累计
13、频数(频率)分布,首先频数(频率)分布,首先列出各组的下限,然后列出各组的下限,然后由由标志值标志值高高的组的组向向标志值标志值低低的组依次的组依次累计累计。2022-11-1119 2.2.累计频率与累计频数的特点:累计频率与累计频数的特点:1 1)累计频数的特点)累计频数的特点 第一组的累计频数等于第一组本身的频数。第一组的累计频数等于第一组本身的频数。最后一组累计频数等于最后一组累计频数等于总体单位数总体单位数。2 2)累计频率的特点)累计频率的特点 第一组的累计频率等于第一组本身的频率。第一组的累计频率等于第一组本身的频率。最后一组累计频率等于最后一组累计频率等于1 1。2022-11
14、-11203.4 数据的显示v3.4.1 3.4.1 统计表统计表 将统计数据按一定的顺序排列在表格上,就形成将统计数据按一定的顺序排列在表格上,就形成了统计表。从广义讲,统计表包括统计工作各阶了统计表。从广义讲,统计表包括统计工作各阶段所使用的一切表格,有段所使用的一切表格,有调查表、汇总表调查表、汇总表和和分析分析表表。本节将侧重就表现统计整理结果所用的统计。本节将侧重就表现统计整理结果所用的统计表进行讨论。表进行讨论。2022-11-11213.4 数据显示(一)统计表的构成(一)统计表的构成从统计表的形式上看从统计表的形式上看,可由,可由总标题、横行标题、总标题、横行标题、纵栏标题和指
15、标数值纵栏标题和指标数值四部分组成。四部分组成。此外有些统计此外有些统计表在表下还增列补充资料、注解、附记、资料来源、表在表下还增列补充资料、注解、附记、资料来源、某些指标的计算方法、填表单位、填表人员以及填某些指标的计算方法、填表单位、填表人员以及填表日期等。表日期等。2022-11-11223.4 数据显示 (二)统计表的设计:(二)统计表的设计:开口式;上下端线要粗开口式;上下端线要粗表内一般不打横线,但合计栏要打横线表内一般不打横线,但合计栏要打横线表明计量单位,列标题的计量单位可写在标题旁表明计量单位,列标题的计量单位可写在标题旁或下方。或下方。表中不应有空格,小数点位数一致表中不应
16、有空格,小数点位数一致2022-11-11233.4 数据显示2022-11-1125 图图1 三次产业构成三次产业构成图图3.4.2 3.4.2 统计图统计图 对统计资料图形化处理形成统计图;对统计资料图形化处理形成统计图;(一)非数值型数据的统计图:条形图,饼图(一)非数值型数据的统计图:条形图,饼图图图2 互联网和电话用户规模示意图互联网和电话用户规模示意图(二)数值型数据的统计图:(二)数值型数据的统计图:直方图:横轴组距,纵轴频数或频率直方图:横轴组距,纵轴频数或频率折线图折线图3.4 数据显示曲线图:曲线图:钟型分布:两头小、中间大钟型分布:两头小、中间大vU U分布:两头高、中间低分布:两头高、中间低vJ J分布:正分布:正J J,反,反J J2022-11-11273.4 数据的显示茎叶图:统计学家约翰茎叶图:统计学家约翰.托奇托奇2022-11-1128有趣的统计学本章总结v统计分组原则与类型统计分组原则与类型v频数分布构建方法频数分布构建方法v统计图、表的类型与绘制统计图、表的类型与绘制v作业:作业:P51P51,11-1311-13题题2022-11-1130