1、第三章统计数据的整理与显示第三章统计数据的整理与显示第一节数据的预处理第一节数据的预处理一、数据的审核与筛选一、数据的审核与筛选、数据的审核、数据的审核审核内容原始数据第二手数据完整性准确性适用性时效性 逻辑检查计算检查审核方法剔除有明显错误的数据剔除不符合特定条件的数据、数据的筛选、数据的筛选二、数据的排序二、数据的排序数据排序就是按一定顺序排列数据、主要作用发现数据的变化趋势。为分类或分组提供依据。直接利用排序结果作分析。、方法定类数据按类排序定量数据按序排序第二节品质数据的整理与显示第二节品质数据的整理与显示一、定类数据的整理与显示一、定类数据的整理与显示、频数与频数分布频数每一类别包含
2、的数据个数,称为频数。各类别及相应的频数,称为频数分布比例部分与全体之比百分比用百分数表示的比例比率任两数值的比值为研究广告市场的状况,一家广告公司在某城市随机抽取人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”商品广告;服务广告;金融广告;房地产广告;招生招聘广告;其他广告。例广告类型广告类型人数(人)人数(人)频率频率频率频率(%)商品广告 112 0.560 56.0 服务广告 51 0.255 25.5 金融广告 9 0.045 4.5 房地产广告 16 0.080 8.0 招生招聘广告 10 0.050 5.0 其他广告 2 0.010 1.0 合计 2
3、00 1.000 100.0 表某城市居民关注广告类型的频数分布表某城市居民关注广告类型的频数分布、定类数据的图示、定类数据的图示条形图用宽度相同的条形高度或长短来表图某城市居民关注不同类型广告的人数分布频数(人)示各类别频数或频率的图形、圆形图用圆形及圆内扇形的面积来表示各类别频率的图形图某城市居民关注不同类型广告的人数的构成商品广告56.0%服务广告25.5%金融广告4.5%房地产广告8.0%招生招聘广告5.0%其他广告1.0%、累积频数把各类别的频数逐项累加、累积频率把各类别的频率逐项累加二、定序数据的整理与显示二、定序数据的整理与显示、累积频数和累积频率、累积频数和累积频率在一项有关住
4、房问题的研究中,研究人员在甲、乙两个城市各抽样调查户家庭,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”非常不满意;不满意;一般;满意;非常满意。例回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意248.0 248.0 300100.0 不满意10836.0 13244.0 27692.0 一般9331.0 22575.0 16856.0 满意4515.0 27090.0 7525.0 非常满意3010.0 300100.0 3010.0 合计300100.0 表甲城市家庭对住房状况的评价表甲城市家庭对住房状况的评价回答类别乙
5、城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意217.0 217.0 300100.0 不满意9933.0 12040.0 27993.0 一般7826.0 19866.0 18060.0 满意6421.3 26287.3 10234.0 非常满意3812.7 300100.0 3812.7 合计300100.0 表乙城市家庭对住房状况的评价表乙城市家庭对住房状况的评价、定序数据的图示、定序数据的图示累计频数分布图根据累积频数或累积频率作折线图241322252703000100200300非常不满意不满意一般满意非常满意累计户数(户)3002
6、7616875300100200300非常不满意不满意一般满意非常满意累计户数(户)(a)向上累积(b)向下累积图甲城市家庭对住房状况评价的累积分布图环形图用一段园环表示某一类别的频率图甲、乙两城市家庭对住房状况的评价8%36%31%15%10%7%33%26%21%13%非常不满意不满意一般满意非常满意第三节数值型数据的整理与显示第三节数值型数据的整理与显示一、数据的分组一、数据的分组分组方法单变量值分组组距分组等距分组异距分组、单变量值分组、单变量值分组、适用于离散变量且变量值较少、把每一变量值作为一组例某生产车间名工人日加工零件数(单位:个)如下。试采用单变量值对数据进行分组。11712
7、2124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392表表某车间名工人日加工零件数
8、分组表某车间名工人日加工零件数分组表适用连续变量或离散变量且变量值较多把一个区间作为一组,区间长度可以相等也可以不相等分组时应“不重不漏”、组距分组、组距分组按数据的个数及数据本身的特点选择组数,也可按经验公式确定组数。组距分组步骤:选择组数nnKlg322.312lglg1(3.2)一组数据的最大值与最小值之差称为极差,用表示,即最大值最小值由组数和极差就可确定组距,即确定各组的组距与组限KRd各组取相同的组距。然后选择接近数据中的最小值作为第一组的组中值,则各组的下限与上限由下式确定下限组中值,上限组中值即组距上限下限,组中值2d2d2上限下限把数据归组后得频数分布表归组按零件数分组(个)
9、频数(人)频率(%)1051103 6 1101155 10 1151208 16 12012514 28 12513010 20 1301356 12 1351404 8 合计50 100 表某车间名工人日加工零件数分组表表某车间名工人日加工零件数分组表表某车间名工人日加工零件数分组表表某车间名工人日加工零件数分组表按零件数分组(个)频数(人)频率(%)1051093 6 1101145 10 1151198 16 12012414 28 12512910 20 1301346 12 1351394 8 合计50 100 表某车间名工人日加工零件数分组表表某车间名工人日加工零件数分组表按零件
10、数分组(个)频数(人)频率(%)110以下3 6 1101155 10 1151208 16 12012514 28 12513010 20 1301356 12 135以上4 8 合计50 100 各组的组距都相等各组的组频数可直接比较等距分组与不等距分组等距分组与不等距分组:等距分组各组的组距不都相等由于各组的组频数受组距大小影响,不能直接比较为消除组距大小对频数的影响,采用频数密度反映频数分布的实际状况,其中频数密度不等距分组组距频数二、定距数据和定比数据的图示二、定距数据和定比数据的图示、分组数据:直方图和折线图、分组数据:直方图和折线图用横轴表示组限,纵轴表示频数或频率等距分组时,各
11、组以组距为宽,以频数或频率为高形成一个矩形,即为直方图。不等距分组时,则各组以组距为宽,以频数密度为高形成矩形,这时直方图的总面积等于数据个数。若各组以组距为宽,以频率密度()为高形成矩形,那么这种直方图的总面积等于直方图用矩形来表示频数分布的图形组距频率图某车间工人日加工零件数的直方图图某车间工人日加工零件数的直方图03691215105 110 115 120 125 130 135 140日加工零件数(个)频数(人)直方图与条形图的差别直方图与条形图的差别条形图用宽度表示类别,宽度都相等,而直方图用宽度表示组距,宽度可以不相等条形图通常分开排列,而直方图则是连续排列折线图用折线表示频数分
12、布的图形用横轴表示组中值,纵轴表示频数或频率用直线连接各组中值相应的频数或频率,即为折线图通常在第一组的左边和最后一组的右边各延伸一组,然后与这两组的组中值连接图图6某车间工人日加工零件数的折线图某车间工人日加工零件数的折线图03691215107.5112.5117.5122.5127.5132.5137.5日加工零件数(个)频数(人茎叶图由“茎”和“叶”两部分组成,按“茎”把一组数据分为若干行,“茎”相同的数据分在同一行把尾数作为叶,其余数作为茎对数据个数为的一组数据,当 20300 时,可按经验公式确定茎叶图的行数L L=10log nX 表示不超过X 的最大整数。例如 n=50,则 L
13、=10log 50=16.99=16茎叶图类似于横置的直方图、未分组数据:茎叶图和箱线图、未分组数据:茎叶图和箱线图图某车间工人日加工零件数的茎叶图图某车间工人日加工零件数的茎叶图107 8 8(3)110 2 2 3 4 5 7 7 7 8 8 8 9 (13)120 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9 (24)130 1 3 3 4 4 5 7 9 9 (10)(个位)树茎树叶数据个数图图8扩展的茎叶图扩展的茎叶图10*10 7 8 811*0 2 2 3 411 5 7 7 7 8 8 8 9 12*0 0 1 2 2 2 2 3
14、3 3 3 4 4 412 5 5 6 6 7 7 7 8 8 913*0 1 3 3 4 413 5 7 9 9 树茎 树叶10s710 8 811*011t2 2 3 11f4 511s7 7 711 8 8 8 9 12*0 0 112t2 2 2 2 3 3 3 312f4 4 4 5 512s6 6 7 7 712 8 8 913*0 113t3 313f4 4 513s713 9 9 树茎 树叶(a)(b).由一个箱子和两条线段组成.先连接下四分位数和上四分位数画出箱子,在箱子中确定中位数的位置,然后再连接最大值和值与箱子的连线不仅可表示一组数据的分布,还可以对多组数据作比较箱线图
15、箱线图图简单箱线图图简单箱线图最小值下四分(位)数中位数最大值上四分(位)数图名工人日加工零件数的箱线图图名工人日加工零件数的箱线图150140130120110100min107下四分位数117.75中位数123上四分位数128max139图不同分布的箱线图图不同分布的箱线图左偏分布中位数中位数中位数对称分布右偏分布从某大学经济管理专业二年级学生中随机抽取人,对门主要课程的考试成绩进行调查,所得结果见表试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征。例表名学生各科的考试成绩数据表名学生各科的考试成绩数据课程名称学生编号 英语 76 90 97 71 70 93 86 83 7
16、8 85 81 经济数学 65 95 51 74 78 63 91 82 75 71 55 西方经济学 93 81 76 88 66 79 83 92 78 86 78 市场营销学 74 87 85 69 90 80 77 84 91 74 70 财务管理 68 75 70 84 73 60 76 81 88 68 75 基础会计学 70 73 92 65 78 87 90 70 66 79 68 统计学 计算机应用基础5585 9178 6881 7395 8470 8167 7082 6972 9480 6281 7177 表各学科考试成绩的特征值表各学科考试成绩的特征值课程名称最小值最大
17、值英语7071767881838586909397经济数学5155636571747578829195西方经济学6676787879818386889293市场营销学6970747477808485879091财务管理6068687073757576818488基础会计学6566687070737879879092统计学5562686970717381849194计算机应用基础6770727778808181828495QLQeMUQ图门课程考试成绩的箱线图图门课程考试成绩的箱线图英语统计学西方经济学市场营销学基础会计学计算机应用基础财务管理经济数学405060708090100、时间序列数据
18、:线图、时间序列数据:线图横轴表示时间,纵轴表示相应的数值图形长宽比例大致为 10:7一般纵轴从 0 开始,也可根据实际需要从某一值开始,并且用折断符号表示年我国城乡居民家庭的人均收入数据如表,试绘制线图。例例表年城乡居民家庭人均收入表年城乡居民家庭人均收入年份城市居民农村居民1991 1700.6 708.6 1992 2026.6 784.0 1993 2577.4 921.6 1994 3496.2 1221.0 2019 4283.0 1577.7 2019 4838.9 1926.1 2019 5160.3 2091.1 2019 5425.1 2162.0 图城乡居民家庭人均收入图
19、城乡居民家庭人均收入010002000300040005000600019911992199319941995199619971998城市居民农村居民、多变量数据:雷达图、多变量数据:雷达图先画一个园,每个个体需同时考察个变量,则把园等分,连接圆心得个变量的坐标轴再把一个个体的个变量在坐标上的点相连接,可得一个边形个个体则可得个边形,这个多边形就是一个雷达图年我国城乡居民家庭平均每人各项消费支出数据如表,试绘制雷达图。例例表表3122019 年城乡居民家庭年城乡居民家庭平均每人各项消费支出平均每人各项消费支出项目城市居民农村居民食品 1942.59 890.28 衣着 520.91 109.4
20、1 家庭设备用品及服务 316.89 85.41 医疗保健 179.68 62.45 交通通讯 232.90 53.92 娱乐教育文化服务 448.38 148.18 居住 358.64 233.23 专项商品与服务 185.70 34.27合计 4185.60 1617.15 图图 年城乡居民家庭消费支出年城乡居民家庭消费支出0500100015002000食品衣着家庭设备用品及服务医疗保健交通通讯娱乐教育文化服务居住杂项商品与服务城市居民农村居民为研究某条河流的污染程度,环保局分别在上游、中游和下游设立取样点,每个取样点化验水中的五项污染指标,所得数据见表。将各指标用雷达图表示出来,并分析
21、该河流的主要污染源。例例表不同样本点的化验指标表不同样本点的化验指标指标指标指标指标指标上游 4.52 5.0 483 196 14 中游 0.34 1.4 36 41 6 下游 2.17 6.8 208 112 35 图图 河流污染指标雷达图河流污染指标雷达图-2.00.02.04.06.08.0指标指标指标指标指标上游中游下游三、频数分布的类型三、频数分布的类型(a)正态分布(b)偏态分布(c)J形分布(d)U形分布正偏(右偏)负偏(左偏)反J形正J形图图 几种常见的频数分布几种常见的频数分布第四节统计表第四节统计表一、统计表的构成一、统计表的构成表年城乡居民家庭抽样调查资料表年城乡居民家
22、庭抽样调查资料资料来源:中国统计摘要2019,79页,北京,中国统计出版社,2019。本表为城市和县城的城镇居民家庭抽样调查材料。消费性支出项目包括:食品、衣着、家庭设备及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。附加行标题列标题数字资料项目单位2019年2019年一、调查户口户37890 39080 二、平均每户家庭人口数人3.19 3.16 三、平均每户就业人口数人1.83 1.80 四、平均每人全部收入元5188.54 5458.34 五、平均每人实际支出元4945.87 5322.95 消费性支出元4185.64 4331.61 非消费性支出元755.94 987.17 六、平均每人居住面积m237890 39080 表头二、统计表的设计二、统计表的设计要合理安排统计表的结构。总标题要表明统计数据的时间、地点和种类表中全部数据的单位相同时,可在表右上角表明单位,否则应分别表明单位表中的上下两条横线一般用粗线,其他线则用细线通常统计表的左右两边不封口表中数据一般是右对齐,对于小数应按小数点对齐,且小数点的位数应统一没有数据的格内用“”表示。需要时在表的下方加上表外附加