1、工程统计学 第二章 统计数据收集整理与显示12/23/20222本章重点与难点n重点:n 是了解和掌握调查设计和数据整理的方法;正确使用统计图表表现数据的特征。n难点:n 调查问卷的设计。12/23/20223学习目标n 通过本章的学习,正确理解各种调查方法的概念、作用与特点,明确相互的区别;掌握统计数据整理的方法;能够正确使用统计图表展示数据。12/23/20224【案例】如何开展大学生上网的问卷调查 n某大学学生工作部门想了解本校大学生上网的情况,打算采用问卷的方式,匿名调查。会计学专业的李萍同学提供了如下的问卷内容:n1、你的性别()A、男 B、女n2、你所在的年级()A、大一 B、大二
2、 C、大三 D、大四n3、你平均每天上网的时间大概是多长?()n A、1个小时以下(包括不上网)B、12个小时n C、25个小时 D、5个小时以上n4、你主要是为了什么而上网?()(此题可多选)n A、浏览网页 B、收发电子邮件 C、玩游戏 D、交友聊天n E、下载软件或资料 F、跟帖灌水 G、娱乐休闲n5、你最感兴趣的是以下哪些方面的内容?()n A、新闻时事 B、校友录 C、娱乐 D、体育n6、你认为上网与学习的关系是怎样的?()n A、上网耽误学习 B、上网可促进学习 n C、可以增强综合素质 D、其他 12/23/20225n由这份问卷我们想知道如下的问题:n1上述问卷的设计原则是什么
3、?n2问题的设计应该注意哪些方面?n3答案的设计应该注意什么原则?n4得到了资料是不是马上就可以进行分析了?12/23/20226n 及时取得准确、全面的数据是进行统计分析的首要环节,本章主要介绍收集、整理和显示数据的常用方法,包括数据的来源渠道、统计调查的方式、数据的搜集方法、调查设计原理、数据的整理方法、数据的展示形式和统计表的设计要求等,至于统计分析方法则将在以后的章节中介绍。12/23/20227第一节 统计数据的来源 n一、次级统计数据的来源 n二、初级统计数据的来源 12/23/20228一、次级统计数据的来源 n 次级统计数据主要是从公开渠道获得的数据,如公开出版的报纸、书籍及相
4、关网站中的数据,有些未公开的数据在获得数据所有者允许的情况下也可以使用。12/23/20229n 刊登我国年度宏观数据的刊物主要是国家、地区和行业或部门的年鉴。例如,中国统计年鉴、中国统计摘要、中国经济年鉴、中国农村统计年鉴、中国城市统计年鉴、中国社会统计年鉴、中国人口统计年鉴、中国劳动统计年鉴、中国工业经济统计年鉴、中国财政年鉴、中国金融年鉴以及全国各省、市、自治区、直辖市、新疆生产建设兵团的统计年鉴等。12/23/202210n 对于某些特定行业的数据,如证券业数据,我们可以从各证券报、中国证券监督管理委员会、上海证券交易所、深圳证券交易所、各证券公司等单位的网站数据库和出版发行的刊物中取
5、得有关数据。各上市公司的季报、半年报、年报中的各种数据属于公开数据,可以直接使用,但如果存在后续的补充报告,在使用时应该及时调整。n 对于未公开的微观经济数据,由于涉及企业的内部机密或个人的隐私权,我们在采用有关数据时一定要征得相关单位和个人的同意,在发表研究成果时还应尽量避免直接公布原始数据。12/23/202211n 刊登世界各国宏观数据的刊物主要由联合国统计司(UNSD)、世界银行(WB)、国际货币基金组织(IMF)、世界贸易组织(WTO)、世界卫生组织(WHO)、国际能源机构(IEA)、国际清算银行(BIS)、欧盟统计局(EUROSTAT)、亚洲开发银行(ADB)、国际电信联盟(ITU
6、)等国际性组织编制出版。有些使用面广的资料,在取得版权后,由我国有关机构翻译成中文出版。例如世界经济年鉴、世界发展报告、国外经济统计资料等。12/23/202212选择次级数据时应该注意的问题:n(1)应根据研究目的选择次级数据。n(2)注意次级数据变量名称的含义是否发生过变化。随着历史的变迁,有些次级数据变n量名称的内涵或外延发生了变化,在采用数据时应该进行调整。n(3)注意次级数据的计算口径和计算方法是否一致。n(4)注意尊重次级数据所有者的权益。一是要合法采用次级数据;二是要注明数据的来源出处,这样既尊重他人的劳动成果,又便于阅读者核实。数据的真实性、可靠性、及时性怎样?12/23/20
7、2213二、初级统计数据的来源二、初级统计数据的来源n 初级统计数据的来源渠道主要有两个:一是专门组织的调查;二是科学试验。前者是社会经济数据的主要来源,后者是自然科学数据的主要来源。本书着重讨论取得社会经济数据的方式和方法。其实质是要说明调查的方式有哪些其实质是要说明调查的方式有哪些12/23/202214(一)统计调查方式 n 常用的统计调查方式主要有普查、统计报表调查和抽样调查等。n 1普查n 普查是国家为了详细地了解某项重要的国情国力而专门组织的一次性全面调查,主要用来调查属于一定时点上现象的总体特征,如全国人口普查、国有资产普查、全国工业普查、全国第三产业普查等。n 相对于全面统计报
8、表,普查能取得内容更详尽、分类更细致的统计资料,但普查耗费的人力、物力、财力较多,不宜经常进行,而应根据实际需要间隔一定的时间进行,比如我国从1990年起每隔10年进行一次全国人口普查。12/23/202215n 普查的基本形式有两种:一种是设立专门的普查机构,配备一定的普查人员,对调查单位直接进行登记,如历次全国人口普查就是采用这种形式;另一种是利用企事业单位的原始记录和核算资料,设计一系列调查表,这些基层报告单位根据普查的要求自行填报,如全国科技人才普查即是如此。12/23/202216普查应该注意的问题:n(1)要规定统一的标准时点。n(2)严格设定必需的调查项目。n(3)尽可能地缩短普
9、查登记期限。n(4)按一定的周期进行同类普查。12/23/2022172统计报表调查n 统计报表调查是指按照国家统一规定的表格形式、统一的指标、统一的报送程序和报送时间,自下而上逐级提供基本统计资料的一种调查组织形式。我国现行的统计报表,包括国民经济基本统计报表和专业统计报表。n 12/23/202218统计报表调查的优点:n(1)在报表实施范围内,各报告单位按期报送,可保证调查资料的全面性、连续性和及时性;n(2)统计报表调查事先已作为一种制度布置到基层报告单位,要求各单位根据原始记录和统计台账提供报表所需的资料,从而保证了资料来源的可靠性和准确性;n(3)由于统计报表调查是逐级整理上报,统
10、计资料可以使各级地方政府和部门及时了解和掌握本地区、本部门的基本情况。12/23/202219统计报表调查的局限性:1、涉及的范围广、内容多,花费的人力、物力较多;2、在统计法制不健全、执行不严的情况下,统计报表调查在逐级上报过程中容易受到有关人员主观因素的干扰,从而影响资料的准确性;3、统计报表中的指标项目相对固定,当被研究现象变化较快时,统计报表缺乏应有的灵活性。12/23/2022203抽样调查n 抽样调查是一种非常重要的非全面调查组织形式。它是按照随机原则从被研究的总体中抽取一部分单位组成样本,根据样本的调查结果对总体的数量特征作出具有一定可靠程度的推断的一种统计调查方式。随机原则是抽
11、样调查所必须遵循的基本原则,它是指在抽样过程中,样本单位的抽取不能受任何主观因素及其他系统因素的影响,保证总体中各个单位都有同等的机会被抽选出来的原则。只有遵循随机原则,才能保证抽选出来的样本单位的分布近似于总体的分布,从而确保样本对总体的代表性。12/23/202221抽样调查的特点:n第一,从总体中随机抽取样本单位。n第二,抽样调查的目的是根据样本的数量特征 n 推断总体的数量特征。n第三,抽样误差可以事先计算并且加以控制。12/23/2022224.重点调查 n 重点调查是在所要调查的总体中选择一部分重点单位进行调查,用以反映总体基本情况的一种非全面调查。n重点单位是重点单位标志值在总体
12、标志总量中占有较大比重的少数单位。n特点:不能事先控制误差;简单,投入少;需要事先对总体有一定的认识12/23/2022235.典型调查 n 重点调查是在在对调查对象有一定了解的基础上,有意识的选择少数典型单位进行的调查。n典型单位某种数据表现最具有普遍意义,具有代表性的单位。n特点:不能事先控制误差;简单,投入少;需要事先对总体有一定的认识12/23/202224(二)数据的搜集方法n1访问调查法 n 访问调查法是调查者通过与被调查者的当面交谈而得到所需资料的调查方法。在访问调查中,调查人员可以直接了解被调查者对调查问题的态度、观点、举止和调查现场的环境等,为判断调查资料的准确程度提供一定的
13、依据。与其他调查法相比,访问调查法的特点有:回答率较高、数据比较准确、可使用较复杂的问卷、调查成本高等。n 按照调查对象的不同,访问调查法可分为居民入户调查和个别采访两种。按照对调查过程控制程度的不同,访问调查法又可分为非标准式访问和标准式访问两种。12/23/2022252问卷调查法 n 问卷的形式是一份预先精心设计好的问题表格,主要用来测定人们的行为、态度和特征。n 问卷调查就是将若干份事先设计好的统一的问卷,通过邮局或调查员送到每一个被调查者的手中,由被调查者自己填答问题,然后仍通过邮局寄回或由调查员收回的一种调查方法。n 进行问卷调查要求被调查者有一定的文化水平及责任心和合作精神,否则
14、难以保证问卷的回收率,从而影响调查资料的质量。由于问卷调查的应用非常广泛,后面将会详细介绍其内容。12/23/2022263德尔菲法n 德尔菲法是指按照规定的程序,采用邮寄或电子邮件的方式,反复多次地收集各地专家的看法,使不同意见趋于一致的调查方法。德尔菲法有匿名性、定量化和轮回反馈式等特点。专家们互不通气,匿名发表意见,便于获得真实有效的资料。反复地询问也能使调查结果更加准确可靠。实施这种方法的一般步骤为:拟定意见征询表、选定适量的征询专家、分几轮征询专家的意见、进行资料的处理等,最后作出调查结论。12/23/2022274电话调查法n 电话调查法是调查人员按照事先准备好的问题,利用电话与被
15、调查者进行交流而获得资料的数据搜集方法。电话调查中所提问题的含义要明确,数量不宜过多。随着计算机的飞跃发展,人们在电话调查法的基础上又发展出一个新的调查法电脑辅助调查法。电脑辅助调查法是在电话调查时,调查者将设计好的抽样方案、问题和答案输入电脑,整个调查过程,包括电话拨号、结果记录、数据处理和展示,都由计算机完成的数据搜集方法。在进行电脑辅助调查时,需要依靠电脑辅助调查系统(CATIS)进行,调查员坐在计算机显示器前,依据荧屏上显示的问题逐一向被调查者提问,并将答案输入电脑,也可完全由计算机完成提问和记录的过程。这种方法的优点是时效性强、费用低,能较快地搜集有关数据。12/23/2022285
16、小组座谈法 n 小组座谈法是由一个经过训练的主持人,以座谈会的形式,通过同一个小组的被调查者进行交谈而获得资料的方法。由于参与者比较多,要想取得预期效果,不仅要求调查者在事前作好充分的准备,包括设计调查提纲、确定参与会议的人数以及选择会议的时间、地点和环境等,还要求其具有驾驭会场的能力。小组座谈法的优点是效率高、深入细致,但发言容易受到其他人的影响,在涉及个人隐私、保密及其他敏感性话题时,也不宜采用这种方法。12/23/2022296观察法n 观察法是调查人员到现场对调查单位直接检验、计数或测量,登记所得到的结果的方法。例如,农作物收获量调查,调查人员到所抽中的地块参与收割和计量;某商品库存量
17、调查,调查人员到商店及有关单位柜台或仓库清点该商品的库存。观察法有自然、客观、直接的特点。由于采用观察的方法,无须被调查者作任何反映,因而常常可获得比较真实的信息。12/23/2022307实验法n 实验法是在某个特殊的实验环境下,对被调查者进行实验以取得资料的调查方法。例如,企业要比较两种新产品的优劣,可通过试销实验,来决定发展的重点。实验法一般包括提出研究假设、进行实验设计、选择实验对象、控制实验环境和收集实验数据等步骤。实验法具有方法科学、反映客观、过程容易控制等优点,但也有时间长、费用高、实验对象选择的难度大等不足。12/23/2022318网络调查法n 网络调查(又称网上调查)是指利
18、用国际互联网作为技术载体和信息交换平台进行调查的数据搜集方法。其业务流程大体包括方案设计、问卷上网、问卷检查、数据处理与分析、调查报告等。网络调查具有匿名性、成本低、速度快、调查对象广泛等特点,调查结果相对可靠。现在电子邮件调查、网页调查、免费下载工具调查、民意调查、超前性问题调查等已被广泛使用。当然,网上调查也存在结果的可信度不高、代表性差、难以消除重复填报等问题。12/23/202232第二节 调查设计n一、调查方案的结构 n 一份完整的调查方案,应该包括以下基本内容:n1调查目的;n2调查对象、调查单位和报告单位;n3调查项目与调查表;n4调查时间、调查方式与方法;n5调查的组织工作。1
19、2/23/202233n 调查对象就是根据调查目的确定的、在某种性质上相同的许多个体单位所组成的集合。调查单位就是调查对象范围内的各个个体单位。n 调查单位与报告单位是两个不同的概念。调查单位是调查项目的承担者,而报告单位则是负责向调查研究机构提供所需统计资料的基层单位。调查单位与报告单位有时是同一个单位,有时则是不同的单位。12/23/202234n调查项目就是反映调查单位特征的变量。n在确定调查项目时必须注意如下几个问题:n(1)调查项目的含义必须明确,不能模棱两可;n(2)考虑取得资料的可行性,有些调查项目虽然需要,但在现有条件下难以取得资料的则不应列入;n(3)调查项目的答案应满足完备
20、性和互斥性。如果要求选择回答,则必须列出所有可能的答案,以免出现重复或遗漏;n(4)确定不同时期同类调查的调查项目时,前后时期的调查项目应互相衔接,以便进行动态比较分析。12/23/202235n 调查表是指把所要调查的项目按照一定的结构和顺序排列后形成的表格。它是调查项目的表现形式,也是向调查单位取得原始统计资料的重要工具。利用调查表进行调查,能够条理清晰地填写需要搜集的资料,也便于调查结束后对资料进行整理。n 根据一份表格上容纳调查单位的多少,调查表可以分为一览表和单一表。一览表是指一份表格上可以登记两个及两个以上调查单位有关调查项目的调查表;单一表是指一份表格上只登记一个调查单位有关调查
21、项目的调查表。n 调查时间是指调查资料所属的时间。12/23/202236二、问卷设计 n(一)问卷的结构n 问卷(Questionaires)又称问卷表,是以书面的形式,按照设计好的顺序,由一系列问题和相应的备选答案组成的表格。n 一般来说,问卷在结构上由问卷标题、问卷说明、填写要求、甄别部分、主体内容、编码和背景等部分组成。12/23/202237问卷的结构:n(1)问卷标题;n(2)问卷说明;n(3)填写要求;n(4)甄别部分;n(5)主体内容;n(6)编码;n(7)背景。12/23/202238(二)提问项目的设计 n 问卷的主体内容是由根据调查目的和要求而设计的问题和备选答案构成的,
22、问题设计的质量将直接影响到调查目的能否达到。在设计问题时:要注意:提问的内容应该尽可能地短;用词要通俗、准确;避免诱导性提问、否定式提问、对敏感性问题的直接提问;一项提问一般只能围绕一个问题进行,不能涉及多个问题等。12/23/202239问题顺序安排的规则:n(1)问题的顺序安排应注意逻辑性;n(2)问题的顺序安排应注意兴趣;n(3)问题的顺序安排应注意先易后难;n(4)开放性问题一般放在最后。12/23/202240例题n例2.1 请问您认为哪个电视台办的娱乐节目最好看?这个问题的时间定义不明,可以改为:n请问您认为最近一个月哪个电视台办的娱乐节目最好看?n例2.2 您认为白猫牌洗衣粉的洗
23、涤效果和漂白效果怎么样?n由于它涉及多个问题,可以改为两个问题提问:n您认为白猫牌洗衣粉的洗涤效果怎么样?n您认为白猫牌洗衣粉的漂白效果怎么样?12/23/202241例题n例2.3 您认为冰川牌羽绒服的保暖效果好吗?n这个问题有暗示冰川牌羽绒服的保暖效果好的含义,可以改为:n您认为冰川牌羽绒服的保暖效果怎么样?n例2.4 您觉得我校计算机基础的课堂教学质量差吗?n这个问题既有暗示计算机基础的课堂教学质量差的含义,又不是人们习惯的肯定陈述的提问,可以改为:n您觉得我校计算机基础的课堂教学质量怎么样?12/23/202242例题n例2.5 您觉得我国居民消费价格指数的设计科学吗?n 由于人们对某
24、一方面专业知识的掌握程度有差异,居民消费价格指数的概念及其设计原理并非所有人都了解,属于比较专业的知识。在问卷调查中的用词应该通俗化,以便能为调查对象中的绝大多数人所理解,避免采用过于专业的术语。12/23/202243例题n例2.6 您的年收入有多少?n 对于这类被调查者不愿意外人知道的敏感性问题,一是除非非常有必要,否则应避免提问。因为人们可能采用虚报的方式应付回答,以至于调查数据失真。二是在研究目的要求涉及个人收入、私人交往对象、家庭生活状况、政治观点等敏感性问题时,一般要采用婉转的间接提问法,尽可能降低被调查者的反感程度。12/23/202244(三)回答项目的设计n 按照答案之间的关
25、系,可把提问分为开放性问题和封闭性问题两大类。开放性问题属于自由回答型;封闭性问题属于选择回答型,其回答的方法又可分为两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。12/23/2022451开放性问题n 开放性问题是指问卷没有提供任何参考答案,由被调查者根据题目的基本要求,按照自己的理解自由地选择回答形式的一类问题。开放性问题可以采用填空和自由回答两种方式。填空方式的开放性问题可举例如下:n例2.7 请问您今年平均每月的通信费用是多少?n例2.8 您最喜欢使用的笔记本电脑是什么品牌的?12/23/202246n 自由回答方式的开放性问题可举例如下:n例2.9 请问您认为中国的高
26、考形式应该作哪些方面的改革?n例2.10 请问您喜欢产品的理由是什么?n 开放性问题的优点是便于被调查者详细地表达自己的观点,适合于潜在答案较多的问题。缺点是可能占用被调查者较多的时间,致使部分被调查者放弃回答;答案不统一,给资料整理和分析带来困难。12/23/2022472封闭性问题n 封闭性问题是指调查者已经设计好若干个答案,被调查者只需从中选择一个或一个以上答案的问题。对封闭性问题的设计,答案要遵循穷尽性和互斥性的原则,即既不能遗漏,又不能有相互重叠的内容。如果有很多可供选择的答案,在列出主要的答案后,用“其他”二字代表未列出的答案。12/23/202248n(1)两项选择法。这是指提出
27、的问题只有两种备选答案的提问方法。n例2.11 你喜欢使用方正笔记本电脑吗?(在同意的方框中划“”。)n 喜欢 不喜欢 12/23/202249n(2)多项选择法。这是指提出的问题有两种以上的备选答案,被调查者可以从备选答案中选择一个或多个回答的提问方法。n例2.12 你现在使用手机的品牌是什么?(在同意的方框中划“”。)n 诺基亚 摩托罗拉 三星 n 波导 LG 其它 n对于绝大多数人而言,当前使用的手机一般只有一个,因而是单项选择。12/23/202250n例2.13 你曾经使用过的手机的品牌有哪些?(在选择的方框中划“”。)n 诺基亚 摩托罗拉 三星 n 波导 LG 其它 n对于曾经使用
28、过的手机,答案既可以是一个,又可以是多个。12/23/202251n(3)顺序选择法。这是在有多个答案选择时,被调查者根据自己的偏好程度判断各答案的重要性,并按顺序列出答案的方法。这类答案的设计要求设计者充分考虑被调查者理解能力的差异,让他们能够顺利地写出答案的顺序。n例2.14 传递内容较多、有电子文档的书面材料时,你所选择的传递方式的顺序是:n(在您认为最有效的方式后面的方框中写“1”,其次写“2”,以此类推。)n 手机发送 传真打印稿 n 邮寄打印稿 用E-mail传递 12/23/202252n例2.15 请您按照喜欢的程度对以下品牌洗发水的前三个进行编号:n 飘柔 海飞丝 舒蕾 风影
29、 n 潘婷 沙宣 润持 顺爽 n(4)评定尺度法。运用评定尺度法时,问题的答案由表示不同等级的形容词按照一定的顺序排列而成。n例2.16 您对中国电信的服务是否满意?(在选择的方框中划“”。)n 非常不满意 不满意 一般 n 满意 非常满意 12/23/202253n(5)双向列联法。这是运用表格的形式,综合反映两方面问题的方法。表的横向和纵向分别反映两类问题,具有节省问卷篇幅、便于比较和内容综合的特点。n例2.17 为了解教师的教学质量,请在你赞成项目的空格内划“”。12/23/20225412/23/202255第三节 统计数据整理n一、统计数据整理的基本程序一、统计数据整理的基本程序n(
30、一)审核;n(二)分类或分组;n(三)编表作图。12/23/202256n 对原始统计数据进行认真审核,主要审核资料的及时性、准确性和完整性。n(1)及时性检查,就是检查需要的统计数据是否在规定的时间内已经上报到调查机构,缺一、两个单位的资料都会影响整个汇总工作。n(2)完整性检查,一是看所有的调查表格或问卷是否收齐,二是看所有的调查项目的答案是否完整。发现有问题应立即同被调查者或报告单位联系,采取补救措施。资料不完整,得出的结论就难以说明现象总体的本质特征。二、数据的审核二、数据的审核12/23/202257n(3)准确性检查,就是检查原始资料是否准确可靠,这是原始资料审核的中心。其审核方法
31、有两个:一是逻辑检查,即根据调查项目之间的内在联系,检查各项目的答案是否合理,是否符合逻辑,答案之间有无矛盾之处。二是计算检查,即检查调查表中各项数字的计算方法、计算口径、计算结果有无差错,数字之间该平衡的是否平衡等。12/23/202258三、品质数据的整理与展示三、品质数据的整理与展示n(一)分类数据的整理与展示n1频数和频数分布n 频数是指落在某类中的数据的个数,又称为次数。n 在分类的基础上,将总体的所有单位按类进行整理,形成总体单位在各组间的分布,称为频数分布或次数分布。n 频数分布的构成要素有两个:一是品质变量的各种具体表现或数量变量值所形成的组。二是与各个组相对应的总体单位数,即
32、频数,又称次数;或各组单位数占总体单位总数的比重,即频率,可以用百分数表示,也可以用小数表示。12/23/202259n 频数分布可以用表的形式反映,也可以用图形来表现。用表来反映的称为频数分布表,而用图表现的频数分布称为频数分布图。n例2.18 某酱油企业为了解本公司产品在当地的市场占有率,组织了专门的市场调查小组,调查员在随机抽取一家超市后,对某天上午的60名顾客购买的酱油品牌进行了登记,原始数据如下:12/23/20226012/23/202261n 要利用Excel编制分类数据的频数分布表,需要把各类用一个数字代码来表示。在本例中,各类指定的代码是:n1李锦记;2美味鲜;3海天;n4珠
33、江桥;5金狮;6加加。n 在Excel中,将各品牌代码输入到Excel工作表的B2:B61,并将所有品牌的代码单做一列,为“接收区域”,即工作表的C2:C6。12/23/202262n 创建频数分布表和柱形图的步骤如下:n第一步:在“工具”下拉菜单中选择“数据分析”。n第二步:在“数据分析”的选择栏中选择“直方图”,单击“确定”项。n第三步:用鼠标圈定或键盘输入对话框“输入区域”框中的数据区域(本例为B2:B61)。n 用鼠标圈定或键盘输入对话框“接收区域”框中的代码区域(本例为C2:C6);n 在“输出选项”中选择“输出区域”并键入结果输出的区域(本例为D2);选择“图表输出”;在这里暂不选
34、择“Parto图”和“累积百分率”。点击“确定”选项。n Excel输出的结果如表2-2所示:12/23/20226312/23/202264n为了便于阅读,可用品牌名称代替表2-2中的“接收”,用频数代替表中的“频率”,用各品牌的名称代替其品牌代码,用“合计”代替表中的“其他”,将频数总和60输入到E9中,并计算出各自的比例和百分比,结果如表2-3所示:12/23/2022652分类数据的图示 n 分类数据的图示方法主要包括条形图、Parto图、对比条形图和饼图。n(1)条形图n 若将各类别放在纵轴,用宽度相同、长度不等的横条表示各类的频数多少这样形成的图形称为条形图。有了频数分布表后可直接
35、应用Excel中的“图表向导”,选择“条形图”,点击“下一步”,在“数据区域”内键入数据类别和相应的次数的位置(在例2.18为D3:E8),点击“完成”,即可得到条形图(图2-1)。12/23/20226612/23/202267柱形图 12/23/202268(2)Parto图 n 柏拉图(Parto图)可以说是按次数多少排序后的柱形图。在制作频数分布表时选择Parto图,会出现两个并排的频数分布表,对右边的频数分布表中各品牌的代码用其名称代替,删除最下面的“其他”,使用Delete键删除图中的“接收”、“直方图”、“频率”和最右边的数字“0”;连击任一柱子,在“数据系列格式”中选择“数据标
36、志”的“显示值”;连击图上面或右边的边框,在“绘图区格式”中选择边框“无”,点击“确定”后即可完成Parto图(图2-3)。12/23/20226912/23/202270(3)对比条形图n 当分类变量在不同时间或空间上有多个值时,为表明它们各自在不同时间或空间上的变化情况,可绘制对比条形图。在Excel“图表向导”的“条形图”中,选择子图表类型的一个即可。n例2.19 某饮料批发部经营的4种饮料第二、三季度销售情况如表2-4所示:12/23/20227112/23/20227212/23/202273(4)饼图(pie chart)n有了频数分布表后,在Excel“图表向导”的“饼图”中,点
37、击“下一步”,键入数据区域;点击“下一步”,在数据标志中选择“显示百分比及数据标志”,即可完成饼图的绘制。根据例218酱油品牌数据制作的饼图如图2-5所示:12/23/20227412/23/202275(二)顺序数据的整理与展示n 1累计频数和累计频率n 累计频数是指将顺序数据中各组的次数按一定的方向逐级累计所得的结果。从顺序数据的最低一组逐级向最高一组累计频数,称为向上累计;从顺序数据的最高一组逐级向最低一组累计频数,称为向下累计。n 累计频率则是将顺序数据中各组的频率按一定的方向逐级累计所得的结果。累计频率也有向上累计和向下累计之分。12/23/202276n【例220】为了解小区物业管
38、理的质量,研究人员随机抽取了甲乙两个大型居民小区,就“您对该小区的物业管理质量是否满意”的问题,各调查了150户居民,结果如表2-5和表2-6所示:12/23/20227712/23/20227812/23/2022792顺序数据的图示n(1)累计频数分布图 12/23/202280(2)环形图(doughnut chart)n 环形图的中间是一个“空洞”,环上的每一段表示顺序数据的一个类别。在表示多个总体或样本数据不同类别的差异时,环形图用不同的环以示区别,这是饼图不能做到的。12/23/202281对于例22012/23/202282三、数值型数据的整理n关于分类数据、顺序数据整理与展示的
39、所有方法都适用于数值型数据,还有一些适合于数值型数据的方法并不适合于分类数据和顺序数据。12/23/202283(一)数据分组n 1数据分组的概念n 数据分组是根据被研究现象的特征和研究目的,按照一个或几个重要变量,将原始数据划分为性质不同的若干个组成部分的一种统计方法。n 对原始数据进行分组,主要是为了划分现象的类型,研究事物内部结构的变化规律,以及现象之间的依存关系。12/23/2022842数据分组应注意的问题n(1)保持组内总体单位的同质性和组间总体单位的差异性。数据分组兼有“分”与“合”两层含义,对总体而言是“分”,即把总体内不同性质的单位分别归入不同的组,体现组间单位的差异性;对总
40、体单位而言则是“合”,即把性质相同的单位合在一起,使组内各单位具有同质性。n(2)统计分组要符合穷举性原则。穷举性又称完备性,是指总体的任一单位都有所归属,各单位都找到适合自己的组,这样分组的结果就能包括全部单位,不会出现遗漏。n(3)统计分组要符合互斥性原则。12/23/2022853数据分组的方法 n 数据分组的关键在于分组变量的选择和各组界限的划分。n 在划分各组界限时,要了解变量值的最大可能变异范围,再根据客观事物本身从量变到质变的内在规律性,来规定各组间的数量界限。n 数据分组根据分组变量的多少可以分为简单分组和复合分组。简单分组又称单一分组,是对被研究现象总体只按一个变量进行分组。
41、如人口按年龄分组,企业按利润额分组,考生按成绩分组等。12/23/202286n 复合分组就是对原始数据按两个或两个以上变量进行层叠式分组。其分组方法是在确定分组变量中的主要变量和辅助变量后,先按主要变量进行分组,然后在第一次分组的基础上再按辅助变量进行第二次分组,按所选变量的顺序,在前一次分组的基础上进行分组,直到最后一层为止。n 12/23/202287n 复合分组选择两个或两个以上变量进行层叠分组,可以从不同角度了解总体内部的构成,能更全面、更深入地说明总体的本质特征。但是,如果分组变量过多,会出现组数庞大、层次复杂、结构松散等情况,反而不能清楚地说明总体的特征。实际工作中,选择23个重
42、要变量进行复合分组比较适宜。但对于总体单位较少的情况,采用复合分组有时难以反映总体的内部结构特征,因此一般不采用这种方法。12/23/202288n 数据分组,还需要明确是采用单个变量值分组,还是采用由两个变量值形成的区间(即组距)分组,这取决于各数量变量值(即变量值)的变动范围。当变量值的变动范围很小,即使用每个变量值作为一组,所得到的组数也只有少数几个组时,则可采用单个变量值分组,如表2.3所示。12/23/202289n 如果变量值的变动范围很大,采用单个变量值分组所得到的组数很多,难以反映总体的分布规律,则应该采用组距分组。采用组距分组时,由于决定事物性质的数量界限会因人的主观认识不同
43、而异,不同的人对同一资料会得到不同的频率分布,但是使频率分布尽可能准确地反映总体的分布规律是基本的要求。n【例221】已知某城市甲居民区80户家庭2007年8月的人均通信支出额的资料,试编制这些家庭人均通信支出额的频数分布表。12/23/20229012/23/202291n【解】由于原始数据比较多,在对数据进行排序后,宜采用组距分组编制频数分布表。n(1)确定组数n 组数取决于原始数据中数据的多少和变量值极差的大小,极差等于数据中最大变量值与最小变量值之差,亦称全距。一般而言,数据越多,极差越大,分组数目就应该越多一些。但根据惯例,人们很少使用少于6个或大于16个的分组数目。12/23/20
44、2292n 根据Sturges经验公式,经粗略观察,80户家庭人均通信支出额的资料接近于正态分布,表28可确定组数为7。n 12/23/202293(2)确定组距n 一般情况下,用两个变量值组成的一个区间作为一个组时,该组的较小变量值叫下限,较大变量值叫上限,下限与上限之间的距离叫组距。如果相邻两个组的组限不相等,则有n 某组组距=本组上限前组下限 (2.2)n 如果相邻两个组的组限相等,即本组下限等于前组上限时,可按式(2.3)计算组距,即n 某组组距=本组上限-本组下限 (2.3)12/23/202294n 如果每个组的组距相等,叫等距分组。若各个组的组距不完全相等,叫不等距分组。采用等距
45、分组,便于分析总体的内部结构,但也可以根据研究目的和资料的特殊性而采用不等距分组。n 在等距分组情况下,组数确定以后,组距也就基本确定了。组距、组数与极差之间的关系用公式(2.4)表示即为:n组距=极差组数 (2.4)12/23/202295(3)确定组限n 组限即为相邻两组的界限,有下限和上限之分。变量的性质不同,组限的确定方法也不同。对于离散变量,相邻组的组限相连但不重叠,即本期上限与后一组下限能按序连接,但不相等。比如,高等学校学生各个班的规模按人数分为:1524人、2534人、3544人、4554人、对于连续变量,相邻组的组限必须重叠,即本组上限等于后一组的下限,而本组下限又等于前一组
46、的上限,以免遗漏数据,如考生按成绩分组为:“5060分”、“6070分”、“7080分”、“8090分”、“90100分”等。12/23/202296“上限不在内”原则n 实际工作中,有时为了方便,确定离散变量的组限时也按连续变量的组限确定方法处理。如果遇到某变量值刚好等于相邻组的组限时,习惯上是将这个变量值归入下限所在的一组,亦为“上限不在内”原则,但最后一组的上限应包括在本组中。比如,甲考生的成绩为70分,那么这个70分应归入“7080分”一组,而不是“6070分”一组;若乙考生的成绩为100分,刚好等于最后一组的上限,则应归入“90100分”一组。12/23/202297n 如果资料中存
47、在极小值或极大值,通常采用开口组,即第一组不取下限,最后一组不取上限。如某班学生考试成绩绝大多数在5080分之间,只有某个学生的成绩为35分,那么第一组可设为“60分以下”;若有另一个学生的成绩为95分,而“8090分”一组中没有数据,则取最后一组为“80分以上”。当然,第一组和最后一组可以单独设为开口组,也可以同时设为开口组,视数据的具体情况而定。n 另外,确定组限时,要求第一组的下限略小于或等于最小变量值,最后一组的上限略大于或等于最大变量值。12/23/202298(4)编制频率分布表n 利用Excel工作表编制数值型数据的频数分布表时,要先对原始数据进行排序,作为A列的数据区域(例2.
48、21为A1:A80),再取各组的上限放在B列组成接收区域(例2.21为B2:B8)。n 运用在“工具”下拉菜单中的“数据分析”,选择“直方图”,单击“确定”项;将数据区域和接收区域键入;在“输出选项”中选择“输出区域”并键入结果输出的区域(例2.21为C2);选择“图表输出”;点击“确定”选项。n 由于Excel输出结果的接收栏不是组距分组的形式,故直接对结果进行修改,用80120代替120,用120160代替160,将“其他”改为“合计”,合计栏的值改为80,用“人均通信支出额”代替“接收”,用“频数”代替“频率”,并计算出频率和百分比,得到表2.9:12/23/20229912/23/20
49、221004组中值的计算n 组中值是各组的下限与上限之间的中点数值。计算组中值的常用方法是取上限和下限的简单平均数,即:n (25)n比如,表2-9中第一组(80120)的n最后一组(320360)的组中值=340元 12/23/202210112/23/2022102n课堂练习课堂练习1 1 对某山村35个育龄妇女进行计划生育调查,得到每人生育的子女数如下:3 1 3 2 3 1 2 1 4 2 1 3 2 2 3 2 1 1 1 5 1 2 2 1 2 4 1 2 1 1 4 3 1 2 2根据上面资料,试编制单项变量数列。解:生育子女数目人数(次数)比重(频率)11313/3521212
50、/35366/35433/35511/35合计361.0012/23/2022103n练习2 某地区30户居民人均月收入抽样调查资料如下(单位:元)730 630 550 720 420 440 620 540 600 440640 650 660 470 640 680 610 430 700 660620 520 670 460 600 490 630 590 610 710试编制组距式变量数列。解:解:1)将以上资料按从小到大的顺序排列,选出最大值为730,最小值为420;全距为730-420=310。2)以上资料中的数值分布比较均匀,且人均月收入是连续变量,故应编制连续性等距分布数列。