1、第1章 总论,1.1统计学的渊源及其体系,1.2 统计学的概念,1.3 统计学的性质与特点,1.4 统计学的应用,1.5 统计学的几个基本范畴,1.1统计学的渊源及其体系,1.1.1 统计学的起源与发展 统计学究竟产生于什么年代,迄今为止人们的看法还不尽一致,不过多数人认为,统计学大概兴起于17世纪。,主要统计学派及其特征,综合以上,统计学的起源及发展见图1-1。,图1-1 统计学的三个来源及其影响,图1-2 统计学的整体结构,1.1.2 统计学的学科体系,这里所说的理论统计学是指,侧重于从数学学科中吸取营养,研究统计学的数学方法和基础原理。 理论统计学主要包括:参数估计、假设检验、抽样调查、
2、试验设计、非参数统计、时间序列、统计决策、序贯分析、多元统计、统计诊断、稳健统计、探索性分析。,应用统计学就是运用统计思想和方法,处理实际中属于统计方面的问题。其大体上可归结为四类。 第一类,统计计算方法; 第二类,应用统计学理论基础; 第三类,应用统计学; 第四类,统计学与其他应用数学学科的结合。,1.1.3 统计学与计算机,计算机技术引入统计学是统计科学发展史上的又一里程碑。 计算机对数据的高效传输、加工处理及辅助决策能力,增强了统计在帮助人们认识世界和改造世界过程中的作用,有利于统计的信息、咨询、监督职能的充分实现,成为统计生产力的重要组成部分。,1.2 统计学的概念,1.2.1 统计学
3、认识上的分歧 1统计学的学科归属; 2统计学的学科性质 ; 3. 统计学的数量属性 ; 4. 描述统计学与推断统计学。,1.2.2 统计学的定义,在此,我们立足统计学的通用方法论性质,把统计学定义为:研究总体现象定量认识方法的科学,其目的在于探索客观现象内在的数量规律性。统计探索客观现象数量规律性的过程如图1-3所示。,图1-3 统计探索客观现象数量规律性过程框图,“统计”一词通常有三种含义,它们既相区别,又相联系。 统计工作 统计资料 统计学,1.3 统计学的性质以及与其他学科的关系,1.3.1 统计学的性质和特点 第一,数量性。 第二,总体性。 第三,不确定性。 第四,归纳推断性。,1.3
4、.2 统计学与其他相关学科的关系,1.统计学与数学的关系。 学好统计学,尤其是理论统计学,必须要有坚实的数学基础。但是也要注意到,统计学与数学其他分科相比,又有其特殊性。,首先,统计学有较强的应用背景。 其次,统计学主要研究不确定性问题。 再次,现代统计学的本质是归纳推断的,与数学演绎方式有较大的差别。,2.统计学与各专门学科的关系。 统计学能为各个专门学科中,带有普遍性的数据搜集、整理、分析和解释,提供方法和理论指导,帮助它们更准确更深入地进行认识。 但是统计方法只是定量分析的工具而已,它不会涉及各专门学科中的具体问题。,统计设计,1.4 统计学的应用,1.4.1 统计研究的基本过程,统计调
5、查,统计整理,统计分析,1、工农业生产和商业活动 2、社会学和政治学 3、史学和考古 4、物理、化学和生物 5、在天文地理,6、交通运输和能源供应 7、医学和保健 8、教育和文化 9、保险和社会福利 10、在纯科学研究和实验等等方面,1.4.2 相关学科中的统计研究课题,统计学在社会科学中的应用 1、经济统计学 2、管理统计学 3、社会统计学 4、人口统计学 5、教育统计学等,1.4.3 统计应用需要注意的事项 搞统计应用,需要具备两方面的知识,一方面要掌握统计学的基本方法,另一方面要有实际问题的知识背景。 统计应用也是科学研究的过程,同样需要创新性思维。以最实用的回归分析为例,它就包括一系列
6、的步骤(见图1-4):,图1-4 回归分析研究过程,1.5 统计学的几个基本范畴,1.5.1 统计总体和总体单位 统计总体简称总体,是由客观存在的、具有某种共同性质的许多个别事物构成的整体,它是由特定研究目的而确定的统计研究对象。 构成总体的这些具有某种共同性质的个别事物就是总体单位。,例如,研究全国乡镇工业企业生产发展情况,则全国所有乡镇工业企业就构成了总体,每一个乡镇企业就是总体单位。,1统计总体的基本特征 (1)同质性 (2)大量性 (3)变异性,2统计总体的分类 (1)有限总体与无限总体 (2)简单集合总体与有机结合总体 (3)可相加总体与不可相加总体,3总体与总体单位的关系 总体和总
7、体单位的概念是相对一定的统计研究目的而言的,并不是固定不变的。随着研究目的和范围的不同,两者可以相互转化。,例如,研究某一个机械工业企业的生产情况时,该企业是一个统计总体;而当研究该企业所在的机械工业局所有企业的生产情况时,则该企业就成为一个总体单位。,1.5.2 标志和指标 1标志和标志表现 标志是说明总体单位共有特征和属性的名称。 标志表现是标志特征在总体各单位的具体体现,表现为文字和数值(又称为标志值)两种形式。,根据标志的具体表现不同,标志可区分为品质标志和数量标志两种。 根据标志的变异情况不同,标志可区分为不变标志和可变标志。,2指标与指标体系 (1)统计指标的涵义及特点 统计指标是
8、表明客观现象总体数量特征的概念和数值。 与标志不同,它依附于统计总体。一个完整的统计指标一般包括指标名称、计量单位、核算方法、时空限制(即时间限制和空间限制)、计算价格、指标具体数值六大要素。,统计指标具有三个特点: 可量性 综合性 具体性,(2)统计指标的分类 基本指标与派生指标。 数量指标与质量指标。 描述指标、分析评价指标及决策指标。,(3)指标与标志的区别和联系 两者的区别主要表现在: 统计指标是说明总体数量特征的,而标志则是反映总体单位特征的; 统计指标都是能用数值表示的,没有不能用数值表示的统计指标,而标志有能用数值表示的数量标志和不能用数值只能用文字表述的品质标志之分。,两者的联
9、系主要表现在: 具有对应关系。 具有汇总关系。 具有变换关系。,(4)统计指标体系 统计指标体系指由若干个相互联系的统计指标所组成的整体,用以说明客观现象各方面相互依存和相互制约的关系。 统计指标体系大体上可以分为基本统计指标体系和专题统计指标体系两大类。,1.5.3 变异与变量 变异是指标志表现及指标的具体表现上的差异,有属性的变异和数值的变异之分。 统计对变异的研究主要是通过变量的形式进行的。统计上把可变的数量标志和所有的统计指标称为变量。将变量的具体表现,即可变的数量标志(或统计指标)的不同取值,称为变量值或标志值。,变量按其取值的连续性可分为离散型变量和连续型变量。 变量按其性质,可分
10、为确定性变量和随机变量。,第2章 统计数据的搜集,2.1 统计数据的一般问题 2.2 统计调查方案的设计 2.3 统计数据搜集的方式方法,2.1 统计数据的一般问题,2.1.1 统计数据的来源及分类,统计数据是反映客观事物数量特征的数字信息,是统计科学研究的基本原料。,1. 统计数据的来源,亲自调查搜集 利用已发表的汇编材料,(1)各国政府统计机构连续编制的反映其全国及各地区国民经济和社会发展全貌的统计月报和年鉴; (2)各国社会经济科学研究者和政府社会经济研究工作所编写的社会经济问题专著或政府专业报告; (3)各国大学和研究机构进行科学研究而专门调查取得的专题性研究报告; (4)联合国等国际
11、统计机构(或社会经济机构)编制的各种统计月报和年鉴。,世界各国和联合国,我国目前主要来源于各类出版物、国家统计部门和地方各级统计部门的统计报告制度以及专门组织的调查(如人口普查、全国工业普查等)。,2统计数据的分类,(1)横截面数据:指在同一时间(或时期)对不同单位(如个人、家庭、企业或国家)观测同一组变量的变化过程而得到的数据。,(2)时间序列:指在不同时间(往往是等间隔的时间)对同一单位观测同一组变量的变化过程而得到的数据。 (3)纵列数据:指在不同时间对同一组单位进行调查所得到的结果,它是横截面数据和时间序列混合起来的数据。,2.1.2 统计数据的准确性,统计数据的准确性是指基础数据的准
12、确性,应与用户、不同的研究对象、不同的分析目的联系起来,管理部门应把趋势搞准,具体搞核算的人应把数字搞准。,1测度的含义及构成,2.1.3 数据的四类计量尺度,含义:是指按照某种法则给物体和事物分派一定的数字或符号,亦即把某种物体、事件或现象的非数状态转化为一种数字符号状态的过程。,测度构成,测度的客体:所要测度的对象。,测度法则:对测度客体分派数字或符号的统一标准或准则。,数字或符号:对测度客体的某一特征或属性给予的一种标识。,从统计的观点看,所有的指派规则将会 产生四类测量数据,即定类数据、定序数据、 定距数据和定比数据,它们对应的测量水 平,分别称为定类尺度、定序尺度、定距尺 度以及定比
13、尺度。,2测度的层次,(1)定类尺度(Nominal scale),特点:只能测度事物或变量间的不同类别。 性质:具有对称性和传递性。 用途:计算每一类别出现的频率或百分比。,(2)定序尺度(Ordinal scale),定义:语义上表现出明显的等级或顺序关 系的定类尺度。 特点:不仅可以测度类别差,还可以测度 次序差。 优点:定序尺度比定类尺度要精确一些, 它除具有定类尺度所具有的性质和 特征外,各类之间还可以比较大小。,(3)定距尺度(Interval scale),定义:也称间隔尺度或区间尺度,它是对 事物类别或次序之间的间距进行的一 种测度。 特点:不仅能将事物区分为不同类别并进 行排
14、序,而且还可以准确地指出它们 之间的差距大小。,(4)定比尺度(Ratio scale),定义:具有定距尺度所有的性质特征,并 且有一个绝对原点的测量尺度,比如 收入、产量、重量、体积、距离等。 特点:通过定比尺度得到的资料,任意两 个数的比值与计量单位无关。,表2-4 四种计量尺度的比较,四种计量尺度及统计数据分类,3.测量尺度与统计方法,各类测量数据适用的统计方法,定类尺度资料 适用于定类数据的统计方法大体有:频数分布数列包括累积频数、直方图等,结构相对数、比例相对数、众数等指标分析方法,以及列联分析、 检验等非参数统计方法。,各种资料适用的统计方法,定序尺度资料 适用于定类尺度资料的统计
15、方法,皆可用于定序资料的分析,除此之外,像中位数、百分位数、等级相关系数、和谐相关系数、秩和检验、游程检验等方法都可以使用。,定距尺度资料 定距尺度数据是经过计数和计量得到的,是最高级别的测量水平,几乎所有的参数统计方法和非参数方法都能应用,但几何均值、变异系数除外。 定比尺度资料 定比尺度资料和定距尺度资料,原则上没有什么本质的不同,几乎所有的统计方法都能适应于它。,2.1.4 数据获取的困难,某些事物无法直接测度,只能用“替代”变量;还有一些变量的具体数字属于“保密范围; 数据缺失; 数据不足,样本太小; 数据不准确,有内在矛盾。,2.2 统计调查方案的设计,1.确定调查目的,2.确定调查
16、对象和调查单位,3.确定调查项目和调查表,4.确定调查时间,5.制定调查的组织工作计划,2.3 统计数据搜集的方式方法,1. 统计调查的意义,统计调查是统计整理和分析的基础和前提,是决定整个统计工作过程质量的重要环节。统计调查阶段的工作质量会影响到统计整理和分析结果的可靠性、真实性。 对统计调查阶段提出的要求是:准确性、及时性、全面性和经济性。,2. 统计调查的种类,组织形式,统计调查,研究总体范围,登记调查资料的时间,调查工作时间周期长短,全面调查,非全面调查,统计报表制度,专门调查,连续调查,非连续调查,经常性调查,一次性调查,特点: 由国家统计局与各级业务主管部门制定的,自上而下布置。
17、由基层单位和下级主管机关定期向上级机关和国家报告,可以满足各级管理层次的需要。 必需按照统一规定的表格形式、内容和报送程序报送。 可以提供国民经济和社会发展及基层企事业单位基本情况的统计资料。 是一种经常性开展的全面调查,其取得资料的方法采用报告法。 统计报表属于指令性统计,受到统计法的保障。,3. 统计调查的组织方式,1.统计报表制度,作用: 是国家了解国民经济发展情况,制定和检查国民经济和社会发展状况、经济和产业政策的重要工具,是为我国宏观决策等提供基本依据的主要信息流。 是企业、事业单位及各级业务主管部门进行业务领导和管理的重要依据。 适用场合 统计报表制度适用于调查反映国民经济活动基本
18、情况,以及各级业务部门了解本系统内所有单位的生产技术水平和经营管理情况。,1.按报表内容和实施范围不同,可分为国民经济基本统计报表制度和专门统计报表制度 2.按调查范围不同,分为全面和非全面统计报表制度 3.按报送周期长短不同,分为日报、旬报、月报、季报、半年报和年报,种类:,统计报表资料来源:原始记录、统计台帐和企业内部报表,普查,2.专门调查,特点: a.涉及面广、工作量大,需要的人力、物力较多,组织工作也比较复杂。b.是一种非经常性地开展的非全面调查。c.用于不易通过经常调查取得的资料的调查。d.确定普查的标准时间。e.普查的登记工作应在整个普查范围内同时进行,以保证普查资料的时效性、准
19、确性,避免资料的搜集工作拖的太久。f.同类普查的内容和时间在历次普查中应尽可能保持连贯性。g.其取得资料的方法可采用直接观察法或采访法、报告法。,作用:可以摸清一个国家国情、国力,以作为国家制定政策的重要依据,或取得许多专门问题的详细资料,为解决专项问题提供信息。,适用场合:只对那些国民经济发展中的重大问题或某些专项问题,才进行普查。如人口普查、 经济普查、农业普查等。,重点调查,特点: a.统计总体中存在重点单位。b.只对这些重点单位进行调查,以掌握总体标志总量的基本情况。c.是一种非经常性开展的非全面调查,其取得资料的方法采用报告法。 作用:粗略地了解统计总体的基本情况。能否开展重点调查是
20、由调查任务和调查对象特点所决定的。当调查任务只要求掌握基本情况,而且调查对象中又确实存在重点单位时,方可实施。 适用场合,典型调查,特点: a.统计总体中存在有代表性的单位。 b.只对有代表性单位进行调查研究。 c.深入细致的调查,既可以搜集数字资料,又可以搜集不能用数字反映的实际情况。 d.调查单位是有意识的选择出来的若干有代表性的单位,它更多地取决于调查者的主观判断和决策。,作用: a.典型调查可用于分析出现的新情况和新问题,寻找其发生原因、变化趋势等事物的本质和规律性,以寻求加以解决的对策和措施,达到以点带面的效果。 b.在有些情况下,可用典型调查数据估算总体数据或验证全面调查数据的真实
21、性。 c.可以弥补其它调查方法的不足,为数据资料补充丰富的典型情况。 适用场合: 统计研究对象的统计总体中存在有代表性的单位,又希望对统计研究对象有深入的了解,并欲达到以点带面效果的。,调查目的:推断总体 调查范围:非全面 调查时间:一次性/经常性 调查单位:按照随机原则抽取的单位,抽样调查,4. 统计数据搜集的方法,直接观察法 报告法 访问法 实验调查法 卫星遥感法 网络调查法,第3章 统计数据的整理与显示,3.1 数据整理的意义及程序 3.2 统计分组 3.3 频数分布 3.4 数据整理的组织和技术 3.5 统计表和统计图,3.1 数据整理的意义及程序,3.1.1 数据整理的意义 统计数据
22、整理就是指根据统计研究目的,将统计调查所得的原始数据进行科学的分类汇总,或对已经加工的次级资料进行再加工,为统计分析准备系统化、条理化的综合资料的工作过程。 从统计工作的全过程来讲,统计数据整理是统计工作过程的第三阶段。它在统计工作中起着承前启后的作用。 因此,统计整理的正确与否,将直接影响到对现象总体数量特征描述的准确性。,3.1.2 数据整理的程序 统计数据整理中必须遵循的原则是:要在对所研究的社会经济现象进行深刻分析的基础上,抓住最基本、最能说明问题本质特征的统计分组和统计指标对统计资料进行加工整理。 数据整理的基本程序如下:,1. 设计和编制统计数据的整理方案 2. 对调查获得的数据进
23、行审核 (1) 对原始数据进行审核 (2)对二手数据进行审核 (3) 数据筛选 3. 按照一定的组织方式和方法对调查所得数据进行分组、编码、汇总和计算 4. 对整理好的统计数据再次进行审核,及时更正汇总过程中产生的各种差错 5. 将汇总整理的结果编制成统计表或绘制统计图,简明扼要地表明现象的数量特征 6. 积累、公布和管理统计数据,3.2 统计分组,3.2.1 统计分组的意义 1统计分组的概念 统计分组是指根据事物内在的特点和统计研究的需要,将统计总体按照一定的标志区分为若干组成部分的一种统计方法。 其目的是把同质总体中的具有不同性质的单位分开,把性质相同的单位合在一起,保持各组内统计资料的一
24、致性和组间资料的差异性,以便进一步运用各种统计方法研究现象的数量表现和数量关系,从而正确地认识事物的本质及其规律。,2统计分组的原则 (1)穷尽原则 穷尽原则就是使总体中的每一个单位都有组可归,或者说各分组的空间足以容纳总体所有的单位。 (2)互斥原则 互斥原则就是在特定的分组标志下,总体中任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。,3统计分组的作用 (1)可以区分现象质的差别 统计分组的根本作用在于区分现象质的差别。 (2)可以分析总体内部结构和总体结构特征 当研究目的在于探讨总体在某一标志上的构成,而将总体划分为若干组成部分以显示所研究标志的结构时,这种分组称为结构分组。
25、 (3)可以揭示现象之间的依存关系 当研究目的在于探讨同一总体范围内两个可变标志的依存关系时,可以将其中一个可变标志(自变量)作为分组标志,以观察另一标志(因变量)相应的变动情况。这种分组称为分析分组,它可以揭示现象之间的依存关系。,4统计分组的种类 (1)品质分组(或称属性分组) 即按品质标志进行分组。一般地,对于类别数据,采用品质分组。 (2)数量分组(或称变量分组) 即按数量标志分组,数量标志的变异性体现在它不断变动的数量上,故也称为变量分组。 品质分组所形成的数列称为品质数列,变量分组所形成的数列称为变量数列。,3.2.2 统计分组体系 1简单分组与平行分组体系 简单分组就是对研究现象
26、按一个标志进行分组,它只能从某一方面说明和反映事物的分布状况和内部结构。对同一个总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。 2复合分组体系 复合分组就是用两个或两个以上标志层叠起来进行分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组。复合分组所形成的分组体系叫做复合分组体系。,3.2.3 分组标志的选择 统计分组中关键的问题在于选择分组标志和各组界限的划分,而选择分组标志则是统计分组的核心问题。 分组标志就是将统计总体区分为各个性质不同的组的标准或根据。 为确保分组后的各组能够正确反映事物内部的规律性,选择分组标志时应遵循以下
27、原则: 1根据统计研究的目的与任务选择分组标志 2在若干个标志中要抓住具有本质性或主要的标志作为分组依据 3根据现象所处的历史条件或经济条件来选择标志,3.2.4 统计分组的方法 1品质分组的方法 按品质标志分组法分组就是选择反映事物属性差异的品质标志为分组标志,在品质标志的变异范围内划定各组界限,将总体划分成为若干个性质不同的组成部分。 在选择分组标志时,一般情况下不会发生困难,所出现的问题是各级界限的具体确定。在统计实践中,为了保证各种分类的统一性和完整性,国家对某些重要的现象制定了统一的分类目录,如工业部门分类目录、产品分类目录等。,2数量分组的方法 按数量标志分组就是按反映事物数量差异
28、的数量标志为分组标志,并在数量标志的变异范围内,将总体划分为性质不同的若干组成部分。 应该指出,在选择数量标志以后,分组过程中对于总体应分为多少组,各组的界限怎样确定,这是一个比较复杂的问题。 分组不恰当,一方面不能反映出事物本身所具有的内在结构,另一方面也不能反映事物的本质和规律,这就要求组数和组限的确定要恰当、科学。,3.3 频数分布,3.3.1 频数分布的概念 在统计分组的基础上,将总体中所有单位按组归类整理,形成总体中各个单位数在各组间的分配,叫做频数分布。 分布在各组中的个体单位数叫做次数或频数,频数大小决定该组标志值作用的强度。 各组次数与总次数之比叫做比率或频率,频率表明各组值的
29、相对作用强度。,将各组别与次数按一定的次序排列所形成的数列称作频数分布数列,简称分布数列,又称分配数列或频数分配。 任何分布数列都必须满足两个条件:各组频率都是介于0和1之间的一个分数;各组的频率总和等于1(或100)。 分布数列反映了所研究的总体中所有的单位数在各组内的分布状态和总体的分布特征,并据以研究总体某一标志的平均水平及其变动的规律。,按品质标志分组编制的分布数列叫做品质分布数列或属性分布数列,简称为品质数列。 品质数列由组的名称和各组的次数两个要素构成。品质数列的编制程序一般比较简单,其步骤见图3-1。,图3-1 品质数列的编制程序,3.3.2 变量数列 变量数列是依据数量标志分组
30、编制的分布数列,它是一种区分事物数量差别的分布数列,反映了总体在一定时间上的量变状态或量变过程,并从这种量的差别中来反映事物质的差别。 按数量标志分组应注意如下两个问题:分组时各组数量界限必须能反映事物质的差别。应根据被研究的现象总体的数量特征,采用适当的分组形式,确定适当的组距、组限。,1单项式分组与组距式分组 单项式分组就是用一个变量值作为一组,形成单项式变量数列。 单项式分组一般适用于离散型变量且变量变动范围不大的场合。 组距式分组就是将变量依次划分为几段区间,一段区间表现为“从到”的距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。 对于连续型变量或者变动范围较大的离散型变量
31、,适宜采用组距式分组。,2间断组距式分组和连续组距式分组 在组距式分组中,每组包含了许多变量值,每一组变量值中,其最小值为下限,最大值为上限,组距是上下限之间的距离,相邻两组的界限称为组限。 凡是组限不相连的,称为间断组距式分组。例如,儿童按年龄可分为:1岁以下,l2岁,35岁,611岁,1214岁。 凡是组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限,称为连续组距式分组。例如学生按其成绩分为:60分以下,6070分,7080分,8090分,90l00分。,3等距分组与异距分组 按数量标志进行组距式分组,还可分为等距分组和异距(或称不等距)分组。等距分组就是标志值在各组保持相等的
32、组距,即各组的标志值变动都限于相同的范围。异距分组就是标志值在各组的组距不全相等。 凡是在标志值变动比较均匀的情况下,都可采用等距分组。等距分组有很多好处,它便于计算,便于绘制统计图。,在下列场合下,必须考虑采用异距分组。 (1)标志值分布很不均匀的场合 (2)标志值变动相等的量具有不同意义的场合 (3)标值按一定比例发展变化的场合 对于异距分组,由于各组次数的多少还受到组距不同的影响,各组的频数可能会随着组距的扩大而增加,随着组距的缩小而减少。 为消除异距分组所造成的这种影响,须计算频数密度(或称次数密度)和频率密度,其计算公式如下: (3-1),4组距、组数、组限与组中值的计算 组距就是各
33、组上下限之间的距离。组距的大小应适度,以符合分组的要求为原则。 组距与分组的组数有密切的关系,它们实质上是一个问题的两个方面。组距大,则分成的组数就相应地少;组距小,则分成的组数就多。 组数过少,容易把不同质的单位归并在一个组内;组数过多,又容易把同质的单位分散于许多组中,两者都不能很好地达到分组的基本要求。,决定组数的多少并无规则可言,必须凭借经验和所研究问题的性质做出判断。这里介绍一个确定组数和组距的经验公式,这一公式是美国学者斯特杰斯(H.A.Sturges)创用的,称为斯特杰斯经验公式,即: (3-2) (3-3) 式中:k为组数;N为总体单位数;d为组距;R为全距,即最大变量值xma
34、x与最小变量值xmin之差。,上下限之间的中点数值称为组中值,组中值的计算公式为: (3-4) 在计算平均指标或进行其他统计分析时,常以组中值来代表各组标志值的平均水平。当各组标志值均匀分布时,组中值代表各组标志值的水平的代表性就高。,在编制组距数列时,为避免出现空白组,同时又能使个别特大或特小的变量值不致无组可归,往往在首末两组使用开口组。 一般假定开口组的组距等于相邻组的组距。因此,首组和末组的组中值计算公式为: (3-7) (3-8),组距变量数列的编制程序见图3-2。,图3-2 组距变量数列的编制程序,原始数据序列化,3.3.3 累计频数与累计频率 向上累计是指将各组频数和频率由变量值
35、小的组向变量值大的组累计,表明累计到该组上限以下各组的总次数和所占的总比重; 向下累计是指将各组频数和频率由变量值大的组向变量值小的组累计,表明累计到该组下限以上各组的总次数和所占的总比重。,3.4 数据整理的组织和技术,3.4.1 数据整理的组织形式 统计汇总的组织形式基本有三种: 集中汇总 逐级汇总 综合汇总,3.4.2 数据整理的技术 手工汇总 电子计算机数据处理技术,3.5 统计表和统计图,3.5.1 统计表 1. 统计表的概念 狭义的统计表专指分析表和容纳各种统计资料的表格,也就是通常所说的统计表,它清楚地、有条理地显示统计资料,直观地反映统计分布特征。,2统计表的构成 (1)从形式
36、上统计表由总标题、横行标题、纵栏标题和指标数值四部分组成 (2)从内容上统计表由主词栏和宾词栏两部分组成,3统计表的分类 (1)按主词的结构分类,根据主词是否分组和分组的程度,分为简单表、分组表和复合表 (2)按宾词的设计分类,可分为宾词简单排列、分组平行排列和分组层叠排列三种,3统计表的设计 (1)标题设计 (2)线条的绘制 (3)合计栏的设置 (4)指标数值 (5)计量单位 (6)注解或资料来源,3.5.2 统计图 1定类数据的图示 (1)条形图(bar chart) (2)饼图(pie chart) 2定序数据的图示 上面介绍的定类数据的图示方法,也都适用于定序数据。 (1)累计频数分布
37、图。 (2)环形图(annular chart),3定量数据的图示 (1)直方图(histogram) (2)折线图 (3)曲线图,3.5.3 频数分布的类型 1钟型分布 钟型分布的特征是“两头大,中间小”,即靠近中间的变量值分布的次数多,靠近两边的变量分布次数少,其曲线图宛如一口古钟。 2U型分布 U型分布的特征与钟型分布相反,靠近中间的变量值分布的次数少,靠近两端的变量值分布次数多,形成“两头大、中间小”的U字型分布。,3J型分布 (1)正型J分布 是指随着变量值的增加,分布的次数也随之增加,绘成曲线图,形若英文字母“J”, (2)反型J分布 是指随着变量值的增加,分布的次数随之减少,绘成
38、曲线图,形若反写英文字母“J”。,频数分布的类型,几种常见的频数分布,第4章 统计数据分布特征的度量,4.1 绝对数与相对数 4.2 集中趋势的测度 4.3 离散程度的测度 4.4 偏态与峰度的测度,4.1绝对数和相对数,4.1.1绝对数 1.绝对数的概念与作用 绝对数又称总量指标、数量指标、绝对指标,它是反映社会经济现象总体在一定时间、地点和条件下的总规模、总水平或工作总量的一个综合概念。 绝对数的作用主要有: (1)通过绝对数可以了解社会经济现象总体的基本情况 (2)绝对数是编制计划,实行管理的主要依据 (3)绝对数是计算相对数和平均数的基础,2.绝对数的种类 (1)按其反映总体内容的不同
39、,可分为总体单位总量和总体标志总量 (2)按其反映时间状况的不同,分为时期数和时点数,3.绝对数的计量单位 (1)实物单位 实物单位是根据事物的自然属性和特点而采用的计量单位,包括自然单位、度量衡单位、标准实物单位、多重单位与复合单位。 (2)货币单位 货币单位是以货币作为价值尺度来计量的绝对数,如国民生产总值、国民收入、商品销售额、工资总额等都是以货币单位(“元”、“万元”、“亿元”等)计量的。 (3)劳动量单位 劳动量单位是用劳动时间表示的计量单位,也是一种复合单位,是工人数与劳动时间的乘积,如“工时”、“工日”等。,4.绝对数的计算及应用 绝对数的计算及应用应注意以下几点: (1)正确确
40、定绝对数的含义、构成内容、计算范围 (2)使用统一计量单位 (3)选择恰当的计算方法 绝对数的计算方法主要有两种:直接计量法、推算和估算法。,4.1.2相对数 1.相对数的概念和作用 相对数又称相对指标,它是指两个有联系的现象数值的比率,用以反映社会经济现象发展的程度、结构、强度、普遍程度或比例关系。其数值有两种表现形式:无名数和有名数。 相对数的作用主要有: (1)相对数可以使人们清楚了解现象的相对水平和普遍程度 (2)相对数可以使无法直接对比的现象找到可以对比的基础 (3)说明总体内在的结构特征,为深入分析事物的性质提供依据,2.相对数的种类及其计算方法 (1)结构相对数 结构相对数是在对
41、总体分组的基础上,以总体总量作为比较标准,求出各组总量占总体总量的比重,来反映总体内部组成情况的综合指标。 用公式表示如下:,(2)比例相对数 比例相对数是反映总体内部各个组成部分之间的比例关系和均衡状况的综合指标。计算公式为:,(3)比较相对数 比较相对数是将不同地区、单位或企业之间的同类指标数值作静态对比而得出的综合指标,表明同类事物在不同空间条件下的差异程度或相对状态,用以说明某一同类现象在同一时间内不同空间发展的不平衡程度,以表明同类实物在不同条件下的数量对比关系。其计算公式为:,(4)强度相对数 强度相对数是指在同一地区或单位内,两个性质不同但有一定联系的绝对数对比得出的相对数,用来
42、分析不同事物之间的数量对比关系,表明某一现象在另一现象中发展的强度、密度和普遍程度。 其计算公式为: 强度相对数有正指标、逆指标之分。,(5)动态相对数 动态相对数又称发展速度,是同一空间同类现象数值在不同时间状态下对比的结果,表明同类事物的报告期(被研究的时期,又称本期、现期、计算期)水平与基期(作为比较基准的时期)水平对比发展变化的相对程度。其计算公式如下:,(6)计划完成程度相对数 计划完成程度相对数是用来检查、监督计划执行情况的一个分析指标,它是以现象在某一段时间内的实际完成数与计划数对比,来观察计划完成程度,一般用百分数来表示计划完成程度相对数基本计算公式为:,3.正确计算相对数的原
43、则 (1)可比性原则 (2)多种相对数综合应用的原则 (3)相对数与绝对数结合应用的原则,4.2集中趋势的测度,4.2.1集中趋势的含义 集中趋势(central tendency)是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。 集中趋势的测度,主要是计算各种平均数,平均数,也称平均指标,是表示同类社会经济现象在一定的时间、地点、条件下所达到的一般水平的代表值,如平均工资、平均价格、平均单位成本、平均亩产量等。,1.平均数的特点 (1)反映集中趋势 (2) 平均数是抽象值 (3)平均数是代表值 (4)所计算总体的同质性,2.平均数的作用 (1)利用平均
44、数可以比较同类现象在不同单位的发展水平 (2) 利用平均数可分析研究事物之间的依存关系 (3) 利用平均数可以比较同类现象在不同时间上的发展变化趋势 (4)利用平均数作为企业管理的依据,并可进行数量上的推算,4.2.2数值平均数 1.算术平均数 算术平均数,也称均值,是对全部数据进行算术平均,是集中趋势的最主要测度值,是计算平均数的最常用方法,它的基本计算形式是用总体标志总量除以总体单位总量。 在实际数据的分析中,根据掌握的数据资料的不同,算术平均数有两种计算形式:即简单算术平均数和加权算术平均数。,(1)简单算术平均数 简单算术平均数适用于未分组的统计资料,如果已知各单位标志值和总体单位数,
45、可采用简单算术平均数方法计算,其计算公式为: 由于算术平均数受极端数值的影响很明显,为了消除极端数值的影响,在实际应用中还可以计算截尾平均数。截尾平均数的计算公式可以表示为:,(2)加权算术平均数 如果数据资料经过统计整理环节,形成了变量数列,如果在已知各组的变量值和变量值出现的次数,则可采用加权算术平均数计算。其计算公式为: 在加权算术平均数的计算公式中,权数除了用绝对数形式(即各组次数、也称频数)表示外,还可以用相对数形式即频率表示,此时加权算术平均数可以变形成如下形式:,(3)算术平均数的数学性质 算术平均数有两个重要数学性质: 各变量值与其算术平均数的离差之代数和等于零 各变量值与其算
46、术平均数的离差平方之和为最小值,2.调和平均数 调和平均数是各个变量值倒数的算术平均数的倒数,又称为倒数平均数。调和平均数有独立的计算形式,但在实际应用中,调和平均数常常被作为算术平均数的变形来使用。 (1)简单调和平均数 (2)加权调和平均数,3.几何平均数 几何平均数是变量值的连乘积开变量值的项数次方。 (1)简单几何平均数 简单几何平均数是个变量值乘积的n次方根。 (2)加权几何平均数 如果各个变量值出现的次数不等,则可采用加权几何数公式进行计算。,4.2.3位置平均数 数值平均数是根据所有变量值计算的平均数,而位置平均数是根据变量值所处的特殊位置确定平均数的,具体有众数与中位数两种。
47、1.众数 众数是指一组数据中出现次数最多的变量值,用Mo表示。众数的确定分两种情况: (1)资料未经整理或单项式数列 如果数据资料未经整理或者是单项式数列确定众数比较简单,只需找到数据中哪个变量值出现的次数最多即可确定众数了。,(2)组距数列 由组距式数列确定众数,是先根据出现次数确定众数所在组,然后利用下限或上限公式计算众数的近似值。,上限公式:,下限公式:,2.中位数 中位数是指一组数据按大小顺序排列后,处于中间位置的那个变量值,用Me表示。中位数的确定分两种情况: (1)资料未经整理 对未分组数据计算中位数时,可先对数据进行排序,然后确定中位数的位置。 具体确定中位数的方法是: 设有n个
48、数据,进行有序排列后,中位数的位置为(n+1)/2,如果数据为奇数项,则中位数为中间一项的数据;如果数据为偶数项,中位数为中间两项数据的简单算术平均数。,(2)资料经过整理 数据资料经过统计整理后通常形成单项式数列或者组距数列,如果是单项式数列,可先根据公式 确定中位数所在的位置,然后用累计频数(向下累计)确定中位数所在组后即可确定中位数的具体值了。,对于组距数列计算中位数时,先根据前述公式确定中位数所在的位置,然后用累计频数(向下累计)确定中位数所在组后采用下列下限或上限公式计算中位数的近似值。,下限公式:,上限公式:,4.2.4几种平均数的比较 1.算术平均数、调和平均数与几何平均数的数量
49、关系 如果不研究算术平均数、调和平均数与几何平均数的实际应用条件,仅仅从数学角度去分析三者之间的数量关系,针对同样的数据资料,同时采用这三种算法计算平均数,可以证明,三者之间的数量关系为: 当且仅当所有变量值都相等时三者相等。,2.算术平均数、众数和中位数的比较 算术平均数是根据所有变量值计算的集中趋势值,众数与中位数是根据数据分布形状以及变量值所处的位置确定的集中趋势值,作为集中趋势的代表值,这三种平均数的不同计算特点决定了在实际应用中应根据研究目的与数据特征来选择恰当的集中趋势测度值。在实际应用中可以把这三种平均数结合起来,通过比较三者之间的数量关系分析变量分布的特征。,(1)当总体分布呈对称状态时,三者合而为一,如图:,f,X,(2) 当总体分布呈非对称状态时,右