1、第一章 绪 论,第一节 统计的产生与发展 第二节 统计研究的特点、方法和作用 本章小节,主要内容,第一节 统计的产生与发展,一、统计与统计学 统计学是研究如何对社会总体的数量特征和规律进行描述、推断、认识的一门学科。从字面上直观理解,“统计”是指对大量事物进行汇总计数,因此可以简单地说统计就是总起来计量,即统而计之。例如计算全国的总人口数、国内生产总值,计算某个企业的职工人数、产品产量,甚至是计算某个家庭每月的收入和支出等等都是统计。,一、统计与统计学,统计活动一般按照统计设计、统计调查、统计整理、统计分析和统计资料的开发利用这几个阶段依次进行。如图1.1.1所示。,二、统计的产生与发展,统计
2、产生,原始社会后期: 统计萌芽于计数活动; 奴隶制国家产生:使统计日显重要; 封建社会时期: 统计已具规模; 资本主义的兴起:统计扩展到社会经济各方面。,统计学作为一门系统的科学,距今已有300多年的历史。,二、统计的产生与发展,统计发展 按照统计学的发展历程,我们可以把统计学划分为古典统计学、近代统计学和现代统计学三个时期,如图1.1.2所示。,(一)统计学学派,1德国的记述学派(国势学派 康令 (16061681) 阿痕瓦尔(17191772: 1764年首创统计学一词),他们在大学中开设“ 国势学”采用记述性材料,讲述国家“ 显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而
3、忽视量的分析。,三、统计学学派与统计学学科体系,(二)统计学的近代期(18世纪末19世纪末),2政治算术学派 代表人物:英国的威廉配第、约翰格朗特等。 威廉配第的代表著政治算术对当时的英、荷、法等国的“ 国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。,三、统计学学派与统计学学科体系,三、统计学学派与统计学学科体系,数理统计学派 代表人物:法国的拉普拉斯,比利时的凯特勒。拉普拉斯把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。 凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造
4、为近代意义的统计学。他是数理统计学派的奠定人,有“ 统计学之父”之称。,4社会统计学派 代表人物:德国的克尼斯、恩格尔、梅尔等。 他们强调统计学是研究社会现象的科学,包括统计资料的搜集、整理和分析研究,目的是要揭示现象内部的联系。,三、统计学学派与统计学学科体系,三、统计学学派与统计学学科体系,(二) 统计学学科体系,理论统计学 指统计学的数学原理,它根植于纯数学的一个领域概率论。,应用统计学 将统计学的基本原理应用于各个领域就形成各种各样的应用统计学。它包括一整套统计分析方法,有的是适用于各个领域的一般性的统计方法,如数据收集与整理、参数估计、假设检验、方差分析、相关与回归等。有的则是某一专
5、业领域中特有的分析方法,例如经济统计学中的指数分析法、统计决策及产品质量统计管理等。,理论统计学,数理统计学 数理统计学是应用数学的一个分支,在这里作为统计学的一个分支,它以概率论等数学理论为基础,研究随机现象的数量规律,是一门纯方法论的科学,为其它学科提供数学分析和推断的方法与技术。 统计学原理 统计学原理是在统计实践的基础上,对统计理论方法的最一般概括,内容包括统计的对象和任务,统计的理论基础和方法论基础,以及关于统计活动各个环节的理论和方法。统计学原理中结合了数学、概率论和数理统计学的知识,又是统计实践经验的高度总结,是指导统计实践活动的科学依据。一般所说的统计学就是指统计学原理。,社会
6、经济统计学 社会经济统计学是将理论统计学应用于社会经济领域,以社会、经济、人口、科技和文化等人类自身及其活动为对象的统计方法论,为对社会经济现象数量特征进行的调查研究提供原理、原则和方式方法。 自然统计学 自然统计学是将理论统计学应用于自然现象领域,是探索地理、地质、气候、天文、生物等非人类现象的数量关系和数量规律的统计方法论。其中较为重要的分支有生物统计学、气象统计学、天文统计学等。,应用统计学,(三) 统计学与其他学科的关系,统计学和数学的关系 统计学中具有方法论性质的数理统计学是应用数学的一个分支,因此统计学与数学的关系十分密切,且与其他的应用数学有一定的共性。如和数学中的有关定理一样,
7、统计中的一些分布也是客观现象数量特征的一种抽象。 统计学与其他的数学分支相比又有其特殊性。 (1) 处理的数据不同。 (2) 处理的方法不同。,(三) 统计学与其他学科的关系,统计学与其他专门学科的关系 统计方法一般的数据分析方法适用于其他任何科学中的偶然现象,因此它与很多专门学科都有关系。但是统计方法只是从事物的外在数量表现去推断该事物可能的规律性,它本身不能说明何以会有这个规律性,这是各专门学科的任务。,第二节 统计研究的特点、方法和作用,统计研究的特点,第二节 统计研究的特点、方法和作用,数量性 “数字是统计的语言”,数量性是统计研究的基本特点,统计研究系统如图1.2.1所示.,统计研究
8、的特点,总体性 统计研究就是总的、综合的数量研究。一般理解的总体是指统计总体,是由同类个体组成的集合体,如人口总体、企业总体、商品总体等等,这时统计研究的目的不是计量个体的特征表现,而是对个体的特征表现进行统计整理和统计分析,得到总体的综合的数量特征。,具体性 具体性即客观性。统计对象是具体的,是客观存在的事物或现象。统计数据包括原始数据和计算结果,都是客观现象在一定时间、地点、条件下的数量表现,是具体的数据。,统计研究的特点,统计研究的方法,按照统计工作的不同阶段和作用列出的常用统计方法如图1.2.2 所示。,大量观测法 所谓大量观测法就是对所研究的客观现象总体中的全部或者足够多的个体进行观
9、测以达到正确认识总体的目的。大量观测法不是一种具体的应用方法,而是研究客观现象总体数量特征的重要思想方法和原则,是统计研究的指导原则。 统计实验法和统计调查法 统计实验法是按照一个设定的实验程序,观测现象开始实验以后的数量特征,根据实验收集的资料进行整理、分析,得到对现象总的认识。 统计调查法指主要依靠调查人员,通过各种途径收集所研究现象的数据资料,包括历史资料和现实资料。,统计研究的方法,统计描述法和统计推断法 统计描述法是综合描述的方法,是通过对所收集的数据进行加工处理,计算综合性的统计指标,描述所研究现象总体数量特征和数量关系的方法。根据所描述问题的特点,可以具体使用综合指标法和数学模型
10、法。 统计推断法是在对已知事物进行描述的基础上,对未知事物进行推断的方法。根据推断的内容不同可分为抽样估计法以及假设检验法等。,统计研究的方法,统计具有以下三个方面的作用: 提供信息服务 提供统计信息是统计的信息职能,是统计的首要职能。 提供咨询服务 提供咨询服务是统计的咨询职能。统计工作的任务不仅要完成提供信息的基本任务,还要进一步利用已经掌握的各种统计信息资料,为政府、企业以及个人等提供各种咨询建议和对策方案。 提供监督服务 提供监督服务是统计的监督职能。监督职能是指根据长期的大量的统计信息,按照标准监督客观现象发展变化状况,确定其是否正常,有无警情。,统计研究的作用,例1.1 边际消费倾
11、向(Marginal Propensity to Consume) 例1. 2 投资乘数(Investment Multiplier),应用实例,例1.3.3 增长率问题(Growth Rate),本章小节,统计是对变量观测值产生的变异性的研究; 统计学(statistics)是收集、描述和解释数据的科学,是科学的一种普遍性语言。 统计方法包括:收集资料方法;整理资料方法;统计分析方法等。 统计分析方法是统计方法的核心,统计分析方法可以分为两部分:描述性统计和推断性统计。 描述性统计是通过对所收集的数据进行加工处理,计算综合性的统计指标,描述所研究现象总体数量特征和数量关系的方法; 推断性统计
12、阐明如何利用样本数据来推断被抽样总体的性质,并按规定的置信度来实现这种推断。 统计过程的一个非常重要的部分是研究统计的结果和给出恰当的结论,这些结论必须正确地被表达,不能随意添加,除非还有其他的信息。,第二章 统计数据的收集与整理,第一节 统计数据收集 第二节 统计数据整理 第三节 统计数据表现形式 第四节 统计数据特征描述 本章小节,主要内容,第二章 统计数据的收集与整理,加工整理, 归并汇总, 重新排列,调查得到 的原始 统计资料,发现数据 的规律性, 作进一步的 统计分析,第一节 统计数据收集,一、收集资科的方式 取得统计数据有多种途径,但概括起来不外乎是直接方式和间接方式。 (一)统计
13、资料的直接收集 直接获取第一手统计资料的主要方法包括:统计调查和试验设计。 统计调查的方式主要有 普查 抽样调查 重点调查 统计报表制度。,调查方式方法,统计调查的方式,统计报表制度,专门组织的统计调查,普查,重点调查,抽样调查,普查 普查是专门组织的一次性的全面调查,用来调查属于定时点上或时期内的社会经济现象的总量。 抽样调查 抽样调查是一种非全面调查,它是按照随机的原则,从总体中抽取一部分单位作为样本来进行观测研究,以抽样样本的指标去推算总体指标的一种调查。 重点调查 重点调查的组织方式有两种:一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。 统计报表制
14、度 统计报表制度是根据国家有关统计法的规定,依据自上而下统一规定的表格形式、项目及其指标、报送时间与程序布置调查要求和任务,自下而上逐级汇总上报的统计报表制度。,(一)统计资料的直接收集,试验设计 科学试验是进行科学研究的重要手段,在许多学科中几乎都起着积极的作用。统计中的试验设计是科学试验研究的组成部分之一 。 试验设计,包括五个相互关联的环节,分别是: 方案设计 方案实施 数据采集 数据分析 优化生产,(一)统计资料的直接收集,凡不是通过直接的统计调查和试验,而是从其他各种渠道搜集的第二手资料,我们把它总称为统计资料的间接收集。 间接资料的来源大体包括:统计年鉴、统计摘要、统计资料汇编、统
15、计台账、统计公告、报纸、杂志、网上资料等。,(一)统计资料的间接收集,二、收集资料的方法,数据资料的收集方法可以分为初级资料收集方法和次级资料收集方法或称文案资料。 初级资料收集方法 访问法 访问法是按所拟调查事项,有计划地通过访谈询问方式向被调查者提出问题,通过他们的回答来获得有关信息资料的方法。 按访问内容的传递方式不同,可分为: 面谈调查、电话调查、邮寄调查、留置调查、日记调查和网上调查等方法。,二、收集资料的方法,观测法 观测法是指调查者通过直接观测、跟踪和记录被调查者的情况来收集资料的种调查方法。 报告法 报告法是由报告单位根据原始记录和核算资料,按照统计机关颁发的统的表格和要求,按
16、定的报送程序提供资料的方法。 次级资料收集方法 次级资料又称二手资料,是指他人为了他自己的研究目的而调查、整理的资科。,统计的整个工作过程就是对数据的加工过程,从原始数据的收集开始,经过整理、显示、样本信息的获取到总体数量规律性的科学推断,都有一个减少误差、提高数据质量的问题。也就是说,统计数据的质量控制问题是贯穿于统计全过程的重要问题,因此,加强统计数据质量的管理要体现在统计研究的全过程。,三、统计数据的质量问题,主要任务,资料审核、分组、 汇总、制表、制图等。,分组,频数分布,统计表,统计图,第二节 统计数据整理,一、统计分组 统计分组是根据统计研究目的,将总体按一定标志区分为不同类型或不
17、同性质的组,使组与组之间有比较明显的差别,而在同一组内的单位具有相对的同质性,即同一组内各单位之间具有某些共同的特征。 (一) 统计分组原则 根据统计研究的目的选择分组标志 选择能够反映现象总体本质特征的标志 考虑现象所处的具体时间、地点、条件来分组 满足完备性、互斥性及一致性,第二节 统计数据整理,(二) 统计分组的方法 按标志的特征分组 总体单位的各个标志按分组标志的特征分组区分为品质标志和数量标志。 按分组标志数量分组 统计分组按分组标志多少不同,可分为简单分组和复合分组。,第二节 统计数据整理,第二节 统计数据整理,简单分组 简单分组是对研究对象按照一个标志进行的分组。例如某高校职工按
18、照性别或者职称进行的分组,如表2.2.1、2.2.2所示。,第二节 统计数据整理,复合分组 复合分组是对研究对象按两个或两个以上的标志层叠起来进行的分组。即先按一个标志进行分组,然后再按另一个标志在已分好的各个组内划分成若干个小组。例如企业职工按性别分组后,在每组内再按年龄分组,如表2.2.3所示 。,第二节 统计数据整理,(三) 统计分组体系 统计分组体系有两种:平行分组体系和复合分组体系,如图2.2.1、2.2.2所示。,(三) 统计分组体系,二、分布数列,将统计总体按某一标志分组后,用来反映总体单位在各组中分配情况的数列叫分配数列。分配在各组的总体单位数叫次数或频数。各组次数与总次数的比
19、值称为频率。 (一)分布数列的分类 根据分组标志的不同,分配数列可以分为品质分配数列和变量分配数列两种。,(一)分布数列的分类,品质数列 按品质标志分组所形成的分布数列称品质分布数列或属性分布数列,简称品质数列。它是由总体各组名称及各组总体单位数(次数)组成,如表2.2.4所示。,(一)分布数列的分类,变量数列 按数量标志分组形成的分布数列,称为变量分配数列,简称变量数列。它由各组变量值及各组总体单位数(次数)组成。 变量数列按照用以分组的变量的表现形式,可分为单项数列和组距数列两种。单项数列就是指以一个变量值代表一组而编制的变量数列,如表2.2.5所示。,确 定 组 数 k,找出 xmin
20、与 xmax,计 算 组 距 h,确定 每组 上下 限,将 相应 数据 归并到 各组,Xmin 最小值,xmax 最大值,(二)分布数列的编制,某校200个学生大学英语考试成绩的频数分布表,(二)分布数列的编制,组距数列的分类 组距数列可分为等距分组和异距分组。 等距分组即各组组距相等的分组。异距分组即各组组距不相等的分组。在标志值变动比较均匀的条件下,可采用等距分组。当标志值变动很不均匀,如急剧的增大、下降,变动幅度大时,可采用异距分组。 组数的确定 组距数列中组距的大小与组数的多少成反比。 组限和组中值 当组距、组数确定后,只需划分各组数量界限便可编制组距数列。,(二)分布数列的编制,(二
21、)分布数列的编制,组限和组中值 由于变量有离散型与连续型两种,因此,其组限的划分也有所不同。离散变量其变量值可以依次列举,而相邻组两个变量值之间没有中间数值,因此,分组时相邻组的组限必须间断。 连续变量由于其变量值不能依次列举,而且相邻两个变量值之间可以存在无限多的中间数值,因此,相邻组的上限和下限无法用两个确定的数值分别表示,这时相邻的上、下限采用重叠的方法分组界定。 在统计工作中,为保证变量的分组不发生混乱,习惯上规定各组一般均只包括本组下限变量值的单位,而不包括上限变量值的单位,这就是“上限不在内”原则。,(二)分布数列的编制,若按照间断式组限分组时,则需要转换成连续式组限后再计算组中值
22、,闭口组时采用上 (2.2.1) 式计算。,若按照间断式组限分组时,则需要转换成连续式组限后再计算组中值,闭口组时采用上 (2.2.1) 式计算,开口组时需要采用 (2.2.2) 式、 (2.2.3) 式以下近似算: 第一组为以下,缺少下限,则,组中值=组上限-下一组组距/2 (2.2.2) 最末组为以上,缺少上限,则 组中值=组下限+上一组组距/2 (2.2.3),(二)分布数列的编制,间断式组中值的计算事例如表2.2.6所示。,第三节 统计数据表现形式,一、统计表,(一) 统计表的结构,从形式上看,统计表的结构是由表题、横行标题、纵栏标题和指标数值等要素构成,统计表结构的一般形式如图2.4
23、.1所示。,(一) 统计表的结构,例:2001年我国工业增加值的一个统计表示如表2.3.1所示。,按照统计表的主词是否分组和分组的程度,分为简单表,分组表和复合表三种。 简单表 简单表是统计表的主词未经任何分组的统计表。 分组表 分组表指统计表的主词按某一标志进行分组。 复合表 复合表指统计表的主词按两个或两个以上标志进行复合分组,(二) 统计表的种类,二、统计图,条形图(Bar chart) 条形图常用于描述离散型数据的情况,是我们经常见到的一种图形,它是用宽度相等而高度为频数(率)来表示各类数据的大小。,例2.3.1 某高校2005年各院教师在国内核心杂志上发表论文情况,如表2.3.2所示
24、,条形图(Bar chart),解:由表2.3.2中的数据应用Excel软件中的“插入”功能中的“图表”功能绘成的条形图如图2.3.2所示。,直方图(Histogram),直方图表征数据的频数分布特征,它与条形图在形式上有类似之处,都是用条形来表示数据特征,但直方图中的条形之间是没有间隔的。,例2.3.2 某连锁企业2005年度各分公司完成销售计划如表2.3.3所示,试绘制直方图。,直方图(Histogram),解:应用Spss软件中的“Gragh”功能绘制的直方图,如图2.3.3所示。,饼分图(Pie chart),饼分图经常用来表示各成分在总体中所占的百分比。,例2.3.3 某课题组为了科
25、学评价某高校学科建设项目的绩效,对构建的学科建设绩效评估指标权重进行了问卷调查,累计发放问卷调查表243份,回收有效问卷223份,其中,教授占65%,研究员占1%,副教授占12%,副研究员占1%,讲师占20%,助教占1%,则样本职称分布如图2.3.4所示。,洛伦茨曲线是20世纪初美国经济学家、统计学家洛伦兹(M.E.Lorentz)绘制成的描述收入和财富分配性质的曲线,洛伦兹曲线如图2.3.5所示。,洛伦茨曲线,洛伦茨曲线,为了更准确地反映收入分配的变化程度,20世纪初意大利经济学家基尼(Gini)根据洛伦茨曲线,提出了计算收入分配公平程度的统计指标,称为基尼系数。其公式为:,联合国有关组织规
26、定:G小于0.2表示收入绝对平均,在0.20.3之间表示比较平均,在0.30.4之间表示相对合理,在0.40.5之间表示收入差距较大,大于0.6表示收入差距悬殊。基尼系数0.4为国际警戒线,超过了0.4则应采取措施缩小收入差距。,箱形图 (Boxplot),箱形图也称箱线图,是由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制的一个箱子和两条线段的图形。如图2.3.6所示。,箱形图 (Boxplot),不同箱形形状可反映出不同的分布特征,如图所示。,箱形图 (Boxplot),例2.3.4 2005年度某高校经济管理学科共有10篇博士学位论文需要评审,分别请该领域8位专家进行审稿,
27、论文得分数据如表2.3.4所示。,解:应用Spss软件中的“Gragh”功能绘制的各博士学位论文得分情况的箱形图,如图2.3.8所示。,箱形图 (Boxplot),图2.3.8 10篇博士学位论文得分的箱形图,第四节 统计数据特征描述,一、总量指标 总量指标是反映社会经济现象在一定时间、地点、条件下的总规模或总水平的统计指标。总量指标也称为绝对指标或绝对数。 (一) 社会总产品 社会总产品也称总产出。它是指一个国家或地区在一定时期(如一年)内全部生产活动的总成果,当以货币表现时,即为全部生产活动成果的价值总量。 (二) 增加值 增加值是企业或部门在一定时期(如一年)内从事生产经营活动所增加的价
28、值。它是总产出减去中间投入后的余额,因此,从价值构成看,它包括全部新创造的价值和物质消耗中本期固定资产折旧。,一、总量指标,(三) 国内生产总值(GDP) 国内生产总值是按市场价格计算的国内生产总值的简称。它是一个同家(或地区)所有常住单位在一定时期内生产活动的最终成果。 国内生产总值有三种表现形态,即价值形态、收入形态和产品形态。在实际核算中,国内生产总值的三种表现形态表现为三种计算方法,即生产法、收入法和支出法。 生产法 国内生产总值各部门增加值之和 (2.4.1) 增加值总产出一中间投入 (2.4.2) 收入法 增加值=固定资产折旧+劳动者报酬+生产税净额+营业盈余 (2.4.3) 支出
29、法 国内生产总值最终消费十资本形成总额十净出口 (2.4.4) 国民总收入国内生产总值十国外要素收人净额 (2.4.5) 国外要素收入净额=来自国外的劳动者报酬和财产收入国外从本国获得的劳动者报酬和财产收入 (2.4.6),一、总量指标,例2.4.1 如表2.4.1所示的国内生产总值及其使用表是国民经济核算体系中再生产核算表的重要组成部分,是张平衡表。该表从生产、分配、使用三个不同角度充分揭示了国内生产总值是衡量社会生产与使用的核心指标;它将国内生产总值的三种计算方法集中体现在一张表中,既可以从不同角度对国内生产总值指标进行观测分析,又保证了指标概念的完整性、逻辑关系的清晰性和技术方法的统一性
30、。,二、相对指标,相对指标又称相对数,它是两个有联系的指标数值对比的结果。用来对比的两个数,既可以是绝对数,也可以是平均数和相对数。 (一)计划完成相对指标,1根据总量指标计算计划完成相对指标 例2.4.2 设某工厂某年计划工业增加值为600万元,实际完成660万元,求增加值计划完成相对数。,二、相对指标,2根据平均指标计算计划完成相对指标 根据平均指标计算计划完成相对数的计算公式为:,二、相对指标,例2.4.3 某企业生产某产品,本年度计划单位成本降低9%,实际降低12%,求成本降低率计划完成相对数。,例2.4.4 某企业某月生产某产品,计划每人每日平均产量为36件,实际每人每日平均产量为3
31、9件,求劳动生产率计划完成相对数。,(二) 结构相对指标,总体是在同一性质基础上由各种有差异的部分所组成的。结构相对指标就是利用分组法,将总体区分为不同性质(即差异)的各部分,以部分数值与总体数值对比而得出比重或比率,来反映总体内部组成状况的综合指标。其计算公式为,例2.4.5 某公司男职工为员工总数的60,女职工为员工总数的40%,它反映了该公司在男女性别上的构成情况。,(三) 比较相对指标,比较相对致也称类比相对数,是将两个同类指标做静态对比得出的综合指标,表明同类现象在不同条件(如在各国、各地、各单位)下的数量对比关系。其计算公式为:,例2.4.6 某年有甲、乙两企业同时生产一种性能相同
32、的产品,甲企业工人劳动生产率为21776元,乙企业为30994元,求两企业劳动生产率比较相对数。,解:两企业劳动生产率比较相对指标=,(四) 比例相对指标,比例相对指标是将总体内某一部分数值与另一部分数值对比所得到的相对数,常用系数或倍数表示。计算公式为,例2.4.7 我国2003年国内生产总值为116898.4亿元,其中第产业为17092.1亿元,第二产业为61131.3亿元,第三产业为38675.0亿元,则 第产业生产总值:第二产业生产总值:第三产业生产总值1:3.6:2.3,(五) 强度相对指标,强度相对指标是两个性质不同,但有一定联系的总量指标对比的结果,用来表明现象的强度、密度和普通
33、程度的综合指标。 强度相对指标的计算,(五) 强度相对指标,例2.4.8 某地区占地10.2万平方公里,据统计2005年初和2005年底的人口分别为4216万人和4372万人,2005年国民收入总额为9768亿元,求2005年的人口密度、平均人口数、人均国民收入。,(五) 强度相对指标,强度相对指标的正逆指标,强度相对数是两个有联系的不同事物的总量指标数值的对比,因此,分子和分母可以互换,这就产生了有些强度相对数有正指标和逆指标两种,例2.4.9 某城市人口620万人,有大学66所,求大学密度正指标与大学密度负指标。,动态相对指标是同类指标在不同时期上的对比,其计算公式为,(五)动态相对指标,
34、式(2.4.12)中,作为对比标准的时期叫做基期,而同基期比较的时期叫做报告期,有时也称为计算期。动态相对数的计算结果用百分数或倍数表示。,三、平均指标,(一)算术平均数,简单算术平均数,(一)算术平均数,加权算术平均数,加权算术平均数的简略形式为:,(一) 算术平均数,例2.4.10 表2.4.2为某企业职工月平均工资的分组数据,试计算职工的月平均工资。,(二) 调和平均数,调和平均数也称“倒数平均数”,它是对变量的倒数求平均,然后再取倒数而得到的平均数,(三)几何平均数,简单几何平均数,例2.4.11 某高校自2001-2005年学生人数如表2.4.3所示,求该校平均发展速度。,解:,(三
35、)几何平均数,加权几何平均数,(三)几何平均数,例 2.4.12 某银行在过去15年中的年利率资料如表2.4.4所示,求15年的平均年利率。,解:用几何平均法求15年平均利率,(四) 中位数,中位数是将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数,用 表示。,未分组资料中位数的确定,例2.4.13 7名工人的日产量依次从小到大排列为16件、18件、22件、23件、26件、29件、31件;8名工人的日产量依次从小到大排列为16件、18件、22件、24件、26件、29件、31件、33件,分别求其中位数。 解:7名工人的日产量的中位数位次(用)为,(四) 中位数,8名工人的日
36、产量的中位数位次为,分组资料中位数的确定 下限公式(向上累计时)为,(四) 中位数,上限公式(向下累计时),(四) 中位数,例2.4.14 某车间共有工人130名,生产某种产品按日产量分组资料如表2.4.5所示,试确定该车间工人日产量的中位数。,例2.4.15 某高校某学院学生体重的数据资料如表2.4.6所示,计算该学院学生体重的中位数。,(四) 中位数,按下限公式计算:,按上限公式计算:,例2.4.15 计算,(五) 众数,众数是指总体中出现次数最多的标志值,它能够直观地说明客观现象分配中的集中趋势。 按单项数列确定众数 只须观测标志值出现的次数,把次数最多的组定为众数组,该组的标志值即为众
37、数。 按组距数列确定众数的方法,下限公式:,上限公式:,(五) 众数,(五) 众数,图-1,比较众数、中位数和算术平均数的相对位置,(六)各种平均数的适用范围及其相互关系,不同平均指标的适用范围 算术平均数易受极端变量值影响,使的代表性变小;当组距数列为开口组时,由于组中值不易确定,使的代表性变得不可靠。 几何平均数适用于各个变量值的连乘积等于其发展总速度时,求算其平均数;求等比数列的平均数。 众数适用于总体的单位数较多,各标志值的次数分配又有明显的集中趋势的的情况。 中位数属于位置平均数,它与众数一样,都是从数据位置的角度来反映数据的代表水平,中位数不受极端值的影响,各个变量值相对其中位数的
38、绝对离差之和为最小。,(六)各种平均数的适用范围及其相互关系,算术平均数、中位数和众数三者的关系,四、变异指标,标志变异指标是评价平均数代表性的依据,标志变异指标愈大,平均数代表性愈小;标志变异指标愈小,则平均数代表性愈大。 极差(range) 极差也称全距,是指总体分布中最大标志值与最小标志值之差,用以说明标志值变动范围的大小,通常用来表示,其计算公式为,极差(range),例2.4.16 某商场连续11天销售某品牌手机的数量分别为:22、36、43、12、31、52、42、20、35、26、33,求极差。 解:将销售数量由大到小排序为:12、20、22、26、31、33、35、36、42、
39、43、52,则极差为:,标准差(standard deviation)和方差(variance),由未分组数据资料计算 标准差是总体各单位标志值与平均数离差平方平均数的平方根,标准差的平方即为方差。 设从某个总体中抽取的数据为 , 则称,为样本标准差,为样本方差,标准差(standard deviation)和方差(variance),若某总体的全部元素就是 ,则称,为该总体的标准差,为该总体的方差,标准差(standard deviation)和方差(variance),由分组资料计算,例2.4.17 以例2.4.15中学生体重的样本资料,计算学生体重的方差与平均差。,例2.4.18 某高校
40、经济管理学院中的0401和0402两个班各有9名学生选修了管理预测与决策方法课程,考试成绩如表2.4.7所示,试计算各班管理预测与决策方法成绩的平均值和标准差。,解:根据表2.4.7的数据资料计算得,变异系数(coefficient of variation),离散系数是消除平均数影响后的标志变异指标,用来对两组数据的差异程度进行相对比较,其形式为相对数,因此,也称为标志变异相对数指标。常见的离散系数是标准差系数 。,变异系数(coefficient of variation),例2.4.19 某电器公司中的两个车间生产不同的产品,其中一车间生产手机,二车间生产MP3,某月两个车间产量的平均数
41、和标准差资料如表2.4.8所示,试分析两者标志的变异程度。,解:,五、偏度与峰度,偏度(Skewness) 偏度是用于衡量分布的不对称程度或偏斜程度的指标,峰度(Kurtosis),五、偏度与峰度,例2.4.20 根据例2.4.15中学生体重的样本资料,计算学生体重的峰度。,本章小节,统计资料的收集与整理是对数据的直接处理与分析,目的是计算数据的特征值、发现其数量规律性,进而用样本数据的特征值推断未知总体的参数。 统计调查方案的设计与统计资料的收集主要介绍如何用数据对客观事物进行计量,如何获得数据,以及对数据质量的评价。 统计整理是根据统计研究的目的,将调查所得到的资料进行科学地分组、汇总、表
42、现并对总体的数量特征加以描述,为统计分析准备系统的、条理化的综合资料的工作过程。 统计资料整理的结果可以用不同的形式表现,其中统计表和统计图是表现统计资料的常用形式。 最重要的数字描述性指标有两类,一类测量数据集的集中趋势(平均值、中位数和众数) ,另一类测量数据的变异性(极差和标准差 )。,第三章 抽样分布,第一节 随机样本 第二节 抽样分布 本章小节,主要内容,第一节 随机样本,在统计学中,我们研究的问题一般集中在研究对象的某一数量指标。 比如某型号的电子元器件的寿命、一批某种产品的合格率等。因而,需要考虑通过与这一数量指标相联系的随机试验,来对这一数量指标进行试验或观测。 我们将试验的全
43、部可能的观测值称为总体,每一个观测值称为个体,总体中所包含的个体数称为总体的容量。容量为有限的称为有限总体,否则称为无限总体。,3.1 关于抽样的基本概念,为什么要抽样? 为了收集必要的资料,对所研究对象(总体)的全部元素逐一进行观测,往往不很现实。,抽 样 原因,元素多,搜集数据费 时、费用大,不及时而 使所得的数据无意义,总体庞大,难以对总体的全部元素进行研究,检查具有破坏性,炮弹、灯管、砖等,第一节 随机样本,简单随机抽样(x1, x2, xn): 简单随机抽样是指从总体中抽取样本容量为n 的样本时,x1, x2, xn这n个随机变量必须具备以下两个条件: 这n个随机变量与总体X具有相同
44、的概率分布; 它们之间相互独立。,第一节 随机样本,甲乙丙丁四个生产商,其产品质量如下表所示: 如果仅从AB两个生产商的产品中进行抽样,抽样质量就偏高;如果仅从CD两个生产商的产品中进行抽样,抽样质量就偏低; 因此采用简单随机抽样保证随机样本与总体具有相同的概率分布。,样本统计量与抽样分布: 在简单随机抽样中,样本具有随机性,样本的参数 ,s2等也会随着样本不同而不同,故它们是样本的函数,记为g(x1, x2, xn),称为样本统计量。 统计量的概率分布称为抽样分布(Sample distribution),3.1 关于抽样的基本概念,第一节 随机样本,3.1 关于抽样的基本概念,第二节 抽样
45、分布,一、 统计量 定义 不含有任何未知参数的样本的函数,称为统计量 。显然,统计量为随机变量。 几个常用统计量 样本矩(样本均值;样本方差;原点矩,中心矩等),几个常用统计量,二、几个常用的抽样分布,抽样分布的定义 统计量的分布称为抽样分布。 来自正态总体的几个常用统计量的分布,已有一些重要的结果(人们已经获得这些统计量的具体的分布密度函数)。下面介绍来自正态总体的几个常用统计量的分布。,第二节 抽样分布,几 种 概 率 分 布,正态分布,分布,F分布,t分布,几种与正态分布有关的概率分布,若随机变量X的概率密度函数,记为,1. 正态分布,图4-1,一般正态分布,1. 正态分布,标准正态分布
46、: 当 时, 记为UN(0,1),图3-1,标准正态分布,1. 正态分布,非标准正态分布向标准正态分布的转化 若 标准化因子 则UN(0,1),1. 正态分布,查表 当u大于零时,可查正态分布表 但如果u0时,则可由式(-u)=1-(u)求出,1. 正态分布,线性性质: 如果 , 且相互独立。对于常数 ,有下式成立:,1. 正态分布,2. 分布,设 是来自总体 的样本,则称统计量 为服从自由度为 的 分布,记为 的一个重要性质:可加性,图3-2,2分布图,2. 分布,查表: 对于给定的,01,可在 分布表中查得,即 例如 即指,2. 分布,设 , ,且设 与 独立,则称统计量 为服从自由度为
47、的 分布,记为 。 可以证明,当 充分大时, 分布趋向于标准正态分布。,3. 分布,图3-3,n=正态分布 n=10 n=1,t分布图,3. t分布(Students 分布),查表 或 性质: 当n很大时, 此时,t/2u/2,t分布近似标准正态分布。,3. t分布(Students 分布),4. 分布,设 ,且设 独立,则称随机变量 为服从自由度为 的分布,记为 分布的上 分位点满足下列关系:,图3-4,F分布图,F,4. F 分布,有限总体 有限总体若采取有放回抽样,则与无限总体等价。有限总体容量为N而采取无放回抽样,且n/N0.1,仍可视为无限总体,而当n/N0.1时则 称式 为有限总体
48、的修正系数 。,4.3 样本平均数的抽样分布,5. 基于正态总体样本的均值与方差的分布,从总体中抽取样本容量为n的简单随机样本,当样本容量 n 30时,样本均值 的抽样分布可用正态概率分布近似。,中心极限定理,5. 基于正态总体样本的均值与方差的分布,(四)基于正态总体样本的均值与方差的分布,设 来自正态总体 的样本, 分别为样本的均值和方差。则,设 为来自正态总体 的样本, 为来自正态总体 的样本 , 分别为两个样本的均值和方差。则 当 时,则,三、 样本比例的抽样分布,(一)重复抽样下样本比例的抽样分布 可以证明, (二)不重复抽样下样本比例的抽样分布 可以证明,,本章小结,统计量是统计推断的基本变量。统计量是不含有任何未知参数的样本的函数。 统计量的分布称为抽样分布。 对于正态总体,我们给出了几个常用的统计量的分布。 对于实际应用中的比率问题,给出了大样本下的抽样分布。,思考题,思考题,思考题,案例讨论题,在1936年的美国总统选举中有两位候选人,即民主党候选人罗斯福(F.D.Roosevelt)和共和党候选人兰登(G.A.London)。