1、第一章第一章 绪绪 论论目 录“统计统计”一词的渊源及其含义一词的渊源及其含义123 统计学的产生与发展统计学的产生与发展 统计学的性质和特点统计学的性质和特点 统计学的内容和一些基本概念统计学的内容和一些基本概念 4第一节“统计”一词的渊源及其含义“统计”(statistics)一词最早出现于德语“statistik”,由德国马尔堡和哥丁根大学教授阿痕瓦尔(Gottfried Achenwall,17191772)提出,它源于中世界拉丁语的“status”,意思是各种现象的状态和状况。我国古代就有“统计”一词,但并非现在的含义,而是“总计、合计”之意。具有现代意义的“统计”一词,是20世纪初
2、随着大批留日学生回国,从日本流传过来的。第一节“统计”一词的渊源及其含义 现代的“统计”一词通常包括统计活动、统计资料和统计科学三种含义。(1)统计活动是指人们根据一定的目的、采用相应的统计方法收集资料、整理资料和分析资料的工作过程。(2)统计资料是统计活动的最终成果(3)统计学则是一门指导统计工作的方法论科学,是统计活动的经验总结。三者关系为:统计学与统计工作之间的关系是理论与实践的关系,统计资料则是统计工作的成果。第二节统计学的产生与发展一、统计活动的产生与发展一、统计活动的产生与发展 统计活动是适应人类社会实践活动的需要而产生和发展起来的。原始社会末期,随着国家的产生逐渐产生了一种为全社
3、会所需要的、共同一致的、具有某种总体特性的记数活动统计。人类社会初期的统计活动是简单和松散的,这种活动在各国的史书中都有记载。封建社会,统计活动与政治有了密切联系,各国历代封建统治者为了利用统计来加强封建统治、稳定社会秩序,广泛进行了有关人口、军队、世袭领地、财产等方面的统计。到了资本主义社会,统计活动有了迅速的发展,除了人口、土地和财产等统计,还建立了工业、农业、商业、对外经贸、银行、保险、交通、邮电和海关等专业统计。与此同时,各国普遍建立起专业的统计制度和统计机构,统计活动也演变为一种专业。第二节统计学的产生与发展二、统计学的形成与发展现状二、统计学的形成与发展现状(一一)古典统计学古典统
4、计学 1.以文字表述来比较各国显著事项的学派国势学 2.以数量分析来研究各国的国情国力的学派政治算术 3.从赌博数学发展起来的概率论第二节统计学的产生与发展(二二)近代统计学近代统计学 1.社会统计学 2.数理统计学(三三)现代统计学现代统计学 20世纪,活跃于各个领域的应用统计学有了长足的发展,比如,经济统计学中就产生了洛伦兹(Lorenz curve)曲线、经济时间序列分析、经济预测方法。第二节统计学的产生与发展三、我国统计学术体系的形成与发展三、我国统计学术体系的形成与发展 最早把统计学引入我国的是日本旧社会统计学派的学者横山雅男。我国最早接触描述统计的是北洋政府专门学校的顾澄教授,他于
5、1913年翻译出版了描述统计学经济学派后期代表人物犹尔的统计学原理。20世纪30年代后至新中国成立止,介绍描述统计学的著作共出版发行了79部,其中较有影响的有金国宝的统计学大纲、陈善林的统计学、朱君毅的统计学概要等。我国最早接受推断统计学的是我国第一批“庚子赔款”留学生许宝騄、徐钟济和唐培经,留美学生魏宗舒以及焦仲只、王寿仁等人。20世纪80年代后,数理统计和经济统计的学者交流越来越多,在许多方面达成了共识,并在许多课题研究中进行了合作,取得了可喜的成果。第三节统计学的性质和特点一、统计学的性质一、统计学的性质(1)承认存在两门统计学,即数理统计学和社会经济统计学,它们的性质各有明确的定义,也
6、有着截然不同的适用范围。规律派。统计方法论。(2)唯数理统计论。(3)“大统计”学科概念。第三节统计学的性质和特点二、统计学研究的特点二、统计学研究的特点(一一)从研究对象来看从研究对象来看,它研究客观事物的数量方面它研究客观事物的数量方面(二二)从研究方法来看从研究方法来看,它强调对客观事物总体进行大量观察它强调对客观事物总体进行大量观察,通过归纳推通过归纳推理以获得总体数量方面的综合性认识理以获得总体数量方面的综合性认识(三三)从学科体系来看从学科体系来看,统计学是一门多科性的科学统计学是一门多科性的科学,是一个学科是一个学科“家族家族”第四节统计学的内容和一些基本概念一、统计学的内容一、
7、统计学的内容(一一)描述统计描述统计 描述统计是来描绘或总结观察量的基本情况的统计方法。描述统计的内容包括统计数据的收集、数据的加工处理、数据的显示、数据分布的特征概括等。通常会使用的工具是频数分布表(frequency distribution table)与图示法,如多边图(polygon)、直方图(histogram,bar chart)、圆形图(pie chart)、散点图(scatter plot)等。数据的次数分配往往会呈现正态分布。为了表示测量数据与常态分配偏离的情况,会使用偏态(skewness)、峰度(kurtosis)这两种统计数据。第四节统计学的内容和一些基本概念(二二)
8、推断统计推断统计 推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计与推断统计紧密联系,描述统计是推断统计的前提,推断统计是描述统计的发展。推断统计依照总体条件的差异性又可分为参数统计(parametric statistics)和非参数统计(nonparametric statistics)。其中参数统计是指总体呈正态分布(normal distribution)的统计推断方法;其他所有应用于非正态分布总体的统计推断方法,都称为非参数统计。第四节统计学的内容和一些基本概念二、统计学的一些基本概念二、统计学的一些基本概念(一一)统计总体和总体单位统计总体和
9、总体单位 统计总体(population)简称总体,是统计研究所确定的客观对象。它是根据一定的研究目的,在同质基础上,由客观存在的许多个别单位组成的一个整体。总体单位(unit)又称个体,是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。第四节统计学的内容和一些基本概念(二二)指标指标 指标(indicator或index)全称统计指标,是综合反映统计总体某一方面数量特征的概念和数值。任何一个统计指标一定是抽象的指标概念和具体的指标数值的结合。指标概念的内涵是对总体本质特征的一种抽象和概括,体现了对总体“质”的规定性,它在规定总体某一方面数
10、量特征的理论指导下界定了指标概念的外延:指标的核算范围、计算方法和计量单位。指标数值是指标在一定时间和对象范围下具体的数量表现。第四节统计学的内容和一些基本概念(三三)变量变量 变量(variable)是标志的具体表现或指标的具体数值,如职工人数、年龄、工资,国内生产总值、销售总值、固定资产投资总额等。在数学中,定量变量就是变量,任意一个变量可以有一系列的取值,一般可用X、Y、Z来表示。1.变量按其影响因素不同,分为确定性变量和随机性变量 2.变量按其数值形式不同,分为离散型变量和连续型变量第二章第二章 统计调查统计调查目 录 统计调查的概念与分类统计调查的概念与分类 123我国统计数据调查的
11、组织形式我国统计数据调查的组织形式统计调查误差统计调查误差统计调查方案统计调查方案 4第一节统计调查的概念与分类一、统计调查的概念一、统计调查的概念 统计调查(statistical investigation),是指按照统计研究的目的和任务,运用科学的调查方法,有组织、有计划地针对客观现象收集统计资料的工作过程。统计调查所收集到的资料可分为两种:一种是原始资料(original data),又称初级资料(primary data),另一种是次级资料(secondary data),又称二手资料(secondhand data)。二、统计调查的分类二、统计调查的分类 1.按调查对象所包括的范围
12、,统计调查可分为全面调查和非全面调查 2.按登记的时间是否连续,统计调查可分为经常性调查和一次性调查第一节统计调查的概念与分类三、统计调查的方法三、统计调查的方法(一一)直接观察法直接观察法(二二)采访法采访法(三三)试验法试验法(四四)问卷法问卷法(五五)报告法报告法第二节我国统计数据调查的组织形式一、统计报表制度一、统计报表制度(一一)统计报表制度的概念统计报表制度的概念 统计报表制度是指由政府主管部门以统计表格形式和行政手段自上而下布置,尔后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。其中,以表格形式反映企事业单位生产经营情
13、况的书面报告,称为统计报表(forms for reporting statistics)。第二节我国统计数据调查的组织形式(二二)我国现行的国家统计报表制度我国现行的国家统计报表制度 我国现行的国家统计报表制度由国家统计局制定,或者由国家统计局和国务院有关部门共同制定。目的是用于收集国民经济、社会和科技发展情况,便于政府管理。国家统计报表制度是各级国家统计部门实施国家统计调查项目的业务工作方案。第二节我国统计数据调查的组织形式(三三)我国报表制度的分类我国报表制度的分类 1.按制定颁发的单位不同划分(1)国家统计报表制度(2)部门统计报表制度(3)地方统计报表制度 2.按调查时间划分(1)周
14、期性普查制度。(2)经常性调查。(3)非经常性调查。第二节我国统计数据调查的组织形式二、统计报表二、统计报表 我国统计表的报送介质包括表格、问卷、电信(电报、电话、传真等)、磁盘磁带、网络通信(网络表格、电子邮件等)等,数据形式有数字、文字和混合形式。统计报表一般可由报表目录、表式和填表说明组成。(一一)报表目录报表目录(二二)表式表式(三三)填表说明填表说明(1)填表范围,指报表的实施范围;(2)统计目录,统计报表主栏项目的一览表;(3)指标解释,指标概念的内涵、外延、计算方法、计量单位等。第二节我国统计数据调查的组织形式三、抽样调查三、抽样调查(一一)随机抽样随机抽样 1.简单随机抽样 2
15、.等距抽样 3.分层抽样 4.整群抽样(二二)非随机抽样非随机抽样 1.方便抽样 2.判断抽样 3.定额抽样 4.滚雪球抽样第三节统计调查误差一、统计调查误差的来源和分类一、统计调查误差的来源和分类 统计调查所得到的资料与现象总体在某一方面的数量特征的现实情况必定会存在一定的差距,这种差距称为数据收集误差,又称统计调查误差,简称统计误差(statistical error)。一般来说,这种误差有两种:一种叫登记性误差(register error);另一种叫代表性误差(typical error)。代表性误差按照其产生原因又分为两种,即系统性误差(systematic error)和抽样误差(
16、sample error)。登记性误差和系统性误差的产生原因如下:1.由于某些主观因素人为造成的数据重复或遗漏 2.由于客观因素,如计算机病毒、停电、运输保存设备故障等所造成的误差第三节统计调查误差二、统计调查误差的测定二、统计调查误差的测定 调查误差有两种测度,即总误差率(gross error ratio)和净误差率(net error ratio)。总误差率是指实际错误的回答被统计为正确的回答与正确的回答被统计为错误的回答共同产生的误差占全部回答的比率;净误差率则是实际正确的回答与统计中被当做正确的回答的差占全部回答的比率。第四节统计调查方案一、统计调查方案的主要内容一、统计调查方案的主
17、要内容 一项计划周密、体系完整、结构合理的统计调查方案应包括以下内容:(一一)调查目的调查目的(二二)调查对象调查对象(三三)调查提纲调查提纲(四四)调查时间调查时间(五五)调查的组织计划调查的组织计划第四节统计调查方案二、调查表与问卷设计二、调查表与问卷设计(一一)调查表调查表 调查表是用于登记调查单位具体特征和情况的表格,以便填写和登记反映调查单位某些方面的数量特征的有关标志和项目。调查表按其调查单位的多少和调查项目的多少,可分为单一表和一览表两种形式。(二二)问卷设计问卷设计 问卷设计的程序包括前期调查、初步设计、使用问卷和修订问卷等。按问卷的填写方式,问卷可分为自填式和访问式。问卷一般
18、由说明词、指导语、调查内容和编码四部分组成。第三章第三章 统计数据处理统计数据处理目 录统计数据的含义及其层次尺度统计数据的含义及其层次尺度123统计数据处理的概念和内容统计数据处理的概念和内容统计数据分组统计数据分组频数分布频数分布 45统计表与统计图统计表与统计图第一节统计数据的含义及其层次尺度一、统计数据的含义与分类一、统计数据的含义与分类(一一)统计数据的含义统计数据的含义 统计数据(statistical data)简称数据(data),是变量(包括定性和定量变量)的取值,也就是说,统计数据是对所研究对象的属性和特征的具体描述,包括定性变量的文字描述和定量变量的数字描述。第一节统计数
19、据的含义及其层次尺度(二二)统计数据的分类统计数据的分类 1.按其时空形态分类(1)时间序列数据(time series data)。(2)截面数据(crosssectional data)。(3)面板数据(panel data)。2.按其内在性质分类(1)定性数据(qualitative)(2)定量数据(quantitative)第一节统计数据的含义及其层次尺度二、统计数据的尺度及其层次类型二、统计数据的尺度及其层次类型(一一)确定统计数据尺度的原则确定统计数据尺度的原则(1)互斥原则。(2)穷尽原则。(二二)统计数据的尺度统计数据的尺度 1.定类尺度(nominal scale)2.定序尺
20、度(ordinal scale)3.定距尺度(interval scale)4.定比尺度(ratio scale)第一节统计数据的含义及其层次尺度(三三)统计数据测度的层次类型统计数据测度的层次类型 1.定类数据 2.定序数据 3.定距数据 4.定比数据第一节统计数据的含义及其层次尺度(四四)四类层次测定数据的比较四类层次测定数据的比较第一节统计数据的含义及其层次尺度三、统计数据质量三、统计数据质量(一一)统计数据的内容质量统计数据的内容质量 1.相关性 2.准确性 3.及时性(二二)统计数据的表述质量统计数据的表述质量 1.可比性 2.可衔接性 3.可理解性(三三)统计数据的约束标准统计数据
21、的约束标准 1.可取得性 2.有效性 第二节统计数据处理的概念和内容一、统计数据处理的概念和作用一、统计数据处理的概念和作用 统计数据处理(data processing)是根据统计研究的目的和要求,对统计调查所得到的资料进行审核、分组、汇总,使之系统化、条理化,形成能反映总体综合特征的数据资料的工作过程。统计整理的资料包括原始资料和次级资料两个方面。统计数据处理的作用是重要的,统计数据处理方法的好坏将会影响统计数据处理的质量。因为,统计数据处理的质量不仅直接关系到调查资料能否发挥其应有的作用,也直接影响统计分析能否得出正确的结论。不恰当的加工处理、不完善的处理方法,往往会使调查取得的丰富、完
22、备的资料失去价值,甚至掩盖事实的真相,进而得出错误的结论。第二节统计数据处理的概念和内容二、统计数据处理的内容二、统计数据处理的内容(一一)审核和检查原始资料审核和检查原始资料(1)逻辑检查(2)比较审核(3)设置疑问框(二二)修正统计数据的调查误差修正统计数据的调查误差 经检查发现有误差的数据,如重复、遗漏或出现异常数据等,就要采取删除、增补和剔除的方式进行处理。其中遗漏数据的处理较为复杂,一般可通过转嫁错误(imputation),采取分配(allocation)或替代(substitution)的方法增补。第二节统计数据处理的概念和内容(三三)编制统计数据处理方案编制统计数据处理方案 1
23、.拟订汇总的指标和汇总表 2.决定分组方法 3.选择汇总的方式 4.确定资料审核的方法和内容(四四)处理次级资料处理次级资料 次级资料是以前调查取得的并已经加工处理过的现有资料。在统计数据处理、加工的时候必须注意以下问题:(1)对所需用的资料进行评价。(2)对所需用的资料进行甄别,如果资料经过评价,能够满足需要,就要甄别这些资料,看看哪些可用、哪些不可用,哪些可以直接引用、哪些需要经过再加工后才能引用,哪些需要剔除、哪些需要补充、哪些需要调整。(3)选用适当再加工方法。第三节统计数据分组一、统计数据分组的概念和作用一、统计数据分组的概念和作用 统计数据分组(data classificatio
24、n;grouping)是一种在定性基础上的定量分析方法,它是根据研 鉴于统计分组的这个特点,在统计研究中,它有以下三个作用:(一一)划分社会经济现象的类型划分社会经济现象的类型(二二)揭示社会经济现象总体的内部结构揭示社会经济现象总体的内部结构(三三)揭示社会经济现象之间的依存关系揭示社会经济现象之间的依存关系第三节统计数据分组二、分组变量的选择与分组形式二、分组变量的选择与分组形式(一一)正确选择分组变量的原则正确选择分组变量的原则 1.根据统计研究的目的与任务来选择分组变量 2.选择能反映现象本质和主要特征的变量 3.结合历史条件、地点条件和具体的情况来选择分组变量(二二)统计分组的类型统
25、计分组的类型 1.按分组变量的性质不同,分为定性变量分组和定量变量分组 2.按选择分组变量的个数不同,分为简单分组、复合分组和分组体系第三节统计数据分组(三三)常见的国民经济标准分类常见的国民经济标准分类 不同国家大多根据自己国家的实际情况在参照国际标准的基础上制定颁布本国的分类标准。1.三次产业划分 2.机构部门分类 3.行业分类 4.职业分类 5.经济类型分类第三节统计数据分组二、分组变量的选择与分组形式二、分组变量的选择与分组形式(一一)正确选择分组变量的原则正确选择分组变量的原则 1.根据统计研究的目的与任务来选择分组变量 2.选择能反映现象本质和主要特征的变量 3.结合历史条件、地点
26、条件和具体的情况来选择分组变量(二二)统计分组的类型统计分组的类型 1.按分组变量的性质不同,分为定性变量分组和定量变量分组 2.按选择分组变量的个数不同,分为简单分组、复合分组和分组体系第四节频数分布一、频数分布的概念一、频数分布的概念 把总体按某一变量分组,列出该变量所表现的数据在各组出现的次数,所形成的数列叫做分配数列或分布数列。通过分配数列可以说明总体各单位在各组的分配情况,所以分配数列又叫做次数分布。被分配在各组的单位“次数”在统计上被称做“频数”(frequency),因此次数分布也可以叫做频数分布(frequency distribution)。第四节频数分布二、频数分布的类型二
27、、频数分布的类型(一一)定性变量分布定性变量分布(二二)定量变量分布定量变量分布 1.单项数列 2.组距数列第五节统计表与统计图一、统计表一、统计表 把经过分组、汇总的数字资料按一定的循序在表格上反映出来,这种表格叫做统计表(statistical table)。从形式上看,统计表是一张由纵横交叉的直线、左右两边不封口所组成的表格。从内容上看,统计表由四部分组成:(1)总标题。(2)横行标目。(3)纵栏标目。(4)数字资料。第五节统计表与统计图二、统计图二、统计图 统计图(statistical graph or cartogram)是展示数据特征的另一种形式。(一一)饼图饼图(二二)茎叶图茎
28、叶图(三三)散点图散点图第四章数据描述性分析第四章数据描述性分析目 录数据总量描述数据总量描述123数据相对量描述数据相对量描述数据分布集中趋势的特征描述数据分布集中趋势的特征描述数据分布离散趋势的特征描述数据分布离散趋势的特征描述45数据分布偏度和峰度的特征描述数据分布偏度和峰度的特征描述第一节数据总量描述一、数据总量的分类一、数据总量的分类(一一)按数据反映总体的内容分类按数据反映总体的内容分类 1.总体单位总数 2.总体数据总量(二二)按数据反映总体的时间特征分类按数据反映总体的时间特征分类 1.时期总量 2.时点总量第一节数据总量描述(三三)按计量单位分类按计量单位分类 1.实物总量
29、2.价值总量 3.劳动总量(四四)按数据所表示的事物的性质与特点分类按数据所表示的事物的性质与特点分类(1)经济流量(flow)(2)经济存量(stock)第一节数据总量描述二、数据总量的计算和运用二、数据总量的计算和运用(一一)数据总量的统计方法数据总量的统计方法 数据总量是通过全面调查登记,采用直接计数、点数或测量等方法,逐步计算汇总得出的。数据总量的计算方法比较简单,但计算内容却相当复杂,涉及一定历史条件下现象的规模和水平。因此,数据总量的计算并不是一个单纯技术性的加总问题,必须在正确规定数据总量所反映现象的概念、构成和计算范围的基础上,确定科学的计算方法进行计算汇总,取得能真实反映现象
30、的结果。第一节数据总量描述(二二)总和记法及求和规则总和记法及求和规则 数据求和的规则或公式如下:(1)设X和Y是两个变量,则两个变量之值的和的总和,等于每个变量之值的总和,即:(Xi+Yi)=Xi+Yi同理,可以证明两个变量之值之差的总和,等于每个变量之值的总和之差,即:(Xi-Yi)=(X1-Y1)+(X2-Y2)+(Xn-Yn)=Xi-Yi依据上述结论可以推广到若干个变量之值的总和,即:(Xi+Yi-Zi)=Xi+Yi-Zi(2)某一变量乘以常数a后求的总和,等于该变量值的总和乘以常数a,即:(aXi)=aX1+aX2+aXn=a(X1+X2+Xn)=aXi(3)假设进行n次观测,每次所
31、得的观测值为同一常数,则n次观测值的总和等于n乘以该常数,即:a=a+a+a=a(1+1+1)=an第二节数据相对量描述一、数据相对量的概念一、数据相对量的概念 数据相对量(relative quantity),又称相对指标,是把两个相互有联系的指标进行对比,以反映现象在某一方面的数量特征或属性的相对变化或对比关系的指标,形式上表现为相对数(relative)。数据相对量的计量单位有两种:(1)不用文字表述的无名数,包括成数(quotients)、系数(coefficient;ratio;modulus;quotients)和倍数(scale)、百分数(percentage)、千分数。(2)用
32、文字表述的有名数,又称复名数,是将对比的分子分母的计量单位对比形成的结果,当对比的结果反映的是现象的强度、密度、普遍程度时一般应采用复名数。第二节数据相对量描述二、数据相对量的测度二、数据相对量的测度(一一)计划完成相对数计划完成相对数(二二)结构相对数结构相对数(三三)比例相对数比例相对数(四四)比较相对数比较相对数(五五)强度相对数强度相对数(六六)动态相对数动态相对数第二节数据相对量描述三、计算和应用数据相对量时应注意的问题三、计算和应用数据相对量时应注意的问题(一一)必须注意分子分母的可比性必须注意分子分母的可比性(二二)必须同数据总量结合起来运用必须同数据总量结合起来运用(三三)要把
33、各种数据相对量结合起来运用要把各种数据相对量结合起来运用第三节数据分布集中趋势的特征描述一、数据分布集中趋势特征描述的含义一、数据分布集中趋势特征描述的含义 集中趋势(central tendency)是描述数据分布的一个重要的特征数,指一组数据向某一中心值靠拢的程度,反映了一组数据的平均水平、中等水平和代表水平,显示了数据中心点的位置所在。数据分布集中趋势特征描述的测度就是寻找数据的代表值或中心值,常用来表示数据分布集中趋向的特征描述的测度有算术平均数、几何平均数、中位数、众数等。其中,算术平均数、几何平均数属于高层次数据分布的集中趋势测度,中位数、众数属于低层次数据分布的集中趋势测度。第三
34、节数据分布集中趋势的特征描述二、数据分布集中趋势特征描述的测度二、数据分布集中趋势特征描述的测度(一一)算术平均数算术平均数(二二)几何平均数几何平均数(三三)调和平均数调和平均数(四四)平方平均数平方平均数(五五)众数众数(六六)中位数中位数第三节数据分布集中趋势的特征描述三、算术平均数、中位数、众数的关系三、算术平均数、中位数、众数的关系 算术平均数、中位数、众数都是描述数据分布集中趋势的特征值,但它们之间既有联系,也有区别。(1)算术平均数包含的信息最多、最丰富,当分布比较规则、不存在极端值时,算术平均数描述集中趋势最合适。但算术平均数易受极端值的影响,而中位数和众数则不受极端值的影响。
35、(2)根据算术平均数、中位数、众数三者的数量关系可判别次数分布的具体形态。(3)根据黄金分割的原理,三者之间的数量关系为:众数到中位数的距离两倍于中位数到算术平均数的距离,即Me-Mo=2(-Me)。(4)算术平均数适用于定距数据或定比数据,中位数适用于定序数据,众数适用于定性数据。第三节数据分布集中趋势的特征描述 算术平均数、中位数、众数三者之间的关系如图所示:图4-3 算术平均数、中位数、众数三者之间的关系第四节数据分布离散趋势的特征描述一、数据分布离散趋势特征描述的含义和作用一、数据分布离散趋势特征描述的含义和作用 数据分布离散趋势的特征描述有两个重要的作用:数据分布离散(dispers
36、ion)趋势(或离中趋势)的特征描述,是说明数据间的差异程度的指标,反映了所有数据偏离中心位置的差异程度。(1)它是评价数据分布集中趋势的特征描述代表性大小的尺度。(2)反映现象的均衡性和稳定性。第四节数据分布离散趋势的特征描述二、数据分布离散趋势特征描述的测度二、数据分布离散趋势特征描述的测度(一一)全距全距(二二)平均差平均差(三三)标准差和方差标准差和方差(四四)离散系数离散系数第五节数据分布偏度和峰度的特征描述一、原点矩和中心矩一、原点矩和中心矩设k为正整数,c为任何实数,则称为变量x对c的k阶矩,或叫k阶动差。若c=0,叫做k阶原点矩(moment about the origin)
37、;若c=,则称为k阶中心矩(moment about the mean)。第五节数据分布偏度和峰度的特征描述二、偏度的测定二、偏度的测定 所谓偏度(degree of skewness),是指次数分布的非对称程度。偏度通常分为右偏(或正偏positively skewed)和左偏(或负偏negatively skewed)两种,它们是与对称分布(symmetrical distribution)相对而言的。第五节数据分布偏度和峰度的特征描述三、峰度的测定三、峰度的测定 所谓峰度(kurtosis),是指次数分布曲线顶峰的尖锐程度。与正态分布(第五章介绍)曲线相比较,次数分布曲线的峰度通常分为三
38、种:正态峰度(masochistic)、尖顶峰度(leptokurtic)和平顶峰度(platykurtic)。图4-4的取值与数据分布的峰态的关系第五节数据分布偏度和峰度的特征描述四、切比雪夫定理与经验法则四、切比雪夫定理与经验法则(一一)切比雪夫切比雪夫(Chebyshev)(Chebyshev)定理定理第五节数据分布偏度和峰度的特征描述图4-5切贝雪夫定理数据分布图第五节数据分布偏度和峰度的特征描述(二二)经验法则经验法则第五节数据分布偏度和峰度的特征描述 图4-6经验法则数据分布图第五章第五章概率论基础概率论基础目 录随机试验和随机事件随机试验和随机事件123概概 率率随机变量随机变量
39、随机变量的分布随机变量的分布45大数定律和中心极限定理大数定律和中心极限定理 第一节随机试验和随机事件一、随机试验一、随机试验 概率论正是研究随机现象规律性的一门科学。为了研究随机现象,就要对客观事物进行观察,观察的过程叫试验。概率论中所说的试验是指随机试验(random experiments),它具有下列三个特性:(1)可在相同的条件下重复进行;(2)每次试验的结果具有多种可能性,并且试验所有可能的结果是事先已知的;(3)每次试验之前,不能肯定将会出现哪个结果。第一节随机试验和随机事件二、随机事件二、随机事件 随机试验每一个可能的结果称为随机事件(random event),简称事件。因为
40、在一次试验中,既可能出现这个结果,也可能出现那个结果,所以指定的某个随机事件可能发生,也可能不发生。在随机事件中,有些事件是不能分解为其他事件的组合,这种最简单的随机事件称为基本事件。在每次试验中,必定出现的结果称为必然事件,必定不出现的结果称为不可能事件。第二节概率一、概率的定义一、概率的定义(一一)概率的古典定义概率的古典定义 人们最早研究概率是从掷硬币、掷骰子和摸球之类的游戏和赌博中开始的,这类游戏有两个共同的特点:第一,试验的样本空间元素有限。如掷硬币有正反两种结果,掷一枚骰子有6种可能结果。第二,试验中每个结果出现的可能性相同。如掷硬币出现正反的可能性各为1/2,掷骰子出现各种点数的
41、可能均为1/6。具有这种特点的随机试验称为古典概型。计算古典概型概率的方法称为概率的古典定义或古典概率。由于样本空间有限,总能够运用逻辑推理方法在试验之前推出各种事件的概率,因此古典概率(classical probability)也称为验前概率或逻辑概率。第二节概率(二二)概率的统计定义概率的统计定义 定义在同一条件下重复进行n次试验,当试验次数n充分大时,事件A发生的频率 fn(A)=(随试验次数而变化)趋向于某一数值p或稳定地在p值附近波动(0p1),则定义p为事体A发生的概率,记作 P(A)=limfn(A)=需要说明的是,频率是大量试验的结果,它是一个随着试验次数变化而变化的数值,而
42、概率是一个确定的数值。频率随着试验次数的无限增加,以一种趋势无限接近概率。第二节概率(三三)主观概率的定义主观概率的定义 定义在不确定性条件下,观察者主观性判断某事件发生的可能性称为主观概率(subjective probability)。主观概率有两个特点:一是由于主观概率直接依赖于观察者,因此对于同一事件,不同的人可能给出不同的概率,但这并不是说主观概率可以随意确定,它应该是以有理智决策人的经验为根据的;二是由于主观概率有赖于个人判断能力,因而前人的经验、自己的知识及其对事件的分析都是作出判断的根据。第二节概率(四四)概率的公理化定义概率的公理化定义随机事件发生可能性大小的度量,用P(A)
43、表示。按照频率的规律性,可概括出如下概率的公理:1.对于任一随机事件A,0P(A)1(非负性)2.P()=1,P()=0(规范性)3.若A1,A2,An是互不相容的随机事件,则:P(A1A2An)=P(A1)+P(A2)+P(An)(可加性)推论1对任何事件A,有P()=1-P(A)。推论2P(AB)=P(A)+P(B)-P(AB),当AB=时,P(AB)=P(A)+P(B)。推论3若A1,A2,An构成完备事件组(即A1,A2,An互不相容;且A1A2An=),则有P(A1)+P(A2)+P(An)=1。推论4若AB,则P(B-A)=P(B)-P(A)。第二节概率二、条件概率与独立事件二、条
44、件概率与独立事件(一一)条件概率条件概率(二二)独立事件独立事件(三三)全概率公式及贝叶斯公式全概率公式及贝叶斯公式 1.全概率公式 2.贝叶斯公式第三节随机变量一、随机变量的概念和分类一、随机变量的概念和分类 随机变量(random variable)是对随机试验结果的数量描述,其取值有一个范围,在此范围内究竟取何值是不确定的,但取某个值或某些值却有相应的确定概率(变化规律性)。现实中会遇到各种各样的随机现象与随机试验,因而有各种各样的随机变量,但归纳起来有两大类:(1)离散型随机变量(discrete random variable)(2)连续型随机变量(continuous random
45、 variable)第三节随机变量二、概率密度函数和概率分布函数二、概率密度函数和概率分布函数 用小写字母f来表示概率密度函数(probability density function),其定义如下:f(a)=P 设X是随机变量,则函数 F=P 称为随机变量X的概率分布函数(probability distribution function)。第三节随机变量三、数字特征三、数字特征(一一)数学期望数学期望 定义一般来说,如果X是一个随机变量,它的概率密度函数为f(x),那么数学期望(mathematical expectation)的一般公式为:E(X)=xf(x)即X的期望值是它的所有可能取
46、值的加权平均,其权数是它取该值的概率。第三节随机变量(二二)方差方差 若X为随机变量,相应的概率分布为:X:x1,x2,xn,P:p1,p2,pn,均值为E(X)=,则X的方差为:D(X)=Var(X)=pi第三节随机变量(三三)协方差协方差X和Y之间的协方差(covariance)是对它们之间相关性的一个测度,记为XY或cov(X,Y)。XY=E(X-EX)(Y-EY)=E(XY)-E(X)E(Y)如果X和Y是相互独立的,那么cov(X,Y)=0,这导致下面相关系数的定义。X和Y之间的相关系数记为XY,被定义为:XY=第四节随机变量的分布一、离散型随机变量及其分布一、离散型随机变量及其分布(
47、一一)二项分布二项分布(二二)二点分布二点分布(三三)超几何分布超几何分布(四四)泊松分布泊松分布第四节随机变量的分布二、连续型随机变量及其分布二、连续型随机变量及其分布(一一)均匀分布均匀分布(二二)指数分布指数分布(三三)正态分布正态分布 1.正态分布的定义 2.标准正态分布 3.正态分布的标准化第五节大数定律和中心极限定理一、大数定律一、大数定律 概率论中用来阐明大量随机现象平均结果的稳定性的一系列定理,统称大数定律(law of large numbers)。定理1(伯努利大数定理)设n次独立试验中,事件A发生的次数为m,事件A在每次试验中发生的概率为P,则对于任意正数,有:P()=1
48、第五节大数定律和中心极限定理二、中心极限定理二、中心极限定理 定理3(林德伯格莱维中心极限定理)定理4(棣莫弗拉普拉斯中心极限定理)定理5(李雅普诺夫中心极限定理)第六章抽样分布第六章抽样分布目 录有关抽样分布的一些基本概念有关抽样分布的一些基本概念123与正态分布有关几个重要抽样分布与正态分布有关几个重要抽样分布几个重要统计量的分布几个重要统计量的分布第一节有关抽样分布的一些基本概念一、随机样本一、随机样本定义设X1,X2,Xn是取自总体X的一个样本(样本容量为n),若每一个个体Xi都与总体X同分布且相互独立,则称X1,X2,Xn是一个简单独立随机样本(simple independent
49、random samples),简称样本,它的观察值x1,x2,xn称为样本值。样本所包含的个体(总体单位)的个数称为样本容量,用n表示。一般来说,n大于等于30的称为大样本,n小于30的称为小样本。第一节有关抽样分布的一些基本概念二、抽样方法二、抽样方法(一一)抽样框与抽样单元抽样框与抽样单元(二二)放回与不放回抽样放回与不放回抽样(三三)抽样按顺序与不按顺序组成样本抽样按顺序与不按顺序组成样本(三三)抽样按顺序与不按顺序组成样本抽样按顺序与不按顺序组成样本第一节有关抽样分布的一些基本概念三、参数与统计量三、参数与统计量(一一)参数参数 参数(parameter)是总体随机变量概率分布的特征
50、数。对于某个总体来说,其参数是定值。一个总体常常有多个参数,这些参数从各个不同的角度反映总体分布的基本情况和特征。通常最关心的就是表示总体分布集中趋势和分散趋势的两个参数,即总体的均值和方差。(二二)统计量统计量 统计量(statistic)是样本的数量特征,是个随机变量,随着样本的变化而发生变化。如例6-3,不管按哪种方法抽样,抽取的样本绝对不是一个,因统计量也绝对不仅仅只有一个,而是一个不包含任何未知参数的随机样本函数。第二节与正态分布有关的几个重要抽样分布一、一、2 2分布分布 图6-2密度函数kn(x)的曲线图1.2分布的可加性2.2分布的数学期望和方差3.2分布的分位点第二节与正态分