1、应用统计学全套课件本课程的内容第一章 绪论第二章 统计数据的搜集、整理和 显示第三章 统计数据的描述分析第四章 参数估计第五章 参数假设检验第六章 方差分析第七章 非参数统计方法第八章 时间序列分析 第九章 统计指数 教材:戴维 R.安德森等:商务与经济统计 机械工业出版社,2010年。参考书目:1、李心愉应用经济统计学北京:北京大学出版社,2003年。2、耿修林商务经济统计学北京:科学出版社,2003年3、肖筱南新编概率论与数理统计北京:北京大学出版社,2002年。第一章 绪论 第一节 统计学的学科性质一、统计学的学科性质1、争论:“方法论学科”“实质性学科”2、统计处理数据的过程:搜集数据
2、整理数据分析数据解释数据二、统计学的分类1、描述统计学和推断统计学2、理论统计学和应用统计学第二节 统计学的几个基本概念一、个体、变量、观测值1、个体:数据来源的实体2、变量:个体中所感兴趣的特征,包括品质变量和数量变量二、数据的类型1、按数据的性质分为:品质型数据和数量型数据2、截面数据和时间序列数据二、统计指标及其设计1、统计指标是说明总体数量特征的概念,统计指标设计就是构建反映总体特征的指标。2、统计指标的构成要素:名称、内涵、外延、计量单位、计算方法、时间和空间。(1)内涵:指标阐释的内容,是对总体数量特征的概括。(2)外延:也称为指标口径,指标计算中,哪些内容包括在内,哪些不包括在内
3、。(3)计算方法:指标是通过对个体变量值进行综合后得到的,哪些变量值与该指标对应,用何种方法进行综合。以GDP的核算为例来说明想看一国一年内生产活动的总量,定义GDP是一国在一定时期内最终产品的总价值。(内涵)最终产品是本期生产本期不再投入生产使用的产品,消费、投资、出口产品。(外延)跟踪所有产品的使用去向,再核算其价值是不可能的。部门增加值核算方法(计算方法)棉花纱布 印染衣服300350460580 880部门增加值30050110120 300最终产品的总价值=880部门增加值合计=300+50+110+120+300=880时间、空间、计量单位 MPS核算 SNA核算目的:核算一年内的
4、生产成果 同左名称:社会总产值 国民生产总值内涵:物质生产部门产品 最终产品的总价值 总价值外延:五大物质生产部门的产品 所有部门计算方法:C+V+M C1+V+M 第二章 统计数据的搜集、整理和显示第一节 统计数据的搜集一、统计调查方式统计报表制度、普查、抽样调查、典型调查、重点调查例例2.1、一批钢材,抽样测试其抗张力,随机抽取76个样本观察值如下:(单位:kg/cm2)41.0 37.0 33.0 44.2 30.5 27.0 45.0 28.5 40.6 34.831.2 33.5 38.5 41.5 43.0 45.5 42.5 39.0 36.2 27.538.8 35.5 32.
5、5 29.5 32.6 34.5 37.5 39.5 35.8 29.142.8 45.1 42.8 45.8 39.8 37.2 33.8 31.2 31.5 29.529.0 35.2 37.8 41.2 43.8 48.0 43.6 41.8 44.5 36.536.6 34.8 31.0 32.0 33.5 37.4 40.8 44.7 40.0 41.540.2 41.3 38.8 34.1 31.8 34.6 38.3 41.3 44.2 37.130.0 35.2 37.5 40.5 38.1 37.3第二节 数据的整理一、统计分组1、统计分组是将统计总体按照一定标志区分成若干个
6、组成部分的一种统计分析方法。2、两点注意:有时不易确定组与组之间的界限;穷尽原则、互斥原则。二、频数分布数列1、统计分组后,每个组分配的总体单位数称为频数或次数,频数/总体单位总数=频率。2、意义整理了杂乱无章的数据,同时显示出一批数的分布情况,是数理统计学中随机变量及其概论分布概念在实际中的应用。3、分类:按分组标志的不同,分为:品质数列 单项数列:一个变量值是一个组变量数列 组距数列:两个变量值构成的区间是一个组 三、组距分布数列的编制方法第一步,排序后,极差=max-min第二步,确定组数、组距。组数 k=1+3.32lgn(参考)组距=(max-min)/组数第三步,组中值。组中值=(
7、下限+上限)/2四、累计频数分布数列及其在基尼系数计基尼系数计算中的应用算中的应用一、洛伦兹曲线1、累计频数分布数列.累计频数(频率)分布数列是在频数(频率)分布数列的基础上,将各组频数(频率)依次相加求和形成的数列。按照累计方向不同,分为向上累计和向下累计两种。向上累计由变量值低的组向变量值高的组累计。.累计频数(频率)分布数列在经济学中的重要应用是用来衡量收入分配差距问题,产生了著名的洛伦兹曲线。2、洛伦兹曲线洛伦兹曲线是美国经济学家M.B.Lorentz在20世纪初提出的描述收入分配性质的图示方法。洛伦兹曲线以人口比重和收入比重为坐标轴,将实际人口比重及收入比重绘在坐标轴中,就形成了曲线
8、。3、洛伦兹曲线的缺点 二、基尼系数的几种计算方法二、基尼系数的几种计算方法从图形上看,基尼系数就是洛伦兹曲线与45。线围成的面积同45。线与X轴右纵轴围成面积的比值,即G=A/(A+B)几何方法几何方法方法一方法一:不论人口、家户和收入比重是否等分,都可使用的方法,计算公式为:式中,n为组数,yi为第i组的收入比重,ui为第i组的向上累加的收入比重,pi为第i组的人口比重,Pi、Yi为第i组的人口和收入。niiiinniiiiniiiiiiiiniiYYyyyyPPppppyuuuvnivpSSG121121111,100.,100.,.,2,1,1000010000其中,方法二方法二:洛伦
9、兹曲线的形状基本符合指数曲线,所以,设其中,Yi、Pi分别为收入和人口比重累加到i组的值,S为曲线与90。、X轴围成的面积,G为基尼系数。1212/12/111)1(10110bASGbAPbAdPPASAPYbibibii平均差方法平均差方法1、离散收入分布的绝对平均差(基尼1912年提出)yninjjiGyyn211123、协方差方法Stuart(1954、1955)提出,Anand(1983)认为离散收入的序数i是yi的序数,(收入排序数)yiniyG),cov(2三、实例三、实例几何方法选用1998年我国城镇居民收入资料,如表1所示:将表1资料整理如表2所示:G=(10000-8131
10、.3)/10000=0.18lgYi=lgA+lgPi设Y=lgYi,P=lgPi,a=lgAa=-0.03 A=0.93G=1-2A/(b+1)=1-2*0.93/2.28=0.182PbPaYPPbnaY平均差方法22.0477.1711422851.380322851.380327.186388711477.171141.094.30145.1.084.112961.039.86932112 yninjjiiiyGyynyp协方差方法24.078477.1711473.581433212221nnniyGynii第二节第二节 关于基尼系数的讨论关于基尼系数的讨论一、关于总体基尼系数的计算
11、一、关于总体基尼系数的计算在掌握了城乡内部收入差别资料的前提下,先分别计算城乡内部的基尼系数,然后用“城乡加权法”估算出全国总的基尼系数。1、陈宗胜:关于总体基尼系数估算方法的一个建议,经济研究,2002.5。加权计算方法是发展经济学家Sun drum(1990)在不发达国家的收入分配中介绍的:其中,Pr-农村人口比重,Pc-城市人口比重,ur-农村人均收入,uc-城市人均收入,u-全国人均收入uuuPPGuuPGuuPGccrcccrrr/)()/()/(222、城乡加权法伦敦经济学院的收入分配方法论专家考威尔教授提出,总体击毙系数包括组内差距、组间差距,还包括一个相互作用项,用公式表示如下
12、:其中,Gt是总体基尼系数,Gj是各个分组内部的基尼系数,wj为权数,Ib为组间的差距指数,是相互作用项,fi表示各个分组内部的收入分布。)(1jbjJjjtfIGwG1jw第三节 数据显示统计表和统计图一、统计表1、表的格式:横行标题:对象(总体(常以年份形式表示)、总体分组、总体各单位)纵栏标题:统计指标交叉部分:指标值2、注意事项:数据居中,小数点对齐左右不封口;表下面注明资料来源。二、统计图组别组别4548424539423639333630332730Frequency20100支付方式信用卡个人支票现金第三章 统计数据的描述分析第一节 集中趋势分析集中趋势是数据分布的中心,描述集中
13、趋势的指标有算术平均数、中位数、众数等。某单位某单位80个工人一周生产的零件数个工人一周生产的零件数 单位:个65 78 88 65 58 76 69 66 80 64 77 78 60 65 85 74 73 65 66 79 74 85 59 69 60 87 85 86 64 93 76 62 91 49 74 78 75 79 86 68 87 97 92 82 66 94 75 56 85 77 67 89 78 79 88 83 73 69 84 95 55 79 77 58 80 68 77 87 70 78 79 61 47 69 89 96 66 76 81 99Min=47
14、 max=99一、算术平均数(均值)1、将一批数累加起来,除以数据的个数,即为算术平均数。2、分为简单算术平均数和加权算术平均数nxXnii1kiikiiikkkffxffffxfxfxX11212211nxXnii1例、某单位80工人一周生产零件数。1、简单算术平均数2、加权算术平均数)(49.75809961.80651个nxXnii7580600011212211kiikiiikkkffxffffxfxfxX3、算术平均数与数学期望对于离散型随机变量X,设它的概率密度函数P(Xi)为,则的数学期望为对于连续型随机变量X,设其概率密度函数为f(X),则的数学期望为iiiPXXE)(dXXX
15、fXE)()(4、算术平均数的缺陷10 15 20 25 70去掉70后,28X5.17X二、众数(M0)1、众数是指一组变量值中出现次数最多的变量值。2、众数的确定未分组资料,M0就是出现次数最多的变量值。上例中,78、79各出现5次,都是M0数据分布是双峰的。分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。0000000000000000)()()()(11101110MMMMMMMMMMMMMMMMdffffffUMdffffffLM例、上例中众数组是第3组,7410)1925()2125(192580)()(7410)1925()2125(212570)()(80
16、,70,10,19,250000000000000000000000111011101,211MMMMMMMMMMMMMMMMMMMMMMdffffffUMdffffffLMULdfff三、中位数及分位数1、中位数把一批数按照从小到大的顺序排列,处于数列中点的变量值就是Me确定方法未分组资料:(n+1)/2中位数的位置。前例Me=77分组资料:根据向上或向下累计频数分布数列,按照 确定中位数所在的组,然后确定。2fMeMMMeMeMMMedfSfUMdfSfLMeeeeee11228.74102527408028.741025284070225,10,27,28,80,70,402802111
17、1MeMMMeMeMMMeMMeMMMMdfSfUMdfSfLMfdSSULfeeeeeeeeeee第二节第二节 离中趋势分析离中趋势分析一、离中趋势一、离中趋势1、离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。2、意义:首先,可以衡量算术平均数的代表性。例:均值都为150的两组数 50,100,150,200,250 100,125,150,175,200其次,进行产品质量管理和决策。3、离中趋势测度经常用到的指标有:极差、方差和标准差、四分位距等,它们也被称为变异指标。二、极差二、极差1、极差也称为全距,是一组变量中最大值与最小值的离差,表明变量值变动的范围。用R表示极差,其
18、计算公式是:2、缺点:易受极端值的影响。maxminRxx三、四分位差三、四分位差1、百分位数把数据按从小到大的顺序排列后,第P百分位数是指有P%的值小于它,而有(100-P)%的值大于或等于它。确定方法。i=(P/100)n就是第P百分位数的位置。其中最常用的是四分位数。即把数据分成四个部分,每个部分包括1/4数值。2、四分位距3、意义:剔除了极端值,说明50%数据分布的范围;百分位数第百分位数第257513QQQ四、平均差四、平均差1、平均差是指变量值与其算术平均数的离差绝对值的算术平均数,用符号AD表示。计算公式:2、优缺点1.niixXADn五、方差与标准差五、方差与标准差1、方差与标
19、准差是测定离中趋势最常用的指标。标准差是方差的平方根,也称均方差。2、计算公式:3、标准差系数221()niixXn221()niiixXfnS100%VXiifXX2)(149.07518.1118.111251258010000)(22XssffXXSiii六、切比雪夫定理、经验法则、异常值的检测1、Z分数数据的标准化过程,也可以解释为xi距离平均数的标准差的个数。2、切比雪夫定理与平均数的距离在某个特定倍数的标准差之内的数据所占的比例。sXxzii211zzsXxi为的数据所占的比例至少例:某次考试中,100名学生的平均成绩为70分,标准差为5分。问多少学生成绩在60-80分之间。解:(
20、60-70)/5=-2 (80-70)/5=2所占比重为1-1/4=75%3、经验法则:正态分布的3法则4、异常值 Z分数值大于3或小于-3的变量值都属于异常值。%3.7993%5.4952%.3681的概率的概率的概率XxzXxzXxziiiiii第三节第三节 偏度和峰度分析偏度和峰度分析一、矩的概念1、矩是力学概念,用来表示力和力臂对中心的关系。统计学中借用这一概念讨论随机变量的分布特征。2、统计学中,将矩定义为原点矩和中心矩。原点矩的定义是:k为整数,称为k阶原点矩1nkiikxndXXfXPXXEkiikik)()(中心矩的定义是:1()nkiikxXUndXXfXEXPXEXXEXE
21、kiikik)()()()(3、中心矩的两个重要性质:分布对称时,奇数阶中心矩恒为零;当分布为正态分布时,偶数阶中心矩有66442222215,3,)12(.531!)!12(VVVkkVkkk二、偏态1、分布的偏态就是分布不对称的方向和程度右偏分布对称分布左偏分布oeXMMoeXMMeoXMM2、它的测量主要是两种方法,一种是矩法,二是Pearson偏态系数。o Pearson偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为:o 当SK=0时,呈对称分布;当SK0时,分布是右偏(正偏)的;当SK3时,表示频数分布比正态分布更集中,分布呈尖峰状态;0,则xxdXXf
22、XFdXXdFXfxXFxXFXfxXxXFxXF)()()()()()(lim)(,)()(0则为概率密度函数令均概率,即概率密度)区间上单位长度的平表示在(6)随机变量的数字特征dXXfEXXEXXEXDPEXxEXXEXDdXXXfXEpxXEiiiiii)()()()()()()()()()(2222(7)正态分布)6.10()4,1(21)(222)(XPNXexfx第四章 参数估计第一节 随机变量与概论分布随机现象随机变量概论分布离散型和连续型随机变量第二节 统计量与抽样分布一、几个基本概念1、总体和样本研究对象的全体称为总体,组成总体的每个基本单元称为个体;把从总体中按照随机原则
23、抽出的个体组成的小群体称为样本,所包含的个体总数称为样本容量。总体=某项数量指标取值的全体=随机变量一个容量为n的样本就是一个n维随机变量其中 相互独立,与总体 具有相同的概率分布。),(21nXXXiXX2、统计量与抽样分布参数估计1、一个轮胎制造商开发了一种新型设计的轮胎,其里程数超过现有生产线上里程数。为做出估计,制造商选择了120个样本试验,样本均值为36500公里。于是,新轮胎总体的平均里程估计值为36500公里。2、某政治团体的成员正在考虑支持某一候选人竞选美国参议员。需要对支持人员的比率做一估计。受时间和成本限制,不可能对登记选民总体中的每一个选民进行调查,于是,选取400个选民
24、组成一个样本,有160人表示支持,则总体中支持候选人的比率估计为0.4.统计量样本函数称为统计量。设是来自总体 的一个样本,是 的函数,若 是连续函数且其中不含任何未知参数,则称 是一个统计量。),(21nXXX),(21nXXXhnXXX,21h),(21nXXXhX抽样分布统计量的概论分布为抽样分布,总体的分布已知时,统计量的分布是确定的。例:P176页,由30名EAI管理人员组成的500个简单随机样本的样本均值和样本比率的分布。X二、三大推断分布(一)分布1、设 是来自总体(0,1)的一个样本,则称统计量服从自由度为n的 分布,记为 。此处,自由度是指包含的独立变量的个数。2nXXX,2
25、1N222212nXXX)(22n22、性质:(1)设 ,且 独立,则 ,即分布具有可加性。)(),(22221221nn2221,)(2122221nn 2(2)分位点若对于给定的 ,0 1,存在使得则称点 为 分布的上 分位点,如图所示。)(222)()(ndxxfnP)(2n2(二)t分布1、设XN(0,1),Yx2(n),且X,Y相互独立,则称随机变量为服从自由度为n的t分布,记Tt(n)。t分布又称学生氏(student)分布。nYXT/2、性质关于y轴呈对称分布;当 时,近似于N(0,1)分布。分位点对于给定的,0 1,称满足的点 为t分布的分位点。n)()()(ntdttfntt
26、P)(nt)()(1ntnt(三)F分布1、设UX2(n1),VX2(n2),且U、V相互独立,则服从自由度为(n1,n2)的F分布,记为2、性质F分布是非对称的21/nVnUF),(21nnFF分位点对于给定的,0 30),同(1),可以用样本方差替代总体方差。2、样本方差s2的抽样分布)(代入得:已知,nnsnsxxnsxxNxNxiiiiii2222222222221)()(1)(1)()1,0(),()1()1(2222nsnx)(代入得:未知,1)1()1()()(112222222nsnsnxxnsii3、两样本均值差的抽样分布(1)已知),(2xxNXX2xS),(2yyNYY2
27、yS2x2y)1,0()()(22NmnYXUyxyx),(),(),(222222mnNYXmnYXDYXEYXmNYnNXyxyxyxyxyyxx)()(服从正态分布证明:2)未知,但两者相等2x2y)2(11)()(mntmnSYXtWYX2)1()1(22mnSmSnSyxW)()()(分布的可加性可知:由)()(又211)1(1)1(1)1,0(11)()()()(222222222222222mnsmsnmsnnsnNmnYXmnYXUyxyxyxyxmnsYXmnsmsnmnYXtwyxyxyx11)()(21111)()(2222)()()(分布的定义:根据(3)当不知总体的分
28、布形式时,n很大时,由中心极限定理推,同(1),用样本方差替代总体方差。4、两总体方差比)1,1(2222mnFSSFyyxx)1,1()1()1()1()1()1()1()1()1(22222222222222mnFssmsmnsnFmsmnsnyyxxyyxxyyxx5、样本成数的抽样分布),(nPQPNpPQQPPQQPPPPEXXXDPQPPXXEQPXXXXiiiiiiin2222221)0()1()()(01)(01,.,未发生;概率为,具有某种性质的事件发生;概率为,具有某种性质的事件,是来自两点分布的样本nPQnPQnXDnXnDpDPnPnXEnXnEpEXnppiiiiii
29、iiii221)(1)1()(1)(1)1()(1则成数质事件发生的比例,即表示样本中具有某种性当n很大时(大于30,且np5,n(1-p)5),由中心极限定理知,样本成数近似服从正态分布,即两总体成数差的分布近似于两总体均值差的情况三(n,m均大于30,npx5,n(1-px)5;npy5,n(1-py)5),(nPQPNp)1,0()1()1()()(NmppnppPPppUyyxxyxyx第二节 点估计一、点估计1、点估计是指根据总体参数的性质构造一个统计量,然后由样本资料计算出统计量的值,并直接作为相应的总体参数值的替代。2、常见的用样本均值、方差、成数作为总体均值、方差、成数的估计值
30、。3、缺点第三节 区间估计一、含义1、用样本统计量的两个估计值所构成的一个区间估计总体参数。(1)区间估计不仅要有具体结果,还要有精度及可靠程度;(2)估计的置信度或概论保证程度;(3)置信度与估计精度。的区间估计值是),(211)(21P二、区间估计原理以总体均值的估计为例(1)),(2nNX12ZnXP111222222nZXnZXPnZXnZXPnZXnZP几点说明:(1)是与概率相连的N(0,1)分布中的临界值。(2)置信区间是以 为中心左右扩展 得到的,可以证明,这样的估计区间最短,估计精度最高。(3)对于非对称分布,习惯上也取对称点来确定区间,但是,这样确定的区间不一定是最短的。2
31、Z2)(2 ZZPXnZ2最短估计区间最短估计区间1、满足概率为1-的区间不只为-Z/2,Z/2,设有Z1,Z2,(Z2Z1),此时,置信区间长度为 111221nZXnZXPZnXZP)(12ZZn2、利用求条件极值方法,不难求得(Z2-Z1)的最小值,轴的对称分布,)是关于,(为常数,则两方程相加得:)()()(,得:的偏导数,并等于)求关于(对)(数法则,设证明:应用拉格朗日乘即122121222111212121121221121210)()(0)()(0)(,0)(1,0,1)()()(,01)()(,1)()(ZZyNZfZfZfZfZfnZZZGZfnZZZGZZZZGZZZZn
32、ZZGZZZZ例:例:某研究机构进行了一项调查来估计吸烟者每月花在抽烟上的平均支出。假定吸烟者买烟的月支出近似服从正态分布。该机构随机抽取了容量为26的样本进行调查,得到样本平均数为80元,样本标准差为20元,试以95%的把握估计全部吸烟者月平均吸烟支出的置信区间。解:n=26,=80 S=20 1-=95%因为总体方差未知,根据定理,样本平均数服从的分布是1-=95%,查表得,=2.06,总体均值的估计区间为 ,即(71.29,88.08)X)1()(ntSXnT111)(22222nStXnStXPnStXnStPtSXnP2t)262006.280,262006.280(三、例题例例4.
33、1、一家袜厂的原料之一加弹尼龙来自甲、乙两家工厂,为了估计甲乙两厂提供的产品的拉力强度的差异,从甲厂随机抽取了25个样品,从乙厂抽取了16个样品,测试结果,甲厂产品的平均拉力强度为22千克,乙厂产品的平均拉力强度为20千克,根据过去记录,两个工厂产品的拉力强度的方差均为10,要求以95%的把握对两厂产品拉力强度的差异情况做出判断。解:m=25,n=16,1-=95%即(0.016,3.984),在95%的概率保证下,甲厂产品的拉力强度大于乙厂,不超过4千克。22X20Y1022yx)1,0()()(2221NnmYXU1610251096.1)2022(1610251096.1)2022()(
34、)(2122221222nmZYXnmZYX例例4.2、某教育研究机构为了了解男女学生高考数学成绩的差异程度,随机从参加高考的男女学生中分别抽取了61人和121人,调查资料得出:男生女生数学考试成绩的方差分别是73和84,试以95%的概率推断 的置信区间。2221解:m=121,n=61,=84,=73,1-=95%假定男、女生成绩服从正态分布,统计量服从的分布是:=0.05,查表,(120,60)=1.58,(120,60)=1/(60,120)=1/1.53代入上式,得区间估计为(0.57,1.37)。2xS2yS11)1,1(22222222122222212222xyxyxyyyxxy
35、yxxSSFSSFPFSSFPnmFSSF025.0F975.0F025.0F第四节 样本容量的确定一、决定样本容量的因素1、总体方差2、允许误差3、概率保证程度4、以总体均值的估计为例:设 =)1,0()(NnX12ZnXPnZXnZX22XxXxnZ222XZn第五章 参数假设检验第一节 参数假设检验的基本原理和步骤一、参数假设检验的含义1、问题的提出例1、某乡统计员报告,平均每户家庭收入为5000元,现抽样得样本均值为4850元。乡统计员的说法是否正确?例2、按照质量要求,工厂产品的不合格品率不能超过3%,现在抽样得不合格品率4.5%。能否认为现在产品的不合品率提高了?2、这类问题特征3
36、、两个假设的提出 H0:=5000;H1:5000 H0:P3%;H1:P 3%4、对总体假设的类型参数假设分布假设二、假设检验的基本原理以实例说明。例例5.1、某旅游机构根据过去资料对国内旅游者的旅游费用进行分析,发现在10天的旅游时间中,旅游者用在车费、住宿费、膳食及购买纪念品等方面的费用是一个近似服从正态分布的随机变量,其平均值为1010元,标准差为205元,而某研究所抽取了样本容量为400的样本,作了同样内容的调查,得到样本平均数为1250元。能否根据样本的平均数1250元,推断认为总体平均数是1010元呢?1、H0:=1010;H1:1010若H0为真,则从XN(1010,2052)
37、中抽取容量为400的样本,则 N(1010,2052/400),即 N(0,1)代入样本值有X4002051010XZ4.2340020510101250Z2、Z=23.4相当于随机变量的一个取值。3、小概率事件在一次试验中几乎不可能发生。=5%,P(|Z|1.96)=0.05,小概率事件Z=23.41.96,拒绝H0。4、误判三、参数检验的两类错误1、“以真为假”2、“以假为真”第二节 常见的参数假设检验一、样本均值统计量的抽样分布。总体XN(,2),n,H0:=0;H1:0;(1)总体方差已知 H 0成立时,拒绝域 X)1,0()(0NnXZniiXnX11),(2nN2ZZ(2)总体方差
38、未知H0成立的条件下,拒绝域,(3)总体分布未知,大样本,同(1))1(0ntnsXt)1(2ntt二、两个总体均值差的检验(1)两总体方差已知H0成立时,拒绝域yxyxHH:,:10)1,0()()()(2222NmnYXmnYXZyxyxyx2ZZ(2)两总体方差未知,但相等在H0成立的条件下,拒绝域(3)总体分布形式未知,大样本,同(1))2(11)(11)()(mntmnSYXmnSYXtWWyx)2(2mntt三、单个正态总体方差的检验在H0成立的条件下,拒绝域2 :20212020HH)1()1()1(2202222nsnsn22122四、两个正态总体方差比的检验在H0成立的条件下
39、,拒绝域F:221220yxyxHH)1,1(2222mnFSSFyyxx)1,1(22mnFSSFyx)1,1(2/1mnF)1,1(2/mnF五、单个总体成数的检验1、拒绝域:,:0100PPHPPH)1,0()1(NnPPPp)1,0()1(000NnPPPp2zz 六、两个总体成数差的检验拒绝域YXYXPPHPPH:10)1,0()1()1()()(NmPPnPPPPppzYYXXYXyx)1,0()1()1()(NmPPnPPppzYYXXyx2zz 第三节第三节 假设检验的其他问题假设检验的其他问题一、单侧检验1、单侧检验指拒绝域在样本统计量分布的一侧。(1)若 ,则对于显著性水平
40、 ,有(2)若 ,则因为 是总体均值,所以对于给定的显著性水平 ,有 00:H01:H0ZnXPZZP0)(0ZnXP当 是概率更小的事件。2、H0中不管出现什么符号,均按等号处理。0nXnX0)()(0ZnXPZnXPZZPZnX0三、实例例例1、已知某炼铁厂的铁水含碳量服从正态分布N(.40,0.052),某日测得炉铁水的含碳量如下:4.34 4.40 4.42 4.30 4.35若标准差不变,该日铁水含碳量的均值是否显著降低(取=0.05)?解:已知=4.40,=0.05,n=5,=0.05,设提出假设:H0:=4.40,H1:4.40选取统计量-0.05,拒绝原假设。1),N(00nX
41、362.4X699.1505.040.4362.4645.105.0 ZZ例例2、在同一平炉上试验操作方法改进前后的炼钢得率,每炼一炉钢时除操作方法外,其他条件相同。先用标准方法炼一炉,然后用改进后的新方法炼一炉,以后交替进行,各炼了10炉,其得率分别为:标准方法:78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3;新方法:79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1 设这两个样本相互独立,且分别来自正态总体和 ,x,y,2均未知,问改进后的新方法能否提高得率(=0.05)?),(2xN),(
42、2yN解:已知n=m=10,=0.05,依题意,需检验假分别求出标准方法和新方法下的样本均值和样本方差如下:t=-4.295 t=-4.295-1.7341拒绝H00:,:10yxyxHH225.2,43.79325.3,23.7622yxsysx)2(11)()(mntmnSYXtWYX)2(11)(mntmnSYXtW666.12)1()1(22mnsmsnSyxw101101666.1)43.7923.76(7341.1)18()2(05.0tmnt例3、某电厂器材厂生产一种保险丝,保险丝的融化时间服从正态分布,按规定,融化时间的方差不得超过400。现从一批产品中随机抽取25个样品,测得
43、融化时间的方差为410。问在显著性水平=0.05条件下,能认为这批产品的方差显著偏大吗?解:已知2=400,S2=410,n=25,=0.0524.636.42,接受H0,这批产品的方差没有显著增大。400:400:2120HH)1()1(222nSn6.2440041024)1(22Sn42.36)24(05.02例4、一所学校正在考虑修订下一年的学校用车服务合同,结合诸多情况的分析,初步确定学校只能在A和B 两个汽车出租公司中选择其中的一个。假设我们以运送或到达的时间方差作为衡量这两个公司的服务质量的标准。如果两个公司的时间方差相等,那么就要考虑能够以较低价格出租的那个公司,如果两个公司的
44、时间方差明显不同,那么就要考虑选择一个时间方差比较小的公司进行合作。为了找到决策的事实依据,该学校对过去这两个汽车出租公司的行驶和服务时间进行了调查。对A公司做了25次观察,得到它的时间方差为48,对B公司做了16次观察,得到它的时间方差为20。试在显著性水平为0.1的条件下,对两个出租车公司的服务时间差异进行假设检验。解:已知 nA=25,SA2=48,nB=16,SB2=20,=0.1 F=代入样本值,得F=48/20=2.4在0.1显著性水平下,查表得F0.05(24,15)=2.29,F0.95(24,15)=)=1/F0.05(15,24)=1/2.11=0.47220:BAH221
45、:BAH)1,1(2222BABBAAnnFSS222222BABBAASSSS例5、按照质量要求,某工厂生产的产品的不合格率不能超过3%,现随机从中抽取200件样品进行质量检查,发现有9件不合格产品。问是否可以认为该工厂产品的不合格品率不大于3%。(=0.05)解:已知n=200,p=9/200=0.045,=0.05Z0.05=1.651.2441.65,接受H0,可以认为该工厂产品的不合格率不超过3%3:%3:10PHPH244.120097.003.003.0045.0)1(000nPPPp例6、为了了解男性与女性对公共场所禁烟立法的态度,现随机调查510名男性,有16%的人赞成公共场
46、所禁烟立法,被调查的324名女性中,有29%的人赞成禁烟立法。问男性与女性对公共场所禁烟立法的态度是否存在明显的差异。(=0.05)解:已知n=510,px =16%,m =324 py=29%=0.05=0.05,本题是左侧检验,查表得z0.05=1.65,-4.33-1.65,拒绝原假设。YXYXPPHPPH:10)1,0()1()1()()(NmPPnPPPPppzYYXXYXyx33.432471.029.051084.016.029.016.0z四、单侧检验的局限性及解决方法四、单侧检验的局限性及解决方法1、问题的提出、问题的提出例1、某种电子元件的寿命x(小时)服从正态分布,2均未
47、知。现测得16只元件的寿命如下:280 101 212 224 379 179 264 362 168 250 149 260 485 170在=0.05的显著性水平下,对其寿命进行假设检验。(1)生产商认为,这批元件的寿命大于225小时。H0:225,H1:225该假设的拒绝域是(1.753,+),则0.66850nH0:0,H1:2.87,拒绝原假设,电流强度对电解铜杂质率有显著影响。543210:H543211,:H1944.12)892.174.1(.2)892.12(5512).(2jXjXnbS944.051512).(2jijXijXWS326.6)15(50.9441)-(51
48、.1944)1(212nrwSrbS21X12.22X06.24X74.15X892.1.X54.13X二、单因素不等重复方差分析A因素的各水平下所做的试验次数不完全相等1、离差平方和2).11(2XrjniijXTSj2).1.(12XnijXrjbSj2).11(2jXrjniijXwSj 2、样本统计量的分布)11(222rjjnTS)1(222rbS)11(222rjjnwS)1)1(1,-F(r1)1(212rjjnrjjnwSrbS3、例题:某公司为进一步激励销售人员的工作热情,正筹划实行新的分配办法,拟定采用的做法是对新近招聘进来的销售人员实行佣金制,对工作满五年的员工采用佣金加
49、固定薪金,对工作满八年以上的销售人员基本实行固定薪金方案。不知这样的分配办法是否能达到促进销售的目的,为此,主管部门考虑进行跟踪观察一段时间,然后再正式决定。从各个分配方案的人员中,按随机原则抽取一定的人员,登记一个月的销售量(单位:万元),具体资料如表所示:试在显著性水平=0.05的要求下,分析不同的分配方法是否会对产品销售量有影响。解:已知 r=3 n1=6 n2=9 n3=5 不完全相等F=0.05,F0.05(2,17)=3.59,F=4.683.59,拒绝原假设,说明不同分配方法对销售人员的销售量有显著影响。3210:H3211,:H67.171610301X33.113910202
50、X4.15257623X6.14059676210201030 X15.131812)6.1404.152(52)6.14033.113(92)6.14067.171(62).1.(312XnijXjbSj5.239522.67073664335.135812).311(2 jXjniijXwSj68.44)8(523952.5213181.151)1(212rjjnwSrbS例:Chemitich公司开发了一种新的城市供水过滤系统。新过滤系统的部件需要从几家供应商处购买,然后由工人装配这些部件。工程部负责确定新过滤系统的最佳装配方法,可供选择的方法有A、B、C,工人们进行了装配方法的培训,一