1、第七章第七章 质量控制的统计方法质量控制的统计方法7.1 7.1 概率及统计的基本知识概率及统计的基本知识 7.1.1 概率与统计基本概念 1.随机现象:在一定的环境下进行实验往往会出现不同的结果,而且每一次实验结果都是无法提前预知的,即无法百分之百地确定最终的结果,这种现象就叫做随机现象。随机现象反映了条件和结果之间的不确定关系,但在大量重复的实验中,却具有一定的统计规律性。随机事件的特征该事件或现象能够在相同的条件下重复进行该事件或现象带来的最终结果不止一个,同时能够事先确定最终结果的所有可能每一次重复发生该事件或现象时,都无法确切预知可能的结果。2.必然事件必然事件:在一定的条件下重复进
2、行试验时,有的事件在每次试验中必然会发生,这样的事件叫必然发生的事件,简称必然事件。必然事件发生的概率是1,即P(必然事件)=1(必然事件:体育运动时消耗卡路里必然事件:体育运动时消耗卡路里 不可能事件:不可能事件:1秒钟跑完秒钟跑完100米米 随机事件:体育运动中随机事件:体育运动中肌肉拉伤肌肉拉伤 3.不可能事件不可能事件:概率论中把在一定条件下不可能发生的事件叫不可能事件。人们通常用0来表示不可能事件发生的可能性。即:不可能事件的概率为0。但概率为0的事件不一定为不可能事件。例1.指出下列事件是必然事件、不可能事件还是随机事件:(1)某体操运动员将在某次运动会上获得全能冠军;(2)同一门
3、炮向同一目标发射多发炮弹,其中50%的炮弹击中目标;(3)某人给朋友打电话,却忘记了朋友电话号码的最后一位数字,就随意地在键盘上按了一个数字,恰巧是朋友的电话号码;(4)技术非常发达后,不需要任何能量的“永动机”将会出现。解:根据必然事件、不可能事件及随机事件的定义,可知 (1)、(2)、(3)是随机事件;(4)是不可能事件。例2 指出下列事件是必然事件、不可能事件,还是随机事件。(1)在标准大气压下且温度低于0时,冰融化;(2)在常温下,焊锡熔化;(3)掷一枚硬币,出现正面;(4)某地12月12日下雨;(5)如果ab,那么a-b0;(6)导体通电后发热;(7)没有水分,种子发芽。解:(5)、
4、(6)是必然事件;(1)、(2)、(7)是不可能事件;(3)、(4)是随机事件。基本事件:在试验中不能再分的最简单的随机事件,其他事件可以用它们来表示,这样的事件称为基本事件。基本事件空间:所有基本事件构成的集合称为基本事件空间。基本事件空间常用大写希腊字母表示。例如,掷一枚硬币,观察落地后哪一面向上,这个试验的基本事件空间就是集合正面向上,反面向上。即 =正面向上,反面向上。或简记为=正,反。掷一颗骰子,观察掷出的点数,这个事件 的基本事件空间为 =1,2,3,4,5,6。1、概 率概率又称机率、或然率或可能性。是对随机事件发生的可能性的度量,范围在0,1内。即0,1内的任何一个实数可以用来
5、表示一个随机事件发生的可能性的大小。概率的公理化定义为:设随机试验M的样本空间为,若按某种方法,对M的每一个事件A赋予一个实数P(A),且满足以下公理:非负性:P(A)0;规范性:P()=1;可列(完全)可加性:对于两两互不相容的可列无穷多个事件A1,A2,An,有P(A1A2 An )=P(A1)+P(A2)+P(An)+,则称实数P(A)为事件A的概率。概率小案例概率小案例Dewey G.统计了约438,023个英语单词中各字母出现的频率,发现各字母出现的频率不同:A:0.0788 B:0.0156 C:0.0268 D:0.0389 E:0.1268 F:0.0256 G:0.0187
6、H:0.0573 I:0.0707 J:0.0010 K:0.0060 L:0.0394 M:0.0244 N:0.0706 O:0.0776 P:0.0186 Q:0.0009 R:0.0594 S:0.0634 T:0.0987 U:0.0280 V:0.0102 W:0.0214 X:0.0016 Y:0.0202 Z:0.0006从中我们看到字母E出现的频率最大而字母Z出现的频率最小等等结果,而且这些字母的频率可以大致看成它们出现的概率。对于计算机键盘的设计和文字的研究,这些结果都有重要意义。概率小案例概率小案例投资总具有一定风险,因此在选择投资方向时,计算其期望收益常是可代考虑的决策
7、方法之一。现某人有10万元现金,想投资于某项目,预估成功的机会为30%,可得利润8万元,失败的机会为70%,将损失2万元。若存入银行,同期间的利率为5%,问是否应作此项投资?以 X记投资利润,则 而存入银行的利息为10 5%0.5(万元),因此从期望收益的角度看,应选择投资,当然这里要冒一定的风险。2、统、统 计计统计是指对某一现象有关的数据的搜集、整理、计算、分析、解释、表述等活动。有效的统计分析结果能够反映某个现象的规律,为后续的质量控制活动提供可借鉴的基础。在数理统计中,研究对象的全体称为总体或母体,组成总体的每一个元素称为个体。从总体中抽出的若干个个体称为样本,从总体中抽取若干样本的过
8、程叫做抽样。所有抽取的样本集合称为样本空间。对各个样本统计规律的研究能够反映总体的分布规律。比如,我国每10年会进行一次全国人后普查,像男女比例、各年龄段人口比率、就业率、出生率和死亡率等,这可都是关系到国计民生的大事。学校要统计升学率,班上要统计成绩和名次,你自己爱也要统计自己的总分或平均成绩的升降。企业经营也需要进行统计。没准什么时候你在家里会突然接到一个电话,原来是电视台打来的,他们在统计节目的收视率。收视率越高,他们的广告就卖的越贵。7.1.2 7.1.2 统计量统计量样本统计量是由样本数据加工出来的,是对样本数据进行分析、检验的变量,反映样本数量特征的函数,不含任何未知数。常见的样本
9、统计量有平均数、中位数、众数、极差等。在质量控制中,常见的统计量有如下几种形式:1、表示位置的统计量算术平均数和中位数在质量控制的过程中常常用来反映产品质量特性的位置效应。(1)、平)、平 均均 数数平均数的几种计算方法:简单的算术平均数计算方法为:nxxxxn.21nnxxxx.21inxnxxxnx11.1121加权算术平均数计算方法为:调和平均数的计算方法为:几何平均数的计算方法:nnnfffxfxfxfx.212211(2)、中)、中 位位 数数中位数是数据位置的代表值,不受极端变量的影响。对于有限个数据的中位数,把所有数据按照大小依次排列,就可以确定中位数。中位数的确定受到数据个数奇
10、偶性的影响:数据数量为奇数时,最中间的那个数即为中位数;数据数量为偶数时,计算最中间两个数值的平均数,该平均数即为中位数。例1:一组数据3、7、21、15、56、10,求该组数据的中位数?首先,判断该组数据的个数为6,是偶数。其次,将该组数据按照从小到大的顺序排列,3、7、10、15、21、56.然后,找到中间的两个数,求均值,(10+15)/2=12.5.所以,该组数据的中位数为12.5.例2,一组数据3、7、21、15、56、10、45,求该组数据的中位数?首先,判断该组数据的个数为7,是奇数。其次,将该组数据按照从小到大的顺序排列,3、7、10、15、21、45、56.然后,找到最中间的
11、那个数,为15.所以,15即为该组数据的中位数。2、表示离散程度的统计量(1 1)方差)方差 是各个数据与该组数据平均数之差的平方和的平均数,是度量随机变量与其均值之间的离散程度,通常用符号2表示。在数理统计中,方差用来衡量随机变量与其数学期望值之间的偏离程度,也就是随机变量与中心值偏离的程度。如果方差较小,则整体数据的分布比较集中,反之则整体数据的分布比较分散。(2)离散趋势1平均差2方差与标准差(2)总体方差与标准差未分组总体数据的方差 已分组总体数据的方差:未分组总体数据的标准差:已分组总体数据的标准差.xxADn221NiiXXN()2211KiiiKiiXXff()21NiiXXN(
12、)211KiiiKiiXXff()(3)样本方差与标准差 未分组总体数据的方差 已分组总体数据的方差:未分组总体数据的标准差:已分组总体数据的标准差 2211niixxSn()22111kiiikiixxfSf()211nixxSn()2111kiikiixxfSf()(2)标)标 准准 差差方差2的二次开方即为标准差,记为。在质量控制的过程中,通常用标准差衡量产品性能的波动。同方差一样,标准差越小,产品性能的波动就相对较小,比较稳定。反之,产品性能的波动就相对较大,表现为不稳定状态。例如,两名射击运动员,在10次射击中,甲乙两名运动员射击技术的平均值都为8.5环。经过计算,甲的标准差为0.4
13、,乙的标准差为0.7。此时,应该选择甲运动员参加比赛。因为甲运动员的标准差相对较小,就说明甲比乙要稳定,波动较小。(3)极)极 差差极差是数据集合中最大值减去最小值的差值,反映了数据集合中最大值和最小值的差距。极差反映了一组数据的离散程度和数据波动的范围。极差越大,数据的离散程度越大。极差越小,数据的离散程度越小。例如一组数据2、4、7、5、15、9,极差为 15-2=13.3、表示分布形状的统计量(1)峰度 描述分布形态的陡缓程度。通常正态分布的峰度为3,如果一组数据计算出来的峰度为3,则表示整体形状与正态分布相同。峰度大于3,表示比正态分布陡峭,小于3则表示比正态分布平坦。(2 2)偏度)
14、偏度 是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来,就是密度函数曲线尾部的相对长度。正态分布的偏度为0,两侧尾部长度相等。如果一组数据的偏度小于0,则表示左偏态。此时数据位于均值左边的比位于均值右边的少,即分布左边的尾部相对于右边的尾部要长。如果偏度大于0,称为右偏态,此时数据位于均值右边的比位于均值左边的少,即分布右边的尾部相对于左边的尾部要长。7.2 7.2 数据的收集和整理数据的收集和整理7.2.1 数据的收集 数据收集就是按照统计分析的目的,运用科学有效的方法,针对性地收集反映客观现实的统计数据的活动过程。(1 1)数据的分类)数据的分类 按照获取途
15、径不同,可分为 原始数据:即第一手资料,是通过原始问卷调查、原始实验、实地检测等手段收集到的数据。次级数据:即为第二手资料,通常是在原始资料难以收集的情况下,直接收集报纸、期刊、因特网、统计书籍等媒介上的资料或政府机构公布的资料(如统计局每年公布的GDP、各行业生产总值等数据)。原始数据的真实性、准确度相对次级数据要好。因此为了更加确切地获得某一现象或某一事件客观存在的规律,要尽可能地使用原始数据。数据定量数据定性数据离散型数据计数值数据连续型数据计量值数据数据分类情况数据分类情况(2)数据收集的方式1)统计调查普查。普查是根据一定的统计目的而进行的一次全面调查,进而收集能够反映现象总体的全面
16、资料。所以,普查是通过调查总体的方式来收集数据的。抽样调查。抽样调查的范围是总体的一部分,是一种非全面性的调查。其按照一定的统计方法,从总体中抽取样本,进而用样本数据来判断总体情况的数据获取方式。因此抽样调查是通过调查样本的方式来进行数据收集的。只对一部分客户进行的调查叫抽样调查。抽样调查非常有用,要知道大片的森林里有多少棵树,只需选择几个小块的区域进行调查,算出平均密度再乘上总面积,而不用去摸遍每一个山头;要知道灯泡的平均使用寿命,只要拿少量灯泡进行试验,而不用把所有的灯都用到坏;要知道一个大型养鸡场里明天有多少母鸡会下蛋,也只用挑选几十只验一验就够了,而不用摸每只母鸡的屁股。抽样调查能给我
17、们的生活带来很大的方便。保险公司也不必去统计每个人的真实寿命,它只要抽样调查,一样可以获得满意的数据。看上去,抽样调查真是个投机取巧的好办法。导致破产的预言 抽样调查的结果不是绝对的正确的,即使有99.9%的把握,仍然有0.1%的意外会超出误差允许的范围,那是不可避免的,是可以允许的正常范围。然而,有些抽样调查却会产生非正常的错误。1936年美国总统选举开始了,大部分人认为现任总统罗斯福民主党的候选人将会胜利。但是有个杂志文学文摘却不以为然,因为他们邮寄出1000万份调查问卷,收回了其中的240万份,调查结果显示,共和党人兰登将会绝对优势胜出。1000万的调查样本,这么大规模的问卷调查足以让人
18、相信罗斯福的总统政治生涯结束了。但结果却出乎杂志社的预料,罗斯福顺利当选美国总统,后来成为二次大战时领导世界人民抗击法西斯的三巨头之一。由于错误的预测,读者对这本杂志产生了严重的信任危机,大选结束后仅仅几个月文学文摘就破产了。文学文摘的问题出在哪里呢?原来,他们是按电话薄上的地址寄出的调查问卷。虽然今天电话早已经进入了千家万户,但在20世纪30年代的美国刚刚经历了一场巨大的经济危机,失业人数高达900万(而那时美国总人口还不足1亿),大部分人的工资只有危机以前的1/3的水平,只有一部分相对富裕的家庭用得起电话这种“高科技产品”。电话只有富人才有,富人大多支持共和党人兰登,这就是文学文摘调查结果
19、的来历。而当时美国穷人大多支持罗斯福。在人数上,穷人比富人多得多,由于在选举上每个公民都有1票,庞大的穷人数量造成了这次抽样调查结果的巨大偏差。这是历史上非常有名的抽样统计失败的案例。它说明抽样调查的成败有时不在于调查数据量的多少,而在于是否能做到完全随机地抽取样本。还是那次总统选举,另外有一个人叫盖洛普,他只是在大街上随机找了2万人进行调查就获得了正确的结果罗斯福获胜。2 2)实验调查)实验调查实验调查是利用恰当的科学实验方法,收集不同实验条件下的数据,从而凭借这些数据对目的对象进行研究的一种数据收集方式。实验调查法最常用的方法是实验设计。在质量控制过程中,明确了目的对象后,需要根据目的对象
20、的基本特性选择合适的数据收集方式。比如,要了解螺丝加工车间螺丝的质量情况,因数目巨大且成本较高的限制,可以选择抽样调查进行数据收集。要了解某种真菌在一定环境下的存活情况,可以选择实验调查的方法进行数据的收集。7.2.2 7.2.2 数据的整理数据的整理数据的整理是为了达到研究的最终目的,对收集到的数据的整理是为了达到研究的最终目的,对收集到的数据进行加工整理,使之更加系统化、条理化的过程。数据进行加工整理,使之更加系统化、条理化的过程。人口普查,可以按照年龄段进行分组。人口普查,可以按照年龄段进行分组。班级成绩调查,可以按照分数进行分组。班级成绩调查,可以按照分数进行分组。为了使整理后的数据更
21、加直观,通常用图表的形式表为了使整理后的数据更加直观,通常用图表的形式表示出来。统计表和统计图中的数据一般运用的是统计示出来。统计表和统计图中的数据一般运用的是统计量,如算术平均数、百分比、中位数、极差、标准差量,如算术平均数、百分比、中位数、极差、标准差等。等。1.1.统计表统计表统计表是原始数据资料经过整理,并将这统计表是原始数据资料经过整理,并将这些数据按照一定的顺序排列起来的一种表些数据按照一定的顺序排列起来的一种表格形式。统计表能够集中而有序地体现原格形式。统计表能够集中而有序地体现原始数据资料。统计表一般由表标题、横行始数据资料。统计表一般由表标题、横行标题、纵列标题、数值等要素组
22、成。标题、纵列标题、数值等要素组成。2.2.统计图统计图统计图是利用几何图形的形式对原始数据统计图是利用几何图形的形式对原始数据资料进行整理、排列,使得数据整齐有序、资料进行整理、排列,使得数据整齐有序、形象生动的一种图形工具。常见的统计图形象生动的一种图形工具。常见的统计图有直方图、排列图和饼分图。有直方图、排列图和饼分图。(1 1)直方图)直方图直方图是一种可以清晰地显示出总体分布趋势,并且直方图是一种可以清晰地显示出总体分布趋势,并且能够表示不同数据组频数的分布特征的统计图。能够表示不同数据组频数的分布特征的统计图。在质量控制中,直方图可以一目了然地判断出整个生在质量控制中,直方图可以一
23、目了然地判断出整个生产过程中产品质量特性的分布,进而判断产品的不合产过程中产品质量特性的分布,进而判断产品的不合格率。作用在于通过最终绘制的直方图形状,可以判格率。作用在于通过最终绘制的直方图形状,可以判断出总体质量的分布情况,判断生产过程的稳定性。断出总体质量的分布情况,判断生产过程的稳定性。当了解总体质量分布的情况及生产过程的稳定性状态当了解总体质量分布的情况及生产过程的稳定性状态后,可以及时查漏补缺,找出引起总体质量波动的原后,可以及时查漏补缺,找出引起总体质量波动的原因和位置,并进行改进。因和位置,并进行改进。直方图的作用1.直观地看出产品质量特性值的分布状态(平均直观地看出产品质量特
24、性值的分布状态(平均值和分散情况),便于掌握产品质量分布情况。值和分散情况),便于掌握产品质量分布情况。2.显示质量波动状态,判断工序是否稳定。显示质量波动状态,判断工序是否稳定。3.确定改进方向。通过直方图研究分析质量数据确定改进方向。通过直方图研究分析质量数据波动状况之后,就可确定怎样进行质量改进。波动状况之后,就可确定怎样进行质量改进。4.用以调查工序能力和设备能力。在直方图商标用以调查工序能力和设备能力。在直方图商标出公差线或标准值,可以定量的调查工序能力和出公差线或标准值,可以定量的调查工序能力和设备能力。设备能力。210-1-2121086420作直方图的步骤作直方图的步骤1.收集
25、数据收集数据2.确定极差确定极差R 3.确定分组的组数和组距确定分组的组数和组距 4.确定各组上、下限确定各组上、下限5.作频数分布表作频数分布表 6.求组中值求组中值xi和变换组中和变换组中值值ui 7.求平均值和标准差求平均值和标准差8.画直方图,如图所示画直方图,如图所示 9.直方图的空白区域,标直方图的空白区域,标明有关数据资料,如数据明有关数据资料,如数据个数,平均值等。个数,平均值等。详见例9.3.1 直方图直方图的观察分析直方图的观察分析(2 2)排列图)排列图排列图是为了找到影响质量的主要原因或探索主要问排列图是为了找到影响质量的主要原因或探索主要问题的一种统计图。作用在于能够
26、清楚地识别出主要问题的一种统计图。作用在于能够清楚地识别出主要问题,帮助我们抓住有用的多数和关键的少数。在排列题,帮助我们抓住有用的多数和关键的少数。在排列图中,通过累积百分比将影响因素分为了三大类:图中,通过累积百分比将影响因素分为了三大类:A A类因素累积百分比为类因素累积百分比为80%80%;B B类因素累积百分比占类因素累积百分比占80%90%80%90%;C C类因素累积百分比为类因素累积百分比为90%100%90%100%。完善了。完善了A A类影响因素后,就相当于解决了类影响因素后,就相当于解决了80%80%的问题,即绝大的问题,即绝大部分质量问题就解决了部分质量问题就解决了。(
27、3 3)饼分图)饼分图饼分图常常用来表示各个部分在总体中所饼分图常常用来表示各个部分在总体中所占的百分比,是总体及其组成部分比例关占的百分比,是总体及其组成部分比例关系的图示。饼分图清楚地展示了总体中各系的图示。饼分图清楚地展示了总体中各个组成部分所占比例的大小,能够快速判个组成部分所占比例的大小,能够快速判断总体中的最大部分和最小部分。断总体中的最大部分和最小部分。7.3 几种常见的概率分布几种常见的概率分布7.3.1 二项分布二项分布问题问题1 姚明的罚球命中率为姚明的罚球命中率为0.8,假设他每次命中率相同,假设他每次命中率相同,请问他某次比赛中请问他某次比赛中3罚罚2中的概率是多少?中
28、的概率是多少?问题问题2 随机抛掷一枚均匀硬币随机抛掷一枚均匀硬币100次,求恰好出现次,求恰好出现50次次正面的概率?正面的概率?问题问题3 随机抛掷一颗质地均匀的色子随机抛掷一颗质地均匀的色子n次,求恰好出现次,求恰好出现k次次5的概率?的概率?共同点:共同点:1)、每次试验是在同样的条件下进行的;)、每次试验是在同样的条件下进行的;2)、各次试验中的事件是相互独立的;)、各次试验中的事件是相互独立的;3)、每次试验都只有两种结果:)、每次试验都只有两种结果:A与与 4)、每次试验中事件)、每次试验中事件A发生的概率相同:发生的概率相同:P(A)=p。独立重复试验独立重复试验在同样条件下重
29、复的,各在同样条件下重复的,各次之间相互独立地进行的一种试验:在这种试次之间相互独立地进行的一种试验:在这种试验中,每一次试验只有两种结果,即某事或者验中,每一次试验只有两种结果,即某事或者发生,或者不发生,并且任意一次试验中发生发生,或者不发生,并且任意一次试验中发生的概率都是一样的。的概率都是一样的。二项分布主要说明的是当随机事件发生的二项分布主要说明的是当随机事件发生的结果有两种可能性时,发生其中一种结果结果有两种可能性时,发生其中一种结果X的的概率分布概率分布。判断下列试验是不是独立重复试验:1、依次投掷四枚质地不均匀的硬币,3次正面向上;2、某人射击,击中目标的概率是稳定的,他连续射
30、击了10次,其中6次击中;3、口袋装有5个白球,3个红球,2个黑球,从中依次取出5个球,恰好取出4个白球;(1)(1)!(1)1()!knn nnknCk knkk7.3.2 泊松分布7.3.3 均匀分布在测量实践中,均匀分布是经常遇到的一种分布,其主要特点是:测量值在某一范围中各处出现的机会一样,即均匀一致。故又称为矩形分布或等概率分布。均匀分布是连续型随机变量的密度函数。如果连续型随机变量的概率密度函数为:那么就称服从区间(a,b)上的均匀分布,记为XU(a,b)其概率分布函数为:均匀分布U(a,b)的均值和方差分别为:1()()0axbf xba其它01()()()()xaxaF xax
31、bbaxb2()abE X212()()baD X7.3.4 正态分布正态分布的特征正态分布的特征标准正态分布又称为标准正态分布又称为u分布,是分布,是以以0为为均数均数、以、以1为标准差为标准差的正态分布,记为的正态分布,记为N(0,1)。)。标准正态分布曲线下面积分布规律是:在标准正态分布曲线下面积分布规律是:在-1.96+1.96范范围内曲线下的面积等于围内曲线下的面积等于0.9500,在,在-2.58+2.58范围内曲范围内曲线下面积为线下面积为0.9900。统计学家还制定了一张统计用表(自。统计学家还制定了一张统计用表(自由度为由度为时),借助该表就可以估计出某些特殊时),借助该表就
32、可以估计出某些特殊u1和和u2值值范围内的曲线下面积。范围内的曲线下面积。(2)平均值与它的众数以及中位数同一数值。(3)函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。95.449974%的面积在平均数左右两个标准差的范围内。99.730020%的面积在平均数左右三个标准差的范围内。99.993666%的面积在平均数左右四个标准差的范围内。(4)函数曲线的反曲点为离平均数一个标准差距离的位置。7.4 参数估计与假设检验参数估计与假设检验7.4.1 几个基本概念统计量:来自总体X的一个样本的n元连续函数,该函数中不含任何未知参数,是一个随机变量。估计量:用于估计总体参数的随
33、机变量。如样本均值,样本比率、样本方差等样本均值x就是总体均值 的一个估计量估计值:估计参数时计算出来的统计量的具体值如果样本均值 x=80,则80就是的估计值7.4.2 参数估计参数估计是从样本出发构造一个统计量,作为总体中某未知参数的一个估计量,并用该样本统计量估计总体参数估计量的一种方法。参数估计分为点估计和区间估计。7.4.2.1 点估计点估计就是由样本构造的一个估计量 来估计总体的未知参数,并用样本估计量 的值直接作为总体参数的估计值。假设总体X 的分布函数为F(X;),其中为未知参数,X1,X2,Xn为总体的一个样本。构造的样本统计量 (X1,X2,Xn)称为未知参数的一个估计量。
34、如果(X1,X2,Xn)是样本的观测值,将其代入到统计量 中,就能够得到未知参数的估计值。点点 估估 计计(point estimate)用样本的估计量直接作为总体参数的估计值。例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计比如估计总体均值U,是选择样本均值作为统计量还是选择样本中位数作为统计量进行估计合适呢?合适的统计量需要具备以下几个性质:无偏性:指估计量抽样分布的数学期望与被估计的总体参数相等,即如果E()=,就称为的无偏估计量。有效性:对于同一个总体参数的两个无偏点估计量,标准差越小,估计量越有效。一致性:随着样本容量的增大,估计值越来越接近被
35、估计的总体参数值。即容量大的样本计算出来的估计值更接近于总体参数值。7.4.2.2 区间估计区间估计以样本统计量的概率分布为理论基础,按一定的概率要求,由样本统计量的值估计总体参数值的所在范围,就叫做总体参数的区间估计。在实际研究过程中,需要知道参数估计值落在其真值附近的一个范围,这种带有概率的区间称为置信区间。通常构造一个置信区间对未知参数进行估计的方法叫做区间估计。假设是总体的未知参数,L、U是由样本确定的两个统计量,对于给定的,如果满足P(L U)=1-,则称(L,U)为参数的置信度为1-的置信区间。其中为置信水平,1-为置信度或置信水平,01,常用的置信水平为0.01,0.05,0.1
36、0,对应的置信度为99%,95%,90%。L为置信下限,U为置信上限。置置 信信 水水 平平 1.将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平 2.表示为(1-为总体参数未在区间内的比率 3.常用的置信水平值有 99%,95%,90%相应的 为0.01,0.05,0.10 置置 信信 区区 间间(confidence interval)1.由样本统计量所构造的总体参数的估计区间称为置信区间 2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是
37、否包含总体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个总体均值的区间估计总体均值的区间估计(大样本)1.假定条件总体服从正态分布,且方差()未知如果不是正态分布,可由正态分布来近似(n 30)2.使用正态分布统计量 z3.总体均值 在1-置信水平下的置信区间为总体均值的区间估计总体均值的区间估计(例题分析)【例例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分
38、布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%总体均值的区间估计总体均值的区间估计(例题分析)解:解:已知N(,102),n=25,1-=95%,z/2=1.96。根据样本数据计算总体均值在1-置信水平下的置信区间为:25袋食品的重量袋食品的重量 112.5101.0103.0102.0100.5102.6107.5 95.0108.8115.6100.0123.5102.0101.6102.2116.6 95.4 97.8108.6105.0136.8102.8101.5 98.4 93.328.109,44.10192.336.105251096.136.10
39、52nzx该食品平均重量的置信区间为101.44g109.28g概率很小的事件,在一次试验中是不可能发生的,这一原理称为小概率原理。例如有人说,我厂生产的1000个产品中只有1个是次品.即次品率为1/1000,现从中随机抽取一个,结果恰是次品,此时我们会怀疑这人的说法,认为次品率不是1/1000。所以假设检验的基本思想可以概括成一句话:“是某种带有概率性质的反证法”。类似于数学中逻辑论证的反证法,但又区别于纯数学中逻辑推理的反证法。因为我们这里的所谓不合理,并不是绝对矛盾,而是基于小概率原理。7.4.3 假设检验假设检验 假设检验的判断依据是小概率事件是否会发生。在假设检验中,提出原假设的基本
40、依据是“小概率事件在一次实验中不会发生”。备择假设和原假设对立,即备择假设提出的基本依据是“小概率事件在一次实验中发生了”。如果样本统计结果显示小概率事件没有发生,则接受原假设,原假设成立;反之,拒绝原假设,备择假设成立。假设检验的一般步骤假设检验的一般步骤例2 安眠药睡眠时间服从正态分布,标准差为1.5小时,10人服用后,测得平均睡眠时间为21.15小时,该批号安眠药睡眠时间的总体均数是否高于20小时。=0.01 21.1520,1.5,10 xn解:已知故此题应采用右侧检验H0:=20,H1:207.5 方差分析方差分析7.5.1 方差分析基本概念 方差(Analysis of Varia
41、nce,ANOVA)是英国统计学家Fisher首先提出的,为纪念这位伟大的科学家,以F命名,将方差分析又称作F检验。在生产过程或科学试验中,影响生产或试验的因素会有很多,包括显著性因素和非显著性因素。方差分析正是判断显著性影响因素的有效方法。方差分析是以方差为检验对象的显著性检验。7.5.2 方差分析计算方法方差分析是对两个及以上样本均值差别的显著性检验,造成该差别的原因有两个:一类是不可控的随机因素,由此引起的误差称为随机误差;另一类是可控因素,由此引起的误差叫系统误差。所以方差分析的基本思想为,分析不同差异来源对总差异的贡献大小,进而明确可控因素对结果的影响力大小。不同的置信水平下,因素的
42、显著性程度是不一样的,具体情况见表7-2.比较区间显著性FF0.01F0.05FF0.01F0.25FF0.05表7-2不同显著性水平下的显著性判断准则表107总变异处理间变异+误差变异变异方差平方和除以自由度一、自由度和平方和的分解一、自由度和平方和的分解 方差方差是平方和除以自由度。要将一个试验资料的总变异分解为各个变异,首先必须将总平必须将总平方和和总自由度分解为各个变异的相应部分方和和总自由度分解为各个变异的相应部分。因此,自由度和平方和的分解是方差分析的第一步。下面用一个例子来说明这一问题。108 例例5.15.1以以A A、B B、C C、D D四种药剂处理水稻种四种药剂处理水稻种
43、子,每处理四个重复,各得子,每处理四个重复,各得4 4个苗高观察值个苗高观察值(cm)(cm),试分解其自由度和平方和。,试分解其自由度和平方和。药剂苗高观察值总和Ti平均数 A182120137218B202426229223C101517145614D2827293211629T=336iy1091 1、总变异、总变异 把表中的全部观察值作为一个组,根据前面讲过的计算平方和和自由度的公式,可以计算出总变异的平方和和与自由度。60244336322118)()(2222222nkyyyySST其中:nkTnky22)(为矫正数,用C表示。总平方和:110总自由度:DFT=nk-1=44-1=
44、151112、处理效应处理效应 如果没有处理效应,表中各个处理间平均数如果没有处理效应,表中各个处理间平均数来度量处理效应。来度量处理效应。iy从理论上讲均应该相等,因此,可以用从理论上讲均应该相等,因此,可以用iy112CnTSSit2处理间平方和和自由度:1 kDFt1135047056411656927222222CnTSSit3141 kDFt1143 3、误差、误差 表中重复间各观察值间,若不存在误差,则各观察值应该相等,由于误差是客观存在的,因而重复间各观察值间必然是有差异的,因此,可以用重复间的差异度量误差:etTetTDFDFDFSSSSSS,115 SSe=SST-SSt=6
45、02-504=98。DFe=(kn-1)-(k-1)=15-3=1217.8129800.168350422eeetttdfSSsdfSSs116平方和与自由度的分解表2TS变异来源DFSSS2处理间k-1误差kn-k总变异kn-1nkTy22nkTnTi22tTSSSS将上述例子推广到一般,设有k个处理,每个处理有n次重复,则资料共有nk个观察值,其数据分析如下表。2tSse2117二、二、F分布与分布与F测验测验(一)(一)F F 分布分布 在一个正态总体中随机抽取在一个正态总体中随机抽取两个样本两个样本,分别求得,分别求得其方差2121ssF 22s21s22s21s与,将和的比值定义为
46、F,那么F值的分布就是F分布。118按上述方法从正态总体中进行一系列抽样,就可得到一系列的F值而作成一个F分布。F分布是平均数F分布一定区间的概率可以从已制成的F值表中查出,表中给出了各种1、2下右尾概率=0.05、=0.01显著水平时的临界F值。119(二)(二)F F 测验测验 在方差分析中,在方差分析中,F F测验可用于检测某项变异测验可用于检测某项变异因素的效应是否存在。所以,在计算因素的效应是否存在。所以,在计算F F值时,总是值时,总是将要测验的那一项变异因素作分子,而以误差变将要测验的那一项变异因素作分子,而以误差变异作分母。异作分母。120例6.2测定东方红3号小麦蛋白质含量1
47、0次,得方差为S12=1.621,测定农大139小麦的蛋白质含量5次,得方差S22=0.135,两个蛋白质含量的变异差异是否显著?答:比较两个变异是否显著,用F测验。1、提出无效假设:21=222、确定显著水平:a=0.053、进行显著测验:2221ssF=1.621/0.139=12.01查F值表:F0.05=6.00F大于F0.05,差异显著。1212ts例6.3在例6.1中算得处理间方差=168.00,重复间方差2es=8.17,具有自由度1=3,2=12。试测验处理间变异与重复间变异差异是否显著?22etH0:22etHA:=0.0512256.2017.800.16822etssF查
48、附表5在123 将例将例6.16.1和例和例6.36.3的分析结果归纳在一起,列出的分析结果归纳在一起,列出方差分析表如下:方差分析表如下:变异来源变异来源DFSSS2FF0.05处理间变异处理间变异3504168.0020.563.49误差变异误差变异12988.17总变异总变异15602水稻药剂处理苗高方差分析表因此,进行方差分析,就是依据变异原因,计算出组间方差和组内方差,并且把组内方差作为试验误差,去检验组间方差的变异是否仅由试验误差所造成,还是由于品种不同造成。在实际计算时,我们是计算组间均方(SA2或MSA)和组内均方(Se2或MSe),然后计算出方差分析的检验统计量值 F,进行显著性检验,做出结论。7.5.3 方差分析的步骤方差分析的步骤