《统计实务》-第七章抽样推断.pptx_163文库

资源描述

1、统计实务项目7 抽样推断 1.了解抽样推断的概念、特点和作用，抽样误差的概念和影响因素，影响样本容量的因素。 2.理解抽样推断中的基本概念。 3.掌握抽样平均误差、抽样极限误差的意义和计算方法。 4.掌握点估计、区间估计的方法和步骤。 2019年6月6日是第24个 “全国爱眼日”，活动主题为 “共同呵护好孩子的眼健康，让他们拥有一个光明的未来”。自2016年开始，“全国爱眼日”的主题都聚焦在青少年儿童的近视防控上。青少年儿童是未来的希望，在电子产品泛滥的今天，青少年近视的发生率在逐年攀升，青少年近视防控问题已然成为当前社会面临的严峻问题之一，需要全社会的关注。张华所在学校领导为了做好

2、学生的眼睛保护工作，要求学生会对全校2950名学生的裸眼视力进行一次调查，估算全校学生视力合格率。根据学生视力合格标准，裸眼视力大于或等于5.0的为正常视力。任务1 认识抽样推断任务2 参数估计任务1 胡琴准备针对全校2950名学生的裸眼视力进行一次抽样调查，抽取其中200名学生进行视力检查。张华对此很好奇，她问胡琴： “这200名学生要如何选出来呢？如何根据这200名学生视力情况去推断2950名学生视力的合格情况呢？“ 认识抽样推断知识链接一抽样推断的含义抽样推断是按照随机原则从被研究的总体中选取一部分单位进行调查，并利用这一部分单位的数据去估计和推断总体的指标数值

3、的一种统计分析方法。用1人口抽样调查的结果来推断全国人口的情况。买西瓜时想了解西瓜甜不甜，可以在西瓜的某个部位切一个三角块尝一尝。例如果你去市场买水果，水果摊上有一大堆樱桃，摊主告诉你： ”可以挑，10元一斤；不许挑，6元一斤。 “你会如何选择？想一想知识链接二抽样推断的作用与全面调查相比，抽样推断既节省了人力、物力、财力和时间，又达到了认识总体数量特征的目的。其作用主要有以下几方面。 1. 抽样推断可以用千大规模总体或无限总体的调查 2. 对于具有破坏性的试验或检验，必须进行抽样推断 3. 抽样推断可以对全面调查资料的质量进行检验与修正，补充全面调查资料

4、4. 抽样推断可以用千工业生产过程中的质量控制 5. 抽样推断可以进行假设检验，判断真伪，决定行为取舍知识链接延伸阅读买火柴一天，爸爸让儿子帮忙去买一盒火柴。临出门前，爸爸嘱咐儿子要买能划燃的火柴。儿子拿着钱出门了，过了好一会儿，儿子才回到家。“ 火柴能划燃吗？”爸爸问。 “都能划燃。”儿子干脆地回答。 “你怎么这么肯定？”爸爸疑惑地问。儿子递过来一盒划过的火柴，兴奋地说 “我每根都试过啦。” 知识链接三抽样推断中的基本概念 1. 全及总体和样本总体 (1) 全及总体全及总体又称母体，简称总体，是指所要调查研究对象的全体。全及总体的单位数通常用N表示。 (2

5、) 样本总体样本总体又称子样，简称样本，是从全及总体中随机抽取出来，代表全及总体一部分单位所组成的集合体。样本总体的单位数通常用n表示。从500包袋装食品中，随机抽取50包进行合格率栓查，那么500包袋装食品就是全及总体，即总体单位数N=500 (包）。随机抽取的50包袋装食品就是样本总体，即样本单位数n=50 (包）。其中，全及总体500包袋装食品是唯一确定的，而样本总体 50包袋装食品则不是唯一的，因为一个全及总体可以抽出很多个样本总体。例知识链接 2. 全及指标和样本指标全及指标是根据全及总体计算的统计指标，又称总体指标。由千全及总体是唯一的，所以全及指标也是唯一的

6、。 (1) 全及指标样本指标是根据样本总体计算的统计指标，又称抽样指标。因为一个全及总体可能抽出很多个样本总体，所以样本总体不是唯一的，样本指标也就不是唯一的。 (2) 样本指标上述500包袋装食品的平均重量和合格率就是全及指标。例常用的全及指标有全及平均数X、全及成数P、全及方差和全及标准差。但是在抽样推断中，只能得到部分单位的标志值，不能直接计算全及指标，只能用样本指标去估计和推断全及指标。上述从500包袋装食品中抽取的50包袋装食品的平均重量和合格率就是样本指标。例常用的样本指标有样本平均数、样本成数 p、样本方差 s2 和样本标准差 s。知识链接

7、3. 样本容量和样本个数样本容量即样本单位数，是一个样本所包含的单位数，一般用n表示。一般来说，样本容量n远小于总体单位数N。在抽样推断中，n 30的样本称为大样本， n30的样本称为小样本。例如，要从某个果园的所有橘子中随机抽取30个橘子作为样本，因为n=30，这就是大样本。 (1) 样本容量样本个数又称样本可能数目，是指一个总体中可能抽取的样本个数。它与样本容量、抽样方式等因素有关。一个总体有多少个样本，样本统计量就有多少种取值，从而可以形成该统计量的分布。 (2) 样本个数从A、B、C、D4名学生中随机抽取2名学生组成一组参加学校的比赛。先从这4 人中随机抽取1人，共

8、有4种抽取方式，经登记后不放回原总体中，可能的样本数为：AB、AC、AD;BA、BC、BD;CA、CB、CD;DA、DB、DC。经分析，样本容量只有2个，而样本数目有12个。例知识链接 4. 重复抽样和不重复抽样重复抽样又称重置抽样，是指从全及总体中随机抽取一个样本单位，将该样本单位的标志表现登记后，把它放回全及总体，使之具有与其他单位同等被抽中的机会。因此，在整个抽样过程中，总体单位数始终保持不变。因为同一单位有多次被抽取的可能，所以重复抽样的误差稍大。从总体N个单位中，随机重复抽取n个单位组成样本，共可抽取M=Nn个可能样本。 (1) 重复抽样不重复抽样又称不重置

9、抽样，是每次从总体中抽选一个单位后就不再将其放回原总体中参加下一次的抽选。因此，每抽取一个单位，总体单位数就减少一个，同一个单位没有多次中选的可能。从总体N个单位中，随机不重复抽取n个单位组成样本，共可抽取可能样本数目为M=N (N1)(N2)(N-n+1)个可能样本。 (2) 不重复抽样从1，2，3中重复抽取2个数字组成新的数，可以组成的数有11，12，13，21， 22，23，31，32，33，一共9个。例从1，2，3中不重复抽取2个数字组成新的数，可以组成的数有12，13，21，23，31，32，一共6 个。例知识链接四抽样推断的组织方式 1 2 3 4

10、简单随机抽样简单随机抽样又称纯随机抽样，是不对总体做任何分组分类或排队，直接按照随机原则抽取样本的抽样方式，也是最基本的抽样形式。类型抽样类型抽样又称分层抽样，是将总体按某一标志进行分组，然后在每组中随机抽取所需的样本单位的抽样方式。等距抽样等距抽样又称机械抽样，是将总体各单位先按一定顺序排队，再按固定顺序或间隔抽取样本单位的抽样方式。整群抽样整群抽样又称区域抽样，是将总体单位分为若干群，按随机原则抽取一些群，将抽中的群的全部单位组成样本的抽样方式。知识链接延伸阅读曹雪芹的红楼梦曹雪芹的红楼梦是中国古代四大名著之一。相传他只写了红

11、楼梦的前80回，后40回由高鹗续写。事情已经过了几百年，可是对此仍没有一个定论。这个问题困扰了人们几百年，直到1986年，在美国举行的”红楼梦讨论会”上，有个叫陈炳藻的教授提出了一个惊人的推断：红楼梦是曹雪芹一个人写的，这个结论是计算机 ”算出来”的。他把曹雪芹常用的句式、词语和搭配方式等，作为样本输入计算机，然后把前80回和后40回做了一个比较，发现它们的联系程度有80%。由此他判断，红楼梦前80回和后40回都是曹雪芹一个人写的。上述推断红楼梦作者运用的就是抽样推断。任务实施 STEP 2 选择抽样方法。因为抽样调查的总体对象是全校2950名学生，所以胡琴决定采用不重复随

12、机抽样方式。 STEP 1 确定抽样调查总体。因为本次任务是了解全校学生的裸眼视力情况，所以抽样调查总体对象是全校2950名学生。 STEP 3 确定样本容量。本次抽样调查抽取200名学生进行视力检查，样本容量为200。 STEP 4 搜集整理样本资料。胡琴采用不重复随机抽样方式抽取200名学生进行视力检查，编制抽样登记表。胡琴登记、整理200名学生的裸眼视力。 STEP 5 根据搜集到的样本资料，计算相应的样本指标。 STEP 6 根据样本指标进行抽样推断。根据200名学生的裸眼视力合格率推断全校学生的视力合格率。任务2 胡琴从全校2950名学生中随机抽取200名学生进行视力检查

13、。经检查，有128人的视力是合格的。张华在胡琴的指导下，计算出200名学生的视力合格率为64%，采用不重复随机抽样，抽样平均误差为3.22%。胡琴对张华的工作感到很满意，她问张华：“若要求估计的极限误差不超过5.28%，如何估计合格率的区间及其概率保证度呢？” 参数估计知识链接一抽样误差抽样推断就是用样本指标去推断总体指标，这必然会产生一定的误差。抽样误差是客观存在的，但是必须控制在一定的范围内。 1. 误差种类登记性误差代表性误差登记性误差是指因主观或客观原因使登记出错造成的误差。如重复登记、遗漏、汇总计算错误及有意地弄虚作假等行为而引起的误差。代表性误差是

14、指在抽样推断中，因样本不足以代表总体而产生的误差。按其产生的原因不同分为系统性误差和随机误差。知识链接系统性误差是指违反了随机原则，有意抽取较好或较差的单位进行调查而造成的误差，如重点调查和典型调查。随机误差是指遵循随机原则，但由于样本不足以代表总体而产生的误差。某学校1500名学生的平均身高为165.2厘米，而抽样调查的150名学生的平均身高为168.6厘米，则由抽样而导致的误差（代表性误差）为168.6-165.2=3.4 （厘米）。例登记性误差与系统性误差都是可以防止或避免的，但随机误差是不可避免的，只能加以控制。我们通常所说的抽样误差指的就是随机误差。随机误

15、差其实就是抽样指标与总体指标之间的绝对离差，用公式表示为：知识链接延伸阅读一次重大错误的预测 1936年，文学文摘杂志预则：堪萨斯州州长阿尔弗兰登将会在总统选举中获得57%的选票，压倒性地超过富兰克林德兰诺罗斯福总统。然而，兰登最终只获得38%的选票，被罗斯福彻底地打败了。这次预则使这家杂志社名誉扫地，并最终导致其破产。为什么会出现这样的失误呢？究其原因是当时杂志社按照电话目录簿和汽车俱乐部成员名单向外派发了1000万份调查问卷，而当时电话和汽车十分昂贵，几乎是中产阶级的代名词，文学文摘忽略了这点，它的调查结果只能说明中产阶级更支持兰登，而实际上人数更多的收入不高的选

16、民则是罗斯福的忠实拥护者。杂志社的这一疏忽，导致误差太大，最终估计错误。富兰克林德兰诺罗斯福知识链接 2. 影响抽样误差的因素 1 4 2 3 样本容量n的大小抽样方法总体各单位标志值的差异程度抽样的组织形式知识链接为了了解本校学生对学校伙食的满意程度，小红调查了50名女生；小聪调查了50名男生；小明调查了24 名男生和24名女生，其中一年级、二年级和三年级的男生和女生各8名。你认为小红、小聪、小明三人的抽样方式哪一种最好？为什么？想一想 3. 抽样平均误差抽样平均误差是所有可能的样本指标和总体指标之间的平均离差，也就是样本指标的标准差。它用以综合反映抽样指标与样本

17、指标差异的程度，一般用符号表示。通常用抽样平均数的标准差或抽样成数的标准差等作为衡量其抽样误差一般水平的尺度。其计算公式为：式中：x表示样本平均数的抽样平均误差，x表示样本的平均数，X表示总体的平均数，M 表示全部可能的样本数目； p表示样本成数的抽样平均误差，p 表示样本的成数，P 表示总体的成数。知识链接假设有 A，B，C 3个工人，他们的日产零件数分别为30件，20件，10件，用重复抽样的方法，从中随机抽取2个工人的日产量组成一个样本，用以代表这3个工人的总体水平。该项调查中，N=3，n=2，X=20。例则样本平均数的抽样平均误差为：知识链接实际计算时，要根据抽样平均误

18、差利总体标准差之间的关系来推算。 (1) 平均数的抽样平均误差的计算在抽样淜查工作中，公式中总体的标准差通常是未知的，一般用样本的标准差s来代替。在不重复抽样中，如果总体单位很大，而样本单位很小时，接近于1。所以实际工作中，对采用不重复抽样的情况也往往采用重复抽样的公式来计算抽样平均误差。知识链接从某厂生产的10000根日光灯管中抽取100根进行检查，假定该产品平均使用寿命的标准差为100小时，计算该厂日光灯管平均使用寿命的平均误差。例重复抽样时不重复抽样时 (2) 成数的抽样平均误差的计算知识链接从某厂生产的10000根日光灯管中抽取100根进行检查，发现有5根不合

19、格，计算该厂日光灯管合格率的抽样平均误差。例样本合格率重复抽样时不重复抽样时知识链接 4. 抽样极限误差在抽样推断中，必须确定一个允许的误差范围，在这个范围内的数字均是有效的。统计上把这一允许的误差范围称为抽样极限误差，用表示。其计算公式为：表示抽样平均数的抽样极限误差；表示样本平均数；表示总体平均数。式中：式中：表示抽样成数的抽样极限误差；p表示样本成数；P 表示总体成数。把极限误差或分别除以或得相对数t，表示误差范围为抽样平均误差的 t 倍。t 是测量估计可靠程度的一个参数，称为抽样误差的概率度。知识链接平均数和成数的抽样极限误差用公式表示：知

20、识链接某公司库存一批水果罐头100000罐，随机抽取1000罐进行质栓，发现有20罐已变质，概率度t为2时，计算这批罐头中不合格率的抽样极限误差。例知识链接延伸阅读二战中的统计学家二战前期德国势头很猛，英国军队从敦刻尔克撤回到本岛，德国每天不定期地对英国军队狂轰乱炸，后来英国空军战力得到加强，双方空战不断。为了提高飞机的防护能力，英国的飞机设计师们决定给飞机增加护甲，但因重量问题只能增加一块。设计师们不清楚应该在什么地方增加护甲，于是求助于统计学家。统计学家将每架中弹之后仍然安全返航的飞机的中弹部位描绘在一张图上，然后将这些图叠放在一起，这样就形成了疏密不同的弹

21、孔分布图。然后统计学家很肯定地说，没有弹孔的地方就是应该增加护甲的地方，因为这个部位中弹的飞机都没能幸免于难。飞机弹孔分布图知识链接二参数估计的方法参数估计又称抽样估计，是利用实际调查计算的样本指标值来估计和推算相应的总体指标，其方法有点估计和区间估计两种。 1. 点估计点估计又称定值估计，是直接用样本指标来估计总体指标的方法。如用抽样平均数估计总体平均数，用抽样成数估计总体成数等，即一批2000件的产品，从中抽取100件进行检验，经检验合格产品为85件，试对这批产品的合格率及合格品数量做出点估计。例由此推断全部产品的合格率为85%，合格品数量2000X85%

22、1700 （件）。知识链接延伸阅读二战中的点估计二战期间，盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的，他们把坦克从1开始进行了连续编号。在战争过程中，盟军缴获了一些敌军坦克，并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢？在这个问题中，总体参数是未知的坦克总数N，而缴获坦克的编号则是样本。 N 的一个点估计公式是：先找到被缴获坦克编号的平均值，并认为这个值是全部编号的中位数。因此样本均值乘以2就是总数的一个估计。 N 的另一个点估计公式是：用观测到的最大编号乘以因子，其中n是被缴获坦克个数。假如缴获了10辆坦克，其中最大编号是5

23、0，那么坦克总数的一个估计就是从战后发现的德军记录来看，盟军的估计值非常接近德军所生产的坦克数量的真实值。记录还表明统计估计比通过其他情报方式做出的估计要大大接近于真实数值。统计学家们做得比间谍更漂亮！知识链接 2. 区间估计区间估计是指在一定概率保证程度下，根据样本指标和抽样极限误差去推断总体指标的可能范围的方法。区间估计是参数估计的主要方法。区间估计必须同时具备三个要素：估计值、抽样极限误差和概率保证程度。其基本计算公式为：因为，所以区间估计公式也可以表示为：区间估计的准确程度和可靠程度是矛盾的，在抽样估计时，只能对其中一个要素提出要求，去推断另一个要素的变动情况

24、。知识链接 3. 区间估计的方法步骤计算置信区间第四步计算抽样指标或 p 第一步计算抽样平均误差或第二步计算抽样极限误差或第三步常用概率度与置信概率正态分布概率表（摘录）知识链接某制鞋厂生产了20000双旅游鞋，采取重复抽样抽取1进行耐用时间的栓则，栓则结果及计算见下表。例计算在概率度为0.9545的条件下，这批旅游鞋的平均耐用时间的可能区间范围。如果旅游鞋耐用时间在350天以上是合格品，推算这批旅游鞋合格率的区间范围。 (1) 计算在概率度为0.9545的条件下，这批旅游鞋的平均耐用时间的可能区间范围。第一步，计算旅游鞋平均耐用时间，即第二步，计算旅游

25、鞋平均耐用时间的抽样平均误差标准差抽样平均误差第二步，计算旅游鞋平均耐用时间的抽样平均误差由查得则抽样极限误差第四步，计算旅游鞋平均耐用时间的置信区间。上限下限即计算结果表明，在95.45%的概率保证程度下，该批旅游鞋的平均耐用时间在368.03380.47天之间。 (2) 推算这批旅游鞋合格率的区间范围。第一步，计算旅游鞋合格率，即第二步，计算旅游鞋合格率的抽样平均误差抽样平均误差第三步，计算旅游鞋合格率的抽样极限误差由查得，则抽样极限误差第四步，计算旅游鞋合格率的置信区间。上限下限即计算结果表明，在95.45%的概率保证程度下，该批旅游鞋合格率在72.7%84.3%之间。任务实施 STEP 2 计算概率保证程度。 STEP 1 计算合格率的区间估计。努力造就实力态度决定高度

展开阅读全文

《统计实务》-第七章 抽样推断.pptx

《统计实务》-第七章抽样推断.pptx