1、统计实务 项目7 抽样推断 1.了解抽样推断的概念、特点和作用,抽样误差的概念和影响因素,影响样本容量的因素。 2.理解抽样推断中的基本概念。 3.掌握抽样平均误差、抽样极限误差的意义和计算方法。 4.掌握点估计、区间估计的方法和步骤。 2019年6月6日是第24个 “全国爱眼日”,活动主题为 “共同呵护好孩子的眼健康,让他 们拥有一个光明的未来”。自2016年开始,“全国爱眼日”的主题都聚焦在青少年儿童的近视 防控上。青少年儿童是未来的希望,在电子产品泛滥的今天,青少年近视的发生率在逐年 攀升,青少年近视防控问题已然成为当前社会面临的严峻问题之一,需要全社会的关注。 张华所在学校领导为了做好
2、学生的眼睛保护工作,要求学生会对全校2950名学生的裸眼视 力进行一次调查,估算全校学生视力合格率。根据学生视力合格标准,裸眼视力大于或等 于5.0的为正常视力。 任务1 认识抽样推断 任务2 参数估计 任务1 胡琴准备针对全校2950名学生的裸眼视力进行一次抽样调查,抽取其中200名学生进行视 力检查。张华对此很好奇,她问胡琴: “这200名学生要如何选出来呢? 如何根据这200名学 生视力情况去推断2950名学生视力的合格情况呢?“ 认识抽样推断 知识链接 一 抽样推断的含义 抽样推断是按照随机原则从被研究的总体中选取一部分单位进行调查,并利用这一部分单位的数据 去估计和推断总体的指标数值
3、的一种统计分析方法。 用1人口抽样调查的结果来推断全国人口的情况。买西瓜时想了解西瓜甜不甜,可以在西瓜的某个部位切一个三角块尝一 尝。 例 如果你去市场买水果,水果摊上有一大堆樱桃,摊主告诉你: ”可以挑,10元一斤;不许挑,6元一斤。 “你会如何选择? 想一想 知识链接 二 抽样推断的作用 与全面调查相比,抽样推断既节省了人力、物力、财力和时间,又达到了认识总体数量特征的目的。 其作用主要有以下几方面。 1. 抽样推断可以 用千大规模总体或无限 总体的调查 2. 对于具有破坏 性的试验或检验,必须 进行抽样推断 3. 抽样推断 可以对全面调查 资料的质量进行 检验与修正,补 充全面调查资料
4、4. 抽样推断 可以用千工业生 产过程中的质量 控制 5. 抽样推断 可以进行假设检 验,判断真伪, 决定行为取舍 知识链接 延伸阅读 买火柴 一天,爸爸让儿子帮忙去买一盒火柴。临出门前,爸爸嘱咐儿 子要买能划燃的火柴。 儿子拿着钱出门了,过了好一会儿,儿子才回到家。“ 火柴能划 燃吗?”爸爸问。 “都能划燃。”儿子干脆地回答。 “你怎么这么肯定?”爸爸疑惑地问。 儿子递过来一盒划过的火柴,兴奋地说 “我每根都试过啦。” 知识链接 三 抽样推断中的基本概念 1. 全及总体和样本总体 (1) 全及总体 全及总体又称母体,简称总体,是指所要调查研 究对象的全体。全及总体的单位数通常用N表示。 (2
5、) 样本总体 样本总体又称子样,简称样本,是从全及总体中 随机抽取出来,代表全及总体一部分单位所组成的集 合体。样本总体的单位数 通常用n表示。 从500包袋装食品中,随机抽取50包进行合格率栓查,那么500包袋装食品就是全及总体,即总体单位数N=500 (包)。随 机抽取的50包袋装食品就是样本总体,即样本单位数n=50 (包)。其中,全及总体500包袋装食品是唯一确定的,而样本总体 50包袋装食品则不是唯一的,因为一个全及总体可以抽出很多个样本总体。 例 知识链接 2. 全及指标和样本指标 全及指标是根据全及总体计算的统计指标,又称 总体指标。由千全及总体是唯一的,所以全及指标也 是唯一的
6、。 (1) 全及指标 样本指标是根据样本总体计算的统计指标,又称 抽样指标。因为一个全及总体可能抽出很多个样本总 体,所以样本总体不是唯一的,样本指标也就不是唯 一的。 (2) 样本指标 上述500包袋装食品的平均重量和合格率就是全及指标。 例 常用的全及指标有全及平均数X、全及成数P、 全及方差 和全及标准差 。但是在抽样推断中,只 能得到部分单位的标志值,不能直接计算全及指标, 只能用样本指标去估计和推断全及指标。 上述从500包袋装食品中抽取的50包袋装食品的平 均重量和合格率就是样本指标。 例 常用的样本指标有样本平均数 、样本成数 p、 样本方差 s2 和样本标准差 s。 知识链接
7、3. 样本容量和样本个数 样本容量即样本单位数,是一个样本所包含的单 位数,一般用n表示。一般来说,样本容量n远小于总 体单位数N。在抽样推断中,n 30的样本称为大样本, n30的样本称为小样本。例如,要从某个果园的所 有橘子中随机抽取30个橘子作为样本,因为n=30,这 就是大样本。 (1) 样本容量 样本个数又称样本可能数目,是指一个总体中可 能抽取的样本个数。它与样本容量、抽样方式等因素 有关。一个总体有多少个样本,样本统计量就有多少 种取值,从而可以形成该统计量的分布。 (2) 样本个数 从A、B、C、D4名学生中随机抽取2名学生组成一组参加学校的比赛。先从这4 人中随机抽取1人,共
8、有4种抽取方式,经 登记后不放回原总体中,可能的样本数为:AB、AC、AD;BA、BC、BD;CA、CB、CD;DA、DB、DC。 经分析,样本容量只有2个,而样本数目有12个。 例 知识链接 4. 重复抽样和不重复抽样 重复抽样又称重置抽样,是指从全及总体中随机 抽取一个样本单位,将该样本单位的标 志表现登记后, 把它放回全及总体,使之具有与其他单位同等被抽中 的机会。因此,在整个抽样过程中,总体单位数始终 保持不变。因为同一单位有多次被抽取的可能,所以 重复抽样的误差稍大。从总体N个单位中,随机重复 抽取n个单位组成样本,共可抽取M=Nn个可能样本。 (1) 重复抽样 不重复抽样又称不重置
9、抽样,是每次从总体中抽 选一个单位后就不再将其放回原总体中参加下一次的 抽选。因此,每抽取一个单位,总体单位数就减少一 个,同一个单位没有多次中选的可能。从总体N个单 位中,随机不重复抽取n个单位组成样本,共可抽取 可能样本数目为M=N (N1)(N2)(N-n+1)个可能 样本。 (2) 不重复抽样 从1,2,3中重复抽取2个数字组成新的数,可以 组成的数有11,12,13,21, 22,23,31,32,33, 一共9个。 例 从1,2,3中不重复抽取2个数字组成新的数, 可以组成的数有12,13,21,23,31,32,一共6 个。 例 知识链接 四 抽样推断的组织方式 1 2 3 4
10、简单随机抽样 简单随机抽样又称纯随 机抽样,是不对总体做任何 分组 分类或排队,直接按 照随机原则抽取样本的抽样 方式,也是最基本的抽样形 式。 类型抽样 类型抽样又称分层抽样, 是将总体按某一标志进行分 组,然后在每组中随机抽取 所需的 样本单位的抽样方 式。 等距抽样 等距抽样又称机械抽样, 是将总体各单位先按一定顺 序排队,再按固定顺序或间 隔抽取样本单位的抽样方式。 整群抽样 整群抽样又称区域抽样, 是将总体单位分为若干群, 按随机原则抽取一些群,将 抽中的 群的全部单位组成 样本的抽样方式。 知识链接 延伸阅读 曹雪芹的红楼梦 曹雪芹的红楼梦是中国古代四大名著之一。相传他只写 了 红
11、楼梦的前80回,后40回由高鹗续写。事情已经过了几 百年,可是对此仍没有一个定论。这个问题困扰了人们几百年, 直到1986年,在美国举行的”红楼梦讨论会”上,有个叫陈炳 藻的教授提出了一个惊人的推断:红楼梦是曹雪芹一个人写 的,这个结论是计算机 ”算出来”的。 他把曹雪芹常用的句式、词语和搭配方式等,作为样本输入 计算机,然后把前80回和后40回做了一个比较,发现它们的联系 程度有80%。由此他判断,红楼梦前80回和后40回都是曹雪 芹一个人写的。上述推断红楼梦作者运用的就是抽样推断。 任务实施 STEP 2 选择抽样方法。 因为抽样调查的总体对象是全校2950名学生,所以胡琴决定采用不重复随
12、机抽样方式。 STEP 1 确定抽样调查总体。 因为本次任务是了解全校学生的裸眼视力情况,所以抽样调查总体对象是全校2950名学生。 STEP 3 确定样本容量。 本次抽样调查抽取200名学生进行视力检查,样本容量为200。 STEP 4 搜集整理样本资料。 胡琴采用不重复随机抽样方式抽取200名学生进行视力检查,编制抽样登记表。 胡琴登记、整理200名学生的裸眼视力。 STEP 5 根据搜集到的样本资料,计算相应的样本指标。 STEP 6 根据样本指标进行抽样推断。 根据200名学生的裸眼视力合格率推断全校学生的视力合格率。 任务2 胡琴从全校2950名学生中随机抽取200名学生进行视力检查
13、。经检查,有128人的视力是 合格的。张华在胡琴的指导下,计算出200名学生的视力合格率为64%,采用不重复随机抽样, 抽样平均误差为3.22%。胡琴对张华的工作感到很满意,她问张华:“若要求估计的极限误差 不超过5.28%,如何估计合格率的区间及其概率保证度呢?” 参数估计 知识链接 一 抽样误差 抽样推断就是用样本指标去推断总体指标,这必然会产生一定的误差。抽样误差是客观存在的,但 是必须控制在一定的范 围内。 1. 误差种类 登记性误差 代表性误差 登记性误差是指因主观或客 观原因使登记出错造成的误差。 如重复登记、遗漏、汇总计算错 误及有意地弄虚作假等行为而引 起的误差。 代表性误差是
14、指在抽样推断 中,因样本不足以代表总体而产 生的误差。按其产生的原因不同 分为系统性误差和随机误差。 知识链接 系统性误差是指违反了随机原则,有意 抽取较好或较差的单位进行调查而造成的误 差,如重点调查和典型调查。 随机误差是指遵循随机原则,但由于样 本不足以代表总体而产生的误差。 某学校1500名学生的平均身高为165.2厘米,而抽样调查的150名学生的平均身高为168.6厘米,则由抽样而导致的误差 (代表性误差)为168.6-165.2=3.4 (厘米)。 例 登记性误差与系统性误差都是可以防止或避免的,但随机误差是不可避免的,只能加以控制。我们 通常所说的抽样误差指的就是随机误差。随机误
15、差其实就是抽样指标与总体指标之间的绝对离差,用公 式表示为: 知识链接 延伸阅读 一次重大错误的预测 1936年,文学文摘杂志预则:堪萨斯州州长阿尔弗兰 登将会在总统选举中获得57%的选票,压倒性地超过富兰克林 德兰诺罗斯福总统。然而,兰登最终只获得38%的选票,被罗 斯福彻底地打败了。这次预则使这家杂志社名誉扫地,并最终导 致其破产。为什么会出现这样的失误呢? 究其原因是当时杂志社按照电话目录簿和汽车俱乐部成员名 单向外派发了1000万份调查问卷,而当时电话和汽车十分昂贵, 几乎是中产阶级的代名词,文学文摘忽略了这点,它的调查 结果只能说明中产阶级更支持兰登,而实际上人数更多的收入不 高的选
16、民则是罗斯福的忠实拥护者。杂志社的这一疏忽,导致误 差太大,最终估计错误。 富兰克林德兰诺罗斯福 知识链接 2. 影响抽样误差的因素 1 4 2 3 样本容量n的大小 抽样方法 总体各单位标志值的差异程度 抽样的组织形式 知识链接 为了了解本校学生对学校伙食的满意程度,小红调查了50名女生;小聪调查了50名男生;小明调查了24 名男生和24名女生,其中一年级、二年级和三年级的男生和女生各8名。你认为小红、小聪、小明三人的抽样 方式哪一种最好? 为什么? 想一想 3. 抽样平均误差 抽样平均误差是所有可能的样本指标和总体指标之间的平均离差,也就是样本指标的 标准差。它 用以综合反映抽样指标与样本
17、指标差异的程度,一般用符号表示。通常用抽样平均数的标准差或抽样 成数的标准差等作为衡量其抽样误差一般水平的尺度。其计算公式为: 式中:x表示样本平均数的抽样平均误差,x表示样本的平均数,X表示总体的平均数,M 表示全部可能的样本数目; p表示样本成数的抽样平均误差,p 表示样本的成数,P 表示总体的成数。 知识链接 假设有 A,B,C 3个工人,他们的日产零件数分别为30件,20件,10件,用重复抽样的方法,从中随机抽取2个工人的日 产量组成一个样本,用以代表这3个工人的总体水平。该项调查中,N=3,n=2,X=20。 例 则样本平均数的抽样平均误差为: 知识链接 实际计算时,要根据抽样平均误
18、差利总体标准差之间的关系来推算。 (1) 平均数的抽样平均误差的计算 在抽样淜查工作中,公式中总体的标准差 通常是未知的,一般用样本的标准差s来代替。在不重 复抽样中,如果总体单位很大,而样本单位很小时, 接近于1。所以实际工作中,对采用不重复 抽样的情况也往往采用重复抽样的公式来计算抽样平均误差。 知识链接 从某厂生产的10000根日光灯管中抽取100根进行检查,假定该产品平均使用寿命的标准差为100小时,计算该厂日光灯管 平均使用寿命的平均误差。 例 重复抽样时 不重复抽样时 (2) 成数的抽样平均误差的计算 知识链接 从某厂生产的10000根日光灯管中抽取100根进行检查,发现有5根不合
19、格,计算该厂日光灯管合格率的抽样平均误差。 例 样本合格率 重复抽样时 不重复抽样时 知识链接 4. 抽样极限误差 在抽样推断中,必须确定一个允许的误差范围,在这个范围内的数字均是有效的。统计上把这一允 许的误差范围称为抽样极限误差,用 表示。其计算公式为: 表示抽样平均数的抽样极限误差; 表示样本平均数; 表示总体平均数。 式中: 式中: 表示抽样成数的抽样极限误差;p表示样本成数;P 表示总体成数。 把极限误差 或 分别除以 或 得相对数t,表示误差范围为抽样平均误差的 t 倍。t 是 测量估计可靠程度的一个参数,称为抽样误差的概率度。 知识链接 平均数和成数的抽样极限误差用公式表示: 知
20、识链接 某公司库存一批水果罐头100000罐,随机抽取1000罐进行质栓,发现有20罐已变质,概率度t为2时,计算这批罐头中不合 格率的抽样极限误差。 例 知识链接 延伸阅读 二战中的统计学家 二战前期德国势头很猛,英国军队从敦刻尔克撤回到本 岛,德国每天不定期地对英国军队狂轰乱炸,后来英国空 军战力得到加强,双方空战不断。 为了提高飞机的防护能力,英国的飞机设计师们决定给 飞机增加护甲,但因重量问题只能增加一块。设计师们不 清楚应该在什么地方增加护甲,于是求助于统计学家。统 计学家将每架中弹之后仍然安全返航的飞机的 中弹部位描 绘在一张图上,然后将这些图叠放在一起,这样就形成了 疏密不同的弹
21、孔分布图。然后统计学家很肯定地说,没有 弹孔的地方就是应该增加护甲的地方,因为这个部位中弹 的飞机都没能幸免于难。 飞机弹孔分布图 知识链接 二 参数估计的方法 参数估计又称抽样估计,是利用实际调查计算的样本指标值来估计和推算相应的总体指标,其方法 有 点估计 和 区间估计 两种。 1. 点估计 点估计又称定值估计,是直接用样本指标来估计总体指标的方法。如用抽样平均数估计总体平均数, 用抽样成数估计总体成数等,即 一批2000件的产品,从中抽取100件进行检验,经检验合格产品为85件,试对这批产品的合格率及合格品数量做出点估计。 例 由此推断全部产品的合格率为85%,合格品数量2000X85%
22、1700 (件)。 知识链接 延伸阅读 二战中的点估计 二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨 守成规 的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录 了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢? 在这个问题中,总体参数是 未知的坦克总数N,而缴获坦克的编号则是样本。 N 的一个点估计公式是:先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中 位数。因此样本均值乘以2就是总数的一个估计。 N 的另一个点估计公式是:用观测到的最大编号乘以因子 ,其中n是被缴获坦克个数。 假如缴获了10辆坦克,其中最大编号是5
23、0,那么坦克总数的一个估计就是 从战后发现的德军记录来看,盟军的估计值非常接近德军所生产的坦克数量的真实值。记 录还表明统计估计比通过其他情报方式做出的估计要大大接近于真实数值。统计学家们做得比 间谍更漂亮! 知识链接 2. 区间估计 区间估计是指在一定概率保证程度下,根据样本指标和抽样极限误差去推断总体指标的可能范围的 方法。区间估计是参数估计的主要方法。 区间估计必须同时具备三个要素:估计值、抽样极限误差 和 概率保证程度。其基本计算公式为: 因为 ,所以区间估计公式也可以表示为: 区间估计的准确程度和可靠程度是矛盾的,在抽样估计时,只能对其中一个要素提出要求,去推断 另一个要素的变动情况
24、。 知识链接 3. 区间估计的方法步骤 计算置信区间 第四步 计算抽样指标 或 p 第一步 计算抽样平均误差 或 第二步 计算抽样极限误差 或 第三步 常用概率度与置信概率正态分布概率表 (摘录) 知识链接 某制鞋厂生产了20000双旅游鞋,采取重复抽样抽取1进行耐用时间的栓则,栓则结果及计算见下表。 例 计算在概率度为0.9545的条件下,这批旅游鞋的平均耐用时间的可能区间范围。如果旅游鞋耐用时间在350天以上是合格 品,推算这批旅游鞋合格率的区间范围。 (1) 计算在概率度为0.9545的条件下,这批旅游鞋的平均耐用时间的可能区间范围。 第一步,计算旅游鞋平均耐用时间,即 第二步,计算旅游
25、鞋平均耐用时间的抽样平均误差 标准差 抽样平均误差 第二步,计算旅游鞋平均耐用时间的抽样平均误差 由 查得 则抽样极限误差 第四步,计算旅游鞋平均耐用时间的置信区间。 上限 下限 即 计算结果表明,在95.45%的概率保证程度下,该批旅游鞋的平均耐用时间在368.03380.47天之间。 (2) 推算这批旅游鞋合格率的区间范围。 第一步,计算旅游鞋合格率,即 第二步,计算旅游鞋合格率的抽样平均误差 抽样平均误差 第三步,计算旅游鞋合格率的抽样极限误差 由 查得 ,则抽样极限误差 第四步,计算旅游鞋合格率的置信区间。 上限 下限 即 计算结果表明,在95.45%的概率保证程度下,该批旅游鞋合格率在72.7%84.3%之间。 任务实施 STEP 2 计算概率保证程度。 STEP 1 计算合格率的区间估计。 努力造就实力 态度决定高度