1、第十模块 概率与统计 第四十八讲 随机抽样 用样本估计 总体 变量间的相互关系 统计案例 回归课本 1.样本及抽样的定义 (1)在数理统计中称研究对象的全体为总体,组成总体的每一 个基本单元为个体,从总体中抽取若干个个体x ,x ,x , 1 2n 这样的n个个体x ,x ,x 称为大小为n(容量为n)的一个样 1 2n 本. (2)抽样:抽样是为了获取总体的信息,特别在客观实际中对总 体的全部个体逐一进行研究,有的是不适宜 不可能或不必 要的.因此,抽样调查是获取总体信息的重要方法. 2.随机抽样 (1)简单随机抽样:从一个总体中通过逐个抽取的方法从中抽 取一个样本,且每次抽取时各个个体被抽
2、到的概率相等,这 样的抽样称为简单随机抽样.这样抽出的样本称为简单随 机样本.简单随机抽样的基本方法有抽签法和随机数表法. (2)系统抽样:系统抽样被称为等距抽样或机械抽样.它按照时 间或空间的等距间隔抽取样本,即将总体分成几个部分,然 后按照预先定出的规则,从每一部分抽取一个个体,得到所 需要的样本,这种抽样称为系统抽样.系统抽样与简单随机 抽样的联系在于:将总体均分后的每一部分进行抽样时,采 用的是简单随机抽样. (3)分层抽样:当总体中一部分个体与另一部分个体有明显的 差异且易于区别时,常将相近的个体归成一组,然后按照各 部分所占的比例进行抽样,这种抽样称为分层抽样.其中所 分成的各部分
3、称为层.分层抽样时,每一个个体被抽到的概 率都是相等的. 3.频率分布表 频率分布直方图与茎叶图 (1)频率分布 样本中所有数据(或者数据组)的频数和样本容量的比,就是该 数据的频率.所有数据(或者数据组)的频率的分布变化规律 叫做频率分布,可以用频率分布表 频率分布直方图 频率 分布折线图 茎叶图等来表示. (2)频率分布折线图:连接频率分布直方图中各小长方形上端 的中点,就得到频率分布折线图. (3)总体密度曲线 如果样本容量不断增大,分组的组距不断缩小,则频率分布直 方图实际上越来越接近于总体在各小组内所取值的个数与 总数比值的大小,它可以用一光滑曲线来描绘,这条光滑曲 线就叫做总体密度
4、曲线. (4)茎叶图表示数据有两个突出的优点,其一是统计图上没有 原始数据的损失,所有信息都可以从这个茎叶图中得到,其 二是在比赛时随时记录,方便记录与表示. 4.用样本的数字特征估计总体的数字特征 (1)众数,中位数,平均数 在一组数据中,出现次数最多的数据叫做这组数据的众数. 将一组数据按大小依次排列,把处在中间位置的一个数据(或 中间两个数据的平均数)叫做这组数据的中位数. 1 x (x +x +x )叫做这 如果n个数,x ,x ,x ,那么 1 2n12n n n个数的平均数. 总体中所有个体的平均数叫做总体平均数. 样本中所有个体的平均数叫做样本平均数,如果在n个数据中 ,x 出现
5、了f 次,x 出现f 次,x 出现f 次(这里 1122kk 1 f +f +f =n),那么(x f +x f +x f ),叫做这n x 1 2k1 12 2k k n 个数的加权平均数. 2 样本方差,标准差设样本的元素为x ,x ,x ,样本的 12n 1 2 2 2 2 平均数为x,定义s (x x) (x x)x) , 1 2 2n n 1 2 (x x) (x x) x) ,其中s 22表示样本 s 12n n 方差,s表示样本标准差. 5.两个变量的相关关系 (1)当自变量的取值一定时,因变量的取值带有随机性,这两个 变量之间的关系叫做相关关系. 如果一个变量的值由小变大时,另
6、一个变量的值也在由小到 大,这种相关称为正相关;反之,如果一个变量的值由小变大 时,另一个变量的值在由大到小,这种关系称为负相关.变量 间的这种关系与函数关系不同,它是一种非确定关系. (2)散点图:表示具有相关关系的两个变量的一组数据的图形 叫做散点图. 6.回归直线方程 (1)一般地,设x和y是具有相关关系的两个变量,且对应于n个 观测值的n个点大致分布在一条直线的附近,若所求的直线 y a bx,则 方程为 我们将这个方程叫做回归直线方程,a,b叫做回归系数,相应的 直线叫做回归直线. (2)最小二乘法 使离差平方和Q=(y -bx -a)2+(y -bx -a)2+(y -bx -a)
7、2为 1122nn 最小的方法,叫做最小二乘法. 7.回归分析 n i i x y nxy y ,a y bx, (1)回归直线方程 =bx+a中, b i 1 n nx 2 xi 2 i1 上述方程对应的直线叫做回归直线,而对两个变量所进行的 上述统计分析叫做线性回归分析. n 相关系数 x y nxy i i r i 1 n 2 2 2 i 2 i y ny x nx i1i1 用相关系数来描述线性相关关系的强弱.当r0时,两个变量正 相关;当r0时,两个变量负相关,r的绝对值越接近1,表明两 个变量的线性相关性越强,r的绝对值接近于0,表明两个变 量之间几乎不存在线性相关关系.通常当|r
8、|大于r 时,认 0.05 为两个变量有很强的线性相关关系,因而求回归直线方程 才有意义. 数据点和它在回归直线上相应位置的差异(y - )是随机误 y 1i 差效应,称 =y - 为残差,将所得值平方后加起来,用数 e yiii n ii 学符号表示为(y - )2称为残差平方和,它代表了随 y i1 机误差的效应. 8.独立性检验 (1)分类变量的定义 如果某种变量的不同“值”表示个体所属的不同类别,像这 样的变量称为分类变量. (2)22列联表 一般地,假设有两个分类变量X和Y,它们的值域分别为x ,x 1 2 和y ,y ,其样本频数列联表(称为22列联表)为 1 2 y1 a y2
9、b 总计 a+bx1 x2cdc+d 总计a+cb+da+b+c+d 2 n(ad bc) (a b)(c d)(a c)(b d) 来的统计假设H ,如果K2值较大,就拒绝H ,即拒绝事件A与 K2=用它的大小可以决定是否拒绝原 00 B无关. 考点陪练 1.(2010重庆)某单位有职工750人,其中青年职工350人,中 年职工250人,老年职工150人,为了了解该单位职工的健康 情况,用分层抽样的方法从中抽取样本.若样本中的青年职 工为7人,则样本容量为( ) A.7B.15 C.25D.35 350 解析:设样本容量为n,则依题意有 答案:B n=7,n=15,选B. 750 2.(20
10、10湖北)将参加夏令营的600名学生编号为 :001,002,600.采用系统抽样方法抽取一个容量为50的 样本,且随机抽得的号码为003.这600名学生分住在三个营 区,从001到300的第营区,从301到495在第营区,从496 到600在第营区,三个营区被抽中的人数依次为( ) A.26,16,8 C.25,16,9 B.25,17,8 D.24,17,9 解析:依题意及系统抽样的意义可知,将这600名学生按编号 依次分成50组,每一组各有12名学生,第k(kN*)组抽中的 103 号码是3+12(k-1).令3+12(k-1)300,得k ,因此第营 4 103 区被抽中的人数是25;
11、令3003+12(k-1)495得 10.828,所以我们有99.9%的把握说,A,B两药对 该病的治愈率之间有显著差别. 方法与技巧 上述结论是对所有服用A药或B药的病人而言 的,绝不要误以为只对100个病人成立.这就体现了统计的 意义,即由样本推断出全体. 技法二数形结合思想 【典例2】 为了了解中学生的身高情况,对某中学同龄的若 干女生的身高进行测量,将所得数据整理后,画出频率分布 直方图如图所示,已知图中从左到右15组的频率分别为 0.05,0.10,0.15,0.15,0.30,68组的频数分别为7,5,3,第二 小组的频数为6. (1)画出频率分布表; (2)试问这组数据中的中位数
12、在哪个身高的范围内? (3)如果本次测试身高在157 cm以上(包括157 cm)的为良好, 试估计该校女生身高良好率是多少? 解题切入点 通过第二组的频数和频率先求出学生总数,其 他问题就十分容易解决了,主要考查同学们对频率分布表 和频率分布直方图的掌握情况,考查识图 读图的能力,以及 灵活运用图 表解决实际问题的能力. 解 (1)因为第二组的频数是6,频率是0.1,所以学生总数为 60.1=60, 所以15组的频数分别为3,6,9,9,18; 7 1 68组的频率分别为 , , 0.05, 60 12 频率分布表如下表所示: 分组频数 3 频率 0.05 0.10 0.15 0.15 0.30 0.12 0.08 0.05 1.00 145,148) 148,151) 151,154) 154,157) 157,160) 160,163) 163,166) 166,169) 合计 6 9 9 18 7 5 3 60 (2)中位数在157 cm160 cm之间. (3)因为1-0.05-0.1-0.15-0.15=0.55,所以良好率是0.55. 方法与技巧 数形结合的思想是重要的思想方法之一,具有 直观性 灵活性,有较强的综合性.数形结合的思想的实质就 是把抽象的数学语言与直观的图形结合起来,使抽象思维 与形象思维结合起来.