1、第二章第二章 统计统计 单元复习单元复习第一课时第一课时 知识结构知识结构统计统计用样本估计总体用样本估计总体随机抽样随机抽样简单随机抽样简单随机抽样系统抽样系统抽样分层抽样分层抽样变量间的相关关系变量间的相关关系用样本的频率用样本的频率布估计总体分布布估计总体分布用样本的数字特征用样本的数字特征估计总体数字特征估计总体数字特征线性回归分析线性回归分析知识梳理知识梳理1.简单随机抽样简单随机抽样(1)思想:设一个总体有思想:设一个总体有N个个体,个个体,从中从中逐个不放回地抽取逐个不放回地抽取n个个体作为样本,个个体作为样本,如果每次抽取时总体内的各个个体被抽如果每次抽取时总体内的各个个体被抽
2、到的机会都相等,到的机会都相等,则这种抽样方法叫做则这种抽样方法叫做简单随机抽样简单随机抽样.抽签法:抽签法:第一步,将总体中的所有个体编号,并第一步,将总体中的所有个体编号,并把号码写在形状、大小相同的号签上把号码写在形状、大小相同的号签上.第二步,将号签放在一个容器中,并搅第二步,将号签放在一个容器中,并搅拌均匀拌均匀.第三步,每次从中抽取一个号签,连续第三步,每次从中抽取一个号签,连续抽取抽取n次,就得到一个容量为次,就得到一个容量为n的样本的样本.(2)步骤:步骤:随机数表法:随机数表法:第一步,将总体中的所有个体编号第一步,将总体中的所有个体编号.第二步,在随机数表中任选一个数作为第
3、二步,在随机数表中任选一个数作为起始数起始数.第三步,从选定的数开始依次向右第三步,从选定的数开始依次向右(向左、向左、向上、向下向上、向下)读,将编号范围内的数取出,读,将编号范围内的数取出,编号范围外的数去掉,直到取满编号范围外的数去掉,直到取满n个号码个号码为止,就得到一个容量为为止,就得到一个容量为n的样本的样本.2.系统抽样系统抽样(1)思想:将总体分成均衡的思想:将总体分成均衡的n个部分,再按个部分,再按照预先定出的规则,从每一部分中抽取照预先定出的规则,从每一部分中抽取1个个个个体,即得到容量为体,即得到容量为n的样本的样本.(2)步骤:步骤:第一步,将总体的第一步,将总体的N个
4、个体编号个个体编号.第二步,确定分段间隔第二步,确定分段间隔k,对编号进行分段,对编号进行分段.第三步,在第第三步,在第1段用简单随机抽样确定起始个段用简单随机抽样确定起始个体编号体编号.第四步,按照一定的规则抽取样本第四步,按照一定的规则抽取样本.3.分层抽样分层抽样(1)思想:若总体由差异明显的几部分组成,抽样思想:若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,再的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本将各层取出的个体合在一起作为样本.(2)步骤
5、:步骤:第一步,计算样本容量与总体的个体数之比第一步,计算样本容量与总体的个体数之比.第二步,将总体分成互不交叉的层,按比例确定第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数各层要抽取的个体数.第三步,用简单随机抽样或系统抽样在各层中抽第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体取相应数量的个体.第四步,将各层抽取的个体合在一起,就得到所第四步,将各层抽取的个体合在一起,就得到所取样本取样本.4.频率分布表频率分布表(1)含义:表示样本数据分布规律的表格含义:表示样本数据分布规律的表格.(2)作法:作法:第一步,求极差第一步,求极差.第二步,决定组距与组数第二步,决
6、定组距与组数.第三步,确定分点,将数据分组第三步,确定分点,将数据分组.第四步,统计频数,计算频率,制成表第四步,统计频数,计算频率,制成表格格.5.频率分布直方图频率分布直方图(1)含义:表示样本数据分布规律的图形含义:表示样本数据分布规律的图形.(2)作法:作法:第一步,画平面直角坐标系第一步,画平面直角坐标系.第二步,在横轴上均匀标出各组分点,第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度在纵轴上标出单位长度.第三步,以组距为宽,各组的频率与组第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长距的商为高,分别画出各组对应的小长方形方形.6.频率分布折线图频率分布
7、折线图 在频率分布直方图中,依次连接各小在频率分布直方图中,依次连接各小长方形上端中点得到的一条折线,称为长方形上端中点得到的一条折线,称为频率分布折线图频率分布折线图.7.总体密度曲线总体密度曲线 当总体中的个体数很多时,随着样本当总体中的个体数很多时,随着样本容量的增加,所分的组数增多,组距减容量的增加,所分的组数增多,组距减少,相应的频率分布折线图越来越接近少,相应的频率分布折线图越来越接近于一条光滑曲线,统计中称这条光滑曲于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线线为总体密度曲线.8.茎叶图茎叶图作法:作法:第一步,将每个数据分为第一步,将每个数据分为“茎茎”(高位高位)和和“
8、叶叶”(低位低位)两部分;两部分;第二步,将最小的茎和最大的茎之间的第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左数按大小次序排成一列,写在左(右右)侧;侧;第三步,将各个数据的叶按大小次序写第三步,将各个数据的叶按大小次序写在茎右在茎右(左左)侧侧.9.众数、中位数和平均数众数、中位数和平均数众数:频率分布直方图最高矩形下端中众数:频率分布直方图最高矩形下端中点的横坐标点的横坐标.中位数:频率分布直方图面积平分线的中位数:频率分布直方图面积平分线的横坐标横坐标.平均数:频率分布直方图中每个小矩形平均数:频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积的面积与小矩形
9、底边中点的横坐标之积的总和的总和.10.标准差标准差11.相关关系相关关系 自变量取值一定时,因变量的取值带自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,有一定随机性的两个变量之间的关系,叫做相关关系叫做相关关系.12.散点图散点图 在平面直角坐标系中,表示具有相关在平面直角坐标系中,表示具有相关关系的两个变量的一组数据图形,称为关系的两个变量的一组数据图形,称为散点图散点图.22212()()()nxxxxxxsn-+-+-=L 如果散点图中的点的分布,从整体上如果散点图中的点的分布,从整体上看大致在一条直线附近,则称这两个变看大致在一条直线附近,则称这两个变量之间具有线
10、性相关关系,这条直线叫量之间具有线性相关关系,这条直线叫做回归直线做回归直线.13.回归直线回归直线14.回归方程回归方程ybxa1122211()(),()nniiiiiinniiiixxyyx ynx ybaybxxxxnx巩固练习巩固练习例例1 为了了解某地参加计算机水平测试为了了解某地参加计算机水平测试的的5000名学生的成绩,从中抽取了名学生的成绩,从中抽取了200名名学生的成绩进行统计分析,在这个问题学生的成绩进行统计分析,在这个问题中,中,5000名学生成绩的全体是名学生成绩的全体是 ()A.总体总体 B.个体个体 C.从总体中抽取的一个样本从总体中抽取的一个样本 D.样样本的容
11、量本的容量A 例例2 在在2002年春季,一家著名的全国性连年春季,一家著名的全国性连锁服装店,进行了一项关于当年秋季服装流锁服装店,进行了一项关于当年秋季服装流行色的民意调查行色的民意调查.调查者通过向顾客发放饮料,调查者通过向顾客发放饮料,并让顾客通过挑选饮料杯上印着的颜色来对并让顾客通过挑选饮料杯上印着的颜色来对自己喜欢的服装颜色自己喜欢的服装颜色“投票投票”.根据这次调查,根据这次调查,在某大城市在某大城市A,服装颜色的众数是红色,而,服装颜色的众数是红色,而当年全国服装协会发布的是咖啡色当年全国服装协会发布的是咖啡色.(1)这个结果是否代表这个结果是否代表A城市的人的想法?城市的人的
12、想法?(2)你认为这两种调查的差异是由什么原因引你认为这两种调查的差异是由什么原因引起的?起的?(1)这个结果只能说明这个结果只能说明A城市中光顾这家城市中光顾这家连锁服装店的人,比其他人较少倾向于连锁服装店的人,比其他人较少倾向于选择咖啡色,同时由于光顾连锁店的人选择咖啡色,同时由于光顾连锁店的人是一种方便样本,不能代表是一种方便样本,不能代表A城市其他城市其他人的想法人的想法.(2)是由样本的代表性引起的是由样本的代表性引起的.因为因为A城城市的调查结果来自于该市光顾这家连锁市的调查结果来自于该市光顾这家连锁服装店的人群,这个样本不能很好地代服装店的人群,这个样本不能很好地代表全国民众的观
13、点表全国民众的观点.例例3 某初级中学有学生某初级中学有学生270人,其中七年级人,其中七年级108人,八、人,八、九年级各九年级各81人,现要利用抽样方法抽取人,现要利用抽样方法抽取10人参加某项调人参加某项调查查.使用分层抽样时,将学生按七、八、九年级依次统使用分层抽样时,将学生按七、八、九年级依次统一编号为一编号为1,2,270;使用系统抽样时,将学生随;使用系统抽样时,将学生随机编号为机编号为1,2,270,并将整个编号依次分为,并将整个编号依次分为10段段.如果抽到的号码有下列四种情况:如果抽到的号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;11,38,65,92,119,146,173,200,227,254;30,57,84,111,138,165,192,219,246,270.那么下列判断正确的是那么下列判断正确的是 ()A.都不能为系统抽样都不能为系统抽样 B.都不能为分层抽样都不能为分层抽样C.都可能为系统抽样都可能为系统抽样 D.都可能为分层抽样都可能为分层抽样D 作业:作业:P100复习参考题复习参考题A组:组:4,6,7.