1、10.2用样本的数字特征估计总体1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.2.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.3.结合实例,能用样本估计总体的取值规律.4.结合实例,能用样本估计百分位数,理解百分位数的统计含义.C O N T E N T SC O N T E N T S1.总体百分位数的估计(1)百分位数定义意义百分位数一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100p)%的数据大于或等于这个值反映该组数中小于或等于该百分位
2、数的分布特点至少(2)求一组n个数据的第p百分位数的步骤第1步:按从小到大排列原始数据;第2步:计算inp%;第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i1)项数据的平均数.np%2.总体集中趋势的估计(1)中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数;(2)众数:一组数据中出现次数最多的数据叫做这组数据的众数;提醒(1)中位数是样本数据所占频率的等分线,不受少数极端值影响;(2)众数体现了样本数据的最大集中点,一组数据可能有n个众数,也可能没有众数;(3)与中
3、位数、众数比较,平均数反映出样本数据的更多信息,对样本数据中的少数极端值更加敏感.最中间最多算术3.总体离散程度的估计标准差方差(2)分层随机抽样的均值与方差1.判断正误.(正确的画“”,错误的画“”)(1)对一组数据来说,平均数和中位数总是非常接近.()答案:(1)(2)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.()答案:(2)(3)方差与标准差具有相同的单位.()答案:(3)(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.()答案:(4)2.若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中
4、位数和平均数分别是()A.91.5和91.5B.91.5和92C.91和91.5D.92和923.为了弘扬体育精神,某校组织秋季运动会,在一项比赛中,学生甲进行了8组投篮,得分分别为10,8,a,8,7,9,6,8,如果学生甲的平均得分为8分,那么这组数据的第75百分位数为()A.8B.9C.8.5D.9.54.(多选)下列说法正确的是()A.众数可以准确地反映出总体的情况B.一组数据的平均数一定大于这组数据中的每个数据C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势D.一组数据的方差越大,说明这组数据的波动越大解析:CD对于A,众数体现了样本数据的最大集中点,但对其他数据信息的忽
5、略使得其无法客观反映总体特征,所以A错误;对于B,一组数的平均数不可能大于这组数据中的每一个数据,所以B错误;对于C,平均数、众数与中位数从不同的角度描述了一组数据的集中趋势,所以C正确;对于D,方差可以用来衡量一组数据波动的大小,方差越小,数据波动越小,方差越大,数据波动越大,所以D正确.1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形底边的中点对应的横坐标;(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广1.(2024全国卷)设一组样本数据x1,x2,xn的
6、方差为0.01,则数据10 x1,10 x2,10 xn的方差为()A.0.01B.0.1C.1D.10解析:C由结论2知,样本数据10 x1,10 x2,10 xn的方差为1020.011,故选C.2.(多选)如图是某班50名学生期中考试数学成绩的频率分布直方图,其中成绩分组区间是40,50),50,60),60,70),70,80),80,90),90,100,则下列说法正确的是()A.图中的x的值为0.018B.该班50名学生期中考试数学成绩的众数是75C.该班50名学生期中考试数学成绩的中位数是75D.该班50名学生期中考试数学成绩的平均数是75总体百分位数的估计【例1】(1)将高三某
7、班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出频率分布直方图如图,则此班的模拟考试成绩的80%分位数是;(结果保留两位小数)答案(1)124.44(2)一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为,第86百分位数为.答案(2)14.5171.如图所示是某市3月1日至3月10日的最低气温(单位:)的情况绘制的折线统计图,由图可知这10天最低气温的第80百分位数是()A.2B.0C.1D.22.已知100个数据的第75百分位数是9.3,则下列说
8、法正确的是()A.这100个数据中一定有75个数小于或等于9.3B.把这100个数据从小到大排列后,9.3是第75个数据C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数解析:C因为10075%75,为整数,所以第75个数据和第76个数据的平均数为第75百分位数,是9.3,则C正确,其他选项均不正确,故选C.总体集中趋势的估计【例2】(多选)某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样
9、本,发现数据均在40,100内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的是()A.频率分布直方图中第三组的频数为10B.根据频率分布直方图估计样本的众数为75分C.根据频率分布直方图估计样本的中位数为75分D.根据频率分布直方图估计样本的平均数为75分解析分数在60,70)内的频率为110(0.0050.0200.0300.0250.010)0.10,所以第三组的频数为1000.1010,故A正确;因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,从图中可看出众数的估计值为75分,故B正确;因为(0.0050.02
10、00.010)100.350.5,(0.0050.0200.0100.030)100.650.5,所以中位数位于70,80)内,设中位数为x,则0.350.03(x70)0.5,解得x75,所以中位数的估计值为75分,故C正确;样本平均数的估计值为45(100.005)55(100.020)65(100.010)75(100.030)85(100.025)95(100.010)73(分),故D错误.答案ABC解题技法求众数、中位数、平均数的方法(1)众数:由定义知,一组数据中出现次数最多的数,即为众数,若有两个或几个数据出现的次数最多,且出现的次数一样,这些数据都是这组数据的众数;若一组数据中
11、,每个数据出现的次数一样多,则认为这组数据没有众数;(2)中位数:若一组数据为奇数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的数据就是这组数据的中位数;若一组数据为偶数个,按照从小到大(或从大到小)的顺序排列,位于中间位置的两个数据的平均数就是这组数据的中位数;1.下面是某城市某日在不同观测点对细颗粒物(PM2.5)的观测值:396275268225168166176173188168141157若在此组数据中增加一个比现有的最大值大25的数据,则下列数字特征没有改变的是()A.极差B.中位数C.众数D.平均数2.(多选)2022年7月下旬,某省遭遇特大洪涝灾害,某品牌服饰公司第一
12、时间向该省捐赠5000万元物资以援助抗灾,该品牌随后受到消费者的青睐,如图为该品牌服饰某分店18月的销量(单位:件)情况.以下描述正确的是()A.这8个月销量的极差为4132B.这8个月销量的中位数为2499C.这8个月中2月份的销量最低D.这8个月中销量比前一个月增长最多的是7月份总体离散程度的估计考向1方差与标准差【例3】(2021全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.9新设备10.110.410.110.010.1旧设备9.810
13、.010.110.29.7新设备10.310.610.510.410.5解题技法1.标准差、方差描述了一组数据围绕平均数波动的情况.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.考向2分层随机抽样的方差与标准差【例4】某学校统计教师职称及年龄,中级职称教师的人数为50,其平均年龄为38岁,方差是2,高级职称的教师中有3人58岁,5人40岁,2人38岁,求该校中级职称和高级职称教师年龄的平均数和方差.1.样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为()D.22.在高一
14、入学时,某班班委统计了本班所有同学中考的体育成绩,并计算出平均分和方差.后来又转学来一位同学.若该同学中考的体育成绩恰好等于这个班级原来所有同学中考体育成绩的平均分,则下列说法正确的是()A.班级平均分不变,方差变小B.班级平均分不变,方差变大C.班级平均分改变,方差变小D.班级平均分改变,方差变大3.某学校有高中生500人.其中男生320人,女生180人.为了获得全体高中生身高的信息,按照分层随机抽样原则抽取样本,男生样本量为32,女生样本量为18,通过计算得男生身高样本均值为173.5cm,方差为17,女生身高样本均值为163.83cm,方差为30.03,求所有数据的样本均值和方差.1.给
15、定一组数据5,5,4,3,3,3,2,2,2,1,则这组数据的()A.众数为2B.平均数为2.5C.方差为1.6D.标准差为42.甲组数据为:5,12,16,21,25,37,乙组数据为:1,6,14,18,38,39,则甲、乙的平均数、极差及中位数相同的是()A.极差B.平均数C.中位数D.都不相同3.甲、乙两班举行电脑汉字录入比赛,参赛学生每分钟录入汉字的个数经统计计算后填入下表:班级参加人数中位数方差平均数甲55149191135乙55151110135下列结论中,不正确的是()A.甲、乙两班学生成绩的平均水平相同B.乙班优秀的人数多于甲班优秀的人数(每分钟输入汉字数150个为优秀)C.
16、甲班的成绩比乙班的成绩波动大D.甲班成绩的众数小于乙班成绩的众数4.某市教育部门组织高中教师在暑假期间进行培训,培训后统一举行测试.随机抽取100名教师的测试成绩(单位:分,满分100分)进行统计,得到如图所示的频率分布折线图,则下列说法正确的是()A.这100名教师的测试成绩的极差是20分B.这100名教师的测试成绩的众数是90分C.这100名教师的测试成绩的中位数是87.5分D.这100名教师中测试成绩不低于90分的人数占比超过50%解析:C对于A,由题意知,这100名教师的测试成绩的最高分与最低分无法确定,故极差无法确定,故A错误;对于B,由题图易知这100名教师的测试成绩的众数为87.
17、5分,故B错误;对于C,设这100名教师的测试成绩的中位数为x分,则(0.020.04)5(x85)0.080.5,解得x87.5,故C正确;对于D,这100名教师中测试成绩不低于90分的人数占比为(0.030.03)5100%30%,30%50%,故D错误.故选C.5.(多选)下表为2022年某煤炭公司110月份的煤炭生产量:月份12345678910产量(单位:万吨)23252417.517.52126293027则下列结论正确的是()A.极差为12.5万吨B.平均数为24万吨C.中位数为24万吨D.众数为17.5万吨6.(多选)若甲组样本数据x1,x2,xn(数据各不相同)的平均数为2,
18、方差为4,乙组样本数据3x1a,3x2a,3xna的平均数为4,则下列说法正确的是()A.a的值为2B.乙组样本数据的方差为36C.两组样本数据的中位数一定相同D.两组样本数据的极差不同解析:ABD由题意可知,32a4,a2,故A正确;乙组样本数据方差为9436,故B正确;设甲组样本数据的中位数为xi,则乙组样本数据的中位数为3xi2,所以两组样本数据的中位数不一定相同,故C错误;甲组数据的极差为xmaxxmin,则乙组数据的极差为(3xmax2)(3xmin2)3(xmaxxmin),所以两组样本数据的极差不同,故D正确.7.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命
19、(单位:年)跟踪调查结果如下:甲:3,4,5,6,8,8,8,10;乙:4,6,6,6,8,9,12,13;丙:3,3,4,7,9,10,11,12.三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数:甲,乙,丙.答案:众数平均数中位数8.已知30个数据的60%分位数是8.2,这30个数据从小到大排列后第18个数据是7.8,则第19个数据是.答案:8.610.首次实施新高考的八省(市)于2021年1月23日统一举行了新高考适应性考试,在联考结束后,根据联考成绩,考生可了解自己的学习情况,作出升学规划,决定是否参加强基计
20、划.在本次适应性考试中,某学校为了解高三学生的联考情况,随机抽取了100名学生的联考数学成绩作为样本,并按照分数段50,70),70,90),90,110),110,130),130,150分组,绘制了如图所示的频率分布直方图.(1)求出图中a的值并估计本次考试及格率(“及格率”指得分为90分及以上的学生所占比例);解:(1)由频率分布直方图的性质,可得(0.004a0.0130.0140.016)201,解得a0.003.所以及格率为(0.0160.0140.003)200.6666%.(2)估计该校学生联考数学成绩的第80百分位数;(3)估计该校学生联考数学成绩的众数、平均数.解:(3)由
21、图可得,众数估计值为100分.平均数估计值为0.08600.26800.321000.281200.0614099.6(分).11.为了考察某校各班参加课外书法小组的人数,在全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为10,样本方差为4,且样本数据互不相同,则样本数据中的最大值为()A.10B.11C.12D.13解析:D设5个数据分别是x1,x2,x3,x4,x5,则由方差为4得(x110)2(x210)2(x310)2(x410)2(x510)220,显然最大值不可能大于14,假如x515,则(x510)225,不合题意,若最大值为14,不妨设x514,(
22、x510)216,则(x110)2,(x210)2,(x310)2,(x410)2只能一个0,两个1,还有一个是4,不合题意,若最大值为13,不妨设x513,此时如x17,x29,x310,x411,满足题意.故选D.12.某班成立了A,B两个数学兴趣小组,A组10人,B组30人,经过一周的补习后进行了一次测试,在该测试中,A组的平均成绩为130分,方差为115,B组的平均成绩为110分,方差为215.则在这次测试中全班学生的平均成绩和方差分别为,.答案:11526513.某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:13,14),14,15),15,
23、16),16,17),17,18,得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1 3 7 6 3,那么成绩的70%分位数约为秒.答案:16.514.某种治疗心脏病的中药产品的质量以其质量指标值衡量,质量指标值越大表明质量越好.为了提高中药产品的质量,我国医疗科研专家攻坚克难,研发出A,B两种新配方,在这两种新配方生产的产品中随机抽取数量相同的样本,测量这些产品的质量指标值,规定质量指标值小于85为废品,在85,115)为一等品,不小于115为特等品.现把测量数据整理如下,其中B配方的样本中有6件废品.A配方的频数分布表质量指标值75,85)85,95)95,105)105
24、,115)115,125频数8a36248(1)求实数a,b的值;(2)试确定A配方和B配方哪一种更好.(说明:在统计方法中,同一组数据常用该组区间的中点值作代表)15.中国独有的文书工具,即笔、墨、纸、砚,有文房四宝之名,起源于南北朝时期.其中宣纸是文房四宝的一种,宣纸“始于唐代,产于泾县”,因唐代泾县隶属宣州管辖,故因地得名宣纸.宣纸按质量等级分为正牌(优等品)、副牌(合格品)、废品三等.某公司生产的宣纸为纯手工制作,年产宣纸10000刀(1刀100张),该公司按照某种质量指标x给宣纸确定等级如下表所示:x的范围(44,48(52,56(48,520,44(56,60质量等级副牌正牌废品在
25、该公司所生产的宣纸中随机抽取了一刀进行检验,得到频率分布直方图如图所示,已知每张正牌宣纸的利润为15元,副牌宣纸的利润为8元,废品的利润为20元.(1)试估计该公司的年利润;解:(1)由频率分布直方图得,一刀宣纸有正牌1000.1440(张),有副牌1000.054240(张),有废品1000.0254220(张),该公司一刀宣纸的利润的估计值为40154082020520(元),估计该公司的年利润为520万元.(2)市场上有一种售价为100万元的机器可以改进宣纸的生产工艺,但这种机器的使用寿命为一年,只能提高宣纸的质量,不能增加宣纸的年产量.据调查这种机器生产的宣纸的质量指标x如下表所示:x的范围频率0.68270.9545x的范围(48,52)(44,56)频率0.68270.9545一刀宣纸中正牌的张数估计为1000.682768.27,废品的张数估计为100(10.9545)4.55,副牌的张数为100(0.95450.6827)27.18,一刀宣纸的利润为68.271227.1854.5520864.14(元),改进后该公司的年利润为864.14100764.14(万元),764.14520,建议该公司购买这种机器.