1、9.2.49.2.4总体离散程度的估计总体离散程度的估计讲课人:邢启强2 样本的众数、中位数和平均数常用来表示样本样本的众数、中位数和平均数常用来表示样本数据的数据的“中心值中心值”,其中众数和中位数容易计算,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数不受少数几个极端值的影响,但只能表达样本数据中的少量信息据中的少量信息.平均数代表了数据更多的信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平但受样本中每个数据的影响,越极端的数据对平均数的影响也越大均数的影响也越大.当样本数据质量比较差时,当样本数据质量比较差时,使使用众数、中位数或平均数描
2、述数据的中心位置用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本可能与实际情况产生较大的误差,难以反映样本数据的实际状况,数据的实际状况,很多时候还不能使我们做出有很多时候还不能使我们做出有效决策效决策.因此,我们需要一个统计数字刻画样本因此,我们需要一个统计数字刻画样本数据的数据的离散程度离散程度.新课引入新课引入讲课人:邢启强3思考:思考:在一次射击选拔赛中,甲、乙两名运动员各在一次射击选拔赛中,甲、乙两名运动员各射击射击1010次,每次命中的环数如下:次,每次命中的环数如下:甲:甲:7 8 7 9 5 4 9 10 7 47 8 7 9 5 4 9 1
3、0 7 4乙:乙:9 5 7 8 7 6 8 6 7 79 5 7 8 7 6 8 6 7 777xx甲乙,新课引入新课引入甲、乙两人本次射击的平均成绩分别为多少环?甲、乙两人本次射击的平均成绩分别为多少环?甲、乙两名运动员射击成绩中位数、众数分别为多少环?甲、乙两名运动员射击成绩中位数、众数分别为多少环?通过简单的排序可以发现甲、乙两名运动员射击成绩的中位数、众数也都是7如果你是教练,你如何对两位运动员的射击情况作出评价?在这一次选拔性考核中,你应当如何作出选择?讲课人:邢启强4思考:思考:甲、乙两人射击的平均成绩相等甲、乙两人射击的平均成绩相等,观察两人成绩观察两人成绩的频率分布条形图,你
4、能说明其水平差异在那里吗?的频率分布条形图,你能说明其水平差异在那里吗?环数环数频率频率0.40.40.30.30.20.20.10.14 5 6 7 8 9 104 5 6 7 8 9 10 O O(甲)(甲)环数环数频率频率0.40.40.30.30.20.20.10.14 5 6 7 8 9 104 5 6 7 8 9 10 O O(乙)(乙)甲的成绩比较分散,极差较大,甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定乙的成绩相对集中,比较稳定.新课引入新课引入一种简单的度量数据离散程度的方法就是用极差,根据甲、乙运动员的10次射击成绩,可以得到甲命中环数的极差=10-4=6 乙命
5、中环数的极差=9-5=4.讲课人:邢启强5 可以发现甲的成绩波动范围比乙的大,极差在一定程度上刻画了数据的离散程度,但因为极差只使用了数据中最大、最小两个值的信息,对其他数据的取值情况没有涉及,所以极差所含的信息量很少.我们知道,如果射击的成绩很稳定,那么大多数的射击成绩离平均成绩不会太远;相反,如果射击的成绩波动幅度很大,那么大多数的射击成绩离平均成绩会比较远,因此,我们可以通过这两组射击成绩与它们的平均成绩的“平均距离”来度量成绩的波动幅度新课引入新课引入讲课人:邢启强612|nxxxxxxn-+-+-L学习新知学习新知思考:对于样本数据思考:对于样本数据x1,x2,xn,用,用 表示这组
6、表示这组数据的平均数设想通过各数据到其平均数的平均距离数据的平均数设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何来反映样本数据的分散程度,那么这个平均距离如何计算?计算?x为了避免式中含有绝对值,通常改用平方来代替,即22212()()()nxxxxxxn-+-+-L我们称上式为这组数据的方差(variance).有时为了计算方差的方便,我们还把方差写成右式形式211()niixxn即2211inixxn讲课人:邢启强7或2221111()inniiixxxxnn=-邋 那么标准差的取值范围是什么?那么标准差的取值范围是什么?标准差为标准差为0 0的数据有何特
7、点?的数据有何特点?s0s0,标准差为,标准差为0 0的数据都相等的数据都相等.由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即学习新知学习新知我们称上式为这组数据的标准差(standard deviation).讲课人:邢启强8如果总体中所有个体的变量值分别为Y1,Y2,,YN,总体平均数为 ,则称学习新知学习新知Y 总体方差2211()NiiSYYN=-2211()NiiSSYYN总体标准差与总体均值类似,总体方差也可以写成加权的形式,如果总体的N个变量值中,不同的值共有k(kN)个,不妨记为Y1,Y2,.,Yk,其中Y,出
8、现的频数为f(i=1,2,.,k),则总体方差为2211()iiikSf YYN=-如果一个样本中个体的变量值分别为y1,y2,,yn,样本平均数为 ,则称 为样本方差,为样本标准差2211()niisyyn=-y2ss讲课人:邢启强9思考:思考:对于一个容量为对于一个容量为2的样本:的样本:x1,x2(x1s乙可知,甲的成绩离散程度大,乙的成绩离散程度小,由此可以估计,乙比甲的射击成绩稳定.如果要从这两名选手中选择一名参加比赛,要看一下他们的平均成绩在所有参赛选手中的位置,如果两人都排在前面,就选成绩稳定的乙选手,否则可以选甲.讲课人:邢启强12典型例题典型例题例6在对树人中学高一年级学生身
9、高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?解:把男生样本记为x1,x2,,x23,其平均数记为 ,方差记为 ;把女生样本记为y1,y2,.y27,其平均数记为 ,方差记为 ;把总样本数据的平均数记为 ,方差记为 .根据方差的定义,总样本方差为x2xsy2ysz2s2327222111()()50ijijsxzyz2327165.22327xyz讲课人:邢启强13典型例
10、题典型例题2327222111()()50ijijsxzyz232722111()()50ijijxxxzyyyz232322211()()2()()()iiiiixxxzxxxxxzxz232311()230,iiiixxxx由可得2323112()()2()()0iiiixxxzxzxx2712()()0jjyyyz同理可得讲课人:邢启强14典型例题典型例题2327222111()()50ijijsxzyz232722111()()50ijijxxxzyyyz232722222111()()()()50ijijsxxxzyyyz因此23232727222211111()()()()50ij
11、iijjxxxzyyyz男生23人,其平均数和方差分别为170.6和12.59,女生27人,其平均数和方差分别为160.6和38.62165.2z 把已知的男生、女生样本平均数和方差的取值代入,可得251.4862s 2222123()27()50 xysxzsyz讲课人:邢启强15 学生数平均分方差甲409810乙309212丙309515某市教育部门采用分层随机抽样从甲、乙、丙三个学校选取了100名学生的某次考试数学成绩(单位:分),并制成如下表格:试估计这次考试数学成绩的平均数与方差.巩固练习巩固练习讲课人:邢启强16讲课人:邢启强17100t假假设设通通过过简简单单随随机机抽抽样样,获
12、获得得了了户户居居民民的的月月均均用用水水量量数数据据(单单位位:)9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.02.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.52.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.92.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.43.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.022.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.95.1 24.5 6
13、.4 7.5 4.7 20.5 5.5 15.7 2.6 5.75.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.35.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.87.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6实际应用实际应用计算出样本平均数 =,样本标准差s .x8.796.20讲课人:邢启强18实际应用实际应用2.59,14.99,23.61,221.19.xsxsxsxs 如图所示,可以发现,这100个数据中大部分落在区间 内,在区间 外的只有7个.也就是说,绝大部分数据落在 内.,
14、xs xs2,2 xs xs2,2 xs xs讲课人:邢启强19例例2 2 甲、乙两人同时生产内径为甲、乙两人同时生产内径为25.40mm25.40mm的一种零件,的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取各随机抽取2020件,量得其内径尺寸如下(单位:件,量得其内径尺寸如下(单位:mmmm):):甲甲 :25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39
15、25.43 25.39 25.40 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.4225.44 25.40 25.42 25.35 25.41 25.39 25.35 25.41 25.39乙:乙:25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.49 26.36 25.34 25.33 25.43 25.43 25.3
16、2 25.47 25.31 25.32 25.32 25.3225.47 25.31 25.32 25.32 25.32 25.48 25.48 从生产零件内径的尺寸看,谁生产的零件质量较高?从生产零件内径的尺寸看,谁生产的零件质量较高?典型例题典型例题讲课人:邢启强2025.401x甲25.406x乙0.037s甲0.068s乙 甲生产的零件内径更接近内径标准,且稳定甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高程度较高,故甲生产的零件质量较高.说明:说明:1.1.生产质量可以从总体的平均数与标准差生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平
17、均数与两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差标准差估计总体的平均数与标准差.2.2.问题中问题中25.40mm25.40mm是内径的标准值,而不是是内径的标准值,而不是总体的平均数总体的平均数.讲课人:邢启强21例例3 3 在去年的足球甲在去年的足球甲A A联赛中,甲队每场比赛平均失联赛中,甲队每场比赛平均失球数是球数是1.51.5,全年比赛失球个数的标准差为,全年比赛失球个数的标准差为1.11.1;乙队;乙队每场比赛平均失球数是每场比赛平均失球数是2.12.1,全年比赛失球个
18、数的标,全年比赛失球个数的标准差为准差为0.4.0.4.你认为下列说法是否正确,为什么?你认为下列说法是否正确,为什么?(1 1)平均来说甲队比乙队防守技术好;)平均来说甲队比乙队防守技术好;(2 2)乙队比甲队技术水平更稳定;)乙队比甲队技术水平更稳定;(3 3)甲队有时表现很差,有时表现又非常好;)甲队有时表现很差,有时表现又非常好;(4 4)乙队很少不失球)乙队很少不失球.典型例题典型例题讲课人:邢启强22讲课人:邢启强23例例4 4 以往招生统计显示,某所大学录取的新生以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在高考总分的中位数基本稳定在550550分,若某同学分,若
19、某同学今年高考得了今年高考得了520520分,他想报考这所大学还需收分,他想报考这所大学还需收集哪些信息?集哪些信息?要点:要点:(1 1)查往年录取的新生的平均分数)查往年录取的新生的平均分数.若平均数小于中位若平均数小于中位数很多,说明最低录取线较低,可以报考;数很多,说明最低录取线较低,可以报考;(2 2)查往年录取的新生高考总分的标准差)查往年录取的新生高考总分的标准差.若标准差较若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考可以考虑报考.典型例题典型例题讲课人:邢启强24课堂小结课堂小结(1)样本标准差反映了
20、各样本数据聚集于样本平均数周围的程度,标准差越小,表明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的周围越分散.(2)若样本数据都相等,则s=0.(3)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度,就由标准差来衡量.(4)数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感;方差则反映了一组数据围绕平均数波动的大小.为了得到以样本数据的单位表示的波动幅度,通常用标准差样本方差的算术平方根来描述.讲课人:邢启强25课堂小结课堂小结(5)标准差的大小不会越过极差.(6)方差、标准差、极差的取值范围为0,+).当标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.(7)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差和标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般采用标准差.(8)在实际问题中,总体平均数和总体标准差都是未知的.就像用样本平均数估计总体平均数一样,通常我们也用样本标准差去估计总体标准差.在随机抽样中,样本标准差依赖于样本的选取,具有随机性.