1、高三讲义:计数原理与概率统计7.3 概率统计【知识点一:基本概率】一、基本概率古典概型1古典概型的使用条件:试验结果的有限性和所有结果的等可能性2古典概型的解题步骤;求出总的基本事件数; 求出事件A所包含的基本事件数,然后利用公式P(A)=二、随机事件概率一个试验如果满足下述条件:试验可以在相同的情形下重复进行;试验的所有可能结果是明确可知的,并且不止一个;每次试验总是恰好出现这些结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果,那么这个试验就叫做随机试验.如果随机试验的结果可以用一个变量表示,那么这样的变量叫做随机变量,随机变量常用希腊字母等表示,也可以用英文字母X,Y等表示
2、.(1)离散型随机变量:如果对于随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量.(2)连续型随机变量:如果随机变量可以取某一区间内的一切值,这样的随机变量叫做连续型随机变量.(3)若是随机变量,其中a,b是常数,则也是随机变量.规律总结:随机变量是把随机试验的结果数量化,变量的取值对应于随机试验的某一个随机事件,在学习中,要注意随机变量与以前所学的变量的区别与联系.随机变量和函数都是一种映射,随机变量把试验结果映射为实数,函数把实数映射为实数,在这两种映射之间,试验结果的范围相当于函数的定义域,随机变量的取值范围相当于函数的值域.【典型例题】考点一: 基本概率1.
3、某地区人民法院每年要审理大量案件,去年审理的四类案件情况如下表所示:编号项目收案(件)结案(件)判决(件)1刑事案件2400240024002婚姻家庭、继承纠纷案件3000290012003权属、侵权纠纷案件4100400020004合同纠纷案件1400013000n其中结案包括:法庭调解案件、撤诉案件、判决案件等.根据以上数据,回答下列问题.()在编号为1、2、3的收案案件中随机取1件,求该件是结案案件的概率;()在编号为2的结案案件中随机取1件,求该件是判决案件的概率;()在编号为1、2、3的三类案件中,判决案件数的平均数为,方差为,如果表中,表中全部(4类)案件的判决案件数的方差为,试判
4、断与的大小关系,并写出你的结论(结论不要求证明).2.某公司购买了A,B,C三种不同品牌的电动智能送风口罩.为了解三种品牌口罩的电池性能,现采用分层抽样的方法,从三种品牌的口罩中抽出25台,测试它们一次完全充电后的连续待机时长,统计结果如下(单位:小时):A444.555.566B4.5566.56.5777.5C555.566777.588()已知该公司购买的C品牌电动智能送风口罩比B品牌多200台,求该公司购买的B品牌电动智能送风口罩的数量;()从A品牌和B品牌抽出的电动智能送风口罩中,各随机选取一台,求A品牌待机时长高于B品牌的概率;()再从A,B,C三种不同品牌的电动智能送风口罩中各随
5、机抽取一台,它们的待机时长分别是a,b,c(单位:小时).这3个新数据与表格中的数据构成的新样本的平均数记为,表格中数据的平均数记为.若,写出a+b+c的最小值(结论不要求证明).3.据报道,巴基斯坦由中方投资运营的瓜达尔港目前已通航.这是一个可以停靠8-10万吨邮轮的深水港.通过这一港口,中国船只能够更快到达中东和波斯湾地区.这相当于给中国平添了一条大动脉!在打造中巴经济走廊协议(简称协议)中,能源投资约340亿美元,公路投资约59亿美元,铁路投资约38亿美元,高架铁路投资约16亿美元,瓜达尔港投资约6.6亿美元,光纤通讯投资约0.4亿美元.有消息称,瓜达尔港的月货物吞吐量将是目前天津、上海
6、两港口月货物吞吐量之和.下表记录了2015年天津、上海两港口的月吞吐量(单位:百万吨):1月2月3月4月5月6月7月8月9月10月11月12月天津242226232426272528242526上海322733313031323330323030()根据协议提供信息,用数据说明本次协议投资重点;()从上表中12个月任选一个月,求该月天津、上海两港口月吞吐量之和超过55百万吨的概率;()将()中的计算结果视为瓜达尔港每个月货物吞吐量超过55百万吨的概率,设为瓜达尔港未来12个月的月货物吞吐量超过55百万吨的个数,写出的数学期望(不需要计算过程).【知识点二:离散型随机变量及其分布列】离散型随机变
7、量的分布列(1)分布列的定义一般地,若离散型随机变量X可能取的不同值为,X取每个值的概率,以表格的形式表示如下:XP这个表称为离散型随机变量X的概率分布列,简称为X的分布列,有时为了简单起见,用式子表示X的分布列,或用图象表示.因此,分布列可有三种表示形式,即表格、式子、图象,常用的表格法是基本形式,其结构为两行、(n+1)列,第一行表示随机变量的取值,第二行是对应于变量的概率.(2)离散型随机变量的分布列的性质;.离散型随机变量的均值的定义一般地,若离散型随机变量X的分布列为XP称为离散型随机变量X的均值或数学期望,用E(X)或EX表示,即或.离散型随机变量X的均值也称为X的概率分布的均值,
8、它反映了随机变量义取值的平均水平.均值的性质若离散型随机变量X的均值为E(X),Y=aX+b,其中a,b为常数,则Y也是一个离散型随机变量;若X的分布列为XP则Y的分布列为YP且,所以有.特别地,当时,;当时,;当时,.离散型随机变量的方差的概念设离散型随机变量X的分布列为XP则描述了相对于均值EX的偏离程度.,为这些偏离程度的加权平均数,刻画了随机变量X与其均值EX的平均偏离程度,我们称DX为随机变量X的方差,并称其算术平方根为随机变量X的标准差.随机变量的方差和标准差都反映了随机变量取值偏离于均值的平均程度.方差或标准差越小,随机变量偏离于均值的平均程度越小.方差的作用随机变量的方差与标准
9、差一样,都是反映随机变量取值的稳定与波动、集中与离散程度,方差越小,取值越集中,稳定性越高,波动性越小;方差越大,取值越不集中,稳定性越差,波动性越大.方差的有关性质当均为常数时,随机变量的方差.特别地,当时,;当时,;当时,.常见离散型随机变量分布的数学期望与方差(1)单点分布EX=C(C为常数),DX=0.(2)两点分布EX=p,DX=p(1-p).(3)二项分布若随机变量X服从二项分布,即,则,.方法总结方法1:求离散型随机变量的分布列的步骤:(1)先判断一个变量是否为离散型随机变量,主要看变量的值能否按一定的顺序一一列举出来.(2)明确随机变量X可取哪些值.(3)求X取每一个值的概率.
10、(4)列成表格.方法2:求均值(数学期望)的一般步骤(1)首先判断随机变量是否服从两点分布、二项分布或超几何分布,若服从,则直接用公式求均值.(2)若不服从特殊的分布,则先求出随机变量的分布列,再利用公式求均值.方法3:方差的求法(1)若随机变量X服从两点分布或二项分布,则直接利用方差公式求.(2)若随机变量X不服从特殊的分布,则:先求出X的分布列;求EX;利用公式,求方差DX.(3)利用公式求方差. 对公式的证明如下:【典型例题】考点一: 离散型随机变量及其分布列1.从某病毒爆发的疫区返回本市若干人,为了迅速甄别是否有人感染病毒,对这些人抽血,并将血样分成4组,每组血样混合在一起进行化验.(
11、)若这些人中有1人感染了病毒.求恰好化验2次时,能够查出含有病毒血样组的概率;设确定出含有病毒血样组的化验次数为X,求E(X).()如果这些人中有2人携带病毒,设确定出全部含有病毒血样组的次数Y的均值E(Y),请指出()中E(X)与E(Y)的大小关系.(只写结论,不需说明理由)2.交通指数是交通拥堵指数的简称,是综合反映某区域道路网在某特定时段内畅通或拥堵实际情况的概念性指数值.交通指数范围为,五个级别规定如下:交通指数级别畅通基本畅通轻度拥堵中度拥堵严重拥堵某人在工作日上班出行每次经过的路段都在同一个区域内,他随机记录了上班的40个工作日早高峰时段(早晨7点至9点)的交通指数(平均值),其统
12、计结果如直方图所示.()据此估计此人260个工作日中早高峰时段(早晨7点至9点)中度拥堵的天数;()若此人早晨上班路上所用时间近似为:畅通时30分钟,基本畅通时35分钟,轻度拥堵时40分钟,中度拥堵时50分钟,严重拥堵时70分钟,以直方图中各种路况的频率作为每天遇到此种路况的概率,求此人上班路上所用时间的数学期望.频率组距交通指数值0.250.100.050.1502468100.2013579【知识点三:二项分布】两点分布若随机变量X的分布列具有下表的形式,则称X服从两点分布,并称为成功概率.X01P1-pp温馨提示(1)两点分布的试验结果只有两个可能性,且其概率之和为1.(2)两点分布又称
13、01分布、伯努利分布,其应用十分广泛,如抽取的彩票是否中奖问题、新生婴儿的性别问题、投篮是否命中问题等,都可以用两点分布来研究.相互独立事件同时发生的概率(1)相互独立事件相互独立事件的定义:如果事件A(或B)是否发生对事件B(或A)发生的概率没有影响,这样的两个事件叫做相互独立事件.一般地,当事件A与B相互独立时,事件A与,与B,与也都是相互独立的.(2)相互独立事件同吋发生的概率对于事件A和事件B,用表示事件A与B同时发生.如果事件A与B相互独立,那么事件发生的概率等于每个事件发生的概率的积,即.一般地,如果事件相互独立,那么这n个事件同时发生的概率等于每个事件发生的概率的积,即.独立重复
14、试验(1)独立重复试验:在n次重复试验中,每次试验结果的概率都不依赖其他各次试验的结果,则称这n次试验是独立的.一般地,在相同条件下重复做的n次试验称为次独立重复试验.(2)一般地,在n次独立重复试验中,设事件A发生的次数为X,在每次试验中事件A发生的概率为p,那么在n次独立重复试验中,事件A恰好发生k次的概率为.此时称随机变量X服从二项分布,记作,并称p为成功概率.(3)独立重复试验概率公式的特点是n次独立重复试验中某事件A恰好发生k次的概率.其中,n是重复试验的次数,p是一次试验中某事件A发生的概率,k是在n次独立重复试验中事件A恰好发生的次数,需要弄清公式中n,p,k的意义,才能正确运用
15、公式.(4)独立重复试验必须满足的特征每次试验的条件都完全相同,有关事件的概率保持不变.各次试验的结果互不影响,即各次试验互相独立.每次试验只有两个可能的结果,事件发生或者不发生.温馨提示(1)独立重复试验的原型是有放回的抽样检验问题,实际生活中,从大批产品中抽取少量样品的不放回检验,就可以近似地看作此类型.(2)定义中“在相同的条件下”指的是各次试验的结果不会受其他试验的影响,也就是各次试验相互独立,因而对于n次独立重复试验的结果,有.二项分布如果在一次试验中某事件发生的概率是p,那么在n次独立重复试验中这个事件恰好发生k次的概率是,其中k=0,1,n,q=1-p,于是得到随机变量X的概率分
16、布如下:X01knP我们称这样的随机变量X服从二项分布,记作,其中n,p为参数.二项分布是常见的离散型随机变量的分布.一般地,如果能考虑的试验可以看成是一个只有两个可能的结果A和的独立重复试验,则n次试验中A发生的次数服从二项分布.注意在实际应用中往往出现“较大”“很大”“非常多”等字眼,这表明试验可视为独立重复试验.二项分布的判断与应用(1)二项分布实际是对n次独立重复试验从概率分布的角度作出的阐述,判断时,关键是看某一事件是否进行n次独立重复试验,且每次试验只有两种结果,如果不满足这两个条件,随机变量就不服从二项分布.(2)当随机变量的总体很大且抽取的样本容量相对于总体来说又比较小,而每次
17、抽取时又只有两种试验结果时,我们可以把它看作独立重复试验,利用二项分布求其分布列.知识拓展方法总结方法1:求独立重复试验的概率在n次独立重复试验中,“在相同条件下”等价于各次试验的结果不会受其他试验的影响,即,其中是第i次试验的结果.方法2:应用二项分布注意事项(1)每次试验中,事件A发生的概率是相同的.(2)各次试验间都是相互独立的.(3)每次试验只有两种结果:事件A要么发生,要么不发生.【典型例题】考点一: 二项分布1.某社区超市购进了A,B,C,D四种新产品,为了解新产品的销售情况,该超市随机调查了15位顾客(记为)购买这四种新产品的情况,记录如下(单位:件):顾客产品A11111B11
18、111111C1111111D111111()若该超市每天的客流量约为300人次,一个月按30天计算,试估计产品A的月销售量(单位:件);()为推广新产品,超市向购买两种以上(含两种)新产品的顾客赠送2元电子红包.现有甲、乙、丙三人在该超市购物,记他们获得的电子红包的总金额为X,求随机变量X的分布列和数学期望;()若某顾客已选中产品B,为提高超市销售业绩,应该向其推荐哪种新产品?(结果不需要证明)2.现有两个班级,每班各出4名选手进行羽毛球的男单、女单、男女混合双打(混双)比赛(注:每名选手打且只打一场比赛).根据以往的比赛经验,各项目平均完成比赛所需时间如图表所示,现只有一块比赛场地,各场比
19、赛的出场顺序等可能.比赛项目男单女单混双平均比赛时间25分钟20分钟35分钟()求按女单、混双、男单的顺序进行比赛的概率;()设随机变量表示第三场比赛开始时需要等待的时间,求的数学期望;()若要使所有参加比赛的人等待的总时间最少,应该怎样安排比赛顺序.(写出结论即可)3.某地区工会利用“健步行”开展健步走积分奖励活动.会员每天走5千步可获积分30分(不足5千步不积分),每多走2千步再积20分(不足2千步不积分).记年龄不超过40岁的会员为类会员,年龄大于40岁的会员为类会员.为了解会员的健步走情况,工会从,两类会员中各随机抽取名会员,统计了某天他们健步走的步数,并将样本数据分为,九组,将抽取的
20、类会员的样本数据绘制成频率分布直方图,B类会员的样本数据绘制成频率分布表(图、表如下所示).()求和的值;()从该地区类会员中随机抽取名,设这名会员中健步走的步数在千步以上(含千步)的人数为,求的分布列和数学期望;()设该地区类会员和类会员的平均积分分别为和,试比较和的大小(只需写出结论).【知识点四:超几何分布】一般地,在含有M件次品的N件产品中,任取n件,其中含有X件次品,则事件“X=k”发生的概率为,其中m=minM,n,且nN,MN,称分布列X01mP为超几何分布列,如果随机变量X的分布列为超几何分布列,则称随机变量X服从超几何分布.方法总结超几何分布列给出了求解这类问题的方法,可以通
21、过直接运用公式求解.但不能机械地去记忆公式,要在理解的前提下记忆.在超几何分布中,只要知道N,M和n,就可以根据公式求出X取不同k值时的概率,从而列出X的分布列.【典型例题】考点一: 超几何分布1.为了响应教育部颁布的关于推进中小学生研学旅行的意见,某校计划开设八门研学旅行课程,并对全校学生的选择意向进行调查(调查要求全员参与,每个学生必须从八门课程中选出唯一一门课程).本次调查结果整理成条形图如下.上图中,已知课程A,B,C,D,E为人文类课程,课程发,给F,G,H为自然科学类课程.为进一步研究学生选课意向,结合上面图表,采取分层抽样方法从全校抽取1的学生作为研究样本组(以下简称“组M”).
22、()在“组M”中,选择人文类课程和自然科学类课程的人数各有多少?()为参加某地举办的自然科学营活动,从“组M”所有选择自然科学类课程的同学中随机抽取4名同学前往,其中选择课程F或课程H的同学参加本次活动,费用为每人1500元,选择课程G的同学参加,费用为每人2000元.()设随机变量X表示选出的4名同学中选择课程G的人数,求随机变量X的分布列;()设随机变量Y表示选出的4名同学参加科学营的费用总和,求随机变量Y的期望.2.某地区高考实行新方案,规定:语文、数学和英语是考生的必考科目,考生还须从物理、化学、生物、历史、地理和政治六个科目中选取三个科目作为选考科目,若一名学生从六个科目中选出了三个
23、科目作为选考科目,则称该学生的选考方案确定;否则,称该学生选考方案待确定.例如,学生甲选择“物理、化学和生物”三个选考科目,则学生甲的选考方案确定,“物理、化学和生物”为其选考方案.某学校为了了解高一年级420名学生选考科目的意向,随机选取30名学生进行了一次调查,统计选考科目人数如下表:性别选考方案确定情况物理化学生物历史地理政治男生选考方案确定的有8人884211选考方案待确定的有6人430100女生选考方案确定的有10人896331选考方案待确定的有6人541001()估计该学校高一年级选考方案确定的学生中选考生物的学生有多少人?()假设男生、女生选择选考科目是相互独立的.从选考方案确定
24、的8位男生随机选出1人,从选考方案确定的10位女生中随机选出1人,试求该男生和该女生的选考方案中都含有历史科目的概率;()从选考方案确定的8名男生随机选出2名,设随机变量求的分布列及数学期望.3.在测试中,客观题难度的计算公式为,其中为第题的难度,为答对该题的人数,为参加测试的总人数.现对某校高三年级240名学生进行一次测试,共5道客观题.测试前根据对学生的了解,预估了每道题的难度,如下表所示:题号12345考前预估难度0.90.80.70.60.4测试后,随机抽取了20名学生的答题数据进行统计,结果如下:题号12345实测答对人数161614144()根据题中数据,估计这240名学生中第5题
25、的实测答对人数;()从抽样的20名学生中随机抽取2名学生,记这2名学生中第5题答对的人数为X,求X的分布列和数学期望;()试题的预估难度和实测难度之间会有偏差.设为第题的实测难度,请用和设计一个统计量,并制定一个标准来判断本次测试对难度的预估是否合理.4.为了解学生暑假阅读名著的情况,一名教师对某班级的所有学生进行了调查,调查结果如下表.人数本数性别12345男生14322女生01331()从这班学生中任选一名男生,一名女生,求这两名学生阅读名著本数之和为4的概率.()若从阅读名著不少于4本的学生中任选4人,设选到的男学生人数为,求随机变量的分布列和数学期望;()试判断男学生阅读名著本数的方差
26、与女学生阅读名著本数的方差的大小(只需写出结论.【小试牛刀】1.年第届冬奥会将在北京举行.为了推动我国冰雪运动的发展,京西某区兴建了“腾越”冰雪运动基地.通过对来“腾越”参加冰雪运动的名运动员随机抽样调查,他们的身份分布如下:身份小学生初中生高中生大学生职工合计人数注:将频率视为概率()求来“腾越”参加冰雪运动的人员中,小学生的概率;()设表示来“腾越”参加运动的人中是大学生的人数,求X的分布列和数学期望2.甲、乙两人进行射击比赛,各射击4局,每局射击10次,射击命中目标得1分,未命中目标得0分.两人4局的得分情况如下:甲6699乙79()若从甲的4局比赛中,随机选取2局,求这2局的得分恰好相
27、等的概率;()如果,从甲、乙两人的4局比赛中随机各选取1局,记这2局的得分和为,求的分布列和数学期望;()在4局比赛中,若甲、乙两人的平均得分相同,且乙的发挥更稳定,写出的所有可能取值.(结论不要求证明)3.从高一年级随机选取100名学生,对他们期中考试的数学和语文成绩进行分析,成绩如图所示.()从这100名学生中随机选取一人,求该生数学和语文成绩均低于60分的概率;()从语文成绩大于80分的学生中随机选取两人,记这两人中数学成绩高于80分的人数为,求的分布列和数学期望;()试判断这100名学生数学成绩的方差与语文成绩的方差的大小.(只需写出结论)4.流行性感冒多由病毒引起,据调查,空气月平均
28、相对湿度过大或过小时,都有利于一些病毒繁殖和传播.科学测定,当空气月平均相对湿度大于或小于时,有利于病毒繁殖和传播.下表记录了某年甲、乙两个城市个月的空气月平均相对湿度.第一季度第二季度第三季度第四季度1月2月3月4月5月6月7月8月9月10月11月12月甲地乙地()从上表个月中,随机取出个月,求该月甲地空气相对湿度有利于病毒繁殖和传播的概率;()从上表第一季度和第二季度的个月中随机取出个月,记这个月中甲、乙两地空气月平均相对湿度都有利于病毒繁殖和传播的月份的个数为,求的分布列;()若,设乙地上表个月的空气月平均相对湿度的中位数为,求的最大值和最小值.(只需写出结论)【巩固练习基础篇】1.在联
29、赛中,某队甲、乙两名球员在前场比赛中投篮命中情况统计如下表(注:表中分数,表示投篮次数,表示命中次数),假设各场比赛相互独立.12345678910甲乙根据统计表的信息:()从上述比赛中等可能随机选择一场,求甲球员在该场比赛中投篮命中概率大于的概率;()试估计甲、乙两名运动员在下一场比赛中恰有一人命中率超过的概率;()在接下来的场比赛中,用表示这场比赛中乙球员命中率超过的场次,试写出的分布列,并求的数学期望.2.抢“微信红包”已经成为中国百姓欢度春节时非常喜爱的一项活动.小明收集班内20名同学今年春节期间抢到红包金额(元)如下(四舍五入取整数):102 52 41 121 72162 50 2
30、2 158 4643 136 95 192 5999 22 68 98 79对这20个数据进行分组,各组的频数如下:组别红包金额分组频数()写出的值,并回答这20名同学抢到的红包金额的中位数落在哪个组别;()记组红包金额的平均数与方差分别为、,组红包金额的平均数与方差分别为、,试分别比较与、与的大小;(只需写出结论)()从两组的所有数据中任取2个数据,记这2个数据差的绝对值为,求的分布列和数学期望.3.某企业招聘员工,其中、五种岗位的应聘人数、录用人数和录用比例(精确到)如下:()从表中所有应聘人员中随机选择人,试估计此人被录用的概率;()从应聘岗位的人中随机选择人.记为这人中被录用的人数,求
31、的分布列和数学期望;()表中、各岗位的男性、女性录用比例都接近(2者之差的绝对值不大于),但男性的总录用比例却明显高于女性的总录用比例.研究发现,若只考虑其中某四种岗位,则男性、女性的总录用比例也接近,请写出这四种岗位.(只需写出结论)4.某市旅游管理部门为提升该市26个旅游景点的服务质量,对该市26个旅游景点的交通、安全、环保、卫生、管理五项指标进行评分.每项评分最低分0分,最高分100分.每个景点总分为这五项得分之和,根据考核评分结果,绘制交通得分与安全得分散点图、交通得分与景点总分散点图如下:请根据图中所提供的信息,完成下列问题:()若从交通得分排名前5名的景点中任取1个,求其安全得分大
32、于90分的概率;()若从景点总分排名前6名的景点中任取3个,记安全得分不大于90分的景点个数为,求随机变量的分布列和数学期望;()记该市26个景点的交通平均得分为,安全平均得分为,写出与的大小关系.(只写出结果)【巩固练习提高篇】1.从某市的中学生中随机调查了部分男生,获得了他们的身高数据,整理得到如下频率分布直方图.()求的值;()假设同组中的每个数据用该组区间的中点值代替,估计该市中学生中的全体男生的平均身高;()从该市的中学生中随机抽取一名男生,根据直方图中的信息,估计其身高在180cm以上的概率.若从全市中学的男生(人数众多)中随机抽取人,用表示身高在以上的男生人数,求随机变量的分布列和数学期望.2.某空调专卖店试销、三种新型空调,销售情况如下表所示:第一周第二周第三周第四周第五周型数量(台)型数量(台)型数量(台)()求型空调前三周的平均周销售量;()根据型空调前三周的销售情况,预估型空调五周的平均周销售量为台,当型空调周销售量的方差最小时,求,的值;(注:方差,其中为的平均数)()为跟踪调查空调的使用情况,根据销售记录,从第二周和第三周售出的空调中分别随机抽取一台,求抽取的两台空调中型空调台数的分布列及数学期望.33欲穷千里目,更上一层楼。