1、概率与统计案例概率与统计案例高中数学选修系列之一高中数学选修系列之一国家课程标准教材教学计划学业成就关系图关系图为什么提升统计与概率的地位为什么提升统计与概率的地位数据日益成为一种重要的信息数据日益成为一种重要的信息现实社会中大量存在的是不确定现象现实社会中大量存在的是不确定现象当今社会媒体正在增加使用相应的语言与内容当今社会媒体正在增加使用相应的语言与内容,学学会处理各种信息会处理各种信息,尤其是数据信息是每个公民基本尤其是数据信息是每个公民基本素质的一部分素质的一部分统计与概率所提供的统计与概率所提供的“运用数据进行推断运用数据进行推断”的思考的思考方法已经成为重要的思维方式方法已经成为重
2、要的思维方式,许多不确定现象无许多不确定现象无法用形式逻辑推理解决(说理方式不同)法用形式逻辑推理解决(说理方式不同)对不确定现象的直觉常常不可靠对不确定现象的直觉常常不可靠培养正确的直觉需要反复观察不确定现象培养正确的直觉需要反复观察不确定现象 (教学方式不同)(教学方式不同)概率概率(选修选修)的具体目标的具体目标1.1.理解离散型随机变量及分布列的概念理解离散型随机变量及分布列的概念2.2.理解超几何分布及其导出过程理解超几何分布及其导出过程3.3.了解条件概率和两个事件相互独立的概念,了解条件概率和两个事件相互独立的概念,理解独立重复试验的模型及二项分布理解独立重复试验的模型及二项分布
3、4.4.通过实例,理解取有限值的离散型随机变通过实例,理解取有限值的离散型随机变量均值、方差的概念,能计算简单离散型量均值、方差的概念,能计算简单离散型随机变量的均值、方差,并能解决一些实随机变量的均值、方差,并能解决一些实际问题际问题 5.5.通过实际问题,借助直观(如实际问题的通过实际问题,借助直观(如实际问题的直方图),认识正态分布曲线的特点及曲直方图),认识正态分布曲线的特点及曲线所表示的意义线所表示的意义 统计案例的具体目标统计案例的具体目标 通过典型案例,学习下列一些常见的统计方法,通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。并能初步应用这些方法
4、解决一些实际问题。了解独立性检验(只要求了解独立性检验(只要求2 22 2列联表)的基列联表)的基本思想、方法及初步应用。本思想、方法及初步应用。了解实际推断原理和假设检验的基本思想、了解实际推断原理和假设检验的基本思想、方法及初步应用。方法及初步应用。了解聚类分析的基本思想、方法及其初步应了解聚类分析的基本思想、方法及其初步应用。用。了解回归的基本思想、方法及其初步应用。了解回归的基本思想、方法及其初步应用。教学中值得注意的几个问题教学中值得注意的几个问题 1.1.强调统计观念和随机观念的培养强调统计观念和随机观念的培养2.2.教学中主要通过对案例的探究,引入概教学中主要通过对案例的探究,引
5、入概念及其基本思想、方法和意义,再进行念及其基本思想、方法和意义,再进行实际问题的处理实际问题的处理3.3.淡化概念的严格表述淡化概念的严格表述4.4.鼓励使用计算器、计算机鼓励使用计算器、计算机,避免把数据避免把数据处理变成处理变成“算术算术”计算计算统计与概率教学之本统计与概率教学之本让学生相信它是科学让学生相信它是科学让学生感到它有用让学生感到它有用让学生理解它的内容与思想方法让学生理解它的内容与思想方法让学生有良好的直觉让学生有良好的直觉(1 1)工程系统设计)工程系统设计(2 2)商品的销售)商品的销售(3 3)社情分析:读图时代、民意测验)社情分析:读图时代、民意测验(4 4)工业
6、质量控制)工业质量控制(5 5)金融学)金融学(6)6)医学:荷尔蒙血样的分析、新药疗效医学:荷尔蒙血样的分析、新药疗效(7)7)挑战者号的爆炸挑战者号的爆炸(8)8)资源与环境的调查资源与环境的调查(9)有奖销售问题)有奖销售问题(1010)交通问题(车辆数、堵塞情况、交通事故等)交通问题(车辆数、堵塞情况、交通事故等)(11)11)体育:新的方法确实比旧方法好吗、足球比赛开始的抛币游戏体育:新的方法确实比旧方法好吗、足球比赛开始的抛币游戏(12)12)电脑键盘的设计原理电脑键盘的设计原理 (1313)天气预报降水概率)天气预报降水概率(14)14)求职策略求职策略(15)15)敏感性问题的
7、调查敏感性问题的调查 如统计与概率的应用实例统计与概率的应用实例只思考以下问题,并尽可能说明理由思考以下问题,并尽可能说明理由(1 1)天气预报称)天气预报称“某地明天的降水概率为某地明天的降水概率为80%,它,它的涵义是什么?的涵义是什么?”实际上,这个地方却没有降水,实际上,这个地方却没有降水,您如何看待这件事?您如何看待这件事?(2 2)掷一枚均匀的硬币)掷一枚均匀的硬币100次,正面朝上的次数是次,正面朝上的次数是50次的概率比较大。您同意吗?次的概率比较大。您同意吗?(3 3)中奖率为)中奖率为1/1000的彩票,买的彩票,买1000张一定会中奖。张一定会中奖。您如何看待这一说法?您
8、如何看待这一说法?(4 4)掷)掷一枚均匀的硬币一枚均匀的硬币5次,朝上的面都是正面,第次,朝上的面都是正面,第6次该得到正面还是反面?次该得到正面还是反面?(5 5)一种药的宣传材料上称该药的有效率为)一种药的宣传材料上称该药的有效率为90%,您如何看待这一数据?,您如何看待这一数据?(6 6)一个车间主任在预备检验一大批产品的)一个车间主任在预备检验一大批产品的质量时称质量时称“为了向顾客负责,我们不能只检为了向顾客负责,我们不能只检查部分查部分”,您如何看待他的说法?,您如何看待他的说法?(7)一项决策的平均收益是)一项决策的平均收益是1575元,这意味元,这意味着实施该决策后,决策者将
9、得到着实施该决策后,决策者将得到1575元收益。元收益。您如何看待这一说法?您如何看待这一说法?(8)如果我买某厂生产的一个产品,即使知)如果我买某厂生产的一个产品,即使知道该厂产品的次品率是千分之一,却完全可道该厂产品的次品率是千分之一,却完全可能买到次品。如果某种奖券的中奖率是能买到次品。如果某种奖券的中奖率是1/5,我买卖我买卖10张奖券仍可能一张也不中奖。既然张奖券仍可能一张也不中奖。既然如此,了解随机事件的规律有什么用呢?如此,了解随机事件的规律有什么用呢?1.1.随机现象的两个特征随机现象的两个特征:结果的随机性结果的随机性;频率的频率的稳定性稳定性.2.2.研究随机现象时碰到的第
10、一个问题是:研究随机现象时碰到的第一个问题是:什么叫做什么叫做“了解了解”了某一随机现象?了某一随机现象?了解了解”一个随机现象是指:一个随机现象是指:知道这个随机现象知道这个随机现象中所有可能出现的结果;中所有可能出现的结果;知道每个结果出现的概知道每个结果出现的概率率.3.3.引入变量,将试验的结果用变量的取值来代替,该引入变量,将试验的结果用变量的取值来代替,该变量叫做随机变量。变量叫做随机变量。(或者说或者说,建立一个从试验结果建立一个从试验结果的集合到实数集合的映射的集合到实数集合的映射,这个映射叫做随机变量这个映射叫做随机变量)因此因此“了解了解”随机现象就转化为了解这个随机变量随
11、机现象就转化为了解这个随机变量所有可能的取值和取每个值时的概率所有可能的取值和取每个值时的概率.随机现象随机现象离散型随机变量及其分布列离散型随机变量及其分布列例:掷一枚均匀的色子例:掷一枚均匀的色子引入变量引入变量X X表示色子出的点数表示色子出的点数,X,X分布列为分布列为:一般情况一般情况:X123456P1/61/61/61/61/61/6X值值x1x2xn概率概率p1p2pn求随机变量的分布列必须注意两个环节求随机变量的分布列必须注意两个环节:1.随机变量的取哪些值随机变量的取哪些值2.求随机变量的取相应值的概率求随机变量的取相应值的概率ip 满 足1.01,2,ipin12.1ni
12、ip 了解了它的分布列就了解了它的分布列就了解了这个随机变量所有可了解了这个随机变量所有可能的取值和取每个值时的概率能的取值和取每个值时的概率,从而了解了这个随机从而了解了这个随机现象现象,即分布列完全描述了随机现象的规律即分布列完全描述了随机现象的规律 设有设有N个同类产品,其中有个同类产品,其中有M个次品,个次品,现从中任取现从中任取n个(假定个(假定nNM),则在),则在这这n个中所含的次品数个中所含的次品数X是一个离散型随机是一个离散型随机变量,变量,X的分布为的分布为 其中其中 ,称该分布为超几何分布,称该分布为超几何分布超几何分布超几何分布 ()(0,1,2,)mn mMNMnNC
13、 CP XmmlCmin(,)lM n案例案例:高三(:高三(1 1)班的联欢会上设计了一)班的联欢会上设计了一项游戏,在一个口袋中装有项游戏,在一个口袋中装有1010个红球,个红球,2020个白球,这些球除颜色外完全相同,游戏个白球,这些球除颜色外完全相同,游戏者一次从中摸出者一次从中摸出5 5个球,摸到个球,摸到4 4个红球的就个红球的就中一等奖,求中一等奖的概率中一等奖,求中一等奖的概率解:设表示摸到的红球数,因此服从超解:设表示摸到的红球数,因此服从超几何分布几何分布:()mn mMNMnNC CP XmCmin(,)min(10,5)5lM n0,1,2,.ml41102053042
14、00(4)0.029142506C CP XC30,5,4,10NnmM条件概率条件概率 案例案例 为了调查饮酒与患高血压的关系,进行为了调查饮酒与患高血压的关系,进行了社会调查了社会调查 饮饮 血压血压饮酒饮酒不饮酒不饮酒合计合计高高85851515100100正常正常115115785785900900合计合计20020080080010001000A A表示随机抽一人为饮酒者,表示随机抽一人为饮酒者,B B表示随机抽一人表示随机抽一人为高血压者为高血压者 现已知此人为现已知此人为饮酒者,则他患高血压的概率为饮酒者,则他患高血压的概率为称称 为为 发生的条件下发生的条件下 发发生的条件概率
15、。生的条件概率。关于事件的独立性:如果一个事件的发生不会影响另关于事件的独立性:如果一个事件的发生不会影响另一个事件发生的概率,我们称这两个事件是相互独立一个事件发生的概率,我们称这两个事件是相互独立的。的。如果如果 (即(即 ),),称称A A与与B B相相互独立互独立 100200()0.1()(0.2)10001000P AP B8585/1000()()(0.425)200200/1000()P ABP B AP A()()()P ABP B AP AAB()0)P A()()()P ABP A P B()()P B AP B案例案例 袋中有纸片若干张,奖品五花八门,袋中有纸片若干张,
16、奖品五花八门,大奖为奶糖之类,没有空门,大奖为奶糖之类,没有空门,1分钱可以从分钱可以从中摸一张,不妨设袋中有中摸一张,不妨设袋中有10张纸片,其中张纸片,其中有有1张是奶糖。张是奶糖。现在一个孩子拿了现在一个孩子拿了2分钱摸奶糖,他应该怎么摸?分钱摸奶糖,他应该怎么摸?第一种方案:小孩先摸出第一种方案:小孩先摸出1张,不放回再摸张,不放回再摸1张。记张。记事件事件则他摸不到奶糖的概率为则他摸不到奶糖的概率为iAii 第张不是奶糖=1,21212198()()()0.810 9P AAP A P A A第二种方案:小孩先从口袋里摸出第二种方案:小孩先从口袋里摸出1张,放回后再摸张,放回后再摸1
17、张。此时张。此时A1与与A2相互独立,故小孩子相互独立,故小孩子摸不到奶糖的摸不到奶糖的概率为概率为 因此,小孩子采取不放回抽取的方式,即第一种方因此,小孩子采取不放回抽取的方式,即第一种方案。案。121299()()()0.8110 10P AAP A P A 注:注:一个错误的直觉一个错误的直觉 在大多数人看来,一个独立事件发生的概在大多数人看来,一个独立事件发生的概率,会受到临近的同类独立事件的影响。率,会受到临近的同类独立事件的影响。独立重复试验模型独立重复试验模型 1.每次试验都在相同条件下进行每次试验都在相同条件下进行2.各次试验是相互独立的各次试验是相互独立的3.每次试验有且仅有
18、两个结果:每次试验有且仅有两个结果:A出现(成功)和出现(成功)和A不出现(不出现(失败)失败)4.每次试验的结果发生概率相同:每次试验的结果发生概率相同:具有上述特征的重复进行的试验,称为独立重复试验,试具有上述特征的重复进行的试验,称为独立重复试验,试验若共进行验若共进行n次,称为次,称为n次独立重复试验(模型)次独立重复试验(模型)用用X表示这表示这n n次独立重复试验中次独立重复试验中A出现(成功)的次数,出现(成功)的次数,则则称称X服从二项分布服从二项分布()()1P ApP Ap()(1)0,1,kkn knP XkC ppkn 案例案例:某保险公司对一种电视机进行保险,现有:某
19、保险公司对一种电视机进行保险,现有3000个客户各购得此种电视机一台,在保险期内,个客户各购得此种电视机一台,在保险期内,这种电视机的损坏率为这种电视机的损坏率为0.001,参加保险客户每户,参加保险客户每户交付保险费交付保险费10元,电视机损坏时可向保险公司领元,电视机损坏时可向保险公司领取取2000元,求保险公司在投保期内(元,求保险公司在投保期内(1)亏损的)亏损的概率,(概率,(2)获利不少于)获利不少于10000元的概率。元的概率。解:设解:设X表示电视机损坏的台数表示电视机损坏的台数X服从二项分布,服从二项分布,n=3000,p=0.001n=3000,p=0.001()(1)0,
20、1,kkn knP XkC ppkn15300030000(15)1(15)1(0.001)(0.999)0kkkkP XP XC 10300030000(10)(10)(0.001)(0.999)0.999973kkkkP XP XC超几何分布与二项分布的关系超几何分布与二项分布的关系!()!()!()!()!MNMMm m NMnmnm()!(1)(1)!()!mNnnnM MMmNm nmN NN()(1)()1n mNMNMNMnmN NN(1)(1)nN NNNNNnmp(1)n mp()Mp NN 设设1(1)mmnmnCpp()mn mMN MnNC CP XmC当当 充分大时充
21、分大时()(1)mn mmmn mMN MnnNC CP XmC ppCp例:如果在例:如果在15000件产品中有件产品中有1000件不合格件不合格品,从中任意抽取品,从中任意抽取150件进行检验,求查得件进行检验,求查得不合格品数的分布列不合格品数的分布列(和数学期望和数学期望)150150()(1)mmmP X mC pp115p()10E Xnp数字特征数字特征(数学期望、方差)(数学期望、方差)1.数学期望是反映随机变量取值的一般水平数学期望是反映随机变量取值的一般水平,方差是反映随机变量取值的方差是反映随机变量取值的离散程度离散程度.2.数学期望与方差都是数数学期望与方差都是数,没有
22、随机性没有随机性,它们是它们是用来刻划随机现象的用来刻划随机现象的.3.从某种意义上来说从某种意义上来说,分布远比数字特征重要分布远比数字特征重要.4.数字特征重要性在于数字特征重要性在于,它们有非常明确的含它们有非常明确的含义义,反映了随机变量重要信息反映了随机变量重要信息,在许多情况下在许多情况下,人们不需要知道随机变量的分布人们不需要知道随机变量的分布,只需要知只需要知道它的数字特征道它的数字特征.数学期望数学期望例:甲乙两台机床,每日生产次品数为例:甲乙两台机床,每日生产次品数为:X0123概率概率0.40.30.20.1Y0123概率概率0.30.50.20甲甲乙乙问哪个机床好?问哪
23、个机床好?04 013 022 031 011 0 0甲:甲:乙:乙:03 015 022 0300.91 0 0各生产各生产100天,甲、乙平均每天生产次品的件数:天,甲、乙平均每天生产次品的件数:一般情况一般情况X值值x1x2xn概率概率p1p2pn1niiiE Xxp在上例中在上例中0 0.4 1 0.3 2 0.2 3 0.1 1EX 0 0.3 1 0.5 2 0.2 3 0 0.9EY 方差的定义方差的定义X-101概率概率0.10.80.1Y-2-1012概率概率0.10.20.40.20.1甲甲乙乙例例 甲、乙两种牌号的手表日走时误差情况如下:甲、乙两种牌号的手表日走时误差情况
24、如下:0EXEY2()DXE XEX考察考察X围绕围绕EX上下波动的程度上下波动的程度超几何分布与二项分布的数学期望超几何分布与二项分布的数学期望超几何分布超几何分布00()mn mllMN MnmmNmC CEXmP XmCnMN二项分布二项分布0(1)nkknknkEXkCppnp(1)DXnpp数学期望在问题决策中的应用案例数学期望在问题决策中的应用案例案例案例 投资决策问题投资决策问题 某人有某人有10万元,有两种投资方案:一是购买万元,有两种投资方案:一是购买股票,二是存入银行获取利息,买股票的收益取股票,二是存入银行获取利息,买股票的收益取决于经济形势,假设可分三种状态:形势好、形
25、决于经济形势,假设可分三种状态:形势好、形势中等、形势不好(即经济衰退)。若形势好可势中等、形势不好(即经济衰退)。若形势好可获利获利4万元,若形势中等可获利万元,若形势中等可获利1万元,若形势不万元,若形势不好要损失好要损失2万元,如果是存入银行,假设年利率为万元,如果是存入银行,假设年利率为8%,即可得利息,即可得利息8000元,又设经济形势好、中、元,又设经济形势好、中、差的概率分别为差的概率分别为30%、50%和和20%,试问选择哪,试问选择哪一种方案可使投资的效益较大?一种方案可使投资的效益较大?设设X X为购买股票获取的收益为购买股票获取的收益X4000010000-20000概率
26、概率0.30.50.240000 0.3 10000 0.5(20000)0.2 13000EX 13000 8000EX 所以应采用购买股票的方案所以应采用购买股票的方案 案例案例 求职决策问题求职决策问题 有三家公司都为硕士毕业生李宏提供了就职面试的有三家公司都为硕士毕业生李宏提供了就职面试的机会,按面试的时间顺序,这三家公司记为机会,按面试的时间顺序,这三家公司记为A A、B B、C C,每家公司都可提供极好、好和一般三种职位,每家公每家公司都可提供极好、好和一般三种职位,每家公司将根据面试情况决定给予求职何种职位或拒绝提供司将根据面试情况决定给予求职何种职位或拒绝提供职位。若规定求职双
27、方在面试以后要立即决定提供、职位。若规定求职双方在面试以后要立即决定提供、接受或拒绝某种职位,且不容许毁约。咨询专家为李接受或拒绝某种职位,且不容许毁约。咨询专家为李宏的学业成绩和综合素质进行评估后认为,他获得极宏的学业成绩和综合素质进行评估后认为,他获得极好、好、一般职位的可能性分别为好、好、一般职位的可能性分别为0.20.2、0.30.3、0.50.5,三,三家公司的工资数据如下表。李宏如果把工资数尽量大家公司的工资数据如下表。李宏如果把工资数尽量大作为首要条件的话,那么他在各公司面试时,对该公作为首要条件的话,那么他在各公司面试时,对该公司提供的各种职位应如何决策?司提供的各种职位应如何
28、决策?公司公司 职职 位位 极好极好(0.2)(0.2)好好(0.3)(0.3)一般一般(0.5)(0.5)A 3500 3000 2200 B 3900 2950 2500C 4000 3000 2500 由于面试有时间先后,使得李宏在由于面试有时间先后,使得李宏在A、B公司面公司面试,作选择时,还要考虑到后面试,作选择时,还要考虑到后面C公司的情况,所以公司的情况,所以应先从应先从C开始讲讨论,开始讲讨论,C公司的工资期望值为:公司的工资期望值为:4000 0.2 3000 0.3 2500 0.5 2950 现在考虑现在考虑B公司,因为公司,因为B公司的一般职位工资只公司的一般职位工资只
29、有有2500元,低于元,低于C公司的期望值以只接受公司的期望值以只接受B公司极公司极好或好职位,否则就到好或好职位,否则就到C公司应聘,公司应聘,B公司的工资公司的工资期望值为:期望值为:元元3900 0.2 2950 0.3 2500 0.5 3015元元 最后考虑最后考虑A公司,由于公司,由于A公司的极好职位的公司的极好职位的工资超过工资超过30153015元,所以他只接受元,所以他只接受A公司的极好公司的极好职位,否则就到职位,否则就到B公司应聘。公司应聘。他的总决策是:先去他的总决策是:先去A A公司应聘,若公司应聘,若A A公司提公司提供极好的职位就接受,否则去供极好的职位就接受,否
30、则去B B公司应聘;若公司应聘;若B B公司提供极好或好的职位就接受,否则去公司提供极好或好的职位就接受,否则去C C公公司应聘,接受司应聘,接受C C提供的任何职位。提供的任何职位。在这一策略下,他的工资期望值为在这一策略下,他的工资期望值为 3500 0.2 3015 0.5 2950 0.33092.5元元 案例案例 方案决策问题方案决策问题 某冷饮店需要制定某种冷饮在七、八月某冷饮店需要制定某种冷饮在七、八月份的日进货计划,该品种冷饮的进货成本份的日进货计划,该品种冷饮的进货成本为每箱为每箱30元,销售价格为每元,销售价格为每50元,当天销元,当天销售后每箱可获利售后每箱可获利20元,
31、但如果当天剩余一元,但如果当天剩余一箱,就要因冷藏费及其他原因而亏损箱,就要因冷藏费及其他原因而亏损10元。元。现有前两年同期共现有前两年同期共120天的日销量资料,其天的日销量资料,其中日销售为中日销售为130箱有箱有12天,日销售为天,日销售为120箱箱有有36天,日销售为天,日销售为110箱有箱有48天,其余天,其余24天天的日销售量也达的日销售量也达100箱,请对于进货量分别箱,请对于进货量分别为为100箱、箱、110箱、箱、120箱、箱、130箱四个方案箱四个方案给予决策。给予决策。日销售量(箱)天数概率1002424 120=0.21104848 120=0.41203636 12
32、0=0.31301212 120=0.1根据前两年同期日销售量资料,进行统计分析,根据前两年同期日销售量资料,进行统计分析,可确定不同日销售量的概率可确定不同日销售量的概率 日进货100箱日进货110箱日进货120箱日进货130箱日销售100箱2000190018001700日销售110箱2000220021002000日销售120箱2000220024002300日销售130箱2000220024002600计算各进货方案在各种销售状况下的计算各进货方案在各种销售状况下的盈利盈利 情况情况:如日进货如日进货120箱箱:如果日销售如果日销售100箱箱,此时此时盈利盈利2020100-20100
33、-2010=180010=1800元元如果日销售如果日销售110箱箱,此时此时盈利盈利2020110-10110-1010=210010=2100元元计算各进货方案盈利的数学期望计算各进货方案盈利的数学期望:方案方案1:1:E E1 1=0.2=0.22000+0.42000+0.42000+0.32000+0.32000+0.12000+0.12000=20002000=2000E E2 2=0.2=0.21900+0.41900+0.42200+0.32200+0.32200+0.12200+0.12200=21402200=2140E E3 3=0.2=0.21800+0.41800+0
34、.42100+0.32100+0.32400+0.12400+0.12400=21602400=2160E E4 4=0.2=0.21700+0.41700+0.42000+0.32000+0.32300+0.12300+0.12600=20902600=2090盈利期望值以方案盈利期望值以方案3 3为最大,所以该冷饮店的进货决策为最大,所以该冷饮店的进货决策就应选择日进货量为就应选择日进货量为120120箱的方案。箱的方案。无处不在的正态分布无处不在的正态分布样本大小为的三次抽样样本大小为的三次抽样22()21()2xPxe 正态分布的密度函数:正态分布的密度函数:1.密度函数图象的特点密度
35、函数图象的特点2.正态分布也称高斯分布正态分布也称高斯分布3.正态分布无处不在正态分布无处不在4.正态分布与帕斯卡三角形正态分布与帕斯卡三角形(牛顿二项式展牛顿二项式展开的系数开的系数)131111112111113204410610551566157()ab2()ab每行数值都是呈正态分布每行数值都是呈正态分布,与高尔顿试验惊人地一致与高尔顿试验惊人地一致173521217351 在一批样本数据中,定义度量,计算出样本数在一批样本数据中,定义度量,计算出样本数据或类别之间的相近程度的度量值;再按相近程据或类别之间的相近程度的度量值;再按相近程度的大小,把样本逐一归类;最后把不同的类别度的大小
36、,把样本逐一归类;最后把不同的类别一一划分出来,形成一个关系密疏图,并用以直一一划分出来,形成一个关系密疏图,并用以直观地显示分类对象的差异和联系。观地显示分类对象的差异和联系。进行聚类分析需要解决两个问题:一是如何确进行聚类分析需要解决两个问题:一是如何确定度量两个数据的接近程度的方法;二是究竟分定度量两个数据的接近程度的方法;二是究竟分成多少类合适。这两个问题都需要根据实际问题成多少类合适。这两个问题都需要根据实际问题的背景和数据本身的意义来确定。的背景和数据本身的意义来确定。聚类分析聚类分析韩国韩国 拉脱维亚拉脱维亚 俄罗斯俄罗斯 多米尼加多米尼加 汤加汤加 土耳其土耳其 中国中国 泰国
37、泰国 斐济斐济 日本日本 68.267.067.0 66.365.0 63.0 61.0 60.059.359.0 6.3 12.0 30.0 13.6 14.0 24.0 7.0 15.0 30.6 14.8 美国美国 巴基斯坦巴基斯坦 芬兰芬兰 土库曼土库曼 尼日尼日利亚利亚 巴拉圭巴拉圭 巴林巴林 新西新西兰兰 瑞典瑞典 巴哈巴哈马马 28.1 27.4 27.026.624.4 24.124.024.020.0 19.3 23.5 4.4 19.0 1.5 6.7 5.5 6.0 22.0 24.0 3.8 案例案例 关于吸烟情况的关于吸烟情况的2020个国家的统计数字个国家的统计数字
38、,其中第一行是国名,第二行是男性吸烟成员,其中第一行是国名,第二行是男性吸烟成员的百分数,第三行是女性吸烟成员的百分数的百分数,第三行是女性吸烟成员的百分数.根据数据,试研究这些国家吸烟状况的类似程度根据数据,试研究这些国家吸烟状况的类似程度 讨论男性的吸烟情况讨论男性的吸烟情况首先确定一个划分类似的标准,不妨取首先确定一个划分类似的标准,不妨取1%1%,即当,即当两个国家男性吸烟人数百分比之差小于两个国家男性吸烟人数百分比之差小于1%1%时,将时,将这两个国家称为类似的,则可分成下面八组:这两个国家称为类似的,则可分成下面八组:(1)韩国)韩国(2)拉脱维亚,俄罗斯和多米尼加)拉脱维亚,俄罗
39、斯和多米尼加(3)汤加)汤加(4)土耳其)土耳其(5)中国,泰国,斐济和日本)中国,泰国,斐济和日本(6)美国,巴基斯坦,芬兰和土库曼)美国,巴基斯坦,芬兰和土库曼(7)尼日利亚,巴拉圭,巴林和新西兰)尼日利亚,巴拉圭,巴林和新西兰(8)瑞典和巴哈马)瑞典和巴哈马 整体地讨论吸烟情况整体地讨论吸烟情况 以女性吸烟者的百分数为横轴,男性吸烟者的百分数为纵轴以女性吸烟者的百分数为横轴,男性吸烟者的百分数为纵轴 70 60 50 40 30 20 0 10 20 30 40 巴基斯坦 尼日利亚 巴林 巴哈马土库曼巴拉圭 美国 瑞典 新西兰 芬兰 韩国 拉脱维亚 中国 日本 泰国 汤加 多米尼加 俄罗
40、斯 斐济 土耳其 从图中可以看出,基本分成下面四组:从图中可以看出,基本分成下面四组:(1)巴哈马,巴基斯坦,巴拉圭,尼日利)巴哈马,巴基斯坦,巴拉圭,尼日利亚和土库曼斯坦亚和土库曼斯坦(2)芬兰,新西兰,瑞典和美国)芬兰,新西兰,瑞典和美国(3)中国,日本,泰国,韩国,拉脱维亚,)中国,日本,泰国,韩国,拉脱维亚,多米尼加和汤加多米尼加和汤加(4)土耳其,斐济和俄罗斯)土耳其,斐济和俄罗斯 这个过程叫做聚类分析这个过程叫做聚类分析 1 1选择一种确定接近程度的方法,最直接的就是选择一种确定接近程度的方法,最直接的就是点之间的距离点之间的距离设要分类的对象有设要分类的对象有n个;我们以这个;我
41、们以这n个对象分成个对象分成n类开始,按所选择的方法确定这类开始,按所选择的方法确定这n个对象两两的个对象两两的接近程度度量值,将最接近的两个对象合并为一接近程度度量值,将最接近的两个对象合并为一类,如此我们得到了至多类,如此我们得到了至多n1类;类;确定类与类之间接近程度的方法;确定类与类之间接近程度的方法;对对n1类重复步骤(类重复步骤(2),如此下去到完全归为),如此下去到完全归为一类为止。一类为止。至于究竟分成多少类合适,需要分析根据讨论至于究竟分成多少类合适,需要分析根据讨论的问题来决定。在实际问题中,往往需要对几种的问题来决定。在实际问题中,往往需要对几种分类方案进行比较后,再加以
42、选择。分类方案进行比较后,再加以选择。聚类分析的程序聚类分析的程序 0 1 0 2.5 1.5 0 6 5 3.5 0 8 7 5.5 2 011GX11GX22GX33GX44GX55GX22GX33GX44GX55GX 案例案例 设有五个样品,每个样品有一个指设有五个样品,每个样品有一个指标,它们是标,它们是1 1,2 2,3.53.5,7 7,9 9试用最短距离试用最短距离法对五个样品进行分类法对五个样品进行分类 0 1.5 0 5 3.5 0 7 5.5 2 06G33GX44GX55GX612,GXX33GX44GX55GX上表中,非对角线中的最小值为上表中,非对角线中的最小值为1
43、1,即,即 因此将因此将 和和 合并成一个新类,记为合并成一个新类,记为 。再计算再计算 与与 、的距离,得到新的距离矩阵的距离,得到新的距离矩阵,如下表,如下表 612,GXX6G3G4G5G2G1G12211DD 0 3.5 0 5.5 2 07G44GX55GX7123,GXXX44GX55GX上表中,非对角线中的最小值为上表中,非对角线中的最小值为1.5,1.5,因此将相应因此将相应的类的类 和和 合并为,记为合并为,记为 。再计算。再计算 与与 、的距离,得到新的距离矩阵,如下表的距离,得到新的距离矩阵,如下表 6G3G4G5G7123,GXXX7G 0 3.5 07123,GXXX
44、845,GXX7123,GXXX845,GXX上表中,非对角线中的最小值为上表中,非对角线中的最小值为2,2,因此将相应的因此将相应的类类 和和 合并为,记为合并为,记为 。再计算。再计算 与与 的距离,得到新的距离矩阵,如下表的距离,得到新的距离矩阵,如下表 7G845,GXX5G4G8G0 1 2 3 1X2X3X4X5X最后将最后将 与与 合并成合并成 ,上述聚类过程可用下图表示:上述聚类过程可用下图表示:8G7G912345,GXXXXX 为了研究某种新药的副作用(如恶心等),为了研究某种新药的副作用(如恶心等),给给5050位患者服用此新药,另外位患者服用此新药,另外5050位患者服
45、用位患者服用安慰剂,得到如下表的实验数据安慰剂,得到如下表的实验数据。副作用副作用 药物药物 有有 无无 合计合计 新药新药 15 35 50 安慰剂安慰剂 4 46 50 合计合计 19 81 100 22列联表独立性检验列联表独立性检验 从上面的例子可以得到:从上面的例子可以得到:假定服用新药与产生副作用没有关联假定服用新药与产生副作用没有关联 P(全体实验者产生副作用全体实验者产生副作用)=;P(服用新药产生副作用服用新药产生副作用)=,)=,二者相差较二者相差较大由此可以推断,开始的假设是不成立的大由此可以推断,开始的假设是不成立的也就是说,服用新药与产生副作用是有关联也就是说,服用新
46、药与产生副作用是有关联的的 1 90.1 91 0 01 50.35 0副作用副作用B药物药物A 有副作用有副作用1无副作用无副作用2合计合计 新药新药A1aba+b安慰剂安慰剂A2 cdc+d合计合计 a+cb+dn在前面的例子中在前面的例子中 a=15 b=35 c=4 d=46a=15 b=35 c=4 d=46独立性要求:独立性要求:P P(全体实验者产生副作用全体实验者产生副作用)=P=P(服用新药产生副作用服用新药产生副作用)即即这等价于这等价于因此,可以用因此,可以用 的大小来衡量独立性的大小来衡量独立性的好坏的好坏v问题:问题:(1)(1)用用 是不是更好些?是不是更好些?ac
47、anab()()abacan()()abacan()()abacan()()abbdbn()()cdaccn()()cdbddn(2)(2)用用 比用比用 合理,合理,()()()()abacanabacn()()abacan你认为有道理吗?你认为有道理吗?(3)(3)为了得到统计时量的近似的分布,统计为了得到统计时量的近似的分布,统计学家最终选用了:学家最终选用了:22()()()()()()()()abacabbdabnnabacabbdnn22()()()()()()()()accdcdbdcdnnaccdcdbdnn2用它的大小来衡量独立性的大小,经过整理得:用它的大小来衡量独立性的大
48、小,经过整理得:22()()()()()n adbcabcdacbd 从上面的表达式可以直观地看出:从上面的表达式可以直观地看出:的值越小,事的值越小,事件件A与与B之间的独立性将会越大(当的值为之间的独立性将会越大(当的值为0时,时,事件事件A与与B完全独立)完全独立)当时,在概率为当时,在概率为95%的意义下是相关的;的意义下是相关的;当时,事件当时,事件A与与B在概率为在概率为99%的意义下是的意义下是相关的相关的回到前面的例子算出的值:回到前面的例子算出的值:于是得出结论:在概率为于是得出结论:在概率为99%的意义下,服用新药与的意义下,服用新药与产生副作用是相关联的。从数据可以进一步
49、看出,服产生副作用是相关联的。从数据可以进一步看出,服用新药容易产生副作用。用新药容易产生副作用。上述过程在统计推断中叫做独立性检验,它的基本思上述过程在统计推断中叫做独立性检验,它的基本思想是:如何选用一个标准,用它衡量事件之间的独立想是:如何选用一个标准,用它衡量事件之间的独立性是否成立。性是否成立。2223.8426.6322100(15 4635 4)27.866.6350 50 19 81注:我们关心如何选用一个量,用它的注:我们关心如何选用一个量,用它的大小来说明独立性是否成立,关注其大小来说明独立性是否成立,关注其方法直观合理性。至于最后选取的量方法直观合理性。至于最后选取的量及
50、其大小的界定超出了高中的范围,及其大小的界定超出了高中的范围,可以只告诉学生结果,使其能够操作,可以只告诉学生结果,使其能够操作,而不会影响对问题实质的理解而不会影响对问题实质的理解.()()abacnaba+bcdc+da+cb+dn理论频数理论频数()()cdbdn2()()()()abacanabacn可以看作这一格的相对误差可以看作这一格的相对误差 案例案例 某校高中应届毕业生某校高中应届毕业生180180人(男人(男9090人,女人,女9090人),参加高考的结果如下人),参加高考的结果如下表,试问高考录取名额,是否与性别有表,试问高考录取名额,是否与性别有关?关?性别性别录取人数录