1、2022年10月15日星期六医学健康独立性检验医学健康独立性检验问题情景:日常生活中我们关心这样一些问题:日常生活中我们关心这样一些问题:(1)吸烟与患肺癌之间有无关系?)吸烟与患肺癌之间有无关系?(2)秃顶与心脏病之间有无关系?)秃顶与心脏病之间有无关系?(3)性别与喜欢数学课之间有无关系?)性别与喜欢数学课之间有无关系?都要考查两个随机变量(如吸烟与患病)都要考查两个随机变量(如吸烟与患病)之间是否有影响,即两个变量是否相互独立?之间是否有影响,即两个变量是否相互独立?案案 例例:某医疗机构为了了解呼吸道疾病与:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查吸烟是否
2、有关,进行了一次抽样调查,共调查了了515515个成年人,其中吸烟者个成年人,其中吸烟者220220人,不吸烟人,不吸烟者者295295人。人。调查结果调查结果:吸烟的:吸烟的220220人中有人中有3737人患呼吸道人患呼吸道疾病,疾病,183183人未患呼吸道疾病;不吸烟的人未患呼吸道疾病;不吸烟的295295人中有人中有2121人患病,人患病,274274人未患病。人未患病。根据这些数据,能否断定:患呼吸道疾病与吸烟有关?案例分析:数 据 整理:患病患病未患病未患病合计合计吸烟吸烟不吸烟不吸烟合计合计372158183274457220295515问题:判断的标准是什么?案案 例例:某医
3、疗机构为了了解呼吸道疾病与吸烟是:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了否有关,进行了一次抽样调查,共调查了515515个成年个成年人,其中吸烟者人,其中吸烟者220220人,不吸烟者人,不吸烟者295295人。人。调查结果调查结果:吸烟的:吸烟的220220人中有人中有3737人患呼吸道疾病,人患呼吸道疾病,183183人未患呼吸道疾病;不吸烟的人未患呼吸道疾病;不吸烟的295295人中有人中有2121人患病,人患病,274274人未患病。人未患病。2X2列联表列联表吸烟与不吸烟,患病的可能性的大小是否有差异?频率估计概率患 病未患病合 计(n)吸 烟16.
4、82%83.18%100%(220)不吸烟7.12%92.88%100%(295)通过图形直观判断通过图形直观判断不患病不患病比例比例患病患病比例比例解决问题:直观方法吸烟的患病率不吸烟的患病率37/220 16.82%21/295 7.12%根据统计分析的思想,用频率估计概率可知,吸烟者与不吸烟者患病的可能性存在差异。你能有多大把握认为“患病与吸烟有关”呢?有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的。笛卡尔能否用数量来刻画能否用数量来刻画“有关有关”程度程度问题的数学表述l“患呼吸道疾病与吸烟有关患呼吸道疾病与吸烟有关”这句话是什么意思?这句话是什
5、么意思?l“某成年人吸烟某成年人吸烟”记为事件记为事件A,“某成年人患病某成年人患病”记为事件记为事件Bl这句话的意思是:事件这句话的意思是:事件A与事件与事件B有关。有关。l问题的另一面是:事件问题的另一面是:事件A与事件与事件B独立。独立。患病患病未患病未患病合计合计吸烟吸烟不吸烟不吸烟合计合计372158183274457220295515一般化:P(A)、P(B)不知道,怎么办?频率估计概率P(A)P(B)P(AB)同理,吸烟但不患病的人数约为n 由此估计:吸烟且患病的人数约为 n 不吸烟但患病的人数约为n 不吸烟也不患病的人数约为n 怎样估计实际观测值与理论估计值的误差?采用如下的量
6、(称为2 统计量)来刻画这个差异:+化简得=22统计量2 11.8634解决问题的思路l思路:反证法思想l(1)假设:H0:患病与吸烟无关l 即 P(A)P(B)=P(AB)l(2)在 H0成立的条件下进行推理l(3)如果实际观测值与由(2)推出的值相差不大,则可以认为这些差异是由随机误差造成的,假设H0不能被否定;否则,假设H0不能被接受反证法与假设检验反证法反证法假设检验假设检验要证明结论A要证H1成立在A不成立的前提下进行推理在H1和不成立的(即H0成立)的条件下进行推理推出矛盾A成立推出H0成立的概率很小没有找到矛盾反证法失败推出H0成立的概率很大接受原假设一般地,对于两个研究对象一般
7、地,对于两个研究对象和和,有两类有两类取值,即类取值,即类A A和和B B(如吸烟与不吸烟);(如吸烟与不吸烟);也有两类也有两类取值,即类取值,即类1 1和和2 2(如患病与不患病)。于是得到(如患病与不患病)。于是得到下列联表所示的抽样数据:下列联表所示的抽样数据:类类1 1类类2 2总计总计类类A Aa ab ba+ba+b类类B Bc cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d要推断要推断“和和有关系有关系”,可按下面的步骤进行:,可按下面的步骤进行:(1 1)提出假设)提出假设H H0 0 :和和没有关系;没有关系;(3 3)查对临界值,作出判断
8、。)查对临界值,作出判断。(2 2)根据)根据2 2 2 2列联表与公式计算列联表与公式计算 的值;的值;由于抽样的随机性,由样本得到的推断由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用有可能正确,也有可能错误。利用 进行进行独立性检验,可以对推断的正确性的概率作独立性检验,可以对推断的正确性的概率作出估计,样本量出估计,样本量n n越大,估计越准确。越大,估计越准确。0.50.4 0.250.150.10.050.0250.010.0050.001xo0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828卡方临界值表:卡方临界
9、值表:则有则有99.9%99.9%的把握认为的把握认为“与与有关系有关系”;(1)1)若观测值若观测值2 210.828.10.828.(3)3)若观测值若观测值2 22.7062.706,则,则(4)4)若观测值若观测值2 22.7062.706,则,则(2)2)若观测值若观测值2 26.6356.635,则有则有99%99%的把握认为的把握认为“与与有关系有关系”;则有则有90%90%的把握认为的把握认为“与与有关系有关系”;则没有充分的证据显示则没有充分的证据显示“与与有有关系关系”,但也不能作出结论,但也不能作出结论“H“H0 0成成立立”,即,即与与没有关系。没有关系。例2:为研究不同的给药方式(口服与注射)和药的效果(有效和无效)是否有关,进行了相应的抽样调查,调查的结果列在下表中,根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效有效无效无效合计合计口服口服584098注射注射643195合计合计12271193