1、01 卫生统计学概述卫生统计学概述 2018/10/24 CONTENTS 1. 基本概念 2. 基本步骤 2018/10/24 一、卫生统计学的基本概念 变量:对每个观察单位的某项特征进行测定和观察,变量:对每个观察单位的某项特征进行测定和观察, 这种观察单位的特征称为变量。这种观察单位的特征称为变量。 变量值 观察值 定量定量 定性定性 2018/10/24 一、卫生统计学的基本概念 统计资料统计资料 计量资料 描述计量资料常用统计方法:平均数、标准差等;描述计量资料常用统计方法:平均数、标准差等; 01 用度量衡的方法测量每个观察单位的某用度量衡的方法测量每个观察单位的某数值变量。数值变
2、量。 项研究指标量的大小,所得的数据称为项研究指标量的大小,所得的数据称为 统计分析方法:统计分析方法:u u检验、检验、t t检验、方差分析等。检验、方差分析等。 02 计数资料 将全体观察单位按某种性质或类别进行分组,然将全体观察单位按某种性质或类别进行分组,然计数资料常用统计指标:率、构成比等;计数资料常用统计指标:率、构成比等; 后清点各组中的例数,这样得到的数据称为计数后清点各组中的例数,这样得到的数据称为计数等级资料 将全体观察单位按某种性质的不同程度分为若干将全体观察单位按某种性质的不同程度分为若干组,分别清点各组中的例数,这种数据资料称为组,分别清点各组中的例数,这种数据资料称
3、为计数资料常用统计指标:率、构成比等;计数资料常用统计指标:率、构成比等; 等级资料。等级资料。 统计分析方法:秩和检验、统计分析方法:秩和检验、2检验等。检验等。 03 统计分析方法:统计分析方法:u u检验、检验、2检验等。检验等。 资料,亦称为分类变量。资料,亦称为分类变量。 2018/10/24 一、卫生统计学的基本概念 总体 根据研究目的确定的同质的观察单位根据研究目的确定的同质的观察单位 的某个变量值的全体。的某个变量值的全体。 样本 是从总体中随机抽取有代表性的一部分观察单位,是从总体中随机抽取有代表性的一部分观察单位,用样本信息去推断总体特征。用样本信息去推断总体特征。 201
4、8/10/24 一、卫生统计学的基本概念 误差误差 系统误差系统误差 由于某种必然因素所致,由于某种必然因素所致, 特点:不是偶然造成,观特点:不是偶然造成,观避免方法:避免方法: 具有一定的方向性。具有一定的方向性。察结果一贯性的偏高或偏察结果一贯性的偏高或偏1 1)通过周密的研究设计)通过周密的研究设计 低。低。 2 2)调查或测量过程中的)调查或测量过程中的 质量控制质量控制 抽样误差抽样误差 即使消除了系统误差,控制即使消除了系统误差,控制了随机测量误差,样本统计了随机测量误差,样本统计量和总体参数之间仍存在差量和总体参数之间仍存在差特点:由于个体变异造成,抽样特点:由于个体变异造成,
5、抽样别,这种由随机抽样引起的别,这种由随机抽样引起的机遇所致。客观存在,不可避免。机遇所致。客观存在,不可避免。样本指标与总体指标的差异样本指标与总体指标的差异 但可估计大小,也可增加样本含但可估计大小,也可增加样本含量使其减小。量使其减小。 随机测量误差随机测量误差 偶然机遇所致,无方向性,对同偶然机遇所致,无方向性,对同特点:不可避免,但可特点:不可避免,但可一样品多次测定,结果有高有低。一样品多次测定,结果有高有低。 控制在一定范围。控制在一定范围。 2018/10/24 一、卫生统计学的基本概念 概率(总体) 描述随机事件发生的可能性大小的数值。事件描述随机事件发生的可能性大小的数值。
6、事件A A的的概率记为概率记为P(A),P(A),随机事件的概率随机事件的概率P P取值在取值在0 01 1之间。之间。 频率(样本) 是指一次试验结果计算得到的样本率。是指一次试验结果计算得到的样本率。 02 计量资料的统计描述计量资料的统计描述 2018/10/24 (一)集中趋势(一)集中趋势(Central tendency) 的描述的描述 平均数平均数(average)常用于描述一组变量常用于描述一组变量值的集中趋势,是反映同质资料的平均水值的集中趋势,是反映同质资料的平均水平或集中位置的特征值。平或集中位置的特征值。 均数均数 常用平均数常用平均数 几何均数几何均数 2018/10
7、/24 中位数中位数 常用平均数常用平均数 1. 均数均数 (算术均数算术均数) (mean) 表示符号表示符号 总体均数总体均数 () 样本均数样本均数 (x ) 应应 用用 对称分布资料,尤其是正态分布资料对称分布资料,尤其是正态分布资料 计算方法计算方法 x1+ x2+ xn x 直接法直接法 x= = n n f 1x1 + f 2x2 + +f kxk fx 加权法加权法 x= = f 1 +f 2+f k 2018/10/24 n 常用平均数常用平均数 2. 几何均数几何均数 (geometric mean) 表示符号表示符号 (G) 应应 用用 对数正态分布资料,变量值呈倍数关系
8、对数正态分布资料,变量值呈倍数关系 计算方法计算方法 直接法直接法 G = n x1 x2 xn lgx1+lgx2+lgxn lgx G = lg 1 = lg 1 n n f1lgx1+f2lgx2+fklgxk f lgx 加权法加权法2018/10/24 G = lg 1 = lg 1 n n 常用平均数常用平均数 3. 中位数中位数 (median) 表示符号表示符号 (M) 偏态分布资料偏态分布资料 应应 用用 变量值分布一端或两端无确定数值变量值分布一端或两端无确定数值 分布不明资料分布不明资料 计算方法计算方法 直接用变量值计算直接用变量值计算 M = X n+1 (n为奇数时
9、为奇数时) 2 1 或或 M= X n + X n (n为偶数时为偶数时) 2 2 2 +1 2018/10/24 (二)离散趋势 (tendency of dispersion) 描述变量值的离散趋势用变异指标描述变量值的离散趋势用变异指标 全距全距 常用变异指标常用变异指标 四分位数间距四分位数间距 方差和标准差方差和标准差 变异系数变异系数 2018/10/24 常用变异指标常用变异指标 1. 全距全距 (range, 简记为简记为R) R = 最大值最大值 最小值最小值 反映变量值的变异范围反映变量值的变异范围 各种类型资料都可应用,但只作各种类型资料都可应用,但只作 参考资料参考资料
10、 2018/10/24 常用变异指标常用变异指标 2. 方差方差 和和 标准差标准差(standard deviation) ( X ) 2 定义公式定义公式 2 = = N N ( X X) 2 ( X X) 2 S2 = S = n 1 n 1 2018/10/24 ? ? (X ) 2 应用公式应用公式 直接法直接法 S = 2 2 X ( X ) / n n 1 加权法加权法 S = 2 2 f X ( f X) / n n 1 2018/10/24 标准差用途:标准差用途: 1. 表示同质变量值的离散程度;表示同质变量值的离散程度; 2. 在多组资料均数相近、度量单位相同的条件下在多
11、组资料均数相近、度量单位相同的条件下表示观察值的变异度大小;表示观察值的变异度大小; 3. 与均数结合描述正态分布的特征和估计医学参与均数结合描述正态分布的特征和估计医学参考值范围;考值范围; 4. 与样本含量与样本含量(n)结合,计算标准误结合,计算标准误 2018/10/24 常用变异指标常用变异指标 3. 变异系数变异系数 (coefficient of variation, 简记为简记为CV) 定义定义 CV = s / X100% 用途:用途: 1) 比较多组比较多组单位不同单位不同资料的变异度资料的变异度 2)比较多组)比较多组均数相差较大均数相差较大资料的变度资料的变度 2018
12、/10/24 (三三) 正态分布和参考值范围的估计态分布和参考值范围的估计 正态分布的概念和特征正态分布的概念和特征 正态分布是以均数为中心呈对称的钟型分布正态分布是以均数为中心呈对称的钟型分布 频数(人数) 125 129 133 137 141 145 149 153 157 161 Normal distribution curve f 身高 (cm) ? 2018/10/24 120名12岁健康男孩身高的频数分布 正态分布的特征有:正态分布的特征有: 1) 正态分布曲线在均数处最高正态分布曲线在均数处最高 2) 正态分布以均数为中心,左右对称且逐渐减少正态分布以均数为中心,左右对称且逐
13、渐减少 3) 正态分布曲线的两个参数正态分布曲线的两个参数和和, 记作记作N (, 2) 4) 正态曲线在正态曲线在1处各有一个拐点处各有一个拐点 2018/10/24 ? ? 正态曲线下的面积分布规律正态曲线下的面积分布规律 1 占正态曲线下面积的占正态曲线下面积的 68.27% 1.96 2.58 占正态曲线下面积的占正态曲线下面积的 95.00% 占正态曲线下面积的占正态曲线下面积的 99.00% 若若n100,则,则可用可用 X 代替,代替,用用 s 代替。代替。 - 0.5% 2018/10/24 2.5% -2.58? -1.96? -1? ? +1? +1.96? +2.58?
14、正态分布的应用正态分布的应用 1.估计变量值的频数分布估计变量值的频数分布 2.制定医学临床参考值制定医学临床参考值 常常 用用 U 值值 表表 - 正常值范围正常值范围 双侧双侧 单侧单侧 - 90 % 1.645 1.282 95 % 1.960 1.645 99 % 2.576 2.326 - _ 95% 双侧参考值双侧参考值: 1.96 S _ 99% 双侧参考值双侧参考值: 2.58 S _ _ 95% 单侧参考值单侧参考值: - 1.64S , P5 或或 0.05 (来自同一总体)(来自同一总体) 两两均均 ? 假设检验回答假设检验回答 数数 不不 环境条件影响环境条件影响 P
15、0 或或 t t 0.05() 0.01P 0.05 (差异有统计学意义差异有统计学意义) t t 0.01() P 0.01 (差异有统计学意义差异有统计学意义) 当:当: t 0.05 (差异无统计学意义差异无统计学意义) 推断结论:推断结论: 当当 P ? ? ? ?按所取检验水准不拒绝按所取检验水准不拒绝H0 P ? ? ? ? 按所取检验水准拒绝按所取检验水准拒绝H0 2018/10/24 (三)假设检验时应注意的问题(三)假设检验时应注意的问题 ? 保证比较的样本间有较好的均衡性和可比性;保证比较的样本间有较好的均衡性和可比性; ? 选用的假设检验方法应符合其应用条件;选用的假设检
16、验方法应符合其应用条件; ? 正确理解差别有无显著性的统计意义;正确理解差别有无显著性的统计意义; ? 结论不能绝对化;结论不能绝对化; ? 报告结论时应列出统计量值,注明单侧或双报告结论时应列出统计量值,注明单侧或双 侧检验,写出侧检验,写出P P值的确切范围。值的确切范围。 2018/10/24 四、四、t -检验和检验和 u- 检验检验 t- 检验检验 (t - test or Students test ) (一)样本均数与总体均数比较的(一)样本均数与总体均数比较的t 检验检验 目的:推断样本所代表的未知总体均数目的:推断样本所代表的未知总体均数与与 已知的总体均数已知的总体均数0有
17、无差别有无差别(0 一般一般 为理论值、标准值或经过大量观察所为理论值、标准值或经过大量观察所 得的稳定值等得的稳定值等) 条件:理论上要求资料来自正态分布总体条件:理论上要求资料来自正态分布总体 - 0 公式:公式:t = 2018/10/24 S ? ? = n 1 例例1 1、根据大量调查,已知健康成年男子脉、根据大量调查,已知健康成年男子脉搏数为搏数为7272次次/ /分。某医生在山区随机抽查分。某医生在山区随机抽查2525名健康成年男子,求得其脉搏均数为名健康成年男子,求得其脉搏均数为74.274.2次次/ /分,标准差为分,标准差为6.56.5次次/ /分。能否据此认为分。能否据此
18、认为山区成年男子的脉搏数高于一般?山区成年男子的脉搏数高于一般? 2018/10/24 1、H0:=0, H1:0, ? ?=0.05 2、 - 0 74.2-7274.2-72 t = = = 1.6921.692 S 6.5/6.5/ 253、自由度、自由度? ? = = n1 = 25-1=241 = 25-1=24,查,查t t值表(单侧)值表(单侧) 得得t t0.050.05(2424)= 1.711= 1.711。 t = 1.6921.711 t = 1.6920.05 P0.05 4 4、在、在? ? =0.05=0.05水准上,接受水准上,接受H0,不能认为该山区成,不能认
19、为该山区成年男子的脉搏数高于一般。年男子的脉搏数高于一般。 2018/10/24 (二)配对设计差值均数与总体均数(二)配对设计差值均数与总体均数0 0比较比较t 检验检验 同源配对同源配对 配对方法配对方法 异源配对异源配对 目的:推断两种处理的效果有无差别或推断某种处目的:推断两种处理的效果有无差别或推断某种处 理有无作用理有无作用 条件:样本来自正态总体条件:样本来自正态总体 公式:公式: d 0 d t = = S d S d /n 2018/10/24 ? ?= n -1 n为对子数为对子数 (三)完全随机设计的两样本均数的比较(三)完全随机设计的两样本均数的比较 目的:推断两样本均
20、数分别代表的总体均数目的:推断两样本均数分别代表的总体均数1 与与2有无差别。有无差别。 1) 两样本含量较小时,且要求两样本总体方差相等两样本含量较小时,且要求两样本总体方差相等 公式:公式: 1 - 2 t = ? ? = ( n1 - 1) + ( n2 - 1) S - 12 1 1 S - = Sc2 ( + ) 1 2 n1 n2 2018/10/24 2 ( n1-1) s1+( n2 -2 1)s2Sc2 = n1+ n2 - 2 t = 22 (n1-1) s1+(n2-1) s2 1 1 ? ? ( + ) n1+ n2-2 n1 n2 x1 - x2 2018/10/24
21、 2) 两样本含量足够大,如两样本含量足够大,如n50或或100时时 U- 检验检验 应用条件:应用条件:当当 n 较大较大(n 50)或或 n 虽小,但总虽小,但总 体标准差已知,可用体标准差已知,可用 U 检验检验 公式公式: 1 - 2 U = = S - S12 S22 12 + n1 n2 2018/10/24 1 - 2 04 分类资料的统计描述分类资料的统计描述 2018/10/24 一、常用相对数一、常用相对数 相对数:相对数:计数资料常用的统计指标,计数资料常用的统计指标, 又称相对指标(又称相对指标(Relation number) 率率 常用相对数常用相对数 构成比构成比
22、 相对比相对比 2018/10/24 常用相对数常用相对数 (一)(一) 率率 (Rate) * 频率指标,表示某现象发生的频率指标,表示某现象发生的频率和强度频率和强度 * 计算公式:计算公式: 实际发生某现象的观察数实际发生某现象的观察数 率率= K 可能发生某现象的观察单位总数可能发生某现象的观察单位总数 ( K为比例基数,可为为比例基数,可为100%或或1000等)等) 2018/10/24 (二)(二) 构成比(构成比(Constituent ratio) * 又称构成指标,表示某一事物内部各又称构成指标,表示某一事物内部各 组成部分所占的比重或分布。组成部分所占的比重或分布。 *
23、计算公式:计算公式: 某一事物各组成部分的个体数某一事物各组成部分的个体数 2018/10/24 构成比构成比 = 100% 同一事物各组成部分的个体总数同一事物各组成部分的个体总数 (三)相对比(三)相对比 (Relative ratio) * 表示两个有联系的指标(绝对数,相对数表示两个有联系的指标(绝对数,相对数 或平均数)之比,说明对比水平。或平均数)之比,说明对比水平。 * 计算公式:计算公式: A 指标指标 相对比相对比 = (或(或 100%100%) B 指标指标 1 1)对比指标:两个有关同类指标之比,如两地)对比指标:两个有关同类指标之比,如两地 肿瘤死亡比肿瘤死亡比 2
24、2)关系指标:两个有关非同类指标之比,如每)关系指标:两个有关非同类指标之比,如每 千人病床数千人病床数 2018/10/24 二、应用相对数应注意的问题:二、应用相对数应注意的问题: 1. 不要把构成比当作率分析不要把构成比当作率分析(最容易混淆)(最容易混淆) - 年龄组(岁)年龄组(岁) 人口数人口数 癌肿病人数癌肿病人数 构成比(构成比(%) 患病率(患病率(%) - 30 633000 19 1.3 3.0 30- 570000 171 11.4 30.0 40- 374000 486 32.6 129.9 50- 143000 574 38.5 401.4 60- 30250 24
25、2 16.2 800.0 - 合合 计计 1750250 1492 100.0 85.2 - 2018/10/24 二、应用相对数应注意的问题:二、应用相对数应注意的问题: 2. 计算相对数的分母不宜太小计算相对数的分母不宜太小 - 治疗数治疗数 有效数有效数 总体率总体率95%可信区间可信区间 - 2 1 1 ? ? 99 % 4 2 7 ? ? 93 % 50 25 36 ? ? 65 % 500 250 45 ? ? 54 % 5000 2500 49 ? ? 51 % - 可见,当可见,当n足够大时,相对数才稳定。足够大时,相对数才稳定。 2018/10/24 二、应用相对数应注意的问
26、题:二、应用相对数应注意的问题: 3. 率或构成比的比较应注意可比性率或构成比的比较应注意可比性 1)研究对象是否同质)研究对象是否同质(方法、时间、种族、地区、环境等方法、时间、种族、地区、环境等) 2)其它影响因素)其它影响因素(年龄、性别年龄、性别)在各组的内部构成是否相同在各组的内部构成是否相同 3)同地区不同时期资料对比时)同地区不同时期资料对比时, 应注意客观条件是否一致应注意客观条件是否一致 4. 对观察单位数不等的几个率不能直接相加对观察单位数不等的几个率不能直接相加 求其平均率求其平均率 5. 对样本率对样本率(或构成比或构成比)的比较应作假设检验的比较应作假设检验 2018
27、/10/24 三、率的标准化法三、率的标准化法 (一)标准化法的意义和基本思想(一)标准化法的意义和基本思想 意义-在比较率时,如果比较的两组资料其内部构成 不同,且影响到比较结果,就不能直接进行比较,需要进行标准化处理后,消除由于内部构成不同对结果造成的影响,才能进行比较。 标准化法-就是采用统一的标准对内部构成不同的各 组频率进行调整和对比的方法。 标准化率-采用统一的标准调整后计算的率 2018/10/24 (二)标准化方法选择(根据已知资料类型)(二)标准化方法选择(根据已知资料类型) 直接法:已有被观察人群中各组的率资料。 间接法:仅有各组的观察单位数和总率,没有各组率的资料。 (三
28、)标准选择(三)标准选择 1、选择一个有代表性的、内部构成相对稳定的较大人群为标准; 2、将比较的两组资料各对应组观察数合并作为标准; 3、在比较的两组中任选一组内部构成做标准。 2018/10/24 (四)标化率的计算(四)标化率的计算-直接法直接法 ?例 1998年某社区甲乙两企业高血压患病率(%)的普查结果 ?年龄 人口数 构成比 患病人数 患病率 人口数 构成比 患病人数 患病率 ? 甲 企 业 乙 企 业 ?(1) (2) (3) (4) (5) (6) (7) (8) (9) 30 935 37.99 10 1.1 680 34.64 4 0.6 40 849 34.50 86 1
29、0.1 405 20.63 29 7.2 50 420 17.07 141 33.6 333 16.96 91 27.3 60 150 6.10 98 65.3 292 14.88 158 54.1 70 107 4.35 74 69.2 253 12.89 163 64.4 合计 2461 100.00 409 16.6 1963 100.00 445 22.6 2018/10/24 ? 问题:甲企业各年龄高血压患病率都高于乙企业,合计患病率则乙企业高于甲企业。 ? 原因:两个企业人口数在年龄构成上不同。甲企业60岁以下人口构成比高于乙企业,60岁以上正好相反,因此乙企业高血压合计患病率高是
30、因为高年龄人口数多的缘故。 ? 解决方法:需要将两企业的年龄构成标准化,计算标准化高血压患病率,然后再进行比较。 ? 注意的是: ? 1)选择的“标准人口”不同,计算的标准化率不同。 2)标准化率只是为了进行合理比较而计算的一个指标,它并不反映实际水平。 2018/10/24 例 1998年某社区甲乙两企业标准化高血压患病率 (%)的计算 甲 企 业 乙 企 业 年龄 标准人口 原患病率 预期患病人数 原患病率 预期患病人数 (1) (2) (3) (4)=(2)(3) (5) (6)=(2)(5) 30 1615 1.1 17.8 0.6 9.7 40 1254 10.1 126.7 7.2
31、 90.3 50 753 33.6 253.0 27.3 205.6 60 442 65.3 288.6 54.1 239.1 70 360 69.2 249.1 64.4 231.8 合计 4424 16.6 935.2 22.6 776.5 甲企业标准化高血压患病率=935.2/4424100%=21.1% 乙企业标准经高血压患病率=776.5/4424100%=17.6% 结果表明:甲企业标准化高血压患病率高于乙企业。 2018/10/24 05 分类资料的统计推断分类资料的统计推断 2018/10/24 一、率的抽样误差和总体率的估计一、率的抽样误差和总体率的估计 (一)(一) 率的抽
32、样误差与标准误率的抽样误差与标准误 *由抽样造成的样本率与总体率的差别称为率的抽由抽样造成的样本率与总体率的差别称为率的抽样误差(样误差(p - ? ? ;p为样本率,为样本率, ? ?为总体率)。为总体率)。 _ ? ? ( 1- ? ?) *率的标准误:表示率的抽样误差大小的统计指标。率的标准误:表示率的抽样误差大小的统计指标。 计算公式:计算公式: ? ?p= n (p为为 ? ?的估计值;的估计值; Sp 为为? ?p的估计值。)的估计值。) 2018/10/24 ? ? _ p ( 1- p) =Sp n ? ? (二)(二) 总体率的可信区间估计总体率的可信区间估计 正态近似法:正
33、态近似法: 当总体率当总体率 ? ? 未知时,若未知时,若np ? ? 5 和和 n (1-p) ? ? 5,则总体率则总体率 (1- ? ?) 可信区间为:可信区间为: p ? ? U? ? sp = p - U? ? sp p + U? ? sp 即:总体率即:总体率95%可信区间为可信区间为 p ? ? 1.96 sp 总体率总体率99%可信区间为可信区间为 p ? ? 2.58 sp 2018/10/24 二、率的二、率的U-检验检验 (一)样本率与总体率比较(一)样本率与总体率比较 目的:推断样本率所代表的总体率目的:推断样本率所代表的总体率 ? ? 与某总与某总体体 率率 ? ?0
34、 是否相等(是否相等( ? ?0 常为理论值或常为理论值或长期积累的经验值)。长期积累的经验值)。 条件:条件:n? ?0 ? ? 5 和和 n (1 - ? ?0 ) ? ? 5 p - ? ?0 公式:公式: u = _ ? ? ? ?0 (1 - ? ?0 ) / n 2018/10/24 (二)两样本率的比较(二)两样本率的比较 目的:推断两样本率分别代表的总体率目的:推断两样本率分别代表的总体率 ? ?1与与 ? ?2是否相等。是否相等。 条件:两样本满足正态近似条件,即条件:两样本满足正态近似条件,即 n1p1 、n1(1-p1) 和和 n2p2、n2(1-p2)均大于或等于均大于
35、或等于5。 公式:公式: p1 - p2 u= S p -p 1 22018/10/24 _ 1 1 S p -p = pc (1-pc) ( + ) 1 2 n1 n2 (pc为两个样本率的合并率。)为两个样本率的合并率。) ? ? 2三、三、? ? 检验检验 1. 用途:推断两个或多个总体率(或总体构成比)用途:推断两个或多个总体率(或总体构成比)之间有无差别;两变量有无相关关系。之间有无差别;两变量有无相关关系。 2 2. ? ? 检验的基本思想检验的基本思想 2 (A - T) 2 = ? ? , ? ? T ? ? = (行数(行数-1)? ?(列数(列数-1) =(R-1)? ?(
36、C-1) nR nC A 为实际值为实际值 T R C = T 为理论值为理论值 n 2018/10/24 2 3. ? ? 检验的种类检验的种类 2(1)四格表资料的)四格表资料的? ? 检验检验 目的:用于两个样本率或构成比的比较,推断目的:用于两个样本率或构成比的比较,推断两个样本所代表的总体率(或总体构成两个样本所代表的总体率(或总体构成比)是否相等。比)是否相等。 2 (A - T) 基本公式:基本公式: ? ? 2 = ? ? T 专用公式:专用公式: 2018/10/24 2 ( ad - bc) n ? ? 2 = (a + b)(c + d)(a + c)(b + d) 2四
37、格表四格表? ?值的校正值的校正 当:当:1 T 40 时,需计算校正时,需计算校正? ? 2值值 2 ( | A - T | - 0.5 ) ? ? 2 = ? ? , ? ? = 1 T 2 ? ? n ( | ad - bc | - n/2 ) 或或? ? 2 = (a + b)(c + d)(a + c)(b + d) 当:当:T 1,或,或 n 40 时,需用确切概率计算法。时,需用确切概率计算法。 2018/10/24 2 (2)配对四格表的)配对四格表的 ? ? 检验检验 目的:用于配对设计的计数资料,是通过两种目的:用于配对设计的计数资料,是通过两种不同的处理方法对同一样本进行
38、处理,从而推不同的处理方法对同一样本进行处理,从而推断两种处理方法的结果有无差别。断两种处理方法的结果有无差别。 公式:公式: 2 (b - c) 2 ? ? = , ? ? = 1 b + c 当当 b+c 40 时,则时,则 ? ? 2 需进行校正,此时需进行校正,此时 2 ( | b - c | - 1) 22018/10/24 ? ? = , ? ? = 1 b + c 2 (3)行)行 ? ? 列表资料的列表资料的 ? ? 检验检验 目的:用于多个样本率(或构成比)的比较,目的:用于多个样本率(或构成比)的比较, 推断样本所代表的几个总体率(或总推断样本所代表的几个总体率(或总 体构
39、成比)之间有无差别。体构成比)之间有无差别。 基本公式:基本公式: 2 (A - T) 2 = ? ? , ? ? ? ? = (行(行-1)? ?(列(列-1) T =(R-1)? ?(C-1) 专用公式:专用公式: 2 A2? ? = n (? ? - 1) nR nC 2018/10/24 2 行行 ? ? 列表资料列表资料 ? ? 检验的注意事项:检验的注意事项: ? 当有当有 1 / 5 及以上格子的及以上格子的 T 5, 或有一个格子或有一个格子 T 1时,应将资料合理合并,或增大样本含量重时,应将资料合理合并,或增大样本含量重新观察以增加理论频数新观察以增加理论频数T; ? 当推
40、断结论为拒绝当推断结论为拒绝 H0 时,是认为各总体率(或时,是认为各总体率(或总体构成比)不等或不全相等,即只能认为其中总体构成比)不等或不全相等,即只能认为其中至少有两个总体率(或总体构成比)不等,而不至少有两个总体率(或总体构成比)不等,而不能确定任意两个总体率(总体构成比)不等。能确定任意两个总体率(总体构成比)不等。 2018/10/24 06 统计分析结果的表达统计分析结果的表达 2018/10/24 一、统计表一、统计表 (一)列表的原则:(一)列表的原则: 1.重点突出,简单明了重点突出,简单明了 2.主次分明,层次清楚主次分明,层次清楚 (二二) 统计表的基本格式统计表的基本
41、格式 2018/10/24 统计表的基本格式统计表的基本格式 表号表号 横标目名称横标目名称 标题标题 纵纵 标标 目目 合合 计计 顶顶 线线 标目线标目线 横标目横标目 合合 计计 合计线合计线 底底 线线 2018/10/24 简单表简单表 (二)统计表的种类(二)统计表的种类 复合表复合表 ? 简单表:按一个特征或标志分组。简单表:按一个特征或标志分组。 某年某地流脑病死率比较某年某地流脑病死率比较 病型病型 病人数病人数 死亡人数死亡人数 病死率(病死率(%) 菌血型菌血型 59 4 6.78 脑型脑型 778 48 6.17 混合型混合型 784 39 4.97 合计合计 1621
42、 91 5.61 2018/10/24 ? 复合表:按两个或两个以上特征或标志分组。复合表:按两个或两个以上特征或标志分组。 某年某地流脑不同病型病死率与病情轻重的关系某年某地流脑不同病型病死率与病情轻重的关系 轻轻 中中 重重 病型病型 病人数病人数 死亡死亡 病死率病死率 病人数病人数 死亡死亡 病死率病死率 病人数病人数 死亡死亡 病死率病死率 人数人数 (%) 人数人数 (%) 人数人数 (%) 菌血型菌血型 25 0 0.00 27 0 0.00 7 4 54.14 脑脑 型型 428 2 0.47 224 11 4.91 126 35 27.78 混合型混合型 373 1 0.26
43、 241 7 2.90 170 31 18.23 合合 计计 826 3 0.36 492 18 3.65 303 70 23.10 2018/10/24 二、统计图二、统计图 (一)统计图的基本格式:(一)统计图的基本格式: 图例图例 纵纵标标目目(单单位位)图体图体 0 (图例)(图例) 标题标题 2018/10/24 横标目横标目 (单位)(单位) (二)统计图的种类(二)统计图的种类 1线图(线图(Line graph) 用于比较用于比较连续性资料连续性资料,表示某事物在时间上的发,表示某事物在时间上的发展变化或某现象随另一现象变迁的情况,分展变化或某现象随另一现象变迁的情况,分 为普
44、通为普通线图及半对数线图,也有单式及复式之分。线图及半对数线图,也有单式及复式之分。 2018/10/24 普通线图普通线图 6060患患5050病病率率4040(3030202010100 0% ) 2018/10/24 404050506060707080809090碘含量(碘含量( g / kg) 食物中碘含量与碘缺乏病患病率的关系食物中碘含量与碘缺乏病患病率的关系 ? 半对数线图(半对数线图(Semilogarithmic line graph) 表示事物(所研究指标)的发展速度 2018/10/24 绝对差与相对差的比较绝对差与相对差的比较 A ? ? B 绝对差绝对差 相对比相对比
45、 (A / B) 对数差对数差(log A - log B) 1000? ? 100 1000 - 100 = 900 1000/100 = 10 lg1000 - lg100 = 3-2 = 1 100 ? ?10 100 - 10 = 90 100/10 = 10 lg100 - lg10 = 2 - 1 = 1 10 ? ?1 10 - 1 = 9 10/1 = 10 lg10 - lg1 = 1- 0 = 1 10001000900900800800数数700700值值6006005005004004003003002002001001000 010001000数数值值100100 1
46、010A A AB B时时 间间 B 1 1A B 时时 间间 三组数据绘在算术格纸上三组数据绘在算术格纸上 2018/10/24 三组数据绘在半对数格纸上三组数据绘在半对数格纸上 2直方图(直方图(Histogram) 适用于表示适用于表示连续性资料连续性资料的频数分布,各矩形面积总和为总频数。的频数分布,各矩形面积总和为总频数。 人人数数某地区某地区130名正常成年男子红细胞数的频数分布名正常成年男子红细胞数的频数分布 2018/10/24 红细胞数(红细胞数(10 12 / L) 3条图(条图(Bar graph) 用于比较性质相似而相互独立的资料用于比较性质相似而相互独立的资料(间断性
47、(间断性资料)资料),有单式及复式条图。,有单式及复式条图。 死死亡亡专专率率(万万)25025020020015015010010050500 0管管病病病病瘤瘤脏脏炎炎肿肿心心管管血血性性脑脑恶恶老老年年2018/10/24 某年某地几种主要疾病死亡专率某年某地几种主要疾病死亡专率 慢慢性性支支气气肺肺结结核核1 10 脑血脑血 恶性恶性 心脏心脏 老年慢老年慢 肺结核肺结核 管病管病 肿瘤肿瘤 病病 性支气性支气 管炎管炎 死亡专率(死亡专率(1 / 10万)万) 0 5 10 15 20 肝癌肝癌食管癌食管癌鼻咽癌鼻咽癌胃癌胃癌 肺癌肺癌0 02018/10/24 5 51010151
48、5五种恶性肿瘤的死亡专率五种恶性肿瘤的死亡专率 (广东省,(广东省,1983 1985年,男)年,男) 20208 86 64 42 20 08 86 64 42 2正确正确 错误错误 纵轴尺度起点必须为零示意纵轴尺度起点必须为零示意 2018/10/24 4构成图构成图 用于用于构成比构成比的资料,比较各构成部分的比重,的资料,比较各构成部分的比重, 有圆形图及百分直条图。有圆形图及百分直条图。 例:例:1998年我国部分县前五位死因构成年我国部分县前五位死因构成 死亡原因死亡原因 占死亡比(占死亡比(%) 呼吸系病呼吸系病 25.70 脑血管病脑血管病 16.07 恶性肿瘤恶性肿瘤 15.
49、04 损伤与中毒损伤与中毒 11.56 心脏疾病心脏疾病 11.41 2018/10/24 圆形图圆形图 (Pie graph) 其他其他 呼吸系病呼吸系病 20.22% 25.70% 心脏疾病心脏疾病 11.41% 16.07% 11.56% 脑血管病脑血管病 15.04% 损伤与中毒损伤与中毒 恶性肿瘤恶性肿瘤 2018/10/24 我国部分县我国部分县1988年的死因构成比年的死因构成比 百分条形图百分条形图 (Percent bar graph) 0 20 40 60 80 100 20.22% 16.07% 15.04% 11.56% 11.41% 25.70% 呼吸呼吸 系病系病
50、脑血脑血 管病管病 恶性恶性 损伤与损伤与 心脏心脏 肿瘤肿瘤 中毒中毒 疾病疾病 其他其他 我国部分县我国部分县1988年的死因构成比年的死因构成比 2018/10/24 5散点图(散点图(Scatter diagram) 用于用于双变量双变量资料,表示两种现象之间的相互资料,表示两种现象之间的相互 关系。关系。 增增加加体体重重(克克)190190190 180180180 170170170 160160160 150150150 140140140 130130130 120120120 1101105005002018/10/24 600 700 800 900 1000 60060