1、2022-10-151胡国清胡国清 副教授副教授中南大学公共卫生学院流行病与卫生统计学系2022-10-152一一.统计学应用中的常见误区统计学应用中的常见误区2022-10-153问题1:统计学是数字游戏?数字形式仅是表面现象。几个示例 统计学(Statistics):是一门研究数据的搜集、整理、是一门研究数据的搜集、整理、分析的科学。更主要的是分析的科学。更主要的是帮助人类探索未知事物帮助人类探索未知事物规律的工具规律的工具。统计学存在的必要性统计学存在的必要性?2022-10-156留给统计学的问题 如何简洁地、准确地从一大批杂乱无章的数据中提炼出代表性信息?(统计描述)如何合理地由样本
2、的信息(部分信息)推断总体的信息(总体信息)?(统计推断)2022-10-157统计方法的主要应用1.通过种种手段以最合适的方法搜集数据。2.采用统计指标、统计表、统计图描述数据的规律。3.采用合适的统计方法对数据进行分析,对整个研究的结果下结论。2022-10-158问题2:数据被恰当地表达了吗?1.统计指标的使用准确吗?还是?各自使用的条件是什么?是万用通行证吗?率与构成比 搞清楚了吗?如此计算率合适吗?2.统计表正确吗?3.统计图正确吗?XXSXSXS2022-10-1592022-10-1510集中趋势的描述集中趋势的描述平均数平均数:描述一组变量值的集中位置或平均水平的指标体系。1.
3、(算术)均数:对称分布,尤其是正态分布;2.几何均数:对数转换后呈对称分布,尤其是对数正态分布;3.中位数:一般偏态分布;2022-10-1511离散趋势描述离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。1.极差:任何计量资料,是参考变异指标2.四分位数间距:与中位数配套用3.标准差:与算术均数配套用4.变异系数:描述对称分布(特别是正态分布)资料的相对变异程度。2022-10-1512示例1:率和构成比的区分2022-10-1513 示例2:如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5100%=100%,若4例治愈,则治愈率为4/5100%=80%,由100%至80
4、%波动幅度较大,但实际上只有1例的变化。2022-10-1514表10-3 不同心理分值的冠心病危险因素水平比较 2022-10-1515统计图的误导作用 直条图的纵轴尺度起点必须为零示意图2022-10-1516问题3:t检验、卡方检验是万能的吗?正态分布、方差齐性的条件满足了吗?是t检验还是方差分析;是t检验还是U检验?是成组t检验还是配对t检验?是t检验,还是校正t检验,或者是非参数检验?对于计数资料,是通常的卡方检验,还是Yates校正检验,或是精确概率检验?是配对设计,还是成组设计的四格表资料?2022-10-1517误区4:统计检验决定论与统计无用论 P值一定要小于0.05或者0.
5、01才行吗?P值的决定因素您考虑了哪几个?统计检验判断结果与专业判断结果相比,哪个更重要?2022-10-1518 2022-10-1519计量资料的常用统计指标计量资料的常用统计指标 描述集中趋势的特征数(描述集中趋势的特征数(选代表选代表)描述离散趋势的特征数(描述离散趋势的特征数(代表程度代表程度)目的:简单、明了传达信息目的:简单、明了传达信息2022-10-1520表表 某地某地150名正常成年男子红细胞数(名正常成年男子红细胞数(1012/L)编号编号红细胞数红细胞数编号编号红细胞数红细胞数1 13.983.982 24.544.541431434.674.673 34.744.7
6、41441445.405.404 45.135.131451455.295.295 54.434.431461464.774.776 64.814.811471475.385.387 74.984.981481485.155.158 83.793.791491494.644.641501505.195.19问题:谁能一眼看出下述数据的分布规律?2022-10-1521一、一、描述集中趋势的特征数(描述集中趋势的特征数(平均指标)平均指标)总称为平均数(average)反映了资料的集中趋势(central tendency)。常用的有:1.算术均数(arithmetic mean),简称均数(m
7、ean)2.几何均数(geometric mean)3.中位数(median)1.1.算术均数(算术均数(meanmean)nXnXXXXn21112233123kkikif Xf Xf Xf XfXXfffffX符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法2022-10-15232.2.几何均数(几何均数(geometric meangeometric mean)nXXnXXXXnXXXXXGnGnnGlglglg)lglg(lg1lg12121适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。2022-10-15
8、24几何均数的示例几何均数的示例血清的抗体效价滴度的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lglg543211G此例的算术均数为22222问题:描述此类型资料集中趋势时,为什么倾向选用几何均数?2022-10-1525频数表资料的几何均数频数表资料的几何均数inniiifXfXfXffXfGlglglglglglg221111抗体滴度抗体滴度 人数人数,f 滴度倒数滴度倒数,X lgX flgX 1:41:81:161:321:512 合计合计15625724816325120.60210.90311.204
9、11.50512.70930.60214.51557.22463.010213.5465 72.2471 2022-10-15263.3.中位数(中位数(medianmedian)定义:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md/M 适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。2022-10-1527中位数计算公式中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:为偶数为奇数nxxnxMdnnn22/12/2/)1(注意:公式中n的含义,数据自小到大排序后的编号。2022-10-1528
10、频数表资料的中位数频数表资料的中位数mLffniLMdnMd)%50()%50(值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值下限值L上限值上限值Ui;fm中位数中位数Md)%50(Lfn2022-10-1529潜伏期潜伏期/h(1)频数,频数,f(2)累计频数累计频数 f所占百分比所占百分比(3)0171212646434312387070183292922469696300969636499994248 合计合计2100100145例4-8中位数12+6x(145x50%63)/3813.5(h)2022-10-1530小结:集中趋势的描述平均数 平均数:描述一
11、组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标 算术)均数:正态或近似正态分布的资料 几何均数:对数正态分布或等比级数资料 中位数:一般偏态分布2022-10-1531离散趋势的特征数离散趋势的特征数常用指标有:1.极差或全距(Range)2.四分位数间距(Quartile range)3.方差(Variance)4.标准差(Standard Deviation)5.变异系数(Coefficient of Variation)考试要点:表示符号、定义、适用条件、区别2022-10-1532 盘编号盘编号 甲甲乙乙丙丙1 14404804902 24604904953 3500
12、5005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2022-10-15331.1.极差极差(Range(Range)(全距全距)minmaxXXR 符号:R意义:反映全部变量值的变动范围。优点:简便缺点:只利用了两个观测值适用范围:任何计量资料2022-10-15342.2.四分位数间距四分位数间距百分位数百分位数 :数据从:数据从小到大小到大 排列排列;在百分在百分尺度下,所占百分比
13、尺度下,所占百分比对应的值。记为对应的值。记为P Px x。四分位间距四分位间距:Q QP P7575 P P2525 P100(max)P75P50(中位数中位数)P25P0(min)Px2022-10-1535频数表资料的百分位数频数表资料的百分位数mLxxffxniLPxnP)%()%(值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值下限值L上限值上限值Ui;fm百分位数百分位数Px)%(Lfxn2022-10-1536P256+6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110
14、.94(h)潜伏期潜伏期/h(1)频数,频数,f(2)累计频数累计频数 f所占百分比所占百分比(3)0171212646434312387070183292922469696300969636499994248 合计合计21001001452022-10-1537百分位数的应用百分位数的应用可用多个百分位数可用多个百分位数描述计量资料的分布特征描述计量资料的分布特征2022-10-15383.3.方差方差方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值,表示一组数据的平均离散情况。222(sum of square)(-)(-)x
15、xSSlXXN离均差平方和总体方差11)(2222nnXXnXXS样本方差2022-10-1539方差的优点和缺点方差的优点和缺点优点:利用了所有的观测数值。缺点:容易受极大值或极小值的影响;单位与原观测单位不一致。2022-10-15404.4.标准差标准差222()11XXnXXSnn样本标准差标准差(standard deviation)即方差的正平方根;其单位与原变量X的单位相同。122fffXfXS频数表样本标准差2()XXN总体标准差2022-10-1541标准差的计算标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 144048049019360023040
16、02401002 24604904952116002401002450253 35005005002500002500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计250025002500250025002500 126040012510001250250标准差标准差50.9915.817.9199.50155/250012604001222甲的标准差nnXXS2022-10-15425.变异系数变异系数(coefficient of variation)%100XSCV适用条件适用条件:观察指标
17、单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm170 cm6 cm6 cm3.53.5体重体重60 kg60 kg7 kg7 kg11.711.7 意义:意义:挑选指标时变异系数越小,指标越好。2022-10-1543变异指标小结变异指标小结1极差较粗,适合于任何分布2标准差与均数的单位相同,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,组合使用 如 正态分布:均数、标准差;偏态分布:中位数、四分位半
18、间距2022-10-15442022-10-1545计数资料的计数资料的常用统计指标常用统计指标一、计数资料的数据整理一、计数资料的数据整理二、二、常用相对数指标常用相对数指标三、三、应用注意事项应用注意事项2022-10-1546一、计数资料的数据整理一、计数资料的数据整理计数资料/分类资料/定性资料:按某种属性分类,然后清点每类的例数。住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月2019
19、91527无中学顺产死产202586129无大学剖宫产足月202460125农民中学顺产足月200038626无小学顺产足月2022-10-1547二、常用相对数二、常用相对数v 绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义 2.如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。2022-10-15481.率(强度相对数):某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例
20、基数比例基数:100%、1000、10000/万、100000(1/10万)等(按习惯,使结果保留1-2位小数)。频率和速率的区别:分母是否考虑了时间因素(一)率(一)率2022-10-1549(二)构成比(二)构成比构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,其计算公式为:100%(5-2)某一组成部分的观察单位数构成比 同一事物各组成部分的观察单位总数问题:频率相对数与构成比有何区别?2022-10-1550v相对比简称比,是两个有关指标之比,说明两指标间的比例关系。v计算公式为v式中
21、指标可以是绝对数、相对数或平均数。(三)相对比(三)相对比(ratioratio)ARB指标指标2022-10-1551三、应用注意事项三、应用注意事项1.计算相对数的分母不宜过小。2.率与构成比的误用。3.正确求平均率。4.进行率的对比分析时,应注意资料可比性。5.对样本率(或构成比)比较时应做假设检验。2022-10-1552 问题:此篇论文作者的结论?2022-10-1553统计图表统计图表2022-10-1554统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式。统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统
22、计数据。基本概念基本概念2022-10-1555统计表的意义与制作原则n统计表的意义:统计表用简明的表格形式,有条理地罗列数据 和统计量,方便阅读、比较和计算。n制表原则:重点突出、层次清楚。2022-10-1556统计表的基本结构与要求统计表的基本结构与要求n 标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。n 标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。2022-10-1557统计表的基本结构与要求统计表的基本结构与要求n 线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开
23、来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。2022-10-1558统计表的基本结构与要求统计表的基本结构与要求n 数字:用阿拉伯数字表示。无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。n 备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。2022-10-1559横横 标标 目目 名名 称称 纵纵 标标 目目 名名 称称 合合 计计 横横 标标 目目 数数 据据 区区 合合 计计 顶顶 线线底底 线线表表 名名 标标 题题2022-10-1560 表 某省某工厂 1994、19
24、98年四项检测指标异常检出率检测指标1994年1998年受检人数 异常人数 检出率(%)受检人数异常人数 检出率(%)血压 心率 TTT GPT5195195195195544362010.16 0.48 6.94 3.85582582582582383923166.526.703.952.75 :TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。2022-10-1561统计表的种类2022-10-15621.简单表:统计表的主语只有一个层次 例1 下表列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。组别 例数 治愈数 治
25、愈率(%)治愈天数(SX)试验组 107 93 86.9 5.71.3 对照组 108 84 77.8 6.41.2 表 某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较2022-10-15632.组合表:统计表的主语有两个以层次 例2 某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表10-2。该表属组合表。2022-10-1564表10-2 某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析 城市 乡村 年龄组 检查数 阳性数 阳性率()检查数 阳性数 阳性率()20 42384 274 6.46 9854 49 4.97 20 228076
26、2018 8.85 13874 124 8.94 25 235879 2697 11.43 8414 134 15.93 30 146142 2093 14.32 5690 90 15.82 35 74629 1299 17.41 3950 81 20.51 40 21193 273 12.88 1499 31 20.68 合计 748303 8654 11.56 43281 509 11.76 2022-10-1565编制统计表的注意事项 例3 某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。2022-10-15662022-10-1567上表存
27、在的问题1.将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。2.互不相容的内容分别占了不同的列,导致表中有许多空格。3.纵横标目倒置。4.内容较多,层次复杂,表格中数据罗列无条理,较难读懂。2022-10-1568表4 某年某地居民不同心理分值的冠心病危险因素水平比较心理 分值 例数 年龄(岁)收缩压(mmHg)舒张压(mmHg)体力 活动 体重指数 吸烟量(支/天)饮酒量(克/天)受教育 程度 社会支持 1 252 35.26.5 120.713.4 78.810.2 2.10.2 23.13.2 81 60.1 7.5 4.50.8 8.71.
28、2 2 253 37.06.3 121.213.2 77.910.5 2.10.1 24.03.5 102 78.2 8.5 4.20.9 7.51.1 3 252 36.56.8 121.113.2 78.211.0 2.10.2 24.83.1 152 79.3 6.8 3.50.8 7.01.2 4 253 37.86.5 120.412.8 78.410.6 2.30.3 25.83.1 152 106.810.2 3.40.8 7.01.2 P 值-0.05 0.5 0.39 0.08 0.01 0.001 0.001 0.05 0.05 处理办法:将该表资料分别制成两个统计表,见表
29、4和表5。2022-10-1569表-5 某年某地居民不同心理分值的冠心病危险因素水平比较 慢性疾患数构成(%)心理分值 例数 吸烟率(%)饮酒率(%)0 1 2 1 252 70.8 52.3 81.6 15.1 3.3 2 253 69.4 55.5 79.3 16.2 4.5 3 252 70.7 53.1 77.5 16.5 6.0 4 253 71.1 52.8 73.9 15.0 11.1 2022-10-1570问题1:请评价下表是否符合统计表制作原则,并作改正?2022-10-1571实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请指出该表所存在的问题,并予
30、以纠正。表表 两个组的疗效观察两个组的疗效观察 分型及疗效分型及疗效 单纯型慢性支气管炎单纯型慢性支气管炎 喘息型慢性支气管炎喘息型慢性支气管炎 指标指标 治愈治愈 显效显效 好转好转 无效无效 治愈治愈 显效显效 好转好转 无效无效 例数例数 60 98 51 12 23 83 65 11 合计合计 209 12 171 11 疗疗效效 94.6 94.0 2022-10-1572疗疗效效 类类型型 例例数数 治治愈愈 显显效效 好好转转 无无效效 有有效效率率 单单纯纯型型 221 60 98 51 12 94.6%喘喘息息型型 182 23 83 65 11 94.0 表 复方猪胆胶囊治
31、疗两型老年慢性支气管炎患者疗效比较 2022-10-1573统计图 统计图的意义:统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。2022-10-1574n统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。n常用的统计图:直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等。2022-10-1575统计图制作的一般原则 1.根据资料性质和分析目的正确选用适当的统计图。2.必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般 放在图的下方。2022-10-15763.统计图一般有横轴
32、和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。4.统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。2022-10-1577二、常用统计图 1直条图(bar chart)2圆图(pie chart)和百分比条图(percent bar chart)3线图(line graph)4直方图(histogram)5统计地图(statistical map)6其他特殊分析图 箱式图(box plot)茎叶图(stem-leaf plot)误差条图(err
33、or bar chart)2022-10-15781直条图(bar chart)用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。2022-10-15792022-10-1580 例10-4 图10-1显示某地某年主要死因的死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。2022-10-1581 某工厂职工1994 年998 年四项生理指标异常检出率 图2 GPT TTT 心率 血压 检 出 率(%)12 11 10 9 8 7 6 5 4 3 2 1 0
34、 1994 年 1998 年 2022-10-1582 直条图的纵轴尺度起点必须为零示意图药物有效率(%)A药70B药752022-10-1583(a)(b)2022-10-15842圆图和百分比条图 圆图(pie chart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。百分比条图(percent bar chart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分比条图适合描述分类变量的构成比资料。问题:这两类统计图适合于什么类型的资料?尤其适合哪个统计描述指标?2022-10-158520.55.65.222.56.418
35、.121.7早产先天异常先天心其它颅内出血肺炎出生窒息 图10-2 某年某地城市婴儿死因构成比 2022-10-1586 例10-5 某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图10-2。从图10-2可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎头三位死因占总死亡的60.3%,是婴儿死亡防治的重点。2022-10-1587 例10-6 图10-3是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。百分比条图特别适合作多个构成比的比较。2022-10-15880%20%40%
36、60%80%100%70年代80年代肺癌鼻咽癌肝癌胃癌肠癌其它 图10-3 20世纪70年代和80年代某地7常见恶性肿瘤发病构成比较 2022-10-1589图图 美国美国1999、2000年死于机动车事故的人员构成年死于机动车事故的人员构成2022-10-15903线图(line graph)线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。普通线图:横轴和纵轴都是算术尺度。半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。2022-10-1591 例10-7 图10-4是根据19
37、902000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。2022-10-1592图10-4 19902000年某沿海城市甲状腺功能亢进发病率变化趋势 2022-10-1593 例10-8 调查某地1997年2001年两种与性传播有关疾病艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。2022-10-15940123456719971998199920002001发病率(1/10万)0.0010.010.111019971998199920002001发病率(1/10万)艾滋病梅毒(a)纵轴为算术尺度纵轴为算术尺度;(b)纵轴为对数尺度纵轴为对数尺度图图10-5
38、 19972001年某地艾滋病和梅毒发病率的变化趋势年某地艾滋病和梅毒发病率的变化趋势2022-10-15954直方图(histogram)以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。2022-10-1596 例10-9 1997年某地共报告乙型病毒性脑炎104例,其年龄分布如表10-6。2022-10-1597024681012141603691025年龄(岁)每岁病例数图10-6 1997年某地乙型病毒性脑膜炎病例的年龄分布 2022-10-15985统计地图(statistical map)统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。例10-10 2003年广东省发生了某急性传染病的流行,图10-7描述了该急性传染病发病数在广东省的分布情况。2022-10-1599图10-7 2003年广东省某急性传染病发病数的地理分布图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区2022-10-15100谢 谢!