1、统计学基础知识统计学基础知识一一.医学统计学的意义医学统计学的意义1.1.统计学(统计学(statisticsstatistics):应用数学的原理与方应用数学的原理与方法,研究数据的搜集、整理与分析的科学,对法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。不确定性数据作出科学的推断。2.2.医学统计学(医学统计学(statistics of medicinestatistics of medicine):应应用统计学的原理与方法进行医学科研与实践。用统计学的原理与方法进行医学科研与实践。3.3.统计学方法的特点统计学方法的特点:(1)(1)用数量反映质量用数量反映质量 1
2、)1)体格检查体格检查(量血压、脉搏量血压、脉搏)个体健康质量个体健康质量 2)2)考试分数考试分数个体学习质量个体学习质量 3)3)期望寿命期望寿命反映人群健康状况反映人群健康状况 4)4)婴儿死亡率婴儿死亡率反映卫生服务质量反映卫生服务质量 (2)(2)用群体归纳个体用群体归纳个体n20112011年长沙市年长沙市7 7岁男孩有多高岁男孩有多高?n7 7岁男孩身高有高有矮,平均身高岁男孩身高有高有矮,平均身高=119.5cm=119.5cmn95%95%的长沙市的长沙市7 7岁男孩的身高在岁男孩的身高在110.20cm110.20cm129.20cm129.20cm之间之间二、基本概念二、
3、基本概念)、)、变变量值(量值(value of variablevalue of variable)(1 1)研究单位()研究单位(unitunit):研究中的个体):研究中的个体。如:研究如:研究20112011年长沙市年长沙市7 7岁男孩岁男孩身高身高的正常值范围的正常值范围 1 1个人个人 测得的身高值(测得的身高值(120.2cm,118.6cm,121.8cm,120.2cm,118.6cm,121.8cm,)2 2、同质同质(homogeneityhomogeneity)和变异()和变异(variationvariation)n研究长沙市研究长沙市20112011年年7 7岁男孩
4、身高的正常值范围?岁男孩身高的正常值范围?n同质同质:同长沙市、:同长沙市、7 7岁、男孩、无影响身高的疾病。岁、男孩、无影响身高的疾病。n变异:变异:长沙市长沙市20112011年年7 7岁男孩岁男孩身高有高有矮身高有高有矮3 3、总体总体(populationpopulation)和样本()和样本(samplesample)(1 1)总体:是根据研究目的确定的同质研究单位的全体。)总体:是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。更确切地说是同质研究单位某种变量值的集合。n例如:调查例如:调查某地某地20112011年正常成年男子年正常成年男子的的红细
5、胞数红细胞数的正的正常值范围。常值范围。总体:总体:1 1)某地所有的正常成年男子)某地所有的正常成年男子 2 2)某地所有的正常成年男子的红细胞数)某地所有的正常成年男子的红细胞数1 1)有限总体()有限总体(finite populationfinite population):研究单位数是):研究单位数是有限的。有限的。例如:调查某地例如:调查某地20112011年正常成年男子的红细胞数的正年正常成年男子的红细胞数的正常值范围。常值范围。2 2)无限总体()无限总体(infinite populationinfinite population):研究单位数):研究单位数是无限的。是无限的
6、。例如:高血压患者例如:高血压患者无时间、空间限制。无时间、空间限制。(2 2)样本()样本(samplesample):是总体中抽取的有代表性的一部分。):是总体中抽取的有代表性的一部分。注意:随机抽样(无主观性)注意:随机抽样(无主观性)样本含量(样本含量(sample sizesample size):样本中包含的研究单位数。):样本中包含的研究单位数。例如:某药治疗高血压患者例如:某药治疗高血压患者3030名名 样本含量(样本含量(n n)为)为30304 4、参数(、参数(parameterparameter)和统计量()和统计量(statisticstatistic)(1 1)参数
7、:根据总体个体值统计计算出来的描述总体的)参数:根据总体个体值统计计算出来的描述总体的特征量。特征量。n一般用希腊字母表示一般用希腊字母表示(2 2)统计量:根据样本个体值统计计算出来的描述样本)统计量:根据样本个体值统计计算出来的描述样本的特征量。的特征量。n一般用拉丁字母表示一般用拉丁字母表示n总体参数一般是不知道的总体参数一般是不知道的n统计学抽样研究的目的就是:统计学抽样研究的目的就是:n 样本统计量样本统计量总体参数总体参数5 5、抽样误差、抽样误差n由于抽样原因所造成的由于抽样原因所造成的样本统计量样本统计量与与总体参数总体参数之间的之间的差别。差别。特点:特点:1 1)抽样误差是
8、不可避免;)抽样误差是不可避免;2 2)有统计规律性。)有统计规律性。n 产生原因产生原因:个体差异个体差异(生物变异生物变异)6 6、频率(、频率(frequencyfrequency)、概率()、概率(probabilityprobability)、小概率)、小概率事件事件(1 1)频率频率:一次随机试验出现各种可能结果的比例。一次随机试验出现各种可能结果的比例。n例如,投掷一枚硬币,结果不外乎出现例如,投掷一枚硬币,结果不外乎出现“正面正面”与与“反面反面”两种,在重复多次后,出现两种,在重复多次后,出现“正面正面”或或“反反面面”这个结果的比例称之为频率。这个结果的比例称之为频率。n(
9、2)(2)概率(概率(probabilityprobability)概率是度量随机事件发生可概率是度量随机事件发生可能性大小的一个数值。能性大小的一个数值。n频率是就样本而言的,而概率从总体的意义上说的。频率是就样本而言的,而概率从总体的意义上说的。0 P(A)1 随机事件随机事件 P(A)=1 必然事件必然事件 P(A)=0 不可能事件。不可能事件。(3 3)小概率事件)小概率事件:统计分析中的很多结论都基于统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将一定置信程度下的概率推断,习惯上将 称为小概率事件。称为小概率事件。()0.05()0.01P AP A或湖南风采:湖南风采:
10、n中奖概率大约为:中奖概率大约为:1/6711/671万万交通事故:交通事故:n发生概率为:发生概率为:1/201/20万万三、统计资料的类型变量与统计资料的分类方法变量与统计资料的分类方法1.1.概述概述 数值变量数值变量.构成计量资料构成计量资料 分类变量分类变量 无序分类变量无序分类变量构成计数资料构成计数资料 有序分类变量有序分类变量构成等级资料构成等级资料.数值变量与计量资料数值变量与计量资料1)1)数值变量数值变量(numerical variable)(numerical variable):变量值是定量的,:变量值是定量的,表现为数值大小,一般有度量衡单位。如表现为数值大小,一
11、般有度量衡单位。如:身高身高(cm)(cm)、体重体重(kg)(kg)。2)2)计量资料计量资料(measurement data)(measurement data):由一群个体的数值变:由一群个体的数值变量值构成的资料,即一群变量值。量值构成的资料,即一群变量值。如:长沙市如:长沙市20112011年年7 7岁男孩身高值岁男孩身高值(118.6cm,121.8cm(118.6cm,121.8cm)3.3.无序分类变量与计数资料无序分类变量与计数资料1)1)无序分类变量无序分类变量(unordered categories variable)(unordered categories var
12、iable):变量值:变量值是定性的,有类别。是定性的,有类别。特点:类别是客观存在的,各类无秩序,可任意排列;特点:类别是客观存在的,各类无秩序,可任意排列;类与类之间界限清楚,(理论上类与类之间界限清楚,(理论上)不会错判。不会错判。如:性别:男、女。如:性别:男、女。血型:血型:O O、A A、B B、ABAB。2)2)计数资料计数资料(enumeration data)(enumeration data):一群个体按无序分类变量:一群个体按无序分类变量的类别清点每类有多少个个体,即分类个体数。的类别清点每类有多少个个体,即分类个体数。如:某人群性别构成:男:,如:某人群性别构成:男:,
13、女:女:7 7。某人群血型构成:某人群血型构成:O O:2020,A A:3535,B B:3030,AB AB:15154.4.有序分类变量与等级资料有序分类变量与等级资料1)1)有序分类变量有序分类变量(ordinal categories variable)(ordinal categories variable):变量值:变量值是定性的、是定性的、分等级。分等级。特点:等级是主观划分的,各级有秩序,从低到高或特点:等级是主观划分的,各级有秩序,从低到高或由高到低;级和级之间界限模糊,可能错判。由高到低;级和级之间界限模糊,可能错判。如:疗效:无效、好转、显效、治愈。如:疗效:无效、好转
14、、显效、治愈。血清反应:血清反应:、+、+2)2)等级资料等级资料(ranked data)(ranked data):一群个体按有序分类变量的级别:一群个体按有序分类变量的级别清点每级有多少个个体清点每级有多少个个体,即分级个体数。即分级个体数。如:某地某人群如:某地某人群EBEB病毒抗体反应:病毒抗体反应:6565,+:5 5,+:6 61.1.专业设计:选题、建立假说、确定研究专业设计:选题、建立假说、确定研究对象和技术方法等对象和技术方法等2.2.统计设计:围绕专业设计确定统计设类统计设计:围绕专业设计确定统计设类型、样本大小、分组方法、统计分析指标型、样本大小、分组方法、统计分析指标
15、及统计分析方法。及统计分析方法。四、医学统计工作的基本步骤设计n统计设计统计设计的内容包括资料的搜集、整理和分析全过和的内容包括资料的搜集、整理和分析全过和的设想和安排。的设想和安排。n例如:研究目的和假说?例如:研究目的和假说?n 研究对象和研究单位?研究对象和研究单位?n 研究因素(变量)?研究因素(变量)?n 搜集哪些原始资料?搜集哪些原始资料?用什么方式和方法取得这些原始资料?用什么方式和方法取得这些原始资料?怎样整理汇总和计算统计指标?怎样整理汇总和计算统计指标?如何控制误差?如何控制误差?预期会得到什么结果?预期会得到什么结果?需要多少经费?需要多少经费?统(一)资料来源(一)资料
16、来源第一手资料第一手资料 经常性:统计报表(死亡登记、疫情报经常性:统计报表(死亡登记、疫情报告等),工作记录(病历、化验);告等),工作记录(病历、化验);一时性:专题调查、实验或临床试验。一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如数据银行、第二手资料:已公布的资料,如数据银行、全国、全省卫生统计资料。全国、全省卫生统计资料。收集资料分析资料分析资料 1.1.统计描述:用统计指标、统计图表对资料统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。的数量特征及分布规律进行测定和描述。2.2.统计推断:用样本信息推断总体特征:统计推断:用样本信息推断总体特
17、征:参数估计参数估计 假设检验。假设检验。工具:工具:1 1)foxbasefoxbase数据库数据库 2 2)spssspss 3 3)SASSAS五、数值变量资料的统计描述n频数分布表频数分布表(frequency tablefrequency table):n例例 从某单位从某单位19991999年的职工体检资料中获得年的职工体检资料中获得101101名正常成年女子的血清总胆固醇的测量结果如名正常成年女子的血清总胆固醇的测量结果如下,试编制频数分布表。下,试编制频数分布表。2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.4
18、1 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.7
19、1 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26 组段频数f(1)(2)2.3012.6032.9063.2083.50173.80204.10174.40124.7095.0055.3025.605.901合计101频数表频数分布图n统计图统计图:指利用点的位置、线段的升降、直条:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统
20、的长短和面积的大小等各种几何图形来表达统计资料。计资料。n统计图统计图只能提供概略只能提供概略的情况,而不能获得确切的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。列出统计表作为统计图的数值依据。统计图统计图统计图的结构n标题标题:用于简明扼要地说明资料的内容,一般位于图的:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。下方中央位置。n图域图域:即制图空间,是整个统计图的视觉中心。除圆图:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。外,一般都是存在于特定的坐标体系下
21、。n标目标目:分为纵标目和横标目,表示坐标系下纵轴与横轴:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。的含义。n图例图例:用于识别比较的统计图中各种图形所代表的含义。:用于识别比较的统计图中各种图形所代表的含义。n刻度刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。顺序,纵轴由下向上,横轴由左向右排列。常用的统计图n直条图直条图n百分条图百分条图n圆图圆图n线图线图n半对数线图半对数线图n直方图直方图n散点图散点图直条图/条图丁地区丙地区乙地区甲地区发病率(1/1 0万)262422201816141210
22、86420522图12-1 某省1979年四个地区脊髓灰质炎发病率图12-2 某地1952年与1972年三种疾病死亡率比较5.4%23.1%44.3%27.1%无效有效显效临床治愈图12-4 复方猪胆囊治疗单纯型老年性气管炎疗效0%20%40%60%80%100%70年代80年代肺癌鼻咽癌肝癌胃癌肠癌其它 图12-5 20世纪70年代和80年代某地7常见恶性肿瘤发病构成比较 1974197319721971197019691968结核病死亡率(1/1 0万)605040302010性别男性女性图12-6 某地1968-1974年结核病死亡率比较1958195719561955195419531
23、952195119501949死亡率(1/1 0万)1086420白喉伤寒、副伤寒1958195719561955195419531952195119501949对数化后死亡率(1/1 0万)1.51.0.50.0-.5-1.0-1.5白喉伤寒、副伤寒图12-7 某地1949-1958年白喉、伤寒、副伤寒死亡率比较(普通线图)图12-8 某地1949-1958年白喉、伤寒、副伤寒死亡率比较(半对数线图)请注意:在普通线图中,白喉死亡率线条的坡度比伤寒、副伤寒死亡率请注意:在普通线图中,白喉死亡率线条的坡度比伤寒、副伤寒死亡率线条下降的陡峭,只能说明两种疾病的死亡率线条下降的陡峭,只能说明两种疾
24、病的死亡率逐年变化幅度不同逐年变化幅度不同,不能错认,不能错认为为白喉死亡率的下降速度比伤寒、副伤寒死亡率的下降速度快白喉死亡率的下降速度比伤寒、副伤寒死亡率的下降速度快。在半对数线。在半对数线图中就不会出现这种错觉。图中就不会出现这种错觉。频数红细胞数(1012/L)图图12-9 140名正常男子红细胞计数的直方图名正常男子红细胞计数的直方图图图12-10 1997年某地乙型病毒性脑膜炎病例的年龄分布年某地乙型病毒性脑膜炎病例的年龄分布 1 2 3 4 5 6 7 8 9 10 15 2 0 25 30 35年龄(岁)年龄(岁)散点图(scatter chart)n散点图散点图:使用点的密集
25、程度和趋势来表示两种指标或:使用点的密集程度和趋势来表示两种指标或变量间的相关关系。变量间的相关关系。图图10-12 12名女大学生身高与体重散点图名女大学生身高与体重散点图(一一)平均指标平均指标1.1.算术均数(算术均数(meanmean):):可用于反映一组呈对称分布的变量值在数量可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征。上的平均水平或者说是集中位置的特征。适用范围:对称分布,尤其正态分布适用范围:对称分布,尤其正态分布计量资料的描述指标计量资料的描述指标计算方法12nXXXXXnnn例:从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆
26、固醇()的测量结果如下:mmol/L2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.
27、52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4.15 4.36 4.95 3.00 3.26 2.354.783.914.03(mmol/L)101X2.2.中位数中位数n中位数(中位数(medianmedian):是将变量值从小到大按顺):是将变
28、量值从小到大按顺序排列,位置序排列,位置(位次位次)居于中间的那个居于中间的那个变量值变量值。n1 1,3 3,7 7,5 5,100100n中位数为多少中位数为多少?n n为奇数时 nn为偶数时 1()2nMX()(1)2212nnMXX例例 7 7名病人患某病的潜伏期分别为名病人患某病的潜伏期分别为2,3,4,5,6,9,162,3,4,5,6,9,16天,求其天,求其中位数中位数。n本例本例n=7,为奇数为奇数 n例例 8 8 名 患 者 食 物 中 毒 的 潜 伏 期 分 别 为名 患 者 食 物 中 毒 的 潜 伏 期 分 别 为1,2,2,3,5,8,15,241,2,2,3,5,
29、8,15,24小时,求其中位数。小时,求其中位数。n本例本例n=8,n=8,为偶数为偶数 7 14()25()MXX天8845()(1)22111354()222MXXXX小时应用n 适用于适用于:1:1、各种分布各种分布类型的资料类型的资料 2 2、特别是、特别是偏态分布偏态分布资料和资料和开口资开口资料料(一端或两端无确切数值的资料)。(一端或两端无确切数值的资料)。3、几何均数n几何均数(几何均数(geometric meangeometric mean):可用于反映一):可用于反映一组经对数转换后呈对称分布的变量值在数量上组经对数转换后呈对称分布的变量值在数量上的平均水平。的平均水平。
30、n计算方法计算方法12nnGX XX例例 某地某地5 5例微丝蚴血症患者治疗七年后用间接例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,荧光抗体试验测得其抗体滴度倒数分别为,1010,2020,4040,40,16040,160,求几何均数。,求几何均数。510 20 40 40 16034.8G 适用于成等比级数的资料,特别是对数正态分布资料。适用于成等比级数的资料,特别是对数正态分布资料。(二)变异指标例 三组同龄男孩的身高值(cm)甲组:90 95 100 105 110 100cmX 甲 乙组:96 98 100 102 104 100cmX 乙 丙组:96 99
31、 100 101 104 100cmX 丙 1.极差n极差极差(R)(R):即一组变量值最大值与最小值之差。:即一组变量值最大值与最小值之差。1 1 09 02 0 c mR甲104968cmR 乙104968cmR丙2.2.方差方差(variancevariance)也称均方差,即将离均差平方和用样也称均方差,即将离均差平方和用样本含量本含量n n 取平均,可反映一组数据的平均离散水平。总体取平均,可反映一组数据的平均离散水平。总体方差方差-,样本方差,样本方差-。22()1XXSn22S样本标准差用样本标准差用s s 表示表示 n公式:2()1XXSn3.标准差22()1XXnSn计算三组
32、资料的标准差n甲组:5,9095 100 105 110500nX222222909510010511050250X2(500)5025057.91(cm)5 1S同理得:乙组:3.16(cm)S,丙组:2.92(cm)S。4、百分位数n百分位数(百分位数(percentilepercentile)是一种位置指标。)是一种位置指标。n一个百分位数一个百分位数 将全部变量值分为两部分,将全部变量值分为两部分,在不包含的全部变量值中有在不包含的全部变量值中有 的变量值比的变量值比它小,它小,变量值比它大。变量值比它大。XP%X(100)%Xn变异系数(coefficient of variatio
33、n,CV),多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。5.变异系数CVSX100%例例:某地某地7 7岁男孩身高的均数为岁男孩身高的均数为123.10cm123.10cm,标准差为,标准差为4.71cm4.71cm;体重均数为;体重均数为22.59kg22.59kg,标准差为,标准差为2.26kg,2.26kg,比较其变异度?比较其变异度?体重 2.26100%10.14%22.29CV 身 高 4.71100%3.83%123.10CV 第五章第五章 计数资料的统计描述计数资料的统计描述常用的相对数:常用的相对数:一、率。一
34、、率。二、构成比二、构成比三、相对比三、相对比第一节 常用相对数一、率一、率率率:说明某现象发生的频率或强度。:说明某现象发生的频率或强度。常以常以百分率百分率(%)、)、千分率千分率()、)、万分率万分率(1/1/万)、万)、十万分率十万分率(1/101/10万)等表示,计算公式为:万)等表示,计算公式为:某时期内发生某现象的观察单位数率比例基数 同期可能发生某现象的观察单位总数n例例5-1 5-1 某医院某医院19981998年在某城区随机调查了年在某城区随机调查了85898589例例6060岁及以上老人,体检发现高血压岁及以上老人,体检发现高血压患者为患者为28232823例。例。n高血
35、压患病率为:高血压患病率为:n28232823/85898589 100%=32.87%100%=32.87%。、构成比、构成比n构成比:表示事物内部某一部分的个体数与该构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。成部分在总体中所占的比重或分布。n通常以通常以100%100%为比例基数。其计算公式为为比例基数。其计算公式为100%(5-2)某一组成部分的观察单位数构成比 同一事物各组成部分的观察单位总数例-某正常人的白细胞分类计数三、相对比三、相对比n相对比简称比(相对比简称比(rati
36、oratio),是两个有关指标),是两个有关指标之比,说明两指标间的比例关系。之比,说明两指标间的比例关系。n两个指标两个指标可以是可以是性质相同性质相同,如不同时期发病,如不同时期发病数之比;也可以数之比;也可以性质不同性质不同,如医院的门诊人,如医院的门诊人次与病床数之比。通常以倍数或百分数(次与病床数之比。通常以倍数或百分数(%)表示。表示。n例例5-3 5-3 某年某医院出生婴儿中,男性婴儿为某年某医院出生婴儿中,男性婴儿为370370人,人,女 性 婴 儿 为女 性 婴 儿 为 3 5 83 5 8 人,则 出 生 婴 儿 性 别 比 例 为人,则 出 生 婴 儿 性 别 比 例 为
37、370370/358358100=100=103103,说明该医院该年每出生,说明该医院该年每出生100100名女名女婴儿,就有婴儿,就有103103名男性婴儿出生,它反映了男性婴儿与名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。女性婴儿出生的对比水平。第二节 应用相对数的注意事项1 1、计算相对数应有足够数量即、计算相对数应有足够数量即分母不宜太小分母不宜太小。n如如果例数较少会使相对数波动较大。如某种疗法治疗果例数较少会使相对数波动较大。如某种疗法治疗5 5例病人例病人5 5例全部治愈,则计算治愈率为例全部治愈,则计算治愈率为5 55 5100%100%=100%=100%,若
38、,若4 4例治愈,则治愈率为例治愈,则治愈率为4 45 5100%=80%100%=80%,由,由100%100%至至80%80%波动幅度较大,但实际上只有波动幅度较大,但实际上只有1 1例的变化。例的变化。在临床试验或流行病调查中,各种偶然因素都可能导在临床试验或流行病调查中,各种偶然因素都可能导致计算结果的较大变化,因此致计算结果的较大变化,因此例数很少例数很少的情况下的情况下最好最好用绝对数用绝对数直接表示。直接表示。2 2、不能以构成比代替率不能以构成比代替率n构成比是用以说明事物内部某种构成所占比重构成比是用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度,或分布
39、,并不说明某现象发生的频率或强度,在实际工作中经常会出现将构成比指标按率的在实际工作中经常会出现将构成比指标按率的概念去解释的错误例如表概念去解释的错误例如表5-25-2研究已婚育龄妇研究已婚育龄妇女在不同情况下放置避孕环与失败率的关系。女在不同情况下放置避孕环与失败率的关系。表5-2 已婚育龄妇女不同情况下放环失败率的比较 放环情况(1)放环人数 (2)失败人数(3)失败人数比(%)(4)失败率(%)(5)人工流产后 255 78 61.9 30.6 月经后 87 39 31.0 44.8 哺乳期 17 9 7.1 52.9 合 计 359 126 100.0 35.1 3 3.正正确计算合
40、计率确计算合计率n对分组资料计算合计率或称平均率时,不能简单地由对分组资料计算合计率或称平均率时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字各组率相加或平均而得,而应用合计的有关实际数字进行计算。例如用某疗法治疗肝炎,进行计算。例如用某疗法治疗肝炎,甲医院甲医院治疗治疗150150人,人,治愈治愈3030人,治愈率为人,治愈率为20%20%;乙医院乙医院治疗治疗100100人,治愈人,治愈3030人,治愈率为人,治愈率为30%30%。两个医院合计治愈率应该是。两个医院合计治愈率应该是(3030+3030)/()/(150150+100100)100%=24%100%=24%。若
41、算为。若算为20%+30%=50%20%+30%=50%或或(20%+30%)/2=25%(20%+30%)/2=25%,则是错的。,则是错的。4 4.注意资料的可比性注意资料的可比性 n在在比较相对数时,除了要对比的因素比较相对数时,除了要对比的因素(如不同如不同的药物的药物),其余的影响因素应尽可能相同或相,其余的影响因素应尽可能相同或相近。在临床研究和动物实验时,应遵循随机抽近。在临床研究和动物实验时,应遵循随机抽样原则进行分组。样原则进行分组。5 5.对比不同时期资料应注意客观条件是否相同对比不同时期资料应注意客观条件是否相同 n例例如如,疾病报告制度完善和资料完整的地区或年份,疾病报
42、告制度完善和资料完整的地区或年份,发病率可以发病率可以“升高升高”;居民因医疗普及,就诊机会增;居民因医疗普及,就诊机会增加,或诊断技术提高,也会引起发病率加,或诊断技术提高,也会引起发病率“升高升高”。因。因此在分析讨论时,应根据各方面情形全面考虑,慎重此在分析讨论时,应根据各方面情形全面考虑,慎重对待。对待。6 6.样本样本率(或构成比)的比较应做样本率(或构成比)率(或构成比)的比较应做样本率(或构成比)假设检验假设检验。假设检验过去称显著性检验。它是利用小概率反假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面证法思想,从问题的对立面(H H0 0)出发间接判断要解出发
43、间接判断要解决的问题决的问题(H H1 1)是否成立。然后在是否成立。然后在H H0 0成立的条件下计成立的条件下计算检验统计量,最后获得算检验统计量,最后获得P P值来判断。值来判断。七、统计推断 n例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?n130.83g/L 140g/Ln原因:1.可能是总体均数不同 2.是抽样造成的 若若P,按所取检验水准,按所取检验水准 ,拒绝,拒绝0H,接受接受1H,下“有差别”的结论。其统计学依,下“有差别”的结论。其
44、统计学依据是,在据是,在0H成立的条件下,得到现有检验结成立的条件下,得到现有检验结果的概率小于果的概率小于,因为小概率事件不可能在,因为小概率事件不可能在一次试验中发生,所以拒绝一次试验中发生,所以拒绝0H。假设检验应注意的假设检验应注意的问题问题(1 1)要有严密的研究设计要有严密的研究设计 这是假设检验这是假设检验的前提。组间应均衡,具有可比性,也就的前提。组间应均衡,具有可比性,也就是除对比的主要因素是除对比的主要因素(如临床试验用新药如临床试验用新药和对照药和对照药)外,其它可能影响结果的因素外,其它可能影响结果的因素(如年龄、性别、病程、病情轻重等如年龄、性别、病程、病情轻重等)在
45、对在对比组间应相同或相近。保证均衡性的方法比组间应相同或相近。保证均衡性的方法主要是从同质总体中随机抽取样本,或随主要是从同质总体中随机抽取样本,或随机分配样本。机分配样本。(2 2)变量变换)变量变换常用的变量变换有对数变换、平方根变换、常用的变量变换有对数变换、平方根变换、倒数变换、平方根反正弦变换等。倒数变换、平方根反正弦变换等。(3 3)合理选用检)合理选用检验验方法方法 n应根据分析目的、资料类型以及分布、设计应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检方案的种类、样本含量大小等选用适当的检验方法。验方法。(4 4)正确理解)正确理解“显著性显著性”一
46、词的含义一词的含义 n差别有或无统计学意义,过去称差别有或无差别有或无统计学意义,过去称差别有或无“显著性显著性”,是对样本统计量与总体参数或,是对样本统计量与总体参数或样本统计量之间的比较而言,相应推断为:样本统计量之间的比较而言,相应推断为:可以认为或还不能认为两个或多个总体参数可以认为或还不能认为两个或多个总体参数有差别。有差别。(5 5)结论不能绝)结论不能绝对化对化 n因统计结论具有概率性质,故因统计结论具有概率性质,故“肯定肯定”、“一定一定”、“必定必定”等词不要使用。在报告等词不要使用。在报告结论时,最好列出检验统计量的值,尽量写结论时,最好列出检验统计量的值,尽量写出具体的出
47、具体的P P值或值或P P值的确切范围,如写成值的确切范围,如写成P P=0.040=0.040或或0.020.02P P0.050.05,而不简单写成,而不简单写成P P0.050.05,以便读者与同类研究进行比较或进,以便读者与同类研究进行比较或进行循证医学时采用行循证医学时采用MetaMeta分析。分析。(6 6)注意注意统计结论和专业结论的区别统计结论和专业结论的区别n若若统计结论和专业结论一致,则最终结论就和这两者统计结论和专业结论一致,则最终结论就和这两者均一致均一致(即均有或均无意义即均有或均无意义);n若若统计结论和专业结论不一致,则最终结论需根据实统计结论和专业结论不一致,则最终结论需根据实际情况加以考际情况加以考虑。虑。n若若统计结论有意义,而专业结论无意义,则可能由于统计结论有意义,而专业结论无意义,则可能由于样本含量过大或设计存在问题,那么最终结论就没有样本含量过大或设计存在问题,那么最终结论就没有意意义。义。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。