1、2023-2-12第一章卫生统计学绪论1卫卫 生生 统统 计计 学学 2023-2-12第一章卫生统计学绪论2 FisherFisher在在19381938年印度统计学年印度统计学大会演讲时说大会演讲时说:“:“作完实验后才找作完实验后才找统计学家,就好象要他作统计学家,就好象要他作尸体解剖尸体解剖。他会说,这实验死于什么原因他会说,这实验死于什么原因”。2023-2-12第一章卫生统计学绪论3第一章第一章 卫生统计学绪论卫生统计学绪论统计学:统计学:是一门处理数据中变异性的科学与艺,是一门处理数据中变异性的科学与艺,内容包括收集、整理、分析、解释和表内容包括收集、整理、分析、解释和表达数据,
2、目的是求得可靠结果。达数据,目的是求得可靠结果。2023-2-12第一章卫生统计学绪论4 例例 1 我的红细胞数比其他同事都我的红细胞数比其他同事都低,我是病了吗?低,我是病了吗?2023-2-12第一章卫生统计学绪论53.98 5.39 4.54 4.74 5.13 4.43 4.81 4.67 4.67 4.96 3.79 5.49 4.66 5.26 4.90 4.90 5.40 5.29 4.17 4.28 4.63 4.94 4.33 4.84 4.75 4.77 5.38 4.01 4.49 5.30 4.97 5.29 4.85 5.88 4.49 4.62 4.77 5.38
3、4.53 4.10 4.53 4.70 4.80 5.23 5.67 5.15 4.57 150名正常成年男子的红细胞数名正常成年男子的红细胞数(1012/L)2023-2-12第一章卫生统计学绪论6 150名成年男子的红细胞数(名成年男子的红细胞数(1012/L)频数分布)频数分布组段组段频数频数 f频率(频率(%)3.710.673.942.674.1117.334.3171.134.52617.34.73221.34.92617.35.11812.05.3106.675.542.675.75.910.67合合 计计150100.0 某地某地150名正常成年男子红细胞数名正常成年男子红细胞
4、数(1012/L)频数分布图频数分布图频频 数数红细胞数红细胞数(1012/L)2023-2-12第一章卫生统计学绪论8 例例 21、用某药治某病,治疗、用某药治某病,治疗1例有效,能说例有效,能说 该药的有效率为该药的有效率为100%吗?吗?2、治疗、治疗2例都有效,能说该药的有效率例都有效,能说该药的有效率 为为100%吗?吗?3、治疗、治疗10例例9例有效,能说例有效,能说90%有效有效 吗?吗?2023-2-12第一章卫生统计学绪论9 例例 3 某医生用某药治疗胃溃疡病出血患者某医生用某药治疗胃溃疡病出血患者107例,有效例,有效101例,有效率为例,有效率为94.4%。如果别的医生也
5、用同样的药来治疗胃如果别的医生也用同样的药来治疗胃溃疡病出血患者,其有效率也一定是溃疡病出血患者,其有效率也一定是94.4%吗?吗?2023-2-12第一章卫生统计学绪论10 例例 4 某项关于某种药物的广告声称:某项关于某种药物的广告声称:“在服在服用本制剂的用本制剂的10001000名上呼吸道感染的儿童中,名上呼吸道感染的儿童中,有有970970名儿童在名儿童在7272小时内症状消失小时内症状消失”,因,因此推断此药治疗儿童的上呼吸道感染是非此推断此药治疗儿童的上呼吸道感染是非常有效的,可以推广应用。这项推论正确常有效的,可以推广应用。这项推论正确吗?吗?2023-2-12第一章卫生统计学
6、绪论11 例例 5 对某地对某地2530岁妇女进行一项研究发岁妇女进行一项研究发现:在服用口服避孕药者中,宫颈癌年现:在服用口服避孕药者中,宫颈癌年发病率为发病率为6/10万万,而未服用者为,而未服用者为3/10万万。据此认为服用口服避孕药是引起宫颈癌据此认为服用口服避孕药是引起宫颈癌的危险因素,此结论正确吗?的危险因素,此结论正确吗?例例 6肿瘤患者体外肿瘤患者体外淋巴细胞转化率淋巴细胞转化率检查及其评价检查及其评价的研的研究中,研究对象是究中,研究对象是67例恶性肿瘤患者,其中例恶性肿瘤患者,其中44例为肿例为肿瘤患者瘤患者(消化道癌(消化道癌23例,肺癌例,肺癌13例,其它癌肿例,其它癌
7、肿8例),例),男男39人,女人,女5人,年龄人,年龄3673岁;岁;23例为白血病患者例为白血病患者(急淋(急淋7例,急粒例,急粒8例,慢粒例,慢粒8例),男例),男18人,女人,女5人,人,年龄年龄1654岁。岁。正常对照:正常对照:33例正常人,均为健康献血员,男例正常人,均为健康献血员,男20人,人,女女13人,年龄人,年龄2133岁。岁。作者得出肿瘤组和白血病组平均淋转率比正常组低作者得出肿瘤组和白血病组平均淋转率比正常组低(P0.01)。)。2023-2-12第一章卫生统计学绪论13 例:链霉素治疗肺结核疗效的临床试验例:链霉素治疗肺结核疗效的临床试验 从从15153030岁肺双侧
8、进行性肺结核患者岁肺双侧进行性肺结核患者(总体)中抽取(总体)中抽取107107例患者(样本),随例患者(样本),随机分为两组,机分为两组,试验组试验组5555例例接受接受链霉素加链霉素加卧床休息卧床休息的治疗,的治疗,对照组对照组5252例例用常规治用常规治疗(疗(单纯卧床休息单纯卧床休息)。)。6 6个月后,患者的个月后,患者的X-X-光片分别由两位放射学家和一位临床光片分别由两位放射学家和一位临床学家独立评价,结果见下:学家独立评价,结果见下:2023-2-12第一章卫生统计学绪论14结果:结果:试验组生存率为试验组生存率为93%(51/55)对照组生存率为对照组生存率为73%(38/5
9、2)试验组的放射学改善优于对照组。试验组的放射学改善优于对照组。3、结果的评价是否客观,有无偏倚?、结果的评价是否客观,有无偏倚?1、两组患者的生存率不同是个体差异还是疗、两组患者的生存率不同是个体差异还是疗 法的效果?法的效果?2、上两组患者的病情是否相同或相似?、上两组患者的病情是否相同或相似?2023-2-12第一章卫生统计学绪论15 两组患者的生存率不同是个两组患者的生存率不同是个体差异还是疗法的效果?体差异还是疗法的效果?两组患者的生存率经假设检两组患者的生存率经假设检验,得验,得 P50试验组试验组81730 031636对照组对照组82024 1220292023-2-12第一章
10、卫生统计学绪论17 患者的患者的X-X-光片光片分别分别由两位放射由两位放射学家和一位临床学家学家和一位临床学家独立评价独立评价,这,这种盲法和重复评价种盲法和重复评价明显增加了评价明显增加了评价的客观性,结果试验组的存活率和的客观性,结果试验组的存活率和放射学改善均优于对照组。放射学改善均优于对照组。生生 物物 医医 学学客客 观观 现现 象象 推推 断断 统统 计计揭示生物医学揭示生物医学客观总体内在客观总体内在数数 量量 规规 律律 描描 述述 统统 计计 统计学探索生物医学数量规律过程统计学探索生物医学数量规律过程2023-2-12第一章卫生统计学绪论19第一节第一节 医学中统计思维的
11、进化医学中统计思维的进化时时 期期科科 学学 家家发明与应用发明与应用1749-1827 Pierre-Simon Laplace研究概率研究概率(probability)。1745-1826Philippe Pinel应用概率研究疗效应用概率研究疗效1787-1872Louis 临床疗效,对照临床疗效,对照1822-1911 Francis Galton 分布与变异分布与变异统计思维的进化(发展简史)统计思维的进化(发展简史)2023-2-12第一章卫生统计学绪论20卫生统计思维进化与概念卫生统计思维进化与概念时时 期期科科 学学 家家发明与应用发明与应用1857-1936Karl Pear
12、son现代统计学之父现代统计学之父相关分析,相关分析,x21880-1949Major Greenwood抽样误差抽样误差 1879-1940Raymond Pearl医院统计,生物统计医院统计,生物统计1890-1962 Ronald A.Fisher现代统计学奠基、误差理论现代统计学奠基、误差理论极大似然极大似然实验设计实验设计随机随机化做实验,化做实验,F检验检验 1897-1991Hill 爵士爵士现代临床试验现代临床试验2023-2-12第一章卫生统计学绪论21第二节第二节 统计学与公共卫生的关系统计学与公共卫生的关系 公共卫生专业人员的公共卫生专业人员的得力得力工具工具:统计设计:
13、抽样、样本量、统计方法等统计设计:抽样、样本量、统计方法等 统计描述:群体事件的分布特征统计描述:群体事件的分布特征 统计推断:找危险因素、评价效果、决策等统计推断:找危险因素、评价效果、决策等 历史成就历史成就:John GrauntJohn Graunt 、William FarrWilliam Farr(寿命表寿命表););John Snow(John Snow(霍乱发生原因霍乱发生原因);Doll Doll 和和Hill Hill(吸烟与肺癌吸烟与肺癌)。)。你的成就需要统计你的成就需要统计?2023-2-12第一章卫生统计学绪论22现代公共卫生对统计学的现代公共卫生对统计学的挑战挑战
14、 疾病谱的变化需要新的统计方法疾病谱的变化需要新的统计方法:为了研究非感染性疾病:为了研究非感染性疾病的流行,人们发展了多因素分析、生存分析、疾病自然史的的流行,人们发展了多因素分析、生存分析、疾病自然史的模型等现代统计方法。模型等现代统计方法。学科交叉结合需要新的统计学方法:学科交叉结合需要新的统计学方法:如:人群药物代谢动如:人群药物代谢动力学与现代统计学几个分支的交叉结合,包括广义线性混合力学与现代统计学几个分支的交叉结合,包括广义线性混合效应模型、非线性混合效应模型、等级和经验效应模型、非线性混合效应模型、等级和经验BayesBayes方法等。方法等。遗传流行病学需要遗传统计学方法;遗
15、传流行病学需要遗传统计学方法;生物信息海量数据库生物信息海量数据库的统计分析;卫生经济与决策的统计学方法。的统计分析;卫生经济与决策的统计学方法。第二节第二节 统计学与公共卫生的关系统计学与公共卫生的关系2023-2-12第一章卫生统计学绪论23第三节第三节 统计学的若干概念统计学的若干概念2023-2-12第一章卫生统计学绪论24 1、总体(、总体(population):同质同质个体所构个体所构 成的成的全体全体(大同小异大同小异的对象的对象全体全体)。例如:例如:一个国家的所有成年人一个国家的所有成年人 某地的所有小学生某地的所有小学生 所有的肺结核患者所有的肺结核患者一、总体与样本一、
16、总体与样本2023-2-12第一章卫生统计学绪论25目标总体目标总体(target population):研究结果所研究结果所要推论到的总体。要推论到的总体。研究总体研究总体(study population):来源于目标来源于目标总体中的一个较小的总体。总体中的一个较小的总体。如如关于吸烟与肺癌的研究以英国关于吸烟与肺癌的研究以英国成年男子成年男子为目标总体;为目标总体;1951年英国年英国全部注册医生全部注册医生只只是成年男子中的一部分,是研究总体。是成年男子中的一部分,是研究总体。一、总体与样本一、总体与样本2023-2-12第一章卫生统计学绪论262、样本(、样本(sample):从
17、从研究总体研究总体中中随机随机 抽得抽得的的有代表性有代表性的一部分个体,其实的一部分个体,其实 测值的集合。测值的集合。例如:例如:长沙市长沙市2002年年7岁正常男童中随机岁正常男童中随机 抽取抽取 200名,其身高值构成一个样本名,其身高值构成一个样本一、总体与样本一、总体与样本2023-2-12第一章卫生统计学绪论27抽样抽样(sampling):从研究总体中抽取一部从研究总体中抽取一部 分有代表性的个体的方法。分有代表性的个体的方法。随机化原则:随机化原则:使研究总体中的每个个体都使研究总体中的每个个体都 有有同样的机会同样的机会被抽取为样本。被抽取为样本。数据数据(data):对样
18、本中个体进行深入的观对样本中个体进行深入的观 察与测量,获取的测量值。察与测量,获取的测量值。一、总体与样本一、总体与样本2023-2-12第一章卫生统计学绪论28抽样的目的:抽样的目的:由部分推断全体,由样本推断总体。由部分推断全体,由样本推断总体。一、总体与样本一、总体与样本2023-2-12第一章卫生统计学绪论29变量(变量(观察指标、因素等):个体的某观察指标、因素等):个体的某项或某些特征项或某些特征例如:例如:身高、体重、性别、血型、反身高、体重、性别、血型、反 应、疗效等应、疗效等二、同质与变异二、同质与变异2023-2-12第一章卫生统计学绪论30 变量值:变量值:变量的观察结
19、果变量的观察结果 例如:例如:身高身高 1.65米米;体重体重 52公斤公斤 性别性别 女女 ;血型血型 “O”型型 反应反应 阴性阴性 ;疗效疗效 好转好转二、同质与变异二、同质与变异2023-2-12第一章卫生统计学绪论31 同质(同质(homogeneity):给个体规定的给个体规定的 一些相同性质即大同一些相同性质即大同(主要的容(主要的容 易控制的影响因素相同)易控制的影响因素相同)例如:例如:变量为身高,长沙市变量为身高,长沙市2002年年7岁正常岁正常 男童即为同质男童即为同质 同质基础:同质基础:同地区、同年份、同年龄、同同地区、同年份、同年龄、同 为正常男童。为正常男童。二、
20、同质与变异二、同质与变异2023-2-12第一章卫生统计学绪论32 变异(变异(variationvariation):):同质个体同质个体变量值变量值 间的间的差异即小异差异即小异 例如:例如:长沙市长沙市20022002年年7 7岁正常男童的身岁正常男童的身 高值各不相同高值各不相同 原因:原因:已知或未知或难于掌控的因素已知或未知或难于掌控的因素 造成。造成。二、同质与变异二、同质与变异2023-2-12第一章卫生统计学绪论33统计学的任务:统计学的任务:在变异的背景上描述同一总体的在变异的背景上描述同一总体的同质同质性,揭示不同总体的性,揭示不同总体的异质异质性。性。二、同质与变异二、
21、同质与变异2023-2-12第一章卫生统计学绪论34 为研究为研究同性别、同年龄同性别、同年龄的的中国中国小学生小学生和和日本日本小学生的小学生的平均身高平均身高是否不同,分别是否不同,分别从两个总体中各抽取一份样本,各得一个从两个总体中各抽取一份样本,各得一个平均数。数值不同,能不能就此推断两国平均数。数值不同,能不能就此推断两国同性别、同年龄小学生的平均身高不等?同性别、同年龄小学生的平均身高不等?例如:例如:2023-2-12第一章卫生统计学绪论35 试想:如果再从试想:如果再从中国中国小学生中抽取一份样本,小学生中抽取一份样本,再得一个平均数。数值与前不同,也许你会说再得一个平均数。数
22、值与前不同,也许你会说这是同一总体的个体这是同一总体的个体大同小异大同小异造成的。造成的。那么,日本的那个均数与中国的那个均数不那么,日本的那个均数与中国的那个均数不相等,是因为他们相等,是因为他们“大同小异大同小异”?还是因为还是因为两两个总体本不相同?个总体本不相同?分析:分析:2023-2-12第一章卫生统计学绪论361、定性变量、定性变量 分类变量(名义变量):分类变量(名义变量):有序变量(等级变量):有序变量(等级变量):2、定量变量、定量变量 离散型变量:离散型变量:连续型变量:连续型变量:三、变量的类型三、变量的类型2023-2-12第一章卫生统计学绪论37 分类变量:分类变量
23、:又称名义变量。其变量又称名义变量。其变量值是值是定性定性的,表现为的,表现为互不相容的属性互不相容的属性或类别或类别(没有大小、强弱、优劣之(没有大小、强弱、优劣之分)。分)。二分类:二分类:如性别、生死、疾病有无;如性别、生死、疾病有无;多分类:多分类:如如A A、B B、O O、ABAB血型。血型。2023-2-12第一章卫生统计学绪论38 有序变量:有序变量:又称等级变量。其变量又称等级变量。其变量值具有值具有半定量半定量性质,表现为性质,表现为等级大小等级大小或或属性程度属性程度(即有大小、强弱、优劣(即有大小、强弱、优劣之分)之分)。例如例如:观察用某药治疗某病患者的疗效,以观察用
24、某药治疗某病患者的疗效,以 每名患者为观察单位,结果可分为治愈、每名患者为观察单位,结果可分为治愈、显效、好转、无效四级。显效、好转、无效四级。2023-2-12第一章卫生统计学绪论39 定量变量:定量变量:(measurement datameasurement data)其变量值是其变量值是定量定量的,表现为的,表现为数值大小数值大小,一般有度量衡等一般有度量衡等单位单位。离散性变量:离散性变量:如婴幼儿的牙齿数,孕妇产如婴幼儿的牙齿数,孕妇产 前检查次数等前检查次数等连续性变量:连续性变量:如身高、体重、红细胞数等如身高、体重、红细胞数等2023-2-12第一章卫生统计学绪论40 变量转
25、化:变量只能由高级向低级转化变量转化:变量只能由高级向低级转化 离散型变量常常通过适当的变换或离散型变量常常通过适当的变换或连续性校正后借用连续型变量或有序连续性校正后借用连续型变量或有序变量的方法来分析。变量的方法来分析。连续型连续型有序有序分类分类二值二值2023-2-12第一章卫生统计学绪论41 例如:测得例如:测得5人的人的WBC(个(个/m3)数如下)数如下:1 2 3 4 5 3000 6000 5000 8000 12000 定量变量定量变量 过低过低 正常正常 正常正常 正常正常 过高过高 分类变量分类变量 过低过低1人,正常人,正常3人,过高人,过高1人人 等级变量等级变量
26、正常正常3人,异常人,异常2人人 二分类变量二分类变量2023-2-12第一章卫生统计学绪论42四、参数与统计量四、参数与统计量 参数参数(parameter):是统计模型的特征是统计模型的特征指标,是对总体而言,其大小是客观指标,是对总体而言,其大小是客观存在的,然而往往是未知的,如存在的,然而往往是未知的,如总体总体均数均数(mean)和和总体方差总体方差(variance);2023-2-12第一章卫生统计学绪论43四、参数与统计量四、参数与统计量统计量统计量(statistic):由观察资料计算出来的量,如计算观察样由观察资料计算出来的量,如计算观察样本中的个体得到的本中的个体得到的样
27、本均数,样本方差样本均数,样本方差。统计学关心的常常是统计学关心的常常是总体参数(总体参数(总体指总体指标标)的大小,其依据却是的大小,其依据却是统计量及其性质统计量及其性质。2023-2-12第一章卫生统计学绪论44五、设计与分析五、设计与分析统计设计统计设计(statistical design):是医药卫是医药卫生科研设计不可或缺的部分。生科研设计不可或缺的部分。医药卫生科研主要有两大类:医药卫生科研主要有两大类:干预性干预性研究研究(intervention study)和和观察性观察性研究研究(observational study)。统计设计统计设计内容内容主要涉及对象选择、随机化
28、、主要涉及对象选择、随机化、重复、匹配、盲法、统计方法选择、统计重复、匹配、盲法、统计方法选择、统计图表等。图表等。2023-2-12第一章卫生统计学绪论45五、设计与分析五、设计与分析统计分析:统计分析:一定的设计样式决定了一定的数一定的设计样式决定了一定的数据分析方法;不同设计下获得的资料常常要据分析方法;不同设计下获得的资料常常要用不同的方法来分析。用不同的方法来分析。随机化区组设计随机化区组设计(randomized block design)的的方差分析不同于析因设计方差分析不同于析因设计(factorial design)的的方差分析方差分析病例病例-对照研究对照研究(case-c
29、ontrol study),成组对照,成组对照的资料和匹配对照的资料的分析方法不同的资料和匹配对照的资料的分析方法不同2023-2-12第一章卫生统计学绪论46六、因果与联系六、因果与联系统计学联系统计学联系(association):事物之间存在统计学事物之间存在统计学联系,如某疾病与危险因素联系,如某疾病与危险因素(risk factor)之间存之间存在联系。(可能是:人为联系、虚假联系和因在联系。(可能是:人为联系、虚假联系和因果关系。因此,存在联系未必有因果关系。果关系。因此,存在联系未必有因果关系。)因果关系因果关系(causality):在排除了人为联系、虚假在排除了人为联系、虚假
30、联系后仍然存在的、无法用其他联系解释的两联系后仍然存在的、无法用其他联系解释的两个变量之间的关系。但也需要时间顺序等标准个变量之间的关系。但也需要时间顺序等标准进行因果判断。进行因果判断。2023-2-12第一章卫生统计学绪论47七、概率与频率七、概率与频率 频率频率f:如果在:如果在n 次重复试验中,事次重复试验中,事 件件A发生了发生了m 次,则称比值次,则称比值 是是事件事件A在这在这n 次试验中发生的频次试验中发生的频 率,记为率,记为 ,即,即 。表示某现象在样本中出现的比率,表示某现象在样本中出现的比率,是是样本特征,样本指标。样本特征,样本指标。nm/nmAf/)(Af2023-
31、2-12第一章卫生统计学绪论48 概率概率P:)(/)(APnmAfn 常常数数,定义:定义:概率是度量概率是度量随机事件发生可能性随机事件发生可能性 大小的一个数值大小的一个数值。用。用P 表示,是总表示,是总 体特征,总体指标。体特征,总体指标。七、概率与频率七、概率与频率2023-2-12第一章卫生统计学绪论49小概率事件小概率事件:特指发生概率:特指发生概率P0.05,或者发生概率或者发生概率P0.01的事件。的事件。小概率事件原理小概率事件原理:小概率事件在一次试:小概率事件在一次试 验中几乎是不可能发生的,即把验中几乎是不可能发生的,即把 小概率事件当成不可能事件。小概率事件当成不
32、可能事件。七、概率与频率七、概率与频率2023-2-12第一章卫生统计学绪论50如何学好卫生统计学如何学好卫生统计学正确理解统计学的基本概念正确理解统计学的基本概念了解统计设计与统计分析方法的关系了解统计设计与统计分析方法的关系熟悉基本统计方法的适应条件、结果解释和熟悉基本统计方法的适应条件、结果解释和表达表达熟悉常用统计学符号及书写方法熟悉常用统计学符号及书写方法学会计算机统计软件的基本操作和统计结果学会计算机统计软件的基本操作和统计结果的阅读、解释和表达。的阅读、解释和表达。不要过多思考公式的推导不要过多思考公式的推导案例讨论和习题的实践要有行动案例讨论和习题的实践要有行动2023-2-1
33、2第一章卫生统计学绪论511 1、某地一批人的血红蛋白值资料比色、某地一批人的血红蛋白值资料比色 法测得的具体值(如法测得的具体值(如135g/L135g/L),为),为 何类资料?根据测得值进行分类如何类资料?根据测得值进行分类如 “贫血贫血”),为何类资料?),为何类资料?试区分以下资料属于哪种类型?试区分以下资料属于哪种类型?2023-2-12第一章卫生统计学绪论52 观察对象观察对象 抗体滴度抗体滴度 目测判断目测判断 免疫效果免疫效果 抗体水平抗体水平 1 1:40 +有效有效 2 1:60 +有效有效 3 1:320 +有效有效 4 1:20 -无效无效 为何类资料?为何类资料?为何类资料?为何类资料?为何类资料?为何类资料?2.某疫苗皮下注射免疫结果某疫苗皮下注射免疫结果2023-2-12第一章卫生统计学绪论53 3.数据类型的相互转换数据类型的相互转换n 如年龄(岁),为何类资料?如年龄(岁),为何类资料?n 转换为转换为“未成年、成人未成年、成人”,是何类资料?,是何类资料?n 再转换为再转换为“婴幼儿、青年、中年、老年婴幼儿、青年、中年、老年”则又是何类资料?则又是何类资料?n 如治疗效果分类如治疗效果分类“无效、好转、显效、无效、好转、显效、痊愈痊愈”为何类资料?为何类资料?n 分别给予编码分别给予编码0,1,2,3后又为何类资料?后又为何类资料?