1、第十二章第十二章 流行病学和医学流行病学和医学 统计学基本知识统计学基本知识 第一节第一节 流行病学的基本知识流行病学的基本知识 流行病学流行病学(epidemiology)(epidemiology)是研究疾病和是研究疾病和健康状态和事件在人群中的分布、影响健康状态和事件在人群中的分布、影响和决定因素,用以预防和控制疾病,促和决定因素,用以预防和控制疾病,促进健康的学科。进健康的学科。基本内涵:基本内涵:流行病学的任务流行病学的任务揭示现象揭示现象找出原因或影响因素找出原因或影响因素提供措施提供措施流行病学研究方法流行病学研究方法 描述性研究(描述性研究(descriptive studyd
2、escriptive study)分析性研究(分析性研究(analytical studyanalytical study)实验性研究(实验性研究(experimental studyexperimental study)理论性研究(理论性研究(theoretical studytheoretical study)常用指标常用指标 比例比例(构成比(构成比,proportion,proportion):是指事物内部):是指事物内部某一部分观察单位数与事物内部各部分观察单某一部分观察单位数与事物内部各部分观察单位总数之比位总数之比,用以说明事物内部各部分所占的用以说明事物内部各部分所占的比例或比
3、重。常用百分数表示。比例或比重。常用百分数表示。相对比相对比(rationration):两个有关指标之比,简称):两个有关指标之比,简称比,用以说明一个指标是另一个指标的几倍或比,用以说明一个指标是另一个指标的几倍或几分之几。几分之几。率率(raterate):是指在一定条件下某现象实际发):是指在一定条件下某现象实际发生数与可能发生某现象总数之比,用以说明某生数与可能发生某现象总数之比,用以说明某现象发生的频率现象发生的频率(frequency)(frequency)或强度。或强度。发病指标发病指标 发病率发病率 患病率患病率死亡指标死亡指标 死亡率死亡率 病死率病死率 累积死亡率累积死亡
4、率 生存率生存率相对危险度相对危险度 相对危险度(相对危险度(relative risk,RRrelative risk,RR)比值比(比值比(odds ratio,ORodds ratio,OR)归因危险度归因危险度 归因危险度(归因危险度(attributable risk,ARattributable risk,AR)归因危险度百分比归因危险度百分比 人群归因危险度百分比人群归因危险度百分比常用的研究方法常用的研究方法 现况调查现况调查 队列研究队列研究 病例对照研究病例对照研究 实验性研究实验性研究 诊断试验诊断试验现况调查现况调查 描述性流行病学研究描述性流行病学研究(descrip
5、tive descriptive epidemiological studyepidemiological study)是指利用已有的资)是指利用已有的资料或特殊调查的资料,描述疾病或健康状况在料或特殊调查的资料,描述疾病或健康状况在不同时间、地点和人群中的分布特征,为进一不同时间、地点和人群中的分布特征,为进一步开展流行病学研究提供病因或流行因素的线步开展流行病学研究提供病因或流行因素的线索。索。现况调查现况调查(prevalence surveyprevalence survey)是指某一)是指某一人群中应用普查或抽样调查等方法收集特定时人群中应用普查或抽样调查等方法收集特定时间内有关变量
6、、疾病或健康状况的资料,以描间内有关变量、疾病或健康状况的资料,以描述目前疾病或健康状况的分布及因素与疾病的述目前疾病或健康状况的分布及因素与疾病的关联。又称为横断面研究(关联。又称为横断面研究(cross-sectional cross-sectional studystudy)。)。现况调查研究实例现况调查研究实例 我国分别于我国分别于19591959年、年、19801980年和年和19911991年进行了年进行了3 3次全次全国国1515岁以上人口高血压抽样调查,结果显示,我国高岁以上人口高血压抽样调查,结果显示,我国高血压患病率呈上升趋势,临界和确诊高血压患病率血压患病率呈上升趋势,临
7、界和确诊高血压患病率19591959年年5.11%5.11%,19801980年为年为7.73%7.73%,19911991年为年为13.5%13.5%。其地。其地区分布特点是北高南低、城市高于农村。其人群分布区分布特点是北高南低、城市高于农村。其人群分布特征为患病率随年龄的增加而上升,特征为患病率随年龄的增加而上升,6060岁以前,男性岁以前,男性高于女性,高于女性,6060岁以后,女性高于男性,血压上升幅度岁以后,女性高于男性,血压上升幅度最大的年龄段为最大的年龄段为35-6535-65岁;民族标化患病率最低的为彝岁;民族标化患病率最低的为彝族(族(3.23%3.23%)、哈尼族()、哈尼
8、族(4.35%4.35%)和京族()和京族(5.96%5.96%),最),最高的为朝鲜族(高的为朝鲜族(20.02%20.02%)、哈萨克族()、哈萨克族(18.97%18.97%)和蒙)和蒙古族(古族(18.24%18.24%)。)。现况调查的目的现况调查的目的 描述疾病或健康状况的分布描述疾病或健康状况的分布 发现病因线索发现病因线索 适用于疾病的二级预防,适用于疾病的二级预防,“早发现,早诊断,早发现,早诊断,早治疗早治疗”评价疾病的防治效果评价疾病的防治效果 疾病监测疾病监测现况调查的方法及种类现况调查的方法及种类 面访面访 信访信访 电话访问电话访问 自填式问卷调查自填式问卷调查 体
9、格检查和实验室检查体格检查和实验室检查 敏感问题调查敏感问题调查现况调查的优缺点现况调查的优缺点 优点:采用代表性样本,有推广意义,可信度优点:采用代表性样本,有推广意义,可信度较高;结果具有可比性;可用于病因探索较高;结果具有可比性;可用于病因探索 缺点:难以确定因果关系;时点局限性;低估缺点:难以确定因果关系;时点局限性;低估群体患病水平群体患病水平队列研究队列研究 队列研究队列研究(cohort studycohort study)是指特定人群)是指特定人群按其是否按其是否暴露暴露于某因素或按不同暴露水平分为于某因素或按不同暴露水平分为n n个群组或队列,追踪观察一定时间,比较两个群组或
10、队列,追踪观察一定时间,比较两组或各组发病率或死亡率的差异,以检验该因组或各组发病率或死亡率的差异,以检验该因素于某疾病有无因果关系及联系强度大小的一素于某疾病有无因果关系及联系强度大小的一种观察性研究方法。种观察性研究方法。队列研究实例队列研究实例 以英国医生为研究对象,发函调查了以英国医生为研究对象,发函调查了5960059600名医生的名医生的一般情况及吸烟状况,来自一般情况及吸烟状况,来自4070140701名医生的调查表可供分名医生的调查表可供分析。按吸烟与否分成暴露组与非暴露组,然后进行随访,析。按吸烟与否分成暴露组与非暴露组,然后进行随访,详细记录发病与死亡情况,并对收集到的资料
11、进行多方核详细记录发病与死亡情况,并对收集到的资料进行多方核对。研究持续几十年,对。研究持续几十年,19641964年的报告资料表明,年的报告资料表明,3535岁及以岁及以上年龄组,每年不吸烟者的肺癌死亡率为上年龄组,每年不吸烟者的肺癌死亡率为0.070.07;而每;而每日吸烟日吸烟1-141-14支者的肺癌死亡率为支者的肺癌死亡率为0.570.57,为不吸烟者的,为不吸烟者的8.18.1倍;倍;15-2415-24支者为支者为1.391.39,为不吸烟者的,为不吸烟者的19.819.8倍;倍;2525支以上者为支以上者为2.272.27,为不吸烟者的,为不吸烟者的32.432.4倍。可见吸烟
12、者倍。可见吸烟者患肺癌的危险性远远高于不吸烟者,且呈明显的剂量效应患肺癌的危险性远远高于不吸烟者,且呈明显的剂量效应关系。关系。队列研究原理示意图队列研究原理示意图队列研究的类型队列研究的类型 前瞻性队列研究前瞻性队列研究 历史性队列研究历史性队列研究 双向性队列研究双向性队列研究队列研究的优缺点队列研究的优缺点 优点:资料完整,无回忆偏倚;观察多种结果优点:资料完整,无回忆偏倚;观察多种结果,了解疾病的自然史;因果关系推论;计算剂,了解疾病的自然史;因果关系推论;计算剂量效应关系量效应关系 缺点:人力财力物力耗费大,时间长;实施难缺点:人力财力物力耗费大,时间长;实施难度大度大病例对照研究病
13、例对照研究 病例对照研究病例对照研究(case-control studycase-control study):):为选择一组患所研究疾病的病人与一组无此病为选择一组患所研究疾病的病人与一组无此病的对照组,调查其发病前对某些个因素的暴露的对照组,调查其发病前对某些个因素的暴露状况,比较两组中暴露率和暴露水平的差异,状况,比较两组中暴露率和暴露水平的差异,以研究该疾病与这些因素的关系。以研究该疾病与这些因素的关系。病例对照研究原理示意图病例对照研究原理示意图病例对照研究实例病例对照研究实例 探讨探讨A A型性格与冠状动脉病变的关系。病例选择为型性格与冠状动脉病变的关系。病例选择为经冠状动脉造影
14、确诊的冠心病患者,对照设医院对照经冠状动脉造影确诊的冠心病患者,对照设医院对照和人群对照。和人群对照。A A型性格采用全国冠心病与型性格采用全国冠心病与A A型行为类型型行为类型协作组协作组19851985年制订的年制订的A A型性格问卷型性格问卷及及5 5级评分法。级评分法。冠心病的其他危险因素按统一的调查表询问受试者的冠心病的其他危险因素按统一的调查表询问受试者的一般人口学特征,既往高血压、高血脂等心血管疾病一般人口学特征,既往高血压、高血脂等心血管疾病病及家族史,烟酒及膳食习惯等。实际统计病及家族史,烟酒及膳食习惯等。实际统计339339人,即人,即病例组病例组139139人,医院对照人
15、,医院对照8383人,人群对照人,人群对照117117人人病例对照研究的优缺点病例对照研究的优缺点 优点:样本小,获结果快;费用低;无失访;优点:样本小,获结果快;费用低;无失访;可同时研究一种疾病与多种暴露的关系,筛选可同时研究一种疾病与多种暴露的关系,筛选病因;可用于少见病研究病因;可用于少见病研究 缺点:样本代表性差,对照选择不易得到;回缺点:样本代表性差,对照选择不易得到;回忆暴露史多偏倚;仅能算忆暴露史多偏倚;仅能算OROR实验性研究实验性研究 实验性研究实验性研究(experimental studyexperimental study):研):研究者在一定程度上掌握着实验的条件,
16、主动给究者在一定程度上掌握着实验的条件,主动给予研究对象某种干预措施。包括以下类型:予研究对象某种干预措施。包括以下类型:临床试验临床试验 现场试验现场试验 社区试验社区试验 类试验等类试验等诊断试验诊断试验 诊断试验:对疾病进行诊断的试验方法诊断试验:对疾病进行诊断的试验方法 诊断指标:客观指标、主观指标、半客观指标诊断指标:客观指标、主观指标、半客观指标 诊断标准诊断标准诊断试验的评价指标诊断试验的评价指标 真实性真实性:灵敏度、特异度、假阴性率、假阳性:灵敏度、特异度、假阴性率、假阳性率、似然比、正确诊断指数率、似然比、正确诊断指数 可靠性可靠性:变异系数、符合率、一致性分析:变异系数、
17、符合率、一致性分析 收益收益:阳性预测值、阴性预测值:阳性预测值、阴性预测值诊断试验的评价标准诊断试验的评价标准 金标准金标准 研究对象的代表性研究对象的代表性 足够的样本量足够的样本量 合理确定诊断界值合理确定诊断界值 不仅评价真实性,也评价可靠性不仅评价真实性,也评价可靠性 试验具有可操作性试验具有可操作性提高诊断质量的方法提高诊断质量的方法 联合试验联合试验并联试验:灵敏度高,漏诊率降低并联试验:灵敏度高,漏诊率降低串联试验:特异度高,误诊率降低串联试验:特异度高,误诊率降低 选择患病率高的人群选择患病率高的人群 第二节第二节 医学统计学的基本知识医学统计学的基本知识医学统计学的定义和研
18、究对象医学统计学的定义和研究对象 统计学统计学(statisticsstatistics):是应用统计学的原理):是应用统计学的原理和方法,研究医学科研中有关数据的收集、整和方法,研究医学科研中有关数据的收集、整理、分析的一门应用科学。理、分析的一门应用科学。研究对象:不确定的医学数据(研究对象:不确定的医学数据(datadata)医学统计学的主要内容医学统计学的主要内容 统计设计:包括调查设计和实验设计(如成组统计设计:包括调查设计和实验设计(如成组设计、配对设计、配伍组设计、析因设计、交设计、配对设计、配伍组设计、析因设计、交叉设计等等叉设计等等 )统计描述统计描述 统计推断统计推断 统计
19、设计是统计描述和推断的基础统计设计是统计描述和推断的基础医学统计资料的类型医学统计资料的类型 资料资料(data)(data):是指变量值的集合:是指变量值的集合 定量资料定量资料(quantitative data)(quantitative data):亦称计量资:亦称计量资料,其变量值是定量的,表现为数值的大小,料,其变量值是定量的,表现为数值的大小,一般有度、量、衡单位一般有度、量、衡单位 分类资料分类资料(categorical data)(categorical data):亦称定性资:亦称定性资料,其观察值是定性的,表现为互不相容的类料,其观察值是定性的,表现为互不相容的类别或属
20、性。根据资料特点,可分为以下两种:别或属性。根据资料特点,可分为以下两种:无序分类资料无序分类资料(data of unordered categories)(data of unordered categories):亦称计数资料,分为:亦称计数资料,分为:二项分类资料二项分类资料多项分类资料多项分类资料 有序分类资料有序分类资料(data of ordinal categories)(data of ordinal categories):亦:亦称等级资料称等级资料(ordinal data)(ordinal data),其观察值是半定量的,其观察值是半定量的,表现为一定的先后顺序和等级关
21、系,表现为一定的先后顺序和等级关系 资料之间的互相转化资料之间的互相转化统计工作的基本步骤统计工作的基本步骤 研究设计研究设计(design)(design)收集资料收集资料(collection of data)(collection of data)整理资料整理资料(sorting data)(sorting data)分析资料分析资料(analysis of data)(analysis of data)研究设计研究设计(design)(design):设计是整个研究中最关键的:设计是整个研究中最关键的一环,也是今后工作应遵循的依据一环,也是今后工作应遵循的依据 调查设计调查设计 试验设
22、计试验设计 收集资料收集资料(collection of data)(collection of data)资料来源:资料来源:经常性资料:经常性资料:1.1.统计报表统计报表 2.2.报告卡(单)报告卡(单)3.3.日常医疗卫生工作记录日常医疗卫生工作记录 一时性资料:专题调查或实验一时性资料:专题调查或实验资料要求:资料要求:1.1.准确性、完整性、及时性准确性、完整性、及时性 2.2.样本样本足够足够 3.3.代表性和可比性代表性和可比性 整理资料整理资料(sorting data)(sorting data):净化原始数据,使其:净化原始数据,使其系统化、条理化,便于进一步计算和分析系
23、统化、条理化,便于进一步计算和分析(1 1)检查与核对)检查与核对(2 2)设计分组)设计分组 1 1)质量分组:将观察单位按属性或类别归纳分组)质量分组:将观察单位按属性或类别归纳分组 2 2)数量分组:将观察单位按数值大小分组)数量分组:将观察单位按数值大小分组(3 3)汇总、列出整理表)汇总、列出整理表 1 1)手工汇总)手工汇总 2 2)计算机汇总)计算机汇总分析资料分析资料(analysis of data)(analysis of data):计算有关指标,反映:计算有关指标,反映数据的综合特征,阐明事物内在联系和规律。数据的综合特征,阐明事物内在联系和规律。(1 1)统计描述)统
24、计描述(descriptive statistics)(descriptive statistics)指用统计指标、统计表、统计图等方法,对资料指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述的数量特征及其分布规律进行测定和描述 (2 2)统计推断)统计推断(inferential statistics)(inferential statistics)指如何根据样本的信息采用一定统计方法推断总指如何根据样本的信息采用一定统计方法推断总体的特征体的特征 统计学的几个重要概念统计学的几个重要概念 同质(同质(homogeneityhomogeneity):研究对象具有
25、相同的:研究对象具有相同的背景、条件、属性。背景、条件、属性。变异(变异(variationvariation):同一性质的事物,其个:同一性质的事物,其个体观察值(变量值)之间的变异。体观察值(变量值)之间的变异。总体总体(population)(population):根据研究目的确定的同质:根据研究目的确定的同质观察单位的全体,更确切地说,是同质的所有观察单位的全体,更确切地说,是同质的所有观察单位某种观察值观察单位某种观察值(变量值变量值)的集合的集合 有限总体有限总体(finite population)(finite population):有限个观察单位:有限个观察单位 无限总体
26、无限总体(infinite population)(infinite population):无限个观察单:无限个观察单位位 样本样本(sample)(sample):是从总体中随机抽取的有代表:是从总体中随机抽取的有代表性的部分观察单位性的部分观察单位 样本含量样本含量 (sample size)(sample size):是指样本包含的观:是指样本包含的观察单位数,也常称为样本大小或样本例数察单位数,也常称为样本大小或样本例数 变量变量(variable)(variable):是指待测量或观察某个观察:是指待测量或观察某个观察单位的某项特征单位的某项特征 变量值变量值(vale of va
27、riable)(vale of variable):是指变量的测得:是指变量的测得值或观察值,又称为观察值值或观察值,又称为观察值(observed value)(observed value)参数参数(parameter)(parameter):由总体计算得到的指标,:由总体计算得到的指标,一般是未知的,常用希腊字母表示一般是未知的,常用希腊字母表示 统计量统计量(statistics)(statistics):由样本计算得到的指:由样本计算得到的指标,一般用拉丁字母表示标,一般用拉丁字母表示 抽样误差抽样误差(sample error)(sample error):是指由于存在个:是指由于
28、存在个体差异,由抽样引起的样本统计量与总体参数体差异,由抽样引起的样本统计量与总体参数之间的差异。抽样误差是不可避免的,但具有之间的差异。抽样误差是不可避免的,但具有一定的规律性一定的规律性 误差误差(error)(error):是指观察值与真值之差:是指观察值与真值之差 。根据。根据产生的原因和性质可分为三类产生的原因和性质可分为三类 过失误差过失误差 :亦称粗差,由观察者的错误造成(一定:亦称粗差,由观察者的错误造成(一定要控制)要控制)系统误差系统误差 :按照一定规律变化或误差恒向、恒量的:按照一定规律变化或误差恒向、恒量的一类误差。产生的原因主要有:一类误差。产生的原因主要有:1.1.
29、来自仪器;来自仪器;2.2.来来自观察者;自观察者;3.3.来自受试者;来自受试者;4.4.来自非实验因素(可控来自非实验因素(可控制)制)随机误差:是排除粗差和系统误差后尚存的误差,是随机误差:是排除粗差和系统误差后尚存的误差,是有多种无法控制的因素引起的,无一定方向和大小,有多种无法控制的因素引起的,无一定方向和大小,随机变化(不可控制)。抽样误差是其中的一种随机变化(不可控制)。抽样误差是其中的一种 概率概率(probability)(probability):是指某事件发生的可能性:是指某事件发生的可能性大小常用大小常用P P表示。表示。A A事件发生的概率记为事件发生的概率记为P P
30、(A)(A)。若若P P(A)=0(A)=0,则称,则称A A事件为不可能事件事件为不可能事件 若若P P(A)=1(A)=1,则称,则称A A事件为必然事件事件为必然事件 若若00P P(A)1(A)1,则称,则称A A事件为随机事件事件为随机事件 若若P P(A)0.05(A)0.05,则称,则称A A事件为事件为小概率事件小概率事件,表示,表示在一次实验或观察中该事件发生的可能性很小,在一次实验或观察中该事件发生的可能性很小,可以视为很可能不发生可以视为很可能不发生 统计描述统计描述 统计描述统计描述(descriptive statistics)(descriptive statist
31、ics):是:是用统计指标、统计表、统计图等方法,对资料用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述。的数量特征及其分布规律进行测定和描述。(1 1)数值变量资料的统计描述)数值变量资料的统计描述(2 2)分类资料的统计描述)分类资料的统计描述数值变量资料的统计描述数值变量资料的统计描述 频数表频数表 频数分布图频数分布图 描述集中趋势指标:描述集中趋势指标:描述数据分布中心位置(描述数据分布中心位置(平均水平)的指标平均水平)的指标 描述离散趋势指标:描述离散趋势指标:描述数据分布的离散程度描述数据分布的离散程度(变异程度)的指标(变异程度)的指标 例例 某年
32、某市抽样调查某年某市抽样调查120120名名5 5岁身高岁身高(cm)cm)资料如下,试编制频数表。资料如下,试编制频数表。表表 某市某市120120名名5 5岁女孩身高频数分布岁女孩身高频数分布身高123.5120.5117.5114.5111.5108.5105.5102.599.596.5图2.1 某市城区120名5岁女孩身高频数分布频数302520151050Std.Dev=5.86 Mean=110.2N=120.00集中趋势指标集中趋势指标 算术均数算术均数(arithmetic mean)(arithmetic mean):简称均数简称均数(mean)(mean)。样本均数常用。
33、样本均数常用 表示,总体均数用希表示,总体均数用希腊字母腊字母 表示表示 适用条件:适用于对称分布,特别是正态或近适用条件:适用于对称分布,特别是正态或近似正态分布的数值变量似正态分布的数值变量X 几何均数几何均数(geometric mean(geometric mean,简记为,简记为G)G)适用条件:适用于呈偏态分布,但经对数转换后适用条件:适用于呈偏态分布,但经对数转换后呈对称分布的资料;也适用于观察值之间呈倍呈对称分布的资料;也适用于观察值之间呈倍数或近似倍数变化(等比关系)的资料。数或近似倍数变化(等比关系)的资料。中位数中位数(median(median,简记为,简记为M)M)指
34、将一组观察值从小到大排序后居于中间指将一组观察值从小到大排序后居于中间位置的那个数值。位置的那个数值。适用条件:适用于偏态分布、分布不明确或分布适用条件:适用于偏态分布、分布不明确或分布末端无确定数据的资料。末端无确定数据的资料。描述离散趋势指标描述离散趋势指标 极差极差 (range(range,又称全距,简记为,又称全距,简记为R)R)适用条件:适用于分布末端有确定数据的资料适用条件:适用于分布末端有确定数据的资料 计算方法:计算方法:R=R=Xmax-XminXmax-Xmin四分位数间距四分位数间距(quartile interval(quartile interval,简记为,简记为
35、Q)Q)适用条件:适用于描述偏态分布、分布不明确或适用条件:适用于描述偏态分布、分布不明确或分布末端无确定数据资料的离散趋势分布末端无确定数据资料的离散趋势Q=QQ=QU U-Q-QL L,其中,其中,Q QU U=P=P7575 ,Q QL L=P=P2525百分位数百分位数(percentilepercentile)标准差标准差(standard deviation)(standard deviation)适用条件:适用于对称分布,特别是正态或近似适用条件:适用于对称分布,特别是正态或近似 正态分布的资料正态分布的资料方差方差(variancevariance)适用条件:适用于对称分布,特
36、别是正态或近似适用条件:适用于对称分布,特别是正态或近似正态分布的资料正态分布的资料变异系数变异系数(coefficient of variation(coefficient of variation,简记为,简记为CVCV)适用条件适用条件:比较度量衡单位不同的两组或多组资料的变异程度比较度量衡单位不同的两组或多组资料的变异程度比较均数相差悬殊的两组或多组资料的变异程度比较均数相差悬殊的两组或多组资料的变异程度 分类资料的统计描述分类资料的统计描述 频数表频数表 相对数:率、构成比、比相对数:率、构成比、比统计推断统计推断 统计推断统计推断(statistical inferencestat
37、istical inference):从):从总体中随机抽取一个样本,用样本信息推断总总体中随机抽取一个样本,用样本信息推断总体特征的分析方法。体特征的分析方法。参数估计参数估计 假设检验假设检验假设检验假设检验 假设检验的基本原理:针对研究总体建立假设检验的基本原理:针对研究总体建立“统计假设统计假设”,利用样本信息判断假设是否成立。,利用样本信息判断假设是否成立。假设检验的基本步骤假设检验的基本步骤 建立检验假设,确定检验水准及单双侧建立检验假设,确定检验水准及单双侧 选定检验方法,计算检验统计量选定检验方法,计算检验统计量 确定确定P P 值,作出统计推断结论值,作出统计推断结论 建立检
38、验假设,确定检验水准及单双侧建立检验假设,确定检验水准及单双侧 H H0 0 :1 1=2 2(无效假设或零假设)(无效假设或零假设)H H1 1 :1 12 2(备择假设)(备择假设)=0.05=0.05 检验水准:用检验水准:用 表示。表示。是预先规定的小概率是预先规定的小概率事件的概率值事件的概率值,常取常取=0.05=0.05,即,即I I型错误的概率型错误的概率大小大小(详后详后)单侧检验:研究设计阶段根据专业知识单侧检验:研究设计阶段根据专业知识 ,某总,某总 体均数不可能比另一总体均数高或低体均数不可能比另一总体均数高或低 双侧检验:研究设计阶段不能根据专业知识判双侧检验:研究设
39、计阶段不能根据专业知识判断两总体均数的高低断两总体均数的高低 选用后者较为稳妥,也较为常用;选用前者需选用后者较为稳妥,也较为常用;选用前者需作说明。作说明。例如:例如:H H0 0 :1 1=2 2(无效假设或零假设)(无效假设或零假设)H1 H1:1 12 2(备择假设)(备择假设)单侧单侧 =0.05=0.05 选定检验方法,计算检验统计量选定检验方法,计算检验统计量 应根据变量类型、设计方案、研究目的、方应根据变量类型、设计方案、研究目的、方法的适用条件等选择检验方法。如成组设计两法的适用条件等选择检验方法。如成组设计两样本的均数比较可根据资料的特点选用样本的均数比较可根据资料的特点选
40、用t t检验检验 确定确定P P 值,作出统计推断结论值,作出统计推断结论 P P 值是指从值是指从H H0 0规定的总体中作随机抽样规定的总体中作随机抽样 获得等于及大于获得等于及大于(或等于及小于或等于及小于)现有统计量的现有统计量的概率概率 若检验统计量若检验统计量现有统计量,则现有统计量,则PP ,结论,结论为按所取的检验水准为按所取的检验水准 ,拒绝,拒绝 H H0 0,接受,接受H H1 1,有统计学意义有统计学意义(统计结论统计结论)。可认为不同或不等。可认为不同或不等(专业结论专业结论)若检验统计量现有统计量,则若检验统计量现有统计量,则P P,结论为,结论为按检验水准按检验水
41、准,不拒绝,不拒绝 H H0 0,无统计学意义,无统计学意义(统统计结论计结论)。尚不能认为不同或不等。尚不能认为不同或不等(专业结论专业结论)假设检验中的两类错误假设检验中的两类错误 假设检验采用小概率反证法的思想,根据样本假设检验采用小概率反证法的思想,根据样本统计量作出的推断结论具有概率性,因此其结统计量作出的推断结论具有概率性,因此其结论不可能完全正确,可能发生两类错误论不可能完全正确,可能发生两类错误:型错误型错误:拒绝了实际上是成立的:拒绝了实际上是成立的H H0 0,犯,犯“弃真弃真”的错误。其概率大小用的错误。其概率大小用 表示表示,可取单侧亦可取单侧亦可取双侧可取双侧型错误型
42、错误:不拒绝了实际上是不成立的:不拒绝了实际上是不成立的H H0 0,简称,简称“存伪存伪”。其概率大小用。其概率大小用表示。表示。只取单侧只取单侧,其大小一般未知,只有在已知,其大小一般未知,只有在已知两总体差值两总体差值,及及n n 时,才能估算出来时,才能估算出来 可可能能发发生生的的两两类类错错误误 假假设设检检验验的的结结果果 客客观观实实际际 拒拒绝绝H0 不不拒拒绝绝H0 H0成成立立 I型型错错误误()推推断断正正确确(1 )H0不不成成立立即即H1成成立立 推推断断正正确确(1 )II型型错错误误()引申概念引申概念 型错误与型错误与型错误的关系:型错误的关系:愈小,愈小,愈
43、大;反愈大;反之之 愈大,愈大,愈小。若要同时减小愈小。若要同时减小 及及 ,唯一的,唯一的方法就是增加方法就是增加n n。若重点减少。若重点减少 ,一般取,一般取 =0.05=0.05或或0.010.01;若重点减少;若重点减少,一般取,一般取 =0.10=0.10或或0.200.20 检验效能检验效能或或把握度把握度(power of a test)(power of a test):1 1称为称为检验效能,是指两总体确有差异,按规定检验水检验效能,是指两总体确有差异,按规定检验水准准 能够发现该差异的能力如能够发现该差异的能力如1 1 0.900.90,意味着,意味着若两总体确有差别,则理论上在若两总体确有差别,则理论上在100100次检验中,平次检验中,平均有均有9090次能够得出有统计学意义的结论次能够得出有统计学意义的结论 假设检验应注意的几个问题假设检验应注意的几个问题 组间应均衡,具有可比性组间应均衡,具有可比性 不同变量或资料应选用不同的检验方法不同变量或资料应选用不同的检验方法 正确理解正确理解“显著性显著性”(或统计学意义)的含(或统计学意义)的含义义 结论不能绝对化结论不能绝对化 资料正态性和方差齐性的判断资料正态性和方差齐性的判断