1、5/15/20221基本内容基本内容 统计描述统计描述统计推断统计推断(1)统计推断统计推断(2)数值变量数值变量 频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统计图表抽样误差抽样误差标准误标准误均数可信区间均数可信区间t Z F检验检验秩和检验秩和检验直线相关与回归直线相关与回归偏相关偏相关多元线性回归多元线性回归因子分析因子分析分类变量分类变量相对数相对数(率、比率、比)率的可信区间率的可信区间 2检验检验Logistic回归回归主要内容主要内容一、分类变量概述一、分类变量概述二、分类变量的统计描述二、分类变量的统计描述 相对数相对数 应用相对数的注意事项应用相对数的注意事项
2、动态数列动态数列 率的标准化率的标准化三、分类变量的统计推断三、分类变量的统计推断 率的标准误和可信区间率的标准误和可信区间 2 2检验检验 分类变量定义分类变量定义通过确定每个观察单位的某项特征的性质或类通过确定每个观察单位的某项特征的性质或类别得到的数据。别得到的数据。请大家举出研究中熟悉的分类变量的例子请大家举出研究中熟悉的分类变量的例子: 特点特点变量值是定性的变量值是定性的没有度量衡单位没有度量衡单位第一节、分类变量概述第一节、分类变量概述 类型类型无序分类变量:二项分类变量、多项分类变量无序分类变量:二项分类变量、多项分类变量有序分类变量有序分类变量 统计分析中的处理统计分析中的处
3、理赋值赋值数据转换数据转换SPSS程序:程序:Transform Recode Into different variables1=“男性男性”,2=“女性女性”出生体重(数值变量)出生体重(数值变量) 低出生体重、正常出生体重、巨大儿低出生体重、正常出生体重、巨大儿 练习练习SPSSSPSS中变量转换操作中变量转换操作: :(出生体重(出生体重- -率率.sav.sav数据库)数据库) 将出生体重从数值变量变成分类变量(低出生体重、将出生体重从数值变量变成分类变量(低出生体重、正常出生体重、巨大儿)正常出生体重、巨大儿) 5/15/20226第二节分类变量的统计描述第二节分类变量的统计描述一
4、、常用相对数一、常用相对数二、应用相对数的注意事项二、应用相对数的注意事项三、动态数列三、动态数列四、率的标准化四、率的标准化 5/15/20227为什么引入相对数为什么引入相对数?1.2008年甲县心脑血管疾病死亡人数年甲县心脑血管疾病死亡人数253人,乙人,乙县为县为132人,能否说甲县心脑血管疾病的威胁人,能否说甲县心脑血管疾病的威胁比乙县严重?比乙县严重?5/15/202282. 在某遗传病的研究中,研究人员发现该病在某遗传病的研究中,研究人员发现该病患者中,有患者中,有90%是第一个孩子,由此可见是第一个孩子,由此可见该病的遗传与出生顺序有关该病的遗传与出生顺序有关-更容易遗传更容易
5、遗传给第一个孩子。这个结论是否正确,为什给第一个孩子。这个结论是否正确,为什么?么?5/15/20229n 绝对数:实际观察得到的数据,反映真实情绝对数:实际观察得到的数据,反映真实情况。况。n 相对数:两个有联系的指标(数值)之比,相对数:两个有联系的指标(数值)之比,用于比较。用于比较。5/15/202210相对数的种类相对数的种类: 1.率率 2.构成比构成比 3.相对比相对比重要区别:重要区别:分子、分母分子、分母 一、常用相对数一、常用相对数5/15/2022111. 率率概念:是指某种现象在一定条件下,概念:是指某种现象在一定条件下,实际发生实际发生的观察单位数的观察单位数与与可能
6、发生可能发生该现象的总观察单位数之比,用以说明某种现该现象的总观察单位数之比,用以说明某种现象发生的频率大小或象发生的频率大小或强度强度。计算公式:计算公式: 如何选如何选K?使算得的率至少保留?使算得的率至少保留12位整数位整数 习惯:习惯:IMR ,MMR/10万万注意:不受其它指标的影响;各率相互独立,求和不一定为注意:不受其它指标的影响;各率相互独立,求和不一定为1 1(如是则属巧合)。(如是则属巧合)。K发生某现象的观察单位数率可能发生某现象的观察单位总数5/15/202212常用的频率常用的频率/类频率指标:类频率指标:100%100%K患病人数患病率调查人数观察期内新发病例数发病
7、率同期内可能发生该病的总人数感染人数感染率检查人数5/15/2022131000100%100%某年内的总死亡人数死亡率同年内的平均人口数死于某病的人数病死率该病的患病总人数某病的治愈人数治愈率该病接受治疗的人数5/15/202214NoImage100%100%未被诊断为某病的病人数漏诊率确实为该病的病人数确实不是某病的人数误诊率被诊断该病的病人数5/15/202215病名病名平均人口数平均人口数死亡人数死亡人数死亡率死亡率(1/10万)万)高血压高血压172665 40 23.2冠心病冠心病172665 11 6.4脑卒中脑卒中172665253146.5风心病风心病172665 38 2
8、2.0例:某地例:某地2007年四种常见心血管病死亡年四种常见心血管病死亡率率5/15/2022162.构成比构成比 概念:也叫构成指标,是指一事物内部某一组成部概念:也叫构成指标,是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总分的观察单位数与该事物各组成部分的观察单位总数之比,数之比,用以说明某一事物内部各组成部分所占的用以说明某一事物内部各组成部分所占的比重或分布比重或分布。 计算公式:计算公式: 注意:各组成部分的构成比之和为注意:各组成部分的构成比之和为100%100%; 某一部分比重增大,则其它部分相应减少。某一部分比重增大,则其它部分相应减少。 制图:一般用圆
9、图(饼图)或百分条图制图:一般用圆图(饼图)或百分条图100%构成比某组成部分的观察单位数各组成部分的观察单位总数5/15/202217人数人数%甲区甲区20050.0乙区乙区12030.0丙区丙区8020.0合计合计400100.0人数人数%甲区甲区30060.0乙区乙区12024.0丙区丙区8016.0合计合计500100.0例:某市某病患者的地区构成例:某市某病患者的地区构成5/15/202218 2002年全国各地城市农村计划生育手术构成(年全国各地城市农村计划生育手术构成(%) 人工流产人工流产取出节育器取出节育器放置节育器放置节育器输精管结扎输精管结扎输卵管结扎输卵管结扎49%31
10、%15%4%1%城市城市农村农村27%46%12%13%2%5/15/202219 被调查的北京和青岛流动人口妇女职业分布 被调查的北京和青岛流动人口妇女职业分布12.112.150.350.336.136.126.026.042.342.314.314.39.59.59.49.40%0%20%20%40%40%60%60%80%80%100%100%青岛青岛北京北京百分比()百分比()家庭主妇家庭主妇经商经商服务服务其它其它练习:练习:放环情况放环情况放环人数放环人数失败人数失败人数失败人数构成比失败人数构成比 ( ?)?)失败率(失败率( ?)?)人工流产后人工流产后25476月经后月经后
11、8840哺乳期哺乳期1710合计合计359126率及构成比的差别?率及构成比的差别?已婚妇女不同情况下放环失败比较已婚妇女不同情况下放环失败比较5/15/2022213.相相 对对 比比 概念:是指两个有关联的指标之比,是对比的最简概念:是指两个有关联的指标之比,是对比的最简单形式。单形式。 计算公式:计算公式:A/B(或(或 100%) 表示表示A是是B的若干倍或百分之几。的若干倍或百分之几。 例如:例如:BMI、性别比、性别比、CV等。等。 注意:注意:1. A、B可以是性质相同的,也可以是性质不同的可以是性质相同的,也可以是性质不同的 2. A、B可以是绝对数,也可以是相对数或平均数可以
12、是绝对数,也可以是相对数或平均数Country (2010 )Sex Ratio Africa: Uganda 96.5 Zimbabwe 95.4North A. USA 95.1South A.: Argentina 95.6Asia: China 106.5 India 107.9Bangladesh 106.1 South Korea 100.7Europe: France 94.8 U.K. 93.9 Sweden 97.6部分国家人口性别比部分国家人口性别比1996-20051275/15/202224例例1.在某遗传病的研究中,研究人员发现在某遗传病的研究中,研究人员发现该病患者
13、中,有该病患者中,有90%是第一个孩子,由是第一个孩子,由此可见该病的遗传与出生顺序有关此可见该病的遗传与出生顺序有关-更更容易遗传给第一个孩子。这个结论是否容易遗传给第一个孩子。这个结论是否正确,为什么?正确,为什么? 以以(构成构成)比代替率的错误比代替率的错误实例分析实例分析5/15/202225例例2.某项目县为提高医疗卫生的服务水平,对某项目县为提高医疗卫生的服务水平,对卫生人员进行培训,但是,经过卫生人员进行培训,但是,经过3年培训,与年培训,与培训前相比,该县孕产妇的死亡率却上升,培训前相比,该县孕产妇的死亡率却上升,如何解释?如何解释?培训前(培训前(2001年):年):200
14、0名孕产妇死亡名孕产妇死亡2人,人,100/10万万 培训后(培训后(2004年):年):2010名孕产妇死亡名孕产妇死亡3人,人,149/10万万计算率时分母不能太小计算率时分母不能太小5/15/202226例例3. 在对肺癌病人的死亡情况进行分析时在对肺癌病人的死亡情况进行分析时发现:北医三院肺癌病人的死亡率为发现:北医三院肺癌病人的死亡率为65%, 密云县医院为密云县医院为25%,请问哪家医,请问哪家医院的治疗水平高?院的治疗水平高?两个资料要有可比性两个资料要有可比性5/15/202227区名区名平均人口数平均人口数新发病例数新发病例数发病率发病率(%)甲区甲区100000 20000
15、20乙区乙区 80000 1200015丙区丙区 40000650016.25合计合计22000038500? 例例4.某市2007年各区流感的发病率请问:全市流感的发病率?总率的计算不能是各分率的直接相加总率的计算不能是各分率的直接相加5/15/202228二、应用相对数时的注意事项二、应用相对数时的注意事项分析时不能以(构成)比代(替)率分析时不能以(构成)比代(替)率计算相对数时分母不能太小计算相对数时分母不能太小资料的可比性:两个率要在相同的条件下进行资料的可比性:两个率要在相同的条件下进行(标准化问题)(标准化问题)总率(平均率)的计算:不能直接相加求和总率(平均率)的计算:不能直接
16、相加求和样本相对数的比较应做假设检验:样本相对数样本相对数的比较应做假设检验:样本相对数存在抽样误差,应进行差别的显著性检验存在抽样误差,应进行差别的显著性检验. 按照一定的时间顺序,将一系列描述按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,以便观某事物的统计指标依次排列起来,以便观察和比较该事物在时间上的变化和发展趋察和比较该事物在时间上的变化和发展趋势。势。 这些统计指标可以是绝对数、相对数这些统计指标可以是绝对数、相对数或平均数等。或平均数等。 动态数列分析是建立在相对比基础上动态数列分析是建立在相对比基础上的,采用定基比和环比两种方式。的,采用定基比和环比两种方式。 常
17、用的分析指标有:绝对增长量、发常用的分析指标有:绝对增长量、发展速度与增长速度、平均发展速度和平均展速度与增长速度、平均发展速度和平均增长速度。增长速度。三、动态数列三、动态数列某大学某大学1992199220022002年本科专业招生动态变化年本科专业招生动态变化年份年份符号符号学生学生人数人数绝对增长量绝对增长量发展速度发展速度()增长速度增长速度()累计累计逐年逐年定基比定基比环比环比定基比定基比环比环比(1)(2)(3)(4)(5)(6)(7)(8)(9)1992a04200-100.0100.0-1993a14500 300300107.1107.1 7.17.11994a24800
18、 600300114.3106.714.36.71995a34900 700100116.7102.116.72.11996a45150 950250122.6105.122.65.11997a553201120170126.7103.326.73.31998a655101310190131.2103.631.23.61999a757801580270137.6104.937.64.92000a859501750170141.7102.941.72.92001a960001800 50142.9100.842.90.82002a1062002000200147.6103.347.63.3绝对增
19、长量绝对增长量 说明事物在一定时期增长的绝对值。说明事物在一定时期增长的绝对值。累计增长量:报告年的指标与某一固定年累计增长量:报告年的指标与某一固定年(基期水平)指标之差。(基期水平)指标之差。逐年增长量:报告年的指标与前一年指标逐年增长量:报告年的指标与前一年指标之差。之差。发展速度与增长速度发展速度与增长速度 定基发展速度:报告期指标的水平相当于定基发展速度:报告期指标的水平相当于基期水平的百分比或倍数。基期水平的百分比或倍数。 定基增长速度:相对于基期水平,报告期定基增长速度:相对于基期水平,报告期指标净增加的百分比或倍数。指标净增加的百分比或倍数。100定基增长速度定基发展速度aaa
20、ann33环比发展速度:报告期指标的水平相当于环比发展速度:报告期指标的水平相当于上一期水平的百分比或倍数。上一期水平的百分比或倍数。 环比增长速度:报告期指标比上一期水平环比增长速度:报告期指标比上一期水平净增加的百分比或倍数。净增加的百分比或倍数。描述时一定要说清楚比较的基数,以区分定描述时一定要说清楚比较的基数,以区分定基还是环比速度。基还是环比速度。111环比增长速度环比发展速度nnnnaaaa平均发展速度和平均增长速度平均发展速度和平均增长速度平均发展速度:某事物在一个较长时期内平均发展速度:某事物在一个较长时期内逐年平均发展变化的速度。逐年平均发展变化的速度。 是环比速度的几何平均
21、数。是环比速度的几何平均数。平均增长速度:某事物在一个较长时期内平均增长速度:某事物在一个较长时期内逐年平均增长的速度。逐年平均增长的速度。 平均增长速度平均发展速度平均增长速度平均发展速度1 1nnaa0平均发展速度率及构成比计算的率及构成比计算的SPSS程序:程序:相对比计算的相对比计算的SPSS程序:程序:Analyze Descriptive Statistics Frequencies 选分析变量选分析变量入入Variable(s)框框 OKTransform Compute Target Variable(新变量名)(新变量名) Numeric Expression(计算方式)(计
22、算方式) OKSPSS练习练习(出生体重(出生体重-率的计算数据库)率的计算数据库) 某年儿童体检指标中,男孩占体检儿童的比某年儿童体检指标中,男孩占体检儿童的比例?例? 体检儿童的母亲职业分布情况?体检儿童的母亲职业分布情况? 体检儿童中,低出生体重的发生率是多少?体检儿童中,低出生体重的发生率是多少?(出生体重低于(出生体重低于2500克为低出生体重)克为低出生体重) 体检儿童中,出生体检儿童中,出生BMI是多少是多少?5/15/202237四、率的标准化(四、率的标准化(standardizationstandardization) 条件:内部构成影响总率;要比条件:内部构成影响总率;要
23、比较的两组的内部构成不相同;比较的两组的内部构成不相同;比较两组的总率。较两组的总率。 方法:方法: 直接法(直接法(适用于已知两组的内部构成适用于已知两组的内部构成) 间接法(略)间接法(略)步骤:步骤: 选定标准构成选定标准构成在比较的资料中任选一组资料的内部构成作在比较的资料中任选一组资料的内部构成作为标准构成;为标准构成;两组资料各部分之和组成的构成作为标准构两组资料各部分之和组成的构成作为标准构成;成;选择有代表性的、较固定的、数量较大的人选择有代表性的、较固定的、数量较大的人群。群。2. 2. 计算预期发生数计算预期发生数3. 3. 求标准化率求标准化率5/15/202239例:甲
24、乙两厂同工种工人某病的患病率见下例:甲乙两厂同工种工人某病的患病率见下表。某领导因发现乙厂的总患病率高于甲表。某领导因发现乙厂的总患病率高于甲厂而认为乙厂的患病情况严重,并批评了厂而认为乙厂的患病情况严重,并批评了乙厂,但是乙厂不服气。请你帮助解释说乙厂,但是乙厂不服气。请你帮助解释说明真实情况。明真实情况。5/15/202240甲甲 厂厂乙乙 厂厂工工 龄龄(年)(年)人数人数患病患病人数人数患病率患病率(%)人数人数患病患病人数人数患病率患病率(%) 3400123.010022.031001818.0400 4010.0合计合计500306.0500428.4甲乙两厂同工种工人某病的患病
25、率甲乙两厂同工种工人某病的患病率5/15/202241直接法计算甲乙两厂的标准化患病率直接法计算甲乙两厂的标准化患病率(%) 甲厂标准化患病率甲厂标准化患病率 = 105/1000 = 10.5% 乙厂标准化患病率乙厂标准化患病率 = 60/1000 = 6.0%工工 龄龄(年)(年)标准标准人口数人口数甲甲 厂厂乙乙 厂厂原患病率原患病率(%)预期患预期患病人数病人数原患病率原患病率(%)预期患预期患病人数病人数35003.0152.010350018.09010.050合计合计1000 6.0 105 8.4 60可见,乙厂的患病率低于甲厂,与分工龄组比较可见,乙厂的患病率低于甲厂,与分工
26、龄组比较的结论一致,消除了工龄构成不同的影响。的结论一致,消除了工龄构成不同的影响。5/15/202242注意事项:注意事项:(1 1)标化率标化率不能反映实际水平,只能用不能反映实际水平,只能用于于比较比较;(2 2)选用标准不同,标化率会改变,但)选用标准不同,标化率会改变,但比较结果只有一个比较结果只有一个,不能改变;,不能改变;(3 3)比较两样本的标化率,也要进行)比较两样本的标化率,也要进行假假设检验设检验。5/15/202243基本内容基本内容 统计描述统计描述统计推断统计推断(1)统计推断统计推断(2)计量资料计量资料 频数分布频数分布集中趋势集中趋势离散趋势离散趋势统计图表统
27、计图表抽样误差抽样误差标准误标准误均数可信区间均数可信区间t Z F检验检验秩和检验秩和检验直线相关与回归直线相关与回归偏相关偏相关多元线性回归多元线性回归因子分析因子分析计数资料计数资料相对数相对数(率、比率、比)率的可信区间率的可信区间 2检验检验Logistic回归回归5/15/202244第三节分类变量的统计推断第三节分类变量的统计推断一、一、率的标准误和可信区间率的标准误和可信区间 二、二、 2检验检验 (一)成组设计四格表资料的(一)成组设计四格表资料的2检验检验 (二)配对设计四格表资料的(二)配对设计四格表资料的 2检验检验 (三)行(三)行x列表列表x2检验检验 (四)趋势(
28、四)趋势x2检验检验5/15/202245一、率的标准误和可信区间一、率的标准误和可信区间 样本率样本率p,总体率,总体率 抽样误差产生的原因、概念抽样误差产生的原因、概念1、率的、率的标准误标准误5/15/202246x率的率的标准误标准误P1P2P3Pip =0.5时时,不同不同n值对应的二项分布值对应的二项分布 =0.3时时, 不同不同n值对应的二项分布值对应的二项分布在医学领域中,在医学领域中,有一些随机事件是有一些随机事件是只具有只具有两种互斥结两种互斥结果果的离散型随机事的离散型随机事件,称为二项分类件,称为二项分类变量变量 二项分布的图形二项分布的图形现状取决于现状取决于n和和
29、的的取值。取值。随随n增大,图形逐增大,图形逐渐对称分布渐对称分布5/15/202248 率的标准误计算公式: 与样本量的关系:成反比。n)1(nqppps.n)1(5/15/202249例:某市为了解已婚育龄妇女子宫颈糜烂的患病情例:某市为了解已婚育龄妇女子宫颈糜烂的患病情况,进行了抽样调查,随机抽取况,进行了抽样调查,随机抽取2000人,患者人,患者80例。试求此患病率的标准误。例。试求此患病率的标准误。50 点估计点估计: 不考虑抽样误差的大小,将样本率直接不考虑抽样误差的大小,将样本率直接作为总体率的估计值。作为总体率的估计值。 区间估计区间估计2、总体率的区间估计、总体率的区间估计5
30、1 总体率的可信区间总体率的可信区间 小样本(小样本(n n50)50)时,可直接查时,可直接查“百分率百分率的可信区间表的可信区间表”,即可得到总体率的,即可得到总体率的1-1- 可信区间。可信区间。 样本量不太小,总体率既不太小,也不样本量不太小,总体率既不太小,也不太大,比如太大,比如npnp与与n(1-p)n(1-p)均大于均大于5 5时,样本时,样本率率p p的抽样分布近似正态分布。此时总体的抽样分布近似正态分布。此时总体率的可信区间为率的可信区间为NoImagepSup2/例:某社区共有例:某社区共有1200012000人。现抽查了人。现抽查了800800人,人,发现发现20020
31、0人患有蛔虫病。如要作集体驱虫人患有蛔虫病。如要作集体驱虫治疗,至少应准备多少份药物?(治疗,至少应准备多少份药物?(95%95%) 要知道准备多少药物,就要知道该人要知道准备多少药物,就要知道该人群中蛔虫病的患病率(点估计);要估计群中蛔虫病的患病率(点估计);要估计至少要准备多少药物,就要估计得到该患至少要准备多少药物,就要估计得到该患病率的可信区间。病率的可信区间。“至少至少”就是要保证病就是要保证病人都能得到药物,所以要按最高患病率来人都能得到药物,所以要按最高患病率来准备。准备。样本率样本率p=200/800=0.25=25%p=200/800=0.25=25%。因此样本率的。因此样
32、本率的标准误为标准误为该人群中蛔虫感染率的该人群中蛔虫感染率的9595可信区间为可信区间为即人群中蛔虫感染率在即人群中蛔虫感染率在22222828之间。因此之间。因此至少要准备至少要准备1200012000* *282833603360份药物。份药物。0153.0800)25.01(25.0)1(nppSp)28. 022. 0(0153. 096. 125. 0,pSup5/15/202254例:某医生想观察一种新药对流感的预防效果,例:某医生想观察一种新药对流感的预防效果,进行了如下的研究,问此药是否有效?进行了如下的研究,问此药是否有效?两个样本率不同:两个样本率不同:P1(14%);)
33、;P2(25%)总体样本;资料性质;绝对数相对数总体样本;资料性质;绝对数相对数5/15/202255x率的率的标准误标准误P1P2P3Pip5/15/202256 当两个样本率不同时,有两种可能: P1 , P2所代表的总体率相同,由于抽样误差的存在,造成了样本率不同,这种差别在统计上叫差别无统计学意义差别无统计学意义。 P1 , P2所代表的总体率不同,即两个样本来不同的总体,其差别有统计学意义其差别有统计学意义。 用统计学方法进行判断属于那种情况。 x2检验检验主要内容主要内容一、分类变量概述一、分类变量概述二、分类变量的统计描述二、分类变量的统计描述 相对数相对数 应用相对数的注意事项应用相对数的注意事项 动态数列动态数列 率的标准化率的标准化三、分类变量的统计推断三、分类变量的统计推断 率的标准误和可信区间率的标准误和可信区间 2 2检验检验 5/15/202258谢谢!