1、20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室第一章第一章医学统计学中的基本概念医学统计学中的基本概念叶孟良叶孟良20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 统计学(统计学(statistics):):1.Statistics:A science dealing with the collection,analysis,interpretation,and presentation of numerical data.(Websters 国际大辞典国际大辞典)2.Statis
2、tics:The science and art of dealing with variation in data through collection,classification,analysis in such a way as to obtain reliable results.(John M.Last,流行病学词典流行病学词典)总之,统计学是一门处理数据中总之,统计学是一门处理数据中变异性变异性的科学与艺术,内容的科学与艺术,内容包括包括收集收集、分析分析、解释解释和和表达数据表达数据,目的是求得可靠的结论,目的是求得可靠的结论一、绪论一、绪论 统计学思维和方法已经渗透到医学研究
3、和卫生统计学思维和方法已经渗透到医学研究和卫生决策之中,在科研的总体设计、资料的收集、整决策之中,在科研的总体设计、资料的收集、整理、分析直到最后得出结论都与之密切相关。理、分析直到最后得出结论都与之密切相关。例:例:1.北京某医院某大夫使用北京某医院某大夫使用“乌贝散乌贝散”治疗胃治疗胃溃疡出血溃疡出血107例,有效例,有效101例,有效率例,有效率94.4%,那么,那么别的医生也一定是别的医生也一定是94.4%吗?那么是吗?那么是多少多少?高还是?高还是低?(低?(求置信区间求置信区间)20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室
4、 2.重庆某医院有位老大夫,用重庆某医院有位老大夫,用“冠心灵冠心灵”治疗治疗冠心病,其对照组用西药,观察结果如表冠心病,其对照组用西药,观察结果如表 表 冠心灵与单存西药疗效对比显效有效无效合计单纯西药925640冠心灵1918542请问:冠心灵是否比单纯西药有效?(涉及统计学中假设检冠心灵是否比单纯西药有效?(涉及统计学中假设检验的问题)验的问题)20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室二、医学统计工作的内容和资料的类型二、医学统计工作的内容和资料的类型1、医学统计工作的内容:、医学统计工作的内容:design(设计)coll
5、ection data(收集)sorting data(整理资料)analyzing data(分析资料)20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 design(设计)(设计)根据研究目的制定研究方案 专业设计:统计设计:研究对象的选择(纳入与排除标准),样本量和样本取得的方法,实验组与对照组的分组原则,观察指标及其精度,试验过程中的质量控制,拟采用的统计分析方法等。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室collection data(收集)(收集)收集准确、完整、
6、充满信息的原始资料 资料的来源:专题试验(实验)研究、流行病学调查等 常规登记资料:例如门诊病例、住院登记资料等 卫生工作报表20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室sorting data(整理资料)(整理资料)把收集到的原始资料,有目的地进行加工,使资料系统化、条理化,以便进一步统计分析 归类 核查资料的完整性、可靠性(例如:漏项、逻辑性检查、专业合理性、专业一致性检查)20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室analyzing data(分析资料)(分析资料)统
7、计描述 统计分析 统计推断参数估计假设检验 把经过整理的资料做一系列的把经过整理的资料做一系列的统计描述统计描述和和统计推统计推断断,阐明事物的特征和规律。,阐明事物的特征和规律。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室2、type of data(资料的类型资料的类型)两类:定量(计量、数值变量定量(计量、数值变量)资料资料 定性(计数、分类变量)资料定性(计数、分类变量)资料20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室定量(计量、数值变量定量(计量、数值变量)资料资料
8、 每个观察对象通过定量测定的方法都有一个确切的值,通常有单位,但也有例外(例如 淋巴细胞转化率)。医学中:身高、体重、血压、血红蛋白值等 定性(计数、分类变量)资料定性(计数、分类变量)资料 按照研究对象的某个特征进行分组,然后分组计数所获得的资料。例如:男 25 女3520222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室无序分类资料:分组时表现为互不相容的类别 二分类:性别(男25 女35 有效 无效)多分类:血型(A 10 B 5 AB 7 O 3)、职业有序分类资料(等级资料):按照程度递增或递减 例:癌症分期:早、中、晚。药物疗效:治
9、愈、好转、无效、死亡。幽门螺旋杆菌感染程度(-+)20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 判断资料类型的标准:看每个观察对象是否有一个确切的值,有:计量 无:计数 资料可以由高级向低级转化(高精度向低精度),如 血压值 (正常、异常)住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局20256552025655272716516571.571.55 5无无中学中学顺产顺产足月足月20256532025653222216016074.074.05 5无无小学小学助产助产足月
10、足月20258302025830252515815868.068.06 6管理员管理员大学大学顺产顺产足月足月20225432022543232316116169.069.05 5无无中学中学剖宫产剖宫产足月足月20224662022466252515915962.062.01111商业商业中学中学剖宫产剖宫产足月足月20245352024535272715715768.068.02 2无无小学小学顺产顺产早产早产20258342025834202015815866.066.04 4无无中学中学助产助产早产早产20194642019464242415815870.570.53 3无无中学中学助
11、产助产足月足月20257832025783292915415457.057.07 7干部干部中学中学剖宫产剖宫产足月足月观察单位observations个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料Units;elements20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室三、统计学中的几个基本概念(一)同质与变异(一)同质与变异(二)总体与样本(二)总体与样本(三)
12、参数与统计量(三)参数与统计量(四)误差(四)误差(五)频率与概率(五)频率与概率 20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(一)同质与变异 homogeneity and variation 1 1、同质:同质:是指观察单位间被是指观察单位间被研究指标的影响因素相同研究指标的影响因素相同。如:。如:研究儿童的生长发育,规定的同性别、同年龄、同地区、研究儿童的生长发育,规定的同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童。同民族、健康的儿童即为同质的儿童。研究目的条件下的性质相同研究目的条件下的性质相同 观察单位的研究特
13、征为观察单位的研究特征为变量变量。变量的观察结果为变量的观察结果为变量值变量值。2 2、变异:变异:性质相同的同质对象的某个或某几个特征值不同。性质相同的同质对象的某个或某几个特征值不同。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 同质与变异的例子 例例1 调查调查2006年重庆年重庆7岁男童的身高和体重岁男童的身高和体重同质同质:2006年、重庆市、年、重庆市、7岁男童岁男童变异变异:身高和体重各不相同:身高和体重各不相同 例例2 研究某降压药的疗效研究某降压药的疗效同质同质:高血压患者、用某药治疗:高血压患者、用某药治疗变异变异
14、:疗效各不相同:疗效各不相同20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(二)总体与样本 population and sample总体总体:根据研究目的:根据研究目的确定的确定的同质同质研究对象研究对象的的全体全体(集合)。分(集合)。分有限总体有限总体与与无限总体无限总体样本样本:从总体中随机:从总体中随机抽取的部分观察单位抽取的部分观察单位 20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科
15、大学卫生统计教研室代表性的条件代表性的条件随机抽样足够数量(样本含量)样本的分布与总体的分布一致(构成)20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室随机抽样 random sampling为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室足够数量:样本含量样本的结构分布与总体的分布特征一致 例如:
16、欲研究重庆市7岁儿童的生长发育情况 总体:男107:女100 样本:应该接近或近似男107:女10020222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(三)参数与统计量 parameter and statistic参数参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。固定的常数固定的常数 样本样本抽取部分观察单位抽取部分观察单位 推断推断inference统计量统计量:样本样本的统计指标,如样本均数、标准差,采用拉的统计指标,如样本均数、标准差,采用拉丁字母分别记为丁
17、字母分别记为 。参数附近波动的随机变量参数附近波动的随机变量。SX、20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(四)误差 error误差误差:实际:实际观察值观察值与客观与客观真实值真实值之差,之差,以及以及统计量统计量与与参数参数之差。之差。(1)系统误差)系统误差(2)随机误差)随机误差20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(1)系统误差 systematic error 在实际观测过程中,由受试对象、研究者、仪在实际观测过程中,由受试对象、研究者、仪器设备、研究
18、方法、非实验因素影响等原因造成的器设备、研究方法、非实验因素影响等原因造成的有有一定倾向性或规律性一定倾向性或规律性的误差。流行病学称之为的误差。流行病学称之为偏偏倚倚(bias)。)。特点:观察值有特点:观察值有系统性系统性、方向性方向性、周期性周期性的偏的偏离真值。离真值。可以通过严格的可以通过严格的实验设计实验设计和和技术措施技术措施消除消除。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(2)随机误差random error 排除上述误差后尚存的误差,受多种无法控制排除上述误差后尚存的误差,受多种无法控制的因素的影响。的因素的影
19、响。特点:大小方向不一的随机变化。特点:大小方向不一的随机变化。随机测量误差随机测量误差(random measurement error)提高操作者熟练程度可以减少这种误差提高操作者熟练程度可以减少这种误差 随机抽样误差随机抽样误差(random sampling error):):由抽样造成的样本统计量和总体参数间的差异。由抽样造成的样本统计量和总体参数间的差异。不可避免,但有一定的分布规律,可估计。不可避免,但有一定的分布规律,可估计。(五)(五)概率概率与与频率频率 probability and frequencyfrequency 确定性现象确定性现象:在一定条件下,在一定条件下,
20、一定一定会发生或一定不会会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果发生的现象。其表现结果为两种事件:肯定发生某种结果的叫的叫必然事件必然事件;肯定不发生某种结果的叫;肯定不发生某种结果的叫不可能事件不可能事件。随机现象随机现象:在同样条件下在同样条件下可能可能会出现两种或多种结果,会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为究竟会发生哪种结果,事先不能确定。其表现结果称为随随机事件机事件。随机事件的特征:随机事件的特征:随机性随机性;规律性规律性:每次发:每次发生的可能性的大小是确定的。生的可能性的大小是确定的。概率概率:随机事件发生的可能性大
21、小,用大写随机事件发生的可能性大小,用大写的的 P P 表示,是一个稳定的值;取值表示,是一个稳定的值;取值00,11。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室必然事件必然事件 P P=1 =1 不可能事件不可能事件 P P=0 =0 随机事件随机事件 0 0 P P 1 1 P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1)称为称为小概率事件小概率事件(习惯习惯),统计学上认为不大可能发生。,统计学上认为不大可能发生。小概率事件小概率事件20222022年年8 8月月9 9日星期二日星期二重庆医科大学
22、卫生统计教研室重庆医科大学卫生统计教研室 样本的实际发生率称为样本的实际发生率称为频率,频率,具有波动具有波动性性。设在相同条件下,独立重复进行。设在相同条件下,独立重复进行n次试次试验,事件验,事件A出现出现f 次,则事件次,则事件A出现的频率出现的频率为为f/n。频率与概率间的关系:频率与概率间的关系:样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动样本含量样本含量n n越大,波动幅度越小,频率越接近概越大,波动幅度越小,频率越接近概率。率。频率 frequency20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 复习:复习:
23、总体与样本、统计量与参数、系统误差与抽样总体与样本、统计量与参数、系统误差与抽样误差误差1 1、调查某地某年调查某地某年7 7岁正常男童的身高岁正常男童的身高2 2、观察某人群脉搏数(次观察某人群脉搏数(次/分)分)3 3、观察某人群脉搏数,定义脉搏数在观察某人群脉搏数,定义脉搏数在6060次次/分分-100-100次次/分为正常,分为正常,60100100次次/分为分为异常,按异常,按“正常正常”与与“异常异常”分别清点人数得分别清点人数得到的资料到的资料20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室4 4、某单位职工体检、某单位职工
24、体检101101名正常成年女子的血名正常成年女子的血清总胆固醇(清总胆固醇(mmolmmol/L/L)5 5、某医院、某医院19981998年在某城区随机调查了年在某城区随机调查了85898589例例6060岁以上老人,体检发现高血压患者为岁以上老人,体检发现高血压患者为28232823例,高血压患病率为例,高血压患病率为2823/85892823/8589*100/%=32.87%100/%=32.87%20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室资料的统计描述资料的统计描述叶孟良20222022年年8 8月月9 9日星期二日星期二
25、重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室统计描述的意义统计描述的意义 社会活动看似杂乱无章,对个体来说社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些有很多不确定性,但总体上都是服从一些统计规律的。统计规律的。医学工作有很多数据,统计学描述就医学工作有很多数据,统计学描述就是对这些数据进行加工和提炼,找出规律、是对这些数据进行加工和提炼,找出规律、预测未知。预测未知。统计描述是最简洁有力的语言。统计描述是最简洁有力的语言。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室概念:即用少量几个统计指标刻画出原始数
26、概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。据的特征称为统计描述。计量资料的统计描述方法:计量资料的统计描述方法:(单变量单变量)1.通过频数表描述数据特征通过频数表描述数据特征 2.用统计指标用统计指标 定量描述数据的特征。定量描述数据的特征。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室描述计量资料的统计方法有两类:描述计量资料的统计方法有两类:统计图表:统计图表:主要是频数分布表(图主要是频数分布表(图)统计指标:统计指标:定量描述数据的特征定量描述数据的特征20222022年年8 8月月9 9日星期二日星期二重庆
27、医科大学卫生统计教研室重庆医科大学卫生统计教研室一、数值变量的频数分布(一)、频数分布表(一)、频数分布表频数分布表:将变量值分为不同数量的组段,清点频数分布表:将变量值分为不同数量的组段,清点各组段的例数。各组段的例数。意义:概括了解变量值在各组段的意义:概括了解变量值在各组段的分布和规律分布和规律。频数表的编制频数表的编制 例:某年某市例:某年某市120120名名1212岁男童的身高(岁男童的身高(cmcm)资料如下,作)资料如下,作统计描述统计描述。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 142.3 156.6 142.7
28、 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7
29、 139.3 141.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9
30、 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.920222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 1、求数据的、求数据的极差极差(range):):极差是全部数据中的最大值与最小值极差是全部数据中的最大值与最小值之差,它描述了数据变异的幅度。之差,它描述了数据变异的幅度。本例本例极差极差:R=160.9-125.9=35cm20222022年年8 8月月9 9日星期二日星期二重庆医科大
31、学卫生统计教研室重庆医科大学卫生统计教研室 2、划分组段、划分组段(1)确定)确定组数组数:制作频数表是为了简化资料,显示数据制作频数表是为了简化资料,显示数据的分布规律,因此组数不能太多。也不能太的分布规律,因此组数不能太多。也不能太少,太少会掩盖数据分布的规律。少,太少会掩盖数据分布的规律。适宜的分组数与观察值的个数适宜的分组数与观察值的个数n的多少的多少有关。有关。n为为30时,可分时,可分5到到6组,随着组,随着n的增加,的增加,分组适当增加,较大样本时,一般取分组适当增加,较大样本时,一般取10组左组左右。右。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教
32、研室重庆医科大学卫生统计教研室(2)确定)确定组距组距 一般采取等距分组。一般采取等距分组。组距组距=极差极差/组数组数 本例组距本例组距=35/10=3.5420222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(3)确定各组段的上下限:)确定各组段的上下限:下限下限(low limit):每个组段的起点):每个组段的起点 上限上限(upper limit):每个组段的终点):每个组段的终点 上限上限=下限下限+组距组距 第一组段必须包含最小值,其下限一般取包含最第一组段必须包含最小值,其下限一般取包含最小值的较为整齐的数值。本例最小值为小值
33、的较为整齐的数值。本例最小值为125.9,取,取125为第一组段的下限。其为第一组段的下限。其上限上限=125+4=129。各组段不能重叠,每一组段均为各组段不能重叠,每一组段均为半开半闭区间半开半闭区间。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 3、用手工或电脑编制画记表、用手工或电脑编制画记表20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 3、统计各组段内的数据频数得到频数表组段组段 划记划记 频数频数 f 频率(频率(%)累计频数累计频数(1)(2)(3)(4)(5)
34、125 一一 1 0.8 1 129 正正 4 3.3 5133 正正 正正 9 7.5 14137 正正正正正正正正正正正正 28 23.3 42141 正正正正正正正正正正正正正正 35 29.2 77145 正正正正正正正正正正正正 27 22.5 104149 正正一正正一 11 9.2 115153 正正 4 3.3 119157161 一一 1 0.8 120合计合计 120 10020222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 身高是一个连续变化的量身高是一个连续变化的量,被称为被称为连续连续性变量性变量。已婚育龄妇女的现
35、有子女数、幼儿的已婚育龄妇女的现有子女数、幼儿的牙齿数等,其取值是牙齿数等,其取值是0、1、2等不连续的量,等不连续的量,这种变量被称为这种变量被称为离散型变量离散型变量。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 4、频率频率与与累计频率累计频率频率:频率:频数表中的各组频数之和等于总例数频数表中的各组频数之和等于总例数n,将各组的频数除以将各组的频数除以n所得的比值被称为所得的比值被称为频率频率。累计频数累计频数:某组段及前面各组段的频数之和。:某组段及前面各组段的频数之和。累计频率累计频率:累计频数除以总例数。:累计频数除以总
36、例数。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(二)频数分布图(二)频数分布图 125 129 133 137 141 145 149 153 15720222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(三)频数分布特征(三)频数分布特征 从频数表,特别是频数分布图可以看到频从频数表,特别是频数分布图可以看到频数分布有两个特征:数分布有两个特征:、大多数岁男童的身高向中央集中,、大多数岁男童的身高向中央集中,为集中趋势;为集中趋势;、少部分男童的身高较低和较高,向两、少部分男童的
37、身高较低和较高,向两端离散,为离散趋势。端离散,为离散趋势。(四)、频数分布的类型(四)、频数分布的类型1、对称分布对称分布:指集中位置在中间,左右两侧对称。指集中位置在中间,左右两侧对称。2、偏态分布偏态分布:指集中位置偏向一侧,频数分布不对指集中位置偏向一侧,频数分布不对称。称。正偏态正偏态 负偏态负偏态20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(五)频数分布表的用途(五)频数分布表的用途1、揭示资料的分布类型及特征、揭示资料的分布类型及特征2 2、便于发现某些特大或特小的可疑值、便于发现某些特大或特小的可疑值3 3、便于进一步
38、计算统计指标和作统计处理、便于进一步计算统计指标和作统计处理4 4、组段的频率作为概率的估计。组段的频率作为概率的估计。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 125 129 133 137 141 145 149 153 157对称分布对称分布20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室05101520252.3 2.6 2.9 3.2 3.5 3.8 4.1 4.4 4.7 5.0 5.3 5.6 5.9图图2-1 101名正常成年女性血清总胆固醇频数分名正常成年女
39、性血清总胆固醇频数分布布频数频数血清总血清总胆固醇胆固醇正态分布正态分布对称分布对称分布20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室051015201224364860728496108潜伏期/h病例数图图2-2 59名链球菌咽喉炎患者潜伏期名链球菌咽喉炎患者潜伏期正偏态分布正偏态分布101例正常人的血清肌红蛋白含量051015202505101520 2530354045频数 负偏态分布负偏态分布20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室集中趋势的描述集中趋势的描述平均数
40、指标的概念和作用平均数指标的概念和作用 平均数表示一组同质计量数据平均数表示一组同质计量数据集中趋势的位置集中趋势的位置和和平均水平平均水平。作用:是一组计量数据平均水平的作用:是一组计量数据平均水平的代表值代表值;可作为;可作为不同组间的不同组间的比较值比较值。常用的三种平均数指标有常用的三种平均数指标有:算术均数算术均数、几何均几何均数数、中位数中位数20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室(一)算术均数(一)算术均数 简称均数均数 总体均数总体均数用用 表示表示 样本均数样本均数用用 表示表示X公式适用频数公式适用频数为正态
41、或近似为正态或近似正态分布的计正态分布的计量资料量资料.适用条件适用条件20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 1、直接法、直接法(样本例数较少样本例数较少)将所有数据直接相加,再除以总例数将所有数据直接相加,再除以总例数n:nXnXXXXXXn21N21XNNX20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 例如:例如:测定了名健康人第一小时末血沉,分别是、测定了名健康人第一小时末血沉,分别是、10mm,求均数求均数)mm(65305109236x20222022年年8
42、 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 2、加权法(、加权法(样本例数较多,近似计算样本例数较多,近似计算)用各组段的用各组段的组中值组中值代替该组段中的任代替该组段中的任一观察值,该组段的频数是一观察值,该组段的频数是f f,即有,即有f f个组中个组中值,则有组中值与频数的乘积代替该组段的值,则有组中值与频数的乘积代替该组段的各个值相加各个值相加.计算公式:计算公式:nfxnxfxfxfxkk 221120222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 利用频数表,将每组段的组中值即组中值即(
43、下限(下限+上限)上限)/2代替该组段观察值的实际取值,用加权法求算术平均数。在样本例数较多的情况下,加权法与直接法算得的结果相差不大。见P1020222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 当数据呈单峰对称分布数据呈单峰对称分布时,位于分布的中心,它是频数分布最集中的位置。若数据分布不对称,则 不位于分布的中心,也不在分布的集中趋势位置,它不反映数据的一般水平。XX20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室二、几何均数(,geometric mean)适用于原始数据分布不对
44、称,数据分布不对称,但经对数转换后呈对称分布对数转换后呈对称分布的资料;滴度资料(等比资料)。如血清滴度资料。公式:)lg(lg121nXGXXXGnn20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 例例2.2 测得测得1010个人的血清滴度的倒数分别为个人的血清滴度的倒数分别为2 2,2 2,4 4,4 4,8 8,8 8,8 8,8 8,3232,3232,求平均滴度。,求平均滴度。71032lg32lg8lg8lg8lg8lg4lg4lg2lg2lglg1G20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教
45、研室重庆医科大学卫生统计教研室 几何均数是对数转换后的数据的算术均数的反对数。当资料中出现相同观察值时,也可用加权法计算几何均数:例例2.3(频数表资料)(频数表资料)应用:主要用于血清学和微生物学中。应用:主要用于血清学和微生物学中。)lg(lg1fXfG20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室三、三、中位数中位数(median)中位数中位数是指将一组观察值从小到大排序是指将一组观察值从小到大排序后居于中间位置的那个数值,全部观察值后居于中间位置的那个数值,全部观察值中,大于和小于中位数的观察值个数相等。中,大于和小于中位数的观
46、察值个数相等。任何分布的定量数据均可用中位数描述任何分布的定量数据均可用中位数描述其分布的集中趋势。其分布的集中趋势。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 直接法公式:当n为偶数时 当n为奇数时)21()12()2()(21nnnXMXXM20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室1.1.原始资料原始资料 如如测得测得5 5个人的个人的VLDLVLDL中的中的apo_Bapo_B的含量的含量(mg/dl)(mg/dl)为为0.840.84、2.852.85、5.46
47、5.46、8.588.58、9.609.60,则,则 M=5.46=5.46(mg/dlmg/dl)若测量若测量结果:结果:0.840.84、2.852.85、8.588.58、9.69.6,则则 M=(2.85+8.58)/2=5.72=(2.85+8.58)/2=5.72(mg/dlmg/dl)2.2.频数表资料频数表资料 表表2-4 2-4 某地某地630630名正常女性血清甘油三脂含量名正常女性血清甘油三脂含量(mg/dl)(mg/dl)甘油三脂甘油三脂频数频数 累积频数累积频数累积频率累积频率(%)0.10 27 27 4.30.40169196 31.10.70167363 57.
48、6 M1.00 94457 72.51.30 81538 85.41.60 42580 92.11.90 28608 96.52.20 14622 98.72.50 4626 99.42.80 3629 99.83.10 1630100.0 合计合计630-20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室03060901201501801频频数数甘油三脂甘油三脂(mg/dL)0.10.4 0.7 1.01.31.6 1.92.2 2.5 2.83.16300.5196ML L、i iM M、f fM M分别为分别为M所在组段的下限、组距和
49、频数,所在组段的下限、组距和频数,f fL L为为M所在组段之前各组段的累积频数所在组段之前各组段的累积频数。914.030.01671965.063070.0MMMLiffnLM5.020222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 连续型变量中位数的的计算可用公式:组距 中位数所在组前 一组的累计频数 中位数所在组下限 中位数所在组的频数)2(LMMfnfiLM20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室四、百分位数(percentile)是一种位置位置指标,样本的第X百分位
50、数常记为Px,它是指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分成两部分,在不包括Px的全部数据中有X%的数据小于Px,有(100-X)%的数据大于Px。20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医科大学卫生统计教研室 中位数是特殊的百分位数,第50百分位数,M=P50。连续性变量频数表资料百分位数计算公式:)%(LXXXXfXnfiLP的累计频数百分位数所在组前一组第百分位数所在组的频数第百分位数所在组的组距第百分位数所在组下限第XfXfXiXLLXXX:20222022年年8 8月月9 9日星期二日星期二重庆医科大学卫生统计教研室重庆医
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。