1、 统计学与医学统计学 一统计与统计学的定义 是一种对客观现象数量方面进行的调查 研究活动; 是收集、整理、分析、推断、判断等认 识活动的总称。 数据汇总仅仅是统计工作的一小部分内数据汇总仅仅是统计工作的一小部分内 容。容。 作为一门学科的定义是:关 于数据收集、表达和分析的 普遍原理和方法。 是用统计学原理和方法研究 生物医学问题的一门学科。医学 统计方法在医学研究中的运用主 要有三个方面: 以正确的方式收集数据,如实验设 计、调查设计等。 描述数据的统计特征,如数据化简、 统计指标的选择与计算、统计结果 的表达等。 统计分析及得出正确结论,如根据 概率分布,对实验和观察结果存在 的差异和关联
2、作出统计推断。 如何判断药物的疗效?(假设检 验) 明天是否下雨?体育彩票能否 中奖?(概率论) 子女为什么象父母,其强度有 多大?(相关与回归) 美国的民意测验是如何进行的? (设计,抽样) 统计学是对令人困惑费解的数统计学是对令人困惑费解的数 字问题做出设想的艺术。字问题做出设想的艺术。 2近代 19世纪,应用数学家为解决 赌徒们在博彩中出现的输赢概率 问题逐渐形成和发展了概率论, 从而为统计学的发展奠定了坚实 的基础。 1853-1854年伦敦霍乱死亡率年伦敦霍乱死亡率与饮水与饮水 水水 源源 用户数用户数死亡人数死亡人数死亡率死亡率(1/万户)万户) 重 污 染重 污 染 ( S o
3、u t h w a r k 和和 Vauxhall公司公司) 40046 1263315.4 轻污染轻污染 (Lambeth公司公司) 26107 98 37.5 伦敦其它地区伦敦其它地区256423 1422 55.5 合合 计计322576 2783 86.3 1747年,英国年,英国Lind医生对坏血病的干预研究。医生对坏血病的干预研究。 1835年,法国医生年,法国医生Louis 对对“放血放血”疗法治疗肺炎疗法治疗肺炎 的效果的效果 评价。评价。 1948年,英国发表了评价链霉素治疗肺结核疗效的年,英国发表了评价链霉素治疗肺结核疗效的 随机对照的临床试验随机对照的临床试验报告,第一次
4、采用生物统计方法报告,第一次采用生物统计方法 进行临床干预试验。进行临床干预试验。 1960年英国医生年英国医生Doll,Hill等发现吸烟与肺癌等发现吸烟与肺癌 有关。有关。相对危险度相对危险度RR=1.66/0.07=23.7 1948年年,郭祖超郭祖超教授(教授(19121999)编著的)编著的医医 学与生物统计方法学与生物统计方法,是我国第一部医学统计方,是我国第一部医学统计方 法的教科书。法的教科书。 3. 现代 计算机和统计软件如SAS、 SPSS的出现 使统计学得到 了突飞猛进的发展。 统计方法是建立在现代科 学方法之上,由统计学理论 指导的数据收集、表达和分 析的方法. 60年
5、代到年代到80年代,国外医学杂志调查结果:年代,国外医学杂志调查结果: 有统计错误的论文有统计错误的论文20%72%。 1996年对年对4586篇论文统计(中华医学会篇论文统计(中华医学会 系列杂志占系列杂志占6.9%),数据分析方法误用达),数据分析方法误用达 55.7%。 60年代到年代到80年代,国外医学杂志调查表明:年代,国外医学杂志调查表明:20%72%的论文有的论文有 统计错误。统计错误。 1984年对年对中华医学杂志中华医学杂志、中华内科杂志中华内科杂志、中华外科杂中华外科杂 志志、中华妇产科杂志中华妇产科杂志、中华儿科杂志中华儿科杂志595篇论文的调查结篇论文的调查结 果为:果
6、为: 相对数误用占相对数误用占 11.2%,抽样方法误用占抽样方法误用占15.9%,统计图表误用占统计图表误用占 11.7% 1996年对年对4586篇论文统计(中华医学会系列杂志占篇论文统计(中华医学会系列杂志占6.9%),数),数 据分析方法误用达据分析方法误用达55.7%。 2001年年中华预防医学杂志中华预防医学杂志:中华医学会系列杂志误用约:中华医学会系列杂志误用约54% (1995)。)。 1996年,有机构对申报科技成果的年,有机构对申报科技成果的4586篇科研论文分篇科研论文分 析,统计方法使用率为析,统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学性,医学
7、论文中统计运用错误,除了影响论文的科学性, 还可能导致严重的伦理学问题。还可能导致严重的伦理学问题。 1976年年New Science 杂志关于科研舞弊杂志关于科研舞弊 行为的调查行为的调查 (1)74%的调查表反映有不正当修改数据的调查表反映有不正当修改数据 的情况的情况 (2)17%拼凑实验结果拼凑实验结果 (3)7%凭空捏造数据凭空捏造数据 (4)2%故意曲解结果故意曲解结果 医学数学,侧重医学,淡化数学。 用数量反映质量,如平均期望寿命, 解放前为35岁,现在70岁,可反映国 家医疗卫生服务总体水平的提高。 大量观察+实验数据分析 可以揭 示医学规律。 第二节第二节 统计工作的基本步
8、骤统计工作的基本步骤 1.专业设计:选题、建立假说、确定 研究对象和技术方法等个性 2.统计设计:围绕专业设计确定统计 设类型、样本大小、分组方法、统计 分析指标及统计分析方法。 一、设计一、设计 (一)资料来源 第一手资料 经常性:统计报表(死亡登记、疫情 报告等),工作记录(病历、化验); 一时性:专题调查、实验或临床试验。 第二手资料:已公布的资料,如数据银行、 全国、全省卫生统计资料。 (二)资料要求 1完整:观察单位及观察项目完整。 观察单位:最基本的获取数据的单元。 可以是一个体,亦可以是一个单位、家庭、 地区,一批样品,一个采样点。 2准确:即真实、可靠。真实是 统计学的灵魂。
9、3及时:即时限性。如人口普查 规定调查开始日期和截止日期。 整理资料即原始数据的条理化、 系统化的过程。所采取的手段合理 化分组,目的实现专业目标。 质分组:按事物的属性或性质分组 分类变量; 量分组:按数据的大小数值变量。 1.统计描述:用统计指标、统计图表对 资料的数量特征及分布规律进行测定和 描述。 2.统计推断:用样本信息推断总体特征: 参数估计,假设检验。 有三种类型的资料:计量资料,计数资料,等级 资料 基本概念:变量及变量值,研究者对每个观 察单位的某项特征进行观察和测量,这种 特征称为变量,变量的测得值叫变量值 (也叫观察值),称为资料。按变量值的 性质可将资料分为定量资料和定
10、性资料。 定义:通过度量衡的方法,测量每一个观察单位 的某项研究指标的量的大小,得到的一系列数据 资料。 特点:有度量衡单位 多为连续性资料 (通过测量得到) 如患者的身高(如患者的身高(cm)、体重()、体重(kg)、)、 血压(血压(mmHg)、脉搏(次)、脉搏(次/分)、分)、 红细胞计数(红细胞计数(10/L) 定义:将全体观测单位按照某种性质或 特征分组,然后再分别清点各组观察单 位的个数。 特点:没有度量衡单位 多为间断性资料(通过枚举或记数得来) 如肤色(黑、白)、血型(如肤色(黑、白)、血型(ABO)、职)、职 业(工农兵)、性别(男女)业(工农兵)、性别(男女) 2. 计数资
11、料 定义: 介于计量资料和计数资料之间的一种资料, 通过半定量方法测量得到。 特点: 每一个观察单位没有确切值 各组之间有性质上的差别或程度上的不同。 癌症分期:早、中、晚。癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。 尿蛋白:尿蛋白: , , ,+,+及以上及以上 3. 等级资料 例如:测得5人的WBC(个/m3)数如下: 3000 6000 5000 8000 12000 数值变量 过低 正常 正常 正常 异常 分类变量 若按正常3人,异常2人分组二分类变量 若按过低1人,正常3人,过高1人分组等 级资料 多途径; 尽量用定量指标,否则损失信
12、息量; 定性指标可转化为定量指标,但较粗糙。 1、同质与变异、同质与变异 2、总体与样本、总体与样本 3、参数与统计量、参数与统计量 4、误差、误差 5、频率、频率 例如:研究7岁男孩身高的正常值范围 研究单位: 一个人 例如:研究7岁 男孩身高的正常值范围 变量:身高 例如:研究7岁男孩身高 变量值:测得的身高值 (120.2cm,118.6cm,121.8cm,) 1、同质与变异同质与变异 2、总体与样本、总体与样本 3、参数与统计量、参数与统计量 4、误差、误差 5、概率、概率 研究广州市2004年7岁 男孩身高的正常值 范围? 同质:同广州市、同7岁、同男孩、同无影 响身高的疾病。 来
13、源于一些未加控制或无法控制的甚至不明原 因的因素。 是统计学存在的基础,从本质上说,统计学就是 研究变异的科学。 例如:广州市2004年7岁男孩身高有高有矮 (1)自然变异的范围是有限的, 可以度量;参差不齐的测量值,通 过大量重复观测可以显现出统计分 布规律,如表1-1数据的变异特征至 少有以下两点: 变异的范围在3.296.18; 有明显的统计分布规律,4.75.0的 人数最多。根据表1-1的数据,统计 上还可以进一步推论出正常成年男子 红细胞计数的正常值参考范围 。 5.125.134.584.314.094.414.334.584.245.454.324.84 4.915.145.25
14、4.894.794.905.094.645.145.464.664.20 4.213.735.175.795.464.494.855.284.784.324.945.21 4.685.094.684.915.135.263.844.174.563.526.004.05 4.924.874.284.465.035.695.254.565.534.584.864.97 4.704.284.375.334.784.755.395.274.896.184.135.22 4.444.134.434.025.865.125.363.864.685.485.314.53 4.834.113.294.184.
15、134.063.424.684.525.193.705.51 4.644.924.934.903.925.044.704.543.954.404.313.77 4.164.585.353.715.274.525.214.374.804.753.865.69 12 10/ L 最大值=6.18, 最小值=3.29, 极差=2.89。算术均数=4.72,标准差=0.57 图 1-1 120名 正常成年男子细胞计数直方图 0 5 10 15 20 25 2.63.23.84.45.05.66.2 红细胞计数( 1 0 /L) 频率% (2)用统计的方法可以确定出所研 究对象的变异范围,如正常成年男性
16、 的细胞数的范围。身高范围等等。 (3)没有变异就没有统计,变异使 统计有了用武之地。 1、同质与变异、同质与变异 2、总体与样本总体与样本 3、参数与统计量、参数与统计量 4、误差、误差 5、概率、概率 总体: 根据研究目的确定的同质研究对象的全 体。当研究有具体而明确的指标时,总 体是指该项变量值的全体。 例如:调查某地2002年正常成年男子的 红细胞数的正常值范围 研究单位:一个人 变量:红细胞数 同质:同某地、同2002年、同成年男子、 同正常。 总体:1)某地所有的正常成年男子 2)某地所有的正常成年男子的 红细胞数 1)有限总体(finite population):研究单 位数是
17、有限的 例如:调查某地2002年正常成年男子的红 细胞数的正常值范围 2)无限总体(infinite population):研究 单位数是无限的 例如:高血压患者无时间、空间限制。 注意:随机抽样(无主观性) 样本含量( sample size):样本中包含的 研究单位数。 例如:某药治疗高血压患者30名 样本含量(n)为30 总体总体:根据研究目的:根据研究目的 确定的确定的同质同质研究对象研究对象 的的全体全体(集合)。分(集合)。分 有限总体与无限总体有限总体与无限总体 样本样本:从总体中随机:从总体中随机 抽取的部分观察单位抽取的部分观察单位 随机抽样随机抽样 random samp
18、ling 为了保证样本的为了保证样本的可可 靠性靠性和和代表性代表性,需,需 要采用随机的抽样要采用随机的抽样 方法(在总体中每方法(在总体中每 个个体具有个个体具有相同的相同的 机会机会被抽到)。被抽到)。 对样本数据进 行观察或计算 统计指标, 目的是推论总 体。 1、同质与变异、同质与变异 2、总体与样本、总体与样本 3、参数与统计量参数与统计量 4、误差、误差 5、概率、概率 参数参数:总体总体的统计指标,的统计指标, 如总体均数,采用希腊字如总体均数,采用希腊字 母记为母记为。 样本样本 抽取部分观察单位抽取部分观察单位 ? 推断推断inference 统计量统计量:样本样本的统计指
19、标,如样本均数,采用拉丁字母分的统计指标,如样本均数,采用拉丁字母分 别记为别记为 。统计量是参数附近波动的随机变量。统计量是参数附近波动的随机变量 。X X 1、同质与变异、同质与变异 2、总体与样本、总体与样本 3、参数与统计量、参数与统计量 4、误差误差 5、概率、概率 误差:误差:统计上所说的误差泛指测量值与真值之 差,样本指标与总体指标之差。主要有以下二 种:系统误差和随机误差(随机测量误差,抽样 误差)。 (1)系统误差:系统误差:指数据搜集和测量过程中由于仪 器不准确、标准不规范等原因,造成观察结果 呈倾向性的偏大或偏小,这种误差称为系统误 差。 在消除了系统误差的前提下,由于非
20、人为的偶 然因素,对于同一样本多次测定结果不完全一样, 结果有时偏大有时偏小,没有倾向性,这种误差 叫随机测量误差。 A、 随机测量误差随机测量误差 (2).随机误差:由于一些非人为的偶然因素使 得结果或大或小,是不确定、不可预知的。 由于抽样原因造成的样本指标与总体指 标之间的差别。 特点:有抽样 抽样误差就不可避免。统 计上可以计算并在一定范围内控制抽样误 差。 B、 抽样误差抽样误差 例如:=120.0cm n=100 N=5万 =118.6cm (1)改进抽样方法,增加样本的代表性。 样本量 n 相等的情况下: 整群抽样单纯随机抽样系统抽样分层抽样 (2) 增加样本量n (3)选择变异
21、程度较小的研究指标 减少抽样误差的方法减少抽样误差的方法: 1、同质与变异、同质与变异 2、总体与样本、总体与样本 3、参数与统计量、参数与统计量 4、误差、误差 5、概率、概率 (1)、频率(relative freguency): 一次随机试 验有几种可能结果,在重复进行试验时,个别结 果看来是偶然发生的,但当重复试验次数相当多 时,将显现某种规律性。例如,投掷一枚硬币, 结果不外乎出现“正面”与“反面”两种,现在, 我们看一掷币模拟试验: 实验者 投掷次数 出现“正面”次数 频率 Hu Pingcheng 1 1 1.0000 Hu Pingcheng 2 0 0.0000 Hu Pin
22、gcheng 3 2 0.6667 Hu Pingcheng 4 3 0.7500 Hu Pingcheng 5 3 0.6000 Hu Pingcheng 6 2 0.4000 Hu Pingcheng 7 4 0.5714 Buffon 4040 2048 0.5069 K.Pearson 12000 6019 0.5016 K.Pearson 24000 12012 0.5005 可见,在相同条件下重复试验,试验结果 为“正面”或“反面”虽不能事先断定, 但我们知道试验的所有可能结果只有两种。 在重复多次后,出现“正面” 或“反 面”这个结果的比例称之为频率。 设在相同条件下,独立地重复
23、设在相同条件下,独立地重复n次试验,次试验, 随机事件随机事件A出现出现 次,则称次,则称 为随机事为随机事 件件A出现的频率。当出现的频率。当n逐渐增大时,逐渐增大时, 频率频率 趋向于一个常数,则称该常数为随机事件趋向于一个常数,则称该常数为随机事件A 的概率,可记为的概率,可记为 P(A) ,简记为,简记为 P 。 0 P(A)1 ff n f n 确定性现象确定性现象:在一定条件下,:在一定条件下,一定一定会发生或一定不会会发生或一定不会 发生的现象。其表现结果为两种事件:肯定发生某种结果发生的现象。其表现结果为两种事件:肯定发生某种结果 的叫的叫必然事件必然事件;肯定不发生某种结果的
24、叫;肯定不发生某种结果的叫不可能事件不可能事件。 随机现象随机现象:在同样条件下:在同样条件下可能可能会出现两种或多种结果,会出现两种或多种结果, 究竟会发生哪种结果,事先不能确定。其表现结果称为究竟会发生哪种结果,事先不能确定。其表现结果称为随随 机事件机事件。 随机事件的特征:随机事件的特征:随机性随机性;规律性规律性:每次发:每次发 生的可能性的大小是确定的。生的可能性的大小是确定的。 概率:概率:描述随机事件发生的可能性大小随机事件发生的可能性大小的 数值,用大写的用大写的P P 表示;取值表示;取值00,11。 必然事件必然事件 P P = 1 = 1 不可能事件不可能事件 P P
25、= 0 = 0 随机事件随机事件 0 0 P P 11 P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1) 称为称为小概率事件小概率事件( (习惯习惯) ),统计学上认为不大可,统计学上认为不大可 能发生。能发生。 理解基本的统计原理 培养统计思维能力:抽象的,逻辑 推理 多练习:课堂练习 ,课下做习题 联系实际:阅读文献 工作和生活实际 s第一节第一节 频数分布表与频数分布图频数分布表与频数分布图 s第二节第二节 计量资料的常用统计指标计量资料的常用统计指标 s第三节第三节 计数资料的计数资料的常用统计指标常用统计指标 s第四节第四节 统计图表统计图表 一、频数分
26、布表一、频数分布表 (frequency table) 用途:用途:用于描述资料的分布特征用于描述资料的分布特征 频数:在一批样本中,相同情形出现的次数称为该情形的频数。频数:在一批样本中,相同情形出现的次数称为该情形的频数。 资料类型资料类型组段组段频数频数 计数和等级计数和等级观察结果的所有观察结果的所有 分类分类 相同类别出现的相同类别出现的 次数次数 计量计量根据观察结果重根据观察结果重 新划分新划分 分组统计分组统计 编号编号红细胞数红细胞数编号编号红细胞数红细胞数 1 13.983.98 2 24.544.541431434.674.67 3 34.744.741441445.40
27、5.40 4 45.135.131451455.295.29 5 54.434.431461464.774.77 6 64.814.811471475.385.38 7 74.984.981481485.155.15 8 83.793.791491494.644.64 1501505.195.19 (1)求)求极差极差(range):即最大值与最小值之差,):即最大值与最小值之差, 又称为全距。又称为全距。 本例极差:本例极差: R=5.883.79=2.09 (1012/L) (2) 决定决定组数组数、组段组段和和组距组距:根据研究目的和:根据研究目的和 样本含量样本含量n确定。组距确定。组
28、距=极差极差/组数,通常分组数,通常分8-15 个组,为方便计,组距参考极差的十分之一个组,为方便计,组距参考极差的十分之一, 再再 略加调整。略加调整。 本例本例i= R /10=2.09/10=0.2090.2。 (3) 列出组段:第一组段的列出组段:第一组段的下限略下限略 小于最小值小于最小值,最后一个组段,最后一个组段上限必须上限必须 包含最大值包含最大值,其它组段上限值忽略。,其它组段上限值忽略。 (4) 划记计数划记计数:用划记法将所有数:用划记法将所有数 据归纳到各组段,得到各组段的频数。据归纳到各组段,得到各组段的频数。 组段组段 (1) 频数,频数,f (2) 组中值,组中值
29、,X (3) fX (4)= (2)(3) 3.713.83.8 3.944.016.0 4.1114.246.2 4.3174.474.8 4.5264.6119.6 4.7324.8153.6 4.9265.0130.0 5.1185.293.6 5.3105.454.0 5.545.622.4 5.75.9 合计合计 15.85.8 150719.8 三、频数分布图 二、频数表和频数分布图用途 1描述频数分布的类型* (1)对称分布 :若各组段频数的分布以频数最多的组段为中心左右两侧大 体对称(总体则完全对称),就认为该资料是对称分布 (2)偏态分布 : 右偏态分布(正偏态分布):频数最
30、多组段右侧的组段数 多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。 转氨酶含量 人 数 12 2 15 9 18 14 21 23 24 19 27 14 30 11 33 9 36 7 39 4 4245 3 表2 115名正常成年女子血清转氨酶(mmol/L)含量分布 左偏态分布(负偏态分布): 左侧的组段数多于右侧的组段数,频数向左侧拖 尾。 肌红蛋白含量 人 数 0 2 5 3 10 7 15 9 20 10 25 22 30 23 35 14 40 9 4550 2 表3 101名正常人的血清肌红蛋白( )含量分布g/mL 集中趋势集中趋势(central tendency):变量
31、值集中位置。本例在组段变量值集中位置。本例在组段“4.7”。 平均水平指标平均水平指标 离散趋势离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。离变量值围绕集中位置的分布情况。离 “中心中心”位置越远,频数越小;且围绕位置越远,频数越小;且围绕“中心中心”左右对称。左右对称。 变异水平指标变异水平指标 3便于发现一些特大或特小的可疑值* 组 段 频数 f (1) (2) 2.30 1 2.60 0 2.90 0 3.20 0 3.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 0 5.30 0 5.605.90 8 合
32、 计 101 4便于进一步做统计分析和处理 描述集中趋势的特征数描述集中趋势的特征数 描述离散趋势的特征数描述离散趋势的特征数 计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料) 总体:总体:有限或无限个(定量)变量值 样本:样本:从总体随机抽取的n个变量值: X1,X2,X3,Xn n为样本例数(样本大小、样本含量) 总称为总称为平均数平均数(average)反映了资料的集中趋势()反映了资料的集中趋势( central tendency )。常用的有:)。常用的有: 1. 算术均数算术均数(arithmetic mean),简称,简称均数均数 (mean) 2. 几何均数
33、几何均数(geometric mean) 3. 中位数中位数 (median) 1.1. 均数(均数(meanmean) n X n XXX X n 21 112233 123 kki ki f Xf Xf Xf XfX X fffff 为求和符号,读成sigma,k, X , f 意义 “权数” X 符号:总体 样本 适用条件:资料呈对称分布,尤其是正 态或近似正态。 计算: (1)直接法 (2)频数表法 n X X n X XXX n X XXXX G nG n nG lg lg lg )lglg(lg 1 lg 1 21 21 为正值, 为底的反对数表示以 为底的对数;表示以 0 10l
34、g 10lg 1 X 几何均数几何均数:变量对数值的变量对数值的算术算术 均数均数的反对数的反对数。 适用条件适用条件:呈倍数关系的等比资料或对数正态分:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料布(正偏态)资料;如抗体滴度资料 例例 血清的抗体效价滴度的倒数倒数分别为:10、100、 1000、10000、100000,求几何均数。 1000 5 10lg10lg10lg10lg10lg lg 54321 1 G 此例的算术均数为此例的算术均数为22222,显然不能代表滴度的,显然不能代表滴度的 平均水平。同一资料,平均水平。同一资料,几何均数几何均数均数均数 i n
35、n i ii f XfXfXf f Xf G lglglg lg lg lg 2211 11 抗体滴度抗体滴度 人数人数,f 滴度倒数滴度倒数,X lgX flgX 1:4 1:8 1:16 1:32 1:512 合计合计 1 5 6 2 5 72 4 8 16 32 512 0.6021 0.9031 1.2041 1.5051 2.7093 0.6021 4.5155 7.2246 3.0102 13.5465 72.2471 例:几何均数反对数例:几何均数反对数 (72.2471/40)64.00 意义:意义:中位数中位数是将一批数据是将一批数据从小至大排列从小至大排列后后位次居中位次居
36、中的数据值,反映一批的数据值,反映一批 观察值在观察值在位次位次上的平均水平。上的平均水平。 符号:符号:MdMd 适用条件适用条件:适合各种类型的资料。尤其适合于:适合各种类型的资料。尤其适合于大样本偏态分布大样本偏态分布的资料;的资料; 资料有资料有不确定数值不确定数值;资料;资料分布不明分布不明等。等。 先将观察值按先将观察值按从小到大顺序排列从小到大顺序排列,再按以下公式计算:,再按以下公式计算: 为偶数 为奇数 nxx nx Md nn n 2 2/12/ 2/ )1( 特点:仅仅利用了中间的12个数据 例:例:5人潜伏期人潜伏期: 2,3,5,8,20 m L f fn iLMd
37、n Md )%50( )%50( 值间的频数所在组段下限值至上限 至该下限值的累计频数 组距 所在组段下限值 下限值下限值L 上限值上限值U i; fm 中位数中位数Md )%50( L fn 潜伏期潜伏期/h (1) 频数,频数,f (2) 累计频数累计频数 f (3) 01717 64663 1238101 1832133 246139 300139 364143 4248 合计合计 2145 145 例 中位数12+6x(145x50%63)/38 13.5(h) 正态分布时: 均数中位数均数中位数 小结: 集中趋势的描述平均数 平均数:描述一组变量值的集中位置或 平均水平的指标体系。
38、不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大 的小样本资料 几何均数:对数正态分布或等比级数资料 中位数 :一般偏态分布(传染病发病的潜伏期) 反映数据的离散度(反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的)。即个体观察值的变异程度。常用的 指标有:指标有: 1. 极差极差(Range) (全距全距) 2. 百分位数与四分位数间距百分位数与四分位数间距 Percentile and Quartile range 3. 方差方差 Variance 4. 标准差标准差Standard Deviation 5. 变异系数变异系数 Coeffi
39、cient of Variation 盘编号盘编号 甲甲乙乙丙丙 1 1440480490 2 2460490495 3 3500500500 4 4540510505 5 5560520510 合计合计250025002500250025002500 均数均数500500500500500500 例:设甲、乙、丙三人,采每人的耳垂血,然后红细例:设甲、乙、丙三人,采每人的耳垂血,然后红细 胞计数,每人数胞计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3) 甲乙丙 minmax XXR 1204020 符号:R 意义:反映全部变量值 的变动范围。 优点:简便,如说明传染
40、病、食物中毒的最长、 最短潜伏期等。 缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定 适用范围:任何计量资 料;是参考变异指标 百分位数百分位数 :数据从:数据从 小到大小到大 排列排列;在百分在百分 尺度下,所占百分比尺度下,所占百分比 对应的值。记为对应的值。记为Px。 四分位间距四分位间距: (定义定义:P53) QP75 P25 四分位半间距四分位半间距 quartile deviation: QDQR/2 P100(max) P75 P50(中位数中位数) P25 P0(min) Px m L x x f fxn iLP xn P )%( )%( 值间的频数所在组段
41、下限值至上限 至该下限值的累计频数 组距 所在组段下限值 下限值下限值L 上限值上限值U i; fm 百分位数百分位数Px )%( L fxn P256+6x(145x25%17)/468.51(h) P7518+6x(145x75%101)/3219.45(h) Q19.45-8.5110.94(h) 潜伏期潜伏期/h (1) 频数,频数,f (2) 累计频数累计频数 f (3) 01717 64663 1238101 1832133 246139 300139 364143 4248 合计合计 2145 145 确定医学确定医学参考值范围参考值范围 (reference range):):
42、 如如95参考值范围参考值范围P97.5P2.5; 表示有表示有95正常正常个体个体的测量值在此范围。的测量值在此范围。 中位数中位数Md与与四分位半间距四分位半间距QD一起使用,描一起使用,描 述偏态分布资料的特征述偏态分布资料的特征 方差方差 (variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方),样本观察值的离均差平方 和的均值。表示一组数据的平均离散情况。和的均值。表示一组数据的平均离散情况。 N X XlSS X xx 2 2 2 )-( )-()square of sum( 0)-( 总体方差 离均差平方和 离均差和 11
43、 )( 2 2 2 2 n nXX n XX S样本方差 2 2 ()X N 总体方差 数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样 本资料,对离均差平方和取平均时分母用n-1代替n。 2 2 2 2 () 11 XXnXX S nn 样本方差 4.4.标准差标准差 2 2 2 () 11 XXnXX S nn 样本标准差 标准差标准差 (standard deviation)即方差的正平)即方差的正平 方根;其单位与原变量方根;其单位与原变量X的单位相同。的单位相同。 1 2 2 f ffXfX S频数表样本标准差 2 ()XX N 总体标准差 盘编号盘编号 甲甲乙
44、乙丙丙甲甲2 2乙乙2 2丙丙2 2 1 1440480490193600230400240100 2 2460490495211600240100245025 3 3500500500250000250000250000 4 4540510505291600260100255025 5 5560520510313600270400260100 合计合计25002500 25002500 25002500 1260400 1251000 1250250 标准差标准差 50.9915.817.91 99.50 15 5/25001260400 1 2 2 2 甲的标准差 n nXX S 方差(3
45、476.48719.82/150)/(150-1) 0.1503 标准差0.39(1012/L) 组段组段 (1) 频数,频数,f (2) 组中值,组中值,X (3) fX (4)= (2)(3) 3.713.83.8 3.944.016.0 4.1114.246.2 4.3174.474.8 4.5264.6119.6 4.7324.8153.6 4.9265.0130.0 5.1185.293.6 5.3105.454.0 5.545.622.4 5.75.9 合计合计 15.85.8 150719.8 5.变异系数变异系数(coefficient of variation) %100 X
46、 S CV 符号符号:CV 适用条件适用条件:观察指标单位不同,如身高、体重:观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊 均数均数 标准差标准差变异系数变异系数 青年男子青年男子 身高身高170 cm6 cm 3.5 体重体重60 kg7 kg 11.7 意义:意义:挑选指标时变异系数越小,指标越好。 1极差较粗,适合于任何分布极差较粗,适合于任何分布 2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布 3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料 4平均指标
47、和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差; 偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距 一、计数资料的数据整理一、计数资料的数据整理 二、二、常用相对数指标常用相对数指标 三、三、应用注意事项应用注意事项 计数资料(分类资料):计数资料(分类资料): 总体:总体:有限或无限个定性(分类)变量值有限或无限个定性(分类)变量值 样本:样本:从总体中抽取的从总体中抽取的n n个定性(分类)变量值个定性(分类)变量值 整理为:整理为:分类个体数,即:计数资料频数表分类个体数
48、,即:计数资料频数表 绝对数绝对数 计数资料:计数资料:按某种属性分类,然后清点每类按某种属性分类,然后清点每类 的数据(以下是:孕妇分娩资料)的数据(以下是:孕妇分娩资料) 住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局 202565527无无中学中学顺产顺产足月足月 202565322无无小学小学助产助产足月足月 202583025管理人员管理人员大学大学顺产顺产足月足月 202567724知识分子知识分子中学中学顺产顺产早产早产 202564730管理人员管理人员大学大学顺产顺产足月足月 202584832无无小学小学剖宫产剖宫产足月足月 201991527
49、无无中学中学顺产顺产死产死产 202586129无无大学大学剖宫产剖宫产足月足月 202460125农民农民中学中学顺产顺产足月足月 200038626无无小学小学顺产顺产足月足月 年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计 1818 2 2 0 0 0 0 0 0 3 3 0 0 5 5 2020 9 9 2 2 6 61010 18 18 0 0 45 45 22222828 7 710102424 70 701111150150 242450503434282852521531534444361361 2626505043432525454513
50、31337070366366 28283434353510103434 78 785757248248 30301111141411112222 39 391717114114 32321414 2 2 3 31414 24 24 3 3 60 60 3434 4 4 2 2 5 5 3 3 12 12 2 2 28 28 3636 2 2 1 1 1 1 4 4 5 5 1 1 14 14 3838 3 3 1 1 1 1 0 0 2 2 1 1 8 8 4040 0 0 0 0 2 2 0 0 0 0 0 0 2 2 合计合计 207 207 141 1411021022082085375