1、医医 学学 统统 计计 学学 公共卫生学院流行病与卫生统计学系公共卫生学院流行病与卫生统计学系 1 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 理论课(理论课(30学时)学时) 实习课实习课 (15学时)学时) 考试考试 闭卷考试闭卷考试 教学安排教学安排 2 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 教学内容教学内容 1.1.绪论绪论 2.2.定量资料的统计描述定量资料的统计描述 3.3.定性资料的统计描述定性资料的统计描述 4.4.总体均数估计、假设检验及总体均数估计、假设检验及t t检验检验 5.5.卡方检验卡方检验 6.6.统计分析结果的正确表
2、达统计分析结果的正确表达 3 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 为什么要学习统计学?为什么要学习统计学? 1.1. 采用统计学方法,发现不确定现象背后隐藏的规律。采用统计学方法,发现不确定现象背后隐藏的规律。 相同父母所生的子女为什么身高、体重各不相同?相同父母所生的子女为什么身高、体重各不相同? 同一个教室里的学生学习成绩为什么各有千秋?同一个教室里的学生学习成绩为什么各有千秋? 采用同样的药物治疗某病患者疗效为什么会有差异?采用同样的药物治疗某病患者疗效为什么会有差异? 变异(变异(variation)是社会和生物医学中的普遍)是社会和生物医学中的普遍 现象,
3、现象,变异使得实验或观察的结果具有不确定性。变异使得实验或观察的结果具有不确定性。 4 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 为什么要学习医学统计学?为什么要学习医学统计学? 2. 用统计学思维方式考虑有关医学研究中的问题用统计学思维方式考虑有关医学研究中的问题 “阳性阳性”结果是否是虚假联系?结果是否是虚假联系? 某感冒药治疗某感冒药治疗1 1周后,治愈率为周后,治愈率为90%90%,能否说该,能否说该 感冒药十分有效?感冒药十分有效? “阴性阴性”结果是否是样本含量不足导致?结果是否是样本含量不足导致? 有人曾对发表在有人曾对发表在Lancet, N Engl J
4、 MedLancet, N Engl J Med, JAMAJAMA等著名医学杂志上的等著名医学杂志上的7171篇阴性结果的论文作篇阴性结果的论文作 过分析,发现其中有过分析,发现其中有6262篇(篇( 93%93%)可能是由于)可能是由于样样 本含量本含量不足造成的假阴性。不足造成的假阴性。 5 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 为什么要学习医学统计学?为什么要学习医学统计学? 3. 保证研究论文通过统计学审查保证研究论文通过统计学审查 国内国内1984年对年对中华医学杂志中华医学杂志、中华内科杂志中华内科杂志、 中华外科杂志中华外科杂志、中华妇产科杂志中华妇产
5、科杂志、中华儿科杂中华儿科杂 志志595篇论文的调查结果,相对数误用为篇论文的调查结果,相对数误用为11.2%,抽,抽 样方法误用样方法误用15.9%,统计图表误用,统计图表误用11.7%。某研究者。某研究者 1996年对年对4586篇论文统计(中华医学会系列杂志仅占篇论文统计(中华医学会系列杂志仅占 6.9%),数据分析方法误用达),数据分析方法误用达55.7%。 国内外许多期刊对来稿都有统计学要求或有统计学教研室国内外许多期刊对来稿都有统计学要求或有统计学教研室 的证明。的证明。 6 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 第一章第一章 绪绪 论论 一、医学统计学的
6、地位和作用一、医学统计学的地位和作用 二、统计工作的基本内容和步骤二、统计工作的基本内容和步骤 三、三、统计学的几个基本概念统计学的几个基本概念 7 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 第一节第一节 医学统计学的地位和作用医学统计学的地位和作用 8 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 当人们研发了一种治疗高血压病的新药,应该怎样当人们研发了一种治疗高血压病的新药,应该怎样 评价该新药的疗效?评价该新药的疗效? 最基本的方法:最基本的方法:比较比较 患者患者 一组服用对照药一组服用对照药 一组服用新药一组服用新药 观察疗效观察疗效 然后分析
7、该新药的有效性和安全性然后分析该新药的有效性和安全性 9 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 统计学扮演什么角色?统计学扮演什么角色? 在这个临床试验中有很多问题需要回答在这个临床试验中有很多问题需要回答: 第一节第一节 医学统计学的地位和作用医学统计学的地位和作用 10 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 药物开发与申报药物开发与申报; 卫生决策卫生决策; 基金申请基金申请; 论文撰写论文撰写; 杂志审稿杂志审稿 统计学的现实地位统计学的现实地位 11 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 医学统计学的概念医学
8、统计学的概念 运用运用数理统计学数理统计学的基本原理和方法来研究医的基本原理和方法来研究医 学问题的一门学科学问题的一门学科,它包括了它包括了研究设计研究设计、数数 据收集据收集、整理整理、分析分析以及分析结果的正确解以及分析结果的正确解 释和表达释和表达。 是医学和统计学的交叉学科是医学和统计学的交叉学科。 12 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 第二节第二节 医学统计学医学统计学 基本内容和统计工作基本步骤基本内容和统计工作基本步骤 13 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 统计工作的步骤统计工作的步骤 设计设计(design) 收
9、集资料收集资料(collection of data) 整理资料整理资料(sorting data) 分析资料分析资料(analysis of data) 14 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 设设 计(计(Design) 根据研究目的,对某项医学研究工作的全过根据研究目的,对某项医学研究工作的全过 程(资料收集、整理和分析)所作的总的设程(资料收集、整理和分析)所作的总的设 想和安排;想和安排; 是统计工作的第一步和最关键的一步。是统计工作的第一步和最关键的一步。 15 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 医药卫生科研主要有两大类:
10、医药卫生科研主要有两大类: 观察性研究观察性研究(observational study) 实验性研究实验性研究(experimental study) 16 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 是一种客观地观察、记录和描述事物是一种客观地观察、记录和描述事物 或现象的认识活动。不对被观察事物或现或现象的认识活动。不对被观察事物或现 象进行任何干预的情况下所作的观察象进行任何干预的情况下所作的观察。 观察性研究 17 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 实验实验(试验试验)性研究性研究 通常是在观察性研究的基础上,在通常是在观察性研究的基
11、础上,在 人为控制实验人为控制实验(试验试验)条件或对研究事物条件或对研究事物 或现象施加一定或现象施加一定干预措施干预措施的条件下,所的条件下,所 作的进一步研究。作的进一步研究。 18 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 统计设计也分为相应的两大类:统计设计也分为相应的两大类: 调查设计调查设计 实验实验(试验试验)设计设计。 19 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 example 研究魔芋精粉是否可以降低大白鼠研究魔芋精粉是否可以降低大白鼠 血中的胆固醇含量血中的胆固醇含量? 20 医医 学学 统统 计计 学(第二版)学(第二版)
12、 李晓松李晓松 选大白鼠选大白鼠若干若干,在其饲料中添加魔芋,在其饲料中添加魔芋 精粉,精粉,比较试验前后比较试验前后大白鼠血中胆固大白鼠血中胆固 醇含量,若试验后大白鼠血中胆固醇醇含量,若试验后大白鼠血中胆固醇 含量降低,则说明魔芋精粉有降低胆含量降低,则说明魔芋精粉有降低胆 固醇含量的作用。固醇含量的作用。 21 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 医学科研的医学科研的统计设计统计设计是医学统计学的重是医学统计学的重 要内容,也是统计工作的第一步和最关要内容,也是统计工作的第一步和最关 键的一步。键的一步。 22 医医 学学 统统 计计 学(第二版)学(第二版)
13、 李晓松李晓松 一个常见和普遍的误解认一个常见和普遍的误解认为为: “统计”统计”就是就是分析数据分析数据 第二节第二节 医学统计学基本内容和统计工作基本步骤医学统计学基本内容和统计工作基本步骤 23 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 第二节第二节 医学统计学基本内容和统计工作基本步骤医学统计学基本内容和统计工作基本步骤 “做完实验后才找统计学家无异于请他作做完实验后才找统计学家无异于请他作 尸体解剖尸体解剖,他能做的全部事情就是告诉你这实他能做的全部事情就是告诉你这实 验死于什么原因验死于什么原因”。 FisherFisher 24 医医 学学 统统 计计 学(
14、第二版)学(第二版) 李晓松李晓松 没有科学严谨的统计设计没有科学严谨的统计设计,数据的收集以及分数据的收集以及分 析常常是没有价值的析常常是没有价值的。 对于不准确或不可靠的数据对于不准确或不可靠的数据,统计分析所得出统计分析所得出 的结论常常是站不住脚的的结论常常是站不住脚的,甚至是误导的甚至是误导的。 第二节第二节 医学统计学基本内容和统计工作基本步骤医学统计学基本内容和统计工作基本步骤 25 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 统计工作的步骤统计工作的步骤 设计设计(design) 收集资料收集资料(collection of data) 整理资料整理资料(
15、sorting data) 分析资料分析资料(analysis of data) 26 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 收集资料收集资料 统计报表。如法定传染病报表,统计报表。如法定传染病报表, 职业病报表,医院工作报表等。职业病报表,医院工作报表等。 经常性工作记录。如经常性的卫经常性工作记录。如经常性的卫 生监测记录、健康检查记录等。生监测记录、健康检查记录等。 专题调查或实验专题调查或实验 27 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 任务:遵循统计学原理,按照设计要任务:遵循统计学原理,按照设计要 求,采取必要措施得到准确可靠的求
16、,采取必要措施得到准确可靠的 原始资料。原始资料。 原则:及时、准确、完整。原则:及时、准确、完整。 28 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 设计设计(design) 收集资料收集资料(collection of data) 整理资料整理资料(sorting data) 分析资料分析资料(analysis of data) 29 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 整理资料整理资料 1.编码,将数据输入计算机编码,将数据输入计算机 2.纠错改错、补漏等纠错改错、补漏等 3.根据研究目的将原始数据进行归根据研究目的将原始数据进行归 纳、分
17、组或计算纳、分组或计算 30 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 31 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 统计工作的步骤统计工作的步骤 设计设计(design) 收集资料收集资料(collection of data) 整理资料整理资料(sorting data) 分析资料分析资料(analysis of data) 32 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 对于不同对于不同研究设计研究设计所获得的数据所获得的数据,采采 用的用的统计分析统计分析方法常常是不同的方法常常是不同的,而且而且 所得研究结论也存在差
18、异所得研究结论也存在差异。 33 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 第二节第二节 医学统计学基本内容和统计工作基本步骤医学统计学基本内容和统计工作基本步骤 统计分析统计分析 统计描述统计描述 (statistical description) 统计推断统计推断 (statistical inference) 参数估计参数估计 假设检验假设检验 34 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 统计描述统计描述(descriptive statistics): 指用统计指标、统计表、统计图等方法,指用统计指标、统计表、统计图等方法, 对资料的数量
19、特征及其分布规律进行测对资料的数量特征及其分布规律进行测 定和描述。定和描述。 统计推断统计推断(inferential statistics): 指如何抽样,以及如何由样本信息推断指如何抽样,以及如何由样本信息推断 总体特征问题。总体特征问题。 35 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 分析分析 资料资料 研究研究 设计设计 整理整理 资料资料 统计描述统计描述 统计推断统计推断 收集收集 资料资料 36 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 第三节第三节 统计学的若干基本概念统计学的若干基本概念 37 医医 学学 统统 计计 学(第二版
20、)学(第二版) 李晓松李晓松 1、变量与资料、变量与资料 2、同质与变异、同质与变异 3、总体与样本、总体与样本 4、参数与统计量、参数与统计量 5、频率与概率、频率与概率 6、误差、误差 38 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 1.变量与资料变量与资料(Variable and Data) 变量:观测单位的某种特征或属性变量:观测单位的某种特征或属性 观察单位:亦称个体观察单位:亦称个体(人、动物、家庭、地区、人、动物、家庭、地区、 样品、采样点样品、采样点) 变量值:变量的观察结果,可以是定量的,也变量值:变量的观察结果,可以是定量的,也 可以是定性的。可以是
21、定性的。 例:三岁儿童身高、性别例:三岁儿童身高、性别 根据变量值的获取方法把资料进行分类:根据变量值的获取方法把资料进行分类: 定量资料定量资料和和定性资料定性资料。 39 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 定量变量定量变量 数值变量或计量数据数值变量或计量数据。 定义:定义:通过度量衡的方法,测量每一个观察单位的通过度量衡的方法,测量每一个观察单位的 某项研究指标的量的大小,得到的一系列数据资料。某项研究指标的量的大小,得到的一系列数据资料。 特点:特点: 有度量衡单位有度量衡单位; 举例举例:调查某地某年七岁女童的身体发育状况。调查某地某年七岁女童的身体发育
22、状况。 每个人的身高每个人的身高(cm)、体重体重(kg)、脉搏脉搏(次次/分分)、血、血 压压(kPa)、坐高指数坐高指数(%,坐高,坐高/身高身高)等均属定量变等均属定量变 量。量。 40 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 离散型资料离散型资料:变量取值可以一一列举的资料变量取值可以一一列举的资料 例:每个妇女现有的子女数例:每个妇女现有的子女数 连续型资料连续型资料:变量取值不能一一列举的资料变量取值不能一一列举的资料(变量变量 取值为一定范围内的任意值取值为一定范围内的任意值) 例:人体的身高、体重、总胆固醇例:人体的身高、体重、总胆固醇 统计资料的类型统
23、计资料的类型 41 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 定性变量(分类资料)定性变量(分类资料) 定义定义:将全体观测单位按照某种性质或特征分组,:将全体观测单位按照某种性质或特征分组, 然后再分别清点各组观察单位的个数。然后再分别清点各组观察单位的个数。 特点特点:没有度量衡单位,:没有度量衡单位, 多为间断性资料(通过枚举或记数得来)多为间断性资料(通过枚举或记数得来) 分为分为二分类二分类资料和资料和多项分类多项分类资料。资料。 42 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 阴性阴性 和和 阳性阳性 生存生存 与与 死亡死亡 转移转移
24、与与 无转移无转移 二分类资料 43 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 多项分类资料:多项分类资料: (1)类与类之间)类与类之间无无程度大小的差别:程度大小的差别: 人群血型人群血型: A、B、O、AB 职业分类职业分类:教师、医生、工人:教师、医生、工人 (2)类与类之间)类与类之间有有程度大小的差别(等级资料):程度大小的差别(等级资料): 疗效疗效:治愈、好转、无效;:治愈、好转、无效; 尿蛋白尿蛋白:(、:(、)、) 文化程度文化程度:小学及以下、中学、大专、本科及以上:小学及以下、中学、大专、本科及以上 44 医医 学学 统统 计计 学(第二版)学(第
25、二版) 李晓松李晓松 住院号住院号 年龄年龄 身高身高 体重体重 住院天数住院天数 职业职业 文化程度文化程度 分娩方式分娩方式 妊娠结局妊娠结局 20256552025655 2727 165165 71.571.5 5 5 教师教师 本科本科 顺产顺产 足月足月 20256532025653 2222 160160 74.074.0 5 5 工人工人 小学小学 助产助产 足月足月 20258302025830 2525 158158 68.068.0 6 6 管理员管理员 本科本科 顺产顺产 足月足月 20225432022543 2323 161161 69.069.0 5 5 无无 中
26、学中学 剖宫产剖宫产 足月足月 20224662022466 2525 159159 62.062.0 1111 商业商业 中学中学 剖宫产剖宫产 足月足月 20245352024535 2727 157157 68.068.0 2 2 无无 小学小学 顺产顺产 早产早产 20258342025834 2020 158158 66.066.0 4 4 无无 中学中学 助产助产 早产早产 20194642019464 2424 158158 70.570.5 3 3 无无 中学中学 助产助产 足月足月 20257832025783 2929 154154 57.057.0 7 7 干部干部 中学
27、中学 剖宫产剖宫产 足月足月 Quantitative data Quantitative data 定量资料定量资料 Categorical data Categorical data 定性资料定性资料 实例数据实例数据1 45 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 实例数据实例数据2 胆管癌患者部分指标胆管癌患者部分指标 编号编号 性别性别 年龄(岁)年龄(岁) 分化程度分化程度 分期分期 肝转移肝转移 生存时间生存时间(月月) (1) (2) (3) (5) (6) (7) (9) 1 男男 61 低分化低分化 阳性阳性 14 2 女女 58 高分化高分化 阴性
28、阴性 20 3 女女 63 高分化高分化 阴性阴性 19 4 女女 71 中分化中分化 阳性阳性 5 5 男男 59 高分化高分化 阴性阴性 35 46 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 各类变量互相转化各类变量互相转化 47 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 受试者编号受试者编号 血红蛋白含量血红蛋白含量 (g/L) 有序分类有序分类* 二项分类二项分类* * 1 12.5 2 0 2 13.0 2 0 3 14.1 2 0 4 15.3 1 1 5 17.4 1 1 6 10.2 3 1 *:1为为Hg升高,升高,2为正常,为正常
29、,3为贫血;为贫血;*:0为正常,为正常,1为异常为异常 48 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 资料类型间关系资料类型间关系 例:一组例:一组20 40岁成年人的血压岁成年人的血压 分为正常与异常两组,统计每组例数分为正常与异常两组,统计每组例数 8 低血压低血压 8 8 正常血压正常血压 1212 轻度高血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压 定量资料定量资料 有 序 分 类 有 序 分 类 二项分类资料二项分类资料 49 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 计量资料:直接录入原始数据。计量资
30、料:直接录入原始数据。 计数资料:需进行计数资料:需进行编码(仅为一个数字代码,并无实际意编码(仅为一个数字代码,并无实际意 义)义)后方可录入,否则不便于进一步运算。后方可录入,否则不便于进一步运算。 性别:性别: 女(女(1),男(),男(2);); 血型:血型: A(1), B(2), AB(3), O(4) 化验结果化验结果 :-(1),+(2),+(3),+(4) 50 变量的编码变量的编码 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 变量变量 类型类型 数值变量 分类变量 无序分类 有序分类:如血清反应,治疗效果等 二项分类:如生死,有效无效等 多项分类:如血型
31、,职业特征等 连续型变量:如:身高,体重 离散型变量:如子女数,脉搏数 51 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 2. 同质与变异同质与变异 homogeneity and variation 一个总体中有许多个体,他们之所以汇集起来共一个总体中有许多个体,他们之所以汇集起来共 同成为人们研究的对象,必定存在同成为人们研究的对象,必定存在共性共性。我们说。我们说些些 个体处于同一总体,就是指他们大同小异,具有个体处于同一总体,就是指他们大同小异,具有同质同质 性性。即即具有相同的背景、条件、属性具有相同的背景、条件、属性等。等。 52 医医 学学 统统 计计 学(第
32、二版)学(第二版) 李晓松李晓松 在统计学中可以把在统计学中可以把同质同质理解为对理解为对 研究指标影响较大的研究指标影响较大的、可以控制可以控制 的主要因素尽可能相同的主要因素尽可能相同。 例如研究儿童的身高时例如研究儿童的身高时,要求影要求影 响身高较大的响身高较大的、易控制的因素如易控制的因素如 性别性别、年龄年龄、民族民族、地区要相同地区要相同, 而不易控制的遗传而不易控制的遗传、营养等影响营养等影响 因素可以忽略因素可以忽略。 53 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 然而,同一总体内的各观察单位间存在差异又然而,同一总体内的各观察单位间存在差异又 是绝对
33、的,这种现象称为是绝对的,这种现象称为变异变异。 如同性别、同年龄、同民族、同地区健康儿如同性别、同年龄、同民族、同地区健康儿 童的身高、体重不尽相同;相同病种、病程童的身高、体重不尽相同;相同病种、病程 的病人,使用同一疗法,却未必有相同疗效。的病人,使用同一疗法,却未必有相同疗效。 这些不同就是变异。这些不同就是变异。 “医学统计学是处理医学资料中的医学统计学是处理医学资料中的同质性同质性和和变变 异性异性的科学与艺术的科学与艺术”。 54 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 55 变异示例变异示例 在研究事物的颜色时在研究事物的颜色时 在研究相同事物的形状时在
34、研究相同事物的形状时 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 56 变异示例变异示例 发热者体温波动发热者体温波动 正常人体温波动正常人体温波动 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 例例1. 调查调查2006年福州市年福州市8岁男孩的身高和体重。岁男孩的身高和体重。 例例2. 研究某降压药的疗效。研究某降压药的疗效。 同质同质:2006年、福州市、年、福州市、8岁男孩岁男孩 变异变异:身高和体重各不相同:身高和体重各不相同 同质同质:高血压患者、用某药治疗:高血压患者、用某药治疗 变异变异:疗效各不相同:疗效各不相同 57 医医 学学 统统
35、计计 学(第二版)学(第二版) 李晓松李晓松 3 3、总体与样本、总体与样本 举例:2012年福州市12岁健康女孩的身高情况 已知福州市2012年 12岁女孩有10万人 抽样调查抽样调查 随机抽取随机抽取100个女孩,个女孩, 测其身高,以此推断该测其身高,以此推断该 地地12岁女孩身高情况。岁女孩身高情况。 测量这测量这10万个人万个人 的身高,后统计分的身高,后统计分 析,得出结论析,得出结论 普查普查 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 总体:是根据研究目的所确定的同质观察对象的 全体,或者说所有同质的某指标实测值的集合。 样本:根据随机化的 原则从总体中抽取
36、有代 表性的部分观察单位, 其变量实测值构成样本。 3 3、总体与样本、总体与样本 59 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 有限总体有限总体 定义:总体是假想的,定义:总体是假想的, 没有时间和空间限制,观没有时间和空间限制,观 察单位数无限。察单位数无限。 总总 体体 定义:限定于特定的定义:限定于特定的 时间与空间范围之内的时间与空间范围之内的 有限个观察单位。有限个观察单位。 无限总体无限总体 举例:福建医科大学举例:福建医科大学 2012年大学生的血压值年大学生的血压值 举例:高血压患者使用举例:高血压患者使用 卡托普利后的血压值卡托普利后的血压值 Fin
37、ite Population Infinite Population 3 3、总体与样本、总体与样本 60 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 样本含量:样本所包含个体或个体值的个数。样本含量:样本所包含个体或个体值的个数。 List of Individuals 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 单 纯 随 机 抽 样 1 9 2 3 4 5 6 7 8 1 1 1 7 1 6 1 5 1 3 1 4 1 2 1 0 Population Sample 3 3、总体与样本、总体与样本 61 医医 学学 统统 计计
38、学(第二版)学(第二版) 李晓松李晓松 研究总体中的个体往往很多研究总体中的个体往往很多,甚至无限多甚至无限多。 一个不漏地观察其中的所有个体常常不可能;有一个不漏地观察其中的所有个体常常不可能;有 时即使可能时即使可能,也没有必要也没有必要。 科学的办法是从总体中抽取一部分有代表科学的办法是从总体中抽取一部分有代表 性的个体性的个体,这一过程称为抽样这一过程称为抽样(sampling); 从总体中随机抽取的部分观察单位从总体中随机抽取的部分观察单位,称为称为样本样本 (sample) 。 62 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 总体总体 样本样本 随机抽样随机抽
39、样 推断推断 总体与样本的关系:总体与样本的关系: 统计的作用是用较少的投入揭示随机现象的规律性。统计的作用是用较少的投入揭示随机现象的规律性。 63 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 既然是由部分推断全体,统计学的结论从既然是由部分推断全体,统计学的结论从 来就来就不是完全肯定或完全否定的不是完全肯定或完全否定的。 能不能成功地达到从样本推断总体的目的,能不能成功地达到从样本推断总体的目的, 关键是抽样的方法、样本的代表性和推断的技术,关键是抽样的方法、样本的代表性和推断的技术, 这些是统计学的核心内容这些是统计学的核心内容。 64 医医 学学 统统 计计 学(
40、第二版)学(第二版) 李晓松李晓松 4.4.参数和统计量参数和统计量 parameter and statistic 总体总体 样本样本 抽取部分观察单位抽取部分观察单位 统计量统计量 参参 数数 统计推断统计推断 、 pSX、 希腊字母希腊字母 拉丁字母拉丁字母 65 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 5、概率和频率、概率和频率 probability and frequency 概率:概率:描述不确定事件(随机事件)发生可能描述不确定事件(随机事件)发生可能 性大小的数值。事件性大小的数值。事件A发生的概率用发生的概率用P(A)表示。表示。 概率的取值界于概率
41、的取值界于0和和1之间。之间。P越接近越接近0,发生的,发生的 可能性越小;可能性越小;P越接近越接近1,发生的可能性越大。,发生的可能性越大。 随机现象随机现象:在一定条件下可能会出现两种或多在一定条件下可能会出现两种或多 种结果,究竟会发生哪种结果,事先不能确定,种结果,究竟会发生哪种结果,事先不能确定, 其表现结果称为随机事件。其表现结果称为随机事件。 66 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 医学研究的现象,大多数是随机现象。用相医学研究的现象,大多数是随机现象。用相 同治疗方法治疗某病的一群患者,只知道治疗同治疗方法治疗某病的一群患者,只知道治疗 转归可能
42、为治愈、好转、无效、死亡四种结果。转归可能为治愈、好转、无效、死亡四种结果。 这里的每一种可能发生的结果都是一个随机事这里的每一种可能发生的结果都是一个随机事 件。件。 在医学观察研究中,许多结果虽然有一定的在医学观察研究中,许多结果虽然有一定的 随机性,但当这些个体事件随机性,但当这些个体事件大量重复大量重复时,则可时,则可 以发现其中存在着一定的内在规律。以发现其中存在着一定的内在规律。 67 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 必然事件必然事件 P P = 1 = 1 不可能事件不可能事件 P P = 0 = 0 随机事件随机事件 0 0 P P 1 1 P
43、P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1) 称为称为小概率事件小概率事件( (习惯习惯) ),表示在一次实验或表示在一次实验或 观察中该事件发生的可能性很小,可以视为观察中该事件发生的可能性很小,可以视为 很可能不发生。很可能不发生。 小概率事件小概率事件 68 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 实际工作中,人们观察到的是频率而实际工作中,人们观察到的是频率而 非概率,样本的实际发生率称为非概率,样本的实际发生率称为频率频率。 考察某个可能的结果,若在考察某个可能的结果,若在n次观察次观察 中,有中,有m次观察到这种可能的结果,则称
44、次观察到这种可能的结果,则称 这种可能的结果发生的比例这种可能的结果发生的比例(f= m/N)为为频频 率率,m称为频数。称为频数。 69 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 举例:在医学上所说的患病率、病死率等都举例:在医学上所说的患病率、病死率等都 是频率。是频率。 频率频率f是一个随机抽样观察的结果,因此频率是一个随机抽样观察的结果,因此频率 f呈一定的呈一定的随机波动随机波动。如在某地区随机抽样调。如在某地区随机抽样调 查糖尿病的患病率,其结果如下:查糖尿病的患病率,其结果如下: 70 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 抽样(调
45、查) 人数n 100 500 1000 5000 10000 50000 100000 1000000 糖尿病人数 m 12 48 102 493 992 4999 10003 99999 频率(患病率 %)f 12. 0 9.60 10.2 9.86 9.92 10.00 10.00 10.00 由上述表可以看到频率由上述表可以看到频率f呈某种随机性。但随着抽样人数呈某种随机性。但随着抽样人数n的增大,的增大, 频率频率(患病率患病率)f随机波动的幅度越来越小并且趋向常数随机波动的幅度越来越小并且趋向常数10%。可以。可以 证明:当观察次数证明:当观察次数n越来越大,频率越来越大,频率f的随
46、机波动幅度越来越小,的随机波动幅度越来越小, 并最终趋向于一个常数,这个常数被称为随机事件并最终趋向于一个常数,这个常数被称为随机事件A发生的概率发生的概率 (又称为统计学上的概率定义又称为统计学上的概率定义)。 结果 71 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 频率与概率间的关系:频率与概率间的关系: 概率是参数,频率是统计量;概率是参数,频率是统计量; 频率总是围绕概率上下波动;频率总是围绕概率上下波动; 观察单位观察单位(实验次数实验次数)越多,频率越接近概率。越多,频率越接近概率。 可将频率作为概率的估计值。反之用频率估可将频率作为概率的估计值。反之用频率估 计概率是不可靠的。计概率是不可靠的。 72 医医 学学 统统 计计 学(第二版)学(第二版) 李晓松李晓松 并非每一位吸烟患者都会患肺癌,忠实的并非每一位吸烟患者都会患肺癌,忠实的 烟民们还振振有辞地举出若干吸烟有利长烟民们还振振有辞地举出若干吸烟有利长 寿的反例来:寿的反例来: 林彪不抽烟不喝酒只活了63岁; 周恩来只喝酒不抽烟,活了73岁; 毛泽东只抽烟不喝酒,活了83岁; 邓小平既抽烟又喝酒,活了93岁; 张学良吃喝嫖赌抽,活了103岁 现在还不抽烟不喝酒的同志们,要汲取历史上 沉教训啊! 如何反驳?如何反驳? 73 医医