医科大学统计学全套精品课件.ppt

上传人(卖家):金钥匙文档 文档编号:401827 上传时间:2020-03-27 格式:PPT 页数:497 大小:12.50MB
下载 相关 举报
医科大学统计学全套精品课件.ppt_第1页
第1页 / 共497页
医科大学统计学全套精品课件.ppt_第2页
第2页 / 共497页
医科大学统计学全套精品课件.ppt_第3页
第3页 / 共497页
医科大学统计学全套精品课件.ppt_第4页
第4页 / 共497页
医科大学统计学全套精品课件.ppt_第5页
第5页 / 共497页
点击查看更多>>
资源描述

1、柏建岭柏建岭 bjlcn 南京医科大学公共卫生学院生物统计学系南京医科大学公共卫生学院生物统计学系 Medical statistics 医学统计学 绪 论 (Introduction) 2020/3/27 柏建岭讲稿柏建岭讲稿 2 主要内容 引言 学科定义 基本概念 学习要求 2020/3/27 柏建岭讲稿柏建岭讲稿 3 天气预报 生活中的统计学 投机取巧 投机取巧 2020/3/27 柏建岭讲稿柏建岭讲稿 4 社会经济中的统计学 2020/3/27 柏建岭讲稿柏建岭讲稿 5 统计是什么? What is Statistics? 若想了解上帝在想什么,我们 就必须学统计,因为统计学就 是在量

2、测他的旨意。 Florence Nightingal 1820一一1910 2020/3/27 柏建岭讲稿柏建岭讲稿 6 统计学(Statistics) 研究数据的收集、整理、分析的一门学科。研究数据的收集、整理、分析的一门学科。 Webster 国际大词典国际大词典 Statistics is the science dealing with the collections, analysis, interpretation and presentation of masses of numerical data. 不列颠百科全书不列颠百科全书 Statistics is the scien

3、ce and art of dealing with variation in data through collection, classification and analysis in such a way as to obtain reliable result. 2020/3/27 柏建岭讲稿柏建岭讲稿 7 7 数据处理的工具和技能 2020/3/27 柏建岭讲稿柏建岭讲稿 8 统计学与医学研究的关系 医学研究中存在的大量随机现象 同样的药治疗患有同一疾病的患者,疗效可以不同同样的药治疗患有同一疾病的患者,疗效可以不同 相同的生活条件,各人健康状况可以不同相同的生活条件,各人健康状况

4、可以不同 同样的年龄和性别,儿童的身高和体重可以不同同样的年龄和性别,儿童的身高和体重可以不同 几乎可以这样说:绝大部分的医学现象均是随机 现象 对于一个具体个体,其最终的结局是不可确切预计的对于一个具体个体,其最终的结局是不可确切预计的 2020/3/27 柏建岭讲稿柏建岭讲稿 9 统计学与医学研究的关系 但是在医学观察研究中,许多结果有一定的随机但是在医学观察研究中,许多结果有一定的随机 性,也有一定的内在规律。性,也有一定的内在规律。 当这些个体事件大量重复时,则可以发现其中存当这些个体事件大量重复时,则可以发现其中存 在着一定的规律。在着一定的规律。 如何对这些变化规律加以总结?如何对

5、这些变化规律加以总结? 2020/3/27 柏建岭讲稿柏建岭讲稿 10 统计学与医学研究的关系 例如:分别用例如:分别用2种药种药(A药和药和B药药)治疗类风湿关节治疗类风湿关节 炎,各治疗炎,各治疗10名类风湿关节炎患者。名类风湿关节炎患者。 组别 有效 无效 合计 A药 7 3 10 B药 6 4 10 问:问:A药疗效比药疗效比B药疗效好吗?药疗效好吗? 2020/3/27 柏建岭讲稿柏建岭讲稿 11 统计学与医学研究的关系 对于这些有一定随机性的结果,要根据发生的概对于这些有一定随机性的结果,要根据发生的概 率大小才能下结论。这就是医学统计学要解决的率大小才能下结论。这就是医学统计学要

6、解决的 问题。问题。 研究医学中这些随机现象的发生规律的学科。研究医学中这些随机现象的发生规律的学科。 2020/3/27 柏建岭讲稿柏建岭讲稿 12 医学统计学(Medical Statistics) 基础:概率论和数理统计等数学的原理概率论和数理统计等数学的原理、方法方法 研究对象:医学资料医学资料 研究任务:搜集搜集、整理整理、分析和推断分析和推断 性质:一门应用学科一门应用学科 2020/3/27 柏建岭讲稿柏建岭讲稿 13 数理统计学与生物医学的结合 生物统计学生物统计学(Biostatistics) 医学统计学医学统计学(Medical Statistics) 卫生统计学卫生统计学

7、(Health Statistics) 2020/3/27 柏建岭讲稿柏建岭讲稿 14 基本概念 同质 异质 变异 总体和样本 参数和统计量 随机 概率和频率 小概率事件和小概率原理 变量的分类 2020/3/27 柏建岭讲稿柏建岭讲稿 15 同质 异质 同质同质(homogeneity): 性质相同性质相同 异质异质(heterogeneity): 性质不同性质不同 例如,调查某地例如,调查某地2011年年12岁男童身高,则它的观察单位是岁男童身高,则它的观察单位是 每一个儿童,它的同质基础是同一地区、同一年份、同一年每一个儿童,它的同质基础是同一地区、同一年份、同一年 龄、同为男性。龄、同

8、为男性。 个体的同质性是构成研究总体的必备条件个体的同质性是构成研究总体的必备条件 研究内容研究内容( (指标指标/ /变量变量) )不同,对同质性的要求不同不同,对同质性的要求不同 同质和异质是同质和异质是相对相对的概念的概念 2020/3/27 柏建岭讲稿柏建岭讲稿 16 在研究事物的形状时 同质和异质示例 在研究事物的颜色时 2020/3/27 柏建岭讲稿柏建岭讲稿 17 制定血红蛋白参考值范围时 2020/3/27 柏建岭讲稿柏建岭讲稿 18 制定白细胞参考值范围时 2020/3/27 柏建岭讲稿柏建岭讲稿 19 变异 同质事物之间的差别称为同质事物之间的差别称为变异变异(variat

9、ion) 亦称个体变异。亦称个体变异。 变异的两个方面:变异的两个方面: 个体与个体间的差别个体与个体间的差别 同一个体重复测量值间的差别同一个体重复测量值间的差别 2020/3/27 柏建岭讲稿柏建岭讲稿 20 个体变异(individual variation) 同质个体间的差异。同质个体间的差异。 一种或多种不可控因素一种或多种不可控因素(已知的或未知的已知的或未知的)作用下作用下 所产生的反映的综合表现。所产生的反映的综合表现。 结果是随机的结果是随机的(无法绝对正确地预测无法绝对正确地预测)。 个体变异是普遍存在的。个体变异是普遍存在的。 个体变异是有规律的。个体变异是有规律的。 没

10、有个体变异,就没有统计学!没有个体变异,就没有统计学! 2020/3/27 柏建岭讲稿柏建岭讲稿 21 总体和样本 总体总体 (population) 按研究目的所确定的同质研究对象某项观察指标按研究目的所确定的同质研究对象某项观察指标 的全体,即全体观察单位。的全体,即全体观察单位。 有限总体有限总体 (finite) 无限总体无限总体 (infinite) 个体个体 (individual) 组成总体的基本单位。组成总体的基本单位。 2020/3/27 柏建岭讲稿柏建岭讲稿 22 总体和样本 样本样本 (random sample) 从研究总体中随机抽取具有代表性的部分观察单位。从研究总体

11、中随机抽取具有代表性的部分观察单位。 代表性,包含了总体的特性代表性,包含了总体的特性 样本含量样本含量(sample size) 样本中包含个体的数量。样本中包含个体的数量。 2020/3/27 柏建岭讲稿柏建岭讲稿 23 参数和统计量 总体参数总体参数(population parameter) 总体的特征值称为参数。总体的特征值称为参数。 未知的,固有的,不变的,需要研究的!未知的,固有的,不变的,需要研究的! 样本统计量样本统计量(sample statistic) 由样本所算出的统计指标或特征值称为统计量。由样本所算出的统计指标或特征值称为统计量。 已知的,变化的,有误差的!已知的,

12、变化的,有误差的! 在总体被确定之后,总体参数就是一个在总体被确定之后,总体参数就是一个常数常数,是,是 不会变化不会变化的,不管你是否确切知其大小;而统计的,不管你是否确切知其大小;而统计 量是几乎总是随着样本而变的。量是几乎总是随着样本而变的。 2020/3/27 柏建岭讲稿柏建岭讲稿 24 参数和统计量 参数一般用参数一般用希腊字母希腊字母表示,表示, 如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率 p p 总体相关系数总体相关系数 r r 统计量一般用统计量一般用拉丁字母拉丁字母表示表示 如:样本均数如:样本均数 样本标准差样本标准差 s 样本率样本率 p 样本相关系数样

13、本相关系数 r X 2020/3/27 柏建岭讲稿柏建岭讲稿 25 平均身高平均身高 总体 样本 平均身高平均身高 X 总体参数总体参数 样本统计量样本统计量 2020/3/27 柏建岭讲稿柏建岭讲稿 26 随机(random) 机会均等,无主观影响机会均等,无主观影响 抽样随机抽样随机(random sampling) 有相同的机会被抽到有相同的机会被抽到 分组随机分组随机(random allocation) 有相同的机会被分到不同的组中有相同的机会被分到不同的组中 顺序随机顺序随机(random order) 有相同的机会先后接受处理有相同的机会先后接受处理 2020/3/27 柏建岭讲

14、稿柏建岭讲稿 27 mA f n 发发生生的的试试验验次次数数 试试验验总总次次数数 频率和概率 频率频率( relative frequency ):在:在n次随机试验中,次随机试验中, 事件事件A发生了发生了m次,则比值次,则比值 称为事件称为事件A在这在这n次试验中出现的频率。次试验中出现的频率。 2020/3/27 柏建岭讲稿柏建岭讲稿 28 抛硬币试验在概率的统计学定义上的诠释抛硬币试验在概率的统计学定义上的诠释 试验者 投掷次数 出现“正面”次 数 频率 X X X 20 12 0.6000 Buffon 4040 2048 0.5069 K.Pearson 12000 6019

15、0.5016 K.Pearson 24000 12012 0.5005 频率和概率 2020/3/27 柏建岭讲稿柏建岭讲稿 29 0 .1.2.3.4.5.6.7.8.9 1 f 01002003004005006007008009001000 n 2020/3/27 柏建岭讲稿柏建岭讲稿 30 概率的统计学定义:概率的统计学定义: 数理统计学中的大数定理表明:当观察次数数理统计学中的大数定理表明:当观察次数n 越来越大,频率越来越大,频率f的随机波动幅度越来越小,并最的随机波动幅度越来越小,并最 终趋向于一个常数终趋向于一个常数 p:随机事件:随机事件A发生的发生的概率概率 (probab

16、ility)。 概率概率描述了随机事件发生的可能性的大小。是一描述了随机事件发生的可能性的大小。是一 种参数。常用种参数。常用P来表示。来表示。 0P 1 频率和概率 2020/3/27 柏建岭讲稿柏建岭讲稿 31 小概率事件(rare event) 当某事件发生的概率很小当某事件发生的概率很小(可能性很小可能性很小),统计统计 学上称该事件为小概率事件。学上称该事件为小概率事件。 经典的小概率事件:瞎猫碰上死耗子经典的小概率事件:瞎猫碰上死耗子 医学上:小于或等于医学上:小于或等于0.05 2020/3/27 柏建岭讲稿柏建岭讲稿 32 小概率原理 小概率事件在一小概率事件在一次试验中认为是

17、不会发生次试验中认为是不会发生 的。的。 2020/3/27 柏建岭讲稿柏建岭讲稿 33 变量 医学研究中,根据研究目的的要求对一些观察项医学研究中,根据研究目的的要求对一些观察项 目或研究指标在一些研究对象中进行观察目或研究指标在一些研究对象中进行观察(或测量或测量), 由于这些指标存在着由于这些指标存在着变异变异,故把这些观察项目或,故把这些观察项目或 研究指标称为研究指标称为随机变量,随机变量,简称简称变量变量(variable)。 观察结果对应的取值称为观察结果对应的取值称为变量值变量值或或观察值观察值。 2020/3/27 柏建岭讲稿柏建岭讲稿 34 变量的分类 数值变量数值变量 n

18、umerical Variable 定量变量定量变量 可认为是连续的可认为是连续的, 往往有单位往往有单位, 取值间的差异是可度量的取值间的差异是可度量的。 分类变量分类变量 categorical Variable 取值是是分散取值是是分散、定性的定性的,表现为互不相容的类别和属性表现为互不相容的类别和属性。 无序分类无序分类(定性变量定性变量) : 无顺序无顺序,无间隔无间隔,仅有分类仅有分类 二项分类二项分类 多项分类多项分类 有序分类有序分类(等级变量等级变量):仅有顺序仅有顺序,无单位无单位,取值间的差取值间的差 异是不可度量的异是不可度量的 2020/3/27 柏建岭讲稿柏建岭讲稿

19、 35 资料类型的判断 病例号 年龄 (岁) 性别 身高 (m) 血型 心电图 尿WBC 职业 RBC 1012/L 1 35 女 1.65 A 正常 教师 4.67 2 44 男 1.74 B 正常 工人 5.21 3 26 男 1.80 O 正常 职员 4.10 4 25 女 1.61 AB 正常 农民 3.92 5 41 男 1.71 A 异常 + 工人 3.49 6 45 女 1.58 B 正常 + 工人 5.48 7 50 女 1.60 O 异常 + 干部 6.78 8 28 男 1.76 AB 正常 + 干部 7.10 9 31 女 1.62 O 正常 军人 5.24 2020/3

20、/27 柏建岭讲稿柏建岭讲稿 36 不同分类的互相转化 数值变量无序分类变量 数值变量有序分类变量 有序分类变量无序分类变量 信息量只有减少,不可增加 2020/3/27 柏建岭讲稿柏建岭讲稿 37 三个步骤 研究设计 运用医学统计学的起点,也是高质量地完成整个研究的运用医学统计学的起点,也是高质量地完成整个研究的 重要基础。重要基础。 资料分析 在研究设计基础上,通过实验在研究设计基础上,通过实验(试验试验)或调查,将所得数或调查,将所得数 据进行统计学处理的过程。据进行统计学处理的过程。 结论 在数据分析的基础上,应用统计学处理的结果,进行统在数据分析的基础上,应用统计学处理的结果,进行统

21、 计学推断;同时,依据相应的专业知识,作出专业性的计学推断;同时,依据相应的专业知识,作出专业性的 结论。结论。 2020/3/27 柏建岭讲稿柏建岭讲稿 38 基本概念汇总 总体 个体、个体变异 总体参数 未知 样本 代表性、抽样误差 随机 抽样 样本统计量已 知 统计 推断 风 险 2020/3/27 柏建岭讲稿柏建岭讲稿 39 医学统计学思维 归纳型思维归纳型思维 演绎型思维演绎型思维 从样本到总体从样本到总体 从个别到一般从个别到一般 2020/3/27 柏建岭讲稿柏建岭讲稿 40 建立医学统计学思维 生物体的变异是普遍存在的,这种变异是生物体的变异是普遍存在的,这种变异是 有规律的;

22、有规律的; 抽样误差是不可避免的,抽样误差是有规抽样误差是不可避免的,抽样误差是有规 律的;律的; 统计推断是有风险的,这种风险是可以控统计推断是有风险的,这种风险是可以控 制的。制的。 2020/3/27 柏建岭讲稿柏建岭讲稿 41 统计学的作用 工具工具 发现规律,而不是创造规律发现规律,而不是创造规律 概率论:规律性中的随机性概率论:规律性中的随机性 统计学:随机性中的规律性统计学:随机性中的规律性 2020/3/27 柏建岭讲稿柏建岭讲稿 42 学习医学统计学的要求 建立统计学思维 学会从不确定性学会从不确定性、机遇机遇、风险和推断的角度去思考医学风险和推断的角度去思考医学 问题提高自

23、身的科学素质和医学研究能力;问题提高自身的科学素质和医学研究能力; 学会设计 结合专业作出严密的试验设计并获得可靠、准确、完整结合专业作出严密的试验设计并获得可靠、准确、完整 的资料;的资料; 学会分析与表达 学会运用统计方法充分挖掘资料中蕴含的信息,恰如其学会运用统计方法充分挖掘资料中蕴含的信息,恰如其 分地进行理性概括,写出具有科学认证的研究报告和学分地进行理性概括,写出具有科学认证的研究报告和学 术论文。术论文。 2020/3/27 柏建岭讲稿柏建岭讲稿 43 参考书籍 陆守曾陆守曾 陈峰主编陈峰主编 医学统计学医学统计学 金丕焕金丕焕 陈峰主编陈峰主编 医用统计方法医用统计方法 202

24、0/3/27 柏建岭讲稿柏建岭讲稿 44 柏建岭柏建岭 南京医科大学公共卫生学院生物统计学系南京医科大学公共卫生学院生物统计学系 Medical statistics 医学统计学 统计资料的整理与描述 数值变量资料 2020/3/27 柏建岭讲稿柏建岭讲稿 46 主要内容 个体变异 频数分布表(图) 定量指标的描述 集中位置 离散趋势 总结 2020/3/27 柏建岭讲稿柏建岭讲稿 47 个体变异(individual variation) 是是同质同质观察对象间表现出的差异观察对象间表现出的差异。 变异是生物体在一种或多种变异是生物体在一种或多种、已知或未知的不可已知或未知的不可 控因素作用

25、下所产生的控因素作用下所产生的综合反映综合反映。 就个体而言:变异是就个体而言:变异是随机随机的的(random)。 就总体而言:个体变异是有就总体而言:个体变异是有规律规律的的。 2020/3/27 柏建岭讲稿柏建岭讲稿 48 原始数据 4.09 5.33 5.62 4.63 5.18 4.27 5.07 3.60 3.31 5.32 4.88 4.31 4.12 5.33 4.40 4.79 3.92 5.46 4.81 5.09 4.20 4.13 3.94 4.41 5.26 4.66 5.29 5.23 5.58 3.53 4.54 4.68 4.48 4.40 4.76 4.81

26、4.57 4.97 3.94 5.48 4.27 5.10 5.78 5.12 3.60 4.01 4.75 5.80 6.01 5.50 5.36 4.18 4.33 4.84 4.74 4.60 4.76 4.58 4.34 4.72 4.81 3.84 4.17 4.85 3.29 4.91 4.45 4.43 4.99 4.49 4.35 5.26 5.04 5.38 4.93 5.41 4.52 3.86 4.99 4.24 4.50 4.92 4.13 5.05 5.14 5.05 5.17 4.55 5.42 5.70 4.67 6.18 4.37 5.40 4.15 4.08

27、4.71 4.12 4.79 4.89 100名成年男性血红细胞计数(1012/L )资料如下: 频数分布表和频数分布图 原因:原因:由于个体变异的存在,医学研究中某指标由于个体变异的存在,医学研究中某指标 在各个体上的观察结果不是恒定不变的,但也不在各个体上的观察结果不是恒定不变的,但也不 是杂乱无章的,而是有一定规律的,呈一定的分是杂乱无章的,而是有一定规律的,呈一定的分 布布(distribution)。 解决:解决:频数分布表的基本思想:将原始数据按照频数分布表的基本思想:将原始数据按照 一定的标准划分为若干各组,合计各组的频数,一定的标准划分为若干各组,合计各组的频数, 得到频数分布

28、表;在将频数表绘制成频数分布图。得到频数分布表;在将频数表绘制成频数分布图。 2020/3/27 柏建岭讲稿柏建岭讲稿 50 频数表编制步骤 求极差求极差 选定适当的组段数后估计组距选定适当的组段数后估计组距 列出组段列出组段 划记归组获得频数划记归组获得频数 求频率求频率,完成频数表完成频数表 2020/3/27 柏建岭讲稿柏建岭讲稿 51 频数分布表的编制 求极差或全距求极差或全距(Range): R=Xmax- Xmin R = 6.18-3.29=2.89 选定适当的组段数后估计组距选定适当的组段数后估计组距( i ) 组段数的选取以能反映资料的分布特征为宜组段数的选取以能反映资料的分

29、布特征为宜 一般取一般取8 15组组 i =2.89/10=0.2890.3 2020/3/27 柏建岭讲稿柏建岭讲稿 52 频数分布表的编制 列出组段列出组段 组段的含义组段的含义:包括组段的下限而不含组段的上包括组段的下限而不含组段的上 限限 。如:如:3.20 等价于等价于 3.20,3.50) 第一个组段应包含最小值第一个组段应包含最小值 最后一个组段应包含最大值最后一个组段应包含最大值 2020/3/27 柏建岭讲稿柏建岭讲稿 53 频数分布表的编制 划记归组获得频数划记归组获得频数 常用的划记方法:常用的划记方法: “正正” ;“|” 求频率求频率,完成频数表完成频数表 相应的频数

30、除以总数即为频率相应的频数除以总数即为频率 各组段的频率总和为各组段的频率总和为1或者或者100% 100名成年男性血红细胞计数频数表 组 段 (1) 频 数 (2) 频 率(%) (3) 3.20 2 2.00 3.50 3 3.00 3.80 8 8.00 4.10 16 16.00 4.40 18 18.00 4.70 21 21.00 5.00 14 14.00 5.30 12 12.00 5.60 4 4.00 5.906.20 2 2.00 合 计 100 100.00 55 100名成年男子红细胞计数频数图 图2.1 100名成年男性的血红细胞计数的频数分布 人 数 血红细胞(1

31、012个/L) 3.2 3.5 3.8 4.1 4.4 4.7 5 .0 5.3 5.6 5.9 6.2 0 5 10 15 20 2020/3/27 柏建岭讲稿柏建岭讲稿 56 频数分布表和频数分布图的用途 描述分布类型描述分布类型 描述分布的特征描述分布的特征 便于发现特大便于发现特大、特小的可疑值特小的可疑值 便于计算有关指标、统计分析与处理便于计算有关指标、统计分析与处理 2020/3/27 柏建岭讲稿柏建岭讲稿 57 频数分布类型 对称分布对称分布: :以正态分布较为常见以正态分布较为常见 非对称分布:非对称分布:偏态分布偏态分布 正正偏态:右侧偏态:右侧左侧左侧 向向右右侧拖尾侧拖

32、尾 负负偏态:左侧偏态:左侧右侧右侧 向向左左侧拖尾侧拖尾 2020/3/27 柏建岭讲稿柏建岭讲稿 58 频数分布特征 数据分布的范围:数据分布的范围: 3.296.18 集中位置集中位置:中等大小人数居多中等大小人数居多,向中间集中向中间集中 数据最集中的区间:数据最集中的区间:4.705.00 离散趋势离散趋势:以中等大小的区间为中心以中等大小的区间为中心,向两侧逐渐减少向两侧逐渐减少 分布形态:分布形态:基本对称基本对称 2020/3/27 柏建岭讲稿柏建岭讲稿 59 图 239人发汞含量的频数分布 1 3 5 7 9 11 13 15 17 19 21 发汞含量(umol/kg) 7

33、0 60 50 40 30 20 10 0 人 数 2020/3/27 柏建岭讲稿柏建岭讲稿 60 图 某城市892名老年人生存质量自评分的频数分布 0 10 20 30 40 50 60 70 80 90 100 自评分 400 300 200 100 0 人 数 2020/3/27 柏建岭讲稿柏建岭讲稿 61 图 102名黑色数瘤患者的生存时间频数分布 1 5 10 15 20 25 30 35 40 45 生存时间(月) 40 30 20 10 0 人 数 2020/3/27 柏建岭讲稿柏建岭讲稿 62 图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 3

34、5 40 45 50 55 60 65 70 75 80 85 死亡年龄(岁) 2500 2000 1500 1000 500 0 2020/3/27 柏建岭讲稿柏建岭讲稿 63 数值变量资料的统计指标 集中位置的描述集中位置的描述 离散趋势的描述离散趋势的描述 2020/3/27 柏建岭讲稿柏建岭讲稿 64 集中位置的描述-平均数(average) 均数均数(arithmetic mean, mean) 12n XXX X n 12N XXX N 总体均数 样本均数 2020/3/27 柏建岭讲稿柏建岭讲稿 65 平均数(average) 加权均数加权均数(weighted mean) 均数

35、是加权均数的一个特例均数是加权均数的一个特例 nnnn n XXXX w 1 2 1 1 1 1 nnw XwXwXwX 2211 2020/3/27 柏建岭讲稿柏建岭讲稿 66 平均数(average) 几何均数几何均数(geometric mean) X n X XG n XXX X ln 21 ln exp lnlnln n n XXXG 21 2020/3/27 柏建岭讲稿柏建岭讲稿 67 几何均数例 1:10, 1:20, 1:40, 1:80, 1:160 4016080402010 5 G 40 6889. 3 5 160ln80ln40ln20ln10ln 6889. 3 ln

36、 eG X X 2020/3/27 柏建岭讲稿柏建岭讲稿 68 平均数(average) 中位数中位数(median) 将一组数据按从小到大的顺序排列,位置居中的将一组数据按从小到大的顺序排列,位置居中的 数即是中位数。数即是中位数。 为偶数为偶数当当 为奇数为奇数当当 nXX nX M nn n 2/ )( 12/2/ 2/ )1( 2020/3/27 柏建岭讲稿柏建岭讲稿 69 中位数例 9例正常人的发汞值(例正常人的发汞值( mol/kg ):): 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值:例正常人的发汞值: 1.1,

37、1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 2020/3/27 柏建岭讲稿柏建岭讲稿 70 平均数(average) L P1 P2 P3 P4 H P97 P98 P99 1% 1% 1% 1% 1% 1% 1% 同样有十分位数、四分位数 百分位数百分位数(percentile) 2020/3/27 柏建岭讲稿柏建岭讲稿 71 M = P50 排序数据:按从小到大顺序排列 X% ( 100-X ) % PX H L 为非整数当 为整数当 X% X% 2 1 )1%( )1%(%)( nX nXX P nX nXnX X 20

38、20/3/27 柏建岭讲稿柏建岭讲稿 72 平均数应用的注意事项 同质同质的资料计算平均数才有意义的资料计算平均数才有意义 根据根据资料分布的特征资料分布的特征选用适当的平均数选用适当的平均数 均数均数:单峰对称分布的资料:单峰对称分布的资料 几何均数几何均数:各变量值之间成倍数关系,分布呈偏态,经对:各变量值之间成倍数关系,分布呈偏态,经对 数变换后呈单峰对称分布资料数变换后呈单峰对称分布资料 中位数中位数:理论上可用于任何分布资料,但:理论上可用于任何分布资料,但当资料适合计算当资料适合计算 均数或几何均数时,不宜用中位数。均数或几何均数时,不宜用中位数。( (偏态分布、不规则分偏态分布、

39、不规则分 布资料、有不确定值的资料布资料、有不确定值的资料) 2020/3/27 柏建岭讲稿柏建岭讲稿 73 平均数应用的注意事项 计算几何均数时计算几何均数时: 变量值中不能有变量值中不能有0 同一组变量值不能同时存在正、负值同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数样本含量较少时不宜计算靠近两端的百分位数 平均数要与平均数要与变异指标变异指标结合使用结合使用 2020/3/27 柏建岭讲稿柏建岭讲稿 74 看一个例子: 有甲有甲、乙两组同性别同年龄儿

40、童体重乙两组同性别同年龄儿童体重(kg): 甲组甲组 26,28,30,32,34 =30 kg n甲 甲=5 乙组乙组 24, 27, 30, 33, 36 =30 kg n乙 乙=5 上述两组数据的特点:上述两组数据的特点: 集中位置集中位置 相同:均为相同:均为30kg 离散程度不同:各观察值离散程度不同:各观察值离均数的远近离均数的远近不同不同 甲甲X 乙乙X 2020/3/27 柏建岭讲稿柏建岭讲稿 75 离散趋势的描述 全距全距(Range) 亦称极差,记为亦称极差,记为R,是一组变量值中最大值与最,是一组变量值中最大值与最 小值之差。小值之差。 优点:简单明了优点:简单明了 缺点

41、:缺点:不灵敏、不稳定不灵敏、不稳定 2020/3/27 柏建岭讲稿柏建岭讲稿 76 离散趋势的描述 四分位数间距四分位数间距(interquartile range) 定义为:定义为: QL QU,即,即中间一半观察值的极差中间一半观察值的极差。 四分位数四分位数(quartile)是两个特定的百分位数:第是两个特定的百分位数:第25%分分 位数位数P25,和第,和第75%分位数分位数P75,分别记为,分别记为QL和和QU。 四分位数间距较全距稳定四分位数间距较全距稳定,常与常与中位数中位数一起一起,描述不对描述不对 称分布资料的特征称分布资料的特征。 2020/3/27 柏建岭讲稿柏建岭讲

42、稿 77 25 % 25% 25% 25% 排序数据:按从小到大顺序排列 M QL QU inter-quartile range Q2 Q1 Q3 2020/3/27 柏建岭讲稿柏建岭讲稿 78 离散趋势的描述 方差方差(Variance)和标准差和标准差(Standard Deviation) 总体均数总体均数 未知,用样本均数估计未知,用样本均数估计 N X 2 2 N X 2 1 2 2 n XX s 1 2 n XX s 2020/3/27 柏建岭讲稿柏建岭讲稿 79 标准差 1 2 n XX s “离均差平方之和 平均后的方根” “均方根” n-1 称为(标准差的)自由度,即“可以

43、自由变异的程度” 分子有n项离均差,但只有n-1项独立,根据 任一离均差均可以用另外n-1个离均差表示,所以“只有 n-1个独立的离均差”。 0XX 2020/3/27 柏建岭讲稿柏建岭讲稿 80 标准差大标准差大: 分布分散、不整齐、波动大;分布分散、不整齐、波动大; 标准差小标准差小: 分布集中、整齐、波动较小。分布集中、整齐、波动较小。 2020/3/27 柏建岭讲稿柏建岭讲稿 81 离散趋势的描述 变异系数变异系数(coefficient of variation) 亦称离散系数亦称离散系数(coefficient of dispersion),是标准差,是标准差s与均数之比,即:与均

44、数之比,即: %100 X s CV 2020/3/27 柏建岭讲稿柏建岭讲稿 82 变异系数的两个特点及相应的用途 没有单位没有单位 反映标准差占均数的百分比或标准差是均数的几倍反映标准差占均数的百分比或标准差是均数的几倍 可用来可用来比较度量衡单位不同的资料的变异度比较度量衡单位不同的资料的变异度 不受平均水平的影响不受平均水平的影响 反映的是以均数为基数的相对变异的大小反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度比较均数相差悬殊的资料的变异度 2020/3/27 柏建岭讲稿柏建岭讲稿 83 某地20岁男子100人,身高均数为171.06cm,标准差 为4.95cm

45、;体重均数为61.54kg,标准差为5.02kg, 试比较身高和体重的变异。 身高 体重 4.95 100%2.89% 171.06 CV 5.02 100%8.16% 61.54 CV 2020/3/27 柏建岭讲稿柏建岭讲稿 84 绝对变异受平均水平的影响绝对变异受平均水平的影响 相对变异排除了平均水平的影响相对变异排除了平均水平的影响 年龄组 人数 均数 标准差 变异系数(%) 12月 100 56.3 2.1 3.7 56月 120 66.5 2.2 3.3 33.5岁 300 96.1 3.1 3.2 55.5岁 400 107.8 3.3 3.1 4个不同年龄组儿童身高(cm)的变

46、异 2020/3/27 柏建岭讲稿柏建岭讲稿 85 平均数与变异度的关系 平均数表示的平均数表示的集中性集中性与变异度表示的与变异度表示的离散性离散性,是,是 从两个不同的角度阐明计量资料的特征从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差变异度越大,平均数对各变量值的代表性越差 2020/3/27 柏建岭讲稿柏建岭讲稿 86 平均数与变异度的关系 通常,平均数与变异指标一起描述资料的通常,平均数与变异指标一起描述资料的 分布特征。分布特征。 用均数和标准差描述正态分布资料的特征;用均数和标准差描述正态分布资料的特征; 用中位数和四分位数间距描述偏态分布资料的特征。用中位数和四分位数间距描述偏态分布资料的特征。 2020/3/27 柏建岭讲稿柏建岭讲稿 87 资料的指标描述 统计描述的一个重要的组成部分统计描述的一个重要的组成部分

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(医科大学统计学全套精品课件.ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|