1、医学统计学医学统计学全册全册配套教学课件配套教学课件3Medical statistics医学统计学绪 论 (Introduction)2023-2-6柏建岭讲稿柏建岭讲稿3主要内容l 引言l 学科定义l 基本概念l 学习要求2023-2-6柏建岭讲稿柏建岭讲稿4天气预报生活中的统计学投机取巧投机取巧2023-2-6柏建岭讲稿柏建岭讲稿5社会经济中的统计学2023-2-6柏建岭讲稿柏建岭讲稿6统计是什么?What is Statistics?l若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。Florence nightingal 1820一一19102023-2-6柏建岭
2、讲稿柏建岭讲稿7统计学(Statistics)l研究数据的收集、整理、分析的一门学科。研究数据的收集、整理、分析的一门学科。Webster 国际大词典国际大词典Statistics is the science dealing with the collections,analysis,interpretation and presentation of masses of numerical data.不列颠百科全书不列颠百科全书Statistics is the science and art of dealing with variation in data through collec
3、tion,classification and analysis in such a way as to obtain reliable result.2023-2-6柏建岭讲稿柏建岭讲稿88数据处理的工具和技能2023-2-6柏建岭讲稿柏建岭讲稿9统计学与医学研究的关系 l 医学研究中存在的大量随机现象同样的药治疗患有同一疾病的患者,疗效可以不同同样的药治疗患有同一疾病的患者,疗效可以不同相同的生活条件,各人健康状况可以不同相同的生活条件,各人健康状况可以不同同样的年龄和性别,儿童的身高和体重可以不同同样的年龄和性别,儿童的身高和体重可以不同l 几乎可以这样说:绝大部分的医学现象均是随机现象
4、对于一个具体个体,其最终的结局是不可确切预计的对于一个具体个体,其最终的结局是不可确切预计的2023-2-6柏建岭讲稿柏建岭讲稿10统计学与医学研究的关系l 但是在医学观察研究中,许多结果有一定的随机但是在医学观察研究中,许多结果有一定的随机性,也有一定的内在规律。性,也有一定的内在规律。l 当这些个体事件大量重复时,则可以发现其中存当这些个体事件大量重复时,则可以发现其中存在着一定的规律。在着一定的规律。l 如何对这些变化规律加以总结?如何对这些变化规律加以总结?2023-2-6柏建岭讲稿柏建岭讲稿11统计学与医学研究的关系l 例如:分别用例如:分别用2种药种药(A药和药和B药药)治疗类风湿
5、关节治疗类风湿关节炎,各治疗炎,各治疗10名类风湿关节炎患者。名类风湿关节炎患者。组别组别有效有效无效无效合计合计A药药7310B药药6410问:问:A药疗效比药疗效比B药疗效好吗?药疗效好吗?2023-2-6柏建岭讲稿柏建岭讲稿12统计学与医学研究的关系l 对于这些有一定随机性的结果,要根据发生的概对于这些有一定随机性的结果,要根据发生的概率大小才能下结论。这就是医学统计学要解决的率大小才能下结论。这就是医学统计学要解决的问题。问题。l 研究医学中这些随机现象的发生规律的学科。研究医学中这些随机现象的发生规律的学科。2023-2-6柏建岭讲稿柏建岭讲稿13医学统计学(Medical Stat
6、istics)l 基础:概率论和数理统计等数学的原理、方法概率论和数理统计等数学的原理、方法l 研究对象:医学资料医学资料l 研究任务:搜集、整理、分析和推断搜集、整理、分析和推断l 性质:一门应用学科一门应用学科2023-2-6柏建岭讲稿柏建岭讲稿14数理统计学与生物医学的结合l生物统计学生物统计学(Biostatistics)l医学统计学医学统计学(Medical Statistics)l卫生统计学卫生统计学(Health Statistics)2023-2-6柏建岭讲稿柏建岭讲稿15基本概念l 同质 异质l 变异l 总体和样本l 参数和统计量l 随机l 概率和频率l 小概率事件和小概率原
7、理l 变量的分类2023-2-6柏建岭讲稿柏建岭讲稿16同质 异质l 同质同质(homogeneity):性质相同性质相同l 异质异质(heterogeneity):性质不同性质不同 例如,调查某地例如,调查某地2011年年12岁男童身高,则它的观察单位岁男童身高,则它的观察单位是每一个儿童,它的同质基础是同一地区、同一年份、同一是每一个儿童,它的同质基础是同一地区、同一年份、同一年龄、同为男性。年龄、同为男性。n 个体的同质性是构成研究总体的必备条件个体的同质性是构成研究总体的必备条件n 研究内容研究内容(指标指标/变量变量)不同,对同质性的要求不同不同,对同质性的要求不同 同质和异质是同质
8、和异质是相对相对的概念的概念2023-2-6柏建岭讲稿柏建岭讲稿17在研究事物的形状时同质和异质示例在研究事物的颜色时2023-2-6柏建岭讲稿柏建岭讲稿18制定血红蛋白参考值范围时2023-2-6柏建岭讲稿柏建岭讲稿19制定白细胞参考值范围时2023-2-6柏建岭讲稿柏建岭讲稿20变异同质事物之间的差别称为同质事物之间的差别称为变异变异(variation)亦称个体变异。亦称个体变异。变异的两个方面:变异的两个方面:个体与个体间的差别个体与个体间的差别 同一个体重复测量值间的差别同一个体重复测量值间的差别2023-2-6柏建岭讲稿柏建岭讲稿21个体变异(individual variatio
9、n)l 同质个体间的差异。同质个体间的差异。l 一种或多种不可控因素一种或多种不可控因素(已知的或未知的已知的或未知的)作用下作用下所产生的反映的综合表现。所产生的反映的综合表现。l 结果是随机的结果是随机的(无法绝对正确地预测无法绝对正确地预测)。l 个体变异是普遍存在的。个体变异是普遍存在的。l 个体变异是有规律的。个体变异是有规律的。l 没有个体变异,就没有统计学!没有个体变异,就没有统计学!2023-2-6柏建岭讲稿柏建岭讲稿22总体和样本l 总体总体(population)按研究目的所确定的同质研究对象某项观察指标按研究目的所确定的同质研究对象某项观察指标的全体,即全体观察单位。的全
10、体,即全体观察单位。有限总体有限总体(finite)无限总体无限总体(infinite)l 个体个体(individual)组成总体的基本单位。组成总体的基本单位。2023-2-6柏建岭讲稿柏建岭讲稿23总体和样本l 样本样本(random sample)从研究总体中随机抽取具有代表性的部分观察单位。从研究总体中随机抽取具有代表性的部分观察单位。代表性,包含了总体的特性代表性,包含了总体的特性l 样本含量样本含量(sample size)样本中包含个体的数量。样本中包含个体的数量。2023-2-6柏建岭讲稿柏建岭讲稿24参数和统计量l 总体参数总体参数(population parameter
11、)总体的特征值称为参数。总体的特征值称为参数。未知的,固有的,不变的,需要研究的!未知的,固有的,不变的,需要研究的!l 样本统计量样本统计量(sample statistic)由样本所算出的统计指标或特征值称为统计量。由样本所算出的统计指标或特征值称为统计量。已知的,变化的,有误差的!已知的,变化的,有误差的!l 在总体被确定之后,总体参数就是一个在总体被确定之后,总体参数就是一个常数常数,是,是不会变化不会变化的,不管你是否确切知其大小;而统计的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。量是几乎总是随着样本而变的。2023-2-6柏建岭讲稿柏建岭讲稿25参数和统计量l 参
12、数一般用参数一般用希腊字母希腊字母表示,表示,如:总体均数如:总体均数 总体标准差总体标准差 总体率总体率 p p 总体相关系数总体相关系数 r rl 统计量一般用统计量一般用拉丁字母拉丁字母表示表示 如:样本均数如:样本均数 样本标准差样本标准差 s 样本率样本率 p 样本相关系数样本相关系数 rX2023-2-6柏建岭讲稿柏建岭讲稿26平均身高平均身高总体样本平均身高平均身高X总体参数总体参数样本统计量样本统计量2023-2-6柏建岭讲稿柏建岭讲稿27随机(random)机会均等,无主观影响机会均等,无主观影响 抽样随机抽样随机(random sampling)有相同的机会被抽到有相同的机
13、会被抽到 分组随机分组随机(random allocation)有相同的机会被分到不同的组中有相同的机会被分到不同的组中 顺序随机顺序随机(random order)有相同的机会先后接受处理有相同的机会先后接受处理2023-2-6柏建岭讲稿柏建岭讲稿28mAfn发发生生的的试试验验次次数数试试验验总总次次数数频率和概率 频率频率(relative frequency):在:在n次随机试验中,次随机试验中,事件事件A发生了发生了m次,则比值次,则比值 称为事件称为事件A在这在这n次试验中出现的频率。次试验中出现的频率。2023-2-6柏建岭讲稿柏建岭讲稿29抛硬币试验在概率的统计学定义上的诠释抛
14、硬币试验在概率的统计学定义上的诠释试验者试验者投掷次数投掷次数出现出现“正面正面”次次数数频率频率X X X20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005频率和概率2023-2-6柏建岭讲稿柏建岭讲稿300.1.2.3.4.5.6.7.8.91f01002003004005006007008009001000n2023-2-6柏建岭讲稿柏建岭讲稿31l 概率的统计学定义:概率的统计学定义:数理统计学中的大数定理表明:当观察次数数理统计学中的大数定理表明:当观察次数n越来越大,频率越来
15、越大,频率f的随机波动幅度越来越小,并最的随机波动幅度越来越小,并最终趋向于一个常数终趋向于一个常数 p:随机事件:随机事件A发生的发生的概率概率(probability)。l 概率概率描述了随机事件发生的可能性的大小。是一描述了随机事件发生的可能性的大小。是一种参数。常用种参数。常用P来表示。来表示。0P 1频率和概率2023-2-6柏建岭讲稿柏建岭讲稿32小概率事件(rare event)当某事件发生的概率很小当某事件发生的概率很小(可能性很小可能性很小),统计统计学上称该事件为小概率事件。学上称该事件为小概率事件。经典的小概率事件:瞎猫碰上死耗子经典的小概率事件:瞎猫碰上死耗子医学上:小
16、于或等于医学上:小于或等于0.052023-2-6柏建岭讲稿柏建岭讲稿33小概率原理l小概率事件在一小概率事件在一次试验中认为是不会发生次试验中认为是不会发生的。的。2023-2-6柏建岭讲稿柏建岭讲稿34变量l 医学研究中,根据研究目的的要求对一些观察项医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察目或研究指标在一些研究对象中进行观察(或测量或测量),由于这些指标存在着由于这些指标存在着变异变异,故把这些观察项目或,故把这些观察项目或研究指标称为研究指标称为随机变量,随机变量,简称简称变量变量(variable)。l 观察结果对应的取值称为观察结果对应的取值称
17、为变量值变量值或或观察值观察值。2023-2-6柏建岭讲稿柏建岭讲稿35变量的分类l 数值变量数值变量 numerical Variable 定量变量定量变量 可认为是连续的可认为是连续的,往往有单位往往有单位,取值间的差异是可度量的。取值间的差异是可度量的。l 分类变量分类变量 categorical Variable 取值是是分散、定性的,表现为互不相容的类别和属性。取值是是分散、定性的,表现为互不相容的类别和属性。无序分类无序分类(定性变量定性变量):无顺序,无间隔,仅有分类无顺序,无间隔,仅有分类p 二项分类二项分类p 多项分类多项分类 有序分类有序分类(等级变量等级变量):仅有顺序,
18、无单位,取值间的差仅有顺序,无单位,取值间的差异是不可度量的异是不可度量的2023-2-6柏建岭讲稿柏建岭讲稿36资料类型的判断病例号病例号年龄年龄(岁岁)性别性别身高身高(m)血型血型心电图心电图尿尿WBC职业职业RBC1012/L135女女1.65A正常正常教师教师4.67244男男1.74B正常正常工人工人5.21326男男1.80O正常正常职员职员4.10425女女1.61AB正常正常农民农民3.92541男男1.71A异常异常+工人工人3.49645女女1.58B正常正常+工人工人5.48750女女1.60O异常异常+干部干部6.78828男男1.76AB正常正常+干部干部7.109
19、31女女1.62O正常正常军人军人5.242023-2-6柏建岭讲稿柏建岭讲稿37不同分类的互相转化n 数值变量无序分类变量n 数值变量有序分类变量n 有序分类变量无序分类变量信息量只有减少,不可增加2023-2-6柏建岭讲稿柏建岭讲稿38三个步骤 l研究设计 运用医学统计学的起点,也是高质量地完成整个研究的运用医学统计学的起点,也是高质量地完成整个研究的重要基础。重要基础。l资料分析 在研究设计基础上,通过实验在研究设计基础上,通过实验(试验试验)或调查,将所得数或调查,将所得数据进行统计学处理的过程。据进行统计学处理的过程。l结论 在数据分析的基础上,应用统计学处理的结果,进行统在数据分析
20、的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的计学推断;同时,依据相应的专业知识,作出专业性的结论。结论。2023-2-6柏建岭讲稿柏建岭讲稿39基本概念汇总总体个体、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风 险2023-2-6柏建岭讲稿柏建岭讲稿40医学统计学思维l 归纳型思维归纳型思维 演绎型思维演绎型思维l 从样本到总体从样本到总体 l 从个别到一般从个别到一般2023-2-6柏建岭讲稿柏建岭讲稿41建立医学统计学思维 l 生物体的变异是普遍存在的,这种变异是生物体的变异是普遍存在的,这种变异是有规律的;有规律的;l
21、 抽样误差是不可避免的,抽样误差是有规抽样误差是不可避免的,抽样误差是有规律的;律的;l 统计推断是有风险的,这种风险是可以控统计推断是有风险的,这种风险是可以控制的。制的。2023-2-6柏建岭讲稿柏建岭讲稿42统计学的作用l 工具工具l 发现规律,而不是创造规律发现规律,而不是创造规律概率论:规律性中的随机性概率论:规律性中的随机性统计学:随机性中的规律性统计学:随机性中的规律性2023-2-6柏建岭讲稿柏建岭讲稿43学习医学统计学的要求l建立统计学思维学会从不确定性、机遇、风险和推断的角度去思考医学学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;问题
22、提高自身的科学素质和医学研究能力;l学会设计结合专业作出严密的试验设计并获得可靠、准确、完整结合专业作出严密的试验设计并获得可靠、准确、完整的资料;的资料;l学会分析与表达学会运用统计方法充分挖掘资料中蕴含的信息,恰如其学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学分地进行理性概括,写出具有科学认证的研究报告和学术论文。术论文。2023-2-6柏建岭讲稿柏建岭讲稿44参考书籍l 陆守曾陆守曾 陈峰主编陈峰主编 医学统计学医学统计学l 金丕焕金丕焕 陈峰主编陈峰主编 医用统计方法医用统计方法2023-2-6柏建岭讲稿柏建岭讲稿45Medical
23、statistics医学统计学统计资料的整理与描述数值变量资料2023-2-6柏建岭讲稿柏建岭讲稿47主要内容l 个体变异l 频数分布表(图)l 定量指标的描述l 集中位置l 离散趋势l总结2023-2-6柏建岭讲稿柏建岭讲稿48个体变异(individual variation)l 是是同质同质观察对象间表现出的差异。观察对象间表现出的差异。l 变异是生物体在一种或多种、已知或未知的不可变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的控因素作用下所产生的综合反映综合反映。l 就个体而言:变异是就个体而言:变异是随机随机的的(random)。l 就总体而言:个体变异是有就总体而言
24、:个体变异是有规律规律的。的。2023-2-6柏建岭讲稿柏建岭讲稿49原始数据4.095.335.624.635.184.275.073.603.315.324.884.314.125.334.404.793.925.464.815.094.204.133.944.415.264.665.295.235.583.534.544.684.484.404.764.814.574.973.945.484.275.105.785.123.604.014.755.806.015.505.364.184.334.844.744.604.764.584.344.724.813.844.174.853.294
25、.914.454.434.994.494.355.265.045.384.935.414.523.864.994.244.504.924.135.055.145.055.174.555.425.704.676.184.375.404.154.084.714.124.794.89100名成年男性血红细胞计数(1012/L)资料如下:频数分布表和频数分布图l 原因:原因:由于个体变异的存在,医学研究中某指标由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分是杂乱无章的,而是有一定规律的,
26、呈一定的分布布(distribution)。l 解决:解决:频数分布表的基本思想:将原始数据按照频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。得到频数分布表;在将频数表绘制成频数分布图。2023-2-6柏建岭讲稿柏建岭讲稿51频数表编制步骤 l 求极差求极差l 选定适当的组段数后估计组距选定适当的组段数后估计组距l 列出组段列出组段l 划记归组获得频数划记归组获得频数l 求频率,完成频数表求频率,完成频数表 2023-2-6柏建岭讲稿柏建岭讲稿52频数分布表的编制l求极差或全距
27、(求极差或全距(Range):R=Xmax-XminR=6.18-3.29=2.89l选定适当的组段数后估计组距选定适当的组段数后估计组距(i)组段数的选取以能反映资料的分布特征为宜组段数的选取以能反映资料的分布特征为宜一般取一般取8 15组组 i=2.89/10=0.2890.32023-2-6柏建岭讲稿柏建岭讲稿53频数分布表的编制l列出组段列出组段组段的含义组段的含义:包括组段的下限而不含组段的上包括组段的下限而不含组段的上限限。如:。如:3.20 等价于等价于 3.20,3.50)第一个组段应包含最小值第一个组段应包含最小值 最后一个组段应包含最大值最后一个组段应包含最大值2023-2
28、-6柏建岭讲稿柏建岭讲稿54频数分布表的编制l划记归组获得频数划记归组获得频数常用的划记方法:常用的划记方法:“正正”;“|”l求频率,完成频数表求频率,完成频数表相应的频数除以总数即为频率相应的频数除以总数即为频率各组段的频率总和为各组段的频率总和为1或者或者100%100名成年男性血红细胞计数频数表组组 段段(1)频频 数数(2)频频 率率(%)(3)3.2022.003.5033.003.8088.004.101616.004.401818.004.702121.005.001414.005.301212.005.6044.005.906.2022.00合合 计计100100.00561
29、00名成年男子红细胞计数频数图图2.1 100名成年男性的血红细胞计数的频数分布 人数血红细胞(1012个/L)3.2 3.5 3.8 4.1 4.4 4.7 5.0 5.3 5.6 5.9 6.2 0 5 10 15 20 2023-2-6柏建岭讲稿柏建岭讲稿57频数分布表和频数分布图的用途 l 描述分布类型描述分布类型l 描述分布的特征描述分布的特征l 便于发现特大、特小的可疑值便于发现特大、特小的可疑值l 便于计算有关指标、统计分析与处理便于计算有关指标、统计分析与处理2023-2-6柏建岭讲稿柏建岭讲稿58频数分布类型l对称分布对称分布:以正态分布较为常见以正态分布较为常见l非对称分布
30、:非对称分布:偏态分布偏态分布正正偏态:右侧偏态:右侧左侧左侧 向向右右侧拖尾侧拖尾 负负偏态:左侧偏态:左侧右侧右侧 向向左左侧拖尾侧拖尾 2023-2-6柏建岭讲稿柏建岭讲稿59频数分布特征 数据分布的范围:数据分布的范围:3.296.18 集中位置集中位置:中等大小人数居多,向中间集中中等大小人数居多,向中间集中数据最集中的区间:数据最集中的区间:4.705.00 离散趋势离散趋势:以中等大小的区间为中心,向两侧逐渐减少以中等大小的区间为中心,向两侧逐渐减少 分布形态:分布形态:基本对称基本对称2023-2-6柏建岭讲稿柏建岭讲稿60图 239人发汞含量的频数分布 1 3 5 7 9 1
31、1 13 15 17 19 21发汞含量(umol/kg)70605040302010 0人数2023-2-6柏建岭讲稿柏建岭讲稿61图 某城市892名老年人生存质量自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数2023-2-6柏建岭讲稿柏建岭讲稿62图 102名黑色数瘤患者的生存时间频数分布 1 5 10 15 20 25 30 35 40 45生存时间(月)40302010 0人数2023-2-6柏建岭讲稿柏建岭讲稿63图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 35 40 45
32、50 55 60 65 70 75 80 85死亡年龄(岁)2500200015001000 500 02023-2-6柏建岭讲稿柏建岭讲稿64数值变量资料的统计指标l 集中位置的描述集中位置的描述l 离散趋势的描述离散趋势的描述2023-2-6柏建岭讲稿柏建岭讲稿65集中位置的描述-平均数(average)l 均数均数(arithmetic mean,mean)12nXXXXn 12NXXXN 总体均数样本均数2023-2-6柏建岭讲稿柏建岭讲稿66平均数(average)l加权均数加权均数(weighted mean)均数是加权均数的一个特例均数是加权均数的一个特例nnnnnXXXXw12
33、1111 nnwXwXwXwX 22112023-2-6柏建岭讲稿柏建岭讲稿67平均数(average)l几何均数几何均数(geometric mean)XnXXGnXXXXln21lnexplnlnln nnXXXG 212023-2-6柏建岭讲稿柏建岭讲稿68几何均数例 1:10,1:20,1:40,1:80,1:16040160804020105 G406889.35160ln80ln40ln20ln10ln6889.3ln eGXX2023-2-6柏建岭讲稿柏建岭讲稿69平均数(average)l 中位数中位数(median)将一组数据按从小到大的顺序排列,位置居中的将一组数据按从小到
34、大的顺序排列,位置居中的数即是中位数。数即是中位数。为偶数为偶数当当为奇数为奇数当当nXXnXMnnn 2/)(12/2/2/)1(2023-2-6柏建岭讲稿柏建岭讲稿70中位数例 9例正常人的发汞值(例正常人的发汞值(mol/kg):):1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 2023-2-6柏建岭讲稿柏建岭讲稿71平均数(average)LP1P2P3P4HP97P98P991%1%1%
35、1%1%1%1%同样有十分位数、四分位数l百分位数百分位数(percentile)2023-2-6柏建岭讲稿柏建岭讲稿72 M=P50排序数据:按从小到大顺序排列X%(100-X)%PXHL为非整数当为整数当X%X%21)1%()1%(%)(nXnXXPnXnXnXX2023-2-6柏建岭讲稿柏建岭讲稿73平均数应用的注意事项l 同质同质的资料计算平均数才有意义的资料计算平均数才有意义l 根据根据资料分布的特征资料分布的特征选用适当的平均数选用适当的平均数 均数均数:单峰对称分布的资料:单峰对称分布的资料 几何均数几何均数:各变量值之间成倍数关系,分布呈偏态,经对数:各变量值之间成倍数关系,分
36、布呈偏态,经对数变换后呈单峰对称分布资料变换后呈单峰对称分布资料 中位数中位数:理论上可用于任何分布资料,但:理论上可用于任何分布资料,但当资料适合计算均当资料适合计算均数或几何均数时,不宜用中位数。数或几何均数时,不宜用中位数。(偏态分布、不规则分布偏态分布、不规则分布资料、有不确定值的资料资料、有不确定值的资料)2023-2-6柏建岭讲稿柏建岭讲稿74平均数应用的注意事项 计算几何均数时计算几何均数时:变量值中不能有变量值中不能有0 同一组变量值不能同时存在正、负值同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号若变量值全为负值,可先将负号除去,算出
37、结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数样本含量较少时不宜计算靠近两端的百分位数 平均数要与平均数要与变异指标变异指标结合使用结合使用2023-2-6柏建岭讲稿柏建岭讲稿75看一个例子:有甲、乙两组同性别同年龄儿童体重有甲、乙两组同性别同年龄儿童体重(kg):甲组甲组 26,28,30,32,34 =30 kg n甲甲=5 乙组乙组 24,27,30,33,36 =30 kg n乙乙=5 上述两组数据的特点:上述两组数据的特点:集中位置集中位置 相同:均为相同:均为30kg 离散程度不同:各观察值离散程度不同:各观察值离均数的远近离均数的远近不同不同甲甲X乙乙X2023-2-
38、6柏建岭讲稿柏建岭讲稿76离散趋势的描述l全距全距(Range)亦称极差,记为亦称极差,记为R,是一组变量值中最大值与最,是一组变量值中最大值与最小值之差。小值之差。优点:简单明了优点:简单明了缺点:缺点:不灵敏、不稳定不灵敏、不稳定 2023-2-6柏建岭讲稿柏建岭讲稿77离散趋势的描述l 四分位数间距四分位数间距(interquartile range)定义为:定义为:QL QU,即,即中间一半观察值的极差中间一半观察值的极差。四分位数四分位数(quartile)是两个特定的百分位数:第是两个特定的百分位数:第25%分分位数位数P25,和第,和第75%分位数分位数P75,分别记为,分别记为
39、QL和和QU。四分位数间距较全距稳定,常与四分位数间距较全距稳定,常与中位数中位数一起,描述不对一起,描述不对称分布资料的特征。称分布资料的特征。2023-2-6柏建岭讲稿柏建岭讲稿7825%25%25%25%排序数据:按从小到大顺序排列MQLQUinter-quartile rangeQ2Q1Q32023-2-6柏建岭讲稿柏建岭讲稿79离散趋势的描述 方差方差(Variance)和标准差和标准差(Standard Deviation)总体均数总体均数 未知,用样本均数估计未知,用样本均数估计 NX 22 NX 2 122 nXXs 12 nXXs2023-2-6柏建岭讲稿柏建岭讲稿80标准差
40、 12 nXXs“离均差平方之和 平均后的方根”“均方根”n-1 称为(标准差的)自由度,即“可以自由变异的程度”分子有n项离均差,但只有n-1项独立,根据 任一离均差均可以用另外n-1个离均差表示,所以“只有n-1个独立的离均差”。0XX2023-2-6柏建岭讲稿柏建岭讲稿81 标准差大标准差大:分布分散、不整齐、波动大;分布分散、不整齐、波动大;标准差小标准差小:分布集中、整齐、波动较小。分布集中、整齐、波动较小。2023-2-6柏建岭讲稿柏建岭讲稿82离散趋势的描述 变异系数变异系数(coefficient of variation)亦称离散系数亦称离散系数(coefficient of
41、 dispersion),是标准差,是标准差s与均数之比,即:与均数之比,即:%100XsCV2023-2-6柏建岭讲稿柏建岭讲稿83变异系数的两个特点及相应的用途 没有单位没有单位 反映标准差占均数的百分比或标准差是均数的几倍反映标准差占均数的百分比或标准差是均数的几倍 可用来可用来比较度量衡单位不同的资料的变异度比较度量衡单位不同的资料的变异度 不受平均水平的影响不受平均水平的影响反映的是以均数为基数的相对变异的大小反映的是以均数为基数的相对变异的大小比较均数相差悬殊的资料的变异度比较均数相差悬殊的资料的变异度 2023-2-6柏建岭讲稿柏建岭讲稿84某地20岁男子100人,身高均数为17
42、1.06cm,标准差为4.95cm;体重均数为61.54kg,标准差为5.02kg,试比较身高和体重的变异。身高 体重4.95100%2.89%171.06CV 5.02100%8.16%61.54CV 2023-2-6柏建岭讲稿柏建岭讲稿85绝对变异受平均水平的影响绝对变异受平均水平的影响相对变异排除了平均水平的影响相对变异排除了平均水平的影响年龄组年龄组人数人数均数均数标准差标准差变异系数变异系数(%)12月月10056.32.13.756月月12066.52.23.3 33.5岁岁30096.13.13.2 55.5岁岁400107.83.33.14个不同年龄组儿童身高(cm)的变异 2
43、023-2-6柏建岭讲稿柏建岭讲稿86平均数与变异度的关系 平均数表示的平均数表示的集中性集中性与变异度表示的与变异度表示的离散性离散性,是,是从两个不同的角度阐明计量资料的特征从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差变异度越大,平均数对各变量值的代表性越差 2023-2-6柏建岭讲稿柏建岭讲稿87平均数与变异度的关系 通常,平均数与变异指标一起描述资料的通常,平均数与变异指标一起描述资料的分布特征。分布特征。用均数和标准差描述正态分布资料的特征;用均数和标准差描述正态分布资料
44、的特征;用中位数和四分位数间距描述偏态分布资料的特征。用中位数和四分位数间距描述偏态分布资料的特征。2023-2-6柏建岭讲稿柏建岭讲稿88资料的指标描述l 统计描述的一个重要的组成部分统计描述的一个重要的组成部分l 数值变量资料的统计指标数值变量资料的统计指标l平均水平指标:算术均数、几何均数、中位数平均水平指标:算术均数、几何均数、中位数 等。等。l离散程度指标:全距、四分位数间距、方差、标准差、离散程度指标:全距、四分位数间距、方差、标准差、变异系数。变异系数。l 分类资料的统计指标分类资料的统计指标l 相对数指标相对数指标2023-2-6柏建岭讲稿柏建岭讲稿89Medical stat
45、istic医学统计学91正态分布的重要性v医学上某些指标服从或近似服从正态分布;医学上某些指标服从或近似服从正态分布;v很多统计方法是建立在正态分布基础上的;很多统计方法是建立在正态分布基础上的;v很多其他分布的极限为正态分布。很多其他分布的极限为正态分布。92主要内容(Content)正态分布的概念及图形正态分布的概念及图形 正态分布的特征正态分布的特征 正态分布曲线下面积的规律正态分布曲线下面积的规律 标准正态分布标准正态分布 正态分布的应用正态分布的应用 总结总结93频数分布图94正态分布的概念及图形(a)(b)(d)(c)95正态分布的概念及图形 Normal distribution
46、 Gauss发现发现 最早用于物理学、天文学最早用于物理学、天文学 Gaussian distribution9697正态分布的概率密度函数 如果随机变量如果随机变量X的概率密度函数的概率密度函数 为总体均数,为总体均数,为总体标准差为总体标准差 为圆周率,为圆周率,e e为自然对数的底为自然对数的底 X X为变量,代表横轴的数值,为变量,代表横轴的数值,f f(X X)为纵轴数值为纵轴数值。则称则称X服从正态分布服从正态分布,记作记作XN(,2),其中,其中,为为分布的均数,分布的均数,为分布的标准差。为分布的标准差。Xf Xe22()21()2 pp (-X+)98正态分布图示x0.1.2
47、.3.4f(x)99方差相等、均数不等的正态分布图示312213100均数相等、方差不等的正态分布图示213312101正态分布的特征 单峰分布;高峰在均数处;单峰分布;高峰在均数处;以均数为中心,均数两侧完全对称。以均数为中心,均数两侧完全对称。正态分布有两个参数正态分布有两个参数(parameter),即,即位置参数位置参数(均数均数)和变异度参数和变异度参数(标准差标准差)。有些指标本身不服从正态分布,但经过变有些指标本身不服从正态分布,但经过变换之后可以服从正态分布。换之后可以服从正态分布。正态曲线下的面积分布有一定的规律。正态曲线下的面积分布有一定的规律。102正态曲线下的面积规律
48、X轴与正态曲线所夹面积恒等于轴与正态曲线所夹面积恒等于1。对称区域面积相等。对称区域面积相等。S(-,-X)S(+X,)S(-,-X)103正态曲线下的面积规律 对称区域面积相等。对称区域面积相等。S(-x1,-x2)-x1 -x2 +x2+x1S(-x1,-x2)=S(+x1,+x2)104正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4-3 -2 -+2 +3 S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.8413S(-,)=1105正态曲线下
49、的面积规律 -4 -3 -2 -1 0 1 2 3 4-3 -2 -+2 +3 1-S(-3 ,+3)=0.00261-S(-2 ,+2)=0.04561-S(-,+)=0.3174106正态曲线下的面积规律 -4 -3 -2 -1 0 1 2 3 4-3 -2 -+2 +3 S(-,-3)=0.0013S(-,-2)=0.0228S(-,-1)=0.1587S(-,)=0.5S(-,+3)=0.9987S(-,+2)=0.9772S(-,+1)=0.8413S(-,)=1107231X2=-2X2X1=-1X1X3=-3X30.15870.15870.1587108正态曲线下的面积规律 正态
50、分布的一个显著特点正态分布的一个显著特点 其曲线下面积完全决定于以其曲线下面积完全决定于以标准差为单位标准差为单位从从点点X到到的离差的离差。1111222233331X 109正态曲线下的面积规律-1.96+1.962.5%2.5%95%110正态曲线下的面积规律-1.64+1.645%5%90%111正态曲线下的面积规律-2.58+2.580.5%0.5%99%112正态曲线下的面积规律 正态曲线下面积总和为正态曲线下面积总和为1;正态曲线关于均数对称;对称的区域内面积相等;正态曲线关于均数对称;对称的区域内面积相等;对任意正态曲线,按标准差为单位,对应的面积相对任意正态曲线,按标准差为单