1、2 统计描述 statictical description,统计描述:,从资料中获取信息最基本的方法,把握资料基本的特征 为统计分析打下基础,2.1 定量资料的统计描述,例3.1 某市 100名8岁男童的身高资料(cm),(1)定量资料的频数表和频数图,频数分布表(frequency distribution table): 将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率的和为100%或1。 .,频数表作用: 简化数据,方便阅读,显示数据的分布规律, 求全距(Range,简记R ):是一组资料中 最大值(Xmax)与最小值(Xmin)
2、之差,亦称极差。,全距( R)= Xmax - Xmin =143.3 116.2 = 27.1(cm),2. 定组距:将全距分为若干段,称为组段。 组与组之间的距离,称为组距;用小写i 表示。,原则:(1)“组段”数一般为10-15个; (2)“组距”一般为R/10取整; (3)为计算方便根据组距采取取整数方法,本例题: 组距(i)=全距/ 预分组段= 27.1 /10=2.713(cm),3.写组段:即将全距分为若干段的过程。,原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ; (2)每组段均用下限值加 “ ”表示,最终组段同时注明上下限。,注意:各组段不能重叠,每一组段均为半
3、开半闭区间。,4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。,表3.2 某市100名8岁男童身高(cm)频数表,频数分布图(frequency distribution figure) : 根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,图3.1 某市100名8岁男童身高(cm)的频数分布,频数,身高(cm),(三)频数表的用途:,1.揭示频数的分布特征,图3.1 某市100名8岁男童身高(cm)的频数分布,离散趋势 (tendency of dispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势 (central tendency)
4、,2.揭示频数的分布类型,频数 分布,非对称 分布,正偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称 分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。,(2) 定量资料的描述指标,描述指标:,算术均数(Arithmetric mean, ) 几何均数(Range, R) 中位数(Range, R) 调和均数(Range, R) 众数(Range, R) ,离散趋势:,集中趋势:,极差(Range, R) 四分位数间距(Quartile, Q) 方差(Variance, ) 标准
5、差(Standard deviation,) 变异系数(Coefficient of variation,CV),2. 针对分布类型先用合适的指标描述:,1. 首先对资料作分布类型的判定;,中位数、四分位间距; 常录为M(Ql, Qu),均值、标准差;常记录为,算术均数 几何均数 中位数,一、集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平(average)表示。,注意:1.同质的事物或现象才能求平均数,平均 水平,.应根据资料分布状态选用适当的均数。,1. 算术平均数 arithmetic mean, 简称:均数(mean) 使用条件:数据分布比较均匀呈正态或近似正态分
6、布,且观察值之间差异不大的定量资料。 样本均数用符号: 表示 总体均数用符号:表示 计算方法有两种:直接法(小样本)和加权法(大样本),对称分布,负偏态分布,集中:中位数; 离散:四分位间距,引子:非对称分布,“中位数”的概念,2. 中位数 (Median,M), 概念:将原始观察值从小到大排序后,位次居中的那个数叫中位数,用M表示。 使用条件:适用于任何分布的定量资料,特别是偏态分布、末端分布有特大特小值或无法确定、甚至分布不清的资料。 表示符号:M 计算方法:直接法和加权法,众数 中位数 算术均数,P50 = M,0 50 100,小,大,P0 P50 P100,中位数,定义:一个数值,它
7、将原始观察值分成两部分,理论上有x%的值小于Px,另有1- x%的观察值大于Px,故它是一个位置指标。,百分位数(Percentile,Px),说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度 。,观察值的离散趋势,离散程度大说明均数代表性差 离散程度小说明均数代表性好,举 例:,有三组数据,A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34,集中,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range, R) 四分位数间距(Quarti
8、le, Q) 方差(Variance, ) 标准差(Standard deviation,S2) 变异系数(Coefficient of variation,CV),1. 全距(Range, 简称R), 计算:R=最大值最小值= Xmax - Xmin 意义:反映观察值的全范围。 条件:对各种分布类型资料都适用。 优点:计算简单,方便使用。 缺点:只利用最大值和最小值的信息,不能反映其它观察值的变异情况。 建议:与其他离散指标共同使用。,2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。,极差的缺点:,1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度
9、。,3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。,全距和四分位数间距:,小,大,0 25 50 75 100,P1 P25 P50 P75 P100,QL,QU,下四分位数 上四分位数,QU QL= 四分位数间距,2. 四分位数间距(uartile, 简称),计算:=-=P75-P25 意义:中间一半观察值的极差。 条件:对各种分布类型的资料都适用,但常用于 偏峰分布资料。 优点:类似值但比其稳定。 缺点:仍未考虑资料中每个观察值的变异度。 建议:与其他离散指标共同使用。,3-4.方差、标准差:全面考虑每个变量值的离散情况,离均差平方和: (X-)2,离均差: X-,离均差平方:
10、(X-)2,方差,标准差,比较标准:均数,方差: 分总体方差 ,样本方差 S2,计算: 意义:克服了值和Q 值的不足,考虑了每个变量值的离散情况并消除了的影响。 优点:全面地考虑每个变量值的离散情况 缺点:其单位是原度量单位的平方。,总体方差,样本方差,n-1 就是众所周知以后非常熟悉而经常用到的 自由度( degree of freedom )。 用希腊字母表示: nju:表示 表示随机变量能够自由取值的个数。 nju:与 mju: 区别?,标准差(Standard deviation,SD或S),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的
11、指标,即标准差,简写为S。,总体标准差:,样本标准差:,举例 分别求A、B、C三组数据的标准差: A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34,2. 针对分布类型先用合适的指标描述:,1. 首先对资料作分布类型的判定;,中位数、四分位间距; 常录为M(Ql, Qu),均值、标准差;常记录为,定量资料其它常用的描述指标:,算术均数(Arithmetric mean, ) 几何均数(Range, R) 中位数(Range, R) 调和均数(Range, R) 众数(Range, R) ,离散趋势:,集中趋势:,极差(Range, R)
12、四分位数间距(Quartile, Q) 方差(Variance, ) 标准差(Standard deviation,) 变异系数(Coefficient of variation,CV),引子:设有5份血清样品,滴度分别为: 1:1,1:10,1:100,1:1000,1:10000 求其平均滴度。,几何均数,1.几何均数 geometric mean, G, 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 表示符号:G 计算方法:直接法和加
13、权法,正偏态分布,举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。,答:,G,或 Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5) lg-1(0+1+2+3+4)/5) lg-12 =100,即:平均滴度为1:100;较好地代表了观察值的平均水平。,计算几何均数(G )注意事项: 1. 观察值不能为 0; 2. 观察值不能同时有正有负; 3. 同一组资料求得的几何均数小于算术均数。,2.变异系数(coefficient of variation , CV),意义:极差、标准差和四分位数间距都有
14、单位的, 而变异系数是相对数,没有单位,用标准差与均数之比,用百分数表示。 公式:,条件: 比较单位不同的多组资料的变异度 比较均数相差悬殊的多组资料变异,举例1:某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比较其身高、体重的变异程度。,说明其体重的变异度大于身高的,即身高比体重稳定。,举例2:试分析下组资料变异程度的变化趋势,附表 某地不同年龄儿童身高(cm)的变异度,2. 2 定性资料的统计描述指标,【举例】 某年甲乙两地发生麻疹流行,甲地发病人数为300人,乙地发病人数为250人,甲地发病人数比乙地多50人,能否据此认为
15、甲地麻疹发病比乙地严重呢? .,1. 绝对数: 2. 相对数(Relative number) :是两个具有内在联系的指标之比。,包括,分类资料的描述:频率 ( Frequency or Proportion) 人时资料的描述:强度 ( Intensity ) 复合指标:相对比 ( Relative ratio ),2. 针对分布类型先用合适的指标描述:,1. 首先对资料作分布类型的判定;,中位数、四分位间距; 常录为M(Ql, Qu),均值、标准差;常记录为,2.2.1 分类资料的描述-频率和频率分布,定性资料,频率分布表/图,分布特征,二分类资料的描述-频率: 如死亡的频率、阳性频率、患病
16、的频率等。 多分类资料的描述-频率分布:,频率(Frequency) :指某现象发生的频率,或表示事物内部某个组成成发所占的比重或分布。,频率的特征:,分子是分母的一部分; 无量纲,在01之间取值。,计算公式:,总产人数,表2-10 某妇产科医生记录了1402名临产母亲的妊娠情况,结果足月产者1148例,请描述足月产频率。,表3-1 某课题组为研究白细胞减少症与工作环境的关系,用随机抽样的方法对某市企业的四个工种共1114名工人进行了调查。依白细胞减少症的诊断标准判断调查对象是否为患者。,(1)按工种描述调查对象和患者的频率分布情况:,调查对象所作工种的频率分布图,白细胞减少症患者所作工种的频
17、率分布图,各百分比相当于各工种频数出现的频率,这些频率加起来是100%;多种工种的情形就有多种频率,这些频率就构成了一个频率分布,描述两个不同人群各种工种的分布或说构成情况。 .,2.2.2 人时资料的描述-强度,2.2.2 人时资料的描述强度,“人时”:人观察时间(年、月),1个人观察10年,10人年,10个人观察1年,1个人观察0.5年,0.5人年,举例:,单位“人年”,举例:,有3个人,甲 观察10年 乙 观察 5年 丙 观察 1年,16人年,相当于16个人观察了1年,在流行病学随访中,不同的个体观察时间长短不一样,常常用人时总和表达被观察的人和时间的总量。,例2-12 某医院对同一疾病
18、展开甲、乙两种手术治疗,分别随机抽取100名患者评价复发率。已知手术完成时间不同。而最后截止时间2006年1月1日。,甲组:1/39.5100%=2.53% 乙组:1/4.5100%=22.22% 结果显示两种方案有不同的强度,时间单位是年,阳性事件是复发,称为人年复发率。 它反映单位时间内发生阳性事件的频率, 这是很重要概念!,2.2.3 复合指标比,定义: 两个有关联指标 A与 B之比,简称比说明二者的对比水平。,计算公式:,意义:表示相对于B 的一个单位,A 有多少个单位, 或A为B的若干倍或百分之几。,比(ratio):,AB,用倍数表示; AB,用百分数表示。,条件:1. A和B是绝
19、对数,也可是相对数、平均数。 2. A和B可是同性质的指标,也可是不同性质的指标,即其量纲可以相同,也可以不同。 3. 但 A 和 B应互不包含。,人口调查中男:女性别比; 医院管理中“医护人员与病床数”之比; 某病年龄组发病率之比; 相对危险度、优势比等。,【举例】,2.2.4 相对数应用中的注意事项, 防止概念混淆 :,不少指标命名混乱,某某率满天飞!,有的某某率实际上只是相对比! 更多的指标笼统的称为“率”,但分不清究竟是频率,还是强度。,故实践中遇到相对比的指标,应认真思考其定义,辩别其性质,切不可顾名思义。,例一:甲医院治疗100例患者,其中40例有效。,甲医院有效率是40%,例二:
20、乙医院治疗5例患者,其中2例有效。,乙医院有效是2/5,其疗效有待于进步观察,故资料总例数过少,则计算所得相对数的偏差会比较大,这种情况下直接报告原始数据更为可取。, 计算相对数时分母不宜过小,率的正确合并估计,举例:甲医院治疗患者100例,40例有效。乙医院治疗同类患者90例,30例有效,计算两院的总有效率。,答:分别计算甲、乙两院的有效率,相加后除2:,相对数之间比较具有可比性,相互比较时,除了研究因素外,影响因素条件尽可能相同; 一般包括:观察对象同质、研究方法相同、观察时间相等,在专业上有意义的影响因素接近均衡,总之,条件齐同; 必要时计算标准化率。,2.3 常用统计图表,统计表(st
21、atistical table ):用数据代替文字描述,便于统计结果的精确、简洁表达和对比分析。 统计图 ( statistical graph ) : 利用点的位置、线段的走势、直条的长短、面积的大小等直观、形象的表示事物间的数量关系。,标准来源:GB/T7713 1987 科学技术报告、学位论文和学术论文的编写格式S/新闻出版总署科技发展司,新闻出版总署图书出版管理司,中国标准出版社作者编辑常用标准及规范M. 版北京:中国标准出版社,2003,国家标准要求: 统计表和统计图要有自明性,表3.14 2001年某省不同地区的卫生系统反应性评分比较,表注:,2.3.1 统计表-结构,*:,2.
22、统计表种类:,简单表(simple table): 由一组横标目和一组纵标目组成,复合表(combinative table): 由两组及以上的横标目和纵标目结合起来或一组横标目及以上纵标目结合起来以表达它们之间关系的统计表,复合表举例:,表3.15 2001年某省不同地区、性别的卫生系统反应性评分比较,3. 列表原则:自明性,主谓项不能颠倒; 简单明了,一个表只包含一个主题; 表题、表注和计量单位是增加统计表自明性的重要元素。,1.标题:内容应包括时间、地点、主要事件,要求用最少的文字说清楚。 2.标目:横标目排序可按时间、数量级及事件程度分级, 纵标目有量纲的要注明。标目的层次要清楚,不要
23、太多、太复杂。 3.线条:三线表,只有横线,无竖线和斜线。 4.数字: 用阿拉伯数字, 同类指标小数位数,纵向位次对齐。表中不留空白,暂无记录或未观察用“ ”(点号),无数据用“”,观察结果为“0”时须写出“0”。 5.注释:表中用“*”标出,具体解释内容写在表的下方。,列 表 要 求,改错题1:,答案:,改错题2:,答案:,改错题3:,答案:,改错题4:,答案:,2.3.2 统计图,条图 bar graph,直方图 Histogram,饼图 Pie chart,线图 Line graph,统计地图 Map,散点图 Scatter,百分条图 Percent bar graph,重点:图形选择原
24、则与制图规则,根据资料性质和分析的目的,正确选择图形。 连续资料? 分类资料?,制图的基本要求,根据资料性质和分析目的选择最合适的图形; 图形下方写出标题,应说明资料的内容、时间和地点; 同张图中涉及不同事物比较时,应以不同的颜色或图案加以区分,并给出图例; 用到坐标轴的统计图,纵、横轴注明标目及对应单位;坐标轴对应于定量资料时,需标注原点、量纲及合适的刻度;对应于定性资料时,需注明组别。 统计图的长宽比例一般为7:5或5:7。,1. 条图:用于相互独立的资料,1. 横轴为基线,表示各个类别(观察项目),纵轴表示为数值的大小。 . 2. 纵轴坐标一定要从0开始,中间不宜折断。 . 3. 各直条
25、宽度应相等,各直条之间的间隙应相等或为其一半。 。 4. 排列顺序可根据数值从大到小,或按时间顺序排列。.,制图要求:,2. 百分条图和饼图:用于百分构成比资料资料,【举例1】 2001年某医科大学公共卫生学院人员组成,教授占9.8%、副教授33.2%、讲师21.4%、助教10.2% 、教辅人员25.5%,比较人员的构成情况。,图3.4 2001年某医科大学公共卫生学院专业技术人员构成,副教授,教辅人员,讲师,助教,教授,制图要求: 1. 标尺:一定要有标尺,画在图的上方或下方。全长为100%,分成10格,每格10%。 2.绘一直条,全长等同标尺,以直条内相对面积大小代表数量的百分比,一般由大
26、到小、自左向右排列。 3.直条各部分用线分开,注明简要文字或加图例表示。 4.多组比较:若要比较的事物不止一个时,可以画几个平行的百分条图。各条图的排列顺序同,图例同。,图3.4 2001年某医科大学公共卫生学院专业技术人员构成,饼图:,饼图制图要求: 1. 从相当于时钟12点或9点的位置开始顺时针方向绘图。 3.每部分用不同线条或颜色表示,注明简要文字及百分比或用图例。 4.如有两种或两种以上性质类似的资料相比较时,可以画两个直径相同的两个圆,使各圆中各部分的排列次序一致,并用相同的图例表示同一个构成部分。,【举例1】描述某市100名男童的身高频数的分布情况。,图8 某市100名8岁男童身高
27、(cm)的频数分布,3. 直方图(histogram):表达连续性变量的频数分布,制图要求: 1.横轴表示连续变量,纵轴表示被观察现象的频数(或频率),以各直条(宽为等距)的面积表示各组段频数;纵轴坐标一般从0开始。 2.各直条间不留空隙。 3.组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。,举例:某地2001年07岁儿童受教育的情况.,年龄(岁),受教育率(%),图3.6 2001年某地0 - 7岁儿童的受教育率,4. 线图:用于连续性资料资料,反应一变量随另一变量(如时间)连续的动态变化规律。,制图要求: 1.坐标轴:横轴表示某一连续变量(时间或年龄等),纵轴表示某种率或频数
28、。其尺度必须等距,或有规律性。 2.图线应按实际数字绘制成折线,不能任意改为光滑曲线,无数据的组段用虚线连接,直线不能任意外延。 3.同一张线图上不要画太多条曲线,通常5条。 4.有几根线须用不同颜色或图线(虚、实线)区分,并附图例。,5.半对数线图(semi-logarithmic line graph) 概念:其横轴为算术尺度,纵轴为对数尺度,使线图上的数量关系变为对数关系,用于表示事物的发展速度(相对比) 。 适用条件:比较几组数据的变化速度(相对比)时,特别互相比较发展速度的指标间数量级相差悬殊时,宜选用。 应用:反映事物的连续的动态变化规律。,b 半对数线图,a 线图,举例:描述某地
29、在1950年1966年伤寒与结核病死率,举例:描述饮水中氟含量与氟骨症患难率的相关关系。,y=6.3942x+18.784 R2=0.882,图3.8 某年某地区饮水中氟含量与氟骨症患难率的散点图,氟含量,氟骨症患病率 %,6. 散点图(scatter diagram) :反映两变量间的相关关系,主要用于相关回归分析,制图要求: 1.一般横轴代表自变量或可进行精确测量、严格控制的变量,纵轴则代表与自变量有依存关系的因变量。 2.纵横轴的尺度起点可根据需要设定。 3.组距不等时,横轴仍表示连续变量,但纵轴是每个横轴单位的频数。,7. 统计地图(map):用于表示某现象的数量在地域上的分布,可用M
30、AP Info软件作图。,图3河南省18省辖市2009年3月、2012年6月PICU床位分布图,小结:各种类型统计图的适用条件及意义,小 结,为描述定量变量的分布规律,可将观察值编制频数表,绘制频数分布图,要描述资料的分布特征(集中趋势及离散趋势)和分布类型。,集中趋势描述的主要指标是平均数。,常用平均数及其适用资料,3.描述频数分布离散程度的指标有: 极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度,适用于各种分布类型的资料,但更常用于描述偏峰分布资料。 方差和标准差最常用,对正态分布尤重要。 变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。,注意: 变异
31、指标的大小这与平均指标值的大小无关。,4. 平均指标和变异指标相结合,能对各种分布的资料作很好的描述。,5.定性资料的变量形式有多分类和两分类。可通过频率表描述全面的分布特征,用相对数从所侧重的方面描述某属性的特征,通常描述某一类别的频数在总频数中占的比重。,6.常用的相对数有三类:频率型、强度型和相对比型。相对数的发生取决于其分子和分母的意义,不同相对数其指标的定义和结果解释是不同的。,符号小结,总体均数,样本均数,总体标准差,S,样本标准差,= n-1,自由度,Px,第X位百分位数,M,中位数,f,频数,n,样本含量,R,全距,i,组距,G,几何均数,CV,变异系数,QU -QL,四分位数间距,2.5 案例分析,教材P31 案例2-1 分析。 案例2-2 分析。 案例2-3 分析。,目的:定量与定性资料统计描述,练习:SPSS操作,统计年龄、职业等变量频数分布情况。 数据文件:data1-1.sav 数据文件:data2-2.sav 实验2-1、2-2、2-3、2-4,2.6 SPSS软件实习,THANK YOU!,