1、一、统计学基本概念一、统计学基本概念 1.1.总体与样本总体与样本2.2.同质与变异同质与变异3.3.参数与统计量参数与统计量4.4.误差误差5.5.概率与频率概率与频率1.1.总体与样本总体与样本总体总体:根据:根据研究目的研究目的而确定而确定同质同质观察单位的全体。观察单位的全体。样本样本:从总体中抽取的部分观察:从总体中抽取的部分观察单位。单位。随机抽样随机抽样 random sampling为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。2.同质与
2、变异同质与变异同质同质:除了实验因素外,影响被研究指标:除了实验因素外,影响被研究指标的非实验因素相同被称为同质。的非实验因素相同被称为同质。变异变异:在同质的基础上被观察个体之间的:在同质的基础上被观察个体之间的差异被称为变异。差异被称为变异。3 3、参数与统计量、参数与统计量 parameter and statisticparameter and statistic参数:参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。是是固定的常数。固定的常数。 样样本本抽取部分观察单位抽取部分观察单位 推断推断inference
3、统计量:统计量:样本样本的统计指标,如样本均数、标准差,采用拉丁的统计指标,如样本均数、标准差,采用拉丁字母分别记为字母分别记为 。 在在参数附近波动的随机变量参数附近波动的随机变量 。SX、4 4、误差(、误差(errorerror)误差:实际误差:实际观察值观察值与客观与客观真实值真实值之差之差(1 1)系统误差)系统误差(2 2)随机误差)随机误差 90mmhg。 。 。 。 。85真值真值血压计血压计测定值测定值系统误差系统误差。 。 。随机误差和系统误差随机误差和系统误差随机 误差概率:概率:随机事件发生的可能性大小,用大写随机事件发生的可能性大小,用大写的的P P 表示;取值表示;
4、取值00,11。 频率:频率:样本的实际发生率称为频率。样本的实际发生率称为频率。频率与概率间的关系:频率与概率间的关系:样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动样本含量样本含量 n n 越大,波动幅度越小,频率越大,波动幅度越小,频率越接近概率。越接近概率。5 5、概率与、概率与频率频率二、数据类型二、数据类型1. 1. 计量资料计量资料用仪器、工具等测量方法获得的数据用仪器、工具等测量方法获得的数据2. 2. 计数资料计数资料按某种属性分类,然后清点每类的数据。也按某种属性分类,然后清点每类的数据。也叫定性数据叫定性数据3.3.等级资料等级资料半定性或半定量的观察结果。有大
5、小顺序,所半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(以也叫有序分类资料(ordinal category dataordinal category data)。)。 癌症分期:早、中、晚。癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。 尿蛋白:尿蛋白: , , ,+,+,+,+及以上及以上三类资料间关系三类资料间关系 例:一组例:一组20 40岁成年人的血压值岁成年人的血压值以以12kPa12kPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 8 低血压低血压 8 8 正常血压正常血压 1212 轻度高
6、血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压计量资料计量资料等级资料等级资料计数资料计数资料实例数据实例数据一、计量资料的统计描述一、计量资料的统计描述 平均指标(算术均数、几何均数、中位数)平均指标(算术均数、几何均数、中位数) 变异指标(极差、百分位数与四分位间距、变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)方差、标准差、变异系数)1 1、平均指标、平均指标1. 1. 算术均数算术均数(mean)mean):适用条件:资料呈对称分布,适用条件:资料呈对称分布,一般用于正态或近似正态分布。一般用于正态或近似正态分布。2. 2. 几何均数几何
7、均数(geometric mean)(geometric mean)。适用条件适用条件:呈倍呈倍数关系的等比资料或对数正态分布资料。数关系的等比资料或对数正态分布资料。3.3. 中位数中位数 (median) (median)。适用条件适用条件:适合各种类型的:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料。尤其适合于大样本偏态分布的资料; 资料有不确定数值;资料分布不明等。资料有不确定数值;资料分布不明等。 2.2.变异指标变异指标 反映数据的离散程度。即个体观察值的变反映数据的离散程度。即个体观察值的变异程度。异程度。 1. 极差极差 (全距全距) 2. 四分位数间距四分位数间距
8、 3. 方差方差 Variance 4. 标准差标准差Standard Deviation 5. 变异系数变异系数 CV变异指标小结变异指标小结1 1极差较粗糙,适合于任何分布极差较粗糙,适合于任何分布2 2标准差最常用,适合于正态或近似正态分布标准差最常用,适合于正态或近似正态分布3 3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4 4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布:均数正态分布:均数标准差标准差 偏态分布:中位数偏态分布:中位数( (四分位间距四分位间距) )
9、xs图形特点:图形特点:l钟型钟型( (中间高中间高, ,两头低两头低, ,左左右对称,以右对称,以X X轴为渐进线轴为渐进线) )l最高处对应于最高处对应于X X轴的值就轴的值就是均数是均数l两个参数:位置参数和两个参数:位置参数和形态参数。形态参数。l曲线下面积恒为曲线下面积恒为1 1或或100%100%。二、正态分布二、正态分布 1.意义:医学参考值是指包括绝大多数正常人意义:医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。标常数,也称正常值。 由于存在个体差异,生物医学数据并非常数而由于存在个体
10、差异,生物医学数据并非常数而是在一定范围内波动,故采用是在一定范围内波动,故采用医学参考值范围医学参考值范围(medical reference range)作为判定正常)作为判定正常和异常的参考标准,但和异常的参考标准,但不是不是“金标准金标准”。三、三、 医学参考值范围的制定医学参考值范围的制定双侧双侧 :血清总胆固醇无论过低或过高均属异常血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧上限单侧上限 :如:血清转氨酶、体内有毒物质过高异常如:血清转氨酶、体内有毒物质过高异常单侧下限单侧下限 :如:肺活量过低异常如:肺活量过低异常 单双侧常依
11、据医学专业知识而定。单双侧常依据医学专业知识而定。2.2.单、双侧问题:单、双侧问题: 3. 医学参考值范围有医学参考值范围有90%90%、95%95%、99% 99% 等,等,最常用的为最常用的为95% 95% 。计算医学参考值范围的常用方法:计算医学参考值范围的常用方法: 1.正态分布法正态分布法 2.百分位数法百分位数法样本样本抽取部分观察单位抽取部分观察单位 统计推断统计推断如:样本均数如:样本均数 样本标准差样本标准差S 如:总体均数如:总体均数 总体标准差总体标准差 X抽样误差抽样误差 (sampling error) sampling error) :由于个体变异产:由于个体变异
12、产生的、抽样造成的生的、抽样造成的样本统计量与总体样本统计量与总体参数间差异,称为参数间差异,称为抽样误差。抽样误差。nX/统计量的标准差统计量的标准差称为标准误,是衡量样称为标准误,是衡量样本统计量抽样误差大小的统计指标。本统计量抽样误差大小的统计指标。均数标准误:样本均数的标准差称为均均数标准误:样本均数的标准差称为均数的标准误,它用来说明均数抽样误差的大数的标准误,它用来说明均数抽样误差的大小。小。降低抽样误差的途径有降低抽样误差的途径有: 由于总体标准差由于总体标准差 通常是未知的,通常是未知的,而用样本标准差而用样本标准差S S来估计,因此,均数标来估计,因此,均数标准误准误 的估计
13、值为的估计值为 SnxS X二、总体均数的估计二、总体均数的估计XS、 总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估)与区间估计(计(interval estimation)interval estimation)参数的估计参数的估计点估计:由样本统计量点估计:由样本统计量 直接估计总体参数直接估计总体参数区间估计:按预先给定的概率(区间估计:按预先给定的概率(1-1- )所确定的、包含未知参数的一个范围,所确定的、包含未知参数的一个范围,这个范围称为参数的可信区间(这个范围称为参数的可信区间(Confidence interv
14、al,CI)Confidence interval,CI)、区间估计:区间估计:可信度与可信区间可信度与可信区间 预先给定的概率预先给定的概率1-1- 称为称为可信度可信度或或置信度置信度(confidence level)confidence level),常取,常取95%95%或或99%99%。没有特别。没有特别说明,一般取双侧说明,一般取双侧95%95%。 可信区间有可信下限(可信区间有可信下限(lower limit,L)lower limit,L)和可信和可信上限(上限(upper limit,U)upper limit,U),一般表示为(,一般表示为(L L,U U)。)。 t 检
15、验,亦称检验,亦称student t 检验,主要用于检验,主要用于样本含量较小(如样本含量较小(如n60n1000IU1000IU)的计量资料;的计量资料;4.4.等级资料,比较各组间等级强度的差别时。等级资料,比较各组间等级强度的差别时。4、非参数检验的优点与不足、非参数检验的优点与不足优点:优点:1. 1. 适用范围广泛;适用范围广泛;2. 2. 多数方法计算简便;多数方法计算简便;3. 3. 易于理解和掌握;易于理解和掌握;4. 4. 无法精确测量的资料及等级资料可以采用;无法精确测量的资料及等级资料可以采用;不足:不足:1. 1. 参数检验适用的资料,非参数方法会降低检参数检验适用的资
16、料,非参数方法会降低检验效能;验效能;2. 2. 某些方法的计算过程仍然复杂。某些方法的计算过程仍然复杂。二、几种非参数方法二、几种非参数方法:1.1.配对样本比较的配对样本比较的WilcoxonWilcoxon符号秩检验;符号秩检验;2.2.两个独立样本比较的两个独立样本比较的WilcoxonWilcoxon秩和检验;秩和检验;3.3.完全随机设计多个样本比较的完全随机设计多个样本比较的Kruskal-Wallis Kruskal-Wallis H H 检验;检验;一、配对样本比较的一、配对样本比较的WilcoxonWilcoxon符号秩检验符号秩检验例例 两种方法两种方法ALTALT测量结
17、果比较测量结果比较编号(1)原法(2)新法(3)差值d(4)=(3)-(2)正秩(5)负秩(6)160761682142152105319524348114808221.55242240-21.56220220071902051578253813691982434591038446411236190-4610129510053合计54.511.5二、两个独立样本比较的二、两个独立样本比较的WilcoxonWilcoxon秩和检验秩和检验例例 两类肺病患者两类肺病患者RDRD值比较值比较肺癌病人矽肺0期工人RD值秩次RD值秩次2.7813.232.53.232.53.5044.2074.0454
18、.87144.1565.12174.2886.21184.3497.18194.47108.05204.64118.56214.75129.60224.82134.95155.1016n1=10T1=141.5n2=12T2=111.5三、完全随机设计多个样本比较的三、完全随机设计多个样本比较的Kruskal-Kruskal-Wallis HWallis H检验检验例例 三种药物杀灭钉螺的死亡率比较三种药物杀灭钉螺的死亡率比较甲药乙药丙药死亡率秩次死亡率秩次死亡率秩次32.51016.046.5135.51120.569.0240.51322.5712.5346.01429.0918.0549
19、.01536.01224.08Ri633819ni5552. 2. 参数检验和非参数检验的对应关系参数检验和非参数检验的对应关系比较类型比较类型参数检验参数检验非参数检验非参数检验配对样本比较配对样本比较配对配对t t检验检验WilcoxonWilcoxon符号秩检验符号秩检验两组独立样本比较两组独立样本比较成组成组t t检验检验WilcoxonWilcoxon秩和检验秩和检验多组独立样本比较多组独立样本比较单因素方差分析单因素方差分析Kruskal-WallisKruskal-Wallis秩和检验秩和检验一、直线相关一、直线相关相关相关 - - 变量间在数量上的相互关系变量间在数量上的相互关
20、系 直线相关直线相关(linear correlation):用于描述具有线性:用于描述具有线性关系的两变量关系的两变量X、Y间的相互关系。间的相互关系。 相关系数示意图相关系数示意图 散点呈椭圆形分布(相关)散点呈椭圆形分布(相关)X X、Y Y 同时同时增减增减-正正相关相关(positive correlation)positive correlation); X X、Y Y 此增彼减此增彼减-负负相关相关(negative correlation) (negative correlation) 。 散点在一条直线上(完散点在一条直线上(完全相关)全相关) X X、Y Y 变化趋势变化趋
21、势相同相同-完全完全正正相关;相关;反向反向变化变化-完全完全负负相关。相关。 相关系数示意图相关系数示意图 X X、Y Y 变化互不影响(无变化互不影响(无直直线相关关系线相关关系)-零(不)零(不)相关相关(zero correlation)(zero correlation)1 1、相关系数概念、相关系数概念 相关系数又称为相关系数又称为PearsonPearson相关系数(软件中常相关系数(软件中常用此名称)用此名称) 相关系数说明两变量间相互直线关系的密切相关系数说明两变量间相互直线关系的密切程度和方向的指标。程度和方向的指标。 r r 样本相关系数样本相关系数2 2、相关系数的计算
22、和假设检验、相关系数的计算和假设检验 二、直线回归二、直线回归函数关系:函数关系: 确定,各点在线上。例如确定,各点在线上。例如y=5+3x回归关系:回归关系:不确定,不确定,各点并非恰好都在线上各点并非恰好都在线上。例如血压。例如血压和年龄的关系(血压随年龄的增长而增高,和年龄的关系(血压随年龄的增长而增高,并呈直线趋势)。并呈直线趋势)。 目的:目的: 建立直线回归方程建立直线回归方程( linear regression equation)1、直线回归方程、直线回归方程 一般表达式:一般表达式: a:截距:截距(intercept),直线与,直线与Y轴交点的纵坐标。轴交点的纵坐标。 b:
23、斜率:斜率(slope),回归系数,回归系数(regression coefficient)。 bXaY2 2、直线回归方程的求法、直线回归方程的求法 3 3、回归方程的检验、回归方程的检验4 4、直线回归与相关应用的注意事项直线回归与相关应用的注意事项(1)直线回归与相关分析要有实际意义(变量选择要直线回归与相关分析要有实际意义(变量选择要结合结合专业背景专业背景,相关未必真有内在联系),相关未必真有内在联系)(2)分析结果的解释及正确应用,不能任意分析结果的解释及正确应用,不能任意“外延外延”(3)正确选择自变量与应变量(正确选择自变量与应变量(分析目的、专业知识、分析目的、专业知识、因果
24、、变异大小、测量难易程度因果、变异大小、测量难易程度)(4)相关与回归分析前应绘制散点图(两变量间可能相关与回归分析前应绘制散点图(两变量间可能关系的重要提示、考察现有数据是否满足正态分布、关系的重要提示、考察现有数据是否满足正态分布、有助于异常点的识别与处理)有助于异常点的识别与处理) 第十六章第十六章 统计表与统计图统计表与统计图 一、统计表一、统计表1、统计表的结构、统计表的结构2、统计表的意义、统计表的意义清晰地展示数据的结构、分布和特征清晰地展示数据的结构、分布和特征方便阅读、比较和计算方便阅读、比较和计算研究论文中可代替冗长的文字叙述研究论文中可代替冗长的文字叙述3、统计表的制表原
25、则、统计表的制表原则重点突出:一张表,一个中心内容重点突出:一张表,一个中心内容表述清楚:主语与宾语的选择、位置的确定表述清楚:主语与宾语的选择、位置的确定简单明了:文字、数字、线条应尽量从简简单明了:文字、数字、线条应尽量从简4、制表的基本要求、制表的基本要求标题:概括表的主要内容标题:概括表的主要内容标目:横标目、纵标目、总标目标目:横标目、纵标目、总标目线条:三条基本线:顶线、底线、纵标目下线条:三条基本线:顶线、底线、纵标目下 横线。横线。无斜线、竖线无斜线、竖线。数字:无数字数字:无数字“-”,缺失数字,缺失数字“”,不留空,不留空 项,小数位对齐。项,小数位对齐。备注:备注:列于统
26、计表的下方。列于统计表的下方。5、常见不良统计表、常见不良统计表统计表过大、内容过多统计表过大、内容过多标目设置不合理,导致统计表内容表述混乱标目设置不合理,导致统计表内容表述混乱线条过多,如出现不必要的竖线、斜线等线条过多,如出现不必要的竖线、斜线等数字区有空项,同一指标小数位不同、未对齐数字区有空项,同一指标小数位不同、未对齐将备注列于统计表中将备注列于统计表中统计表基本结构中要素缺失:无标题、少线条统计表基本结构中要素缺失:无标题、少线条二、二、 统计图统计图 统计图(统计图(statistical graph)是用点、)是用点、线、面等各种几何图形来形象化地表达统计数线、面等各种几何图
27、形来形象化地表达统计数据的图形。与统计表相比,统计图具有形象直据的图形。与统计表相比,统计图具有形象直观的特点,易于给读者留下深刻的印象;但不观的特点,易于给读者留下深刻的印象;但不象统计表那样,能提供精确的数值。象统计表那样,能提供精确的数值。1、统计图的结构、统计图的结构标题:概括统计图的主要内容、时间和地点;标题:概括统计图的主要内容、时间和地点;置于图的下方;置于图的下方;横轴和纵轴:横标目、纵标目(指标名称、单横轴和纵轴:横标目、纵标目(指标名称、单位),纵横轴的比例以位),纵横轴的比例以5:7为宜;为宜;图例:说明图中不同颜色或线条所表达的对象图例:说明图中不同颜色或线条所表达的对
28、象 刻刻 度度图图 例例2、几种常用的统计图、几种常用的统计图(1)直条图(直条图(bar chart)意义:等宽直条长短表示相互独立的统计指标值的意义:等宽直条长短表示相互独立的统计指标值的大小(绝对数、相对数、平均数);大小(绝对数、相对数、平均数);制图要求:纵轴必须从制图要求:纵轴必须从“0”0”开始;直条等宽、条间开始;直条等宽、条间距等宽;直条由高到低或按自然顺序排列;距等宽;直条由高到低或按自然顺序排列;分类:单式条图、复式条图、误差条图分类:单式条图、复式条图、误差条图单式条图(单式条图(simple bar chart ):):一个分组标志、一个统计指标一个分组标志、一个统计
29、指标复式条图(复式条图(clustered bar chart ) :多个分组标志、一个统计指标多个分组标志、一个统计指标误差条图误差条图(error bar chart ):用条图表示均用条图表示均数的基础上,在图中附上标准差的范围。数的基础上,在图中附上标准差的范围。图图2-27 四种营养素喂养小白鼠三周后所增体重(克)四种营养素喂养小白鼠三周后所增体重(克)020406080100ABCD营养素体重( g )(2) 圆图和百分条图圆图和百分条图(pie chart and percent bar chart)圆图:以圆形总面积为圆图:以圆形总面积为100%,将其分割成若,将其分割成若干个
30、扇面以表示事物内部各构成部分所占的比例。干个扇面以表示事物内部各构成部分所占的比例。适合描述分类资料的各类别所占的构成比。适合描述分类资料的各类别所占的构成比。百分条图:以矩形的总长度表示百分条图:以矩形的总长度表示100%,将其,将其分割成不同长度的段以表示事物内部各构成部分分割成不同长度的段以表示事物内部各构成部分所占的比例。用途同圆图,但特别适合进行多个所占的比例。用途同圆图,但特别适合进行多个构成比的比较。构成比的比较。(3) 线图(线图(line graph)用线段的升降表示某事物动态变化,或某现象用线段的升降表示某事物动态变化,或某现象随另一现象随另一现象变化的趋势变化的趋势。适用
31、于连续性资料。适用于连续性资料纵轴:统计指标,算术尺度,以纵轴:统计指标,算术尺度,以“0 0”为起点为起点横轴:连续性变量横轴:连续性变量(时间、年龄等时间、年龄等),算术尺度,算术尺度连线:两点之间用直线相连,不可修匀成光滑连线:两点之间用直线相连,不可修匀成光滑曲线曲线某炮团和坦克团某年不同月份的发病人数某炮团和坦克团某年不同月份的发病人数关于考试:关于考试:题型:选择、计算题型:选择、计算举例举例:(1 1)一组变量的标准差将(一组变量的标准差将( )。)。A.A.随变量值的个数随变量值的个数n n的增大而增大的增大而增大B.B.随变量值的个数随变量值的个数n n的增加而减小的增加而减
32、小C.C.随变量值之间的变异增大而增大随变量值之间的变异增大而增大D.D.随系统误差的减小而减小随系统误差的减小而减小(2)(2)方差分析的主要目的是比较(方差分析的主要目的是比较( )A A 总体均数之间的差异性总体均数之间的差异性 B B 样本均数之间的差异性样本均数之间的差异性C C 总体方差之间的差异性总体方差之间的差异性 D D 总体变异系数之间的差异性总体变异系数之间的差异性(3) (3) 某医院某医院20032003年全部门诊患者中,上呼吸道感染患年全部门诊患者中,上呼吸道感染患者占者占5%5%,则下述正确的是(,则下述正确的是( )A. A. 上呼吸道感染患病率为上呼吸道感染患
33、病率为5%5%B. B. 该院门诊的上呼吸道感染患者构成比为该院门诊的上呼吸道感染患者构成比为5%5%C. C. 该院门诊患者中上呼吸道感染的发病率为该院门诊患者中上呼吸道感染的发病率为5%5%D. D. 该院门诊患者中上呼吸道感染的患病率为该院门诊患者中上呼吸道感染的患病率为5%5%(4)(4)率可以用来反映(率可以用来反映( )A. A. 两个指标之间的大小对比关系两个指标之间的大小对比关系B. B. 某现象发生的频率或强度某现象发生的频率或强度C. C. 某部分个体数与各部分个体数总合的比某部分个体数与各部分个体数总合的比D. D. 计算资料的集中趋势计算资料的集中趋势计算:计算:(1)
34、西安地区)西安地区55-58岁健康成人的血岁健康成人的血糖值糖值(mmol/L),经检验服从正态分布。求得),经检验服从正态分布。求得 试估计试估计95%参考值范围。参考值范围。401.0653.4s,x解:采用正态法求双侧解:采用正态法求双侧95%的参考值范围的计算的参考值范围的计算公式为:公式为: 本例中本例中sx96. 1)44. 5 ,87. 3(401. 096. 1653. 496. 1sx(2)某医院用新药与常规药物治疗婴幼儿贫血,)某医院用新药与常规药物治疗婴幼儿贫血,将将20名贫血患儿随机等分两组,分别接受两种药名贫血患儿随机等分两组,分别接受两种药物治疗,测得血红蛋白增加量
35、(物治疗,测得血红蛋白增加量(g/L)见表)见表1。问。问新药与常规药的疗效有无差别?新药与常规药的疗效有无差别? 1123.6,2.29XS2220.9,1.34XS120.84XXS0.05/2,182.101t表1 两种药物治疗婴幼儿贫血结果治疗药物血红蛋白增加量(g/L)新药组24362514263423201519常规药组14182015222421252723 可能会用到的值:新药组常规药组 解:解:1.建立假设,确定检验水准建立假设,确定检验水准H0:H1: 2.计算检验统计量计算检验统计量t3.确定确定P值,因值,因故故P0.05,拒绝,拒绝H0,接受,接受H1,认为两种药物治,认为两种药物治疗效果不同。疗效果不同。 05. 02121214. 384. 09 .206 .232121xxsxxt101. 218, 2/05. 0tt