1、1第八章第八章2023-1-122 统计学是一门运用概率论和数理统计学是一门运用概率论和数理统计的基本原理研究数据收集、整理统计的基本原理研究数据收集、整理和分析的方法学,医学统计学方法是和分析的方法学,医学统计学方法是统计学在医学领域中的应用。统计学在医学领域中的应用。3医学统计学的基本概念医学统计学的基本概念统计资料的类型统计资料的类型医学统计工作的基本步骤医学统计工作的基本步骤统计表与统计图统计表与统计图主要内容4一、同质和变异一、同质和变异二、总体与样本二、总体与样本三、参数与统计量三、参数与统计量四、误差四、误差五、概率五、概率5(homogeneity):是指观察单位或观察指标受共
2、同因素是指观察单位或观察指标受共同因素制约的部分。制约的部分。(variation):是指在同质的基础上个体间的差异。是指在同质的基础上个体间的差异。一、同质和变异一、同质和变异l例例1 1 调查调查20032003年长沙市年长沙市7 7岁男童的身高和体重岁男童的身高和体重同质同质:20032003年、长沙市、年、长沙市、7 7岁男童岁男童变异变异:身高和体重各不相同:身高和体重各不相同l例例2 2 研究某降压药的疗效研究某降压药的疗效同质同质:高血压患者、用某药治疗:高血压患者、用某药治疗变异变异:疗效各不相同:疗效各不相同67l观察单位(observed unit):亦称个体(indivi
3、dual),是统计研究中最基本的单位,可以是一个人,一个样品等。感谢你的观看2019年6月298(population)是指根据研究目的所确定的同质观是指根据研究目的所确定的同质观察单位的全体,更确切地说,是同质的察单位的全体,更确切地说,是同质的所有观察单位某项观察值的集合。所有观察单位某项观察值的集合。分为有限总体和无限总体两类。分为有限总体和无限总体两类。二、总体与样本二、总体与样本9(sample):是指从总体中随机抽取部分观察单位某是指从总体中随机抽取部分观察单位某项指标实测值的集合。项指标实测值的集合。由于直接研究总体通常是不可能的,由于直接研究总体通常是不可能的,故一般采用抽样研
4、究。故一般采用抽样研究。(sampling):从总体中抽取部分个体的过程称为抽样从总体中抽取部分个体的过程称为抽样 随机抽样(random sampling)为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。102023-1-12对样本数据进行观察或计算统计指标,目的是推论总体。112023-1-1212(parameter):根据总体中全部个体:根据总体中全部个体值计算出来的描述总体特征的指标。参数值计算出来的描述总体特征的指标。参数一般用希腊字母表示,如
5、总体均数一般用希腊字母表示,如总体均数、总、总体率体率等。(一般是未知的,或假设的)等。(一般是未知的,或假设的)(statistic):根据样本中个体值计算根据样本中个体值计算出来的描述样本特征的指标。统计量用拉出来的描述样本特征的指标。统计量用拉丁字母表示,如样本均数丁字母表示,如样本均数 x、样本率、样本率p。三、参数与统计量三、参数与统计量13p随机误差:随机误差:在 随 机 误 差 中,最 重 要 的 是 抽 样 误 差在 随 机 误 差 中,最 重 要 的 是 抽 样 误 差(sampling error)。)。抽样误差抽样误差是抽样引起的样本是抽样引起的样本统计量与总体参数之间的
6、差异。抽样误差有规律可统计量与总体参数之间的差异。抽样误差有规律可循,样本越大,抽样误差越小。循,样本越大,抽样误差越小。p系统误差系统误差p过失误差过失误差四、误差四、误差14(probability):是描述某一:是描述某一随机事件发随机事件发生可能性大小的指标,常用生可能性大小的指标,常用P表示,取值范表示,取值范围围0P1。:统计学上把概率:统计学上把概率P0.05的事的事件称为小概率事件。件称为小概率事件。五、概率五、概率医学上常用医学上常用统计概率统计概率:对某一随机现象进行大量观察后得到的:对某一随机现象进行大量观察后得到的百分数,如高血压患病率,乳腺癌术后五年生存率。百分数,如
7、高血压患病率,乳腺癌术后五年生存率。15频频 率率l频率(frequency):是通过样本研究计算出的。l 某药治愈率=治愈70人/总治疗100例病人=0.70l概率是理论参数,频率是概率的估计值。l当观察例数越来越多时,频率越来越接近概率。2023-1-1216 在收集医学研究的资料时,首先要根据在收集医学研究的资料时,首先要根据研究目的确定研究目的确定,然后对观察单位的,然后对观察单位的某个特征某个特征变量变量(variable)进行观察或测定。进行观察或测定。观察结果或测定值称为观察结果或测定值称为变量值变量值。17一、数值变量一、数值变量二、分类变量二、分类变量三、变量的转化三、变量的
8、转化第二节第二节 统计资料的类型统计资料的类型18(numerical variable):):其变量值是用定量方法测得的,其变量值是用定量方法测得的,变量值有大小之分,一般有度量衡单变量值有大小之分,一般有度量衡单位。所得的资料称为位。所得的资料称为计量资料计量资料。19(categorical variable):又称定性变量。其变量值是用定又称定性变量。其变量值是用定性方法得到的,通常将观察单位按某性方法得到的,通常将观察单位按某种属性或类别分组,然后汇总各组个种属性或类别分组,然后汇总各组个数所得到的数值。数所得到的数值。201.无序分类变量无序分类变量 二项分类变量二项分类变量 多项
9、分类变量多项分类变量 无序分类变量构成的资料称为无序分类变量构成的资料称为计数资料计数资料。2.有序分类变量有序分类变量 有序分类变量构成的资料称为有序分类变量构成的资料称为等级资料等级资料。21统计资料的几种类型住院号住院号年龄年龄身高身高体重体重住院天数住院天数文化程度文化程度职业职业分娩方式分娩方式妊娠结局妊娠结局20256552025655272716516571.571.55 5中学中学无无顺产顺产足月足月20256532025653222216016074.074.05 5小学小学无无助产助产足月足月20258302025830252515815868.068.06 6大学大学管理
10、员管理员顺产顺产足月足月20225432022543232316116169.069.05 5中学中学无无剖宫产剖宫产足月足月20224662022466252515915962.062.01111中学中学商业商业剖宫产剖宫产足月足月20245352024535272715715768.068.02 2小学小学无无顺产顺产早产早产20258342025834202015815866.066.04 4中学中学无无助产助产早产早产20194642019464242415815870.570.53 3中学中学无无助产助产足月足月20257832025783292915415457.057.07 7中
11、学中学干部干部剖宫产剖宫产足月足月观察单位observations个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料Units;elements等级资料等级资料 Rank dataRank data222023-1-1223 不同类型的变量其统计处理方法不同类型的变量其统计处理方法不同。在实际工作中,根据统计分析不同。在实际工作中,根据统计分析的具体要求和研究目的,各种不同的的具体要求和研究目的,各种不同的变量间可以互相转化。
12、变量间可以互相转化。变量的转化变量的转化三类资料间关系 例:一组例:一组20 40岁成年人的血压(舒张压)岁成年人的血压(舒张压)以以1212kPakPa(90mmHg90mmHg)为界分为正为界分为正常与异常两组,统计每组例数。常与异常两组,统计每组例数。8 低血压低血压 8 8 正常血压正常血压 1212 轻度高血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压计量资料计量资料等级资料等级资料计数资料计数资料24变量的转换:变量的转换:根据研究的需要,可将变量重新编码根据研究的需要,可将变量重新编码.1.定量变量测定数据可转换成有序分类变量的数据,或定量变量测定
13、数据可转换成有序分类变量的数据,或二分类数据。甚至可变换成无序分类变量的数据。如年二分类数据。甚至可变换成无序分类变量的数据。如年龄变量的测定值可等级化为有序分类数据。龄变量的测定值可等级化为有序分类数据。连续变量:(连续变量:(1,2,3,87)岁;)岁;年龄范围年龄范围编码编码0未满未满10岁岁010未满未满20岁岁120未满未满45岁岁245未满未满65岁岁365岁及以上岁及以上4年龄范围年龄范围编码编码0未满未满0岁岁020未满未满65岁岁165岁及以上岁及以上2年龄范围年龄范围编码编码65岁岁065岁及以上岁及以上125有序分类资料的有序分类资料的编码编码临床疗效临床疗效编码编码无效
14、无效0好转好转1显效显效2治愈治愈32.有序分类可以用数值有序分类可以用数值表示其等级关系。表示其等级关系。如:无效如:无效=0,好转,好转=1,显效显效=2,治愈,治愈=3:3.多分类变量的重新编码多分类变量的重新编码职业:工人,农民,商业,职业:工人,农民,商业,学生,职员:学生,职员:多项分类变量的编码多项分类变量的编码职业职业编码:计编码:计算机输入用算机输入用 编码:分析用编码:分析用X1X2X3X4工人工人1000农民农民0100商业商业0010学生学生0001职员职员00002627一、研究设计一、研究设计(research design)二、收集资料收集资料(data coll
15、ection)三、整理资料整理资料(data sorting)四、分析资料四、分析资料(statistical analysis)28统计学在科研活动各个阶段的作用统计学在科研活动各个阶段的作用一、医学研究设计一、医学研究设计(design)1.专业设计:包括研究目的、意义、创新性、研究专业设计:包括研究目的、意义、创新性、研究对象对象(纳入标准和排除标准)(纳入标准和排除标准)、研究内容与方法、观、研究内容与方法、观察指标的设立、研究进度及预期结果等。察指标的设立、研究进度及预期结果等。2.统计设计:设计模式,样本含量估计,随机抽统计设计:设计模式,样本含量估计,随机抽样方法,实验组与对照组
16、的分组原则,偏倚的控样方法,实验组与对照组的分组原则,偏倚的控制、统计分析方法,等方面的考虑。制、统计分析方法,等方面的考虑。1.临床试验设计:临床试验设计:design of clinical trial2.实验室研究的实验设计实验室研究的实验设计:design of experiment3.现场调查研究设计现场调查研究设计:design of survey 研究样本对其所属的总体要具有代表性及各组之间研究样本对其所属的总体要具有代表性及各组之间的可比性。要考虑混杂因素对结果的干扰作用。的可比性。要考虑混杂因素对结果的干扰作用。29二、资料收集资料收集(data collection):30
17、31l基本要求:l 完整,准确,及时。质量控制:保证质量控制:保证统一性、可重复性统一性、可重复性2023-1-12三、整理资料三、整理资料(data sorting):是对收集到的是对收集到的32四、分析资料四、分析资料(data analysis):1.1.描述性统计,描述性统计,2.2.统计学推断和对比分析,统计学推断和对比分析,3.3.相关分析,相关分析,4.4.统计模型配合(多因素分析)。统计模型配合(多因素分析)。统计分析方法要与研究目的及资料类型匹配。有统计分析方法要与研究目的及资料类型匹配。有好的原始资料,才有好的统计分析结果。好的原始资料,才有好的统计分析结果。3334一、统
18、计表:一、统计表:是将统计分析结果以表格的形是将统计分析结果以表格的形 式列出。式列出。二、统计图:二、统计图:是用点、线、面等几何图形来是用点、线、面等几何图形来 反映统计结果。反映统计结果。2023-1-12351.1.统计表的结构统计表的结构2.2.统计表的种类统计表的种类3.3.编制统计表应注意的事项编制统计表应注意的事项一、统计表一、统计表2023-1-1236l标题:位于统计表的上方中央,要表达出统标题:位于统计表的上方中央,要表达出统计表的主要内容,必要时应注明时间、地点。计表的主要内容,必要时应注明时间、地点。l标目:标目用简单的文字来说明表格内的项标目:标目用简单的文字来说明
19、表格内的项目,要有单位。目,要有单位。l线条:线条:3 34 4条横线,禁用竖线、斜线。条横线,禁用竖线、斜线。1.1.统计表的结构统计表的结构 包括标题、标目、线条、数字、备注包括标题、标目、线条、数字、备注2023-1-1237数字:表内的数字必须准确无误,用阿拉数字:表内的数字必须准确无误,用阿拉伯数字表示。同一指标的小数位数要一致,伯数字表示。同一指标的小数位数要一致,上下要对齐,表内不留空格,数字暂缺或上下要对齐,表内不留空格,数字暂缺或未记录用未记录用“”表示,无数字用表示,无数字用“”表示,表示,数字若是数字若是0,则填写,则填写0备注:表中用备注:表中用“*”标出,再在表的下方
20、用标出,再在表的下方用文字加以说明。文字加以说明。表表8-1 某地城乡小学生蛔虫感染情况结果某地城乡小学生蛔虫感染情况结果组别组别检检测测人数人数阳性数阳性数阳性率阳性率()城镇小学生城镇小学生82077018.84乡村小学生乡村小学生14585216714.86*合计合计22792286812.58标题标题纵标目纵标目横标目横标目数字数字底线底线顶线顶线纵标目线纵标目线合计线合计线*:两组比较两组比较P0.05 3839简单表简单表组合表组合表统计表统计表2.2.统计表的种类统计表的种类40职业甲社区乙社区人数患者数患病率(%)人数患者数患病率(%)工人242078732.917154102
21、3.9科技人员1564652410763623336.6管理人员115543137.356123241.4商业人员94315716.6566559.7农民973030.9195932916.8家政人员725638.7537346.3合计6904213030.95974129321.6表表8-2 某市不同职业社区居民慢性病患病率某市不同职业社区居民慢性病患病率413.3.编制统计表应注意的事项编制统计表应注意的事项重点突出,简单明了。重点突出,简单明了。主谓分明,层次清楚。主谓分明,层次清楚。42改表举例:改表举例:43修改后的统计表如下:修改后的统计表如下:麦芽根糖浆治疗麦芽根糖浆治疗 161
22、 例急慢性肝炎疗效例急慢性肝炎疗效 疗疗 效效 例数例数 构成比(构成比(%)近期痊愈近期痊愈 70 43.5 好好 转转 38 23.6 无无 效效 53 32.9 441.1.制图的基本要求制图的基本要求2.2.常用统计图形的种类常用统计图形的种类二、统计图二、统计图2023-1-12451.1.制图的基本要求制图的基本要求 (1)图形选择)图形选择 (2)标题(位于图下方)标题(位于图下方)(3)纵、横坐标(注明单位,比例一)纵、横坐标(注明单位,比例一般般5:7,7:5)(4)图例(颜色或线条,右上角或图)图例(颜色或线条,右上角或图下方)下方)462.2.常用统计图常用统计图统计图统
23、计图条条 图图百分条图百分条图圆圆 图图线线 图图半对数线图半对数线图散点图散点图直方图直方图47(1)条图()条图(bar chart):用等宽直条的长短表用等宽直条的长短表示统计指标数值的大小。示统计指标数值的大小。适用于相互独立、性质相适用于相互独立、性质相似的各指标间比较。似的各指标间比较。注意:纵坐标从注意:纵坐标从0开始开始图8-1 某地城乡小学生蛔虫感染率0246810121416城镇小学生乡村小学生蛔虫感染率(%)48图82 某市不同职业社区居民慢性病患病率051015202530354045科技管理工人农民商业家务患病率(%)甲社区乙社区49(2)百分条图()百分条图(per
24、cent chart):是以一个直条总):是以一个直条总长度为长度为100%,将其分割成不同长度的段来表示,将其分割成不同长度的段来表示事物中各部分的比重或构成。事物中各部分的比重或构成。50(3)圆图()圆图(pie chart):):是用圆的总面积作为是用圆的总面积作为100%,将其分割成若干个扇面来表示事物中各,将其分割成若干个扇面来表示事物中各部分的比重或构成。部分的比重或构成。51(4)线图)线图(line chart):):是用线段的升降来是用线段的升降来表示某变量随另一个变量的变化而变化的趋表示某变量随另一个变量的变化而变化的趋势。势。图 8-5 1995-2002年 某 市 肠
25、 道 与 虫 媒 传 染 病 发 病 率02040608010012019951996199719981999200020012002年 份发病率(1/10万)肠 道 传 染 病虫 媒 传 染 病52(5)半对数线图)半对数线图(semi-logarithmic line chart):):用于表示事物发展的相对速度。用于表示事物发展的相对速度。其纵轴为对数尺度,横轴为算术尺度。其纵轴为对数尺度,横轴为算术尺度。图8-6 1995-2002年某市肠道与虫媒传染病发病率110100100019951996199719981999200020012002年份发病率(1/10万)肠道传染病虫媒传染病
26、53(6)散点图)散点图(scatter diagram):):用点的位置用点的位置表示两变量间的数量关系和变化趋势。表示两变量间的数量关系和变化趋势。54(7)直 方 图)直 方 图(histogram):):是用各矩形的面是用各矩形的面积表示各组段的积表示各组段的频数,各矩形面频数,各矩形面积的总和为总频积的总和为总频数,用以表示连数,用以表示连续型资料的频数续型资料的频数分布。分布。纵坐标从纵坐标从0开始开始实例数据1胆胆管管癌癌患患者者部部分分指指标标 编编号号 性性别别 年年龄龄(岁岁)部部位位 分分化化程程度度 分分期期 肝肝转转移移 PCNA 指指数数 生生存存时时间间(月月)(1)(2)(3)(4)(5)(6)(7)(8)(9)1 男男 61 上上 低低分分化化 阳阳性性 52 14 2 女女 58 中中 高高分分化化 阴阴性性 89 20 3 女女 63 上上 高高分分化化 阴阴性性 93 19 4 女女 71 下下 中中分分化化 阳阳性性 78 5 5 男男 59 上上 高高分分化化 阴阴性性 85 35 练习练习552023-1-12实例数据2562023-1-12572023-1-12