1、 第三篇第三篇 医学统计学方法医学统计学方法2013.11.63主讲人主讲人 陶育纯陶育纯http:/ 课程名称:课程名称:预防医学预防医学 主要教材:主要教材:卫生学卫生学 第第7版版 仲来福仲来福 主编主编 人民卫生出版社人民卫生出版社 年级、专业:年级、专业:2011级医学五年制第一教班级医学五年制第一教班 授课时间:授课时间:2013年年11月月7日日 授课时数:授课时数:4h2013.11.65一、小结一、小结二、统计分析工具的介绍二、统计分析工具的介绍三、课堂实习三、课堂实习四、课堂讲解四、课堂讲解五、课后作业五、课后作业1.统计软件的简介统计软件的简介2.SAS的基本使用方法的基
2、本使用方法(自学)(自学)3.SPSS的基本使用方法的基本使用方法4.Excel的统计分析方法的统计分析方法5.Android系统的统计应用系统的统计应用2013.11.66 统计学统计学医学统计学医学统计学 医学统计学基本概念医学统计学基本概念一、变量一、变量 数值变量(数值变量(定量变量、计量资料定量变量、计量资料)分类变量(分类变量(定性变量、计数资料定性变量、计数资料)随机性随机性变量变量变量值变量值等级资料等级资料2013.11.67二、同质与变异二、同质与变异三、总体与样本三、总体与样本四、参数与统计量四、参数与统计量五、抽样误差五、抽样误差(见后)(见后)六、概率六、概率 医学统
3、计工作的基本步骤医学统计工作的基本步骤一、设计一、设计随机化原则随机化原则频率频率小概率事件小概率事件 变量间的转化变量间的转化2013.11.68二、收集资料二、收集资料三、整理资料三、整理资料四、分析资料四、分析资料统计描述统计描述 统计推断统计推断 统计表与统计图统计表与统计图、统计表的结构、统计表的结构、统计表的种类、统计表的种类、制表原则和基本要求、制表原则和基本要求 标题标题 一、统计表一、统计表2013.11.69 表号表号 表线表线 纵标目纵标目 横标目横标目 数字数字 备注备注 、统计表的绘制方法、统计表的绘制方法 二、统计图二、统计图、绘制统计图的基本要求、绘制统计图的基本
4、要求2013.11.610 、常用统计图的绘制方法及注意事项、常用统计图的绘制方法及注意事项 条图条图 百分条图百分条图 圆图圆图 线图线图 半对数线图半对数线图 散点图散点图 直方图直方图 统计地图统计地图2013.11.611 定量变量资料的统计描述定量变量资料的统计描述分布分布、频数分布表、频数分布表、频数分布图、频数分布图、频数分布特征、频数分布特征直方图直方图集中趋势集中趋势 离散趋势离散趋势一、定量变量资料的频数分布一、定量变量资料的频数分布、频数分布类型、频数分布类型、频数分布表的用途、频数分布表的用途对称分布对称分布 偏峰分布偏峰分布2013.11.612二、平均水平指标二、平
5、均水平指标、算术均数(、算术均数(均数均数)、几何均数、几何均数、中位数、中位数百分位数:百分位数:组中值组中值)lg(lg1nXG1.直接法直接法 2.间接法间接法PLifn xfxxL(%)三、离散程度指标三、离散程度指标、全距全距(极差极差)、四分位数间距、四分位数间距257513PPQQQQLUR=max-min2013.11.613、方差、方差、标准差、标准差、变异系数、变异系数离均差平方和离均差平方和1)(22nXXS122nnXXSCVSX100%正态分布及其应用正态分布及其应用一、正态分布一、正态分布 正态分布的特征正态分布的特征1 1、正态曲线下面积分布规律、正态曲线下面积分
6、布规律2 2、标准正态分布、标准正态分布N(,2)N(0,1)u变换Xu1.96 95%2.58 99%2013.11.6143 3、医学参考值范围的估计、医学参考值范围的估计 确定医学参考值范围的注意事项确定医学参考值范围的注意事项 医学参考值范围的计算方法医学参考值范围的计算方法 1)正态分布法正态分布法 2)百分位数法百分位数法SuX),(5.975.2PP2013.11.615 SAS SAS简介简介 SAS(Statistical Analysis System)是当今世界是当今世界上最权威的统计分析系统之一。上最权威的统计分析系统之一。SAS系统于上世系统于上世纪六十年代末由美国的
7、纪六十年代末由美国的North Carolina大学的大学的一一 个研究小组开发个研究小组开发。1976年年成立成立SAS研究所专门负研究所专门负责产品的研制、责产品的研制、生产、销售和培训。生产、销售和培训。1985年首次年首次推出推出PC版本,以后相继推出升级版本,功能不版本,以后相继推出升级版本,功能不 断加强,目前最新版本为断加强,目前最新版本为SAS V9.4。你可以花钱使用你可以花钱使用SAS,但你不能拥有它!但你不能拥有它!2013.11.617 Today,SAS is no longer a name of statistical software,it became a s
8、ymbol of all products in business intelligence and analytical software and services provided by SAS company.2013.11.618 SAS is the leader in business intelligence and analytical software and services.Customers at 43,000 sites use SAS software to improve performance through insight from data,resultin
9、g in faster,more accurate business decisions;more profitable relationships with customers and suppliers;compliance with governmental regulations;research breakthroughs;and better products and processes.Only SAS offers leading data integration,storage,analytics and business intelligence applications
10、within a comprehensive enterprise intelligence platform.Since 1976,SAS has been giving customers around the world.2013.11.619Look for the new SAS ads 2013.11.620 2013.11.621Another SAS ads 2013.11.622 SAS是是一个模块化、集成化的应用软件系统一个模块化、集成化的应用软件系统,它可以实现对数据的完全控制和充分利用。主要它可以实现对数据的完全控制和充分利用。主要完成以数据中心的四大任务:完成以数据中
11、心的四大任务:数据访问数据访问 数据管理数据管理 数据呈现数据呈现 数据分析数据分析 SAS可由许多不同的模块组成来完成不同的可由许多不同的模块组成来完成不同的任务。对于最基本的、最常用的统计方法放在基任务。对于最基本的、最常用的统计方法放在基本系统模块本系统模块(BASE)里,不管低版本还是高版本,里,不管低版本还是高版本,此模块都包含。此模块都包含。常用的模块有:常用的模块有:SAS/BASE(基础)、基础)、SAS2013.11.623/STAT(统计)、统计)、SAS/GRAPH(图形)、图形)、SAS/ETS(预测)、预测)、SAS/IML(矩阵)、矩阵)、SAS/QC(质量控制)等
12、。质量控制)等。SAS的的特点:特点:可靠性高可靠性高 易用性好易用性好 通用性强通用性强 应用范围广应用范围广 SAS的启动和操作界面的启动和操作界面 2013.11.624 启动启动SAS有两种方法:一是通过双击桌面上有两种方法:一是通过双击桌面上的的SAS的快捷启动方式图标的快捷启动方式图标 ;二是通过;二是通过单击单击“开始开始”按钮内按钮内“程序程序”下下SAS系统程序组系统程序组中的中的SAS的启动程序项的启动程序项。SAS的操作界面是由标题的操作界面是由标题、菜单、工具栏、菜单、工具栏、窗口和状态行构成。不同版本的界面稍有不同。窗口和状态行构成。不同版本的界面稍有不同。以下以下图
13、图1为为SAS 6.12的操作界面,的操作界面,图图2为为SAS 9.3 的操作界面。的操作界面。2013.11.625图图 12013.11.626图图 22013.11.627 SAS的基本使用方法的基本使用方法 SAS主要通过主要通过编程编程完成统计分析任务。完成统计分析任务。SAS Program数据步(DATA Step)过程步(PROC Step)SAS程序通过程序通过数据步数据步完成完成SAS数据集数据集(DataSet)的建立工作,此步还可对数据进行加工、的建立工作,此步还可对数据进行加工、整理和变换。通过整理和变换。通过过程步过程步调用一个或多个调用一个或多个SAS过过程程(
14、procedure),其作用是对已建立的其作用是对已建立的SAS数据数据集集进行进行分析和管理。分析和管理。2013.11.628data test2;input x y ;d=x-y;cards;3550245020002400300018003950 32003800 3250375027003450250030501750;proc means mean std stderr t prt;var d;run;以下是一个以下是一个SAS程序的样例。程序的样例。customer success stories2013.11.629 SAS主要通过三个基本窗口,即主要通过三个基本窗口,即程序编
15、辑窗程序编辑窗口口(PROGAM EDITOR,简记简记PGM)、日志窗口日志窗口(LOG)和输出窗口和输出窗口(OUTPUT)进行程序的输入、编辑、进行程序的输入、编辑、运行以及运行过程信息和运行结果的查看、存储。运行以及运行过程信息和运行结果的查看、存储。以下是前述以下是前述SAS程序样例的运行程序样例的运行过程信息和过程信息和运行结果运行结果。2013.11.630 有关有关SAS使用方法的参考书如下:使用方法的参考书如下:1.SAS for Windows 统计分析系统教程统计分析系统教程 洪楠等编洪楠等编 电子工业出版社电子工业出版社 20012013.11.6312.Windows
16、 SAS 6.12&8.0实用统计分析教程实用统计分析教程 胡良平编胡良平编 军事医学科学院军事医学科学院 20013.分类数据的统计分析及分类数据的统计分析及SAS编程编程 刘勤编刘勤编 复旦大学出版社复旦大学出版社 2002 4.医用统计学中的医用统计学中的SAS统计分析统计分析 贺佳编贺佳编 第二军医大学出版社第二军医大学出版社 2002 5.医用统计学与电脑实验(第二版)医用统计学与电脑实验(第二版)方积乾编方积乾编 上海科学技术出版社上海科学技术出版社 2001 6.SAS 8.2统计应用教程统计应用教程 薛富波编薛富波编 北京希望电子出版社北京希望电子出版社 兵器工业出版社兵器工业
17、出版社 2004 2013.11.632 SPSS SPSS简介简介 SPSS()是当今世界上最权威的统计分析系统之一。是当今世界上最权威的统计分析系统之一。SPSS于上世纪七十年代初由美国的于上世纪七十年代初由美国的Stanford大学的大学的一一个研究小组开发个研究小组开发,以后以后成立成立SPSS公司专门负责产公司专门负责产品的研制、品的研制、生产、销售和培训。生产、销售和培训。SPSS最初是为大最初是为大型计算机开发的,型计算机开发的,随着随着PC的发展与普及,相的发展与普及,相应地应地推出推出PC版本,以后相继推出升级版本,功能不断版本,以后相继推出升级版本,功能不断加强,目前最新版
18、本为加强,目前最新版本为IBM SPSS Statistics 22。2013.11.633WWW.SPSS.COM you to apply more sophisticated models to your data using its wide range of non-linear modelling procedures.Can provide Fishers Exact Test method.Provides a powerful set of sophisticated univariate and multivariate analytical techniques that
19、 you can apply to real-world problems.2013.11.636将来不叫将来不叫SPSS,也不一定叫,也不一定叫PASW,而可能叫,而可能叫IBM SPSS!2013.11.637This is thelatest informationfor IBM SPSS software.http:/ SPSS公司已于公司已于2000年正式将英文全称更改为年正式将英文全称更改为,意为意为“统统计产品与服务解决方案计产品与服务解决方案”,标志着,标志着SPSS的战略方的战略方向正在做出重大调整。向正在做出重大调整。SPSS也是也是一个模块化、集成化的应用软件系一个模块化
20、、集成化的应用软件系统统。它通过基本模块它通过基本模块BASE与其它模块相连,完成与其它模块相连,完成各种不同的统计分析任务。各种不同的统计分析任务。SPSS最突出的特点就是操作界面极为友好,最突出的特点就是操作界面极为友好,输出结果美观漂亮,它使用输出结果美观漂亮,它使用Windows的窗口方式的窗口方式展示各种管理和分析数据方法的功能,使用展示各种管理和分析数据方法的功能,使用对话对话框框展示出各种功能选择项,只要掌握一定的展示出各种功能选择项,只要掌握一定的2013.11.639Windows操作技能,粗通统计分析原理,就可以操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服
21、务。使用该软件为特定的科研工作服务。是非专业统是非专业统计人员的首选统计软件。计人员的首选统计软件。SPSS是世界上最早采用是世界上最早采用界面的界面的统计软件。它采用类似统计软件。它采用类似Excel表格的方式输入与管表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较据库中读入数据。其统计过程包括了常用的、较为成熟的统计方法,完全可以满足非统计专业人为成熟的统计方法,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储为专用士的工作需要。输出结果十分美观,存储为专用的的SPO格式格式,可以转
22、存为可以转存为HTML格式和文本格式。格式和文本格式。2013.11.640 SPSS Inc.is a leading worldwide provider of predictive analytics software and solutions.Today SPSS has more than 250,000 customers worldwide,served by more than 1,200 employees in 60 countries.SPSS has become a leader in technologies through a combination of co
23、mmitment to innovation and dedication to customers.You will find SPSS customers in virtually every industry,including telecommunications,banking,finance,insurance,healthcare,manufacturing,retail,consumer packaged goods,higher education,government,and market research.2013.11.641 (formerly)is a comput
24、er program used for statistical analysis.Before 2009 it was called SPSS,but in 2009 it was re-branded as ().The company announced July 28,2009 that it was being acquired by IBM for US$1.2 billion.2013.11.642 SPSS的启动和操作界面的启动和操作界面 启动启动SPSS有两种方法:一是通过双击桌面上有两种方法:一是通过双击桌面上的的SPSS的快捷启动方式图标的快捷启动方式图标 ;二是通过;二是
25、通过单击单击“开始开始”按钮内按钮内“程序程序”下下SPSS系统程序组系统程序组中的中的SPSS的启动程序项的启动程序项。SPSS的操作界面是由标题的操作界面是由标题、菜单、工具栏、菜单、工具栏、窗口和状态行构成。不同版本的界面稍有不同。窗口和状态行构成。不同版本的界面稍有不同。以下以下图图3为为SPSS 13.0的数据管理界面,的数据管理界面,图图4为分析为分析结果的操作界面。结果的操作界面。2013.11.643图图 32013.11.644图图 42013.11.645 SPSS的基本使用方法的基本使用方法 与与SAS不同,不同,SPSS主要通过主要通过操作菜单操作菜单来完成来完成统计分
26、析任务。统计分析任务。SPSS把所有的统计分析功能分门别类地以命把所有的统计分析功能分门别类地以命令、对话框和选择项的形式放到菜单中。用户使令、对话框和选择项的形式放到菜单中。用户使用统计功能只需点击鼠标就可轻松完成,而不必用统计功能只需点击鼠标就可轻松完成,而不必费心编程。费心编程。SPSS还提供了通过还提供了通过“粘贴粘贴”按钮自动按钮自动生成程序内容的先进、方便功能。生成程序内容的先进、方便功能。SPSS也必须首先建立数据集才可进行统计分也必须首先建立数据集才可进行统计分2013.11.646析。通过在一个类似析。通过在一个类似Excel表格的界面里建立包括表格的界面里建立包括变量在内数
27、据文件。以下通过变量在内数据文件。以下通过卫生统计学第卫生统计学第四版四版的第十三章回归与相关中的例的第十三章回归与相关中的例13.1资料,演资料,演示一下在示一下在SPSS 10.0中进行直线回归分析的操作过中进行直线回归分析的操作过程及分析结果。程及分析结果。例例13.1 某研究者为探讨女性的年龄与收缩压的关系,收集某研究者为探讨女性的年龄与收缩压的关系,收集了某地了某地12名妇女的年龄与收缩压数据见下表。试求年龄与收缩压的名妇女的年龄与收缩压数据见下表。试求年龄与收缩压的直直线回归方程。线回归方程。序号序号123456789101112年龄年龄5656424272723636636347
28、47555549493838424268686060收缩压收缩压19.619.6 16.716.7 21.321.3 15.715.7 19.919.9 17.117.1 20.020.0 19.319.3 15.315.3 18.718.7 20.220.2 20.620.62013.11.647 首先在首先在SPSS的的数据编辑窗口数据编辑窗口(Data Editor)中建中建立立年龄年龄与与收缩压收缩压的数据集的数据集。2013.11.648 以下是以下是年龄年龄与与收缩压收缩压的变量设置窗口的变量设置窗口。2013.11.649 以下是选择绘制以下是选择绘制年龄年龄与与收缩压收缩压的散
29、点图的菜单项的散点图的菜单项。2013.11.650 以下是绘制以下是绘制年龄年龄与与收缩压收缩压的散点图的对话框的散点图的对话框。2013.11.651 以下是以下是年龄年龄与与收缩压收缩压的散点图的输出结果的散点图的输出结果。2013.11.652 以下是选择进行以下是选择进行年龄年龄与与收缩压收缩压的直线回归分析的的直线回归分析的菜单项菜单项。2013.11.653 以下是进行以下是进行年龄年龄与与收缩压收缩压的直线回归分析的对话框的直线回归分析的对话框。2013.11.654 以下是以下是年龄年龄与与收缩压收缩压的直线回归分析的输出结果的直线回归分析的输出结果1。2013.11.655
30、 以下是以下是年龄年龄与与收缩压收缩压的直线回归分析的输出结果的直线回归分析的输出结果2。有关有关SPSS使用方法的参考书如下:使用方法的参考书如下:1.SPSS 与与统计分析统计分析 宇传华宇传华 主编主编 电子工业出版社电子工业出版社 2007.2XY151.0813.10t=6.320,P 0.05,则服从正则服从正态分布。态分布。检验统计量检验统计量ZSig.Significance,即检验概率即检验概率PAsymp.Asymptotic,近似的近似的只有选择只有选择Exact选项时才有。选项时才有。表表 5.2输出结果输出结果2013.11.682 使用使用Frequencies命令
31、命令 SPSS可以使用可以使用Frequencies命令完成对连续变量数据的命令完成对连续变量数据的频数分布分析,可以绘制频数分布分析,可以绘制直方图直方图(histogram);对离散变);对离散变量进行频数列表并绘制量进行频数列表并绘制直条图直条图(Bar chart)或)或饼图饼图(Pie chart);对数据可以求均数、标准差、最大值、最小值、;对数据可以求均数、标准差、最大值、最小值、标准误、中位数和百分位数等标准误、中位数和百分位数等。Analyze Descriptive Statistics Frequencies 2013.11.683列频数表列频数表值是组中值值是组中值任意
32、百分位数的选择任意百分位数的选择Bar chart 条图条图Pie chart 饼图饼图Histogram 直方图直方图2013.11.684 下面通过对例下面通过对例5.1的数据做基本统计分析来讲述操作的数据做基本统计分析来讲述操作步骤及结果的判读步骤及结果的判读。打开数据文件(见打开数据文件(见exp5.1.sav)选择分析变量和基本统计分析项选择分析变量和基本统计分析项 Analyze Descriptive Statistics Frequencies 打开打开Frequencies对话框,选择检验变量男性红细胞量对话框,选择检验变量男性红细胞量blood并点击并点击 Statisti
33、cs 按钮打开按钮打开Frequencies:Statistics对话框,选择对话框,选择Mean、Sum、Std.deviation、Minimum、Maximum和和S.E.mean,点击点击Continue按钮,点击按钮,点击Charts按钮打开按钮打开Frequencies:Charts对话框对话框,选择,选择Histograms并选择并选择 With normal curve选项选项,点击点击Continue按钮,再点击按钮,再点击OK按钮按钮完成。完成。2013.11.685对于连续变量对于连续变量 不选此项不选此项2013.11.686 结果判读结果判读 输出结果见输出结果见表表
34、5.7和和图图5.9,从图,从图5.9 可见该变量基本服可见该变量基本服从正态分布。从正态分布。Frequencies StatisticsStatistics男性红细胞量1200536.224.25646.62443464564346ValidMissingNMeanStd.Error of MeanStd.DeviationMinimumMaximumSum XXSS表表 5.72013.11.687图图 5.92013.11.688 SPSS常用的描述统计量常用的描述统计量的的中英文中英文参见参见表表5.3。(1)Percentile Values百分位数值Quartiles以1/4分割
35、显示25%、50%、75%Cut points forequal groups以方框里填的数作等分,显示等分位点上的值Percentile(s):以方框里填的百分数,显示各百分位点上的值(2)Central Tendency集中趋势Mean均数Median中位数Mode众数Sum总和(3)Dispersion离散程度Std.Deviation标准差Variance方差Range极差Minimum最小值Maximum最大值S.E.mean均数的标准误(4)Distribution分布参数Skewness偏度Kurtosis峰度表5.3 SPSS的Frequencies中Statistics的含义2013.11.689参见“用Excel作统计分析.xls”文档;参见Excel在统计分析中的应用,刘钢主编,人民卫生出版社:2002;参见Excel与数据分析,宇传华 颜杰编著,电子工业出版社:2002;2013.11.690 参见“NewStatisticalToolsforAndroid.PPT”课件;参见互联网上相关文献。2013.11.691 试对教材Page287 例9-1的数据进行分布判断,并合理地计算其集中趋势的指标和离散趋势的指标。2013.11.692 教材Page391 实习九(二)应用题1.,2.,3.。要求登录“吉林大学课程中心(http:/)”上传电子文档。