医学科研数据挖掘方法-挖掘技术-课件3.ppt

上传人(卖家):晟晟文业 文档编号:3810001 上传时间:2022-10-15 格式:PPT 页数:42 大小:203.80KB
下载 相关 举报
医学科研数据挖掘方法-挖掘技术-课件3.ppt_第1页
第1页 / 共42页
医学科研数据挖掘方法-挖掘技术-课件3.ppt_第2页
第2页 / 共42页
医学科研数据挖掘方法-挖掘技术-课件3.ppt_第3页
第3页 / 共42页
医学科研数据挖掘方法-挖掘技术-课件3.ppt_第4页
第4页 / 共42页
医学科研数据挖掘方法-挖掘技术-课件3.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、数据挖掘技术(3)一文章错误案例二统计分析方法回顾三如何正确选择统计分析方法四统计分析方法应用案例一文章错误案例案例一案例一原文题目:美喘清和博利康尼治疗支气管哮喘各40例临床疗效与副作用比较,作者选择80例哮喘病人随机分为美喘清组与博利康尼组各40例,记录各组病人发生疗效的时间(见下表)。所得结果用卡方检验进行处理,认为美喘清较博利康尼发生疗效的时间早,且差异具有统计学意义(P0.05)。点评:根据研究目的,每个哮喘患者都能提供一个药物发生疗效的时间,因而此资料从本质土讲应为定量资料,表中结果只是为了表达的方便列出不同时点上的频数分布,并不代表此资料的结果变量就为定性资料。原作者采用卡方检验

2、分析定量资料原作者采用卡方检验分析定量资料,所能回答的问题与原作者的分析目的不一致。此时得出的结论只能是美喘清组和博利康尼组在不同起效时间的构成上存在的差别是否具有统计学意义,并不能得出两组起效时间之间的差别具有统计学意义。案例二案例二原文题目:地氟醚对老年病人血液动力学的影响,为研究地氟醚对老年病人血液动力学的影响,选择腹部手术老年病人(年龄60一74岁)30例,所有病人术前肝肾功能检查均正常。在吸入地氟醚前,监测心输出量(CO)、峰流速(PV)、心率(HR)、校正的血流时间(FTC)、中心静脉压(CVP)、心脏指数(CI)、平均动脉压(MAP)、外周血管阻力(SYR)作为基础值,然后分别调

3、整地氟醚浓度至0.5MAC、1.0 MAC、1.5MAC、2.0MAC,同时测定以上各参数。结果见表。统计学处理:采用T检验来测定差异显著性,P0.05为有显著性差异。点评:同一个病人重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,作者采用采用T T检验检验进行两两比较,因T检验仅适合分析单因素设计且因素的水个数最多为2的定量资料,因此不适合分析此类资料。根据数据可采用重复测重复测量设计资料的方差分析量设计资料的方差分析。统计学四型错误统计学四型错误型错误:也称假阳性错误。即当原假设H0客观上成立,但根据假设检验的规则,将有大小

4、的概率错误地拒绝H0,同时错误地接受备择假设H1。型错误:也称假阴性错误。即当H0客观上不成立,但根据假设检验的规则,将有大小的概率错误地拒绝H1,同时错误地接受H0。型错误:即最终回答的是1个错误的问题。此错误主要是由于试验设计不周密不完善所致,如在试验设计中未将重要的试验因素包括在内。型错误:即对1个假设进行了多项正确的检验,但在对因果关系的分析时作出了错误的比较和解释,这些比较并非是由被使用的模型所定义的。此错误主要出现在结果的解释阶段。二统计分析方法回顾I.无假设的数据挖掘方法无假设的数据挖掘方法Q QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1f

5、actor 2factor n神经网络神经网络聚类分析聚类分析OpenAccntAdd NewProductDecreaseUsage?Time时间序列分析时间序列分析Debt$40K决策树决策树关联分析关联分析H1H2H支持向量机支持向量机决策树的原理 支路 从根节点(决策节点)到叶节点(结局节点)为一条支路 从一个决策节点放射出来的支路必须互斥且包含一切可能的情况,即每一方案各种状态发生的概率之和为1决策节点机会节点结局节点无强制措施铅中毒诊断有强制措施无中毒中毒P=0.73P=0.27低中高P=0.46P=0.43P=0.11075150350中毒无中毒P=0.38P=0.6218低中高

6、P=0.50P=0.46P=0.0430514679决策树的特点 优点 直观,易于理解及解释 对资料分布无特殊要求 缺点 处理大样本多变量时效率较低 分类性能较神经网络与SVM稍差 用法:分类预测,回归预测,卫生决策支持向量机原理 H是分类面,H1和H2是平行于H,且分离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔 离分类面H最近的样本点,因其构成了H1,H2平面,成为H1、H2的支持向量 从数学上可以证明分类面的几何间隔越大,分类误差越小 SVM:最大化几何间隔,寻找最优分类面H1H2H几何间隔支持向量机(SVM)本质上是一种分类判别函数SVM的特点 优点 对样本量需求小

7、 高维识别:对大样本量的数据能降低部分运算复杂性 很好的“鲁棒性”(数据容错能力)能处理非线性可分样本 得到全局最优解 缺点 对变量数很多的数据计算复杂度很大 解决多分类问题效果不好 作为分类器,难以解释各因素的影响大小 用途 分类、回归、异常值检测人工神经网络输入层中间层(隐含层)输出层 神经网络可以分为三个部分输入层、中间层、输出层 中间层可以为单层,也可以为多层 一般建模时,输入层的神经元个数为影响因素个数,输出层为结局变量个数,中间层没有固定的个数,需要经验和实际情况确定 如图所示的人工神经网络结构为4-6-3-1,神经网络的结构越复杂越能拟合复杂的模型神经网络的特点 优点 对数据分布

8、要求低,不需要对数据分布进行检验 具有很强的数据容错能力(鲁棒性)能拟合因素间复杂的非线性关系 缺点 黑箱子模型,难以写出推理过程及模型公式 其预测精度受训练集的影响 易陷入局部最优解 用途 预测、模式识别聚类概念 聚类就是将数据对象组成不同的类,使得不同类之间的相似性尽量小,而同类对象之间的相似性尽量大 探索性统计分析方法 在不知道应分多少类合适的情况下,试图借助某种数理方法用已收集的资料找出研究对象的适当分类常用聚类算法的特点常用聚类算法常用聚类算法优点优点缺点缺点层次聚类适用于任意形状和任意属性的数据集灵活控制不同层次的聚类粒度强聚类能力算法执行时间长不能回溯处理,一旦合并不能重新分配划

9、分聚类简单快速处理大型数据集灵活高效当各类内部较密集,而类间较稀疏时,聚类效果较好难以处理定性数据对初始指定值较敏感处理数据中的“噪声”和孤立点时不够稳健关联规则的原理糖尿病糖尿病高血压高血压脑卒中脑卒中吸烟吸烟饮酒饮酒111111211001311110410110501000数据项事务关联规则数据项集X,Y X Y 糖尿病高血压支持度(在关联规则中,同时出现数据项集X,Y的概率)支持度(糖尿病高血压)=3/5=60%在所有数据中,有60%的数据支持(糖尿病高血压)置信度(在关联规则中,包含X和Y的事务数与包含X的事务数之比)置信度(糖尿病高血压)=3/4=75%在得糖尿病的人中,有75%可

10、以认为是高血压关联规则的特点 优点 可产生清晰有用的结果 支持间接数据挖掘 可处理缺失的数据 缺点 随着样本量增加,计算量增长很快 不能判断关联的真实性 容易忽略稀有的数据时序概念 时间序列 将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而成的序列成为时间序列 时间序列中每一时期的数值,都是由许多不同的因素共同作用的结果 时间序列预测模型:ARIMA(自回归移动平均模型)、指数平滑、一元或多元回归、生长曲线、Markov链和灰色预测等时序分析的特点 基本假设:连续性原理 假定事物过去的发展趋势会延伸到未来 只需考虑时间变量的作用,使用简单。只能用于预测,不能做影响因素和预测

11、对象的因果分析。当外界突然出现跳跃式变化时,预测误差较大,中短期预测效果更好。常用软件:SPSS、SAS、RII.基于假设的数据挖掘方法基于假设的数据挖掘方法数据统计分析方法数据统计分析方法(1)(1)(单因素分析)(单因素分析)T检验检验卡方检验卡方检验ANOVAANOVA 数据统计分析方法数据统计分析方法(2)(2)(多因素分析多因素分析)LOGISTICLOGISTIC回归过程回归过程 两分类反应变量两分类反应变量 多分类有序反应变量多分类有序反应变量 多分类无序反应变量多分类无序反应变量REGREG过程(回归过程)过程(回归过程)广义线性模型过程(广义线性模型过程(GENMODGENM

12、OD)传统线性模型:传统线性模型:DIST=NORMAL,LINK=IDENTITY(DIST=NORMAL,LINK=IDENTITY(衡等式衡等式)LogisticLogistic回归:回归:DIST=BINOMIAL,LINK=LOGITDIST=BINOMIAL,LINK=LOGIT(分对数)(分对数)PoissonPoisson回归:回归:DIST=POISSON,LINK=LOGDIST=POISSON,LINK=LOG(对数)(对数)GAMGAM模型:模型:DIST=GAMMA,LINK=LOGDIST=GAMMA,LINK=LOG(对数)(对数)数据统计分析方法数据统计分析方法

13、(3)(3)(时间考虑时间考虑)Kaplan-MeierKaplan-Meier过程过程Cox RegressionCox Regression过程过程时间序列分析(指数平滑方法、自回归分析、时间序列分析(指数平滑方法、自回归分析、ARIMAARIMA过程)过程)数据统计分析方法数据统计分析方法(4)(4)(数据结构考虑数据结构考虑)遗传度计算遗传度计算家族聚集性分析家族聚集性分析组内相关分析组内相关分析数据统计分析方法数据统计分析方法(5)(5)(多水平分析多水平分析)广义线性混合效应模型广义线性混合效应模型 (GLMMs)(GLMMs)混合效应模型混合效应模型u混合线性模型(混合线性模型(

14、MIXEDMIXED)u非线性混合效应模型(非线性混合效应模型(NLMIXEDNLMIXED)数据统计分析方法数据统计分析方法(6)(6)(复杂自变量关系分析复杂自变量关系分析)叛别分析过程(叛别分析过程(DISCRIMDISCRIM)聚类分析过程(聚类分析过程(CLUSTERCLUSTER)主成分分析与因子分析主成分分析与因子分析通径分析通径分析结构方程模型结构方程模型数据统计分析方法数据统计分析方法(7)(7)(遗传分析方法遗传分析方法)单体型分析单体型分析FBATFBAT分析分析(TDT,SDT)(TDT,SDT)交互作用分析(交互作用分析(MDRMDR、GMDRGMDR、PGMDRPG

15、MDR)连锁分析连锁分析 分离分析分离分析GWSGWS 三如何正确选择 统计分析方法统计分析方法如何分类?统计分析方法如何分类?因变量(反应变量)自变量时间数据库(结构)图图1 1:变量、记录和时间与数据分析的关系:变量、记录和时间与数据分析的关系记录记录n群体(个体)、家系时间时间n横断面调查、队列研究n一次调查(检测)、多时点调查(重复测量)结局变量(因变量)、研究因素(自变量)、协变量。连续变量、分类变量(二分类,等级变量、无序变量)。环境因素、临床指标、遗传易感性(基因多态性)变量变量(内容内容)记录记录(研究对象研究对象)时间时间挖掘挖掘(研究设计研究设计)数据数据分析分析思考点思考

16、点从研究变量之间关系进行选择从研究变量之间关系进行选择从研究对象构成进行选择从研究对象构成进行选择从研究时间进行选择从研究时间进行选择从以上两个或者三个组合进行选择从以上两个或者三个组合进行选择挑战统计学知识流行病学知识数据处理经验文献阅读其它学科本专业知识如何选择如何选择“最完美最完美”的统计方法的统计方法四四统计分析方法应用案例统计分析方法应用案例1.1.研究现场研究现场:上海、广州、西安、北京、武汉五个城市。2.2.研究设计研究设计:队列研究,2001-至今;每两年随访一次。3.3.研究对象研究对象:以家庭为单位,对每个家庭人员进行调查。4.4.抽样方法抽样方法:多阶段分层随机抽样。5.

17、5.流行病学问卷调查流行病学问卷调查:基本信息:年龄、性别、文化程度、婚姻状况、收入;生活环境、行为、饮食习惯;既往疾病史。6.6.体格检查:体格检查:身高、体重、血压。7.7.临床生化检测临床生化检测:血糖、血脂、肝肾功能,。8.8.基因分型基因分型:10个基因,30个位点,其中部分位点存在连锁不平衡。二型糖尿病的分子流行病学研究美国兰德公司在朝鲜战争刚开始时预美国兰德公司在朝鲜战争刚开始时预言言这是选择在错误的时间、错误这是选择在错误的时间、错误的地方、同错误的对手打一场错误的的地方、同错误的对手打一场错误的战争战争(Frankly,this strategy would involve us in the wrong war,at the wrong place,at the wrong time,and with the wrong enemy)。19501950年年5 5月月结束语结束语 只有经过正确的数据预处理、只有经过正确的数据预处理、选择正确的挖掘技术,才能对正选择正确的挖掘技术,才能对正确的数据进行正确的挖掘。确的数据进行正确的挖掘。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(医学科研数据挖掘方法-挖掘技术-课件3.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|