1、医学统计医学宣教医学统计医学宣教数据挖掘分析数据挖掘分析 第二部分第二部分LogisticLogistic回归回归 第一部分第一部分2医学统计医学宣教第一部分3医学统计医学宣教回归分析的分类回归分析的分类多个因变量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量(y)-线性回归分析线性回归分析分类型因变量分类型因变量(y)-Logistic 回归分析回归分析时间序列因变量时间序列因变量(t)-时间序列分析时间序列分析生存时间因变量生存时间因变量(t)-生存风险回归分析生存风险回归分析4医学统计医学宣教多重线性回归多重
2、线性回归logisticlogistic回归回归5医学统计医学宣教 logisticlogistic回归(回归(logistic regressionlogistic regression)是研究因)是研究因变量为二分类或多分类观察结果与影响因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。方法,属概率型非线性回归。6医学统计医学宣教logisticlogistic回归的分类:回归的分类:(1 1)二分类资料)二分类资料logisticlogistic回归:回归:因变量因变量为两分类变量为两分类变量的资料,可
3、用非条件的资料,可用非条件logisticlogistic回归和条件回归和条件logisticlogistic回归回归进行分析。非条件进行分析。非条件logisticlogistic回归多用于非配比病例回归多用于非配比病例-对对照研究或队列研究资料,条件照研究或队列研究资料,条件logisticlogistic回归多用于配回归多用于配对或配比资料。对或配比资料。(2 2)多分类资料)多分类资料logisticlogistic回归:回归:因变量因变量为多项分类的为多项分类的资料,可用多项分类资料,可用多项分类logisticlogistic回归模型或有序分类回归模型或有序分类logisticlo
4、gistic回归模型进行分析。回归模型进行分析。7医学统计医学宣教队列研究队列研究(cohort study)(cohort study):也称前瞻性研究、随访研究等。是一种由因及果也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为
5、暴露和疾病间存在联系。病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。道每个研究对象的暴露情况。研究人群研究人群+-+-调查方向:追踪收集资料调查方向:追踪收集资料比较比较疾病疾病人数人数暴露暴露abcda/(a+b)c/(c+d)队列研究原理示意图队列研究原理示意图8医学统计医学宣教RRRR(相对危险度(相对危险度relative riskrelative risk):表示暴露组与非暴露组):表示暴露组与非暴露组发病率发病率(或死亡率或死亡率)的比值。也称为危险比(的比值。也称为危险比(risk ra
6、tiorisk ratio)。)。反映了暴露与疾病发生的关联强度。反映了暴露与疾病发生的关联强度。RRRR表明暴露组发病或死亡的危险是非暴露组的多少倍。表明暴露组发病或死亡的危险是非暴露组的多少倍。9医学统计医学宣教 病例对照研究病例对照研究(case-control studies)(case-control studies):一种由果及因的回顾性一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例研究,先按疾病状态确定调查对象,分为病例(case)(case)和对照和对照(control)(control)两组,然后利用已有的记录、或采用询问、填写调查两组,然后利用已有的记录、或采
7、用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。与暴露间的关系。+-病例病例+-对照对照调查方向:收集回顾性资料调查方向:收集回顾性资料abcda/(a+b)c/(c+d)比较比较人数人数暴露暴露疾病疾病病例对照原理示意图病例对照原理示意图10医学统计医学宣教11医学统计医学宣教病例对照研究的类型病例对照研究的类型(一)病例与对照不匹配(一)病例与对照不匹配-非条件非条件logisticlogistic回归回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对在设计所规定的病例和对照人群中,分别抽取
8、一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。象,一般对照应等于或多于病例数,此外无其他任何限制。(二)病例与对照匹配(二)病例与对照匹配-条件条件logisticlogistic回归回归匹配或称配比(匹配或称配比(matchingmatching),即要求对照在某些因素或特),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。的干扰。匹配分为成组匹配和个体匹配。12医学统计医学宣教非条件非条件logisticlogistic回归回归应变量为二分类资料应变量为二分类
9、资料一个二分类自变量一个二分类自变量两个(多个)二分类自变量两个(多个)二分类自变量无序多分类自变量无序多分类自变量有序多分类自变量有序多分类自变量引入数值型自变量引入数值型自变量应变量为有序多分类资料应变量为有序多分类资料应变量为无序多分类资料应变量为无序多分类资料13医学统计医学宣教二分类资料的二分类资料的logisticlogistic回归回归 二分类二分类 logistic logistic 回归对自变量没有特殊要求回归对自变量没有特殊要求,自变量可以是分类变量自变量可以是分类变量(包括二分类和多包括二分类和多分类变量分类变量)和数值变量。和数值变量。二分类资料的二分类资料的logis
10、ticlogistic回归通过回归通过SPSSSPSS统计软件统计软件的的二元二元LogisticLogistic过程实现统计分析。过程实现统计分析。14医学统计医学宣教【例例1 1】某某医师为研究妇女服避孕药与子代染医师为研究妇女服避孕药与子代染色体异常的关系,分别调查了子代染色体异色体异常的关系,分别调查了子代染色体异常和正常的同龄组儿童的母亲常和正常的同龄组儿童的母亲5454名和名和196196名,名,结果如表结果如表。试对此资料进行分析,能否提出试对此资料进行分析,能否提出子代染色体异常与其母在孕前子代染色体异常与其母在孕前6 6个月内服用避个月内服用避孕药有关?孕药有关?15医学统计
11、医学宣教SPSS软件操作软件操作 第第1 1步:定义变量步:定义变量16医学统计医学宣教 第第2 2步:步:输入原输入原始数据始数据17医学统计医学宣教 第第3 3步:加权设置步:加权设置 选择选择数据数据加权个案(加权个案(WW)将将f f移入移入频率变量频率变量18医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归二元二元logisticlogistic19医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将a a和和b b分别移入分别移入协变量协变量和和因变量因变量20
12、医学统计医学宣教 自变量全部进入模型自变量全部进入模型 向前逐步选择法向前逐步选择法 向后逐步剔除法向后逐步剔除法 条件:将变量剔除出模型的依条件:将变量剔除出模型的依据是条件参数估计的似然比统据是条件参数估计的似然比统计量的概率值。计量的概率值。LRLR:将变量剔除出模型的依据:将变量剔除出模型的依据是最大偏似然估计的似然比统是最大偏似然估计的似然比统计量的概率值。计量的概率值。WaldWald:将变量剔除出模型的依:将变量剔除出模型的依据是据是WaldWald统计量的概率值。统计量的概率值。21医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(3 3)
13、设置设置选项选项 勾上勾上expexp(B B)的)的95CI95CI。22医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:OR=3.200OR=3.200,p=0.000p=0.000 OROR的的95%CI95%CI为(为(1.7125.9831.7125.983)ExpExp(B B)=e=eB B23医学统计医学宣教 值得注意的是病例值得注意的是病例-对照研究中对照研究中,病例与对病例与对照两组人数的比例是人为规定的照两组人数的比例是人为规定的,不代表不代表自然人群中真实的病人与正常人的比值。自然人群中真实的病人与正常
14、人的比值。因此因此,根据病例一对照研究资料建立的根据病例一对照研究资料建立的 Logistic Logistic 回归方程中回归方程中,常数项意义不大常数项意义不大,主主要针对结果中自变量的回归系数及其相应要针对结果中自变量的回归系数及其相应的比数比的比数比OR OR 值的意义作解释值的意义作解释,不宜直接用不宜直接用于所研究事件发生概率的预测和判别于所研究事件发生概率的预测和判别。24医学统计医学宣教两个二分类自变量两个二分类自变量的的logisticlogistic回归回归 两个自变量均为两水平的二分类资料的两个自变量均为两水平的二分类资料的 Logistic Logistic 回归分析与
15、一个自变量为两水平的回归分析与一个自变量为两水平的二分类资料的二分类资料的 Logistic Logistic 回归分析在步骤方法回归分析在步骤方法上是相同的上是相同的,只是增加了一个自变量只是增加了一个自变量,在在建立建立 LogisticLogistic回归方程时需要对两个自变量回归方程时需要对两个自变量对应的参数进行估计对应的参数进行估计,计算两个比数比。计算两个比数比。另外另外,两个自变量均有意义时两个自变量均有意义时,看哪个影看哪个影响作用更大些响作用更大些,与多重线性回归一样与多重线性回归一样,也也是比较标准偏回归系数绝对值的大小。是比较标准偏回归系数绝对值的大小。25医学统计医学
16、宣教无序多分类自变量的无序多分类自变量的Logistic Logistic 回归回归 自变量是一个或多个为无序多分类变量时自变量是一个或多个为无序多分类变量时,其其 Logistic Logistic 回归在方法上同上述二分类资料的回归在方法上同上述二分类资料的 LogisticLogistic回归回归,只要对只要对自变量的不同水平构造哑变自变量的不同水平构造哑变量量即可。某一多分类无序自变量可构造的哑变量即可。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减数等于该自变量的分类数减 1 1。将哑变量引入模。将哑变量引入模型型,其结果无论有无统计学意义其结果无论有无统计学意义,都是相
17、对事先都是相对事先确定某一类为基准对照而言的。确定某一类为基准对照而言的。SPSSSPSS对字符型多分类无序自变量对字符型多分类无序自变量,系统默认以最系统默认以最后的那个分类为对照。后的那个分类为对照。26医学统计医学宣教有序多分类自变量的有序多分类自变量的Logistic Logistic 回归回归 Logistic Logistic 回归中自变量为有序多分类变量回归中自变量为有序多分类变量,即等级变量即等级变量,如文化程度可分为文盲、小学如文化程度可分为文盲、小学、中学、大学及以上等。、中学、大学及以上等。这种资料的这种资料的 Logistic Logistic 回归分两种情况处理回归分
18、两种情况处理:如果自变量的等级分组与如果自变量的等级分组与 logit(P)logit(P)呈线性关呈线性关系系,即等级效应等比例增加或减少即等级效应等比例增加或减少,则该自则该自变量可以变量可以作为一个数值型自变量引人模型作为一个数值型自变量引人模型;否则否则,将等级变量视为无序多分类自变量将等级变量视为无序多分类自变量,以哑变量的形式以哑变量的形式引入模型进行分析。引入模型进行分析。27医学统计医学宣教引入数值型自变量的引入数值型自变量的LogisticLogistic回归回归 数值变量直接引入模型数值变量直接引入模型,得到相应的比数比得到相应的比数比 OR OR 是是指自变量增加一个单位
19、指自变量增加一个单位(如年龄增加如年龄增加 1 1 岁岁)比数自然比数自然对数值的变化量。对数值的变化量。若将数值自变量分成几组若将数值自变量分成几组,如自变量年龄按如自变量年龄按 10 10 岁岁间隔分组引人模型时间隔分组引人模型时,其其OR OR 值是指年龄每增加值是指年龄每增加 10 10 岁比数自然对数值的变化量。岁比数自然对数值的变化量。28医学统计医学宣教 数值型变量转换成分类变量的临界点选择数值型变量转换成分类变量的临界点选择,最佳的方法是采用,最佳的方法是采用ROCROC分析。分析。29医学统计医学宣教【例例2 2】为了探索有关危险因素和保护因素,对为了探索有关危险因素和保护因
20、素,对3232例胃癌病人和例胃癌病人和3232例对照者进行病例对照研究,例对照者进行病例对照研究,考察的危险因素作为自变量,分别为:考察的危险因素作为自变量,分别为:x1x1(年龄)(年龄)x2x2(蛋白质摄入量由低到高:(蛋白质摄入量由低到高:0 0,1 1,2 2,3 3,4 4)x3x3(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足为为0 0,1 1,2 2,3 3),),x4x4(吃盐量高食物由轻到重为:(吃盐量高食物由轻到重为:0 0,1 1,2 2,3 3,4 4),),x5x5(饮食习惯,从良好,一般,不良,严重不良为:(
21、饮食习惯,从良好,一般,不良,严重不良为:0 0,1 1,2 2,3 3),),x6x6(精神心理因素,从乐观,较乐观,一般,不良为(精神心理因素,从乐观,较乐观,一般,不良为0 0,1 1,2 2,3 3)。Y Y(是否患胃癌作为因变量。(是否患胃癌作为因变量。0 0未患,未患,1 1患者)患者)30医学统计医学宣教。31医学统计医学宣教SPSS软件操作软件操作 第第1 1步:定义变量步:定义变量32医学统计医学宣教 第第2 2步:输入步:输入原始数据原始数据33医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归 二元二
22、元logisticlogistic34医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(2 2)将将x1-6x1-6和和y y分别移入分别移入协变量协变量和和因变量因变量35医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项 勾上勾上expexp(B B)的)的95CI95CI。36医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:给出各因素的给出各因素的OROR(95%CI95%CI)及)及相应的相应的p p值。值。37医学统计
23、医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(5 5)38医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(6 6)39医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(7 7)结果解读:结果解读:给出入选各因素的给出入选各因素的OROR(95%CI95%CI)及相应的及相应的p p值。值。40医学统计医学宣教【例例3 3】为了探讨冠心病发生的有关危险因素,为了探讨冠心病发生的有关危险因素,对对2626例冠心病病人和例冠心病病人和2828例对照者进行病例例对照者进行病例-对照对照研究,
24、各因素的说明及资料研究,各因素的说明及资料如下如下,试用,试用logisticlogistic回归分析方法筛选危险因素回归分析方法筛选危险因素 。41医学统计医学宣教。42医学统计医学宣教SPSS软件操作软件操作 第第1 1步:定义变量步:定义变量43医学统计医学宣教 第第2 2步:输入原始数据步:输入原始数据44医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归 二元二元logisticlogistic45医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(2 2)将将x1-8x1-8
25、和和y y分别移入分别移入协变量协变量和和因变量因变量46医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(3 3)设置设置选项选项 勾上勾上expexp(B B)的)的95CI95CI。47医学统计医学宣教 第第3 3步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:给出入选各因素的给出入选各因素的OROR(95%CI95%CI)及相应的及相应的p p值。值。48医学统计医学宣教多分类资料的logistic回归 应变量为有序多分类资料的应变量为有序多分类资料的logisticlogistic回归回归应变量的水平数大于
26、应变量的水平数大于2 2,且水平之间存在等,且水平之间存在等级递增或递减关系的资料为有序多分类资级递增或递减关系的资料为有序多分类资料。料。SPSSSPSS中通过有序中通过有序logisticlogistic过程实现。过程实现。49医学统计医学宣教【例例4 4】研究性别和两种治疗方法对某病疗效的研究性别和两种治疗方法对某病疗效的影响,疗效的评价分为三个有序等级,数据如影响,疗效的评价分为三个有序等级,数据如下,试做下,试做logisticlogistic回归分析:回归分析:50医学统计医学宣教SPSS软件操作软件操作 第第1 1步:定义变量步:定义变量51医学统计医学宣教 第第2 2步:步:输
27、入原输入原始数据始数据52医学统计医学宣教 第第3 3步:加权设置步:加权设置 选择选择数据数据加权个案(加权个案(WW)将将f f移入移入频率变量频率变量53医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(1 1)选择选择分析分析 回归回归有序有序54医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将A A和和B B移入移入协变量,协变量,C C移入移入因变量因变量55医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(3 3)设置设置输出输出 勾上勾上平行线检验。平
28、行线检验。56医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:性别(性别(A A)和疗法()和疗法(B B)的)的回归系数大于回归系数大于0 0,具有统计学意义。,具有统计学意义。OROR分别为分别为e e1.3191.319=3.740=3.740,e e1.7971.797=6.302=6.30257医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(5 5)结果解读:结果解读:平行线检验平行线检验p=0.480p=0.480,说明应,说明应变量各水平与自变量间的回归方程平行。变量各水平
29、与自变量间的回归方程平行。58医学统计医学宣教 应变量为无序多分类资料的应变量为无序多分类资料的logisticlogistic回归回归应变量的水平数大于应变量的水平数大于2 2,且水平之间不存在,且水平之间不存在等级递增或递减关系的资料为无序多分类等级递增或递减关系的资料为无序多分类资料。资料。SPSSSPSS中通过多项中通过多项logisticlogistic过程实现。过程实现。59医学统计医学宣教【例例5 5】为了研究胃癌及胃癌前病变核仁组织变化情况,分析为了研究胃癌及胃癌前病变核仁组织变化情况,分析核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型核仁组成区嗜银蛋白颗粒数量及大小在胃
30、炎、胃组织不典型增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义,增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义,共检测共检测129129名患者,结果如下,试做名患者,结果如下,试做logisticlogistic回归分析:回归分析:60医学统计医学宣教SPSS软件操作软件操作 第第1 1步:定义变量步:定义变量61医学统计医学宣教 第第2 2步:输入步:输入原始数据原始数据62医学统计医学宣教 第第3 3步:加权设置步:加权设置 选择选择数据数据加权个案(加权个案(WW)将将f f移入移入频率变量频率变量63医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(
31、回归分析(1 1)选择选择分析分析 回归回归多项多项logisticlogistic64医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(2 2)将将a a、b b移入移入协变量,协变量,Y Y移入移入因变量因变量65医学统计医学宣教 第第4 4步:步:logisticlogistic回归回归分析(分析(3 3)设置设置选项选项 勾上勾上expexp(B B)的)的95CI95CI。66医学统计医学宣教 第第4 4步:步:logisticlogistic回归分析(回归分析(4 4)结果解读:结果解读:相对于胃炎的相对于胃炎的OROR值以及值以及OROR的的
32、95%CI.95%CI.67医学统计医学宣教第二部分68医学统计医学宣教数据挖掘研究设计数据挖掘研究设计 基本概念基本概念 基本步骤基本步骤Clementine Clementine 软件应用软件应用 基本操作基本操作 关联规则关联规则 决策树决策树 聚类分析聚类分析69医学统计医学宣教研究时有无设计干预因素?研究时有无设计干预因素?实验性研究实验性研究观察性研究观察性研究是否随机是否随机有无对照组有无对照组分析性研究分析性研究描述性研究描述性研究时间方向时间方向队列队列研究研究非随机非随机对照对照试验试验随机随机对照对照试验试验病例病例对照对照研究研究横断面横断面研究研究有有无无有有无无否否
33、是是暴露暴露结局结局结局结局暴露暴露70医学统计医学宣教观察性研究观察性研究 由于医学研究对象的特殊性,在很多科由于医学研究对象的特殊性,在很多科研中,研究者不能主动地控制研究因素。这研中,研究者不能主动地控制研究因素。这种在自然状态下,观察疾病发生、发展、诊种在自然状态下,观察疾病发生、发展、诊治过程中表现出来的特点和规律,以阐述疾治过程中表现出来的特点和规律,以阐述疾病的分布特征,认识病因和影响因素,分析病的分布特征,认识病因和影响因素,分析防治过程中相关规律和特征的研究方法,称防治过程中相关规律和特征的研究方法,称为观察性研究。为观察性研究。71医学统计医学宣教数据挖掘研究数据挖掘研究u
34、 基于数据分析方法角度的分类基于数据分析方法角度的分类u本质上属于观察性研究本质上属于观察性研究u研究资料来源日常诊疗工作资料研究资料来源日常诊疗工作资料u应用的技术较传统研究更先进应用的技术较传统研究更先进u分析工具、理论模型与传统研究区别较大分析工具、理论模型与传统研究区别较大72医学统计医学宣教 数据挖掘从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘从数据中自动地抽取模式、关联、变化、异常和有意义的结构。数据挖掘利用已有的数据,数据收集过程不经过特意的科研设计,目的是发现规律,而不是验证假设。73医学统计医学宣教数据挖掘研究设计数据挖掘研究设计 基本概念
35、基本概念 基本步骤基本步骤Clementine Clementine 软件应用软件应用 基本操作基本操作 关联规则关联规则 决策树决策树 聚类分析聚类分析74医学统计医学宣教第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析2022-10-13数据挖掘步骤目标数据目标数据预处预处理及变理及变换换变换后的数据变换后的数据数据挖掘数据挖掘算法算法解释解释/评估评估清理筛选清理筛选75医学统计医学宣教第一步:选择数据第一步:选择数据 收集获取原始数据收集获取原始数据 就是根据研究目的,进行需要被挖掘分就是根据研究目的,进行需要被挖掘分析的原始数据采集。析的原始数据采集。评估数据的可获得性。可以采用较小
36、规模评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初步研究。的数据对问题的可行性进行初步研究。原始数据可能会分布于不同的信息系统中原始数据可能会分布于不同的信息系统中,需要对信息系统充分理解,并有相应的,需要对信息系统充分理解,并有相应的技术实现数据的导出。技术实现数据的导出。原始数据的采集非常费时费力,通常在研原始数据的采集非常费时费力,通常在研究工作中占相当大的比重。究工作中占相当大的比重。76医学统计医学宣教 病人基本信息:HIS 病人检验信息:LIS 病人检查信息:PACS等医技系统 病人诊疗过程信息:电子病历 病人收费信息:HIS。77医学统计医学宣教 海量数据,大量的
37、业务数据。海量数据,大量的业务数据。问题也很多,标准不统一,很难分析。问题也很多,标准不统一,很难分析。与临床相关的电子病历系统结构化与临床工与临床相关的电子病历系统结构化与临床工作量之间的矛盾。作量之间的矛盾。中医系统中医系统医疗科研信息一体化系统医疗科研信息一体化系统 军队系统军队系统中国重大疾病临床诊疗数据库中国重大疾病临床诊疗数据库78医学统计医学宣教第二步:处理数据第二步:处理数据 数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。内容处理:年龄 六十岁60 有个还分组:老年、青年、等格式处理:年龄 出生日期1950年转成63。79医学统计医学宣教 数据 不完整 含观测噪声
38、 不一致 包含其它不希望的成分 数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。污染数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。80医学统计医学宣教 滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码81医学统计医学宣教例:中药、证型、症状的预处理例:中药、证型、症状的预处理 预处理是最为关键的一步 正异名的处理:白头翁、白术、白头公 错别字:青篙、青蒿省略字:龙牡、龙骨,牡蛎炮制预处理82医学统计医学宣教建立一个中药规范表建立一个中药规范表83
39、医学统计医学宣教建立证型规范表建立证型规范表84医学统计医学宣教建立症状规范表建立症状规范表85医学统计医学宣教第三步:挖掘分析第三步:挖掘分析 运用工具和算法,进行数据挖掘分析运用工具和算法,进行数据挖掘分析,完成分类、关联、聚类、估计、预测等,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。功能,发现数据中的规律。86医学统计医学宣教Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 1factor 2factor 2factor nfactor n神经网络神经网络 Neural NetworksNeural Ne
40、tworks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?TimeTime序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析关联分析关联分析 AssociationAssociation87医学统计医学宣教88医学统计医学宣教SPSS ClementineSPSS Clementine89医学统计医学宣教WEKA90医学统计医学宣教第四步:结果解释第四步:结果解释 结合专业知识,进行数据挖掘分
41、析结果的解释,阐明规律,以及规律的临床价值。结果解释是数据挖掘研究的关键,从发现的规律进一步延伸出其实际意义,是整个研究工作的成果所在。91医学统计医学宣教数据挖掘研究设计数据挖掘研究设计 基本概念基本概念 基本步骤基本步骤Clementine Clementine 软件应用软件应用 基本操作基本操作 关联规则关联规则 决策树决策树 聚类分析聚类分析92医学统计医学宣教Clementine Clementine 软件应用软件应用93医学统计医学宣教Clementine 12.0安装方法安装方法 1.下载,存放到下载,存放到D盘,重新命名为盘,重新命名为“Clementine V 12”2.打开
42、打开 ClementineV12-点击运行点击运行setup.exe按提示完按提示完成安装到默认目录:成安装到默认目录:C:Program FilesSPSSIncClementine12.0 3.D:CLE12.0Clementine12Crack破解破解 复制该文件下复制该文件下 “lservrc”“PlatformSPSSLic7.dll”两个文件,粘贴到两个文件,粘贴到C:Program FilesSPSSIncClementine12.0bin 文件夹文件夹下,覆盖原来的同名字文件下,覆盖原来的同名字文件94医学统计医学宣教95医学统计医学宣教数据挖掘研究设计数据挖掘研究设计 基本概
43、念基本概念 基本步骤基本步骤Clementine Clementine 软件应用软件应用 基本操作基本操作 关联规则关联规则 决策树决策树 聚类分析聚类分析96医学统计医学宣教97ClementineClementine用户界面用户界面操作区操作区医学统计医学宣教u节点一个图标代表在 Clementine 中进行的一个操作。u工作流一系列连接在一起的节点。可视化编程可视化编程98医学统计医学宣教选项板选项板 源节点源节点 用来将数据读入用来将数据读入 Clementine 中中 记录选项节点记录选项节点 在记录上进行操作在记录上进行操作 一条记录是一种一条记录是一种“情形情形”或一或一“行行”
44、数据数据 字段选项节点字段选项节点 在字段上进行操作在字段上进行操作 一个字段是一个变量一个字段是一个变量 图形节点图形节点 在建模之前和之后用来可视化数据在建模之前和之后用来可视化数据 建模节点代表有效建模算法建模节点代表有效建模算法 注意:建模算法产生生成的模型注意:建模算法产生生成的模型99医学统计医学宣教增加一个节点 在选项板上双击节点,自动放置节点到数据流区域.将节点从选项板拖放到数据流区域中 在选项板上点击一个节点,然后在数据流区域中点击一下100医学统计医学宣教编辑一个节点编辑一个节点 在节点上右击,展开一个节点 点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、
45、删除、载入、保存等操作101医学统计医学宣教连接节点 使用鼠标中键来连接节点使用鼠标中键来连接节点 在数据流区域上,把一个在数据流区域上,把一个节点连接到另一个上,可节点连接到另一个上,可以通过鼠标中间键点击和以通过鼠标中间键点击和拖放来完成(如果拖放来完成(如果您您的鼠的鼠标没有中间键,可以通过标没有中间键,可以通过按住按住“Alt”“Alt”键来模拟这个键来模拟这个过程)过程)通过双击来连接节点通过双击来连接节点 双击选项板上的节点,自动双击选项板上的节点,自动把新节点连接到数据流区域把新节点连接到数据流区域中的中的“中心中心”节点上节点上使用鼠标中键使用鼠标中键102医学统计医学宣教删除
46、节点之间的连接 在连接箭头的头部按住鼠标右键 选择“删除连接”103医学统计医学宣教Clementine Clementine 中读取数据格式中读取数据格式 文本文件 EXCEL SPSS 数据文件 ODBC 兼容的数据库 SAS 数据文件 用户输入文件104医学统计医学宣教读取原始文件 添加变量文件节点到数据流区域 编辑节点指向文件 通过编辑进行原始数据设置105医学统计医学宣教读取文本文件106医学统计医学宣教读取读取EXCELEXCEL文件文件107医学统计医学宣教读取其他数据文件 原始数据是什么文件类型,则采用什么节点原始数据是什么文件类型,则采用什么节点108医学统计医学宣教定义字段
47、类型 类型节点指定字段的一系列重要属性;指定字段类型、方向和缺失值;Clementine 可以自动设置变量类型,用户也可以强制指定类型;为建立模型,指定字段的方向;指定缺失值以及如何处理缺失值;变量值检查保证字段值满足一定的设置;字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的.109医学统计医学宣教 连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间 离散型用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型 集合型 用于描述带有多个具体值的数据(黄、绿、蓝)标记型 用于只
48、取两个具体值的数据(真、假)无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据110医学统计医学宣教字段方向 输入:输入或者预测字段 输出:输出或者被预测字段字段 两者:既是输入又是输出,只在关联规则中用到 无:建模过程中不使用该字段 分区:将数据拆分为训练、测试(验证)部分 字段方向设置只有在建模时才起作用111医学统计医学宣教字段实例化字段实例化 在读取值前数据称为未实例化,通过读取在读取值前数据称为未实例化,通过读取值后数据完全实例化,字段的取值和类型值后数据完全实例化,字段的取值和类型都是可知的都是可知的.112医学统计医学宣教数据挖掘分析的一般步骤数据挖掘分析的一般
49、步骤 1 1、数据整理、数据整理 2 2、数据格式转化、数据格式转化 3 3、数据文件读入、数据文件读入 4 4、数据类型设置、数据类型设置 5 5、模型选择与参数设置、模型选择与参数设置 6 6、结果输出与解读、结果输出与解读113医学统计医学宣教1、数据整理 整理成可分析的数据 一般为横向数据,即一个病人一条记录。IDID药物药物数量(克)数量(克)1 1甘草甘草10101 1当归当归10101 1白术白术10102 2大黄大黄10102 2白术白术10102 2黄芩黄芩10103 3当归当归10103 3红花红花10103 3白术白术1010IDID甘草甘草 当归当归 白术白术 大黄大黄
50、 黄芩黄芩 红花红花1 11010101010100 00 00 02 20 00 01010101010100 03 30 0101010100 00 01010114医学统计医学宣教2 2、数据格式转换、数据格式转换 转化成软件可以读入的格式,常用TXT文件115医学统计医学宣教3、数据文件读入116医学统计医学宣教117医学统计医学宣教查看读入数据是否成功118医学统计医学宣教4、数据类型设置119医学统计医学宣教5 5、模型选择与参数设置、模型选择与参数设置 关联规则关联规则 决策树决策树 类神经网络类神经网络 聚类分析聚类分析 判别分析判别分析120医学统计医学宣教121医学统计医学