1、定性数据的分析定性数据的分析童新元 中国人民解放军总医院名人格言案例1:评价方法的讨论怎样评价男女生在德、智、体的差异?怎样评价A、B、C三种降压药物疗效的差别?什么是定性数据?定性数据(qualitative data)或称为分类数据(categorical data),其观察值是定性的,表现为互不相容的类别或属性。例如患者服药后结局为治愈和未治愈,生存和死亡、阴性和阳性等。定性数据的统计分析主要是如何估计总体的率及如何推断两个及两个以上总体率或构成比是否有差异、两个分类变量间有无相关关系等。第一节第一节 率的估计率的估计一、一、率的点估计与总体均数的估计相似,从总体中随机抽取一个样本,从样
2、本计算得到的率是总体率的点估计值。例 132例美国冠心病黑人在进行心脏搭桥手术后,有5人死亡,试估计美国冠心病黑人心脏搭桥手术后死亡率为多少?解:P=5/132*100%=3.8%二、二、率的抽样误差与标准误率的抽样误差与标准误 从总体中随机抽取一个样本,样本率与总总体中随机抽取一个样本,样本率与总体率之间存在差别,差别的大小可以估计。体率之间存在差别,差别的大小可以估计。由抽样而引起的样本率与总体率的差异称由抽样而引起的样本率与总体率的差异称为率的抽样误差。即率的标准误。为率的抽样误差。即率的标准误。率的标准误计算公式率的标准误计算公式式中,式中,p p为率的标准误;为率的标准误;为总体率;
3、为总体率;n n为样本量为样本量当总体率当总体率未知时,以样本率未知时,以样本率p p作为作为的估计值,的估计值,相应地此时率的标准误估计值按下式计算相应地此时率的标准误估计值按下式计算:式中,式中,S Sp p为率的标准误的估计值;为率的标准误的估计值;p p为样本率。为样本率。1)-(10 )1(np)210()1(npppSp二、率的区间估计二、率的区间估计总体率的点估计是计算样本的率,很简单,总体率的点估计是计算样本的率,很简单,但计算得到的样本率不等于总体率,它们但计算得到的样本率不等于总体率,它们间存在差异。因此,我们还需要知道总体间存在差异。因此,我们还需要知道总体率大概会在一个
4、什么样的区间范围,即所率大概会在一个什么样的区间范围,即所谓总体率的可信区间估计。谓总体率的可信区间估计。总体率的可信区间可以用正态分布法估计。当n足够大,且p 和1-p均不太小,如np 和n(1-p)均大于5时,p的抽样分布逼近正态分布。此时,可根据正态分布的特性计算总体率的(1-a)%可信区间:双侧:(p-u/2Sp,p+u/2Sp)单侧:大于p-uSp 或小于 p+uSp正态分布法例10-1 采用某药治疗高血压病人200例,服药一月后160人有效,试估计该药的有效率及其双侧95%可信区间。解 该药总体有效率:p=160/200=80%,Sp=0.02828 u0.05/2=1.96,总体
5、有效率的95%CI为:(0.8-1.960.02828,0.8+1.960.02828)=(0.7446,0.8554)即估计该药的有效率为80%,该药的有效率的95%可信区间为(0.7446,0.8554)。练习 随机抽取某市小学400名儿童,查出患有牙疼200名,患有牙周炎240名,患有龋齿320名。试估计儿童牙疼、牙周炎、龋齿的患病率及其95可信区间为多少?指 标 例数 阳性数 阳性率 95%CI正态近似法牙疼 400 200 0.5000 0.45100.5490牙周炎 400 240 0.6000 0.55200.6480龋齿 400 320 0.8000 0.76080.8392
6、CHISSCHISS软件实现软件实现1.进入数据模块 点击 数据文件建立数据库表2.进入统计模块 进行统计计算 点击 统计统计推断可信区间率的可信区间反应变量:确认率的置信区间CHISS数据库1二行数据:1)第一行总例数;2)第二行阳性数(分子)2 每个指标(组)各一列第二节第二节 2 22 2表资料的表资料的2 2检验检验一、22 2四格表的数据的数据 A、B两个定性变量各分两类,交叉分类计数所得的表称为22列联表。表中产生四个格子四个数a,b,c,d,亦称为四格表(fourfold table),如下表所示。分组B1B2合计A1aba+bA2cdc+d合计a+cb+da+b+c+d案例1
7、治疗肺炎新药临床试验新药临床试验 用某新药治疗肺炎病,并选取另一常规药作为对照药,治疗结果如下:采用新药治100例,有效 60例;采用对照药治40例,有效 30例。试问:1)列表描述临床试验结果;2)两种药物疗效有无差别?组别 有效 无效 新药 60 40 对照药 30 10 2检验(chi-square test)是由英国统计学家K.Pearson于1900年提出的,其广泛地应用于分类数据的统计分析,推断两个及两个以上总体率或构成比差异是否有统计学意义、两个分类变量间有无相关关系等。设计类型的不同2检验不同,四个表2检验可以分为完全随机设计的两样本率比较的2检验和配对设计的2检验。2 2检验
8、检验(一)完全随机设计 随机抽取n个个体,按照A属性分为两组,进行试验,然后按试验效应B属性分为两类。由A、B两属性组合分成四格,得到相应的22频数表。这类22表主要进行两个样本率之间差异的显著性检验和两属性A、B之间是否存在相关关系。二、2 2检验 2检验的统计量是2值,它是每个格子实际频数A(actual frequency)与理论频数T(theoretical frequency)差值的平方与理论频数T之比的累计和。计算公式为:2检验是由统计学家K.Pearson(1899)提出,故也称为Pearson2检验。TTA22)(实际数和理论频数实际频数 是通过科学试验观察得到的数据,记为A。
9、理论频数 根据在两总体率相同的假设推算出的频数称为理论频数或希望数,记为T。为了便于理解,我们以实际例子来说明2检验的假设。理论数计算某班100名学生,其中女生40名,男生60名,现在评选优秀学生20名,问1)假设如果男女优秀生相同,男女生优秀生和非优秀生各多少名?2)现在男女优秀生各10人,问男女生优秀生率有无差别?解:女生优秀数为T11=女生非优秀数为T12=男生优秀数为T21=男生非优秀数为T22=实际数与理论数优秀(理论数)非优秀(理论数)合计女生10(8 )30(32 )40男生10(12 )50(48 )60合计20801002检验的基本思想 2值反映了实际频数A与理论频数T吻合的
10、程度。实际频数A与理论频数T相差越大,则2值越大,2值越大,P值越小,越有理由认为两组总体率不相同。TRC表示列联表中第R行第C列交叉格子的理论频数;nR表示该格子所在的第R行的合计数;nC表示该格子所在的第C列的合计数;n表示总例数。2)理论频数计算公式理论频数计算公式nnnTCRRC例10-1 用磁场疗法治疗腰部扭挫伤患者708人,其中有效673例。用同样疗法治疗腰肌劳损患者347人,有效312例。观察结果如表10-6所示。问磁场疗法对两种疾病患者治疗效果有无差异?分 组有效无效合 计有效率(%)扭伤673673353570895.06腰肌劳损 312312353534789.92合 计9
11、8570105593.36解题分析扭伤有效率95.06%,腰肌劳损有效率89.92%,造成这种差别的原因是什么呢?可能有两种:其一病的不同(本质上的差异);其二抽样误差差别到底是本质上的差异还是纯粹的抽样误差,需进行假设检验。解题步骤:1.建立假设:H0:磁场疗法对腰部扭伤和腰肌劳损治疗的总体有效率相同,即1=2 H1:磁场疗法对腰部扭伤和腰肌劳损治疗的总体有效率不同,即12 确定显著水平=0.053)2值 计算公式 服从自由度=(R-1)(C-1)的2分布R表示列联表中行标识的分组数;C表示列联表中列标识的分组数。TTA22)(本例实际数与理论数 有效(理论数)无效(理论数)小计 扭伤 67
12、3(661.0)35(47.0)708 腰肌劳损 312(324.0)35(23.0)347 合计 985 70 1055 本例的2值:=(2-1)(2-1)=1由2界值表得20.05,1=3.84,本例2检验=9.94273.84,所以,P0.05。9427.902.23)02.2335(98.323)98.323312(98.46)98.4635(02.661)02.661673(222222分布曲线2520151050.5.4.3.2.10.0=1=3=6=103.判断与决策按照=0.05的检验水准,拒绝H0,接受H1,两个总体有效率的差异有统计学意义。专业结论 磁场疗法治疗腰部扭伤和腰
13、肌劳损的治疗效果不相同。4.CHISS软件实现步骤如下:点击 数据数据文件文件打开数据库表打开数据库表找到文件找到文件名名:b10-1.DBF确认确认。(2)进入统计模块:进行相应的统计计算,具体操作为点击 统计统计统计推断统计推断pearsonpearson卡方卡方反应变量反应变量:有效、无效期望频数期望频数确认确认。(3)进入结果模块:点击 结果结果。设计的讨论治疗方法:磁场疗法、针灸疗法、推拿按摩疾病类型:腰部扭伤、腰肌劳损、腰疼观察结果:有效,无效 四格表2检验专用公式*为了简化计算,可以由2检验的基本公式和一些相关公式推导出四格表专用公式式中a,b,c,d是指表10-1中所示,n为样
14、本总例数。)()()()(22dbcadcbanbcad四格表2检验应用条件四格表2检验应根据实际频数和理论频数选取计算2统计量的公式,四格表2检验专用公式应用条件是样本总例数n40,且四个格子中的每个理论数Tij5。(三)2检验的连续性校正公式在四格表中n40,但是有一个格子的理论数1Tij40,且有格子的理论数1T12=4.765,1T22=3.245,所以不能应用2检验的基本公式,而应使用四格表2检验的连续性校正公式计算2统计量。解题步骤:1.建立假设H0:1=2,即试验组与对照组实验室指标的改善及恢复正常率相同 H1:12,即试验组与对照组实验室指标的改善及恢复正常率不同 确定显著水平
15、=0.052.计算2统计量由2界值表得20.05,1=3.84,本例2检验=3.2790.05。2790.3172583442)425.0211623(223.统计推断按照=0.05的检验水准,不拒绝H0,两组病人的改善及恢复正常率差别差异无统计学意义。4.CHISS软件实现(1)进入数据模块:打开已有数据文件的操作点击 数据数据文件文件打开数据库表打开数据库表找到文件找到文件名:名:b10-2.DBF确认确认。(2)进入统计模块:进行相应的统计计算,具体操作为点击 统计统计统计推断统计推断双向无序列联表双向无序列联表反应变量:反应变量:改善、未改善期望频数期望频数确认确认。(4)结论:CHI
16、SS软件运行例10-3资料检验2后,在运行结果中会自动提示使用者,本资料“有理论频数小于5,推荐使用校正卡方结果”。连续校正 2=3.2790,P=0.07020.05,尚不能认为两组的改善率的差异有统计学意义。由本例题运行结果可以看出校正与否所得到的结论截然相反,体现了校正公式的作用。(四)Fisher确切概率法当四格表中出现n40,或有某个理论数Tij1时,2检验基本公式得到的结论偏差更大,统计学家Fisher(1934)依据超几何分布直接计算出有利于拒绝H0的概率的方法,此方法称为四格表的Fisher确切概率法(Fishers exact probabilities in 22 tabl
17、e)。四格表确切概率法的基本思想是:在四格表周边合计不变的条件下,获得某个四格表的概率为由于Fisher确切概率法的计算量大且较为繁琐,我们将以实例结合CHISS软件介绍Fisher确切概率法方法。!)!()!()!()!(ndcbadbcadcbaP例10-5 肿瘤转移病人全量放疗后用两种药物配合治疗,观察肿瘤消除的情况,结果见表。表10-8 肿瘤转移患者全量放疗后的情况问两种药物治疗后肿瘤全消率有无差别?用药分组 全消 未全消 合 计全消率(%)试验组7 71 1887对照组2 28 81020合 计991850解题分析n=1840,且所有格子的理论数均小于5。所以本例应当使用Fisher
18、确切概率检验,求出检验假设H0成立的概率。解题步骤:1.建立假设、确定显著水平H0:1=2,即试验组与对照组患者全量化疗后肿瘤全消率相同 H1:12,即试验组与对照组患者全量化疗后肿瘤全消率不同=0.052.计算确切概率P值3.判断与决策利用CHISS软件进行Fisher确切概率检验,并进行统计推断。CHISS操作步骤为 (1)进入数据模块:打开已有数据文件的操作点击 数据数据文件文件打开数据库表打开数据库表找到文件找到文件名:名:b10-3.DBF确认确认。(2)进入统计模块:进行相应的统计计算,具体操作为:点击 统计统计统计推断统计推断pearsonpearson卡方卡方反应变量:反应变量
19、:全消、未全消期望频数期望频数确认确认。卡方=8.1000 自由度=1 p值=0.0044校正卡方=5.6250 自由度=1 p值=0.0177总例数小于40,建议用确切概率法。12 单侧确切概率=0.00761 2 双侧确切概率=0.0078第二节 配对设计22表资料分析一、配对设计一、配对设计2 22 2表资料表资料n个受试对象分别用甲、乙两种方法来测定,并按(甲、乙)的测定结果分类计数,如(甲、乙)的测定结果分类有4种情况a(+,+),b(+,-)c(-,+),d(-,-),将分类计数结果整理成一个四格表,称为配对设计。例10-6 某医师欲研究甲乙两种诊断方法的相互关系。现随机抽取56人
20、采用两种方法进行诊断,所得数据如下表。甲法:乙:+-合 计+20 20(a a)6 6 (b b)26-16 16(c c)14 14(d d)30合 计362056提出问题 1)问甲乙两种诊断方法之间具有相关性?2)问甲乙两种诊断方法之间具有差别性?采用2检验进行两变量的相关性分析解题分析要分析甲乙两种诊断方法的相互关系。由于n=5640,且每个格子上的理论数Tij5,所以可以选用四格表专用公式进行两变量的相关性分析。二、配对设计二、配对设计2 22 2表相关性检验表相关性检验解题步骤:1.建立假设、确定显著水平H0:甲乙两种诊断方法无关 H1:甲乙两种诊断方法有关=0.05(3)计算2统计
21、量由2界值表得20.05,1=3.84,本例2检验=3.3760.05。3760.32036302656)6161420(223 统计推断 按照=0.05的检验水准,不拒绝H0,可以认为甲乙两种诊断方法的关联无统计学意义。4.CHISS软件实现(1)进入数据模块:打开已有数据文件的操作点击 数据数据文件文件打开数据库表打开数据库表找找到文件名到文件名:b10-4.DBF确认确认。(2)进入统计模块:进行相应的统计计算,具体操作为点击 统计统计统计推断统计推断pearsonpearson卡方卡方反应变量反应变量:是、否确认确认。三、配对设计三、配对设计2 22 2表差异性检验表差异性检验在配对设
22、计22表资料,除了关心两种处理的关联性之外,有时也需要比较两处理率的差异性。比较两种处理方法的优劣。在配对设计22表资料总体率的差异性检验时,检验假设不同于总体率的关联性检验假设,2统计量的计算也不同于四格表2检验公式。1)建立假设H0:两总体B=C H1:两总体BC 2)计算2统计量若b+c40时,应用公式又称McNemar检验(McNemars test for correlated proportions)。1)(22cbcb若b+c40时,应用连续校正公式3)判断与决策若P,不拒绝H0.,认为两个率差异无统计学意义 1)1(22cbcb例10-7 为比较中和法与血凝法两种检验方法对关节
23、痛患者抗“O”检测结果,某医师观测了105例关节痛患者,结果如表。两种检验方法测得结果有无差别?中和法 血凝法:+-合 计+54548 862-4 4393943合 计5847105解题步骤:1)建立假设:H0:两总体B=C H1:两总体BC确定显著水平=0.05)计算2统计量因为b+c=8+4=1240,所以采用连续校正差异性检验公式。由2界值表得20.05,1=3.84,本例2检验=0.750.05。7500.048)148()1(222cbcb3.统计推断P 0.05,不拒绝H0,尚不能认为两总体BC。CHISS软件实现进入数据模块:打开已有数据文件的操作点击 数据数据文件文件打开数据库
24、表打开数据库表找到文件找到文件名名:b10-5.DBF确认确认。进入统计模块:进行相应的统计计算,具体操作为点击 统计统计统计推断统计推断2 22 2配对卡方配对卡方反应变量反应变量:是、否确认确认。进入结果模块:点击 结果结果注意1 关联性和差异性检验对于配对设计22表资料,若想了解两种处理(属性)的关联性时,可作关联性检验;如要了解两处理的差别,可作率的差异性检验;若既想了解关联性,又想比较差别,可同时作关联性和差异性检验。关联性检验与率的差异性检验的结果意义不同,两种统计量数值无一定的关系,但两者结合起来可以获得较全面的结论。2 配对资料四格表的常见错误+-合 计中和法 62624343
25、105血凝法58584747105合 计12090210第三节RC表资料2检验分析在实际工作中,分类资料除了整理成22表之外,还经常会遇到行(row)或列(column)大于2,或是行和列同时大于2的列联表资料,我们将其统称为行列表(contingency table)简称RC表,R代表行数,C代表列数。22表是RC表的最简单的形式。案例 某研究者采用对照药,A药和B药治疗急性冠周炎,病例数分别为29例,32例和100例。治疗结果如下:采用对照治愈人数25例,未愈4例,治愈率86%;采用A药治愈人数18例,未愈14例,治愈率56%;采用B药治愈人数70例,未愈30例,治愈率70%。试1)列表描
26、述。2)三种药物疗效有无差别?RC表资料的分类双向无序RC表资料 -处理变量分组和反应变量无序单向有序RC表资料*-处理变量分组无序和反应变量有序双向有序RC表资料*-处理变量分组有序和反应变量有序二、双向无序RC表资料2检验对于双向无序列联表资料,其选用的统计方法应与处理变量分组和反应变量的顺序或大小无关,仅与列联表中总频数,各行合计、各列合计 有 关。可 采 用Pearson2检验进行多个率差异的显著性检验,也可以进行多个样本构成比差异的显著性检验。Pearson拟合优度2检验其计算公式为:服从自由度为 2 分布)1(22CRnnAn)1(1(列数)行数(一)R2表资料 多个独立样本率的比
27、较例10-8 用免疫法观察鼻咽癌患者(A=1)、头颈部其他恶性肿瘤患者(A=2)及正常成人组(A=3)的血清EB病毒壳抗原的免疫球蛋白A(VCA-IgA)抗体的反应情况,资料如下。问三组阳性率有无差别?分组 阳性阴性合 计阳性率(%)A=1188188161620492.3A=2101023233330.3A=34933338212.8解题分析 本例为三个独立样本率差异的显著性检验,且处理组分组和反应变量分类与顺序无关,可应用Pearson 2检验进行分析。解题步骤:1建立假设H0:1=2=3,即三组人群中EB病毒VCA-IgA抗体阳性率相同H1:三组人群中EB病毒VCA-IgA抗体阳性率不同
28、或不全相同确定显著水平=0.052.计算2统计量 3259.350)1372382333247382493723323247331037220416247204188(619)1(22222222CRnnAn3.统计推断 P0.05。按照=0.05的检验水准,拒绝H0,接受H1,可以认为三组人群中EB病毒VCA-IgA抗体阳性率差异有统计学意义。三组人群中EB病毒VCA-IgA抗体阳性率不同或不全相同。4.CHISS软件实现(1)进入数据模块:打开已有数据文件的操作点击 数据数据文件文件打开数据库表打开数据库表找到文件找到文件名:名:b10-6.DBF确认确认。(2)进入统计模块:点击 统计统
29、计统计推断统计推断pearsonpearson卡方卡方反应变量:反应变量:阳性、阴性期望频数期望频数确认确认。(3)进入结果模块:点击 结果结果(二)多个独立样本构成比的比较例10-9 就表10-18资料,分析三个民族的血型分布是否相同。民 族 ABOAB傣 族 11211215015020540佤 族 20020011211213573土家族 36221931069解题分析 本资料是要比较三个民族的血型分布是否相同,实际上就是比较三个民族各种血型构成比的差异,故可以应用公式(10-14)进行2检验。解题步骤:1.建立假设H0:三个民族居民的血型分布相同 H1:三个民族居民的血型分布不同或不全
30、相同=0.05 2.计算2统计量 13.85)1182960696509603104819602199606743621825207365052013548152011267452020018250740650507205418507150674507112(1987)1(22222222222222CRnnAn3.统计推断 P,所以,P0.005。按照=0.05的检验水准,拒绝H0,接受H1,可以认为三组人群中EB病毒VCA-IgA抗体阳性率不全相同。进而应用Scheff可信区间法进行多个样本率的两两比较1)a1与a2比较:两组率之差的95%可信区间计算为 )821.0,419.0(33)3
31、03.01(303.0204)923.01(923.099.5)303.0923.0()1()1()(22211122,05.021nppnpppp2)a1与a3比较:两组率之差的95%可信区间为 )857.0,733.0(382)128.01(128.0204)923.01(923.099.5)128.0923.0()1()1()(33311122,05.031nppnpppp3)a2与a3比较:两组率之差的95%可信区间为 )375.0,025.0(382)128.01(128.033)303.01(303.099.5)128.0303.0()1()1()(33322222,05.032nppnpppp(4)结论:a1与a2、a1与a3组人群中EB病毒VCA-IgA抗体阳性率差异有统计学意义;而a2与a3组人群中EB病毒VCA-IgA抗体阳性率差异无统计学意义。以a1组人群中EB病毒VCA-IgA抗体阳性率较高。多重比较多重比较的CHISS实现对R2表资料,CHISS软件自动进行多个率的多重比较。上机练习P110 例10-1-例10.10
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。