1、9 关联性分析,统计 描述,抽样分布参数估计:点估计、区间估计,定量资料,定性资料:频率型指标、强度型指标、比,统计表和统计图,统计 推断,变量,概率分布:正态分布、二项分布、Possion分布,假设检验,实验设计,分组数,实验设计:三要素、四原则、实验设计方案、样本含量估算,教学内容:,有两个独立的随机变量:,例如:父子的身高(X)、儿子的身高(Y),特点:,1. 它们在客观上是有一定联系的;,2. 在观察时是独立地去测量的;,X1 Y1 、X2 Y2 、 X3 Y3 、 、 Xn Yn,3.这两个随机变量都服从正态分布;,4,变量间的关系,相关分析和回归分析,是否有联系,联系的方向、程度如
2、何?,定量指示相关或关联的指标:如相关系数,定量描述其依存关系,回归分析,相关或关联,依存性(relationship),数学模型:如Y=f (x),回归分析,抽样研究,保证样本的合格性,随机抽样 保证样本间相互独立,如何保证一份作关联性研究的样本合格?,9.1 概述 9.2 两个连续型随机变量的相关分析 9.3 两个分类变量间的关联分析,9.1 概 述,例9-1:下表为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。,表9-1 10名学龄儿童的身高和体重,图9-1 10名学龄儿童的身高和体重的散点图,1. 散点图 Scatt
3、er plot,(158.5,35.4),散点图能直观地看出两变量是否存在相关关系,故研究两变量关系应先绘散点图,再量化两者的关系。,散点图能直观地看出两变量是否存在相关关系。故研究两变量关系应先绘散点图,再量化两者的关系。,Linear Relationship,关联(association):两个分类变量间的联系,则称为。,线性相关(linear correlation):若两个连续的随机变量间存在线性联系,则称为,也称为简单相关(simple correlation)。,两个基本概念:,相关的种类,正相关(positive correlation):在图中若Y有随X增大而线性上升的趋势,
4、则称为正相关。 负相关(negative correlation):在图中若Y有随X增大而线性下降的趋势,则称为负相关。 零相关(zero correlation):在图中若Y或X不随另一变量的改变而改变,则称为零相关。 非线性相关( nonlinear correlation ):散点图呈曲线形状,表明变量间呈曲线相关,不是呈线性相关关系,也不宜作线性相关分析。,线性相关系数 (linear correlation coefficient):是定量描述两个变量间线性联系的强度和相关方向的统计学指标;又称Pearson积矩相关系数( Pearson product moment coeffic
5、ient ),,2. 关联强度的指标, Pearson积矩相关系数的计算,假定系独立随机的双正态样本:,Pearson积矩相关系数指示相关的方向:,Pearson积矩相关系数 (Pearson product moment coefficient),总体相关系数用 表示;样本相关系数用 r 表示; 取值 -11;0为正相关,0为负相关; 越接近于1,相关性越强; 越接近于0,相关性越差,相关系数反应线性相关性:,正相关 负相关 非线性相关,例9-1:计算学龄儿童的身高和体重的样本相关系数。,答:,表9-1 10名学龄儿童的身高和体重,3. Pearson积矩相关系数的假设检验 t 检验法,步骤
6、:,Pearson积矩相关系数的假设检验查表法,(假定系独立、随机的双正态样本) 直接查 r 临界值表(P581) 以自由度vn2查出r 临界值,比较检验统计量 值与r 临界值,后确定P值,作统计推断。 统计量 越大,概率 P 越小; 统计量 越小,概率 P 越大。,4.Pearson积矩相关系数的区间估计,即:以样本相关系数r 以一定的概率估计总体相关系数 的置信区间。,步骤:,线性相关分析的步骤:,t 检验法,9.2 两个连续随机变量的相关分析,一、 Pearson积矩,仅适用于两个变量都是随机变量,并呈现线性趋势的情形。 要求x、y服从联合的双变量正态分布。 注意样本中的极端值,必要时可
7、剔除或进行变量变换。,适用 条件,简单线性相关 (simple linar correlation),例9-1:下表为一项关于儿童健康和发展的研究中10名学龄儿童的身高和体重资料,试对学龄儿童的身高(cm)和体重(kg)进行相关分析。,解:(1)绘制散点图,(2)计算相关系数 r,图9-1 10名学龄儿童的身高和体重的散点图,(3)假设检验:作总体相关系数= 0的检验,查t 分布表, t(0.05/2,8)=2.306,故P 0.05,拒绝H0 ,接受H1,可认为学龄儿童的身高与体重之间存在线性相关。,法一:t 检验法,法二:查表法 由v =10-2=8,查 r界值表得 r(0.05/2,8)
8、=0.632;因统计量 r =0.93,故P 0.05,接受H1,相关有统计学意义,可认为学龄儿童身高与体重之间存在线性相关。,(3)区间估计:计算95%置信区间, 经反双曲正切变换,得 z 的95%置信区间为:(0.91, 2.39)。 反变换得相关系数的95%置信区间为: (0.72,0.98),【电脑实现】SPSS,线性相关分析: 1. 数据录入:,2. 作散点图:,3. 读散点图,作线性趋势判断:,4. 作线性相关分析:,5. 结果及结果输出:,相关系数及假设检验,【结果报告】,为探讨学龄儿童身高与体重的关系,搜集了10名学龄儿童的相关数据,经分析得以下结论: 1. 10名儿童身高的均
9、值为157.6cm,标准差为8.4cm;体重的均值为36.1kg,标准差为4.8kg; 2. 从散点图可见,其身高与体重有线性趋势,Pearson相关系数r =0.93(t=7.10, P0.001),总体相关系数的可信区间为(0.72, 0.98),结果表明:学龄儿童的身高和体重之间呈线性正相关。,小结:线性相关分析的通常有下面三个方面:,二 、Spearman秩相关,例9-2:10名患者参加家庭计划的长度(天)和每名患者每天的费用(元)见下表示,问参加的时间长度和费用是否相关。,表9-2 10名患者参加家庭计划的时间/d和每名患者每天的费用/元,独立随机的双变量资料 ; 目的:讨论两变量时
10、间X和费用Y的相关性 ; 但该资料的两变量均不服从正态分布。,【案例解析】,Spearman 等级秩相关, 计算秩相关系数:,将两变量X 和Y 分别从小到大进行编秩:,Spearman等级相关系数的计算公式: 类似与pearson相关系数,不过在此应用的是数据的秩次,而不是原始数据本身。,即:,上例题解:,(3)Spearman秩相关系数的假设检验:,t(0.05/2,8)=2.306,故P 0.05,拒绝H0 ,接受H1。,法一:t 检验法,法二:查表法 由v =10-2=8,查 r界值表得 r(0.05/2,8)=0.632;因统计量 r =-0.707,故P 0.05,接受H1,相关有统
11、计学意义,可认为参加家庭计划的时间长度和每天的费用之间有负相关关系。,【电脑实现】SPSS,线性相关分析: 1. 数据录入:,2. 秩转换:,3. 作散点图:,4. 读散点图,作线性趋势判断:,5. 作线性相关分析:,3. 结果及结果输出:,Nonparametric Correlations,四、线性相关分析应用中应注意的问题,只有当两变量有线性趋势时,才能进行线性相关分析。即:根据变量间可能的关系,选择不同的相关分析方法。 发现和处理异常点,1. 首先绘制散点图,观察判断两变量间的关系。,2.线性相关分析要求的两个重要条件,线性相关分析仅适用于二元正态分布资料,否则需进行变量变换或采用其它
12、计算方法,如秩相关。,两个变量都是随机变量,当一个变量的数值人为选定时不能做相关分析。,例:为研究不同温度下兔肺动脉张力,人为选定四个温度,作相关分析。,53,适用条件判定: 两变量为随机变量,且满足二元正态分布; 利用散点图(小样本) 利用直方图(大样本),3.出现离群值(异常值)时,慎用相关。,图 剔除异常值前后的散点图,举例:儿子身高与树身高的故事。,4. 相关关系不一定是因果关系。,2)简单相关=直接联系-间接联系。,注意:,1)不要抽任意两个变量放在一起算相关系数 在专业上,只有两者存在直接联系的变量可能存在联系。,对相关的解释一定要结合专业知识,切不可把任意两个变量拉在一起,盲目下
13、结论 !,(a) (b),5.分层资料盲目合并容易引起假象。,6. “相关分析”的结果解释:,统计结论:可推断两变量呈“线性相关”的。 专业结论:不能因此推断两变量在生物学上有任何联系,更不能因为呈因果关系。,(1)如果散点图可见两随机变量有线性相关趋势,且得到的相关系数r 经假设检验后也得出拒绝H0,即否定总体相关系数=0的假设,则:,(2) 如果两变量经线性相关分析,及假设检验得到“不能拒绝总体相关系数 =0” 的结论时,不要轻易下“两变量无关”的结论。,2)还要观察散点图,看两变量,1)应首先看样本含量是否足够。即:检验功效是否足够大。,如果不能进行深入分析,则应下结论:“根据目前数据尚
14、不能认为两变量呈线性相关”,曲线相关? 是否应进行分层分析?,9.2 两个分类变量间的关联分析,对两个反应属性的分类变量,若有一份随机样本,可作交叉分类的频数表,利用关于独立性的 检验和列联系数表示这两个变量之间的关联性(association)。,一、交叉分类22列联表的关联分析,例9-3 为观察行为类型与冠心病的关系,某研究组在当地随机调查了3154名居民,对象按行为类型分为A型和B型。对每个个体分别观察是否为冠心病患者和行为类型两种属性,试分析两种属性的关联性。,【资料特点】,是关于两个变量的一份随机样本。 或说:一份随机样本,同时按两种属性分类,形成一个22交叉分类表,也称的22列联表
15、 。 目的:冠心病的有无和行为方式两个变量之间的相关性,即讨论两个属性概率分布的关系。,如果一种属性的概率分布与另一种属性的概率分布无关,则称这两种属性相互独立(independence),否则称这两种属性之间存在关联性(association)。,关于随机变量独立性的定理: 设X、Y为二维离散型随机变量,则X、Y相互独立的充要条件是:对于任何i、j=1,2,有,即:,22交叉分类资料关联分析的基本思想:,统计思想:从概率角度出发,独立是指交叉分类表的每一个格子中同时具有两种属性的联合概率等于相应属性的边计概率的乘积。,即:,故,独立性检验实际上就是考察 是否成立。,1.假设检验证实两变量是否
16、存在关联:,2.计算 关联系数(association coefficient, r) 以表示关联的程度:,对22交叉列联表而言,r 介于0和 之间,其数值越大,说明两变量的关联程度越高。,关于交叉分类资料的独立性检验 比较两独立样本率的假设检验,试区别:,必须注意的是: 这两类问题的研究目的、设计方案、数据结构以及最终对结果的解释都是不同的。,答:,检验过程:,【电脑实现】 SPSS,关联性分析: 1. 数据录入:,2. 加权:,3.关联性分析的步骤:,4. 结果及结果输出:,【结果报告】,为探讨冠心病患病与行为类型之间的关联,对3154例居民进行了分析,结果如下表示:,以Pearson 独
17、立性检验, =39.900,P0.001,r =0.112。结果表明,冠心病患病与行为类型间存在着一定的联系。,二、 22配对资料的关联分析,例9-4 研究者对103例患者进行了影像学检验(A)和生化检验(B),数据如下,试分析两种检验结果的关联性。,【资料特点】,是关于一份随机样本,同时按两种属性分类 是22配对资料 。 目的:了解两种方法的结果之间是否有关联。 方法:两种属性的关联性分析。,检验统计量:,答:,检验过程:,三、多分类资料的关联分析,例9-5 有人在某地随机抽取2500名居民,记录其民族与血型,资料见下表,试问民族和血型是否有关?,【资料特点】,多组资料的关联设计:一份样本,
18、按两种属性交叉分类,统计频数 。 目的:了解两种属性间是否有关联。 方法:多组资料两种属性的关联性分析。,检验统计量:,多分类资料的 关联系数:,对多分类资料列联表而言,r 介于0和 之间,其数值越大,说明两变量的关联程度越高。,答:,检验过程:,【电脑实现】 SPSS,关联性分析: 1. 数据录入:,2. 加权:,3.关联性分析:,4. 结果及结果输出:,四、 偏相关,在研究两个事物或现象之间的关系时,要充分考虑其它事物和现象对两者之间的影响;偏相关的优势就是在排除混杂因素的作用后,再评价两个事物或现象之间的联系。,例:考察消费者信心指数值和年龄的相关性,但考虑家庭月收入对其有一定的影响。,
19、结果输出:,在控制家庭收入的作用后,消费者总信息指数和年龄之间Pearson相关系数r =- 0.216,经检验有统计学意义 (P=0.009),可以认为二者之间存在负相关关系。,小 结,相关是测量变量间的相互联系或关联的指标,要求变量资料满足独立随机性。 在线性相关分析时必须先作散点图,发现有线性趋势后,再作进一步的分析。 依据不同资料的特点分别采用Pearson相关分析,Spearman秩相关分析,以及分类资料的 检验的关联分析方法。 相关和关联是两变量之间在数量上的关联,不能据此推论两变量有生物学的联系,或有因果关系。相关有可能只是伴随关系。,两样本资料的关联性分析,双变量正态分布,非双
20、变量正态分布,双变量一定量一有序分类变量资料,交叉分类22,22 配对,RC表,两有序分类,一致性检验,1,2,SPSS软件中“相关”功能:,1. Pearson积矩相关分析,适用条件:两变量呈独立、随机及正态分布的资料。 表示方法:相关系数 r 注意事项:一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。不可用相关系数检验所得P值的大小来判断有否线性关系。,2. Spearman秩相关分析,适用条件: 两独立、随机变量不满足正态分布的 等级资料 表示方法:相关系数,3. 分类资料的关联分析 检验,适用条件:定性资料(一份随机样本,同时按两种属性分类), 当两变量都是无序分类变
21、量或一个是无序分类变量、另一个是有序分类变量时。 表示方法:列联系数,案例分析一,案例9-2 有研究者欲评价两种量表对某疾病的严重程度得分的一致性,评分者A用量表1,评分者B用量表2,对同一批患者(5人)进行了评分,结果见教材表9-8,研究者在Excel中采用Pearson函数计算了两次评分的相关系数,结果两者相关系数非常之高(r=0.8663),因此认为,两种量表得分是一致的。 .,请问: 该研究的目的与设计方法吻合吗? 就本例的设计而言,存在任何不妥吗? 本例可否采用Pearson相关系数进行计算? 计算的结果正确吗?推论正确吗?,“相关”:1. 可以是不同指标间的相关,可以是正相关,也可
22、以是负相关,只表示变量间的联系。 2. 一般用“关联性分析”来作。 “一致”:1. 讲究同指标、同方向,用基本同值。 2. 用线性回归分析来作。,“相关”与“一致”概念上的差别,案例分析二,案例9-3 有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1, 2.5, 5, 7.5, 10, 15, 20, 30等档次,每档各取3只动物(共24只)进行试验,于服药后1 h抽血检验血药浓度。在SPSS中作散点图,计算得口服药物量与血药浓度的Pearson相关系数=0.979,经假设检验P0.001,认为口服药物量与血药浓度呈线性正相关。,请问:本例的两个变量各有何特征?可以计算Pearson
23、相关系数吗?若可以,则计算的方法与步骤有何不妥吗?计算结果正确吗?可以推出本例的结论吗?,【最佳选择题】,1. 积差相关系数的计算公式是_。 A. B. C. D.,2. 相关系数的检验可用 。 A. 散点图直接观察法代替 B. t 检验 C. F 检验 D. 卡方检验 E. 以上都可,3计算积差相关系数要求_。 A. 因变量Y是正态变量,而自变量X可不满足正态的要求 B. 自变量X是正态变量,而因变量Y可不满足正态的要求 C. 两变量都要求满足正态分布规律 D. 两变量只要是测量指标就行 E. 因变量Y是定量指标,而自变量X可是任何类型的数据,【思考题】,1. 应用线性相关分析时应注意哪些问题? 2. 线性相关分析的基本步骤是什么? 3 线性相关分析中绘制散点图的目的是什么?,谢 谢!,