1、例:某医院欲研究儿童的体重与体表面积的关系,测量了10名3岁男童体重与体表面积,数据见下表编号X (X,kg)Y (Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.0751016.06.411合计133.457.266内容相关关系与确定性关系定量资料的相关定性资料的相关等级资料的相关相关分析的正确应用10.1 相关关系与确定性关系确定性关系:两变量间的函数关系 圆的周长与半径的关系: C2R 速度、时间与路程的关系:LST X与Y的函数关系: Ya+b
2、X 非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。 青少年身高与年龄的关系; 年龄与血脂的关系;身高与体重的关系; 体重与体表面积的关系; 药物浓度与反应率的关系;相关关系与确定性关系(2)当对事物的规律了解加深时,相关关系可以转变为确定性关系。父亲患白化病X, (X=是,否);子女患白化病Y, (Y=是,否);X与Y的关系不确定。当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。 (父亲为异常基因的携带者出外。) 相关关系(correlation)当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlatio
3、n)。两个变量有共变现象,称为有相关关系。 相关关系不一定是因果关系。10.2 定量资料的相关反映两定量指标间的相关关系用 Pearson 相关系数。 (Pearson correlation coefficient)例10.1 10名3岁男童体重与体表面积的关系 编号 体重(X,kg) 体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计133.457.266分析步骤散点图相关系数计算相关系数的假设检验10名
4、3岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)Pearson相关系数的计算YYXXXYlllYYXXYYXXr222XXlXX2YYlYYX 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和: YYXXlXY离均差平方和、离均差积和的展开:nXXXXlXX222nYYYYlYY222nYXXYYYXXlXY相关系数的性质 总体相关系数总体相关系数 -1 r 1 r0为正相关为正相关 r0为负相关为负相关 r0为零相关或无相关为零相关或无相关r = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c
5、)r 0(e)r 0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相关关系示意图相关系数的含义 符号符号: 相关系数小于相关系数小于0 0为负相关;大于为负相关;大于0 0为正相关;为正相关;等于等于0 0为零相关。为零相关。 数值数值: 相关系数的绝对值越大,表示两变量间的相相关系数的绝对值越大,表示两变量间的相关程度越密切;相关系数越接近于关程度越密切;相关系数越接近于0 0,表示相关越不密,表示相关越不密切。切。表达两变量间线性相关的程度和方向的一个统计指标 例10.1资料相关系数的计算9396. 5 5439. 1 9040.247266. 5 44.13XYYYXXl
6、llY X9579. 05439. 19040.249396. 5r10.2.2 相关系数的假设检验H 0:0,体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。 = 0.05t t 服从自由度为n-2的 t t 分布。2102nrrsrtr例10.1资料相关系数的假设检验4369. 92109579. 019579. 02122nrrt自由度102,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。10.2.3 总体相关系数的区间估计相关系数 分布相关系数 =0 n样本相关系数的分布是对称的,当样本含量样本相关系数的分布是对称的,当样本含量较大时,
7、近似正态分布较大时,近似正态分布 相关系数不等于0 n样本相关系数的分布是偏态样本相关系数的分布是偏态 -0.8-0.6 -0.4 -0.20.00100200300-1.000.51.01.52.0050100150200-2-1012050100150200 01234050100150200250 00.20.40.60.81.00100200300 =0 = -0.8 =0.8 (e) z(d) z(f) zz变换(双曲正切变换)R.A.Fisher(1921)提出的rrz11ln211122zzeer其反变换其反变换 的区间估计 z值 的分布变换值z近似服从均数为标准差为 的正态分布
8、将相关系数r变换为z值,并按正态分布原理估计z的 100(1- )%的可信限)1/()1 (ln21rr3/ 1n31nuzsuzz然后再进行反变换,求出的可信区间以例10.1数据为例,试计算总体相关系数 的95%及99%可信区间 z的95%可信区间:1.91981.960.3780 = (1.1789,2.6607)z的99%可信区间: 1.91982.580.3780 = (0.9446,2.8950)1122zzeer的95%可信区间:0.82710.9903;的99%可信区间:0.73730.9939 10.2.4 两样本相关系数的比较例10.3 某医院分别测定正常成年男子12人和正常
9、成年女子12人的心率(X,次/分)与心脏左室电机械收缩时间QS(Y,毫秒)的数据见表10.2,试比较男子和女子的心率(次/分)与心脏左室电机械收缩时间QS(毫秒)的相关是否相同。表表10.2 24名成年男女的心率名成年男女的心率(X)与收缩时间与收缩时间(Y)男子男子女子女子心率,心率,X(次次/分分)收缩时间收缩时间,Y(毫秒毫秒)心率,心率,X(次次/分分) 收缩时间收缩时间,Y(毫毫秒秒)57405563916139359410633976338766400673746738067385683836837669376703787038272384753887537079366793508
10、3370873578634594329分析思路分析男、女心率与机械收缩时间是否有关散点图相关系数相关系数假设检验( ? )比较两相关系数是否相同0(1)散点图 5060708090100300350400450心率(次/分)收缩时间(毫秒)5060708090300350400450100心率(次/分)收缩时间(毫秒)男女(2) 分别计算两样本相关系数r 男性女性8827. 09167.30446667.8583333.14271r9179. 02500.49009167.133825.23512r(3) 对两相关系数进行假设检验 统计量3149. 7212)9179. 0(19179. 02
11、1 5.9398,212)8827. 0(18827. 021 2222222111nrrtnrrt男女 =122=10,则,则P10.001,P20.20,故尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等。10.3 定性资料的相关列联系数(contingency coefficient)10.3.1 四格表的列联系数 甲法乙法 a b c d -1 rn +1)()()(dbcadcbabcadrn例10.4 两种方法观察舌象结果的相关性某中医师采用两种方法观察舌象200例,观察结果如下,试分析两种观察方法的结果有无联系? 甲法 乙法 84 (a) 16(b) 20 (c
12、) 80(d)6405. 09610410010020168084)()()( -dbcadcbabcadrn10.3.2 列联表的列联系数Cramr修正列联系数 rC : R,C分别是列联表的行数和列数。2是列联表的2检验的2 值。 0 rC 1)1, 1min(2CRnrC例10.5 两种血型系统的相关性 ABO MN血型 血型 MNMN 合计O4314909021823A3884108001598B4955879502032AB137179325641 合计1451166629776094某人按两种血型系统统计某地某人按两种血型系统统计某地6094人的血型分布,结人的血型分布,结果见表果
13、见表10.5,问两种血型的分布间有无关系?,问两种血型的分布间有无关系?构成比的检验:构成比的检验: H0: 不同的不同的ABO血型血型,其其MN的血型构成相同的血型构成相同; H1: 不同的不同的ABO血型血型,其其MN的血型构成不同的血型构成不同;自由度自由度(4-1)(3-1)6,P0.1979。85952. 81297764132514511598388145118234316094 )1(22222 CRnnAn 05.00266.0 1314min609459528 11min2 )-,-(. ),C(RnrC2为列联表的2。列联系数的假设检验等价于列联表的构成比的假设检验。)()
14、()()(22dcdbcabanbcad)1(22CRnnAn10.4 等级资料的相关(rank correlation) Spearman等级相关将各变量X,Y分别编秩RX, RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS。-1rs1例10.6 抗白指数与临床疗效的关系某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,问抗白指数与临床疗效间有无关系? 病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+11881290RX(3)123456789101112RY(4)999
15、11.511.53336.56.533等级相关的假设检验H 0:S0,抗白指数与疗效无相关关系;H 1:S0,抗白指数与疗效有相关关系。 = 0.05。当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t t 服从自由度为n-2的 t t 分布。)2()1(2nrrtSS例10.6资料的假设检验本例 n = 12, 查界值表,得: rs(0.05,12)=0.587即,若 H0 成立,则等级相关系数有95%的可能在(-0.587,0.587)之间。现 rs = -0.6894,故 P 0.05。可以认为,抗白指数与疗效有等级相关关系。例例10.7 母亲文化程度与儿童智商的关系母亲文
16、化程度与儿童智商的关系母亲文化程度 儿童智商等级 (Y) 合计 (X) 中下 中等 中上 上等 小学 22 81 30 3 136 初中 57 236 135 26 454高中或中专 11 112 105 17 245大专及以上 1 4 10 7 22 合计 91 433 280 53 857X的秩的秩次范围次范围x的平的平均秩次均秩次 1136 68.5137590 363.5591835 713836835 857rs=0.2261y的秩次范围的秩次范围 191 92524 525804 805857y的平均秩次的平均秩次 46 308 664.5 831大样本时的等级相关检验本例 n =
17、857,大于50,用 t 检验:P0.01。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。8552857787. 62857/2261. 012261. 02,t等级相关的含义等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。例1 XY1122334455例2 XY1124394 165 25例3XY112 1.13 1.24 1.35 1.4例4XY1121031004 1000510000相关分析的正确应用(1)相关关系是一种共变关系,不一定是因果关系;定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;某地某地160名名20岁男子身高与体重散点图岁男子身高与体重散点图 成都市男中小学生12个年龄组的平均身高 大白鼠进食量(X,g)与体重增加(Y,g)的关系 免疫球蛋白A(IgA,g)与火箭电泳高度(Y,mm)的关系 相关分析的正确应用(1)识别离群值;PQ图10.5 离群值对相关的影响相关分析的正确应用(2)排除间杂性。(a)(b) 样本甲观察点 样本乙观察点图10.6 样本的间杂性对相关性的误导