1、SAS 数据挖掘与分析数据挖掘与分析相关分析相关分析第1页,共58页。SAS 数据挖掘与分析数据挖掘与分析肯氏相关分析肯氏相关分析第2页,共58页。v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数Tb一、相关分析的概念一、相关分析的概念相关分析相关分析(correlation analysiscorrelation analysis)是研究现是研究现象之间是否存在某种依存关系,并对具体有依象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方是研究随机变量之间的相关关系的一种统计
2、方法。法。第3页,共58页。当一个或若干个变量当一个或若干个变量X X取一定值时,与之对应的另一个变量取一定值时,与之对应的另一个变量Y Y的值虽的值虽然不确定,但却按某种规律在一定范围内变化,我们称变量之间的然不确定,但却按某种规律在一定范围内变化,我们称变量之间的这种关系为这种关系为不确定的统计关系或相关关系不确定的统计关系或相关关系.例如,以例如,以X X和和Y Y分别记一个人的身高和体重,则分别记一个人的身高和体重,则X X与与Y Y显然有关系,显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。
3、相关关系。v 相关分析相关分析1.1 相关关系的概念相关关系的概念第4页,共58页。v 相关分析相关分析 按照相关关系涉及变量的多少:单相关和复相关按照相关关系涉及变量的多少:单相关和复相关按照相关关系的表现形式不同:线性相关和非线性相关按照相关关系的表现形式不同:线性相关和非线性相关按照相关现象变化的方向:正相关和负相关按照相关现象变化的方向:正相关和负相关1.2 1.2 相关关系的种类相关关系的种类1.3 1.3 相关关系的描述相关关系的描述相关表相关表 相关图相关图 相关系数相关系数第5页,共58页。2.1 2.1 线性相关分析线性相关分析定义:研究两个变量间线性关系的程度。用相关系数定
4、义:研究两个变量间线性关系的程度。用相关系数r r来描述。来描述。相关系数的取值范围在(相关系数的取值范围在(-1,1-1,1)之间。)之间。二、相关分析的分类二、相关分析的分类相关分析分为许多种,其中有线性相关分析、偏相关分析、距离分析。相关分析分为许多种,其中有线性相关分析、偏相关分析、距离分析。v 相关分析相关分析第6页,共58页。v 相关分析相关分析正相关正相关:如果:如果x,yx,y变化的方向一致,如身高与体重的关系,变化的方向一致,如身高与体重的关系,r0r0;一般地;一般地:|r|0.95|r|0.95 存在显著性相关;存在显著性相关;|r|0.8|r|0.8 高度相关;高度相关
5、;0.5|r|0.8 0.5|r|0.8 中度相关;中度相关;0.3|r|0.5 0.3|r|0.5 低度相关;低度相关;|r|0.3|r|0.3 关系极弱,认为不相关关系极弱,认为不相关 负相关负相关:如果:如果x,yx,y变化的方向相反,如吸烟与肺功能的关系,变化的方向相反,如吸烟与肺功能的关系,r0r0;无线性相关无线性相关:r=0 r=0 r r越接近于,说明相关性越好;越接近于,说明相关性越好;r r越接近于,说明相关性越差。越接近于,说明相关性越差。2.2 2.2 相关系数的描述相关系数的描述第7页,共58页。第8页,共58页。2.3相关系数的检验第一步第一步:相关系数的显著性检验
6、检验总体相关系数相关系数的显著性检验检验总体相关系数是否等于零;是否等于零;在总体相关系数在总体相关系数p=0p=0假设下假设下,即是:即是:原假设:原假设:(表示相关性显著)(表示相关性显著)备择假设:备择假设:(表示相关性不显著)(表示相关性不显著)0 0H:p=0 H:p=0 H:pH:p0 0 1 1v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数 b b第二步第二步:决策判断:给定显著性水平:决策判断:给定显著性水平 p p ,拒绝原假设,拒绝原假设H0H0;p p ,接受原假设,接受原假设H0H0。第9页,共58页。v 相关分析相关分析主要包括有主要包括有:Pearson
7、Pearson相关相关:对定距连续变量的数据进行计算。SpearmanSpearman和和KendallKendall的等级相关的等级相关:对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。HoeffdingHoeffding的的D D相关系数相关系数2.3 SAS2.3 SAS中线性相关中线性相关第10页,共58页。三、三、KendallKendall等级相关系数等级相关系数bbKendallKendall的等级相关系数的等级相关系数bb,是利用等级来研究两个变是利用等级来研究两个变量之间的两关程度。量之间的两关程度。用于用于次序与次序
8、比变量次序与次序比变量(其值具有等级高低、次序先后之分,如:(其值具有等级高低、次序先后之分,如:教育水平)的相关测量教育水平)的相关测量。v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数 b b第11页,共58页。Kendall Kendall 相关系数相关系数 Kendall Kendall 相关系数采用非参数检验方法用来度量相关系数采用非参数检验方法用来度量定序变量定序变量间的线性间的线性相关关系。相关关系。Kendall 统计量的数学定义为统计量的数学定义为:n(n-1)n(n-1)2 2=(P-Q)=(P-Q)v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数 b
9、b其中,其中,P为和谐对的个数,为和谐对的个数,Q为不和谐对的个数。为不和谐对的个数。N为样为样本数量。本数量。和谐对是指变量大小顺序相同的两个样本观测值,和谐对是指变量大小顺序相同的两个样本观测值,即即X的等级高低顺序与的等级高低顺序与Y的等级顺序相同,否则称为不和谐对。的等级顺序相同,否则称为不和谐对。第12页,共58页。相持相持:一对观察值:一对观察值OBSOBS中,若有一个变量或两个变量的值对应相等,则该队观察值是中,若有一个变量或两个变量的值对应相等,则该队观察值是相持的。相持还分为在相持的。相持还分为在x x(记为(记为TxTx),或相持在变量上或相持在变量上Y Y上(记为上(记为
10、TyTy).因此,肯氏相关系数的计算公式为:因此,肯氏相关系数的计算公式为:(P+Q+Tx)(P+Q+Ty)(P+Q+Tx)(P+Q+Ty)(P-Q)(P-Q)b b=v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数 b b肯氏公式还用到相持的概念:第13页,共58页。v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数 b b实例分析实例分析第14页,共58页。实例一实例一例题:例题:试用试用kendallkendall等级相关分析智商高低与考试成绩是等级相关分析智商高低与考试成绩是否存在肯氏相关。否存在肯氏相关。表:智商高低与考试成绩表:智商高低与考试成绩智商高智商高低低1
11、2012080805050909014014087874040考试成考试成绩绩939388882626989810010076765353第15页,共58页。程序如下:程序如下:data abc;data abc;input x1 x2;input x1 x2;datalines;datalines;120 93 80 88 50 26 90 98 140 100120 93 80 88 50 26 90 98 140 10087 76 40 53 87 76 40 53 ;proc corr kendall;proc corr kendall;var x1 x2;var x1 x2;run;
12、run;quit;quit;表示:表示:Proc CORR Proc CORR 语句的语句的“kendall”kendall”选项要求选项要求CORRCORR过程对数据进行肯过程对数据进行肯氏相关分析。氏相关分析。第16页,共58页。Part1Part1:简单的描述统计分析:简单的描述统计分析Part2Part2:关于:关于x1,x2 x1,x2 肯德尔相关系数矩阵肯德尔相关系数矩阵结果中先给出两变量的简单描述统计量,包括观测总数,各变量的均数以及标准差,中结果中先给出两变量的简单描述统计量,包括观测总数,各变量的均数以及标准差,中位数,最大值,最小值。然后给出两变量的相关系数矩阵。位数,最大
13、值,最小值。然后给出两变量的相关系数矩阵。第17页,共58页。图二:图二:x1,x2 x1,x2 肯德尔相关系数矩阵肯德尔相关系数矩阵样本相关系数样本相关系数R=0.71429R=0.71429概率值概率值P=0.02430.05P=0.0243probr r概率值概率值P=0.02430.05,P=0.02430.05,则拒绝相关系数是则拒绝相关系数是0 0的假设,智商高低与的假设,智商高低与考试成绩存在显著的相关关系。而且样本相关系数考试成绩存在显著的相关关系。而且样本相关系数R=0.71429R=0.71429,说明从此样本看,说明从此样本看,这智商高低与其考试成绩存在肯氏等级相关。这智
14、商高低与其考试成绩存在肯氏等级相关。第18页,共58页。假设男女两个消费者对某假设男女两个消费者对某1010件商品的质量进行评价,其评分状态如件商品的质量进行评价,其评分状态如下表:问男性、女性评价是否一致(下表:问男性、女性评价是否一致(a=0.05a=0.05)?)?表:男女性对某商品的评价等级表:男女性对某商品的评价等级商品商品男评分等级男评分等级女评分等级女评分等级1 15 54 42 21 12 23 38 86 64 47 79 95 54 48 86 63 33 37 79 95 58 82 21 19 91010101010106 67 7第19页,共58页。1 1、启动、启动
15、SAS-SAS-文件文件-导入数据导入数据-NEXT-NEXT第20页,共58页。2 2、选择、选择SASSAS主菜单的主菜单的“解决解决方案方案”-“-“分析分析”-“-“分析分析家家”。3 3、选择、选择“文件文件”-”-”按按SASSAS名称打开名称打开“-Work-Work的命令。的命令。4 4、选择、选择”统计统计“-”-”描述统计描述统计“-”-”相关分相关分析析“。并设置变量。然后单击。并设置变量。然后单击Options,Options,选择选择Kendall Tau-b.Kendall Tau-b.单击单击OK.OK.第21页,共58页。结果分析:结果分析:Kendall Ke
16、ndall 相关系数矩阵相关系数矩阵概率值概率值P=0.0253P=0.0253样本相关系数样本相关系数R=0.55556R=0.55556依据依据N=10,N=10,=0.05,P=O.O2530.05=0.05,P=O.O2530.05P=0.40.05很不显著,显然不可以拒绝相关系数是很不显著,显然不可以拒绝相关系数是0 0的假设,的假设,而且样本的相关系数只有而且样本的相关系数只有0.084670.08467,接近,接近0 0,说明从此样本看,说明从此样本看,人均月结余人均月结余VioVio(等级定序数据)与人均居住面积(等级定序数据)与人均居住面积Av8fAv8f(等级定(等级定序数
17、据)之间几乎不存在肯氏等级相关。序数据)之间几乎不存在肯氏等级相关。第28页,共58页。计算次序计算次序-比率数据的肯氏相关系数比率数据的肯氏相关系数所谓次序所谓次序-比率数据是指只有一个变量是次序(或等级)数据,另一个变量是比率数据是指只有一个变量是次序(或等级)数据,另一个变量是定距以上的百分比数据定距以上的百分比数据v 相关分析相关分析-肯德尔等级相关系数肯德尔等级相关系数 b b第29页,共58页。下表:下表:文化程度与消费比率变量的关系示例文化程度与消费比率变量的关系示例文化程度(定序变文化程度(定序变量量 edc)月收入(元)月收入(元)月支出(元)月支出(元)消费比率消费比率=月
18、支出月支出/月收月收入(百分数变量入(百分数变量 oi:单位单位%)1.文盲文盲40030075%2.小学小学50040080%3.初中初中60050083%4.高中(含中专)高中(含中专)70060086%5.大专以上大专以上80070088%v实例三实例三第30页,共58页。1.1.数据:见下图所示的社区调查数据数据:见下图所示的社区调查数据图一第31页,共58页。2.2.运行图一中的程序与数据生成图二所示的运行图一中的程序与数据生成图二所示的work.sq4work.sq4数据集数据集第32页,共58页。3.选择选择SAS主菜单中的主菜单中的“解决方案解决方案”“分析分析”分析家分析家按
19、按SAS名称打开名称打开Word命令和按钮,进入图三命令和按钮,进入图三第33页,共58页。4.选择文件名Sq4后单击确定按钮,展开数据集内容,见下图第34页,共58页。5.选择选择“统计统计”“描述性统计描述性统计”“相关相关”,进入下图,进入下图,第35页,共58页。6.设置设置edc(文化程度文化程度)和和oi(消费比率)两个变量(消费比率)两个变量第36页,共58页。7.单击options按钮选择Kendalls tau-b系数第37页,共58页。8.单击确定按钮,输出Kendalls tau-b系数第38页,共58页。肯氏相关系数结果分析肯氏相关系数结果分析如上图所示,如上图所示,p
20、rob r 概率值概率值P=0.7827很不显著,所以没有必要拒绝相关系很不显著,所以没有必要拒绝相关系数是数是0的假设。而且样本的相关系数只有的假设。而且样本的相关系数只有0.02978,接近于,接近于0,说明从此样本,说明从此样本看,看,edc(文化程度)和(文化程度)和oi(消费比率)两个变量之间几乎不存在肯氏相关(消费比率)两个变量之间几乎不存在肯氏相关.第39页,共58页。例题一例题一l分析2008年人均收入水平与恩格尔系数之间的关系第40页,共58页。启动启动SASSAS文件文件导入数据,如下导入数据,如下第41页,共58页。第42页,共58页。第43页,共58页。第44页,共58
21、页。第45页,共58页。第46页,共58页。第47页,共58页。第48页,共58页。第49页,共58页。第50页,共58页。第51页,共58页。第52页,共58页。第53页,共58页。第54页,共58页。第55页,共58页。第56页,共58页。第57页,共58页。肯氏相关系数结果分析肯氏相关系数结果分析如上图所示,如上图所示,probprob r r 概率值概率值P=0.1172P=0.1172很不很不显著,所以没有必要拒绝相关系数是显著,所以没有必要拒绝相关系数是0 0的假设。而的假设。而且样本的相关系数只有且样本的相关系数只有-1.00000-1.00000,说明从此样本,说明从此样本看,人均收入水平与恩格尔系数两个变量之间存看,人均收入水平与恩格尔系数两个变量之间存在肯氏相关在肯氏相关.第58页,共58页。