1、2022-6-23中国人民大学六西格玛质量管理研究中心1多元统计分析多元统计分析何晓群何晓群中国人民大学出版社中国人民大学出版社2022-6-23中国人民大学六西格玛质量管理研究中心2 7.1列联表及列联表分析 7.2 对应分析的基本理论 7.3对应分析的步骤及逻辑框图 7.4对应分析的上机实现 第第 七七 章章 对应分析对应分析 2022-6-23中国人民大学六西格玛质量管理研究中心3 目录 上页 下页 返回 结束 第第 七七 章章 对应分析对应分析 对应分析是R型因子分析与Q型因子分析的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进
2、行处理,寻求以低维图形表示数据表中行与列之间的关系。对应分析的思想首先由(Richardson)和(Kuder)在1933年提出,后来法国统计学家(Jean-Paul Benzcri)和日本统计学家林知己夫(Chikio Hayashi)对该方法进行了详细的论述而使其得到了发展。 对应分析方法广泛用于对由属性变量构成的列联表数据的研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系。 2022-6-23中国人民大学六西格玛质量管理研究中心4 目录 上
3、页 下页 返回 结束 7.17.1列联表及列联表分析列联表及列联表分析在讨论对应分析之前,我们先简要回顾一下列联表及列联表分析的有关内容。在实际研究工作中,人们常常用列联表的形式来描述属性变量(定类尺度或定序尺度)的各种状态或是相关关系,这在某些调查研究项目中运用得尤为普遍。比如,公司的管理者为了了解消费者对自己产品的满意情况,需要针对不同职业的消费者进行调查,而调查数据很自然的就以列联表的形式提交出来。见表7-1所示。 2022-6-23中国人民大学六西格玛质量管理研究中心5 目录 上页 下页 返回 结束 7.1列联表及列联表分析以上是两变量列联表的一般形式,横栏与纵栏交叉位置的数字是相应的
4、频数。这样表露数据就可以清楚地看到不同职业的人对该公司产品的评价,以及所有被调查者对该公司产品的整体评价、被调查者的职业构成情况等信息;通过这张列联表,还可以看出职业分布与各种评价之间的相关关系,如管理者与比较满意交叉单元格的数字相对较大(“相对”指应抵消不同职业在总的被调查对象中的比例的影响),则说明职业栏的管理者这一部分与评价栏的比较满意这一部分有较强的相关性。由此可以看到,借助列联表,人们可以得到很多有价值的信息。2022-6-23中国人民大学六西格玛质量管理研究中心6 目录 上页 下页 返回 结束 7.1列联表及列联表分析在研究经济问题的时候,研究者也往往用列联表的形式把数据呈现出来。
5、比如说横栏是不同规模的企业,纵栏是不同水平的获利能力,通过这样的形式,可以研究企业规模与获利能力之间的关系。更为一般的,可以对企业进行更广泛的分类,如按上市与非上市分类,按企业所属的行业分类,按不同所有制关系分类等。同时用列联表的格式来研究企业的各种指标,如企业的盈利能力、企业的偿债能力、企业的发展能力等。这些指标即可以是简单的,也可以是综合的,甚至可以是用因子分析或主成分分析提取的公因子;把这些指标按一定的取值范围进行分类,就可以很方便地用列联表来研究。 2022-6-23中国人民大学六西格玛质量管理研究中心7 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民
6、大学六西格玛质量管理研究中心8 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心9 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心10 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心11 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心12 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心13
7、目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心14 目录 上页 下页 返回 结束 7.1列联表及列联表分析2022-6-23中国人民大学六西格玛质量管理研究中心15 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心16 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 假定我们下面讨论的都是形如表7-3的规格化的列联表数据。为了论述方便,先对有关概念进行说明。 2022-6-23中国人民大学六西格玛质量管理研究中心17 目录
8、上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 7.2.1 有关概念1. 行剖面与列剖面2022-6-23中国人民大学六西格玛质量管理研究中心18 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心19 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心20 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心21 目录 上页 下页 返回
9、 结束 7.2 对应分析的基本理论对应分析的基本理论 2. 距离与总惯量 2022-6-23中国人民大学六西格玛质量管理研究中心22 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心23 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心24 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心25 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对
10、应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心26 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 因此,此处总惯量也反映了两个属性变量各状态之间的相关关系。对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。实际上,总惯量的概念类似于主成分分析或因子分析中方差总和的概念,在SPSS软件中进行对应分析时,系统会给出对总惯量信息的提取情况。2022-6-23中国人民大学六西格玛质量管理研究中心27 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 7.2.2 对应分析的基本理论经过
11、以上数据变换,在引入加权距离函数之后,或是对行剖面集的各点进行式(7.8)的变换,对列剖面的各点进行类似变换之后,就可以直接计算属性变量各状态之间的距离,通过距离的大小来反映各状态之间的接近程度,同类型的状态之间距离应当较短,而不同类型的状态之间的距离应当较长,据此可以对各种状态进行分类以简化数据结构。但是,这样做不能对两个属性变量同时进行分析,因此不计算距离,代之求协方差矩阵,进行因子分析,提取主因子,用主因子所定义的坐标轴作为参照系,对两个变量的各状态进行分析。2022-6-23中国人民大学六西格玛质量管理研究中心28 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本
12、理论 2022-6-23中国人民大学六西格玛质量管理研究中心29 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心30 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心31 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心32 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究
13、中心33 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心34 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心35 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 7.2.3 对应分析应用于定量变量的情况 上面对对应分析方法的描述都是以属性变量数据为例展开的,这是因为在实际中对应分析广泛地应用于对属性变量列联表数据的研究,实际上,对应分析方法也适用于定距尺度与定比尺度的数据。 2022-6-23中国人民
14、大学六西格玛质量管理研究中心36 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 其实,对于定距尺度与定比尺度的情况,完全可以把每一个观测都分别看成是一类,这也是对原始数据进行的最细的分类;同时把每一个变量都看成是一类。这样,对定距尺度数据与定比尺度数据的处理问题就变成与上面分析属性变量相同的问题了,自然可以运用对应分析来研究行与列之间的相关关系。 2022-6-23中国人民大学六西格玛质量管理研究中心37 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 7.2.4 需要注意的问题 需要注意的是,同对应分析生成的二维图上的各状态点,实际上
15、是两个多维空间上的点的二维投影,在某些特殊的情况下,在多维空间中相隔较远的点,在二维平面上的投影却很接近。此时,我们需要对二维图上的各点做更深的了解,即哪些状态对公因子的贡献较大,这与在因子分析中判断原始变量对公因子贡献的方法类似 。2022-6-23中国人民大学六西格玛质量管理研究中心38 目录 上页 下页 返回 结束 7.2 对应分析的基本理论对应分析的基本理论 2022-6-23中国人民大学六西格玛质量管理研究中心39 目录 上页 下页 返回 结束 7.3 对应分析的步骤及逻辑对应分析的步骤及逻辑框图框图 7.3.1 对应分析的步骤 2022-6-23中国人民大学六西格玛质量管理研究中心
16、40 目录 上页 下页 返回 结束 7.3 对应分析的步骤及逻辑对应分析的步骤及逻辑框图框图 7.3.2 对应分析的逻辑框图 2022-6-23中国人民大学六西格玛质量管理研究中心41 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现 SPSS软件的Correspondence Analysis模块是专门进行对应分析的模块。下面我们举例说明用Correspondence Analysis模块进行对应分析的方法。【例7-1】 选用SPSS软件自带的GSS93 subset.sav数据,该数据在SPSS软件的安装目录下可以找到,该数据共包括1500个观测,67个变量。我们仅
17、借助它来说明Correspondence Analysis模块的使用方法,不对其具体意义作过多的分析。选用该数据集中Degree(学历)与Race(人种)变量为例来说明。其中Degree变量是定类尺度的,其各个取值的含义如下:0中学以下(less than high school),1中学(high school),2专科(junior college),3本科(bachelor),4研究生(graduate),7,8,9缺失;Race变量是定名尺度的,其各个取值的含义如下:1白种人(white),2黑种人(black),3其他(other)。 2022-6-23中国人民大学六西格玛质量管理研
18、究中心42 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现打开GSS93 subset.sav数据,对变量Degree与变量Race进行对应分析,依次点选AnalyzeData ReductionCorrespondence Analysis进入Correspondence Analysis对话框。数据集中所有的变量名(标签)均已出现左边的窗口中,将Degree变量选入右侧行变量(Row)的小窗口中,此时该窗口显示的Degree变量形如:Degree(? ?),同时,其下方的Define Range按钮被击活,点击该按钮,进入Define Row Range对话框,在
19、该对话框中需要确定Degree变量的取值范围,此处我们不研究缺失值,最小值(minimum value)与最大值(maximum value)处分别填上0和4,按右侧的update(更新)按钮,可以看到Degree的取值04已出现在Category Constraints框架左侧的窗口中,该框架的作用是对Degree的各状态加以限定条件的,保持默认值none不变,即对Degree的取值不加以限定条件。2022-6-23中国人民大学六西格玛质量管理研究中心43 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现点击Continue继续,回到Correspondence An
20、alysis对话框,可以看到,此时行变量Degree的显示变为Degree(0 4),按同样的方法把Race选为列变量且设定其取值范围为13,点击OK按钮运行,则可以得到如下输出结果7-1: SummarySummary.144.021.852.852.021.065.060.004.1481.000.026.02436.482.000a1.0001.000Dimension12TotalSingularValueInertiaChiSquareSig.Accounted forCumulativeProportion ofInertiaStandardDeviation2Correlatio
21、nConfidenceSingular Value8 degrees of freedoma. 2022-6-23中国人民大学六西格玛质量管理研究中心44 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现Overview Row PointsOverview Row Pointsa a.186-.462-.414.008.276.531.750.2501.000.521-.078.192.002.022.322.285.7151.000.060-.304.193.001.039.037.857.1431.000.156.723-.203.012.566.107.968.
22、0321.000.076.429-.041.002.096.002.996.0041.0001.000.0241.0001.000RS Highest DegreeLess than HSHigh schoolJunior collegeBachelorGraduateActive TotalMass12Score inDimensionInertia12Of Point toInertia ofDimension12TotalOf Dimension to Inertiaof PointContributionSymmetrical normalizationa. Overview Colu
23、mn PointsOverview Column Pointsa a.838.113.079.002.074.088.830.1701.000.112-1.051-.134.018.855.033.993.0071.000.050.452-1.026.005.071.879.318.6821.0001.000.0241.0001.000Racew of RespondentwhiteblackotherActive TotalMass12Score inDimensionInertia12Of Point toInertia ofDimension12TotalOf Dimension to
24、Inertiaof PointContributionSymmetrical normalizationa. Row and Column PointsSymmetrical NormalizationDimension 11.0.50.0-.5-1.0-1.5Dimension 2.4.20.0-.2-.4-.6-.8-1.0-1.2Racew of RespondentRS Highest DegreeotherblackwhiteGraduateBachelorJunior collegeHigh schoolLess than HS2022-6-23中国人民大学六西格玛质量管理研究中心
25、45 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现2022-6-23中国人民大学六西格玛质量管理研究中心46 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现2022-6-23中国人民大学六西格玛质量管理研究中心47 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现2022-6-23中国人民大学六西格玛质量管理研究中心48 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现2022-6-23中国人民大学六西格玛质量管理研究中心49 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上
26、机实现在同一变量内部,最高学历为High school及以上的各状态之间距离相近,而less than high school可以单独归为一类;对于人种,Black、white、other之间的距离均很大,很明显形成三大类。同时考查两变量各状态,可以看到白种人(white)受教育程度一般较高,其与学历较高的点比较接近,而黑种人明显学历较低,与less than high school比较靠近。Other的最高学历没有显著特点。2022-6-23中国人民大学六西格玛质量管理研究中心50 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现以上是SPSS默认设置得到的结果,实际
27、研究时,可以根据不同的研究目的对有关设置进行修改。下面对SPSS提供的有关选项进行简要说明。在Correspondence Analysis对话框中点击下方的Model按钮进入Model对话框,在该对话框中,可以设定进行对应分析的有关方法:在上部Dimensions in Solution处可以规定对应分析的最大维数,默认维数是2,由该章的论述知,最大维数应该是min(n,p)-1,此处保留默认值即可。 2022-6-23中国人民大学六西格玛质量管理研究中心51 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现Distance Measure对话框中可以规定距离量度方法
28、,默认为卡方距离,也就是加权的欧氏距离,还可以规定用欧氏距离(Euclidean),在Standardization Method对话框中可以规定标准化方法,若距离的量度使用卡方距离,则应使用默认的标准化方法,即对行与列均进行中心化处理,若选择欧氏距离,则有不同的标准化方法可以选择,此处不再详述。 2022-6-23中国人民大学六西格玛质量管理研究中心52 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现最下方Normalization Method 框架中可以规定不同的正态化方法,默认为Symmetrical方法,当我们进行分析的目的是考查两变量各状态之间的差异性或相
29、似性时,应选择此方法。当我们的目的是考查两个属性变量之间各状态及同一变量内部各状态之间的差异性时,则应当选择principal方法,当我们的目的是考查不同行(列)之间的差异性或相似性时,则当选择Row principal(Column principal),而选中Custom并自己设定一个-11之间的值,则可能输出更容易解释的二维图。2022-6-23中国人民大学六西格玛质量管理研究中心53 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现在Correspondence Analysis对话框中点击Statistics按钮,进入Statistics对话框,选中Row p
30、rofiles和Column profiles交由程序运行则除上面的结果外还可以输出行剖面与列剖面,见输出结果7.3:2022-6-23中国人民大学六西格玛质量管理研究中心54 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现在Statistics对话框中选择其他选项,可以输出一些有用的统计量,这些统计量有助于检验对应分析的效果,此处不再详述。在Correspondence Analysis对话框中,点击Plots按钮进入Plots对话框,看到在Scatter plots框架中,系统默认输出Biplot,即在同一张二维图上同时输出两个属性变量的各个状态,为了考查列联表各
31、行(列)之间的相关性,有时候有必要输出仅包括一个变量各种状态参数的二维图,选择Row points及Column points可以实现。同时选中Row points与Column points并交由程序运行,则可以得到如下输出结果:2022-6-23中国人民大学六西格玛质量管理研究中心55 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现Column Points for Racew of RespondentSymmetrical NormalizationDimension 1.6.4.2.0-.2-.4-.6-.8-1.0-1.2Dimension 2.20.0-
32、.2-.4-.6-.8-1.0-1.2otherblackwhite2022-6-23中国人民大学六西格玛质量管理研究中心56 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现这样可以更清楚地考查每一变量各个状态之间的距离或接近程度。SPSS软件还提供了许多其他有用的选项,可以针对不同的研究问题及研究目的选择这些选项以得到更多的结果,此处我们不再详细说明。因为对应分析所需的数据是原始列联表数据,所以SPSS软件也提供了直接读入列联表数据的功能,对上例,就不用从原始1500条观测开始进行分析,也更提高了分析的效率。由分析结果7.1对列联表作如下变换: 2022-6-23中
33、国人民大学六西格玛质量管理研究中心57 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现在SPSS的数据窗口输入以上数据,然后依次点选DataWeight Cases进入Weight Cases对话框,系统默认是对观测不使用权重,选中Weight Cases by选项,此时下面的Frequency variable被击活,选中freq并点击向右的箭头,使变量freq充当权数的作用,点击OK。然后按上面所述方法选择变量,设定取值范围并进行分析(此处行变量为Row,取值范围为04;列变量为Column,取值范围为13),可以得到与上面一致的结果,为了比较,此处仅给出所输出的
34、列联表,如下:2022-6-23中国人民大学六西格玛质量管理研究中心58 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现可以看到,列联表与上面输出结果7.1是相同的,但此处由于没有对Row与Column的取值设定标签,所以显示的是其实际取值,这可以在Variable View窗口进行设定,此处不再进行说明。这样读入数据仍然有些麻烦,利用SPSS的语法可以读入按列联表分布形式的数据,实际上,利用SPSS语法可以灵活地读入以上各种格式的数据。我们给出上例的情况所用的程序,但不再详细说明:2022-6-23中国人民大学六西格玛质量管理研究中心59 目录 上页 下页 返回 结
35、束 7.4对应分析的上机实现对应分析的上机实现2022-6-23中国人民大学六西格玛质量管理研究中心60 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现前面的例子是关于利用对应分析对交叉表数据进行分析,下面通过例题讲述如何利用对应分析对分类汇总数据进行对应分析。分类汇总的数据单元格内不再是频数,而是相应的统计指标,如均数等。对汇总数据由于单元格内不再是频数,不存在行、列合计频数,也就不能再像交叉表时一样基于无效假设计算标化残差,而是使用欧氏距离来代表相应单元格数值偏离无关联假设的程度,由于指标量纲以及量级的差异,对应分析中针对欧氏距离提供了5种标准化方法,含义如下:(
36、1)Row and Column Means Removed:为缺省设置,在数据标准化时将行合计均数以及列合计均数的影响都移去,这样行、列类别间均数的差异不再对结果产生影响,在结果中呈现的只是行、列变量类别间的交互作用。2022-6-23中国人民大学六西格玛质量管理研究中心61 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现(2)Row Column Means Removed:在数据标准化时只移在数据标准化时只移除行列变量合计均数差异的影响,这样行列均数的差除行列变量合计均数差异的影响,这样行列均数的差异不再对结果产生影响,在结果中呈现的只是列行变量异不再对结果产生
37、影响,在结果中呈现的只是列行变量类别间的差异。类别间的差异。(3)Row Column Totals are Equalized and Row Column Means Removed:在数据标准化时首先将原始数据在数据标准化时首先将原始数据除以行列合计,然后再移除行、列均数的影响。除以行列合计,然后再移除行、列均数的影响。距离测量方式以及相应的距离标准化方法均在距离测量方式以及相应的距离标准化方法均在Model子对话子对话框中选择,在对欧氏距离进行标准化后,剩余的步骤就与框中选择,在对欧氏距离进行标准化后,剩余的步骤就与普通的对应分析完全相同。普通的对应分析完全相同。对一个具体问题,如何选
38、择以上五种标准化方法有赖于具对一个具体问题,如何选择以上五种标准化方法有赖于具体的研究目的,一般是在对问题进行定性分析基础上,选体的研究目的,一般是在对问题进行定性分析基础上,选择合适的方法以便对定性分析的结论进行实证分析。下面择合适的方法以便对定性分析的结论进行实证分析。下面通过一个具体问题说明该方法的应用。通过一个具体问题说明该方法的应用。2022-6-23中国人民大学六西格玛质量管理研究中心62 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现【例7-2】 按现行统计报表制度,农民家庭人均纯收入主要由四部分构成,即工资性收入、家庭经营纯收入、财产性收入、转移性收入
39、。表7-6列出了2005年我国31省、市、自治区农民家庭纯收入的数据。试进行对应分析,揭示全国农民人均纯收入的特征以及各省、市、自治区与各收入指标间的关系。2022-6-23中国人民大学六西格玛质量管理研究中心63 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现软件SPSS进行实际操作和分析,如下操作步骤:1.打开SPSS文件,在表格下方有两个选项分别是Data View 和 Variable View,点击Variable View选项,将各选项改为如下形式。2022-6-23中国人民大学六西格玛质量管理研究中心64 目录 上页 下页 返回 结束 7.4对应分析的上
40、机实现对应分析的上机实现其中Values项需要作如下设置:在弹出的对话框里,对北京至新疆的31省市以及工资等四项收入进行数字附值。然后点击Data View进行如下数据的输入 2022-6-23中国人民大学六西格玛质量管理研究中心65 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现在SPSS的数据窗口输入以上数据,然后依次点选DataWeight Cases进入Weight Cases对话框,系统默认是对观测不使用权重,选中Weight Cases by选项,此时下面的Frequency variable被击活,选中money并点击向右的箭头,使变量money充当权数
41、的作用,点击OK。2022-6-23中国人民大学六西格玛质量管理研究中心66 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现2. 数据输入完成后,选择AnalyzeData ReductionCorrespondence Analysis,然后把“省区”选入“Row”,在点击Define Range来定义范围为1(Minimum value)到31(Maximum value),之后点击Update,再点击Continue。之后同样地,把“收入类别”选入Column,并定义其范围为1到4。如下图2022-6-23中国人民大学六西格玛质量管理研究中心67 目录 上页 下
42、页 返回 结束 7.4对应分析的上机实现对应分析的上机实现然后点选Model,在出现的对话框中选择数据标准化方法,本例Distance Measure点选Euclidean,下面的Standardization Method选择选项被激活,有5种可供选择的数据标准化方法,本例选择第5种:Column totals are equalized and means are removed,读者也可尝试使用其他方法。其余选项为默认,点击OK来运行。2022-6-23中国人民大学六西格玛质量管理研究中心68 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现3输出结果分析。根据S
43、PSS对数据的计算,会得到一系列的表格,大多数表格的解释与上例相同,在此不再赘述。输出表格之一就是下面各维的汇总表,表中给出了行和列记分的关系。Proportion of Inertia是惯量比列,代表各维度分别解释总惯量的比例及累计百分比,从下表可以看出第一维和第二维的惯量比例占了总比例的95.5%,因此我们可以选取两维来进行分析。2022-6-23中国人民大学六西格玛质量管理研究中心69 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现在SPSS的输出结果中还给出了绘制最后叠加的散点图所需的两套坐标。首先是关于行变量(省区)的点坐标表,例如北京(-2.703,-1.
44、276),天津(-0.267,-0.163)等2022-6-23中国人民大学六西格玛质量管理研究中心70 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现同样地,列变量(收入类别)的点坐标表如下,例如工资(-0.972,0.441),家庭(0.014,-0.142)等。由以上两张坐标表,可以得出如下的叠加散点图。从图中不难看出:我国经济发达省区,像广东、浙江、江苏、福建等,主要以工资性收入和转移性收入为主;而河北、山东、内蒙古、吉林等多依靠家庭经营收入;而个别省区,像上海、北京,经济发展迅速,依靠工资性收入的同时,也会有相当部分的转移性收入。2022-6-23中国人民大
45、学六西格玛质量管理研究中心71 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现从中国目前的经济发展状况来看,大部分农民仍是以工资性收入和家庭经营收入为主要的收入来源。在经济发达地区,农民外出打工较多,因此还是以工资性收入为主;而在经济不发达地区,大部分农民还是以农业生产为主,因此还是以家庭经营收入为主。随着中国社会经济的不断发展和进步,这种格局也必然会发生一定的变化,转移性收入和财产性收入也会有所表现。综上所述,利用对应分析,较好地揭示了指标与指标、样品与样品、指标与样品之间的内在联系。因此,对应分析方法能够以较小的代价从原始数据中提取较多的信息。 2022-6-23中国人民大学六西格玛质量管理研究中心72 目录 上页 下页 返回 结束 7.4对应分析的上机实现对应分析的上机实现2022-6-23中国人民大学六西格玛质量管理研究中心73