1、第二学期多元统计分析期末考试经验第二学期多元统计分析期末考试经验 一、填空题(3 分/共 30 分) 1.多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门 统计学科。 2.多元总体的数字特征是总体均值向量和总体协差阵, 它的样本估计量是样本均 值向量和样本协差阵。 3.p 元总体的样本是全部 n 个样品组成的局部整体,样品是 每一个个体的 p 个变 量的一次观测。 4.在 SPSS 软件中进行主成分分析的流程是AnalyzeDimension ReductionFactor 5.因子分析模型中,分解为特殊因子 和 公共因子 6.变量的类型有间隔尺度、有序尺度、名义尺度。
2、7.系统聚类方法首先要定义样品间距离和类与类之间的距离。 二、论述题(10 分/共 50 分) 1.请举例说明一个多元样本,其样本是什么?同时请说明其样品和变量。 参考答案:参考答案:调查北京工业大学 2013 级本科生身体状况,随机抽取 100 名北京工业 大学 2013 级本科生, 其中样本是这 100 名北京工业大学 2013 级本科生的身高体重 肺活量,样品是一名北京工业大学 2013 级本科生的身高体重肺活量,变量是身高 体重肺活量这三个指标。 2.请简述判别分析与聚类分析的异同 参考答案:参考答案:聚类分析是研究(样品或变量)分类问题的一个多元统计方法(类指相 似元素的集合) 。判
3、别分析是判别样品所属类型的一种统计方法。 聚类分析和判别分析都是用来对样品进行分类, 即分析每一个样品归属于哪一 类。但是,判别分析是先已知某些样品的分类结果,然后总结出判别规则,是一种 有指导的学习。即:判别分析是在已知研究对象分成若干类型(或组别)并已取得各 种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对 未知类型的样品进行归类判别。 聚类分析则是有了一批给定的样品, 而要划分的类型事先并不知道, 甚至连分 成几类也不知道, 希望用某种方法把观测进行合理的分类, 使得同一类的观测比较 接近,不同类的观测相差较多,这是一种无指导的学习。 正因为如此,判别分析和聚类分
4、析往往联合起来使用。当总体分类不清楚时, 可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式,从而 对新样品进行判别。 3.请简述主成分分析和因子分析的联系和区别 参考答案:参考答案: 区别: (1)两种方法的实质不同。主成分分析仅仅是一种数据变化,不假定数据矩 阵有何种结构形式,而因子分析假定数据矩阵有特定的模型,且其中的因子满足特 定的条件,当这些条件不满足时,因子分析就有可能是虚假的。 (2)两种方法的侧重点不同。主成分分析重点在于从变量到主成分的变换上, 而因子分析的重点在于从公因子和特殊因子到变量的变换上。并且主成分的变换是 可逆的,而因子分析则不要求。 (3)两者的
5、应用范围也有所不同。主成分分析主要应用在综合评价和指标筛 选上,而因子分析除了这两个应用外,还可以用于对样品或变量的分类。 联系: (1)二者都是属于多元分析中处理降维的统计方法。 (2)二者都是从变量(或样品)的相关矩阵出发,找出能够控制所有变量(或 样品)的少数几个随即变量去描述很多变量之间的相关关系。 (3)因子分析是主成分分析的推广,而主成分分析是因子分析的特殊情形。 当因子分析中的特殊因子 u 的影响微不足道直至可以忽略时,如果 F 中各个分量均 是正交的,就可以转化为主成分分析。因此当因子模型成立,且特殊因子方差贡献 很小时,可以期待主成分分析与因子分析会给出相同的结果。 (4)当
6、特殊因子的方差贡献较大时,因子分析会将公共因子与特殊因子严格 区别开来,而主成分分析则将这些因子(包括公因子与特殊因子)不加区别的混在 一起被保留或被舍弃。 4.请简述多元样本的数字特征,样本资料阵如何表示以及其中的行列分别代表什么。 参考答案:参考答案: 设 X(1),,X(n)为 p 元总体的样本,其中 X(a)=(Xa1,Xap),a=1,2,n,则 1) 样本均值向量定义为 2) 样本离差阵定义为: 3) 样本协差阵定义为: 4) 样本相关阵定义为: 见书 样本资料阵: 5.给出两个样品点,请写出这两个样品点间的欧氏距离和马氏距离,并简述欧氏距离 与马氏距离的优缺点 参考答案:参考答案
7、: 公式 明氏距离:? ? ? ? ? ? ?t? q=1 时,? ? ? ? ? ?,为绝对距离 q=2 时,? ? ? ? ? ? ?t?,为欧氏距离 q=时,? ? ? max( a p)?Xia Xja? ,为切比雪夫距离 马氏距离: 设表示指标的协差阵,即:=(ij)pp,其中 如果 -1存在,则两样品之间的马氏距离为 d 2 ij(M)=(X(i)-X(j) -1(X (i)-X(j) X 到总体 G 的马氏距离定义为: d 2(X,G)=(X-)-1(X-) 1) 优缺点 优点缺点 明氏距离(欧式距离)当坐标轴进行正交旋转时, 欧 氏距离是保持不变的。因此, 如果对原坐标系进行平
8、移和 旋转变换, 则变换后样品点间 的相似情况(即它们间的距 离)完全等同于变换前的情 形。 1、它与各指标的量纲有关, 即变量的数量级和量纲影响 着欧式距离 2、它没有考虑指标之间的相 关性 马氏距离1、 排除变量间相关性的干扰, 且不受量纲的影响 夸大了变化微小的变量(或指 标)的作用(因为赋予的权重 较大)2、可以证明,将原始数据作 一线性交换后, 马氏距离仍不 改变 补充: 1、使用欧氏距离要求一个向量的 n 个分量不相关且具有相同的方差,或者说各坐标对 欧氏距离的贡献是同等的且变差大小也是相同的,否则不能如实反映情况。 2、马氏距离可以排除变量间相关性的干扰,且不受量纲的影响,但用全
9、部是据计算均 值和协差阵来求,效果不好,比较合理的方法时用各类的样本来计算各自的协差阵,同 一类样本的马氏距离应该用这一类的协差阵来计算,但类的形成需要依赖于样品间的距 离,而样品间的距离又依赖于类,这就形成了一个恶性循环。 三、计算题(10 分/共 20 分) 1.给出一个 SPSS 中的结果,然后 写出因子载荷矩阵 A 并写出因子载荷 aij 的统计意义 计算变量共同度和公共因子 Fj 的方差贡献度,并写出其统计意义 参考答案:参考答案: 1)aij,即因子载荷 定义:第 i 个变量在第 j 个公共因子上的负荷 2)因子载荷 统计意义:第 i 个变量与第 j 个公共因子的相关系数,即表示 Xi 依赖 Fj 的份量 3)变量共同度 定义: 统计意义:全部公共因子对变量 Xi 的总方差所作的贡献 4)公因子 F 的方差贡献 2.利用最长距离法进行聚类分析,并画出聚类图,类似于书上 P71 例题 5.1。