1、第四章 探索性数据分析方法本章的主要内容 第1节 多维数据的可视化技术 第2节 投影寻踪 第3节 独立成分分析 第4节 探索性数据分析案例 第5节 探索性数据分析综合应用第1节 多维数据的可视化技术基于2变量的多维可视化技术 目前采用基于2变量多维可视化技术的方法主要有散点图矩阵等 散点图矩阵画出多个变量两两间的散点图以考察多变量关系。如果给定p个变量,则可以通过创建一个包含p行p列的散点图矩阵,其中的每行每列均唯一定义一个散点图。利用散点图矩阵,我们可以回答诸如两个变量之间是否具有成对关系,数据当中是否存在孤立点以及数据当中是否存在聚类等问题鸢尾花数据的散点图矩阵 下图展示了鸢尾花数据在四个
2、变量(花萼长、花萼宽、花瓣长、花瓣宽)下的分布形态基于多变量的多维可视化技术 该技术是近来空间多维数据可视化技术的基础,它绝大部分都是采用通过高速图形计算生成的彩色图形来表示的。这种方法处理的数据量一般比较大,且可以处理复杂数据类型的多维信息。Chernoff face方法 美国统计学家Chernoff于20世纪70年代最早提出用脸谱来表示多变量。按照Chernoff于1973年提出的画法,采用15个指标,各指标代表的面部特征为:1表示脸的范围;2表示脸的形状;3代表鼻子的长度;4代表嘴的位置;5代表笑容曲线;6表示嘴的宽度;7-11分别表示眼睛的位置、分开程度、角度、形状和宽度;12表示瞳孔
3、的位置;13-15分别表示眉毛的位置、角度和宽度。根据各变量的取值,按照一定的数学函数关系,我们就可以确定脸的轮廓、形状和五官的位置、形状。Chernoff face方法 Chernoff faces方法适合于在大量相似数据中发现奇异点,或者根据表情对数据进行聚类。不同的制图者可能会对同一变量选择不同的脸谱部位,因此对于同样的数据,可能会产生不同的显示结果。不足:无法表示数量很大的数据。平行坐标法 平行坐标技术将多维数据点映射成二维平面上的折线且不损失信息,人们可以从折线的变化规律中发掘有价值的信息,显得相对简便直观。平行坐标的基本思想是在二维空间中采用等距离的竖直的 个平行坐标轴表示 维空间
4、,个变量值对应到 个平行坐标轴上,再将 个坐标轴上的点用连续线段连接起来表示一个空间点,这 条线段与 条坐标轴相交的 个点分别代表了数据点的 维数据。连接 个坐标轴上点的 条线段的折线可以用 个线性无关的方程所表示。鸢尾花数据的平行坐标图平行坐标法的优缺点 优点:表达数据关系非常直观,易于理解,能够使用户快速、简便地从传统直角坐标系转换到平行坐标系,而不必使用矢量或其它可视图标。缺点:表达维数决定于屏幕的水平宽度,当维数增加,引起垂直轴靠近,辨认数据的结构和关系稍显困难,坐标间的依赖关系很强,垂直平行轴之间的安排序列性也是影响发现数据之间关系的重要因素,而且多维结构也是复杂的。目前有很多对平行
5、坐标的改进技术,例如层次化的平行坐标技术。基于平行坐标数据可视化方法 刷技术 维数的控制 数据抽象 维度放缩 交换坐标轴 上钻下卷刷技术 刷技术能够在平行坐标中将一部分折线突显而使其他折线不明显,如此能让用户更清晰直观地了解局部数据变化规律,更好地对关注部分进行集中分析。平行坐标表示的多维数据集上,我们可以利用刷技术交互选择数据区间和聚簇。常用的刷技术有两种,基于角度的刷技术以及基于结构的刷技术。刷技术 基于角度的刷技术是根据相邻的两坐标轴间线段的斜率范围来确定需要刷的数据。在两条线段夹角范围内的数据将被突显,而没有涉及到的数据将不明显,便于用户具有针对性的分析和研究。基于结构的刷技术与平行坐
6、标形成结构有很大的关系。被刷出的数据能够以不同的详细程度显示,数据范围比较灵活,可以是分层结构中的平均值,也可以是一段完整的区间范围。通过基于结构的刷技术能够实现将所选范围内的数据折线以更清晰的程序显示出来。维数的控制 在平行坐标中,我们通过对数据属性数量进行控制,控制平行坐标维数,将我们关心的属性显示出来。这样做的优点是能够减小平行坐标图的复杂程度,同时还能减低不重要数据对结果的干扰,便于我们更好地对数据进行分析。刷技术突显部分数据但不减少维数,因此,刷常被看作是行分解,而对维数的控制改变了坐标的数量,因此被看作是列分解。数据的抽象 平行坐标图本身就是一个抽象图形,它将多维数据抽象地表示在二
7、维平面上,但是我们还可以对其进行更高层次的抽象,即数据的平均值显示,数据的平均值度量数据的中心趋势。折线的抽象基于边缘数据的汇总,在普通平行坐标中,用一系列折线的平均值来取代这些折线。当折线彼此交叠,数据直观分析比较困难时,用这种方式可以增强对数据变化趋势的理解,减少折线带来的混乱影响。维放缩 主要应用在需要对局部数据放大观察的情况下。比如在完成刷的操作后,刷出的数据范围比较小,这时就可以将该子区域的数据用全局范围来显示,将局部放大的平行坐标图与全局的平行坐标图结合起来观察,可以避免对数据的片面理解。当数据量小且分散时,采用维缩小将更加易于集中观察数据的变化趋势。交换坐标轴 交换坐标轴可以把我
8、们认为属性关系较密切的坐标轴相邻,更好地呈现属性间的关系。在未知属性间的关系时,可以试探地调换坐标轴次序,进而发现不同属性间隐含的关系。如果是p维数据,有p个坐标轴。根据排列组合,应当有p!种排列。然而,实际上有相当多的冗余在这个排列中,让相关的坐标相邻排列的最小组合实际上是(p+1)/2。基于动画的多维可视化技术 随着计算机技术的不断发展,传统的动画技术不仅可以用于简单的结果显示,还能根据已知数据进一步发现数据中隐藏的或者不可预测的重要信息。漫游法是典型的基于动画的多维可视化技术 漫游法可以在二维空间平面上投影多维数据,其基本思想主要是基于在高维数据空间中移动投影平面的这样一个简单构思,即设
9、计一个时间参数,该参数类似于 维空间中的2个平面。也就是说,假设我们有 个变量的数据,取出其中的一个变量作为动画的时间参数,并且根据时间参数的变化,在二维空间的平面上迅速连续的投影其余的 个变量。漫游法的特点(一)在所有的二维子空间中,漫游法所获得的投影平面序列应当是稠密的。(二)投影平面序列应当是均匀分布的。(三)投影平面序列应当是连续的,这将有助于分析人员的理解以及可视化效果。(四)在漫游结束以后,分析人员应当能够将投影平面进行重构。漫游法 漫游法通过将高维数据投影到二维子空间,形成一系列的散点图,使得分析人员能够从各个角度来观察数据的结构或者特征。漫游法的输出结果是一组动态展示的二维散点
10、图,当分析人员从动画中看到感兴趣的结构或特征时,可以将其暂停并进行数据重构。漫游法的两种算法:环绕法(Torus Winding Method)和伪漫游法第2节 投影寻踪认识投影寻踪 投影寻踪方法能够成功地克服高维数据的“维数祸根”所带来的严重困难。投影寻踪方法恶意排除与数据结构无关,或关系很小的变量的干扰。投影寻踪方法为使用一维统计方法解决高维问题开辟了用武之地。投影寻踪方法与其他非参数方法一样,可以用来解决某些非线性问题。一些传统的多元统计分析方法是投影寻踪方法的特例。认识投影寻踪 投影寻踪的分析目的是通过将高维数据投影到低维空间上的结合分布形态,发现感兴趣的投影方向。其基本思想是通过极大
11、化(极小化)选定的投影指标,寻找能够反应原始高维数据结构或特征的投影方向,将高维数据在这个方向上投影到低维空间,再在低维空间上对数据进行分析,以达到研究和分析高维数据的目的。投影寻踪的基本算法投影指标 考虑用一个量化的指标来寻找一个能最大可能地体现数据有意义的结构与特征的方向,这个量化的指标称作投影指标,它是用来衡量投影到低维空间上的数据是否有意义的目标函数。在使用优化算法优化投影指标时,投影指标就是目标函数。投影寻踪就是要找到一个或若干个投影方向,使投影指标值达到最大(或最小)。投影指标分为三类:位移、尺度同变;位移不变、尺度同变;放射不变。几种常见的投影指标 方差投影指标 K-L绝对信息散
12、度 Friedman-Tukey指标 一阶熵投影指标 Friedman投影指标 Hall指标 Cook投影指标族 PPDA指标算法 根据实际问题的分析目的选定投影指标后,可以使用具体的算法来优化投影指标,从而获得感兴趣的投影方向 常见的算法包括遗传算法、粒子群优化算法等遗传算法 遗传算法以生物进化过程为背景,模拟生物进化的步骤,将繁殖、杂交、变异、竞争和选择等概念引入到算法中,通过维持一组可行解,并通过对可行解的重新组合,改进可行解在多维空间内的移动轨迹或趋向,最终走向最优解。它克服了传统优化方法容易陷入局部极值的缺点,是一种全局优化算法。遗传算法 编码方式 基于聚类划分的整数编码方式 适应度
13、函数 选择操作 轮盘赌选择法 交叉变异过程粒子群算法 粒子群算法(particle swarm optimization,简称PSO)可用于解决大量非线性、不可微和多峰值的复杂优化问题。PSO有较强的全局搜索能力,但同时也有容易陷入局部极值导致的收敛精度低和不易收敛到全局最优的缺点。PSO是一种基于进化计算和群智能的算法,每个优化问题的解看作搜索空间中的一个粒子,粒子的位置代表优化问题在搜索空间中的潜在解,粒子的速度决定他们飞行的方向和距离,所有的粒子都有一个被优化的函数决定的适应值。第3节 独立成分分析认识独立主成分分析 CA最初所希望解决的问题是著名的鸡尾酒会问题(cocktailpart
14、yproblem)。假设在一个房间内有两个人同时讲话,在房间的不同位置有两个麦克风,而每个麦克风记录下来的是两个人声音信号的混合。我们的问题是:如何仅利用麦克风的混合声音信息来获得每个讲话者所说的话(即源信号)?人类复杂的听觉系统可以很好的解决这个问题,将注意力集中于一个说话者,人们可以听出他所说的话。但如何利用计算机或利用机器,使其智能化,来模仿人类并有效的解决这个问题?独立成分分析基本原理独立成分分析 独立成分分析的假设条件 各个成分之间是相互统计独立的。独立成分是服从非高斯分布的。假设混合矩阵是方阵。独立成分分析无法确定的因素 不能确定独立成分的方差(能量)。不能确定独立成分的顺序。独立
15、成分分析数据的中心化 可以假设混合变量和独立成分是零均值的。如果零均值并不成立,我们可以通过预处理来达到这个条件。一般的,我们使用中心化观测变量这一技术,即减去样本均值。混合矩阵在预处理之后保持不变,因此我们可以进行中心化而不影响混合矩阵的估计。不相关和白化 独立和不相关(uncorrelated)是紧密相关的概念,因此,可以设想使用估计不相关变量的方法来同样估计独立成分,这样的典型方法为白化(whitening)或球化(sphering),通常由主成分分析来进行。但用这样的方法来估计独立成分通常是不可行的,一般的,白化是以独立成分分析的预处理技术身份出现的。不相关是独立的较弱形式,两个随机变
16、量 和 是不相关的,如果它们的协方差是零。白化的随机向量 指的是它的各分量是不相关的,并且具有单位方差。独立成分分析估计原理和估计方法 估计原理 非线性不相关性 极大化非高斯性 估计方法 极大似然估计方法 信息极大化方法 互信息极小化方法 非高斯性极大化方法独立成分分析应用案例 分析同一连锁店中若干商店的现金流转,试图找到影响商店现金流量的一些公共基本因素,由此可以分析这些因素对任何一个特定商店的影响,即管理行为对个体店的具体所在环境下带来的具体后果。数据为同一个零售连锁品牌下40个商店的周现金流量,时间跨度为140周。利用FastICA算法对原始数据估计出4个独立成分。第4节 探索性数据分析
17、案例数据来源与说明 Fernande提供的数据集抓取了2015年1月8日Mashable网站上所刊载的所有新闻博客文章,并提取出文章的基本信息,包括文章的分享数、标题包含的词汇数、正文包含的词汇数、文章包含的视频数,等等。在正式建模之前,应首先了解数据集的基本规律。使用R绘制变量之间的相关图datamcorcorrplot(mcor,order=hclust)#相关矩阵图描述性分析 从图中可以看到,变量之间有着明显的相关性,部分变量基本可以归为一类。建模过程#对发布频道进行分析chfor(iin1:6)chdata.channel,i=1,boxplot(sharesch,main=Boxpl
18、otofSharesvs.Channel)#绘制箱线图ch1aov1summary(aov1)#对发布时间进行分析wkfor(iin1:7)wkdata.weekday,i=1,boxplot(shareswk,main=BoxplotofSharesvs.Weekday)#绘制箱线图wk1aov2summary(aov2)建模过程不同发布频道的文章对应的关注度有着显著差异不同星期日时的文章分享数存在显著差异建模过程 由于定量自变量个数众多,以下将通过投影寻踪分析对自变量的数据规律进行探索。因而,我们在R中选择KurtosisMin这个投影指标,使用PSO算法,经过20次仿真,得到使得峰度最小
19、的排名前5个投影方向。对目标变量和5个投影变量做回归分析。结论和建议 1.文章标题及文章主题。读者在点击或分享一篇文章时,往往先关注的是一篇文章的标题或主题。文章标题的客观性越强,对立性越强,文章越容易获得较高的关注度,而与特定主题模型相关度高的文章也往往可以获得更高关注。对应的网站如果想提升其文章的关注度,可以首先在文章的题目和主题上做文章。2.发布频道与发布时间。对定性变量的分析结果显示,不同频道、不同时间发布的文章关注度存在显著差异。发布频道的差异有利于网站方更好地获知用户的偏好,发布时间的差异则有利于网站更好地把握文章关注度的时间规律,在特定的时间推出有影响力的文章。第5节 探索性数据
20、分析综合应用数据说明 手机问卷数据是通过设计手机问卷,得到的人们对于不同品牌手机用户的满意度调查结果,调查人数为106人,每人对三星、苹果、HTC、华为四个品牌手机的满意度进行调查,最终获得了424个样本数据。数据包含32个变量,其中前28个问题是使用7级李克特量表(1表示非常不同意,7表示非常同意),对手机的28个方面进行打分得到。描述性分析 将Q1Q28提取到data1数据集中,首先对数据集进行简单的描述性分析,观察到箱线图中有三个明显的异常值,需要对数据进行清洗。数据清洗 首先对填补缺失值,通过is.na()查找缺失值,发现Q4和Q15中存在缺失值,使用随机插补法对缺失值进行随机插补,得
21、到完整的数据集data1。接下来对异常值进行处理。由于自变量应该全都是17之间的整数取值,因此构造error变量,找出Q8,Q22,Q24,Q26,Q27,Q28中总共存在异常值相关分析主成分分析 从碎石图中可以看出,应当选取三个主成分,累积贡献率如图415所示。三个主成分的累积贡献率达到61.91%。因子分析 接着进行因子分析,提取三个公因子,因子旋转方法用最大方差旋转,提取公因子和变量之间的相关系数。分别的三个因子的因子得分进行排名,选出排名前10的样本对应的手机品牌,发现三个因子得分的前十名都是苹果手机,说明总体上苹果的使用体验较好回归分析 利用因子分析提取出的三个公因子进行回归分析,分
22、别对满意度和忠诚度构造线性回归模型。由于问卷中对满意度和忠诚度分别对应了三个问题,将这三个问题的结果取平均,得到两个因变量satisfy和loyal。满意度=4.9505+0.6644*用户体验+0.6512*象征价值+0.3036*性价比 忠诚度=4.8915+0.7416*用户体验+0.7348*象征价值+0.3169*性价比 根据回归结果,可以看出三个因子在两个模型中都显著,模型通过了F检验检验。通过观察回归方程的系数,可以看出用户体验因子和象征价值因子对满意度和忠诚度影响十分显著,说明用户在使用手机时比较注重用户体验和象征价值。其他分析 利用因子分析提取的三个公因子分别计算四种品牌手机的因子得分,画出箱线图。本章小结思考题 平行坐标数据可视化方法主要有哪些?简述漫游法的两种算法。什么是投影寻踪?它研究的是什么?有哪些常用的投影指标?独立成分分析有哪些假设条件?