1、主要分为两类:一类是使高维空间的主要分为两类:一类是使高维空间的点与平面上的某种图形对应。这种图点与平面上的某种图形对应。这种图形能反映高维数据的某些特点或数据形能反映高维数据的某些特点或数据间的某些关系。间的某些关系。(本章介绍本章介绍)另一类是对多变量数据进行降维处理。另一类是对多变量数据进行降维处理。在尽可能多地保留原始信息的原则下,在尽可能多地保留原始信息的原则下,将数据的维数降为将数据的维数降为2 2维或维或1 1维,然后再维,然后再在平面上表示。在平面上表示。(主成分分析、因子分析方法等主成分分析、因子分析方法等)“图形的最大价值就是使我们注意到图形的最大价值就是使我们注意到我们从
2、来没有料到过的信息。我们从来没有料到过的信息。”-约翰约翰 图克图克(John(John TukeyTukey)多变量(多维数据)的图示方法,称多变量(多维数据)的图示方法,称为为多变量的可视化多变量的可视化 简介什么是多变量的可视化?第2章 多变量的可视化 2.1轮廓图 2.2雷达图 2.3调和曲线图 2.4散点图 2.5脸谱图 2.6星座图 2.7小贴士下面的数据,你怎么想?下面的数据,你怎么想?钢铁工业是国家经钢铁工业是国家经济水平和综合国力济水平和综合国力的重要标志。的重要标志。为了比较国内钢铁为了比较国内钢铁公司与韩国浦项钢公司与韩国浦项钢铁公司的差距铁公司的差距.某年度的五大钢铁某
3、年度的五大钢铁公司反映经营状况公司反映经营状况的的1010个指标数据。个指标数据。指标指标宝钢宝钢鞍钢鞍钢武钢武钢首钢首钢浦项浦项负债保障率2.892.952.341.853.12长期负债倍数5.169.156.072.636.96流动比率1.311.831.162.222.1资产利润率21.7117.3424.7711.8925.34收入利润率23.1711.3319.557.622.28成本费用利润率30.2312.7624.818.0528.52净利润现金比率1.790.91.71.091.3三年资产平均增长率1.487.2863.311.7613.18三年销售平均增长率20.0729.
4、1952.8818.7724.16三年平均资本增长率11.0410.548.957.6317.512.1轮廓图 轮廓图是将多元数据以折线轮廓图是将多元数据以折线的方式表示在平面中的图。的方式表示在平面中的图。作图步骤为:作图步骤为:(1 1)坐标系,横坐标取)坐标系,横坐标取p p个个点,表示点,表示p p个变量,纵坐标个变量,纵坐标表示变量取值。表示变量取值。(2 2)将表示)将表示p p个变量取值的个变量取值的点(个高度的顶点)连接点(个高度的顶点)连接成一条折线。成一条折线。n n次观测可绘出次观测可绘出n n条折线,构条折线,构成多变量轮廓图。成多变量轮廓图。轮廓图轮廓图变形变形 学者
5、(杜子芳)将折线图旋转学者(杜子芳)将折线图旋转9090度,得到形如闪电的闪电图。度,得到形如闪电的闪电图。例如关于地铁公交服务优劣比较的闪电图(下图)。例如关于地铁公交服务优劣比较的闪电图(下图)。为了便于显示轮廓间的差异,把折线纵向展开而非横向展开。为了便于显示轮廓间的差异,把折线纵向展开而非横向展开。通常纸张是纵长横短的长方形,闪电图所容纳指标可以更多。通常纸张是纵长横短的长方形,闪电图所容纳指标可以更多。2.2雷达图 图形像雷达荧光屏上的图像,称为雷达图(蛛网图、蜘蛛图)图形像雷达荧光屏上的图像,称为雷达图(蛛网图、蜘蛛图)作图步骤为:作图步骤为:(1 1)作一圆,并按变量的个数)作一
6、圆,并按变量的个数p p,将圆周分为,将圆周分为p p等分。等分。(2 2)连接圆心和各分点,将这)连接圆心和各分点,将这p p条半径连线依次定义为各变量的坐条半径连线依次定义为各变量的坐标轴,并标以适当的刻度。标轴,并标以适当的刻度。(3 3)对给定的一次观测值,将个变量值分别标点在相应的坐标)对给定的一次观测值,将个变量值分别标点在相应的坐标轴上,把轴上,把p p个点相连,形成了一个个点相连,形成了一个p p边形。边形。n n次观测值就可画出次观测值就可画出n n个个p p边形。边形。2.3调和曲线图 调和曲线图是调和曲线图是AndrewsAndrews(19721972)提出的三角多项式
7、作图法。)提出的三角多项式作图法。思想是把多维空间中的一个点对应于二维平面上的一条曲线。思想是把多维空间中的一个点对应于二维平面上的一条曲线。1212345(,)()sincossin2cos22(,)pxpXx xxxf txtxtxtxttt 设 维数据对应的调和曲线函数是上式当 在区间上变化时,其轨迹是一条曲线。2.4散点图 散点图是以点的分布反映变量之间相关关系的可视化方法。散点图是以点的分布反映变量之间相关关系的可视化方法。作图步骤为:作图步骤为:以两个变量为例,把两个变量以两个变量为例,把两个变量X与与Y的每对观测数据的每对观测数据(x,y),看成平面上点的横纵坐标,依次描点,可得
8、散点图。),看成平面上点的横纵坐标,依次描点,可得散点图。三年平均资本增长三年销售平均增长三年资产平均增长净利润现金成本费用收入利润资产利润流动长期负债倍数负债负债长期负债倍数流动资产利润收入利润成本费用净利润现金三年资产平均增长三年销售平均增长三年平均资本增长 18841884年,英国生物统计学家高尔顿在伦年,英国生物统计学家高尔顿在伦敦国际博览会上设立敦国际博览会上设立“人类测量实验人类测量实验室室”。在连续六年中,共测量了。在连续六年中,共测量了93379337人人“身高、体重、呼吸力等资料身高、体重、呼吸力等资料”。18851885年,高尔顿在研究成年子女与中年年,高尔顿在研究成年子女
9、与中年父母的身高关系时,首次给出父母的身高关系时,首次给出散点图散点图。简介历史第一个散点图 2.5脸谱图 由美国统计学家由美国统计学家H.ChernoffH.Chernoff于于19731973年提出。年提出。作图步骤为:该方法是将观作图步骤为:该方法是将观测的多个变量(指标)分别测的多个变量(指标)分别用脸的某一部位的形状或大用脸的某一部位的形状或大小来表示,一个样品(观测小来表示,一个样品(观测)可以画成一张脸谱。)可以画成一张脸谱。n n次观测可绘出次观测可绘出n n张脸谱。张脸谱。1 1 宝钢,宝钢,2 2 鞍钢,鞍钢,3 3 武钢武钢4 4 首钢,首钢,5 5 浦项浦项 实际应用中
10、实际应用中,脸谱图发展脸谱图发展 如在脸谱上加眼泪以表示很如在脸谱上加眼泪以表示很坏情况的出现坏情况的出现;还可以在脸谱基础上加上体还可以在脸谱基础上加上体型型,用一些变量来决定体型用一些变量来决定体型的胖瘦、高矮等。的胖瘦、高矮等。还有新的脸谱画图方法取消还有新的脸谱画图方法取消了脸的对称性并引入更多脸了脸的对称性并引入更多脸部特征来画脸谱。部特征来画脸谱。1 1 宝钢,宝钢,2 2 鞍钢,鞍钢,3 3 武钢武钢4 4 首钢,首钢,5 5 浦项浦项例:某公司在不同时期内的财务情况。例:某公司在不同时期内的财务情况。例:某年中国各省区电子及通信设备制造业创例:某年中国各省区电子及通信设备制造业
11、创新综合指数及要素指数脸谱图新综合指数及要素指数脸谱图 北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北湖南广东广西海南重庆四川贵州云南陕西甘肃宁夏新疆2.6星座图 由由WakimotoWakimoto和和TaguriTaguri于于19781978年提出,将所有样品点(高维空间年提出,将所有样品点(高维空间)投影到平面上的一个半圆内,用投影点表示样品点,由于直)投影到平面上的一个半圆内,用投影点表示样品点,由于直观上象天文学中的星座图像,故称为星座图。观上象天文学中的星座图像,故称为星座图。作图步骤为:作图步骤为:由于要把由于要把p p维点投射到维点投射到2 2维平面
12、,就要设定平面上的横纵坐标。维平面,就要设定平面上的横纵坐标。星座图采用角度和半径来确定其在星座图采用角度和半径来确定其在2 2维上的位置。维上的位置。111(1)0min1,1,maxminijijijijkjknijkjkjknknxxxinjpxx将数据变换为角度,使,借助极差标准化方法,如下:11(2),01ppjjj适当的选一组权系数,其中且。()1()()()1()1()()(3)(,)(,)cos1,1,sin(,)iiipkkkiikkijijjkkijijjPPpiiiiXxxikOUVUkpinViOUVZ对给定的第 个样品的观测值对应着一条折线路径和一个星星。第 个样品路
13、径的第 个折点坐标是第 个样品的星星位于路径的终点,其坐标为,记为。41画出一个半径为 的上半圆及半圆底边的直径。详细作图步骤为:详细作图步骤为:现代统计图形 谢益辉2.7小贴士 现有的统计图形主要有:饼图、直方图、条形图、茎叶图、箱线图、散点图、雷达图、玫瑰图、气泡图、QQ图、脸谱图、冰状图、树状图、等高图、三维透视图、因素效应图、平滑散点图、调和曲线图、棘状图、Cleveland点图、星状图、四瓣图、颜色图、马赛克图、符号图、热图、生存函数图、小提琴图、地图等。历史上著名的统计图形:1、霍乱传染之谜2、提灯女士的玫瑰图3、拿破仑俄罗斯远征(1812,Minard)拿破仑拿破仑俄罗斯远征俄罗
14、斯远征图图 被一些统计学家誉为“历史上最好的统计图历史上最好的统计图”简单的图示中包含了大量的统计信息,如行军路线和部队调遣、军队人数、气温、日期,再结合地图,使这场战争的主要过程完全展现在一张图中。1983年Edward R.Tufte出版了数量信息的形象展示(The Visual Display of Quantitative Information),盛赞此图,并提出“优图原则优图原则(Principles of Graphical Excellence)”最短的时间、最少的墨水、最小的篇幅传达最大量的信息,还有此原则的度量指标“数据墨水比数据墨水比率率(Data-ink Ratio)”用于数据的墨水量除以全图的墨水量。关于优秀的统计图,可以参看http:/www.math.yorku.ca/SCS/Gallery/historical.html,关于Edward R.Tufte的数据展示著作,可以参看http:/