学科服务与参考工作第四章-数据可视化基础.pptx

上传人(卖家):晟晟文业 文档编号:4104916 上传时间:2022-11-11 格式:PPTX 页数:72 大小:36.33MB
下载 相关 举报
学科服务与参考工作第四章-数据可视化基础.pptx_第1页
第1页 / 共72页
学科服务与参考工作第四章-数据可视化基础.pptx_第2页
第2页 / 共72页
学科服务与参考工作第四章-数据可视化基础.pptx_第3页
第3页 / 共72页
学科服务与参考工作第四章-数据可视化基础.pptx_第4页
第4页 / 共72页
学科服务与参考工作第四章-数据可视化基础.pptx_第5页
第5页 / 共72页
点击查看更多>>
资源描述

1、第四章数据可视化基础第 2 页竢实扬华,自强不息目 录CONTENT1 1数据可视化基本框架可视化的基本图表可视化理论发展可视化中的数据可视化设计原则3 35 52 24 4第 3 页竢实扬华,自强不息数据可视化不仅是一门包含各种算法的技术,还是一个具有方法论的学科。实际应用中需要采用系统化的思维设计数据可视化方法与工具。本节通过对数据可视化的基本流程和可视化设计所遵循的多层次模型的讨论,介绍数据可视化的基本框架。4.1数据可视化基本框架“”第 4 页竢实扬华,自强不息4.1.1数据可视化流程图4.1 科学可视化的早期可视化流水线科学可视化和信息可视化分别设计了可视化流程的参考结构模型,并被广

2、泛应用于数据可视化系统中。如图4.1所示,是科学可视化的早期可视化流水线,它描述了从数据空间到可视化空间的映射,包含串行处理数据的各个阶段:数据分析、数据滤波、数据的可视映射和绘制。这个流水线实际上是数据处理和图形绘制的嵌套组合。第 5 页竢实扬华,自强不息4.1.1数据可视化流程图4.2 信息可视化参考流程如图4.2展示了Card,Mackinlay和Shneiderman描述的信息可视化流程模型:将流水线改进成回路且用户的交互可以出现在流程的任何阶段。后继几乎所有著名的信息可视化系统和工具包都支持这个模型,而且绝大多数系统在基础层都兼容,只存在细微的实现差异。第 6 页竢实扬华,自强不息由

3、Jark Van Wijk等人提出的可视化循环模型模式探索第 7 页竢实扬华,自强不息图4.4 由C.Stolte等人提出的可视化循环模型第 8 页竢实扬华,自强不息4.1.1数据可视化流程图4.5 Daniel Keim等人提出的 可视化分析学标准流程可视分析学的基本流程则通过人机交互将自动和可视分析方法紧密结合。如图4.5所示,展示了一个典型的可视化流程图和每个步骤中的过渡形式。这个流水线的起点是输入的数据,终点是提炼的知识。从数据到知识有两个途径:交互的可视化方法和自动的数据挖掘方法。两个途径的中间结果分别是对数据的交互可视化结果和从数据中提炼的数据模型。用户既可以对可视化结果进行交互的

4、修正,也可以调节参数以修正模型。第 9 页竢实扬华,自强不息数据可视化流程中的核心要素包括三个方面。4.1.1数据可视化流程 数据可视化的基础是数据表示与变换。为了允许有效的可视化、分析和记录,输入数据必须从原始状态变换到一种便于计算机处理的结构化数据表示形式。有效表示海量数据的主要挑战是:采用具有可伸缩性和扩展性的方法,以便忠实地保持数据的特性和内容;将不同类型、不同来源的信息合成一个统一的表示,使得数据分析人员能及时聚焦于数据的本质。数据表示与变换第 10 页竢实扬华,自强不息l 将数据以一种直观、容易理解的方式呈现给用户。l 数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码

5、形式。l 判断某个视觉编码是否合适的因素:感知与认知系统的特性、数据本身的属性和目标任务。l 大量的数据采集通常是以流的形式实时获取,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。不仅要求可视化结果有一定的时间连贯性,还要求可视化方法达到高效以便给出实时反馈。需要强大的计算平台(分布式计算)、显示平台(一亿像素显示器)和交互模式(体感交互、可穿戴交互)数据的可视化呈现第 11 页竢实扬华,自强不息汽车品牌和所属国家。上:错误的柱状图;下:正确的散点图柱状图主要用于表达数值信息而不是分类信息,图中雪弗兰对应纵轴上中国、德国、美国等多个国家,并不合理。第 12 页竢实扬华,自强不息l

6、 对数据进行可视化和分析的目的是解决目标任务。目标任务可分为:生成假设、验证假设和视觉呈现。通过可视化能达到目标任务。l 交互是通过可视的手段辅助分析决策的直接推动力。l 适用于海量数据可视化的交互技术还是一个难题,其核心挑战是新型的可支持用户分析决策的交互方法。-涵盖底层的交互方式与硬件、复杂的交互理念与流程,克服不同类型的显示环境和不同任务带来的可扩充性用户交互第 13 页竢实扬华,自强不息4.1.2数据可视化设计图4.4 可视化设计的层次嵌套模型迭代式逐步求精过程数据可视化的设计简化为四个级联的层次。第一层(最外层):问题刻画层。刻画真实用户的问题。第二层:抽象层。将特定领域的任务和数据

7、映射到抽象且通用的任务及数据类型。第三层:编码层。设计与数据类型相关的视觉编码及交互方法。(核心)第四层(最内层):算法实现层。创建正确完成系统设计的算法。第 14 页竢实扬华,自强不息数据可视化将数据变换为易于感知的可视编码。为了精准地通过数据的可视表达传播信息,需要研究数据的分类机器对应的可视编码方法4.2可视化中的数据“”第 15 页竢实扬华,自强不息4.2.1 数据认知l 人们对数据的认知,一般都经过从数据模型到概念模型的过程,最后得到数据在实际中的具体语义。l 数据模型是对数据的底层描述及相关的操作。在处理数据时,最初接触的是数据模型。l 概念模型是对数据的高层次描述,对应于人们对数

8、据的具体认知。概念模型的建立跟实际应用紧密相关。l 对数据进行进一步处理之前,需要定义数据的概念和它们之间的联系。同时定义数据的语义和它们所代表的含义。例如,一组数据:7.8、12.5、14.3首先被看成一组浮点数据,可以应用;“白、黄、黑”视为一组根据颜色分类的数据。第一组数据给从概念模型出发定义为某天的气温值,从而赋予具体语义,并进行下一步分析;第二组数据表示为一组人群中的不同肤色。第 16 页竢实扬华,自强不息4.2.2数据类型表4.1 赛跑比赛排名数据根据数据分析要求,不同的应用可以采用不同的数据分析方法。例如,根据数据模型,可以分为浮点数、整数、字符等;根据概念模型,可以定义数据所对

9、应的实际意义或者对象,例如汽车、摩托车、自行车等分类数据。在科学计算中,通常根据测量标度,将数据分为四类(见表4.1):类别型数据(性别)、有序型数据(排名)、区间型数据和比值型数据。在数据可视化中,我们通常并不区分区间型数据和比值型数据,将数据类型进一步精简为三种:类别型数据、有序型数据和数值型数据。排名姓名时间性别1小赵3分10秒男2小钱3分12秒男3小孙3分18秒男4小李3分40秒女5小周3分52秒男6小吴4分10秒女第 17 页竢实扬华,自强不息l 类别型数据:用于区分物体。例如,男性女性,苹果香蕉橘子等。这些类别可以用于区分一组对象,但是无法提供对象的定量数据。l 有序型数据:用来表

10、示对象的顺序关系。例如,排名为1的运动员比排名为2的运动员跑得更快。根据对象顺序,并不一定能得到准确的定量比较。例如,小赵和小钱的跑步成绩差别并不一定等于小周和小吴间的差别,虽然都是相差1.无法进行定量差别比较。l 区间型数据:用户得到对象间的定量比较。相比有序型数据,能提供详细的定量信息。例如,10度和20度的差别50度和60度的差别。但是,区间型数据基于任意的起始点,所以只能得到对象的相对差别,并不能定义对象的绝对值。例如,0度并不表示没有任何温度。l 比值型数据:用于比较数值间的比例关系。比值型数据基于真正意义上的0点,可以用来精确的定义比例4厘米的物体比2厘米的物体长2倍。跑步成绩属于

11、比值型数据。第 18 页竢实扬华,自强不息不同数据类型使用不同的操作算子区分度算子:=类别型数据、有序型数据、区间型数据、比值型数据序别算子:有序型数据、区间型数据、比值型数据加减算子:+区间型数据、比值型数据乘除算子:比值型数据不同数据类型对应不同的操作集合和统计计算数据类型进一步精简为三种:类别型数据、有序型数据和数值型数据。基础的可视化设计和编码一般针对这三种,复杂型数据通常是这三类数据的组合或变化。第 19 页竢实扬华,自强不息不同类型的数据及其所对应的操作计算第 20 页竢实扬华,自强不息l 统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的

12、大型可视化系统来说,这类图表更是作为基本的组成元素而不可缺少。l 本节介绍一些基本图表及其属性和适用的场景。通过实例介绍,读者能了解和认识可视化设计所遵循的准则。4.3可视化的基本图表“”第 21 页竢实扬华,自强不息01数据轨迹02柱状图03直方图04饼图4 饼图饼图采用了饼干的隐喻,用环状方式呈现各分量在整体中的比例。这种分块方式是环状树图等可视表达的基础。2 柱状图柱状图采用长方形的形状和颜色编码数据的属性。堆叠图(stacked graph):柱状图的每根直柱内部用像素编码。3 直方图直方图是对数据集的某个数据属性的频率统计。双直方图将两个数据集的频率统计信息(即直方图)分别沿横轴对称

13、呈现。直方图可以扩展到多维。1 数据轨迹数据轨迹是一种标准的单变量数据呈现方法:x轴显示自变量;y轴显示因变量。可直观呈现数据分布、离群值、均值的偏移等。4.3.1 原始数据绘图用于可视化原始数据的属性值,直观呈现数据特征,代表性(九种)第 22 页竢实扬华,自强不息数据轨迹Twitter舆情系统根据用词的贬褒程度对公司的打分。比较了美国网络影视服务和租赁商的分数,为多个数据集的单变量数据轨迹,日期是自变量,分数是因变量。股票K线图,时间是自变量,股指是因变量第 23 页竢实扬华,自强不息柱状图标准柱状图堆叠图,不同国家的不同能源消耗量第 24 页竢实扬华,自强不息直方图直方图(histogr

14、am)VS 柱状图(bar chart):直方图的各个部分之和等于单位整体,而柱状图的各个部分之和没有限制。第 25 页竢实扬华,自强不息直方图双直方图第 26 页竢实扬华,自强不息5 等值线图等值线图使用相等数值的数据点连线来表示数据的连续分布和变化规律。等值线图中的曲线是空间中具有相同数值的数据点在平面上的投影。平面地图山的地形等高线、等温线、等湿闲等都是等值线图在不同领域的应用。6 走势图走势图是一种紧凑简洁的数据趋势表达方式,它通常以折线图为基础,用来表示数据随某一变量(时间、空间)变化趋势。大小与文本相仿,往往直接嵌入在文本或表格中。7 散点图散点图是表示二维数据的标准方法。在散点图

15、中,所有数据以点的形式出现在笛卡尔坐标系中,每个点所对应的横纵坐标即代表该数据在坐标轴所表示维度上的属性值大小。散点图矩阵是展现高维数据属性分布,可以通过尺寸、形状和颜色等编码信息。8 维恩图维恩图使用平面上的封闭图形来表示数据集合间的关系。维恩图在一张平面上表示集合间的所有逻辑关系,被广泛用于集合关系展示。4.3.1 原始数据绘图05 0607 08第 27 页竢实扬华,自强不息二维高斯分布的立体图和平面等值线图第 28 页竢实扬华,自强不息走势图走势图常用于商业数据表达,如股票走势、市场行情等。和数据轨迹图类似,但是尺寸更小。第 29 页竢实扬华,自强不息散点图矩阵第 30 页竢实扬华,自

16、强不息维恩图四集合维恩图的不同画法319 热力图(Heat map)热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置关系排列,每个数据点的颜色编码数据大小,如图4.17所示:第 31 页竢实扬华,自强不息4.3.1 原始数据绘图图4.17 使用热力图表示杭州市公共自行车租车点的繁忙程度(由红色至绿色递减)第 32 页竢实扬华,自强不息4.3.2简单统计值标绘图4.6 盒须图的标准表示(左图)及其若干变种 盒须图是John Tukey发明的通过标绘简单的统计值来呈现一维和二维数据分布的一种方法。它的基本形式是用一个长方形盒子表示数据的大致

17、范围(数据值范围的25%75),并在盒子中用横线标明均值的位置。同时,在盒子上部和下部分别用两根横线标注最大值和最小值。盒须图在实验数据的分析中非常有用。针对二维数据,标准的一维盒须图可扩充为二维盒须图。(见图4.6)第 33 页竢实扬华,自强不息第 34 页竢实扬华,自强不息4.3.3 多视图协调关联多视图协调关联(multiple coordinated views)将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。在多视图协调关联应用中,“选择”操作作为一种探索办法,可以是对某个对象和属性进行“取消选择”的过程,

18、也可以是选择属性的子集或对象的子集,以查看每个部分之间的关系的过程。第 35 页竢实扬华,自强不息探索式基因可视分析过程MizBee的设计基于知觉原则,包括几种技术,如边缘捆绑和分层,以增强与接近度,大小,相似性和方向相关的保护关系的视觉提示。第 36 页竢实扬华,自强不息如图所示,总结了根据分析需求可采用的统计可视化方法。图 基本的统计图表可视化方法和适用规则第 37 页竢实扬华,自强不息可视化的首要任务是准确地展示和传达数据所包含的信息。在此前提下,针对特定的用户对象,设计者可以根据用户的预期和需求,提供有效辅助手段以方便用户理解数据,从而完成有效的可视化。4.4可视化设计原则“”第 38

19、 页竢实扬华,自强不息设计一个可视化视图包括三个主要步骤:-确定数据到图形元素(即标记)和视觉通道的映射;-视图的选择与用户交互控制的设计;-数据的筛选,即确定在有限的可视化视图空间中选择适当容量的信息进行编码,以避免在数据量过大情况下产生的视觉混乱。即可视化结果中要保持合理的信息密度。为提高可视化结果的有效性,可视化设计还包括颜色、标记、动画的设计等。第 39 页竢实扬华,自强不息4.4.1数据到可视化的直观映射图 基本数据类型适用的可视化编码方式(优先级自上而下)在选择合适的数据到可视化元素(标记和视觉通道)的映射时,设计者首先需要考虑的是数据的语义和可视化用户的个性特征。一般而言,可视化

20、的一个核心作用是使用户在最短的时间内获取数据的整体信息和大部分细节信息,这通过直接观察数据显然无法完成。数据到可视化元素的映射需充分利用已有的先验知识,从而降低人们对信息的感知和认知所需要的时间。对于基本数据类型,可以通过使用不同的视觉编码通道来表达数据及其之间的关系。(见图)第 40 页竢实扬华,自强不息4.4.1数据到可视化的直观映射图4.9 使用散点图的形式可视化行星到太阳的距离和行星公转时间实际应用中的数据通常是基础数据类型的实例和组合,其可视化方法一般为采用基于不同视觉编码通道的组合。如图4.9所示的可视化设计使用的是散点图,在点标记的选择上设计者使用了众所周知的一些纹理贴图以表示不

21、同的行星,用横轴表示距离,纵轴表示公转时间,同时使用了标签对各行星的数据进行标注。第 41 页竢实扬华,自强不息可视化系统也可以向用户提供一些灵活特性。例如,左图将时间和空间分别映射为横轴和纵轴,可以呈现时空演化的事件。图:复活节前一周耶稣活动记录可视化。全周时间沿横轴从左到右布局,灰色长块区域表现了空间,不同颜色的管道线的位置远近编码了人物之间的互动。第 42 页竢实扬华,自强不息4.4.2 视图选择与交互设计对于简单的数据,使用一个基本的可视化视图就可以展现数据的所有信息;对于复杂的数据,就需要使用较为复杂的可视化视图,甚至为此发明新的视图,以有效的展示数据中所包含的信息。一般而言,一个成

22、功的可视化首先需要考虑的是被用户所广泛认可并熟悉的视图设计。此外,可视化系统还必须提供一系列的交互手段,使得用户可以按照自己满意的方式修改视图的呈现形式。第 43 页竢实扬华,自强不息数据缩放和裁剪工具在对数据进行可视映射之前,用户通常会对数据进行缩放并对可视化数据的范围进行必要的裁剪,从而控制最终可视化的数据内容。LOD控制细节层次(level-of-detail)控制有助于在不同的条件下隐藏或者突出数据的细节部分。0504滚动与缩放当数据无法在当前有限的分辨率下完整展示时,滚动与缩放是非常有效的交互方式。颜色映射的控制调色盘是可视化系统的基本配置。同样,允许用户修改或者制作新的调色盘也能增

23、加可视化系统的易用性和灵活性。数据映射方式的控制在可视化设计时,设计者首先需要确定一个直观且易于理解的数据到可视化的映射。(见后图)02034.4.2 视图选择与交互设计视图的交互主要包括以下一些方面:01第 44 页竢实扬华,自强不息4.4.2 视图选择与交互设计实际使用过程中,用户仍有可能需要转换到另一种映射方式来观察他们感兴趣的其他特征。因此,完善的可视化系统在提供默认的数据映射方式前提下,仍需保留用户对数据映射方式的控制交互。如图所示,可视化使用了两种不同的数据映射方式展示了同一个数据。图 用散点图和平行坐标图对一个4维数据进行可视化第 45 页竢实扬华,自强不息4.4.3 信息密度数

24、据的筛选在确定了数据到可视化元素的映射和视图与交互的设计后,信息可视化设计的另一个关键挑战是:设计者必须决定可视化视图所需要包含的信息量。(数据墨水比是衡量信息可视化的表达效果)失败的可视化案例主要存在两种极端情况:第一种极端情况是可视化展示了过少的数据信息;可视化只是辅助用户认识和理解数据的工具,可视化过少的数据信息并不能给用户理解数据带来好处。第二种极端情况是设计者试图表达和传递过多的信息。包含过多信息增加视觉复杂度,造成用户难以理解。第 46 页竢实扬华,自强不息4.4.4美学因素图 一个不完整的可视化结果与一个完整的可视化结果在可视化设计中,仅仅完成上述三个步骤仍然无法形成有效的可视化

25、,用户可能仍然无法从可视化结果中获取足够的信息,以判断和理解可视化所包含的内容。例如,左图只是简单地完成了数据到可视化(位置和颜色)的映射,然而在用户看来,它仅仅是几条不同颜色的曲线;右图则是一个较完整的可视化,通过增加坐标轴、颜色和尺寸等的标注和说明,用户就能知道这10条曲线的信息含义。第 47 页竢实扬华,自强不息4.4.4美学因素图 一个不完整的可视化结果与一个完整的可视化结果图展示了网格及其标注是否被合理使用的例子。在(a)和(c)中,分别由于网格的过多使用和过少使用,使得可视化结果在缺少数据表达的精确性的同时也缺失了美观性,而(b)中通过网格的合理使用,数据所映射的点能够被用户很好地

26、理解。第 48 页竢实扬华,自强不息4.4.4美学因素图4.13 网格间距的正确使用例子网格所表示的区间的均匀性对于用户对可视化的理解也非常重要。图4.13左图所示的可视化结果中由于设计者使用了不均匀的网格间距(横轴)和非零的起始位置(纵轴),使得用户对可视化结果的理解很难忠于原始数据所包含的信息。第 49 页竢实扬华,自强不息 可视化中,颜色是使用最广泛的视觉通道,也是经常被过度甚至错误使用的一个重要的视觉参数。使用错误的颜色映射表或者视图使用很多不同的颜色表示大量数据属性,都可能导致可视化结果的视觉混乱。另外,由于人的感知判断是基于相对判断的,特别对颜色的感知,因此进行颜色选取的时候也需要

27、特别谨慎。在某些可视化领域,可视化的设计者还要考虑色觉障碍用户的因素,使得可视化结果对这些用户依然能够起到信息的表达与传递的功能。第 50 页竢实扬华,自强不息4.4.4美学因素图4.14 可视化元素的平衡分布在可视化设计的方法学中,提高可视化的美学性方法主要有:聚焦:设计者必须通过适当的技术手段将用户的注意力集中到可视化结果中的最重要区域。(前向注意力)平衡:平衡原则要求可视化的设计空间必须被有效地利用,尽量使重要元素置于可视化设计空间的中心或中心附近,同时确保元素在可视化设计空间中的平衡分布。简单:简单原则要求设计者尽量避免在可视化中包含过多的造成混乱的图形元素,也要尽量避免使用过于复杂的

28、世界效果。最终找到可视化结果美学特征与传达的信息含量的平衡。在图4.14中,左图将主要的可视化元素置于视图空间的右上角,违背了平衡原则。4.4.5动画与过渡 信息可视化的结果主要以两种形式存在:可视化视图与可视化系统。前者通常是图像,是相关人员进行交流的载体形式;后者则创建了一个终端用户(包括设计者和一般用户)与数据进行交互的系统环境,使得用户可以根据自己的意图选择合适的可视化映射和可视化信息密度,并通过系统提供的交互生成最终的可视化视图或可视化视图序列。动画与过滤效果是可视化系统中常用的技术,它通常被用于增加可视化结果视图的丰富性与可理解性,或增加用户交互的反馈效果。例如,对于时变的科学数据

29、,采用科学可视化方法逐桢绘制每个时刻的数据,可重现动态的物理或化学演化规律。在可视化系统中,动画与过渡效果的功能可概括如下:第 52 页竢实扬华,自强不息4.4.5 动画与过渡 1.用时间换取空间,在有限的屏幕空间中展示更多的数据当数据包含多个维度时,需要通过多个视觉通道编码不同的维度信息,此时如果采用动画的方式编码随着时间演进而产生的数据值变化,则可以在有限的视图空间上展示更多的信息,同时也确保任何单一时刻时可视化结果对有限视图空间的充分利用。案例:儿童死亡率与收入的关系与变化(GapminderFlash_MDG4_07jan09)第 53 页竢实扬华,自强不息2.辅助不同可视化视图之间的

30、转换与跟踪,或者辅助不同可视化视觉通道的变换用户在浏览可视化数据的过程中需要在不同的视图之间进行切换,使用动画效果辅助视图切换过程有助于用户跟踪在不同可视化视图中出现的相同元素。采用动画切换技术,可以减轻视图变换给用户带来的“冲击”,避免用户在转换过程纵迷失,方便用户跟踪数据的信息。从柱状图过渡成饼图的动画序列的几帧截图,避免两种可视化编码切换所带来的视觉“冲击”第 54 页竢实扬华,自强不息3.增加用户在可视化系统中交互的反馈效果 实时的反馈效果有助于用户获得对其所做操作的确认,以避免用户盲目地重复操作。例如,一个简单的进度条可让用户知道处理进展;当用户鼠标经过散点图的某个点时,物体在很短的

31、时间内(200ms)产生一个光晕动画,表示该物体能被点选或进行其他操作。4.引起观察者注意力 动画作为视觉通道包括了运动的方向、运动的速度和闪烁的频率等。由于闪烁等动画效果很难被人眼忽视,因此,当有特别重要的信息需要被观察者捕捉时,对标记进行闪烁是一个不错的选择。也正因为如此,在可视化中动画作为视觉通道必须小心谨慎地使用。第 55 页竢实扬华,自强不息4.4.6可视化隐喻 在解释或者介绍人们不熟悉的事物和概念的时候,常常将其与一个人们所熟悉的事物进行比较来帮助理解,这样的手法称为隐喻(metaphor)。隐喻的设计包含三个层面:隐喻本体、隐喻喻体和可视化变量。本体和喻体之间存在某种关联或相似性

32、。在可视化中也常常使用这样的方法,将需要介绍的事物和概念用人们所熟知的事物的视觉形态来呈现。时间隐喻和空间隐喻是可视化隐喻中最常见的两类方式。选取合适的源域和喻体表示时间和空间概念,能创造最佳的可视和交互效果。第 56 页竢实扬华,自强不息第 57 页竢实扬华,自强不息4.4.7 颜色与透明度 颜色在数据可视化领域通常被用于编码数据的分类或定序属性。当颜色的两种数据编码规则在用户所见的视图空间中存在相互遮掩时,可视化的设计者必须从中选择一种予以显示。为了便于用户在观察和探索数据可视化时从整体进行把握,可以给颜色增加一个表示不透明度的分量通道,通常也称为通道,用于表示离观察者更近的颜色对背景颜色

33、的透过程度。-当颜色的值为1时,表示不透过任何背景颜色,即颜色是不透明的;-当颜色的值为0时,表示该颜色是透明的;-当颜色的值介于0和1之间时,表示该颜色可以透过一部分背景的颜色,从而实现当前颜色和背景颜色的混合,创造出可视化的上下文效果。颜色混合可以在一定程度上避免两种数据编码规则的遮挡问题,便于抓住数据的特征,提高用户的交互体验。但也容易导致颜色视觉通道的失效,要慎用颜色混合。第 58 页竢实扬华,自强不息 对于一门学科而言,目前可视化还处于发展阶段,研究者在不断探索和发展可视化理论,试图建立不同的模型,对可视化进行规则的描述。4.5可视化理论发展“”第 59 页竢实扬华,自强不息4.5.

34、1 图形符号学表 Bertin的图形词汇Bertin使用符号学来描述图形,提出了信息的可视化编码原则,并严格地定义了二维图形及其对信息的表达过程。他将图形系统严格区分为内容(所要表达的信息和数据)和载体(图形符号)。在此框架下,图形(可视化)由传输不同信息的图形符号组成。图形符号用视觉变量描述,包括位置变量和视网膜变量。如表4.2所示:基于基本元素(点线面)的组合可以产生各类图形的视网膜变量。在此基础上,视网膜变量可以表达不同层次的组织,且变量之间存在关联性、选择性、有序性和定量性。图形符号点、线和面位置变量二维平面上的位置视网膜变量尺寸、数值、纹理、颜色、方向和形状第 60 页竢实扬华,自强

35、不息层次变量关联性选择性有序性定量性平面YYYY大小YYY数值YY纹理YYY颜色YY方向YY形状Y表 不同视网膜变量对应的层次组织 关联性:根据属性可找出图形符号对应关系,并进行分类;选择性:根据属性可找出图形符号所属类别;有序性:根据属性可对图形符号进行排序;定量性:根据属性可从图形符号推导出比例关系或者距离第 61 页竢实扬华,自强不息4.5.1 图形符号学Bertin提出的视觉变量标记形式点线面通道位置尺寸灰阶值纹理色彩方向形状第 62 页竢实扬华,自强不息4.5.2 关系数据的图形表示1986年,Mackinlay提出了一种可从数据库中自动提取信息并用图形方式显示的技术。和Bertin

36、的理论相似,这种可视化技术采用二维静态表达方式,如散点图和网络图。区别在于Mackinlay试图用图形语言描述和定义可视化的表达。Mackinlay提出:图形语言需要满足表达性和有效性,表达性指图形语言必须能够表达所需的信息;有效性指对于给定情况,图形语言必须有效的使用显示介质和人的视觉系统。图形符号点、线和面位置变量一维、二维和三维时间变量动画视网膜变量颜色、形状、尺寸、饱和度、纹理和方向表4.3 Mackinlay的图形词汇Mackinlay提出了一套基本的图形语言和组合算子,在这些元素的基础上可通过运算构造出更高级的图形表达。基于Bertin的理论,Mackinlay提出了新的图形词汇(

37、见表4.3)第 63 页竢实扬华,自强不息以及初级图形语言的基组(见表4.4)并定义了三个用于合并两个表达相同信息的图形句子的原则:-双轴合并:合并的图形句子具有相同的横轴和纵轴。-单轴合并:对齐图形句子中相同的横轴或者纵轴。-图形合并:对齐图形句子中的图形。编码技术基本图形语言视网膜变量颜色、形状、尺寸、饱和度、纹理和方向单个位置横轴、竖轴拼接位置曲线图、柱状图、散点图地图道路图、地形图链接树、图、网络杂项饼图、维恩图表4.4 Mackinlay的初级图形语言的基组Mackinlay的创新之处是进一步提出了表达性和有效性原则,并且提供了更为严格的图形语言描述第 64 页竢实扬华,自强不息Ma

38、ckinlay提出的视觉变量4.5.2 关系数据的图形表示第 65 页竢实扬华,自强不息4.5.3 图形语法表4.5 Wilinson的语法规范Wilkinson提出了一种底层设计图形生成语言,可用于构造不同类型的统计图形。图形的构造过程分为三个阶段:规范定义、组装和显示。其中,规范定义是整个语法的基础,描述了不同图形对象间的转变和最终图形显示映射。整个语法规范由7个部分组成(见表4.5)。其中,数据和转换定义在数据空间;框架、标度和坐标定义了底层的图形几何和数据的空间位置;图形定义了不同的图形对象。数据从数据集中生成变量的数据操作转换数据变量间的转换框架变量空间,包括变量间的操作标度标度转换

39、坐标坐标系统图形图形及其美学属性参考用于图形对象间的对齐、分类和比较等第 66 页竢实扬华,自强不息形式表面运动声音文字位置堆叠躲避扰动尺寸形状多边形符号图片旋转颜色色相亮度饱和度纹理图案粒度方向模糊透明度方向速度加速音调声响节奏语音标签Wilkinson也定义了标准图形和美学属性。其中,标准图形对应于Bertin 的图形符号,美学属性对应Bertin的视网膜变量。Wilkinson的美学属性Wilkinson提出两个重要的可视化概念数据和它们的视觉表达应该被区分(类似于Bertin的内容和载体的分离)可应用不同的算子构造数据变量的可视化。即可采用融合+等算子从各类数据变量出发定义复杂的图形空

40、间,并通过缩放映射岛显示视图。第 67 页竢实扬华,自强不息4.5.4 基于数据类型的研究l 一维:一维数据指由字母或文字组成的线性数据,如文本文件、程序源代码等。可视化设计主要针对文字、选择字体、颜色、大小和显示方式。用户需求一半是搜索文本或者数据项,以及相关属性。l 二维:二维数据主要是平面或地图数据,例如地理地图、平面图或报纸版面等。数据集中每一项对应二维平面上的某些区域,每个区域附加多种属性,例如名称、所有者、数值、大小、颜色、透明度等。用户需求一般搜索某些区域、路径、地图放大或缩小、查询某些属性。l 三维:三维数据指三维空间中的对象,例如分子、人体以及建筑物。数据集包含三维对象和对象

41、之间的关系。用户需求主要是了解对象的属性和对象间的关系。Shneiderman从数据类型出发研究信息可视化过程,将数据分为7类。第 68 页竢实扬华,自强不息l 时间:时间数据广泛存在于不同的应用中,例如医疗记录、项目管理或历史介绍。数据集中的每一项包含时间信息,如开始和结束时间。用户潜在的信息需求是搜索在某些时间或时刻之前、之后或之中发生的事件,以及相应的信息和属性。l 多维:多维数据中的每一项数据拥有多个属性,可以表示为高维空间的一个点。常见传统的关系或统计数据库应用中。用户需求包括寻找特征、聚类、变量之间的相关性、差距及离群值等。l 树:表示层次关系。在树结构中,每一项数据可以连接到另一

42、个父项(除了根节点)。每个数据项,以及父项和子项之间的连接,可以有多种属性。基于这些数据项和之间的连接,可定义不同的分析任务,如统计树的层数、每一个数据项的子项数目。l 网络:表达连接和关联关系。与树数据类似,数据项和连接关系可以有多种属性,并定义一些基本任务。节点连接图以及连接矩阵是常见的网络可视化形式。69 大多数研究以数据为中心来构建信息可视化技术。与这些研究不同,Chi从数据状态模型出发,将可视化技术分解为四个数据转换阶段和三种数据转换操作。不同阶段对应不同的算子。-四个不同的数据阶段:数值、分析抽象表达、可视化抽象表达和视图。-三种数据转换操作为:数据转换、可视化转换和视觉映射转换。

43、第 69 页竢实扬华,自强不息4.5.5 基于数据状态模型的研究第 70 页竢实扬华,自强不息数值视图可视化抽象表达分析抽象表达数据转换视觉映射转换可视化转换数值算子分析算子可视化算子视图算子信息可视化的数据状态参考模型阶段描述数值 原始数据分析抽象表达关于数据(信息)的数据,即元数据可视化抽象表达使用可视化技术,在屏幕上显示的可视信息视图可视化映射的最终产品,用户可通过其看到和解释所展示的图片。处理步骤描述数据转换从值中生成一些分析抽象表达(通常通过提取)可视化转换从分析抽象中获取可视化抽象形式,即为可视化内容视觉映射转换将信息转换为可视化形式,并显示为图形视图。解释714.5.6 多维关系

44、数据库可视化分析系统 Polaris系统可支持大规模多维关系型数据库的查询、分析和可视化,完成关系型数据库中的主要挑战:发现结构和模式,获得因果关系。Polaris提供了针对关系型数据库的接口,可快速递增式地生成图表式可视化。与Wilkinson的工作类似,Polaris系统也支持不同的算子,如连接、叉乘和嵌套,支持数据和图形的运算。不同在于,Wilkinson模型不支持关系模型。在实现可视化映射时,Polaris 系统采用了类似Bertin的视网膜变量的思路,定义了四种视觉变量:形状、尺寸、方向和颜色。第 72 页竢实扬华,自强不息性质 标识符号 有序型和数值型 数值型图元Pol aris 使用的视觉变量和可视化编码

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(学科服务与参考工作第四章-数据可视化基础.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|