1、.大数据可视化张磊2015.7.28.可视化分支 一幅图胜过千言万语.人类从外界获得的信息约有80%以上来自于视觉系统,当大数据以直观的可视化的图形形式展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏的信息并转化知识以及智慧。.将196 个国家的35 万个网站数据整合起来,并根据200 多万个网站链接将这些星球通过关系链联系起来,每一个星球的大小根据其网站流量来决定,而星球之间的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接。.大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能
2、力,以获得对于大规模复杂数据集的洞察力(insight).信息可视化可以理解为编码(encoding)和解码(decoding)两个映射过程31:编码是将数据映射为可视化图形的视觉元素如形状、位置、颜色、文字、符号等;解码则是对视觉元素的解析,包括感知和认知两部分.一个好的可视化编码需同时具备两个特征:效率和准确性.效率指的是能够瞬间感知到大量信息,准确性则指的是解码所获得的原始真实信息.文本可视化 文本信息是大数据时代非结构化数据类型的典型代表,是互联网中最主要的信息类型,也是物联网各种传感器采集后生成的主要信息类型,人们日常工作和生活中接触最多的电子文档也是以文本形式存在.文本可视化的意义
3、在于,能够将文本中蕴含的语义特征(例如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直观地展示出来.典型的文本可视化技术是标签云,将关键词根据词频或其他规则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化.DAViewer将文本的叙述结构语义以树的形式进行可视化, 同时展现了相似度统计、修辞结构、以及相应的文本内容;DocuBurst以放射状层次圆环的形式展示文本结构.基于主题的文本聚类是文本数据挖掘的重要研究内容,为了可视化展示文本聚类效果,通常将一维的文本信息投射到二维空间中,以便于对聚类中的关系予以展示.ThemeRiver用河流作为隐喻,河流从左至
4、右的流淌代表时间序列,将文本中的主题按照不同的颜色的色带表示,主题的频度以色带的宽窄表示.基于河流隐喻,研究者又提出了TextFlow,进一步展示了主题的合并和分支关系以及演变. 其中将新闻进行了聚类,并以气泡的形式展示出来.社会媒体舆情分析是大数据典型应用之一,在对文本本身语义特征进行展示的同时,通常需要结合文本的空间、时间属性形成综合的可视化界面.网络数据可视化网络关联关系是大数据中最常见的关系,例如互联网与社交网络.层次结构数据也属于网络信息的一种特殊情况.基于网络节点和连接的拓扑关系,直观地展示网络中潜在的模式关系,例如节点或边聚集性,是网络可视化的主要内容之一.对于具有海量节点和边的
5、大规模网络,如何在有限的屏幕空间中进行可视化,将是大数据时代面临的难点和重点.除了对静态的网络拓扑关系进行可视化,大数据相关的网络往往具有动态演化性,因此,如何对动态网络的特征进行可视化,也是不可或缺的研究内容。.经典的基于节点和边的可视化,是图可视化的主要形式.图中主要展示了具有层次特征的图可视化的典型技术,例如H 状树H-Tree、圆锥树Cone Tree、气球图Balloon View、放射图Radial Graph、三维放射图3D Radial、双曲树Hyperbolic Tree 等.对于具有层次特征的图,空间填充法也是常采用的可视化方法,例如树图技术Treemaps及其改进技术.基
6、于矩形填充、Voronoi 图填充、嵌套圆填充的树可视化技术,Gou 等人综合集成了上述多种图可视化技术,提出了TreeNetViz,综合了放射图、基于空间填充法的树可视化技术.这些图可视化方法技术的特点是直观表达了图节点之间的关系。.大规模网络中,随着海量节点和边的数目不断增多,例如规模达到百万以上时,可视化界面中会出现节点和边大量聚集、重叠和覆盖问题,使得分析者难以辨识可视化效果.图简化(graph simplification)方法是处理此类大规模图可视化的主要手段: 一类简化是对边进行聚集处理,例如基于边捆绑(edge bundling)的方法,使得复杂网络可视化效果更为清晰,图10 展示了3 种基于边捆绑的大规模密集图可视化技术.此外,Ersoy 等人还提出了基于骨架的图可视化技术,主要方法是根据边的分布规律计算出骨架,然后再基于骨架对边进行捆绑; 另一类简化是通过层次聚类与多尺度交互,将大规模图转化为层次化树结构,并通过多尺度交互来对不同层次的图进行可视化.例如,图11 所示的ASK-Graphview能够对具有1 600 万条边的图进行分层可视化.时空数据可视化.多维数据可视化