1、数据科学与数据可视化简数据科学与数据可视化简介介01.01.大数据时大数据时代代第二届世界互联网大会开幕上,国家主席 习近平发表主旨演讲:以互联网为代表的信息技术日新月异,引领了 社会生产新变革,创造了人类生活新空间,拓 展了国家治理新领域,极大提高了人类认识世 界、改造世界的能力。强调互联网是人类的共同家园,各国应该共同 构建网络空间命运共同体,推动网络空间互联 互通、共享共治,为开创人类发展更加美好的 未来助力。中国正处在信息化快速发展的历史进程之中,中国将大力实施网络强国战略,让互联网发展 成果惠及13亿多中国人民,更好造福各国人 民。01.01.大数据时大数据时代代中国大数据产业峰会暨
2、中国电子商务创新发 展峰会2016上,国务院总理李克强在主 旨演讲中指出:【大数据、云计算、物联网能让欠发达地区把“无”生“有”】【我们有能力利用“新经济”模式保持中国经济 持续中高速发展】【只有共享经济,数据才能无限放大,发挥作用】【大数据是“钻石矿”人在干,数在转,云在 算】01.01.大数据时大数据时代代2017.1.22,CNNIC发布第39次中国互联网络发展状况统计报告,截至2016年12月:我国网民规模达7.31亿,中国网民规模已经相当于欧洲人口总量;普及率达到53.2%,超过全球平均水平3.1个百分点,超过亚洲平均水平7.6个百分点;手机网民占比达95.1%,线下手机支付习惯已经
3、形成;“.CN”注册保有量超过2000万,稳居全球国家顶级域名第一;三成网民使用线上政务办事,互联网推动服务型政府建设及信息公开;中国上市互联网企业数量达到91家,总市值突破五万亿;中国企业信息化基础全面普及,“互联网+”传统产业融合加速。01.01.大数据时大数据时代代什么是大数据01.01.大数据时大数据时代代大数据的五大特征01.01.大数据时大数据时代代我们处在一个信息爆炸的时代01.01.大数据时大数据时代代眼花缭乱的大数据市场琳琅满目的大数据处理工具01.01.大数据时大数据时代代02.02.数据科学简数据科学简介介数据科学(DataScience)的简单定义:将“现实世界”映射到
4、“数据世界”之后,在“数据层次”上研究“现实世界”的问题,并根据“数据世界”的分析结果,对“现实世界”进行预测、洞见、解释或决策的新兴 科学;以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等 为理论基础,主要研究数据预处理、数据管理、数据计算等活动的交叉性学科;以实现“从数据到信息”、“从数据到知识”和(或)“从数据到智慧”的转化为主要 研究目的的,以“数据驱动”、“数据业务化”、“数据洞见”、“数据产品研发”和(或)“数据生态系统的建设”为主要研究任务的独立学科;以“数据时代”,尤其是“大数据时代”面临的新挑战、新机会、新思维和新方法为核 心内容的,包括新的理论、
5、方法、模型、技术、平台、工具、应用和最佳实践在内的一 整套知识体系。02.02.数据科学简数据科学简介介主要研究内容 基础理论研究:数据的存在性、数据测度、时间、数据代数、数据相似性与簇论、数据 分类与数据百科全书等;实验和逻辑推理方法研究:建立数据科学的实验方法和假说和理论体系,并通过这些实 验方法和理论体系开展数据自然界的探索研究,从而认识数据的各种类型、状态、属性 及变化形式和变化规律,揭示自然界和人类行为现象和规律;领域数据学研究:将数据学的理论和方法应用于许多领域,从而形成专门领域的数据学 如:脑数据学、行为数据学、生物数据学、气象数据学、金融数据学、地理数据学等;数据资源的开发利用
6、方法和技术研究:人类的社会、政治和经济都将依赖于数据资源,数据资源是重要的现代战略资源,将成为最重要的人类资源之一。02.02.数据科学简数据科学简介介02.02.数据科学简数据科学简介介在数据科学中,各种符号(如字符、数字等)的组合、语音、图形、图像、动画、视频、多媒体和富媒体等统 称为数据(Data)。02.02.数据科学简数据科学简介介“数据”与“信息”“知识”和“智慧”02.02.数据科学简数据科学简介介数据的量级02.02.数据科学简数据科学简介介数据模型02.02.数据科学简数据科学简介介数据维度02.02.数据科学简数据科学简介介数据科学的内涵与特征(不同学科对大数据的 不同理解
7、)02.02.数据科学简数据科学简介介大数据时代基于数据的科 学与工程研究的十大变化02.02.数据科学简数据科学简介介大数据时代科学研究 新思维02.02.数据科学简数据科学简介介大数据时代工程开发新思维02.02.数据科学简数据科学简介介大数据时代的重要术语02.02.数据科学简数据科学简介介数据数据化化(Datafication)Google眼睛正眼睛正在在 数据化人们视数据化人们视觉觉 活活动动Twitter正在数正在数据据 化人们的思想化人们的思想动动 态态Linkedin正在数正在数据据 化人们的社会化人们的社会关关 系系02.02.数据科学简数据科学简介介大数据时代新术语02.0
8、2.数据科学简数据科学简介介计算密集型(Computer-Intensive)应用与数据密集 型(Data-Intensive)应用02.02.数据科学简数据科学简介介数据科学与相关学科02.02.数据科学简数据科学简介介研究流程02.02.数据科学简数据科学简介介研究内容框架02.02.数据科学简数据科学简介介研究原则02.02.数据科学简数据科学简介介数据科学项目研究开发流程02.02.数据科学简数据科学简介介数据科学的典型应用02.02.数据科学简数据科学简介介数据科学家()工程师 将“现实世界中的问题”映射或转换为“数据世界中的问题”之后,主要采用数据科学 的理念、原则、理论、方法、技
9、术、工具,通过将数据,尤其是大数据转换为知识和智 慧的过程,为解决“现实世界中问题”提供直接指导、依据或参考的高级专家。数据科学家(工程师)的主要工作 制定组织机构的数据战略,提出“好问题”;定义和验证研究假设,并完成对应实验;设计机器学习算法和统计模型,进行数据探索型分析;完成数据预处理工作;实现数据洞见,研发数据产品;可视化数据或数据的故事化描述02.02.数据科学简数据科学简介介数据科学家常用工具R、Python、Scala等数据科学语言工具SQL、RDMS、DW、OLAP等传统数据库和数据仓库工具NoSQL、MongoDB、Couchbase等NoSQL工具HadoopHDFS&Map
10、Reduce、Spark、Storm等支持大数据计算的工具HBase、Pig、Hive、Impala、Cascalog等支持大数据处理的工具Webscraper、Flume Avro、Sqoop、Hume等支持数据采集、聚合或传递的工具Weka、Knime、RapidMiner、SciPy、Pandas等支持数据挖掘的工具D3.js、Processing、ggplot2、Tableu、Gephi等支持数据可视化的工具SAS、SPSS、Matlab等数据统计分析工具管理、存储和查询的工具03.03.数据可视数据可视化化可视化(Visualization)定义是利用计算机图形学和图像处理技术,将数
11、据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术;用可视形式进行解释的动作或过程;形象化;计算机科学:利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术;使用图形传达信息03.03.数据可视数据可视化化人类历史上最有影响力的5张信息图 伦敦霍乱地图 作者John Snow 1854年伦敦爆发霍乱,10天内有500 人死去,但比死亡更加让人恐慌的是“未知”,人们不知道霍乱的源头和 感染分布。流行病专家John Snow意 识到,源头来自市政供水。John在地 图上用黑杠标注死亡案例,最终地图“开口说话”,显示大街水龙头是传 染源。这张信息图还使公众意识到城 市下水系统
12、的重要性并采取切实行动。03.03.数据可视数据可视化化人类历史上最有影响力的5张信息图 世界经济变迁 作者Rosling瑞典科学家Rosling研究全球经 济数据超过30年,但直到2007年 他在TED Talk上以可视化的方式 展示这些数据,人们才能真正领 略到他的数据研究的魅力。上图 是Rosling展示的大量经济数据图 表中的一张,直观展示了全球不 同国家和地区个人收入与人均寿 命之间的关系。03.03.数据可视数据可视化化人类历史上最有影响力的5张信息图 俄法战争 作者Charles Minard 1812年拿破仑率大军踏上征服莫 斯科的艰苦旅程,结果遭遇极端 天气,98%的士兵都冻
13、死在路上。50年后,当大多数法国人依然沉 浸在拿破仑的荣耀中时,巴黎的 工程师Charles Minard选择用数据 的方式告诉世人这场战争的残酷 性。信息图中的黑色粗线显示了 极端天气如何击败了拿破仑的军 队03.03.数据可视数据可视化化人类历史上最有影响力的5张信息图 战争死亡统计 作者Florence Nightingale1855年,在争夺巴尔干半岛控制权的克 里米亚战争中,英国军队与俄军和疾病 两线作战。作为一位护士,你如何说服 将军们投钱在医院和医疗设施上,而不 是枪炮弹药?伟大的FlorenceNightinggale(南丁格尔)用数据图表 的方式展示了那些可预防疾病(蓝色和
14、灰色区域)导致的惊人死亡数字。看过 南丁格尔的数据可视化信息图后,卫生 和医疗成了英国军队的头号要务。03.03.数据可视数据可视化化人类历史上最有影响力的5张信息图 人类文明的清明上河图 作者Joseph Priestley8世纪的一位博学的英语教师JosephPriestley设定了一个野心勃勃的目标:将人类历史上的国家、文明与重要历史 人物之间的关系集中展现出来。最终Joseph绘制了两个互相关联的人类文明 卷轴,第一张信息图标注了人类历史上2000个重要历史人物,第二张则绘制了 人类历史上国家和民族的变迁,两张图 使用相同的时间轴,可以叠加使用。03.03.数据可视数据可视化化 可视化
15、的作用 记录信息 分析推理 证实假设 交流思想 展示隐含模式03.03.数据可视数据可视化化 感知与认知基础感知:关于输入信号的本质;看见的东西认知:关于怎样理解和解释看到的东西 可视化致力于外部认知,也就是说,怎样利用大脑以外的资源来增强大 脑本身的认知能力;03.03.数据可视数据可视化化 视觉感知 就是客观事 物通过人的 视觉在人脑 中形成的直 接反映03.03.数据可视数据可视化化 认知过程 就是客观事物通过人的视觉在人脑中形成的直接反映;认知是包含注意力、记忆、产生和理解语言、解决问题,以及进行决策 的 心理过心理过程程 的组合;记忆在人类认知过程中起着至关重要的因素,但工作记忆容量
16、十分有限,可视化可以作为帮助增强工作记忆的工具可视化可以作为帮助增强工作记忆的工具;在可视化中突出变化,以减轻认知负担在可视化中突出变化,以减轻认知负担;人类视觉系统观察的是变化,而不是绝对值,并且容易被边界吸引人类视觉系统观察的是变化,而不是绝对值,并且容易被边界吸引;视觉由输入构建而来视觉由输入构建而来;03.03.数据可视数据可视化化 对比03.03.数据可视数据可视化化 幻视03.03.数据可视数据可视化化 迟滞现象03.03.数据可视数据可视化化 数据可视化流程03.03.数据可视数据可视化化 可视化编码法国制图学家 1918-“Semiology of Graphics”1967雅
17、克贝尔坦提出可视编码的理论原则:该理论确定了构成图形的基本 要素,并且描述了一种关于图 形设计的框架03.03.数据可视数据可视化化 各种可视化编码适 合的数据类型03.03.数据可视数据可视化化 可视化设计原则 全局优先 逐步细化03.03.数据可视数据可视化化 统计图表汇总折线图柱状图饼状图散点图盒须图03.03.数据可视数据可视化化可视化图例03.03.数据可视数据可视化化 常用可视化工具ExcelD3 Processing Gephi Google Chart APIR Visual.lyMany Eyes Baidu Echarts.03.03.数据可视数据可视化化谢谢大家谢谢大家!