1、第1章 走进大数据世界【学习目标】1.理解数据与信息的基本概念2.了解数据产业的发展和大数据市场前景3.理解大数据的基本概念、特性、产生的原因及应用的领域4.理解大数据处理和分析流程5.了解大数据的技术架构和常用技术工具思维导图【开篇故事】人机大战20年进化史(1)1997年5月11日,国际象棋世界冠军加里卡斯帕罗夫以 2.5:3.5(1胜2负3平)输给 IBM 的计算机程序“深蓝”。1997年 6月,深蓝在世界超级电脑中排名第259位,计算能力为每秒113.8亿次浮点运算。2013年6月17日中国国防科技大学研制的天河二号超级计算机,以每秒33.86千万亿次的浮点运算速度夺得头筹,中国“天河
2、二号”成为全球最快超级计算机。个人电脑i8处理器【开篇故事】人机大战20年进化史(2)AlphaGo VS 李世石2016年3月,阿尔法AlphaGo挑战世界围棋冠军李世石,比赛采用中国围棋规则,最终AlphaGo以4比1的总比分取得了胜利。AlphaGo涉及哪些技术关键词?思考与启示大数据和人工智能的关系?人工智能会取代人类大脑工作吗?目录6数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息1.1数据、信息与商业信息l 数据在传统的汉语词典中,数据解释为是算科学研究或技术设进行各种统计、算科学研究或技术设计等所依 据的数值。辞海中数据的解释是“电子计算机加工处理的对象。
3、广义的数据不仅仅是数值,而是人类社会活动中各种各样的记录。随着人类文明发展,数据记录越来越多,呈现了多样性和复杂性。l 信息信息在辞海中定义为音信或消息。在现在数据时代,我们把通过数据发现的包含有事物运动状态变化和特征的反映叫做信息。数据是信息的载体,而信息可以采用数据表示。数据与信息之间最明显的区别在于,数据只是纯粹的记录,而信息是具有实际商业意义的,是分析的结果和事物规律的反映。1.1数据、信息与商业信息l 商业信息商业信息则是指市场主体的特征、要求、意图、竞争部署、行为、方法等在市场上的反映。企业要将自然、社会、经济等商业信息以及企业自身积累的商业数据转化为知识,以确保企业做出正确、明智
4、的经营决策。商业信息分为:竞争信息、市场信息、和环境信息。l 商业信息的生成过程竞争信息市场信息环境信息1.1数据、信息与商业信息l 商业信息的特点生成过程实质上就是社会生产、交换、消费等经济活动的过程。除了一般信息共有的可传递性、可复制性、可共享性等特点,还具有多样性、零散性和实用性的特点。l 商业信息的搜集渠道 商品价格信息瞬息万变 商品的供求关系处在不断变动之中 商品的更新换代周期越来越短多变性 商品生产多以分散的企业为单位 商品信息经过各种社会传播渠道传播 传播存有片面、无序、虚假宣传等现象零散性 沟通社会生产、流通、消费等环节 贴近大众生活,有广泛的共享性。服务于不同用户的需求。实用
5、性日常工作公众媒体调查研究非正式渠道信息网络目录10数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息1.2数据产业的发展l 数据产业的发展历史1.2数据产业的发展数据单位1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024 EB1YB=1024 ZB1BB=1024 YB(ZB:十万亿亿字节)l 大数据时代的开始l 数据极速膨胀l 目前全球约有50亿部手机,其中20亿台为智能手机l Ebay每天处理的数据高达100PBl 一架波音737飞机横跨大陆飞行过程中会产生240TB的数据l 某大型
6、强子对撞机一年内积累的数据量就达到15PB左右l 微信、微博、抖音。每时每刻都在产生大量的数据1.2数据产业的发展目录14数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业信息1.3大数据的内涵l 大数据的定义“大数据”英文翻译“BigData”,源于未来学家阿尔文托夫勒的第三次浪潮Wiki:大数据是指利用常用软件工具捕获管理和处理数据所耗时间超过可容忍时间限制的数据集。麦肯锡:数据规模超出传统数据库管理软件的获取存储管理,以及分析能力的数据集称为大数据。Gartnet:不能够集中存储并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂
7、数据集。1.3大数据的内涵l 大数据的特征l 特性:Volume、Velocity、Velcity、Value1.3大数据的内涵产生大数据的三个阶段被动式产生数据主动式产生数据感知式产生数据1.数据的产生方式变得自动化2.数据产生融入每个人的日常生活3.图像和音频数据占比越来越大4.网络和音频视频数据所占比例越来越大5.云计算概念的出现进一步促进了大数据发展l 结构化、半结构化和非结构化三种1.3大数据的内涵l 数据主要来源:信息管理系统网络信息系统物联网系统科学实验系统1.3大数据的内涵l 大数据的应用领域及处理流程目录20数据产业的发展大数据的技术框架和常用工具大数据的内涵数据、信息与商业
8、信息1.4大数据的技术框架和常用工具l 大数据的技术框架1.4大数据的技术框架和常用工具l 大数据的整体技术数据采集数据存取基础架构数据处理统计分析数据挖掘模型预测结果呈现l 大数据的关键技术大数据 采集大数据预处理大数据存储及管理大数据安全技术大数据分析与挖掘大数据展现与应用l Hadoop是什么?由Apache基金会所开发的分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序。l Hadoop核心构成分布式文件系统HDFS资源管理系统YARN分布式计算框架MapReduce1.4大数据的技术框架和常用工具1.4大数据的技术框架和常用工具l Hadoop生态圈l Spar
9、k是什么?Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。l Spark特点轻量级快速处理:着眼大数据处理,速度往往被置于第一位。易于使用:Spark支持多语言,包括Java、Scala及Python等语言支持复杂查询:在简单的map及reduce操作之外,Spark还支持SQL查询、流式查询及复杂查询。实时的流处理:MapReduce只能处理离线数据,Spark支持实时的流计算。可以与Hadoop和已存Hadoop数据整合。活跃和无限壮大的社区1.4大数据的技术框架和常用工具1.4大数据的技术框架和常用工具l Spark生态圈1.4大数据的技术框架和常用工具l 市场分
10、析师的大数据分析工具R语言R语言正是目前应用最为广泛的数据挖掘与分析工具。R是统计学家使用最广泛的平台,统计专业人士提出的最新方法首先用R实现。R是用户建立的动态系统,关于R总有新的东西要学习。R代码是开放的,可以选择相信函数背后的代码,也可以随时核实。R是免费的。本章小结l 数据产业的发展l 大数据的产生l 大数据的概念与特性l 大数据的处理l 大数据的流程分析l 大数据的应用与前景【实验与思考】1.实验目的(1)深刻理解大数据技术的基本内涵。(2)熟悉大数据基本分析工具 R语言。2.工具/准备工作开始本实验之前,请认真阅读课程的相关内容。准备一台可以上网的计算机或者移动设备。【实验与思考】3.实验内容与步骤1)概念理解(1)大数据技术包括什么?(2)大数据处理的业务流程是什么?2)实验内容(1)下载并安装R语言及RStudio(2)基础散点图和直方图练习
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。