1、BIG DATABIG DATA 导论目录1.1大数据涌现1.2什么是大数据1.3大数据结构类型1.4大数据商业模式变革第一章 大数据基础大数据涌现1.1.1.大数据时代的技术基础管理模式变革信息技术(IT)向数据技术(DT)的转变1。技术发展范式“技术革命始于大爆发,前半阶段是安装阶段,先后经历剧增繁殖期和狂热期,后半阶段是部署阶段,先后经历了狂热阶段与成熟期”英国演化经济学家卡罗塔佩雷斯绘制了经济-技术范式演化的四个阶段大数据时代技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变从大型计算机的诞生、微机的产生、浏览器的出现、网络时代和大数据时代交叠与发展,阿里研究院依据国家统
2、计局的数据绘制了近几十年内技术发展的不同时期,反映出随着时间的推移和新技术的推出,数值被利用的程度。左图说明了技术的扩散和蔓延及大数据的产生。技术发展范式技术曲线-Gartner Group大数据时代技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变技术变革特征20世纪末的IT技术的老四大件,包括硬件、软件、通讯和网络已经在我们生活和社会中发挥着脊梁作用。现在人们所处的时代又开始深度运用技术,新的四大件称为由大数据、云计算、移动商务和社交网络组成的新的技术特征主宰者日常生活和驾驭各个组织的运营。从技术发展和应用的特征中把握竞争优势。IT-enabled Innovation一切I
3、T IT技术、IT IT系统(ERPERP、CRMCRM、社会化媒体等等)在信息系统专业中均和创新有关 技术/数据/系统本身具有创新潜力 产品创新、业务流程创新 和其他专业区分开来,比如计算机科学、市场营销等计算机网络数据处理与 分析、大数据计算机硬软件终端桌面移动与无线网智能技术与IOT云计算IT enabledApplications:如ERP,CRM、SCM、电子商务、网络营销、APP.IT应用使能结果运运营创营创新新产产品品/服服务创务创新新战战略略创创新(商新(商业业模式)模式)管理管理创创新新IT使能的创新讨论题:当今,新技术和管理模式的关系?大数据时代2。物联网技术变革特征管理模
4、式变革信息技术(IT)向数据技术(DT)的转变物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,也就是物物相关Internet of Things(IoT)智能社区你家的冰箱可监控冰箱里面的东西,并给出重新贮备建议。(拥有联网功能的冰箱已经出现在市面上,包括三星推出的一款联网冰箱,不过目前市场似乎缺乏需求。)使用来自云计算环境的数据,你的汽车就能跟踪它去过哪里、要去哪里,预测接下来开往哪里,如果你想询问最近的加油站在哪里,它随时可以提供建议(丰田和微软已经开发在这样的服务。)大数据时代物联网技术变革特征管理模式变革信
5、息技术(IT)向数据技术(DT)的转变物联网通过智能感知、识别技术与普适计算等通信感知技术,广泛应用于网络的融合中,世界信息产业发展的第三次浪潮。物联网是互联网的应用拓展,与其说物联网是网络,不如说物联网是业务和应用。利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化、远程管理控制和智能化的网络。大数据时代3。云计算技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变云计算的发展为整合打通业务系统、聚合数据提供了技术支撑网络公司提出了以数据为核心,以云中心、云服务、云数据、云伙伴为四大方向企业的服务器的存储方式,
6、迅速转化为云端的存储方式全球大数据总量变化趋势 但是,但是,目前企业大数据的利用率仅为目前企业大数据的利用率仅为12%左右,左右,大部分数据未得到大部分数据未得到充分利用。充分利用。下表1-1所示如果利用好大数据,企业人均产出率提高程度预测。行业效率提高程度世界财富100强中的企业人均产出14.4%14.4%零售、咨询服务行业人均产出49%49%、39%39%食品、建筑、钢铁人均产出20%20%以上表1-1大数据利用后企业人均产出提高情况结构20%、半结构和非结构数据80%与之前的数据库相关技术相比,大数据可以处理半结构化或非结构化的数据。这将使计算机能够分析的数据范围迅速扩大大数据能够在最大
7、程度上利用互联网上记录的人类行为数据进行分析。大数据出现之前,计算机所能够处理的数据都需要前期进行结构化处理,并记录在相应的数据库中。但大数据技术对于数据的结构的要求大大降低,互联网上人们留下的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息都可以实时处理,立体完整地勾勒出每一个个体的各种特征。大数据时代的新理念数据密集型计算科学范式大数据涌现技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变在大数据时代中的典型产品是微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。软件的运用可以为世界节约40%的能源。从微软团队致力于研究不仅是为了节约了能源,更
8、关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。技术发展范式讨论题:当今,技术的过度使用?大数据的绿色理念大数据时代三种变革力量技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变 1大数据引发社会变革认识自然和宇宙的方式的深度及广度;改变社会组织、群体结构及其联动方式;使社会活动和社会管理的方式发生变革 2大数据引发的经济变革 3.大数据引发个人生活方式变化 改变实体企业生产制造的方式;引发产业结构的调整和升级;引发经营管理模式和商业模式的变革导致人类思维的变化,是最根本最深远的,又是渐次的,潜移默化的;衣、食、住、行、工作、学习、
9、健康、交友、娱乐活动正发生着并将继续发生巨大的变化且与大数据和相关信息技术息息相关1.1.21.1.2大数据时代的变革大数据时代技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变IT界有句非常著名的话,称为“人类正在从IT时代走向DT时代。”IT界提到的“IT”是指“Information Technology”,即“信息技术”。那么,与此对应,DT”就应该是“Data Technology”,即“数据技术(或数据处理技术)”。以大数据技术为代表的DT时代和过去人们所知的IT时代是两个时代。IT时代是让自己更加强大,DT时代是让别人更加强大,IT时代是让别人为自己服务,DT时代是
10、让你去服务好别人。1.1.3 1.1.3 信息技术(IT IT)向数据技术(DTDT)的转变大数据时代技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变从IT到DT的转化如图所示由数据驱动的时代商业模式将是C2B(Customer to Business)而不是B2C。IT以自我控制、自我管理为主,DT以服务大众、激发生产力为主。1.1.3 1.1.3 信息技术(IT IT)向数据技术(DTDT)的转变 大数据时代技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变 大数据高效采集、有效整合,深化大数据高效采集、有效整合,深化政府数据和社会数据关联分析政府数据和社会数
11、据关联分析、融合利、融合利用,提高宏观调控、市场监管、社会治理和公共服务精准性和有效性。用,提高宏观调控、市场监管、社会治理和公共服务精准性和有效性。依托依托 政府数据政府数据统一共享交换平台统一共享交换平台,加快推进跨部门数据资源共享共用。,加快推进跨部门数据资源共享共用。加快建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开加快建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开放共享。放共享。研究制定数据开放、保护等研究制定数据开放、保护等法律法规法律法规,制定政府信息资源管理,制定政府信息资源管理 办法。办法。深深 化大数据在各行业的创新应用,探索与传统产业协同发
12、展新业态新模化大数据在各行业的创新应用,探索与传统产业协同发展新业态新模式,加快完善式,加快完善大数据产业链大数据产业链。加快海量数据采集、存储、清洗、分析发掘、可视化、安全与隐私加快海量数据采集、存储、清洗、分析发掘、可视化、安全与隐私 保护保护等领域等领域关键技术攻关关键技术攻关。促进促进大数据软硬件产品大数据软硬件产品发展。完善大数据产业公共服务支撑体系和生态体发展。完善大数据产业公共服务支撑体系和生态体系,加强标准体系和质量技术基础建设系,加强标准体系和质量技术基础建设。我国的大数据战略 总结:大数据问题(涌现)特征 粒度缩放(粒度/像素)跨界关联(发言/跟帖)全局视图(个人/平台汇总
13、)1.2什么是大数据什么是大数据数据基本知识大数据定义用4V描述大数据特征1.2.1 数据基础知识数据是各种符号如字符、数字等。声音、图片动画、视频多媒体,数据也是原始事实。要保证其原始性和真实性,后期加工才有意义。信息是人们为了某种需求而对原始数据加工重组后形成的有意义、有用途的数据。什么是大数据数据基本知识大数据定义用4V描述大数据特征数据基础知识信息系统的表达上,可以把数据放在输入端,信息放在输出端。从信息的角度看数据可以从数据的输入和输出的位置得到理解。如图是信息系统的工作方式人们掌握数据资源的目的是为了提炼加工数据为有用的资源,称为信息。在信息的基础上提炼和总结成具有普遍指导意义的内
14、容,包括共性规律、理论、模型模式方法等称为知识。智慧:运用知识,结合经验创造性的预测未来解释现象和问题,洞见未来。什么是大数据数据基本知识大数据定义用4V描述大数据特征数据基础知识数据处理技术包括数据的采集、存储、处理、分析、表现等技术,目的是把数据变成有价值的信息,乃至将数据挖掘或处理升华成知识。下图表明了从数据到信息到知识再到智慧什么是大数据数据基本知识大数据定义用4V描述大数据特征1.2.2大数据定义 1.大数据来源如下图是大数据在物联网智能设备上产生的数据存储在云端形成大数据情况大数据是如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据
15、集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。什么是大数据2 大数据定义数据基本知识大数据定义用4V描述大数据特征大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。广义上的数据和大数据里包括信息 大数据时代维克托迈尔-舍恩伯格等大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯什么是大数据大数据定义数据基本知识大数据定义用4V描
16、述大数据特征 Lisa Arthur 在大数据营销一书中将大数据定义成纷繁杂乱的互动的、应用程序、信息和流程。她把大数据比喻为数据毛球。在一些企业中,混乱的数据中包含的信息,可能分布于市场营销部门、财务部门、销售部门和客户服务部门。而在另外一些公司,这些混乱的数据可能往往来自市场营销服务提供商、独立的电子商务网站、未归档的呼叫中心的对话录音,以及公司或合作伙伴的部门和部分网页活动数据日志。什么是大数据大数据定义数据基本知识大数据定义用4V描述大数据特征IBM 公司麦肯锡全球研究所研究机构Gartner“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和
17、多样化的信息资产一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征大数据具有“领悟数据,提升见识,洞察秋毫,驱动优化”四个内涵,侧重于大数据技术的应用,强调大数据间相关性的发现,其核心能力是“大数据中的价值发现和应用”什么是大数据数据基本知识大数据定义用4V描述大数据特征 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时
18、间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。每天数以亿计的数据产生着,云计算、云存储的应用,有效地将这种隐态资源转化为可用资源,当前这种资源无疑成为国家、组织和个人的最重要的财富。什么是大数据数据基本知识大数据定义用4V描述大数据特征1。大数据的4个特征数据体量巨大(Volume)数据类型繁多(Variety)价值密度低 (value)处理速度快(Velocity)云计算从TB级别,跃升到PB级别;数据体量巨大。从TB级别,跃升到EB级别(1 TB=1,024 GB;1 PB=1,024 TB;1
19、EB=1,024 PB)网络日志、视频、图片、地理位置信息等等由通常的离线处理变为在线处理,由在线事务处理(OLTP)变为在线分析处理(OLAP)。数据是永远在线的,是随时能调用和计算的价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒1.2.31.2.3大数据的特征Ref:Big Data Fundamentals concepts,Drivers&Techniques-Thomas ErlVOLUMEOrganizations and users world-wild created over 2.5 EBs of Data of dayData of d
20、ayThe Library of congress currently holds more than 300TBs of data 图片来源:Thomas Erl,Wajid Khattak and Paul Buhler,Big Data Fundamentals,Concepts,Drivers&Techniques,VelocitylFrom an enterprises point of view,the velocity of data translates into the amount of time it takes for the data to be processed
21、once it enters the enterprises perimeter.lCoping with the fast inflow of data requires the enterprise to design highly elastic and available data processing solutions and corresponding data storage capabilities.Ref:Big Data Fundamentals concepts,Drivers&Techniques-Thomas ErlVarietylData variety refe
22、rs to the multiple formats and types of data that need to be supported by Big Data solutions.lData variety brings challenges for enterprises in terms of data integration,transformation,processing,and storage.lExamples of high-variety Big Data datasets include structured,textual,limage,video,audio,XM
23、L,JSON,sensor data and metadata.Ref:Big Data Fundamentals concepts,Drivers&Techniques-Thomas ErlValueDefinition:Value is defined as the usefulness of data for an enterprise.Influence factor:D a t a t h a t h a s h i g h veracity and can be analyzed quickly has more value to a businessRef:Big Data Fu
24、ndamentals concepts,Drivers&Techniques-Thomas Erl什么是大数据数据基本知识大数据定义用4V描述大数据特征2。大数据的三个维度 系统地认知大数据,必须要全面而细致的分解它,可以从理论、技术和实践三个维度来展开,如图表明大数据三个维度什么是大数据数据基本知识大数据定义用4V描述大数据特征3。大数据平台及数据挖掘技术 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、信息可视化、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统数据预处理数据预处理:本书主要介
25、绍了数据清洗、数据变换、数据集成这几种常用方法外,除此之外,还有数据标注、数据脱敏、数据归约等。如下表所示为数据预处理的常用方法。数据采集&数据预处理数据挖掘数据可视化大数据类型重点难点数据分析数据处理平台及语言数据挖掘的分类图 传统的数据挖掘分类算法数据采集&数据预处理数据挖掘数据可视化大数据类型重点难点数据采集&数据预处理数据挖掘大数据类型重点难点大数据厂商图 大数据厂商行业分析图谱1.3大数据结构类型大数据结构类型1.大数据存储容量大数据的存储结构小到以字节表示大到NB和DB级别。以210逐级增长。下面表示的是数据由小到大的尺寸和存储容量。最小的基本单位是bit,按顺序给出所有单位:Bi
26、t、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(210)来计算:1KB(KiloByte)=210B1MB(MegaByte)=210KB1GB(GigaByte)=210MB=220KB=230B1TB(TeraByte)=210GB=220MB=230KB=240B1PB(PetaByte)=210TB=220GB=230MB=240B=250B1EB(ExaByte)=210PB=220TB=230GB=240MB=250KB=260B1ZB(ZettaByte)=210EB=220PB=230TB=240GB=250MB=260KB
27、=270B1YB(YottaByte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B1NB(NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B大数据结构类型2.大数据结构特征数据的结构化程度直接关系到处理数据的方法选择。传统的和经典的数据是结构化的,这些数据存储在数据库中,采用相应的数据库技术完成查询和管理需要。而半结构和非结构
28、的数据,就是今天网页和社交媒体产生的大量音频和视频等数据。数据结构类型说明结构化简单来说就是数据库。比如企业ERP等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。半结构化半结构化数据具有一定的结构性,比如存储员工的简历。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况等等。非结构化数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档等等。非结构化数据其格式非常多样大数据结构类型3.数据的复杂性与多样性(1)数据的复杂性多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结
29、构的简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。数据的复杂性表现为处理大数据或异构数据(2)数据的多样性文本一直是非结构化数据的典型。早期的非结构化数据,在企业数据的语境里主要是文本,如电子邮件,文档,健康/医疗记录。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等等,真正诠释了数据的多样性。从另一个维度上看,数据的多样性又表现在数据来源和用途上。卫生保健数据大致有药理学科研数据,临床数据,个人行为和情感数据,就诊/索赔记录和开销数据四类。大数据结构类型数据的复杂性与多样性如图不断增长的数据多样性与复杂性1
30、.4大数据应用大数据时代1.4大数据应用技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变 政府应用举例新闻类应用“国务院APP”在上线之初就刷爆了朋友圈以及各大应用平台,成为公众与政府互动交流的平台,满足了用户对于政治关注的需求,有效拉近了中央政府与普通民众之间的关系。国家总理和普通民众的层级阻隔不再受限,多数的民众将这个APP当成了一个必备软件。大数据时代应用技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变 应用解析在一个移动APP上了解和获取这些信息,不再受限于时间与地点,也从侧面说明了移动互联网行业的发展对于经济、政治以及国家的上层建筑都产生了重要的影响,
31、带动了政府体制的进步,政府也是需要拥有互联网思维,与时俱进。大数据应用个人生活运用企业应用政府部门运用1.4.11.4.1个人生活应用“大数据”已经在服务于普通百姓,通过它,企业可以了解市场行情,获得更多收入;农民可以了解明年种什么菜才能赚更多钱;农民工可以知道哪里更需要工人,哪里待遇更高,哪里能租到房子。而伴随着大数据技术的发展,人们的生活将会彻底改变。目前的数据,都是在即时通讯过程中,包括电话、短信、微信、邮件、浏览网页等,通过人的手和口产生。而随着大数据技术与云计算、物联网的进一步融合,未来的数据,将更多地来源于大量传感器。大数据应用个人生活运用企业应用政府部门运用1.4.11.4.1个
32、人生活运用交通智能软件获取路段拥堵信息的途径主要有三种:1.大家随身携带的手机,2.遍布大街小巷的监控摄像头可以直接看到路段的拥堵情况,3.在很多城市的交通管理中应用越来越普遍的小型无人驾驶直升机。大数据技术可以根据你曾经买过的商品的价格,分析你的消费水平,同时根据你最近的浏览和搜索,分析你当下的需求,二者结合,进行针对性非常强的推销。现代医学越来越依赖于具体数据的采集和判断。医学诊断正在演化为全人全程的信息跟踪、预测预防和个性化治疗。病人的“参与性”和“选择权”的重要性,会愈加显现。大数据应用企业模式变革个人生活运用企业应用政府部门运用德国提出工业4.0概念,“工业4.0”本质上是通过信息物
33、理系统(Cyber Physical System)实现工厂的设备传感和控制层的数据与企业信息系统融合,使得产生的大数据传到云计算数据中心进行存储、分析,形成决策并反过来指导生产。大数据的作用不仅局限于此,它可以渗透到制造业的各个环节发挥作用,如产品设计、原料采购、产品制造、仓储运输、订单处理、批发经营和终端零售。1.4.2主题转变-HR陈国清教授人民大学讲座企业管理方面的变革企业管理方面变革内容组织结构大数据和互联网等信息技术使组织管理的层次减少,范围扩大,决策速度加快,引发组织变革。人力大数据人才需求的剧增,人力资源管理方式的改变表明了这个时代的要求。流程依据于大数据的流程再造使生产运作发
34、生彻底的戏剧性的根本的改变,真正实现科学管理。制造用数据可视化实现全过程的控制,使生产运作过程做到实时在线控制,提高生产效率,减少资源浪费。市场基于大数据分析的市场决策、产品决策,产品设计等把消费者需求、供应商与生产紧密联系起来,实现三者的无缝对接。大数据使市场的概念和范围更加扩大,B2C、M2C、C2M将从区域的范围真正实现全球化、国际化。客服以消费者为中心的企业经营依据于大数据将更加趋于真实可行,个性化需求的实现,消费者参与的产品设计制造,从更深的层次实现着这一理念。表1-2大数据影响企业管理内容大数据应用企业应用个人生活运用企业应用未来车间智能机器人的机械手可以进行自动化排产调度,工件、
35、物料、刀具进行自动化装卸调度,可以达到无人值守的全自动化生产模式。如图智能工厂。视觉识别可以自动定位材料位置,更加精准便捷。视觉识别搭配机械手可以进行分拣,不同的数字、颜色可以分拣出来,并且按顺序排列,抓取速度是2秒。流程转变营销决策陈国清教授人民大学讲座大数据应用企业应用个人生活运用企业应用大数据改善订单处理方式大数据击败传统仓储运输工业采购变得更加精准大数据让产品设计更优化企业通过大数据的预测结果,便可以得到潜在订单的数量,然后直接进入产品的设计和制造以及后续环节。企业用户开始利用大数据技术来对销售数据进行大数据分析,提升企业利润由于大数据能够精准预测出个体消费者的需求以及消费者对于产品价
36、格的期望值,企业在产品设计制造之后,可直接派送到消费者手中大数据通过高度整合的方式,将相对独的企业各部门信息汇集起来,打破了原有的信息壁垒,实现了集约化管理借助大数据技术,人们可以对原物料的品质进行监控,发现潜在问题立即做出预警,维持产品品质,大数据技术还能监控并预测加工设备未来的故障几率大数据时代数据资产化和决策智能化技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变在大数据时代,数据渗透各个行业,渐渐成为企业战略资产。有些公司的数据相对于其他公司更多,使其拥有更多获取数据潜在价值的可能企业战略将从“业务驱动”转向“数据驱动”。智能化决策是企业未来发展方向。在大数据时代,企业通
37、过收集、分析大量内部和外部的数据,获取有价值的信息。通过挖掘这些信息,企业可以预测市场需求,进行智能化决策分析,从而把握竞争优势大数据将从数据资产化和决策智能化两个方面推动企业管理变革。大数据时代制定大数据战略技术变革特征管理模式变革信息技术(IT)向数据技术(DT)的转变(1)应当通过云平台实现数据大集中,形成企业数据资产。通过云平台实现集团数据大集中,从而形成企业的数据资产。这是集团企业利用大数据资源的重要基础。(2)应当深度挖掘大数据的价值,推动企业智能决策。企业应当重视对大数据价值的深入分析与挖掘,推动企业决策机制从“业务驱动”向“数据驱动”转变。案例调查:上海洋山港自动化码头的大数据
38、洋山港的国际中转与水水中转比例持续增长,总吞吐量连年创新高。而与之形成对比的是,上海港受制于泊位资源与设备资源的数量,无法从根本上满足未来逐年增高的吞吐量预期。洋山四期自动化码头共建设7个集装箱泊位,集装箱码头岸线总长2350米,设计年通过能力初期为400万标准箱,远期为630万标准箱,将为上海港巩固港口货物吞吐能力世界第一地位,为加速跻身世界航运中心前列提供新动力。管理决策疫情分析权威发布疫情分析权威发布美国约翰斯美国约翰斯霍普金斯大学实时公布的数据被各大媒体和机霍普金斯大学实时公布的数据被各大媒体和机构广泛引用,其开发的新冠疫情交互式地图网页的日访问量构广泛引用,其开发的新冠疫情交互式地图
39、网页的日访问量从从1 1月下旬的月下旬的2 2亿次增加到亿次增加到3 3月初的月初的1212亿次。亿次。而图表的创作者是这所大学两名而图表的创作者是这所大学两名来自中国的博士生。董恩盛和杜来自中国的博士生。董恩盛和杜鸿儒都是约翰斯鸿儒都是约翰斯霍普金斯大学霍普金斯大学土木与系统工程系博士一年级学土木与系统工程系博士一年级学生。生。大数据时代的新术语 数据洞见(Data InsightsData Insights)发现数据背后的信息、知识和智慧发现数据背后的信息、知识和智慧以及找到以及找到“被淹没被淹没在海量数据中的未知数据在海量数据中的未知数据”与数据挖掘不同的是,数据科学项目的与数据挖掘不同
40、的是,数据科学项目的成果可以直接成果可以直接用于决策支持用于决策支持总结:变革的特征:外部介入 技术增强 使能创新数据科学的基础理论1.5 数据科学和大数据技术数据科学和大数据技术数据科学目前大数据的工程技术研究已走在科学研究的前面。美国政府 6 个部门启动的大数据研究计划中,国家科学基金会的研究内容提到要“形成一个包括数学、统计基础和计算机算法的独特学科”。数据、信息和知识三者既有区别又有联系:数据是信息的载体,是信息的原始记录,包括数字、语言、文字、声音、图形、图像等多种形态;信息是经过加工后的对某现象具有一定解释力的数据,或者说是有价值的数据;知识是信息的进一步提升,是更加系统化、理论化
41、的信息。&数据科学是以统计学、机器学习、数据可视化以及其他领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。大数据人才大数据技术1.5.1 1.5.1 数据科学数据科学和大数据技术数据科学大数据技术包括,大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术等。借助这些平台,大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。大数据人才大数据技术1.5.21.5.2大数据技术与工具数据科学和大数据技术数据采集与处理、
42、分析技术数据科学数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采 集技术广泛引用在各个领域。比如摄像头,麦克风,都是数据采集工具。数据采集,还有一种解释就是网站数据的采集。大数据人才大数据技术数据科学和大数据技术1。数据采集与处理、分析技术数据科学数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。数据处理的过程大致分为数据的准备、处
43、理和输出3个阶段。大数据人才大数据技术数据科学和大数据技术2。数据可视化技术数据科学科学可视化(Scientific Visualization 或 Scientific Visualisation)是科学之中的一个跨学科研究与应用领域,主要关注的是三维现象的可视化,如建筑学、气象学、医学或生物学方面的各种系统。重点在于对体、面以及光源等等的逼真渲染,或许甚至还包括某种动态成分。就医学数据(CT、MRI、PET等),常常听说的一条术语就是“医学可视化”。如图是人类的颅骨CT片大数据人才大数据技术数据科学和大数据技术2.数据可视化技术数据科学数据可视化与信息图形、信息可视化、科学可视化以及统计图
44、形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。为了有效地传达思想观念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。大数据人才大数据技术数据可视化的主要应用 京东618数据实时战报Page 75数据科学和大数据技术数据可视化技术数据科学就目标和技术方法而言,信息可视化与可视化分析论之间存在着一些重叠。当前,关于科学可视化、信息可视化及可视化分析论之间的边界
45、问题,还没有达成明确清晰的共识。不过,大体上来说,这三个领域之间存在着如下区别:科学可视化处理的是那些具有天然几何结构的数据(比如,MRI数据、气流);信息可视化处理的是抽象数据结构,如树状结构或图形;可视化分析论尤其关注的是意会和推理。大数据人才大数据技术数据科学和大数据技术大数据人才数据科学培养具备大数据科学素养,掌握经济管理、网络金融、电子商务等领域知识的专业人才,为以大数据技术为支撑的相关行业培养国际化、复合型的高素质人才;人才要具备将领域知识与计算机技术和大数据技术融合、创新的能力,能够从数据工程的视角从事经济、金融、电子商务等领域的大数据采集、组织、管理、分析以及应用的工作。未来智
46、能机器人可以取代人的常规工作,人就解放出来,通过大数据发展规律和创新,产生更多的艺术和创意,来推动智能机器替代人类做更多具体任务,从这个角度讲,智能机器又不能取代人的工作。大数据人才大数据技术数据科学和大数据技术从数据分析师到数据科学家数据科学(1)数据分析师应具备:1)理解业务中产生的数据。能建立一个有效的分析模型,并且不停用采集的数据去验证模型的算法,最后给出指导性建议和报告。2)能提取数据。3)分析数据。数据分析师要从无数个偶然性数据,分析出可能的内在必然性关联事件。4)数据可视化。数据可视化使信息的表达鲜明生动,更明确的显示其相互关系使其直达重点,起到迅速传递信息的目的。大数据人才大数
47、据技术数据科学和大数据技术从数据分析师到数据科学家数据科学(2)数据科学家能够对数据分析工作所需的基础知识有足够了解并运用自如。需要从所掌握的技能中找出合适的分析方法和算法来搞定数据。使用数据解决问题的方法有几百种之多,如运筹学、决策论、博弈论、控制论等,且这些方法均已出现了很长时间。理解了试图去解决的问题,便能够找到最合适的算法并提供理想的解决方案。大数据人才大数据技术数据科学和大数据技术从数据分析师到数据科学家数据科学数据科学家通常应具备三种能力:1)数据分析的能力(数学方面的知识)、2)计算机方面的能力,3)以及对某行业的应用深入理解的能力,前两种能力是必需的,而第三种能力是可选的。但是具体到某一位数据科学家,又不可能在统计学、机器学习、数据可视化、软件开发及各种常用工具诸方面都是高手,所以数据科学家应以团队合作方式协同工作,发挥优势。另外随着大数据中社会科学中的数据产出量日益增加,社会科学领域的专家也可能成为数据科学家。大数据人才大数据技术Thank YouThank You!