大数据下的资源整合和知识共享(下)课件.ppt

上传人(卖家):三亚风情 文档编号:2297397 上传时间:2022-03-31 格式:PPT 页数:49 大小:6.92MB
下载 相关 举报
大数据下的资源整合和知识共享(下)课件.ppt_第1页
第1页 / 共49页
大数据下的资源整合和知识共享(下)课件.ppt_第2页
第2页 / 共49页
大数据下的资源整合和知识共享(下)课件.ppt_第3页
第3页 / 共49页
大数据下的资源整合和知识共享(下)课件.ppt_第4页
第4页 / 共49页
大数据下的资源整合和知识共享(下)课件.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、大数据下大数据下的的资源资源整合和知识共享整合和知识共享(下)(下)一、热词解释一、热词解释二、国际大数据案例分析及相关技术介绍二、国际大数据案例分析及相关技术介绍三、大数据实际项目解析三、大数据实际项目解析目目 录录(一)国际大数据案例分析(一)国际大数据案例分析(二)大数据相关技术(二)大数据相关技术二、国际大数据案例分析二、国际大数据案例分析 及相关技术介绍及相关技术介绍(二)大数据相关技术(二)大数据相关技术1.数据获取与储存Hadoop是一个能够对大量数据进行分布式处理的开源软件框架。它支持数据密集型分布式应用并以Apache2.0为许可协议发布。它支持在商品硬件构建的大型集群上运行

2、应用程序。Hadoop是以一种可靠、高效、可伸缩的方式对大数据进行处理。三个层次底层集群的存储环境,HDFS中间层分布式的数据处理顶层有一个抽象PIG,Hive还有SqoopHADOOPHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS能提供高吞吐量的数据访问,非常适合于大规模数据集上的应用。HDFS放宽了一部分POSIX的约束,来实现流式读取文件系统数据的目的。HDFSHDFSHDFS包含了一个Namenodes,还有很多的Datanodes。Namenodes进行一个元数据的管理,Datanodes保存在不同

3、的物理设备上。Datanodes里面绿色的小方框,是存储块。10K nodes, 100 million files, 10 PB规模适合数据批量处理;最大化吞吐率;允许计算向数据迁移特性数据块副本、数据块放置策略、缓存策略等优化它是一种并行式的计算模型,用于大规模数据集,通常是大于1TB的并行计算。Map是映射,Reduce是规约。MapReduceMapReduce 流程AmapB reduce两个阶段 应用程序开三个线程。一个线程产生Master结点,另外两个Worker结点。HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为J

4、ava。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。 Hive是基于Hadoop的一个数据仓库工具。 主要考虑大数据查询效率问题的解决,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。 可以将SQL语句转换为MapReduce任务进行运行。说明:Hive具有容错的机制。1首先将任务分配给HDFS之上的三个Node,每个Node代表一个机器。2Node3因为某种原因失败,这个任务只完成了85%。3在Time3的时候,这个任务可以迁移到另外的一个

5、Node。PigPig为复杂的海量数据并行计算,提供了一个简单的操作和编程接口。Spark是一个高效的分布式计算系统,它有MapReduce所有优点,同时性能比Hadoop高100倍。1在性能上提供比Hadoop更上层的API,同样的算法只有Hadoop的1/10或者1/100的长度。2Shark是一个在Spark上数据仓库的实现,在兼容Hive的情况下,性能最高可以达到Hive的一百倍。3SparkSpark大数据的数据挖掘与机器学习,是大数据技术的核心,也是人工智能的核心。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有

6、用的信息和知识的过程。2.数据挖掘与分析核心数据挖掘案例:购物篮分析顾客往往喜欢将啤酒和尿布同时购买。机器学习机器学习 机器学习主要是设计和分析一些让计算机可以自动学习的算法,它是一类从数据中自动分析获得规律,并且利用规律对未知数据进行预测的算法。3.数据交互与可视化可视化就是利用计算机图形学以及图像处理技术,将数据转换成图像,显示在电脑的显示器上。信息可视化科学可视化便于对科学技术数据和便于对科学技术数据和模型的实时渲染与处理模型的实时渲染与处理。提高人对大规模提高人对大规模非非结构结构化数据的理解与感知,化数据的理解与感知,降低大数据信息负载降低大数据信息负载。技术:分布式实时渲染(GPU

7、/CPU)多层次交互可视分析(Level of Details )结合数据挖掘/机器学习的智能可视化三、大数据实际项目解析三、大数据实际项目解析(一)智慧城市(一)智慧城市城市空气质量全方位实时监控城市空气质量全方位实时监控北京的空气监测站,离散地分布在城区的,空间分辨率是每100平方公里有一个监测站,每个监测站能够监测一平方公里的空气质量。1.空气质量监测存在问题和挑战存在问题和挑战空气质量随着时空变迁非线性变化。1 1受天气、交通、建筑等因素影响。2 2POIPOIPOI是地图上一些单位的属性。难题: 无法用现有方法建模。1将城区划分成若干网格,提取每个网格属性。|2针对每种污染情况,进行

8、区间的分类。|3利用半监督学习模型,构建分类器。|如何做到的?如何做到的?空间分类器时间分类器这两个分类器,互相迭代、互相增强,最终能够推理出未知区域的空气质量。分类器分类器优势优势 忽略了路网数据和POI数据,跟时间不相关,精度低。传统的方法传统的方法考虑到了时间和空间两个因素,精度比较高。我们的方法我们的方法2.智能交通问题一: 城市拥堵情况越来越严重,原有的红绿灯控制系统,已表现出明显的缺点。如何做如何做分析十字路口的拥堵模式。对全城的交通路况进行模拟。通过车的速度,来计算路网的速度,通过路网的速度,来探测拥堵的事件。问题二:全城的汽车油耗与尾气排放实时监控需要解决:需要解决:过去一个小

9、时,全城油耗是多少?排放多少尾气?汽车尾气排放是不是城市污染的主要原因?目标:目标:在任何时间任何路段估计出汽车汽油消耗和尾气排放。使用数据:使用数据:出租汽车GPS轨迹数据路网数据POI数据天气数据大数据解决方案通过TSE(Travel Speed Estimation),估计其他路网车的速度。通过TVI( Traffic Volume Inference ),推断路网上有多少辆车。利用了车的GPS轨迹数据(二)智能社会(二)智能社会大数据与智能社会,解决的是与城市居民息息相关的问题。1.大数据与智能超市布局是怎么设计的?货物是怎么摆放的?为什么要搞促销活动?ACB目标:探索消费者购物行为,

10、实现对超市科学布局以及商品货架摆放;此外,为营销策划提供决策支持,最终提供春节促销方案。可用数据:可用数据:流水表、会员表、支付表、折扣表宏观统计大数据解决方案大数据解决方案数据员利用传统的购物篮数据,还有互联网的一些非结构化数据,通过数据的清洗、统计、分析、挖掘、可视化,最终提供春节的促销方案。策略建议数据挖掘数据统计数据清理4 43 32 21 12012年5月4日的促销受到影响,是因为5月2日发生了大的暴雨,如何进行分析?2.大数据与电商用户行为信息就是用户在网站上发生的所有行为,如搜索、浏览、打分等,甚至包括在第三方网站上的相关行为。年龄?男/女?喜好?社交?推理用户的性别和年龄。字段

11、字段字段说明字段说明sessionID用户浏览会话IDsessionstarttime会话的起始时间sessionendtime会话的终止时间listofproductIDs会话中访问的商品ID列表gender用户性别推荐推荐好友推荐好友推荐商品推荐商品推荐POIPOI推荐推荐电影推荐电影推荐音乐音乐推荐推荐3.大数据与推荐系统4.大数据与社交媒体one to oneone to one单点对单点的信息的交换。单点对单点的信息的交换。one to manyone to many单点与多点,即广播方式。单点与多点,即广播方式。many to manymany to many多点对多点的交互。多点

12、对多点的交互。传统传统媒体媒体社交社交媒体媒体社交网络分析社交网络分析情感分析是分析一句话是主观的描述还是客观描述;如果是主观的描述,分析表达的是积极情绪还是消极情绪。social tie analysissocial influence analysis分析方法分析方法情感分析的作用情感分析的作用政府监控社交网络上用户的情绪,对社会安全维稳有积极作用。A A商业看用户喜欢什么,然后基于用户的喜好,制定推荐策略。B B5.大数据与社会问题监管食品安全问题01环境污染问题02交通违章问题03社会不文明现象046.大数据与日常运作利用员工的打卡行为,能够找到他们之间的潜在社交网络,精确地对员工的考勤行为进行评估。以打卡为例总结总结 B: Big data, Big value Big challenges, M: Data Management, Mining and Machine learning W: Win-Win-Win: people, city and society只有利用大数据的数据管理、挖掘,才能够达到人类社会以及城市的三赢。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据下的资源整合和知识共享(下)课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|