大数据处理实现技术简介课件.ppt

上传人(卖家):三亚风情 文档编号:2956826 上传时间:2022-06-15 格式:PPT 页数:54 大小:12.39MB
下载 相关 举报
大数据处理实现技术简介课件.ppt_第1页
第1页 / 共54页
大数据处理实现技术简介课件.ppt_第2页
第2页 / 共54页
大数据处理实现技术简介课件.ppt_第3页
第3页 / 共54页
大数据处理实现技术简介课件.ppt_第4页
第4页 / 共54页
大数据处理实现技术简介课件.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、友情提示上课时间请勿:-请将您手机改为“震动” 避免在课室里使用手机-交谈其他事宜-随意进出教室请勿在室内吸烟上课时间欢迎:-提问题和积极回答问题-随时指出授课内容的不当之处2000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/42007年年 所有数据中只有所有数据中只有7%7%是存储在报纸、书是存储在报纸、书籍、图片等媒介上的模拟数据,其余籍、图片等媒介上的模拟数据,其余93%93%全是全是数字数据(二进制数据)数字数据(二进制数据)Google 单日单日数据处理数据处理量量超过超过 24 24 PBPBFacebook 单日单日照片更新量超过照片更新量超过 1 1千万张千

2、万张淘宝网淘宝网 单日数据产生量超过单日数据产生量超过 5 5万万 GBGB “大数据大数据”是指一个是指一个数据集(数据集(Datasets),它的,它的尺寸大到已经无法由尺寸大到已经无法由传统的数据库软件传统的数据库软件去采集、储去采集、储存、管理和分析。存、管理和分析。行数据行数据, ,存储在数据库里存储在数据库里, ,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如:二维表自描述,数据结构和内容混杂在自描述,数据结构和内容混杂在一起一起的数据。的数据。例如: XML、HTML等。除去以上两种类型除去以上两种类型例如:音视频、图片等。l 无法储存几亿行长,

3、几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l 半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)将会导致出错(类型不严格).10G100M/S10G10G10G10G99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G(Value)l年份(年份(Key) 温

4、度(温度(value)Hadoop 2008年,年,1月月Hadoop成为成为Apache顶级项目,顶级项目,2月,雅虎宣月,雅虎宣布,布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引应用在自家搜素引擎中(其搜索引擎的索引建立在拥有建立在拥有1万个内核的万个内核的Hadoop集群上),集群上),4月,月,Hadoop在在900个节点上运行个节点上运行1TB排序测试仅需排序测试仅需209秒,成为全球最秒,成为全球最快。快。 1.系统要求:系统要求:Linux(Ubuntu/CentOS/) 2.java运行环境(安装运行环境(安装JDK) 3.安装安装SSH 4.安装安装Hadoop Ha

5、doop云的实际操作 public class WordCount public static class Map extends MapReduceBase implements Mapper private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void (LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException String

6、 line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();output.collect(word, one); /输出:输出: 1 output.collect(key, new IntWritable(sum); 计算节点和储存节点普通机器即可计算节点和储存节点普通机器即可 通过增加节点即扩展通过增加节点即扩展 副本机制副本机制 Map/Reduce框架框架为程序员提供类SQL语句编写,底层将HiveQL(Hive- SQL)转换为MapReduce编译运行提供给用户使用的脚本语言,简化MapReduce代码编写低延时、分布式的非关系型数据库分布式协同工作系统向Hadoop应用(Hive/Pig)共享元数据

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据处理实现技术简介课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|