你正在下载：《

大数据处理技术简介PPT课件.pptx

》 [预览]

格式：PPTX ，页数：52 ，大小：6.51MB ,
文档编号：2618674 下载积分：28 文币

快捷下载

登录下载

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

优惠套餐

温馨提示：若手机下载失败，请复制以下地址【https://www.163wenku.com/d-2618674.html】到电脑浏览器->登陆（账号密码均为手机号或邮箱；不要扫码登陆）->重新下载（不再收费）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1: 试题类文档的标题没说有答案，则无答案；主观题也可能无答案。PPT的音视频可能无法播放。请谨慎下单，一旦售出，概不退换。
2: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户（三亚风情）主动上传，所有收益归该用户。163文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

1，本文（大数据处理技术简介PPT课件.pptx）为本站会员（三亚风情）主动上传，163文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。
2,用户下载本文档，所消耗的文币（积分）将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（发送邮件至3464097650@qq.com或直接QQ联系客服），我们立即给予删除！

大数据处理技术简介PPT课件.pptx

1、2000年年数字数据只占全球数据量的数字数据只占全球数据量的1/41/42007年年所有数据中只有所有数据中只有7%7%是存储在报纸、书是存储在报纸、书籍、图片等媒介上的模拟数据，其余籍、图片等媒介上的模拟数据，其余93%93%全是全是数字数据（二进制数据）数字数据（二进制数据）Google 单日单日数据处理数据处理量量超过超过 24 24 PBPBFacebook 单日单日照片更新量超过照片更新量超过 1 1千万千万张张淘宝网淘宝网单日数据产生量超过单日数据产生量超过 5 5万万 GBGB “大数据大数据”是指一个是指一个数据集（数据集（Datasets），它它的尺寸大到已经无法由的尺

2、寸大到已经无法由传统的数据库软件传统的数据库软件去采集、去采集、储存、管理和分析。储存、管理和分析。行数据行数据, ,存储在数据库里存储在数据库里, ,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如：二维表自描述，数据结构和内容混杂在自描述，数据结构和内容混杂在一起一起的数据。的数据。例如： XML、HTML等。除去以上两种类型除去以上两种类型例如：音视频、图片等。l无法储存几亿行长，几百万行宽的表格，无法储存几亿行长，几百万行宽的表格，巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l半半结构化数据和脏数据结构化数据和脏数据将会导致出错（类型不严格）

3、将会导致出错（类型不严格）.10G100M/S10G10G10G10G99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G1.系统要求：系统要求：Linux(Ubuntu/CentOS/)2.java运行环境（安装运行环境（安装JDK）3.安装安装SSH4.安装安装Hadoop Hadoop云的实际操作 public class WordCount public static class Map extends MapReduceBase imp

4、lements Mapper private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void (LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); wh

5、ile (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();output.collect(word, one); /输出：输出： 1 计算节点和储存节点普通机器即可计算节点和储存节点普通机器即可通过增加节点即扩展通过增加节点即扩展副本机制副本机制 Map/Reduce框架框架l适合一次写入多次读取（适合一次写入多次读取（HDFS）为程序员提供类SQL语句编写，底层将HiveQL（Hive- SQL）转换为MapReduce编译运行提供给用户使用的脚本语言，简化MapReduce代码编写低延时、分布式的非关系型数据库分布式协同工作系统向Hadoop应用（Hive/Pig）共享元数据