1、2000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/42007年年 所有数据中只有所有数据中只有7%7%是存储在报纸、书是存储在报纸、书籍、图片等媒介上的模拟数据,其余籍、图片等媒介上的模拟数据,其余93%93%全是全是数字数据(二进制数据)数字数据(二进制数据)Google 单日单日数据处理数据处理量量超过超过 24 24 PBPBFacebook 单日单日照片更新量超过照片更新量超过 1 1千万千万张张淘宝网淘宝网 单日数据产生量超过单日数据产生量超过 5 5万万 GBGB “大数据大数据”是指一个是指一个数据集(数据集(Datasets),它它的尺寸大到已经无法由的尺
2、寸大到已经无法由传统的数据库软件传统的数据库软件去采集、去采集、储存、管理和分析。储存、管理和分析。行数据行数据, ,存储在数据库里存储在数据库里, ,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如:二维表自描述,数据结构和内容混杂在自描述,数据结构和内容混杂在一起一起的数据。的数据。例如: XML、HTML等。除去以上两种类型除去以上两种类型例如:音视频、图片等。l无法储存几亿行长,几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)
3、将会导致出错(类型不严格).10G100M/S10G10G10G10G99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G1.系统要求:系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装运行环境(安装JDK)3.安装安装SSH4.安装安装Hadoop Hadoop云的实际操作 public class WordCount public static class Map extends MapReduceBase imp
4、lements Mapper private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void (LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); wh
5、ile (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();output.collect(word, one); /输出:输出: 1 计算节点和储存节点普通机器即可计算节点和储存节点普通机器即可 通过增加节点即扩展通过增加节点即扩展 副本机制副本机制 Map/Reduce框架框架l适合一次写入多次读取(适合一次写入多次读取(HDFS)为程序员提供类SQL语句编写,底层将HiveQL(Hive- SQL)转换为MapReduce编译运行提供给用户使用的脚本语言,简化MapReduce代码编写低延时、分布式的非关系型数据库分布式协同工作系统向Hadoop应用(Hive/Pig)共享元数据