1、友情提示上课时间请勿:-请将您手机改为“震动” 避免在课室里使用手机-交谈其他事宜-随意进出教室请勿在室内吸烟上课时间欢迎:-提问题和积极回答问题-随时指出授课内容的不当之处2000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/42007年年 所有数据中只有所有数据中只有7%7%是存储在报纸、书是存储在报纸、书籍、图片等媒介上的模拟数据,其余籍、图片等媒介上的模拟数据,其余93%93%全是全是数字数据(二进制数据)数字数据(二进制数据)Google 单日单日数据处理数据处理量量超过超过 24 24 PBPBFacebook 单日单日照片更新量超过照片更新量超过 1 1千万张千
2、万张淘宝网淘宝网 单日数据产生量超过单日数据产生量超过 5 5万万 GBGB “大数据大数据”是指一个是指一个数据集(数据集(Datasets),它的,它的尺寸大到已经无法由尺寸大到已经无法由传统的数据库软件传统的数据库软件去采集、储去采集、储存、管理和分析。存、管理和分析。行数据行数据, ,存储在数据库里存储在数据库里, ,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如:二维表自描述,数据结构和内容混杂在自描述,数据结构和内容混杂在一起一起的数据。的数据。例如: XML、HTML等。除去以上两种类型除去以上两种类型例如:音视频、图片等。l 无法储存几亿行长,
3、几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l 半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)将会导致出错(类型不严格).10G100M/S10G10G10G10G99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G(Value)l年份(年份(Key) 温
4、度(温度(value)Hadoop 2008年,年,1月月Hadoop成为成为Apache顶级项目,顶级项目,2月,雅虎宣月,雅虎宣布,布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引应用在自家搜素引擎中(其搜索引擎的索引建立在拥有建立在拥有1万个内核的万个内核的Hadoop集群上),集群上),4月,月,Hadoop在在900个节点上运行个节点上运行1TB排序测试仅需排序测试仅需209秒,成为全球最秒,成为全球最快。快。 1.系统要求:系统要求:Linux(Ubuntu/CentOS/) 2.java运行环境(安装运行环境(安装JDK) 3.安装安装SSH 4.安装安装Hadoop Ha
5、doop云的实际操作 public class WordCount public static class Map extends MapReduceBase implements Mapper private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void (LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException String
6、 line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();output.collect(word, one); /输出:输出: 1 output.collect(key, new IntWritable(sum); 计算节点和储存节点普通机器即可计算节点和储存节点普通机器即可 通过增加节点即扩展通过增加节点即扩展 副本机制副本机制 Map/Reduce框架框架为程序员提供类SQL语句编写,底层将HiveQL(Hive- SQL)转换为MapReduce编译运行提供给用户使用的脚本语言,简化MapReduce代码编写低延时、分布式的非关系型数据库分布式协同工作系统向Hadoop应用(Hive/Pig)共享元数据