1、大数据技术导论第一章绪论1.1揭秘大数据1.2Linux概述1.1 揭秘大数据(1)数据产生方式的变革促成大数据时代的来临数据产生方式经历了被动产生主动产生自动产生三个阶段(见图1.1)。1.1.1 大数据产生历史必然第一章 概论产生方式自动的。1.1 揭秘大数据(2)云计算是大数据诞生的前提和必要条件图1.2给出云的发展历程。1.1.1 大数据产生历史必然第一章 概论 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据具有4V特征见图1.3。1.1.2 大数据概念和特征1.1 揭秘大数据第一章 概论Volume 美国的国会图书馆美国的国会图
2、书馆50005000 百度每天处理数据量百度每天处理数据量三、三、大大数据数据4V4V特点特点几点说明Variety75%网络日志、音频、视频、图片、文本等5%数据库等非结构化数据非结构化数据结构化数据20%半结构化数据 网页等 数据产生得快数据产生得快一台大型粒子对撞机里共有1.51.5亿个传感器亿个传感器每秒钟发生粒子对撞6 6亿次亿次仅仅使用十万分之一一年积累25PB25PB的数据1TB1TB的硬盘2500025000个个剔除剔除99.999%99.999%数据处理速度快数据处理速度快大数据通过云计算,以上数据储存仅需2020分钟分钟共计1PB,速度1G/s,还剩144小时已完成50%V
3、elocity实时采集,实时传输,实时分析,实时反馈Value1、价值密度低:信息分布毫无规律,隐藏较深。2、价值体现:具备高性能、实时性、可扩展性的预测能力。3、实现价值的三要素:大分析、大宽带、大内容。1.1 大数据的概念1.1.3 大数据生命周期第一章 大数据概念及其应用1.1 揭秘大数据第一章 概论表1.1 大数据生命周期个阶段相关技术产品1.1 揭秘大数据第一章 概论1.1.4 大数据与物联网、云计算、人工智能1.1 揭秘大数据第一章 概论1.1.5 大数据时代的八个重大变革决策方式:目标驱动型 数据驱动方法论:基于知识的方法 基于数据的方法 12计算方式:复杂算法简单分析管理方式:
4、业务数据化数据业务化341.1 揭秘大数据第一章 概论1.1.5 大数据时代的八个重大变革研究范式:第三范式 第四范式数据的属性:数据是资源数据是资产56数据处理模式:小众参与 大众协同思维方式:整体思维+相关思维+容错思维781.1 揭秘大数据第一章 概论第一章 概述1.1揭秘大数据1.2Linux系统概述1.2.1 Linux的选择CentOShttp:/ Linux系统概述第一章 概论1.2.2 Linux系统常用命令1.2 Linux系统概述第一章 概论命令 含义cd/home/hadoop 把/home/hadoop设置为当前目录cd.返回上一级目录cd 返回登录目录cd/把用户带到
5、整个目录的根目录cd/root把用户带到根用户或超级用户的主目录;只有根用户才能访问该目录ls 查看当前目录中的文件ls-l 查看文件和目录的权限信息ls-a显示隐藏文件mkdir input 在当前目录下创建input子目录1.2.2 Linux系统常用命令1.2 Linux系统概述第一章 概论mkdir-p src/main/scala 在当前目录下,创建多级子目录src/main/scalacat/proc/version 查看Linux系统内核版本信息cat word.txt 把word.txt这个文件全部内容显示到屏幕上head-5 word.txt 把word.txt文件中的前5行
6、内容显示到屏幕上cp word.txt/usr/local/把word.txt文件复制到“/usr/local”目录下rm./word.txt 删除当前目录下的word.txt文件rm r./test 删除当前目录下的test目录及其下面的所有文件rm r test*删除当面目录下所有以test开头的目录和文件tar-zxvf/Downloads/spark-2.1.0.tgz-C/usr/local/把spark-2.1.0.tgz这个压缩文件解压到/usr/local目录下1.2.2 Linux系统常用命令1.2 Linux系统概述第一章 概论mv spark-2.1.0 spark 把s
7、park-2.1.0目录重新命名为sparkchown-R hadoop:hadoop./spark hadoop是当前登录Linux系统的用户名,把当前目录下的spark子目录的所有权限,赋予给用户hadoopifconfig 查看本机IP地址信息exit 退出并关闭Linux终端echo$HOSTNAME显示HOSTNAME环境变量的值pwd查看当前目录1.2 Linux系统概述第一章 概论1.2.3 文本编辑器vi1.2 Linux系统概述第一章 概论1.2.4 Linux 系统目录结构 大数据推荐书籍大数据推荐书籍u书名:书名:爆发:大数据时代预见爆发:大数据时代预见未来的新思维未来的
8、新思维u作者:艾伯特作者:艾伯特-拉斯洛拉斯洛 巴拉巴西巴拉巴西 u出版社:中国人民大学出版社出版社:中国人民大学出版社u书名:书名:大数据时代大数据时代u作者:作者:维克托维克托 迈尔迈尔-舍恩伯格等舍恩伯格等u出版社:出版社:浙江人民出版社浙江人民出版社u书名:书名:失控失控u作者:作者:凯文凯利(KEVIN KELLY),很多人都亲切地叫他KKu出版社:出版社:新星出版社 大数据推荐书籍大数据推荐书籍u书名:书名:大数据分析:点“数”成金u作者:作者:奥尔霍斯特(Frank J.Ohlhorst)u出版社:出版社:人民邮电出版社 大数据推荐书籍大数据推荐书籍u书名:书名:大数据大价值、大机遇、大变革u作者:作者:朱志军,佘丛国,闫蕾等u出版社:出版社:电子工业出版社u书名:书名:跟随大数据旅行u作者:作者:杨池然u出版社:出版社:机械工业出版社感谢聆听