1、云计算与大数据处理原理 唐四薪唐四薪课程介绍v课程名:云计算与大数据处理原理课程名:云计算与大数据处理原理v学时:学时:48学时学时(讲授讲授32学时学时+上机上机16学时学时)v课程性质:必修课程性质:必修v考试:考试:闭卷闭卷,第第20周周 国家战略规划:深国家战略规划:深化化大数据大数据、人工智能人工智能等研发应用等研发应用,培育新一代信息技术、高端装备、生物医药、新,培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群,壮大数字经济能源汽车、新材料等新兴产业集群,壮大数字经济。摘自摘自国务院国务院2019年政府工作报告年政府工作报告 为什么要学习大数据技术为什么要学
2、习大数据技术为什么要学习大数据技术2017年:教育部批准年:教育部批准100多所高校同时增设多所高校同时增设 数据科学与大数据技术数据科学与大数据技术专业专业 数据科学:科学研究的第四范式实验理论计算机模拟数据第一章:大数据简介主讲教师:唐四薪大数据分析实用教程基于Python实现目录1.11.1大数据的来源大数据的来源1.21.2大数据的定义大数据的定义1.3大数据的特点1.41.4大数据处理的过程大数据处理的过程第一第一章章 大数据概述大数据概述什么是大数据什么是大数据(什么是大数据(Big Data)数据基本知识大数据定义用4V描述大数据特征大数据是任何超过了一台计算机处理能力的数据量亚
3、马逊的定义GBTBPBEBZB相对量相对量大数据就是数据量大到无法用一台计算机处理和存储的数据1.1大数据的来源搜索引擎数据1电商交易数据2社交网络数据3物联网传感器数据4网站日志数据5传统互联网移动互联网物联网1.搜索引擎数据 搜搜索引擎是大家最为熟悉的大数据系统索引擎是大家最为熟悉的大数据系统,百,百度在简洁的度在简洁的用户界面下面隐藏着世界上最大规模的大数据系统。用户界面下面隐藏着世界上最大规模的大数据系统。百度每天的搜索百度每天的搜索次数次数 50亿次亿次百度热门搜索 搜索引擎搜索引擎大数据的大数据的应用应用Top K问题2.电商交易数据 淘宝、京东等电商平台每天会产生大量交易数据淘宝
4、、京东等电商平台每天会产生大量交易数据 电商大数据的应用电商大数据的应用 交交叉销售、商品推荐叉销售、商品推荐 商商品比价品比价百度迁徙 百度迁徙是2014年百度利用其位置服务(Location Based Service,LBS)所获得的数据,将人们在春节期间位置移动情况用可视化的方法显示在屏幕上如图所示。3.物联网、传感器数据物联网、传感器数据物联物联网设备(无线传感器、网设备(无线传感器、RFID)会产生大量数)会产生大量数据,如据,如GPS位置数据、温度数据等。位置数据、温度数据等。4.社交网络数据社交网络数据社交网络:社交网络:QQQQ、微信、抖音、微博、微信、抖音、微博Facebo
5、ok Facebook、MSNMSN社交网络来源:移动设备、电脑社交网络大数据的应用:好友推荐、节目推荐等5.网站日志数据网站日志数据大型网站的日志文件每天会记录大量的访问数据大型网站的日志文件每天会记录大量的访问数据网站日志大数据的应用网站日志大数据的应用 计计数统计数统计:如:如PV(Page View),每个页面访问次数,每个页面访问次数 去去重统计重统计:比如独立:比如独立 IP 数,独立用户数数,独立用户数等等 Top N统计统计:比:比如某天如某天检索量最大检索量最大的关键词的关键词日志文件实时收集日志文件实时收集框架框架Flume6.行行业大数据业大数据行业大数据:金融、医疗、保
6、险、交通、气象、制造、行业大数据:金融、医疗、保险、交通、气象、制造、基因分析基因分析什么是大数据数据基本知识大数据定义用4V描述大数据特征大数据的来源传统互联网、移动互联网、物联网计算机、移动终端设备、传感器麦肯锡麦肯锡的定义:大数据指的是大小超出常规的数大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集据库工具获取、存储、管理和分析能力的数据集。维基百科维基百科的定义:大数据是指利用常用软件工具大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时来获取、管理和处理数据所耗时间超过可容忍时间的数据集。间的数据集。GartnerGartner的定义:大数据是
7、需要新处理模式才能大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。力的海量、高增长率和多样化的信息资产。1.1.1 1.1.1 大数据的定义大数据的定义什么是大数据数据基本知识大数据定义用4V描述大数据特征1。大数据的5个特征数据体量巨大(Volume)数据类型繁多(Variety)价值密度低 (value)处理速度快(Velocity)大数据从TB级别跃升到PB级别;数据体量巨大。网络日志、视频、图片、地理位置信息等等价值密度低,商业价值高。1.1.2大大数据的数据的特特点点数据应具有真实性(Ve
8、racity)1.数据体量巨大(Volume)n数据量巨大:数据体量巨大是大数据的显著特征,其数据量目前为PB级或ZB级n增量大:数据的产生非常快,每天都在生成巨量的数据2.Variety n数据的来源多样:搜索引擎、社交网络、电商数据、物联网传感器n数据的种类多样:结构化数据、半结构化数据、非结构化数据数据的种类 结构化数据结构化数据:关系型数据库中的二维表:关系型数据库中的二维表 半结构化数据半结构化数据:HTML、XML、JSON、日志、日志文件文件 非结构化数据非结构化数据:文档类型数据、网页、社交网:文档类型数据、网页、社交网络数据、多媒体数据等。络数据、多媒体数据等。结构化数据结构
9、化数据:基于关系型数据库的数据,例:学号姓名班级号课程号成绩201601001张明160103100290201601002李四160205402195半结构化数据半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。生活中我们常见的半结构化数据pXML文档pJson文档p日志文件,如点击流(Click-stream Data)XML文档Json文档非结构化数据非结构化数据是指纯文本类数据,没有标准格式,无法直接解析出相应的值。此类数据不易收集和管理,且难以直接查询和分析。常见的非结构化数据p文本文件:文字处理、电子表格、演示文稿p即时消息(如QQ、微博、微信中消息)p富文本文档(
10、Rich Text Format,RTF)p媒体:MP3、数码照片、音频文件、视频文件。p网页文件。常见的非结构化数据3.Velocityn处理速度快:快速增长的数据量要求数据处理的速度也要相应地提升n数据的价值会随着时间而迅速降低:利用数据进行决策必须要能够快速分析数据n要求实时分析,如:内存数据库技术Redis4.Valuen 价值密度低,商业价值高价值密度低,商业价值高以超市购物小票数据为例,单张小票几乎没用,以超市购物小票数据为例,单张小票几乎没用,但把大量的小票集合在一起,能发现商品的销售但把大量的小票集合在一起,能发现商品的销售关联性关联性5.Veracity 数据应具有真实性数据
11、应具有真实性(veracity):数据的重要):数据的重要性在于对决策的支持,数据的规模并不能决定性在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量其能否为决策提供帮助,数据的真实性和质量才是获得真知的最重要因素。才是获得真知的最重要因素。在数据分析时应进行数据清理,过滤掉垃圾数在数据分析时应进行数据清理,过滤掉垃圾数据。据。1.1.4 大数据处理的过程大数据从数据源经过分析挖掘到最终获得价值一般需要经过4个阶段。大数据处理流程图数据采集数据预处理数据存储分析和挖掘网络爬虫日志采集传感器RFID射频技术数据抽取数据清洗特征选择数据标准化HDFSNoSQLRDBMS
12、等方法数据分析数据挖掘机器学习统计学等方法大数据技术的内容l大数据平台的部署和运维大数据平台的部署和运维 (Hadoop安装和使用)安装和使用)l大数据编程大数据编程 (MapReduce并行编程框架)并行编程框架)l大数据分析大数据分析 (数据挖掘、统计学方法)(数据挖掘、统计学方法)大数据专业对应的典型工作岗位大数据与传统数据的对比 传统数据大数据数据规模规模小,以MB、GB为处理单位规模大,以TB、PB为处理单位数据生成速率 每小时,每天更加迅速数据结构类型 单一的结构化数据多样化数据源集中的数据源分散的数据源数据存储关 系 数 据 库 管 理 系 统(RDBMS)分布式文件系统(HDFS)、非关系型数据库(NoSQL)模式和数据的关系先有模式后有数据先有数据后有模式,且模式随数据变化而不断演变处理对象数据仅作为被处理对象作为被处理对象或辅助资源来解决其他领域问题处理工具一种或少数几种处理工具不存在单一的全处理工具