1、CONTENT目 录任务一 认识大数据任务二 了解大数据处理的基本流程任务三 熟悉大数据处理常用方法和工具任务四 熟悉大数据分析的常用方法项目四 处理与分析大数据了解大数据的特征与价值了解大数据预处理与处理的基本流程熟悉大数据处理的常用系统熟悉大数据分析的常用方法知识目标能力目标能够运用所学知识,对特定领域大数据的特征进行分析能够针对数据特征,选择适合的分析方法学 习 目 标思政目标在数据采集环节,塑造合法合规合理职业守则,牢固树立规则意识、法律意识与国家安全意识。在数据分析环节,引导学生科学思维,培养学生辩证思维、创新思维、批判性思维与关联思维能力。知 识 导 图任务一认识大数据案例导入大数
2、据挖掘技术是否可用于预测赛事结果 预测大学足球比赛结果这一问题既有趣味,又富有挑战性。学术界与工商界中敢于挑战的研究人员都想方设法预测体育赛事的结果。不同的媒体会报道大量的历史数据,这些数据都是关于体育赛事的结构与结果,以不同的数字或符号出现,其中存在着有助于推算结果的因素。然而,虽然存在大量关于体育赛事的文献,只有少量文献聚焦赛事预测特点,大部分文献都是有关体育市场效率的。以前大部分博彩市场研究都与市场经济效率有关,并不评估与那些赛事相关的实际(或暗示的)预测。而事实证明,从测试市场经济效率的研究中获取大量有关预测与预测程序的信息是可能的。赛季末的超级碗(Super Bowl)比赛对于大学的
3、经济与声望都有非常重要的意义。参加超级碗比赛选拔的团队会分配收益,收益的多少取决于超级碗比赛规模的大小,有些比赛名声较大,参加比赛的两个团队也会获得更高的红利。因此,获得超级碗比赛的邀请是所有的大学橄榄球俱乐部的目标。超级碗比赛的决策人员有权力选择并邀请杰出的团队(在当年赛季赢得其I-A对手六次的团队)参加激动人心、竞争激烈的超级碗比赛。这一比赛会吸引双方学校的球迷来观赛,剩下的球迷会通过各种媒体来了解赛事。超级碗比赛受到了来自学校、球迷等各方的关注,无论是比赛双方还是球迷热衷于对比赛结果进行预测。案例思考请同学们思考:传统的预测手段大多依靠经验以及对双方选手实力的判断,那么在大数据时代,如何
4、利用数据挖掘技术对赛事结果进行预测呢?一、大数据的特征(一)数据体量巨大(二)数据速度快(三)数据类型繁多(四)数据价值密度低大数据一词源于英文的“Big Data”,一般意义上讲,大数据指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。大家普遍认为,大数据具备数据体量巨大(Volume)、数据速度快(Velocity)、数据类型繁多(Variety)和数据价值密度低(Value)四个特征,简称“4V”。互联网每分钟产生的数据一、大数据的特征二、大数据与传统数据的区别区别大数据传统数据数据规模数据规模巨大数据规模相对较小数据类型数据的种类繁多,半结构化数据和非结构化数据
5、所占份额越来越大数据种类较少,且以结构化数据为主模式和数据的关系难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。关系数据库都先有模式+然后才会产生数据处理对象数据不但是处理对象,还可作为资源来辅助解决其他诸多领域的问题数据是处理对象处理方法数据探索:通过大数据的分析和处理来指导科学研究数据挖掘、数据仓库、联机分析处理(OLAP)等存储方式采用非关系型数据库(如No SQL)或分布式文件系统(HDFS)来存储数据大都采用关系型数据库保存数据三、大数据价值独立拥有及控制数据资产价值计量规则与货币资本类似具有资本一般的增值属性任务二了解大数据处理的基本流程
6、案例导入腾讯:数字化助手,赋能新型主流媒体建设 自2018年“930变革”以来,腾讯始终将“产业数字化转型的助手”作为自身定位与发展方向。腾讯公司董事会主席兼首席执行官马化腾表示:“腾讯将一如既往地发挥好数字化助手的角色,助力媒体进行数字化转型。”在赋能媒体发展的过程中,腾讯一方面通过战略目标、组织架构、技术体系等调整实现业务与业务之间的融合加权,提升自身赋能产业的能力,并将这种技术能力赋能至内部媒体业务运作;另一方面,通过为媒体提供数字接口和数字工具箱,助力媒体数字化转型。面对中央提出的建设“新型主流媒体”的战略要求,腾讯的数字化能力将发挥关键的驱动作用。以提高广告营销服务能力为例,腾讯依靠
7、其大内容生态,构建起了庞大的流量帝国,积累了丰富的广告营销资源。目前,腾讯将广告营销资源整合至了腾讯广告部门,并推出了腾讯广告投放管理平台,协助广告主进行一站式广告投放。在这个过程中,腾讯利用数据技术能力不断提高广告营销服务能力。目前,腾讯广告秉持着“连接用户与商业,驱动交易全链的用户增长”的原则,将其广告技术归为三类。案例导入腾讯:数字化助手,赋能新型主流媒体建设 思考:腾讯是如何运用数字化助手,提高广告营销服务能力的?一、数据采集大数据采集大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。数据包括RFID数据、传感器数据、用户行为数据、社交
8、网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。大数据采集的方法大数据采集的方法(一)数据库采集(一)数据库采集(二)系统日志采集(二)系统日志采集(三)网络数据采集(三)网络数据采集(四)感知设备数据采集(四)感知设备数据采集二、数据处理与集成行为事件访谈法是由麦克里兰结合“关键事件法”和“主题统觉法”而提出来的。它通过一系列开放式的问题,利用回顾式探察技术,搜集被访者在代表性事件中的具体行为和心理活动的详细信息数据处理与集成数据处理与集成数据的处理与集成主要是对已经采集到的数据进行适当的处理,清洗去噪以及进一步集成存储。通过数据的处理与集成这一步骤,将这些结构
9、复杂的数据转换为单一的或是便于处理的数据结构,为以后的数据分析打下良好的基础。三、数据分析行为事件访谈法是由麦克里兰结合“关键事件法”和“主题统觉法”而提出来的。它通过一系列开放式的问题,利用回顾式探察技术,搜集被访者在代表性事件中的具体行为和心理活动的详细信息数据分析数据分析经过上一步骤数据的处理与集成后,所得到的数据便成为数据分析的原始数据,用户会根据不同的分析目的和应用需求对这些数据进行进一步的处理和分析。p 数据挖掘p 机器学习p 智能算法p 统计分析p 数据分析方法数据分析方法四、数据解释行为事件访谈法是由麦克里兰结合“关键事件法”和“主题统觉法”而提出来的。它通过一系列开放式的问题
10、,利用回顾式探察技术,搜集被访者在代表性事件中的具体行为和心理活动的详细信息数据可视化技术数据可视化技术通过可视化技术,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受。人机交互技术人机交互技术利用交互式的数据分析过程来引导用户逐步地进行分析,使用户在得到结果的同时更好地理解分析结果。任务三熟悉大数据处理常用方法和工具案例导入科大讯飞大数据处理解决方案 大数据平台建设方面,科大讯飞以数据导向为理念,以EcoSystem为设计理念,以Hadoop为核心,综合应用相关技术,构建起支撑企业所有业务需求的大数据平台。科大讯飞的大数据平台有专门的名称Maple。整个Maple大数据平台承载
11、着公司级的大数据战略,科大讯飞云平台、研究院、平嵌、移动互联和智能电视都通过Maple大数据平台实现数据和技术的共享。另外,面向互联网的相关产品,包括讯飞开放平台、讯飞输入法、灵犀语音助手、酷音铃声,所有的数据均汇集到了Maple大数据平台。这一平台分成三个部分:一是基础机群,围绕着Cloudera发行版本CDH来构建的;二是构建了自己的Maple-SDK(SDK为Software Development Kit的缩写,即软件开发工具),是面向开发者提供的开发包;三是Maple-BDWS(BDWS为BigData WorkStation的缩写,即大数据工作站),是整个大数据平台的一个门户。下图
12、为Maple大数据平台的架构。案例思考:为了更好地整合各类相关的大数据技术,满足企业大数据业务发展需要,科大讯飞为Maple大数据平台提供了完善的解决方案。1.Maple-BDWS:作为Maple大数据平台的门户,具有的业务功能包括:(1)代码托管;(2)编译部署;(3)工作流设计;(4)任务调度;(5)数据与任务信息浏览。2.Maple-SDK:是Maple大数据平台的灵魂,包括以下5个组件:(1)数据建模(DataSource):适用于大数据的动态、自动建模系统,是实现数据导向理念的基础。(2)Avro-MapReduce编程库:实现Avro-MapReduce任务开发、数据存储和数据收集
13、等功能。(3)Flume-ng扩展组件(Flume-ng-ext):以AvroFile为缓存的FileChannelPlus,极大地提升了速度与稳定性;支持Stable的改进版HDFS-Sink;分布式节点监控与智能配置管理服务,解决了Flume-ng配置管理复杂的问题;支持多语言的Loglib。(4)统计分析(Maple-Report):报表定义与计算引擎分离;同数据源的多维度、多指标一次计算完成;小时、日、周数据依次复用。(5)分布式索引(Maple-Index):包括实时日志检索系统,实现了日志收集与日志检索融为一体。科大讯飞是采用哪种方法和工具进行数据处理的?一、大数据预处理流程(一)
14、数据清洗(1)利用与外部的关联,手工解决(2)利用知识工程工具发现不一致数据1.遗漏数据处理2.噪声数据处理3.不一致数据处理数据清洗(1)Bin方法 (2)聚类分析方法(3)人机结合检查方法 (4)回归方法(1)忽略该条记录 (2)手工填补遗漏值(3)利用默认值填补遗漏值 (4)利用均值填补遗漏值(5)利用同类别均值填补遗漏值 (6)利用最可能的值填补遗漏值一、大数据预处理流程(二)数据集成1.模式集成问题2.冗余问题3.数据值冲突检 测与消除问题数据清洗若一个属性可以从其他属性中推演出来,那这个属性就是冗余属性,例如,一个顾客数据表中的平均月收入属性就是冗余属性,显然它可以根据月收入属性计
15、算出来。例,如何确定一个数据库中的“custom_id”与另一个数据库中的“custome_number”是否表示同一实体。数据库与数据仓库通常包含元数据,这些元数据可以帮助避免在模式集成时发生错误。数据集成即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。在数据集成过程中,需要考虑解决以下几个问题。来自不同数据源的属性值或许不同。例如,重量属性在一个系统中采用公制,而在另一个系统中却采用英制;价格属性在不同地点采用不同的货币单位。这些语义的差异为数据集成带来许多问题。一、大数据预处理流程(三)数据转换数
16、据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。数据转换包含以下内容。序号转换方法1平滑处理帮助除去数据中的噪声,主要技术方法有Bin方法、聚类方法和回归方法。2合计处理对数据进行总结或合计操作。3数据泛化处理用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。4规格化处理将一个属性取值范围投射到一个特定范围之内,以消除数值型属性因大小不一而造成挖掘结果的偏差。5属性构造处理利用已有属性集构造出新的属性,并将其加入到现有属性集合中以挖掘更深层次的模式知识,提高挖掘结果准确性。一、大数据预处理流程(四)数据消减数据消减技术的主要目的就是从原有巨大数据集中获得一个精简的数
17、据集,并使这一精简数据集保持原有数据集的完整性。主要策略有以下几种:序号转换方法1数据立方合计这类合计操作主要用于构造数据立方(数据仓库操作)。2维数消减主要用于检测和消除无关、弱相关,或冗余的属性或维(数据仓库中属性)。3数据压缩利用编码技术压缩数据集的大小。4数据块消减利用更简单的数据表达形式,如参数模型、非参数模型(聚类、采样、直方图等),来取代原有的数据。5离散化与概念层次生成所谓离散化就是利用取值范围或更高层次概念来替换初始数据。利用概念层次可以帮助挖掘不同抽象层次的模式知识。二、大数据预处理常用工具ETL简介(一)ETL含义通过预先设定数据处理的可视化功能结点,达到可视化地进行数据
18、清洗和数据转换的目的。针对缩减并集成后的数据,通过组合预处理子系统提供的各种数据处理功能结点,以可视化的方式快速有效地完成数据清洗和数据转换过程。1.数据表属性 一致化2.数据缩减3.可视化数据 清洗和转换清洗步骤通过数据缩减,大幅度缩小数据量。由于源数据量很大,处理起来非常耗时,所以可以优先进行数据缩减,以提高后续数据处理分析的效率。通过元数据管理子系统,在理解源数据的同时,对不同表的属性名根据其含义重新定义其在数据挖掘库中的名字,并以转换规则的形式存放在元数据库中,在数据集成的时候,系统会自动根据这些转换规则将源数据中的字段名转换成新定义的字段名,从而实现数据挖掘库中的同名义。ETL分别是
19、Extract、Transform和Load这3个单词的首字母,即数据抽取、转换、装载的过程,但经常简称其为数据抽取。使用ETL工具进行数据清洗的步骤如下:(二)步骤三、大数据处理常用系统Google提出了一整套基于分布式并行集群方式的基础架构技术,该技术利用软件的能力来处理集群中经常发生的结点失效问题。Google使用的大数据平台主要包括3个相互独立又紧密结合在一起的系统:Google文件系统(Google File System,GFS),针对Google应用程序的特点提出的MapReduce编程模式,以及大规模分布式数据库Big Table。(一)Google大数据处理系统GFS系统架构
20、三、大数据处理常用系统Hadoop是一种分析和处理大数据的软件平台,是一个用Java语言实现的Apache的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。Hadoop采用MapReduce分布式计算框架,根据GFS原理开发了HDFS(分布式文件系统),并根据Big Table原理开发了HBase数据存储系统。(二)Hadoop大数据处理系统Hadoop生态系统任务四熟悉大数据分析的常用方法一、数据挖掘的价值类型p 数据挖掘就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。价值通常包括相关性、趋势和特征。属性之间的相关性某市场交易规模增长趋势用户特征画像二、大数据
21、分析算法p 常用的数据挖掘算法一般分为两大类,有监督的学习和无监督的学习。二、大数据分析常用工具Spark MLlib简介行为事件访谈法是由麦克里兰结合“关键事件法”和“主题统觉法Spark MLlibSpark MLlib的构成的构成(1)数据类型:向量、带类别的向量、矩阵等。(2)数学统计计算库:基本统计量、相关分析随机数产生器、假设检验等。(3)算法评测:AUC、准确率、召回率,F-Measure等(4)机器学习算法:分类算法、回归算法、聚类算法、协同过滤等。Spark MLlibSpark MLlib的优势的优势机器学习算法一般都有由多个步骤组成迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛时才会停止。Spark具有出色而高效的Akka和Netty通信系统,通信效率高于Hadoop Map Reduce计算框架的通信机制。THANK YOU FOR WATCHING欢迎交流指正欢迎交流指正
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。