1、大数据技术概述大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示大数据4大数据时代的背景4QQ、facebook4社交网络4Google4baidu4淘宝、ebuy4电子商务4超级TV4微信、微博、Apps4移动互联4游戏4 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。4互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。4 半个世纪以来,随着计算机技术全面融
2、入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。大数据的产生大数据的4V特征体量Volume多样性Variety价值密度低Value速度Velocity4非结构化数据的超大规模和增长4总数据量的8090%4比结构化数据增长快10倍到50倍4是传统数据仓库的10倍到50倍4大数据的异构和多样性4很多不同形式(文本、图像、视频、机器数据)4无模式或者模式不明显4不连贯的语法或句义4大量的不相关信息4对未来趋势与模式的
3、可预测分析4深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)4实时分析而非批量式分析4数据输入、处理与丢弃4立竿见影而非事后见效大数据要解决的问题 VolumeVolume海量的数据规模海量的数据规模Variety多样的数据类型多样的数据类型4Streams4Real time4Near time4Batch4TB4PB4EB4Structured4Unstructured4Semi-structured4All the aboveValueVelocity快速的数据流转快速的数据流转巨大的数据价巨大的数据价值值 大数据技术:统计分析:A/B test;top N排行榜;地域占
4、比等数据挖掘:聚类;分类;关联规则;预测模型机器学习:神经网络,支持向量机;文本挖掘:自然语言处理技术,文本情感分析 解决方案:数据采集:日志、爬虫;ETL工具,kettle等数据存储:HDFS,HBASE,Hive,MongoDB等数据读取:SQL;NoSQL等数据计算:并行计算:MapReduce技术 流计算:twitter的storm等 内存计算:Spark等结果展现:标签云;关系图等基础架构支持:分布式文件系统等(云存储)相关技术与解决方案4数据采集4数据储存4数据管理4数据分析与挖掘大数据应用4搜索引擎4推荐引擎4舆情系统4社交网络4知识管理4大数据与云计算云计算的模式是业务模式,本
5、质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。4大数据赋予我们洞察未来的能力机遇4 鬼城?房屋空置率电力公司4 马云成功预测2008 年经济危机4 Mobo的印度危机“2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿
6、里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。4人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。大数据时代挑战诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!4 更多的隐私、安全性问题:我们的隐私被二次利用了4 多少密码和账号是因为“社交网络”流出去的?2011年4月索尼的系统漏洞导致7700万用户资料失窃2
7、011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息2011年CSDN密码泄露事件2013年,斯诺登事件2000万开房数据12306数据4 银行账户信息心得4你是你是T还是还是P?4数据越多越好数据越多越好4深度挖掘、精准营销深度挖掘、精准营销4必须搞大数据必须搞大数据4必须要懂技术必须要懂技术心得4你是你是T还是还是P?4数据越多越好数据越多越好4深度挖掘、精准营销深度挖掘、精准营销4必须搞大数据必须搞大数据4必须要懂技术必须要懂技术4你是你是E、Z又怎样?又怎样?4价值才是王道!价值才是王道!中移动的教中移动的教训训4对大数据要宽容,容错性是对大数据要宽容,容错性是大数据重要特征
8、!大数据重要特征!准确率与召准确率与召回率回率4大数据不是万能的,没有大大数据不是万能的,没有大数据也不是万万不能的!数据也不是万万不能的!移动移动互联网最赚钱的是谁?互联网最赚钱的是谁?4懂点技术当然更好,但不要懂点技术当然更好,但不要迷失在不靠谱的技术中!迷失在不靠谱的技术中!4知道自己想要什么更重要!知道自己想要什么更重要!大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示大数据平台架构大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示 统计指标 Userid+激活时间+itemid+item所属类别(可分多级)User
9、id+使用时间+itemid+item所属类别(可分多级)用户留存分析用户留存分析 产出 统计新、老用户及所占比例,时间粒度包括年、季、月、周、日。用户留存分析用户留存分析 统计指标 Userid+使用时间+itemid+item所属类别(可分多级:频道、栏目、页面、模块)产出用户忠诚度分析模型用户忠诚度分析用户忠诚度分析 统计指标 Userid+消费时间+消费金额+itemid+item类别 产出用户价值生命周期用户价值分析用户价值分析 统计指标 1、Userid+消费时间+消费金额+itemid+item类别 2、Userid+使用时间+itemid+item所属类别 产出用户质量评价模型
10、用户综合质量评价用户综合质量评价大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示数据挖掘时代背景数据挖掘时代背景信息匮乏时代信息匮乏时代信息过载时代信息过载时代什么是数据挖掘?什么是数据挖掘?数据挖掘是从大量的数据中抽取出潜在的、数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势不为人知的有用信息、模式和趋势Jiawei HanJiawei Han(University of Illinois at Urbana-Champaign)数据挖掘不同的术语和定义:数据挖掘不同的术语和定义:data mining,knowledge discov
11、ery,pattern discoverydata mining,knowledge discovery,pattern discovery数据挖掘的基本步骤数据挖掘的基本步骤数据清理数据清理:消除噪音或消除噪音或不一致数据不一致数据数据集成数据集成:多种数据源:多种数据源可以组合在一起可以组合在一起 数据选择数据选择:从数据库中从数据库中提取与分析任务相关的提取与分析任务相关的数据数据数据变换数据变换:数据变换或数据变换或统一成适合挖掘的形式统一成适合挖掘的形式 数据挖掘数据挖掘:基本步骤,基本步骤,使用智能方法提取数据使用智能方法提取数据模式模式模式评估模式评估:根据某种兴根据某种兴趣度度
12、量,识别提供知趣度度量,识别提供知识的真正有用的模式识的真正有用的模式知识表示知识表示:使用可视化使用可视化和知识表示技术,向用和知识表示技术,向用户提供挖掘的知识户提供挖掘的知识数据挖掘涉及的技术数据挖掘涉及的技术4数据挖掘4数据库技术4统计学4机器学习4人工智能4信息科学4可视化技术4其他技术数据挖掘的功能类型数据挖掘的功能类型关联规则关联规则序列模式序列模式聚类挖掘聚类挖掘分类挖掘分类挖掘预测挖掘预测挖掘孤立点挖掘孤立点挖掘文本挖掘文本挖掘网络挖掘网络挖掘关联规则(关联规则(Association)反映一个事件和其他事件之间依赖或关联的知识反映一个事件和其他事件之间依赖或关联的知识 如果
13、两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测性值进行预测 可以用关联规则的形式表示可以用关联规则的形式表示 规则形式:“A B support,confidence”.应用:应用:业务相关性分析业务相关性分析 交叉销售交叉销售 货架摆放位置货架摆放位置 页面结构设计等页面结构设计等挖掘顺序发生的事件中的模式挖掘顺序发生的事件中的模式给定序列数据库和最小支持度阈值,序列给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的模式挖掘就是要找出序列数据库中所有的序列模式序列模式序列模
14、式挖掘序列模式挖掘序列模式挖掘序列模式挖掘4应用:用户访问模式预测用户移动模式挖掘用户点击流分析DNA序列分析自然灾害预测疾病病症预测聚类(聚类(Clustering)最大化类内的相似性、最小化类间相似性的原则进行聚类或最大化类内的相似性、最小化类间相似性的原则进行聚类或者分组,使得在一个类中的对象具有很高的相似性,而与其者分组,使得在一个类中的对象具有很高的相似性,而与其他类中的对象很不相似他类中的对象很不相似簇(簇(ClusterCluster):一个数据对象的集合一个数据对象的集合 在同一个类中,对象之间具有相似性在同一个类中,对象之间具有相似性 不同类的对象之间是相异的不同类的对象之间
15、是相异的聚类分析:聚类分析:把一个给定的数据对象集合分成不同的簇把一个给定的数据对象集合分成不同的簇特点:一种无监督分类法,没有预先指定的类别特点:一种无监督分类法,没有预先指定的类别4Page35聚类挖掘的应用聚类挖掘的应用用户细分与市场营销:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地使用:在一个陆地观察数据库中标识那些土地使用相似的地区;保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划:根据类型、价格、地理位置等来划分不同类型的住宅4Page36聚类算法聚类算法分类分类(classification)找出描述或识别数据类或概念
16、的找出描述或识别数据类或概念的模型模型(或函数或函数),以便能够使用模型,以便能够使用模型预测未知对象的类别预测未知对象的类别模型是由训练数据集(即,其类模型是由训练数据集(即,其类标记已知的数据对象)训练得到标记已知的数据对象)训练得到4Page39有监督和无监督学习有监督和无监督学习 无监督学习无监督学习 (聚类聚类)训练集是没有类标签的训练集是没有类标签的提供一组属性,然后寻找出训练集中存在类提供一组属性,然后寻找出训练集中存在类别或者聚集别或者聚集 有监督学习有监督学习 (分类分类)训练集是带有类标签的训练集是带有类标签的新的数据是基于训练集进行分类的新的数据是基于训练集进行分类的4P
17、age40分类的两个步骤分类的两个步骤模型创建模型创建:对一个类别已经确定的训练集创建模型对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别,使用类标签属性记录类每一条记录都属于一个确定的类别,使用类标签属性记录类别别 模型可用分类规则、决策树或者神经网络的形式来表达模型可用分类规则、决策树或者神经网络的形式来表达模型使用模型使用:用创建的模型预测未来或者类别未知的用创建的模型预测未来或者类别未知的记录记录 模型测试模型测试 模型预测模型预测使用创建的模型在一个测试集上进行预测,并使用创建的模型在一个测试集上进行预测
18、,并将结果和实际值进行比较将结果和实际值进行比较测试集和训练集是独立的测试集和训练集是独立的使用靠谱的模型预测未知对象的类使用靠谱的模型预测未知对象的类常用分类算法常用分类算法基本算法决策树贝叶斯KNN4组合方法随机森林Baggingadaboost4高级算法神经网络支持向量机预测预测4回归预测4时间序列预测4数据库中可能包含一些数据对象,它们数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这与数据的一般行为或模型很不一致,这些对象称作孤立点些对象称作孤立点孤立点包括很多潜在的知识,如分类中孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测的反常实例、不满足
19、规则的特例、观测结果与模型预测值的偏差、量值随时间结果与模型预测值的偏差、量值随时间的变化等的变化等孤立点(孤立点(Outlier)挖掘)挖掘4搜索引擎4舆情系统4文本推荐4微博新闻线索发现4用户评论分析4文本挖掘文本挖掘4Page464微博传播4话单网络4邮件网络4用户关系网络4用户搜索网络4用户兴趣网络4用户路径云图4网络挖掘网络挖掘大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示4用户行为路径4用户搜索网络4大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示4大数据赋予我们洞察未来的能力机遇4 鬼城?房屋空置率电力公司
20、4 马云成功预测2008 年经济危机4 Mobo的印度危机“2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。4人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。大数据时代大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示大数据概述大数据平台架构数据平台功能规划大数据核心技术Data Ming目录案例展示序列模式挖掘序列模式挖掘4应用:用户访问模式预测用户移动模式挖掘用户点击流分析DNA序列分析自然灾害预测疾病病症预测4Page55聚类算法聚类算法常用分类算法常用分类算法基本算法决策树贝叶斯KNN4组合方法随机森林Baggingadaboost4高级算法神经网络支持向量机