1、大数据应用案例分析.目录大数据概念1大数据处理办法2大数据应用案例3.1大数据概念大数据概念.大大 数数 据据 时时 代代 到到 来来随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:地球上至今总共的数据量:在在2006 年,个人用户才刚刚迈进年,个人用户才刚刚迈进TB时代,时代, 全球一共
2、新产生了约全球一共新产生了约180EB的数据;的数据;据据IDC研究机构预测:研究机构预测:到到2020 年,整个世界的数据总量将会增长年,整个世界的数据总量将会增长44 倍,达到倍,达到35.2ZB(1ZB=10 亿亿TB)!)!1PB = 250字节字节1EB = 260字节字节1ZB = 270字节字节GB在在2011 年,这个数字达到了年,这个数字达到了1.8ZB。TBPBEBZB01.大大 数数 据据 的的 构构 成成大数据大数据 =海量数据(交易数据、交互数据)海量数据(交易数据、交互数据)+针对海量数据处理的解决方案针对海量数据处理的解决方案海量交易数据:海量交易数据: 企业内部
3、的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。海量交互数据:海量交互数据: 源于Facebook、Twitter、微博、及其他来源的社交媒 体数据构成。它包括了呼叫详细记录CDR、设备和传感 器信息、GPS和地理定位映射数据、通过管理文件传输 Manage File Transfer协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。可以告 诉我们未来会发生什么。海量数据处理:海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的 架构。例如具有开放源码、
4、在商品硬件群中运行的 Apache Hadoop。注:大数据注:大数据 不仅仅指的是数据量庞大,更为重要的是数据类型复杂不仅仅指的是数据量庞大,更为重要的是数据类型复杂想驾驭这庞大的数据,我们想驾驭这庞大的数据,我们必必 须了解大数据的特征。须了解大数据的特征。02.大大 数数 据据 4V 特特 征征03结构化数据、半结构化数据和非结结构化数据、半结构化数据和非结构构化化 数据数据如今的数据类型早已不是单一的文本形式,网络日志、 音频、视频、图片、地理位置信息等,对数据的处理 能力提出了更高要求实时获取需要的信息实时获取需要的信息比如:在客户每次浏览页面,每次下订单过程中都会 对用户进行实时的
5、推荐,决策已经变得实时数据量巨大数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到 2020 年,全球将总共拥有35ZB 的数据量沙里淘金,价值密度低沙里淘金,价值密度低虽然数据量很大,但是价值密度较低,如何通过强大 的机器算法更迅速地完成数据价值“提纯”,是目前 大数据亟待解决的难题大数据大数据产品产品市场价值市场价值解解决决方方案案转转化化1. 海量(海量(VolumeVolume)3.速度(速度( VelocityVelocity)4. 价值(价值(value)2. 多样(多样(VarietyVariety).2大数据处理办法大数据处理办法.用用 户户 画画 像像 体体 系系0
6、1每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。 产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进 行精准投放。行精准投放。活跃程度如何?活跃程度如何?年龄分布、区域分布是什么样的年龄分布、区域分布是什么样的?消费习惯和特征是什么消费习惯和特征是什么?公司在哪?公司在哪?对什么感兴趣?对什么感兴趣?常去的商圈是哪儿?常去的商圈是
7、哪儿?赢利点在哪?赢利点在哪?职业是什么?职业是什么?常住地在哪儿常住地在哪儿?购买能力如何?购买能力如何?基本特征?基本特征?.用用 户户 画画 像像 体体 系系02驾驶行为数据将构建精准的车险用户画像性别年龄国籍地理位置开车地点职业驾照类别开车频率开车原因健庩状况医疗条件感知力学习周期消费习惯民族特征教育水平婚姻状态共用车辆情况生活方式使用药物情况酒驾经历疲劳驾驶收入情况碰撞事故车辆维修犯罪记录违章驾驶记录 驾驶时间通过对用户不同维度的大数据分析,最终得出可执行的业务决策。通过对用户不同维度的大数据分析,最终得出可执行的业务决策。基本基本属性属性行为习惯购买 能力心理 特征社交 网络兴趌
8、爱好.基于机器学习的基于机器学习的数据挖掘及分类数据挖掘及分类基本识别流程基本识别流程03训练样本训练样本 数据源数据源分词分词特征选择特征选择特征权重计算特征权重计算模型训练模型训练是是模型评估模型评估是否通过是否通过待预测待预测 类别文类别文 本库本库文本打文本打 上类别上类别 标签标签否否训训 练练 及及 测测 试试 过过 程程预预 测测 过过 程程训练生成训练生成 的模型的模型训练生成训练生成 的模型的模型待预测类待预测类 别文本原别文本原 始库始库数据预处理数据预处理训练样本训练样本库库数据预处理数据预处理a.去除营销博文干扰去除营销博文干扰 b.去去除提及人的干扰(除提及人的干扰(
9、) c.去除如门户的作者的干扰去除如门户的作者的干扰.大大 数数 据据 的的 处处 理理04数据 去重空值 处理数据 去噪格式 统一对齐融合融合信息 数据库融合信息 数据库里程数据工况数据充电数据行驶轨迹车辆信息将空值更将空值更改为改为 对对应的默认应的默认值值使用使用UGC算法去除算法去除无用数无用数据据 使用基于密度的聚类去除使用基于密度的聚类去除异常数据异常数据将多源异构数将多源异构数据转换据转换 为统一为统一数据表达形式数据表达形式去除去除异常的数异常的数据项据项汇聚多源异构汇聚多源异构数据数据 中的中的一致部分一致部分数数据据挖挖掘掘分分类类的的过过程程.3大数据应用案例大数据应用案
10、例.大数据是做好音乐平台的一把利器大数据是做好音乐平台的一把利器01.产产 品品 竞竞 争争04*听歌进入社交化时代,听歌单、听歌看评论成为流行听歌行为;*个性化推荐已覆盖多数听歌用户,越来越多用户通过个性化推荐发现好音乐;*听歌进入多元化时代,民谣、电音、二次元音乐崛起;*独立音乐人迅速崛起,社交互动助推音乐人涨粉;*90后已成为音乐消费主力人群;*用户付费意识明显提高,付费会员数和数字专辑售卖增长迅猛;*综艺影视对音乐的影响依旧强大,热门歌曲中7成来源于综艺或影视;*偶像流行乐保持高热度,欧美歌曲受众提升;*音乐市场正在构建一种新的评价体系,评论数成为歌曲热度重要评价指标;*男歌手受喜爱度
11、高于女歌手,女性歌迷消费群体经济崛起;截至2016年7月呈现2亿音乐用户听歌行为以及2万音乐人活跃行为.用户分析用户分析05目标用户细分群体用户特征需求音乐消费者学生年轻,时间宽裕,喜欢新鲜,爱评论爱分享爱展示,有个性1、个性化推荐音乐2、对音乐有评论等互动行为3、分享展示喜欢的音乐白领时间碎片化,有一定压力,会关注娱乐界动态4、迅速找到喜欢的音乐5、推荐潮流音乐6、有明星动态IT从业者压力大,需要更多消遣和心理慰藉时尚人士热爱音乐和潮流,有个性7、分享自己的口味主要需求(音乐消费者)主要需求(音乐消费者)1、播放、播放音乐音乐2、发现、发现音乐音乐(喜欢的、特别的、潮流的)喜欢的、特别的、潮
12、流的)3、展示自我,有基于音乐的互动。、展示自我,有基于音乐的互动。目标用户:热爱音乐,对音乐有较高需求的高素质年轻人群。.用户分析用户分析05目标用户:热爱音乐,对音乐有较高需求的高素质年轻人群。通过数据可以发现网易云音乐用户群中19-30岁年龄段用户最多,占比达到48%,整体用户群偏年轻化。职业分布:学生和IT从业者占据绝大用户群,企业中高层管理人员所占比例最少,另外的专业工作人员所占比例区别不大,用户群体整体受教育程度普遍较高。.05目标用户细分群体用户特征需求音乐内容产生者音乐人/DJ作品找不到渠道,希望建立个人品牌,更好的运营个人品牌1、传播自己的音乐,让更多的人知道2、与粉丝有互动
13、歌手有一定知名度,有粉丝基础3、进一步提高知名度,吸引更多粉丝唱片公司商业机构,营利是最重要的目的。4、提高收入音乐爱好者喜欢分享音乐,评论音乐5、希望得到更多展示(专栏)主要需求(音乐内容产生者)主要需求(音乐内容产生者)1、宣传音乐、宣传音乐(新歌、特别的口味)(新歌、特别的口味)2、宣传个人品牌、宣传个人品牌(演播厅、采访直播、互动等)(演播厅、采访直播、互动等)3、盈利、盈利(版权收费、会员收费等)(版权收费、会员收费等)用户分析用户分析目标用户:(内容产生者是活跃音乐社区的关键).用户分析用户分析05.用户分析用户分析05.02推荐歌单推荐歌单3种推荐维度和2种推荐算法通过微信微博等
14、社区软件进行传播分享网易音乐编辑人员人工推荐的歌单和电台。朋友推荐朋友推荐人工推荐人工推荐通过大数据分析计算后的智能推荐歌单智能推荐智能推荐以人为本以人为本算法算法以歌为本以歌为本算法算法“喜欢这首歌的人,也喜欢XX”喜欢:点击“喜欢”、评论、下载、收藏到歌单的人所听歌曲的标签在其它歌曲也包含则推荐该歌曲.02计计 算算 公公 式式潜在因子(LatentFactor)算法:这种算法是在NetFlix(没错,就是用大数据捧火纸牌屋的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的邰原朗所介绍的算法误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、王菲等元素(latentfactor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。矩阵计算得分的方式矩阵计算得分的方式.TNANKYOU!.
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。