1、第一节第一节 大数据技术概述大数据技术概述第二节第二节 电子商务中的大数据技术电子商务中的大数据技术第三节第三节 大数据技术在移动电子商务中大数据技术在移动电子商务中的应用的应用移动电子商务与大数据技术移动电子商务与大数据技术一、大数据的概念一、大数据的概念大数据(big data),或称巨量数据、海量数据;是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。从某种程度上说,大数据是数据分析的前沿技术。从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据技术概述大数据技术概述一、大数
2、据的特征一、大数据的特征数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。数据最小的单位是bit,基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算大数据技术概述大数据技术概述一、大数据的特征一、大数据的特征大数据技术概述大数据技术概述7我国网民数量居世界之首,每天产生的数据量
3、也位于世界前列。淘宝网站u单日数据产生量超过5 5万万GBGBu存储量40004000万万GBGB百度公司u目前数据总量1010亿亿GBGBu存储网页1 1万亿页万亿页u每天大约要处理6060亿次亿次搜索请求一个8Mbps的摄像头u一小时能产生3.6GB3.6GB的数据u一个城市每月产生的数据达上千万上千万GBGB医院u一个病人的CT影像数据量达几十几十GBGBu全国每年需保存的数据达上百亿百亿GBGB大数据技术概述大数据技术概述一、大数据的特征一、大数据的特征一、大数据的特征一、大数据的特征大数据技术概述大数据技术概述数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和
4、非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括产品评论、网络日志、音频、视频、图片、地理位置信息等,多类型数据对数据的处理能力提出了更高要求。一、大数据的特征一、大数据的特征大数据技术概述大数据技术概述价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。一、大数据的特征一、大数据的特征大数据技术概述大数据技术概述数据处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著
5、特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。数据清洗(Data Cleaning):清除噪声数据、不一致的数据和与挖掘主题明显无关的数据;数据集成(Data Integration):将来自多数据源中的相关数据整合到一起,形成一致的、完整的数据描述;数据转换(Data Transform):通过汇总或聚集将数据转换为易于进行数据挖掘的数据存储形式;数据挖掘(Data Mining):知识发现的一个基本步骤,利用智能方法挖掘模式、规则、网络等知识;模式评估(Pattern Evaluation):根
6、据一定评估标准或度量(Measure)从挖掘结果中筛选出有意义的知识;知识表示(Knowledge Representation):利用可视化和知识表示技术,向用户展示所挖掘出的相关知识。大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤数据商务环境下的数据挖掘过程主要划分为以下过程:商业理解、数据理解、数据准备、建立模型、模型评估、模型发布。大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤商业理解确定商业目标 分析项目背景、具体商业目标 如何定义项目成功进行形势评估 描述项目拥有的资源、需求的资源和限制、项目风险 可能的偶发因素、成本与收益确定数
7、据挖掘目标 该目标应具有可评估性和可实现性 定义数据挖掘成功的标准 制定项目计划,描述和评估需使用的工具、方法 大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤数据理解收集原始数据,撰写数据收集报告,说明数据来源完成数据描述报告完成数据的探索性分析报告,说明业务数据的基本情况撰写数据质量报告,说明数据基本质量,如空缺值情况、字段完整率。大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤数据准备根据业务理解和挖掘目标,在已得到的数据集中确定挖掘时要包含(或去除)的数据根据数据探索性分析报告和质量报告,设计数据清洗方案,撰写数据清洗报告根据现有数据字段
8、设计数据重构方案,生成新的字段;整合相关数据格式化数据,使之适合于后续分析大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤建立模型从商业理解和可用的数据出发选择挖掘算法使用快速挖掘工具建立模型调整模型,分析模型结果,通过和预期结果比较分析、修订模型参数得到模型结果,整理挖掘结论大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤模型评估结果评估,结合商业理解评估挖掘结果,描述商业结论与管理、营销人员沟通,确定下一步的工作,做出决策是否结束模型调整。大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤结果发布设计模型维护计划及方案撰
9、写最终的数据挖掘报告项目总结大数据技术概述大数据技术概述二、大数据分析主要步骤二、大数据分析主要步骤关联分析:关联规则表示如XY形式,含义是数据库的某记录中如果出现了X情况,则也会出现Y的情况。这个写法与数据库中的函数依赖一致,但表述的则是数据库中记录的实际购买行为。一个数据挖掘系统可以从一个商场的销售(交易事务处理)记录数据中,挖掘出如下所示的关联规则:该商场有2%的顾客年龄在20岁到29岁且收入在2万到3万之间,这群顾客中有60%的人购买了MP3大数据技术概述大数据技术概述三、大数据分析方法简介三、大数据分析方法简介分类:根据已有的实例建立一个模型,使之能够识别对象所属类别,该模型可以用于
10、将未定类别的对象划分到已知类别的工作该典型的分类应用在商业中的客户识别、老客户维系、新客户获取等方面在河北省内,年龄在25岁到35岁的男士,且月收入在6000-10000之间,最有可能购买2013款的大众CC大数据技术概述大数据技术概述三、大数据分析方法简介三、大数据分析方法简介聚类:根据最大化簇内的相似性、最小化簇间的相似性的原则将数据对象聚类或分组,所形成的每个簇可以看作一个数据对象类该聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属,类
11、别归属标志在聚类分析处理的数据集中是不存在的大数据技术概述大数据技术概述三、大数据分析方法简介三、大数据分析方法简介时间序列模式:根据时间序列模式侧重于挖掘出数据的前后时间顺序关系,分析是否存在一定趋势,以预测未来的访问模式顾客购买商品A,接着购买商品B,而后购买商品C,即“序列A-B-C出现的频率较高”大数据技术概述大数据技术概述三、大数据分析方法简介三、大数据分析方法简介移动电子商务能够为数据挖掘提供海量的、干净的数据数据挖掘能够为电子商务的发展提供了强大的数据支撑,非常容易应用移动电子商务中的大数据技术移动电子商务中的大数据技术移动电子商务与大数据的关系移动电子商务与大数据的关系假如一个
12、小型移动电子商务站点每小时卖出4件产品,顾客平均买一件产品需要访问9个页面,且所有顾客中真正买东西的人的比例为2%,那么,一个月该网站能产生多少页面访问量呢?424309/0.02=1296000页面!移动电子商务中的大数据技术移动电子商务中的大数据技术移动电子商务与大数据的关系移动电子商务与大数据的关系 如果电子商务站点设计得好,可以获得各种商务信息或者用户访问信息:移动电子商务中的大数据技术移动电子商务中的大数据技术移动电子商务与大数据的关系移动电子商务与大数据的关系Web数据挖掘,是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的
13、模式或信息。涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析Web挖掘也分成三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用模式挖掘(Web Usage Mining)。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析Web内容挖掘对网络页面的内容进行挖掘分析。目前Web内容挖掘包括对文本、图像、音频、视频、元组数据的挖掘,但目前多数是基于文本
14、信息的挖掘,这又可以进一部分为网页内容挖掘和搜索结果挖掘,前者是传统的依据内容搜索网页,后者是在前者搜索结果的基础上进一步搜索网页。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析Web结构挖掘对网络页面之间的结构进行挖掘,从网页的实际组织结构中获取信息。整个Web空间中,有用的知识不仅包含在页面内容中,也包含在页面的结构中。Web结构挖掘主要就是针对页面的超链接结构进行分析,通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息如果发现有较多的超链接都指
15、向某一页面,那么该页面就是重要的。发现的这种知识可以用来改进搜索路径等。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析Web使用模式挖掘对用户和网络交互的过程中抽取出来的第二手数据进行挖掘,包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、客户简介、注册信息、客户对话或交易信息、客户提问方式等。其主要特点是对客户信息数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这里需要特别指出的是,Web使用模式挖掘还可以进一部分为一般访问模式跟踪和定制使用跟踪,前者是一种查看网页访问历史记录的使用模式挖掘。这种挖掘可以是
16、一般化的,也可以是针对特定的使用或使用者,这便是后者。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析-Web数据主要来源数据主要来源服务器数据客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括sever logs、error logs、cookie logs等。通常文件的格式为:“Date,Client,IP,User_name,Bytes,Server,Request,Status,Servic
17、ename,Time,Protocol version,User_agent,Cookie,Referrer”。如果可以对这些文件中存储的数据进行语法上的分析,例如分析DNS,就可以知道客户来源的区域,如域名A被分析后就可以知道客户来自美国。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析-Web数据主要来源数据主要来源查询数据电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问日志上。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的
18、大数据中的Web挖掘分析挖掘分析-Web数据主要来源数据主要来源在线市场数据 这类数据主要是传统关系数据库里存储的有关电子商务站点信息、客户购买信息、商品信息等数据。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析-Web数据主要来源数据主要来源Web页面及超级链接关系 Web页面主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等。超链接关系主要是指页面之间存在的超级链接关系,这也是一种重要的资源。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析-Web数据主要来源数据主要来源客户登记信息
19、是指客户通过Web页输入的、要提交给服务器的相关客户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析-Web数据主要来源数据主要来源移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析Web 服务器的日志(Web Log)记载了用户访问站点的信息,这些信息包括:访问者的IP地址、访问时间、访问方式(GET/POST)、访问的页面、协议、错误代码以及传输的字节数等信息
20、。222.198.122.5306/Dec/2006:10:13:10+0800“GET/mp3/zhufu.mp3HTTP/1.1”IP地址为222.198.122.53的用户于上午10点13分10秒访问了文件mp3/zhufu.mp3,以GET方法访问,HTTP/1.1 表示HTTP 协议版本。移动电子商务中的大数据技术移动电子商务中的大数据技术大数据中的大数据中的Web挖掘分析挖掘分析移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程数据清洗数据清
21、洗用户识别用户识别会话识别会话识别路径补充路径补充事务识别事务识别移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程 数据清洗:去除Web请求方法中不是“get”的记录以及删除Web服务器日志中与挖掘算法无关的数据,一般来说只有服务器日志中的HTML数据与挖掘相关,通过检查URL的后缀,可以删除不相关的数据。如可将日志文件中后缀名为JPG、GIF等图片文件以及后缀名为CGI的脚本文件删除。一些网站的页面用户在提出请求,但Web服务器拒绝该页面的请求,那么在数据清洗时应该过滤掉非法请求的页面,只对正常的页面进行数据处理。移动电子商务中的大数据
22、技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程 用户识别:数据清洗之后,使用基于日志的方法同时辅助以一些启发式规则,可以识别出每个访问网站的用户,这个过程就叫做用户识别。移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程在Web数据预处理中,需要识别出每一个访问站点的用户。利用基于日志的启发式规则可以进行有效的用户识别。可做规则:(1)用户IP地址不同则认为是用户不同;(2)若用户IP地址相同,则认为用户使用的浏览器或操作系统不同则代表不同用户;(3)当用户的IP地址、操作系和统浏览器均相同时,则应根据网
23、站的拓扑结构进行用户识别,如果被用户请求的某个页面不能通过已经访问过的任何页面到达,则判定这是一个新的用户。用户识别用户识别移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程某一用户可能多次访问该站点,这是我们就要用到会话识别。其目的就是将用户的访问记录分为单个会话(Session)。用二元组S表示一个用户会话:S=,其中userid是用户标识,RS是用户在一段时间内请求访问Web页面的集合,RS内包含用户请求页面的标识符Pid及请求时间time,那么这段时间的访问集合RS即可划分为:RS=,,于是,用户会话可表示为:S=userid,,由
24、此可以看出分成的每一个单独的会话。会话识别会话识别移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程在时间跨度较大的Web服务器日志中,某一站点可能被一个用户多次访问,会话识别的任务就是要从大量会话中识别出属于同一用户的同一次访问请求。在此,可设定规则来识别会话:(1)一个新用户的出现必然会有一个新会话的产生;(2)如果从一个页面到另一个页面的时间超过某个设定的时间阈值,就认为产生了一个新会话;(3)如果一个用户会话中引用的页面为空,则认为是一个新会话。会话识别会话识别移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的W
25、eb使用模式挖掘-数据预处理过程 路径补充:路径补充:由于代理服务器本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。路径补充就是利用引用日志和站点的的拓扑结构将这些遗漏的请求补充到用户会话中。设遗漏的请求为,其中请求时间timek为设备前后两次请求的平均值,那么,用户会话即可表示为:S=userid,(kn)移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程 路径补充:路径补充:在实际操作中,路径补充可遵循规则:(1)如果当前访问的页面和以前访问过的某个页面存在超链接关系,则可以认为用户是通过本地缓存调出页面历史记
26、录并链接到当前页面;(2)如果服务器日志中有多个页面和当前页面存在超链接关系,那么可以认为用户是通过这多个页面中最近被访问的页面链接到当前页面。移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程 事务识别:利用分割算法将用户会话转换为更小的事物进行挖掘,即进行事务识别。Frame页面用来定义页面的大小、位置、及内容,“Subframe”用来定义被Frame包含的子窗口页面。当用户访问URL对应的是一个Frame页面时,浏览器通过解释执行页面源程序,会自动向Web服务器请求该Frame页面包含的所有Subframe页面。移动电子商务中的大数据
27、技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-数据预处理过程 关联分析:通过分析用户访问网页间的潜在联系而归纳出的一种规则。用户访问页面company/product1时,也访问了页面company/product2。利用关联分析,进行页面预取,减少等待时间。Apriori算法:用 A=B表示。那么,若有:A=B=C,A=B=D,A=B=E,.,则说明A=B移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-模式发现过程 分类和预测:根据客户对某一类产品的访问情况,或如其抛弃购物车的情况,来对客户分类(即对哪一类产品感兴趣)。更深入一
28、点,可以为客户添加一些属性,如性别,年龄,爱好等(可在网站注册信息中获得),并将对哪一类产品感兴趣定义为目标属性,那么基于这些属性可以用决策树算法来进行分类,可以得出符合目标属性的人的特点,如30岁以上的男性更容易购买皮鞋等。根据神经网络对网站的下一阶段投入、资金风险进行分析移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-模式发现过程 聚类:页聚类:将内容相关的页面归到一个网页组,这对网页的搜索有很大帮助。客户聚类,即将具有相似访问特性的客户归为一组,可以分析出喜好类似的客户群。移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的We
29、b使用模式挖掘-模式发现过程在挖掘出客户访问模式和规则后,需进一步观察发现的规则、模式、和统计值。是发布模式还是对数据挖掘过程进行进一步调整?如果经过模式分析发现该模式不是我们想要的有价值的模式,则需要对挖掘过程进行调整。如果发现我们感兴趣的规则模式,采用可视化技术以图形界面的方式提供给使用者。移动电子商务中的大数据技术移动电子商务中的大数据技术基于移动电子商务的Web使用模式挖掘-模式分析过程移动电子商务中的大数据技术移动电子商务中的大数据技术Web 数据挖掘分析的难点将数据挖掘技术应用到互联网数据上,理论上可行,但是由于互联网自身的一些特点,也使它面临一些需要克服的技术难点:第一,移动互联
30、网上的数据动态性很强,页面本身的内容和相关的链接经常更新。而移动互联网面对的客户也各不相同,这些都增加了客户行为模式分析的困难度。而且,移动互联网上的数据是海量增长的。第二,Web页面支持多种媒体的表达,比一般文本文件结构复杂很多。人们希望通过Web来实现世界各种信息的互通,所以这个平台需要表达现实应用中所有的任何信息。因此也造成了互联网数据的复杂性这个特点,移动互联网上的文档一般是分布的,异构的,无结构或者半结构的。第三,客户访问站点的情况复杂多样。如何从日志文件中构造网站访问模型,挖掘出准确的客户访问模式从而发现网站被访问的规律,是一个复杂问题。大数据技术在移动电子商务中的应用大数据技术在移动电子商务中的应用