1、电子商务与数据挖掘基于WEB日志的用户访问模式挖掘电子商务与数据挖掘完美结合n在电子商务中进行成功的数据挖掘得益于:q电子商务提供海量的数据n如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是160万次。q丰富的记录信息n良好的WEB站点设计将有助于获得丰富的信息q干净的数据n从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合q研究成果容易转化n在电子商务中,很多知识发现都可以进行直接应用q投资收益容易衡量电子商务为数据挖掘提供海量数据n“点击流”(Clickstreams)将会产生电子商务挖掘的大量数据qYahoo!在2000年每天被访问的页面数是1
2、0亿,如此大的访问量将会产生巨大的Web日志(记载页面访问的情况),每个小时产生的Web日志量就达到10GB!n即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据q计算一下,如果你的站点一个小时卖出5件物品,一个月会有多少页面访问:q5件24小时30天/2(转化率,表示访问的人中买东西的人的比率)9页面(平均买一件物品要访问9个页面)1,600,000页面丰富的记录信息n如果你的电子商务站点设计的好,你将可以获得各种商务的或者是用户访问的信息:q商品和商品的属性q商品的归类信息(当同时展示多种商品是,归类信息是非常有用的)q促销信息q关于访问的信息(比如:访问计数)q关于
3、客户额信息(可以通过登陆/注册来获得)“干净的数据”n信息直接从网站上提取q无需从历史系统中集成,避免很多错误n可以通过良好的站点设计,直接获得跟数据挖掘有关的数据q而不是再来分析、计算、预处理要用的数据n直接收集的电子数据可靠q无需人工数据输入,避免了很多错误n可以通过良好的站点设计,良好的控制数据采样的颗粒度q颗粒度控制在客户级别或者是session级别,而不是页面级别有趣的“生日现象”n一个银行通过对客户数据统计发现,它的5的客户都是在同一天出生的(同年同月同日)!为什么?为什么?如何解释?如何解释?研究成果容易转化n历史上的数据挖掘研究有过许多的知识发现,但是这些知识发现却很少在实际的
4、商业应用中产生什么效果q要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯,这在现实中是非常困难的。n在电子商务中,很多知识发现都可以进行直接应用q改变站点的设计(改变布局,进行个性化设计等)q开始有目标的促销q根据对广告效果的统计数据改变广告策略q可以很容易的提供捆绑销售投资收益容易衡量n使用数据挖掘成果的革新带来的收益如何衡量?q在传统的商业中衡量投资收益需要长期的测量和观察,Paco Underhill在购物的科学一书中提及,一个超市为了衡量他们的促销策略带来的投资收益,每年要花14,000个小时查看录像带。n在电子商务中,衡量革新的投资收益是非常容易的q
5、销售变化的报表可以自动产生q客户对电子邮件和电子调查的反馈都可以在几天内得到,而不必等个几个月q电子商务乃至整个互联网都是传统商业的理想试验室。对电子商务网站的Web数据挖掘n通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。n我们可以在一个电子商务网站挖掘些什么东西?q内容挖掘(Web Content Mining)q结构挖掘(Web Structure Mining)q使用挖掘(Web Usage Mining)Web Content Miningn对Web页面内容进行挖掘,从Web数据中发现信息。q自动地从数以百万计的Web站点和在线数据库中搜索和获取信息和资料;q尽管人们可以
6、直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。Web Structure MiningnWeb Structure Mining是对Web页面之间的结构进行挖掘。q在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中。qWeb结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等。Web Usage Miningn与Web Content Mining和Web Structure Mining不同的是,Web Usage Mining的挖掘对象是用
7、户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志里留下的信息,以及其它一些交互信息,q日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等。qWeb Usage Mining就是对系统日志信息,以及用户的注册数据等进行挖掘,以发现有用的模式和知识。Web Usage Mining的作用n通过对电子商务网站应用Web Usage Mining数据挖掘技术,可以q提高站点的质量q改善WEB缓存,缓解网络交通,提高性能q在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能Web日志(
8、1)n典型的日志文件片断-01/Aug/1995:00:01:38-0400 GET/shuttle/missions/sts-71/images/images.html HTTP/1.0 200 8529q133.43.96.45-01/Aug/1995:00:01:39-0400 GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0 200 3804q133.68.18.180-01/Aug/1995:00:01:48-0400 GET/persons/nasa-cm/jmd.html HTTP/1.0 200 4067nWEB日
9、志通常包含7个字段:q第一项:远程主机的地址,即它表明访问网站的究竟是谁。q第二项:浏览者的email地址或者其他唯一标识符。到了今天,我们在日志记录的第二项看到email地址的机会已经微乎其微,所以上面用-,标志字段为空Web日志(2)n典型的日志文件片断-01/Aug/1995:00:01:38-0400 GET/shuttle/missions/sts-71/images/images.html HTTP/1.0 200 8529q第三项:记录浏览者进行身份验证时提供的名字;对于不需要用户身份验证的网站,这个字段都是空白-;q第四项:请求的时间;q第五项:告诉我们服务器收到的是一个什么样
10、的请求。该项信息的典型格式是“METHOD RESOURCE PROTOCOL”,即“方法 资源 协议”;这是Web日志中最有用的信息,在上面的示例中nMETHOD是GETnRESOURCE是指浏览者向服务器请求的文档,或URLnPROTOCOL通常是HTTP,后面再加上版本号。Web日志(3)n典型的日志文件片断-01/Aug/1995:00:01:38-0400 GET/shuttle/missions/sts-71/images/images.html HTTP/1.0 200 8529q第六项:状态代码。它告诉我们请求是否成功,或者遇到了什么样的错误。大多数时候,这项值是200,它表示
11、服务器已经成功地响应浏览器的请求,一切正常。q第七项:发送给客户端的总字节数。Web Usage Mining的基本过程n进行Web Usage Mining主要是通过对系统日志信息的数据挖掘qWeb 服务器日志qError LogsqCookiesnWeb Usage Mining的基本实现过程q预处理q模式发现q模式分析预处理n通过预处理,使挖掘过程更有效、更容易q数据清洗 其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉;n比如:剔除用户请求方法中不是GET的记录;q用户识别 日志文件只是记录了主机或代理服务器的IP地址,要识别用户,需要Cookie技术和用一些启发规则来帮助识别
12、;q路径补充 确认Web日志中是否有重要的页面访问记录被遗漏;q事件识别 事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。模式发现n在经过预处理后的数据上应用各种数据挖掘的功能和算法,挖掘出有用的模式和规则的过程。nWeb Usage Mining中用到的Web日志分析及用户行为模式的挖掘方法包括:q关联分析q分类和预测q聚类分析q序列模式q统计分析Web Usage Mining关联分析(1)n通过分析用户访问网页间的潜在联系而归纳出的一种规则;q如80%的用户访问Web页面/company/product1时,也访问了/company/product 2;
13、n常用算法qApriori算法或其变形算法,频繁模式树(FP-树)算法等等,挖掘出访问页面中频繁的在一起被访问的页面集n比如可以通过A=B=CA=B=DA=BA=B=E=FWeb Usage Mining关联分析(2)n可以使用通过关联分析挖掘出来的频繁项集(页面集)来q预取可能请求的页面,以减少等待时间,n对于频繁项集(页面集)A,B,在用户访问A时,将页面B调入缓存中,从而改善Web缓存,缓解网络交通,提高性能q促进网上商务n对于频繁项集A,B,如果分别代表两个产品的页面,则说明这两个产品间存在相关性,可以利用这点在电子商务的实践中给出更有效的促销策略或广告策略Web Usage Mini
14、ng分类和预测n分类和预测功能可以用来提取描述重要数据类的模型,并使用模型预测来判定未知数据的类标号,从而预测未来的数据趋势。n常用算法:判定归纳树、贝叶斯分类、k-最近邻分类等n应用:可以根据用户的个人资料或者其特定的访问模式,将其归入某一特定的类q可以根据用户对某类产品的访问情况,或者时根据其购物情况,或者根据其抛弃购物车的情况,来决定用户的分类(e.g.对电子产品感兴趣的用户),并对相应的分类使用相应的促销策略。Web Usage Mining聚类分析(1)n聚类:将对象的集合分组成为由类似的对象组成的多个类的过程。(与分类的区别?)n常用聚类算法:划分方法、层次的方法、基于密度的方法等
15、等。n在Web Usage Mining应用中包含着两种聚类。q页聚类n将内容相关的页面归在一个网页组,对网上搜索引擎及提供上网帮助很有用q用户聚类n将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用Web Usage Mining聚类分析(2)n聚类分析可以喜好类似的用户,从而动态地为用户定制观看的内容或提供浏览建议。q比如:购买推荐系统或动态促销系统n作用:q1)方便用户查询和浏览q2)增强广告的作用q3)促进网上销售q4)提高用户忠诚度Web Usage Mining统计分析(1)n统计分析q通过求出现率、求平均、求中值等,统计最常访问的网页,
16、每页平均访问的时间,浏览路径的平均长度等,以获得用户访问站点的基本信息。q还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。q可以用来计算客户对某页面的访问次数,停留时间等,得到访问次数最多的页面(或产品、URL等)Web Usage Mining统计分析(1)n常用的电子商务网站用户访问数据统计(节选)q平均一个用户n访问810个页面n在站点上花5分钟n每个页面上花35秒q平均一个购物的用户n访问50个页面n在站点上花30分钟q这是经过大量的数据统计得出的结果,具有高度一致性。Web Usage Mining序列模式n序列模式试图找出页面依照时间顺序出现的内在模式q序列模式可以用来做用户的浏览趋势分析,即一组数据项之后出现另一组数据项,从而形成一组按时间排序的会话,以预测未来的访问模式,这将有助于针对特别用户群安排特定内容。n趋势分析n访问模式的相似性分析模式分析n在挖掘出一系列用户访问模式和规则后,还需要进一步观察发现的规则、模式和统计值。n确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型。n经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。课后思考n除了用户访问模式,电子商务中还能挖掘其他什么东西?n基于Web日志的用户访问模式挖掘有什么缺点?