1、第7章 数据挖掘方法7.6电子商务web挖掘Web数据挖掘,是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。Web挖掘也分成三类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用模式挖掘(Web Usage Mining)。Web内容挖掘对网络页面的内容进行挖掘分析。目前Web内容挖掘包括对文本、图像、音频、视频、元组数据的挖掘,但目前多数是基于文本信息的挖掘,这又可以
2、进一部分为网页内容挖掘和搜索结果挖掘,前者是传统的依据内容搜索网页,后者是在前者搜索结果的基础上进一步搜索网页。Web结构挖掘对网络页面之间的结构进行挖掘,从网页的实际组织结构中获取信息。整个Web空间中,有用的知识不仅包含在页面内容中,也包含在页面的结构中。Web结构挖掘主要就是针对页面的超链接结构进行分析,通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息如果发现有较多的超链接都指向某一页面,那么该页面就是重要的。发现的这种知识可以用来改进搜索路径等。Web使用模式挖掘对用户和网络交互的过程中
3、抽取出来的第二手数据进行挖掘,包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、客户简介、注册信息、客户对话或交易信息、客户提问方式等。其主要特点是对客户信息数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这里需要特别指出的是,Web使用模式挖掘还可以进一部分为一般访问模式跟踪和定制使用跟踪,前者是一种查看网页访问历史记录的使用模式挖掘。这种挖掘可以是一般化的,也可以是针对特定的使用或使用者,这便是后者。基于电子商务的数据挖掘概念基于电子商务的数据挖掘概念就是通过Web挖掘等数据挖掘技术,利用分类、聚类、时间序列分析、关联规则等挖掘方法充分分析电子商务网站
4、能够提供的网络日志等海量数据,从而得到相关知识,以此来定位目标群体,发现潜在客户,优化网点,提供个性化服务,引导市场决策,最终达到商务增值的过程。电子商务中数据挖掘的主要目标:电子商务中数据挖掘的主要目标:帮助企业确定营销机制。在电子商务中,商业信息来自各个渠道,这些数据信息经过数据挖掘技术进行处理后,可从中得到用于特定消费群体或个人定向营销的决策信息,以确定电子商务的营销机制。Web挖掘与电子商务挖掘与电子商务电子商务能够为数据挖掘提供海量的、干净的数据数据挖掘能够为电子商务的发展提供了强大的数据支撑,非常容易应用Web挖掘与电子商务挖掘与电子商务假如一个小型电子商务站点每小时卖出4件产品,
5、顾客平均买一件产品需要访问9个页面,且所有顾客中真正买东西的人的比例为2%,那么,一个月该网站能产生多少页面访问量呢?424309/0.02=1296000页面!Web挖掘与电子商务挖掘与电子商务 如果电子商务站点设计得好,可以获得各种商务信息或者用户访问信息:在电子商务领域其作用主要有4个方面:Web挖掘与电子商务挖掘与电子商务Web挖掘的数据来源与类型挖掘的数据来源与类型Web挖掘的数据来源与类型挖掘的数据来源与类型服务器数据客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括sever logs、error logs、cookie
6、logs等。通常文件的格式为:“Date,Client,IP,User_name,Bytes,Server,Request,Status,Servicename,Time,Protocol version,User_agent,Cookie,Referrer”。如果可以对这些文件中存储的数据进行语法上的分析,例如分析DNS,就可以知道客户来源的区域,如域名A被分析后就可以知道客户来自美国。Web挖掘的数据来源与类型挖掘的数据来源与类型查询数据电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问
7、日志上。Web挖掘的数据来源与类型挖掘的数据来源与类型在线市场数据 这类数据主要是传统关系数据库里存储的有关电子商务站点信息、客户购买信息、商品信息等数据。Web挖掘的数据来源与类型挖掘的数据来源与类型Web页面及超级链接关系 Web页面主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等。超链接关系主要是指页面之间存在的超级链接关系,这也是一种重要的资源。Web挖掘的数据来源与类型挖掘的数据来源与类型客户登记信息是指客户通过Web页输入的、要提交给服务器的相关客户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,
8、使之能更进一步的了解客户。数据挖掘需解决的问题数据挖掘需解决的问题:电子商务中的数据挖掘过程电子商务中的数据挖掘过程挖掘过程,确挖掘过程,确定算法,挖掘定算法,挖掘中可用验证组中可用验证组校验准确性校验准确性Web 服务器的日志(Web Log)记载了用户访问站点的信息,这些信息包括:访问者的IP地址、访问时间、访问方式(GET/POST)、访问的页面、协议、错误代码以及传输的字节数等信息。222.198.122.5306/Dec/2006:10:13:10+0800“GET/mp3/zhufu.mp3HTTP/1.1”IP地址为222.198.122.53的用户于上午10点13分10秒访问了
9、文件mp3/zhufu.mp3,以GET方法访问,HTTP/1.1 表示HTTP 协议版本。预处理过程预处理过程数据清洗数据清洗用户识别用户识别会话识别会话识别路径补充路径补充事务识别事务识别 数据清洗:去除Web请求方法中不是“get”的记录以及删除Web服务器日志中与挖掘算法无关的数据,一般来说只有服务器日志中的HTML数据与挖掘相关,通过检查URL的后缀,可以删除不相关的数据。如可将日志文件中后缀名为JPG、GIF等图片文件以及后缀名为CGI的脚本文件删除。一些网站的页面用户在提出请求,但Web服务器拒绝该页面的请求,那么在数据清洗时应该过滤掉非法请求的页面,只对正常的页面进行数据处理。
10、预处理过程预处理过程 用户识别:用户识别:数据清洗之后,使用基于日志的方法同时辅助以一些启发式规则,可以识别出每个访问网站的用户,这个过程就叫做用户识别。预处理过程预处理过程预处理过程预处理过程在Web数据预处理中,需要识别出每一个访问站点的用户。利用基于日志的启发式规则可以进行有效的用户识别。可做规则:(1)用户IP地址不同则认为是用户不同;(2)若用户IP地址相同,则认为用户使用的浏览器或操作系统不同则代表不同用户;(3)当用户的IP地址、操作系和浏览器均相同时,则应根据网站的拓扑结构进行用户识别,如果被用户请求的某个页面不能通过已经访问过的任何页面到达,则判定这是一个新的用户。用户识别用
11、户识别预处理过程预处理过程某一用户可能多次访问该站点,这是我们就要用到会话识别。其目的就是将用户的访问记录分为单个会话(Session)。用二元组S表示一个用户会话:S=,其中userid是用户标识,RS是用户在一段时间内请求访问Web页面的集合,RS内包含用户请求页面的标识符Pid及请求时间time,那么这段时间的访问集合RS即可划分为:RS=,,于是,用户会话可表示为:S=userid,,由此可以看出分成的每一个单独的会话。会话识别会话识别预处理过程预处理过程在时间跨度较大的Web服务器日志中,某一站点可能被一个用户多次访问,会话识别的任务就是要从大量会话中识别出属于同一用户的同一次访问请
12、求。在此,可设定规则来识别会话:(1)一个新用户的出现必然会有一个新会话的产生;(2)如果从一个页面到另一个页面的时间超过某个设定的时间阈值,就认为产生了一个新会话;(3)如果一个用户会话中引用的页面为空,则认为是一个新会话。会话识别会话识别 路径补充:路径补充:由于代理服务器本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。路径补充就是利用引用日志和站点的的拓扑结构将这些遗漏的请求补充到用户会话中。设遗漏的请求为,其中请求时间timek为设备前后两次请求的平均值,那么,用户会话即可表示为:S=userid,(kn)预处理过程预处理过程 路径补充:路径补充:预处理过程预
13、处理过程在实际操作中,路径补充可遵循规则:(1)如果当前访问的页面和以前访问过的某个页面存在超链接关系,则可以认为用户是通过本地缓存调出页面历史记录并链接到当前页面;(2)如果服务器日志中有多个页面和当前页面存在超链接关系,那么可以认为用户是通过这多个页面中最近被访问的页面链接到当前页面。事务识别:利用分割算法将用户会话转换为更小的事物进行挖掘,即进行事务识别。Frame页面用来定义页面的大小、位置、及内容,“Subframe”用来定义被Frame包含的子窗口页面。当用户访问URL对应的是一个Frame页面时,浏览器通过解释执行页面源程序,会自动向Web服务器请求该Frame页面包含的所有Su
14、bframe页面。预处理过程预处理过程 关联分析:通过分析用户访问网页间的潜在联系而归纳出的一种规则。用户访问页面company/product1时,也访问了页面company/product2。利用关联分析,进行页面预取,减少等待时间。Apriori算法:用 A=B表示。那么,若有:A=B=C,A=B=D,A=B=E,.,则说明A=B模式发现模式发现 分类和预测:根据客户对某一类产品的访问情况,或如其抛弃购物车的情况,来对客户分类(即对哪一类产品感兴趣)。更深入一点,可以为客户添加一些属性,如性别,年龄,爱好等(可在网站注册信息中获得),并将对哪一类产品感兴趣定义为目标属性,那么基于这些属性
15、可以用决策树算法来进行分类,可以得出符合目标属性的人的特点,如30岁以上的男性更容易购买皮鞋等。根据神经网络对网站的下一阶段投入、资金风险进行分析模式发现模式发现 聚类:页聚类:将内容相关的页面归到一个网页组,这对网页的搜索有很大帮助。客户聚类,即将具有相似访问特性的客户归为一组,可以分析出喜好类似的客户群。模式发现模式发现在挖掘出客户访问模式和规则后,需进一步观察发现的规则、模式、和统计值。是发布模式还是对数据挖掘过程进行进一步调整?如果经过模式分析发现该模式不是我们想要的有价值的模式,则需要对挖掘过程进行调整。如果发现我们感兴趣的规则模式,采用可视化技术以图形界面的方式提供给使用者。模式分
16、析模式分析 数据挖掘在电子商务领域的应用数据挖掘在电子商务领域的应用利用路径分析法对Web服务器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问路径。从而更好地改进设计网站。利用关联规则统计出电子商务客户访问某些页面及兴趣关联页面的比率,以此更好地组织站点,实施有效的市场策略。利用分类预测电子商务中客户的响应,如哪些客户最倾向于对直接邮件推销做出回应,由此使电子商务营销更有针对性。利用聚类分组聚类出具有相似浏览行为的客户,并分析客户的共同特征。利用时间序列模式进行电子商务组织预测客户的查找模式,从而对客户进行有针对性的服务。WEB数据挖掘面临的问题数据挖掘面临的问题WEB数据挖掘应用数据挖掘应用
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。