1、用户行为数据分析项目计划书用户行为数据分析 项目计划书2019/5/4修改记录版本修改日期修改人修改内容审核人V1.01技术开发部创建,初稿用户行为数据分析项目计划书V1.01V1.01V1.01V1.01V1.01V1.01数据采集方式分析数据分析模型 需求描述和示例网站用户身份识别;web 日志缺陷;漏斗模型数据分析模型与数据库表的对应关系WEKA 开源数据挖掘工具统计分析系统项目周期和项目开发进度Analysis.mpp技术开发部用户行为数据分析项目计划书目录一、项目背景.5二、相关术语.51.Web 数据挖掘.51)Web 数据挖掘分类.62)Web 数据的特点.73)典型 Web 挖
2、掘的处理流程.74)常用的数据挖掘技术.75)Web 商业智能 BI(Business Intelligence).82.网站流量统计.103.统计指标/术语.104.用户分析-网站用户的识别.135.WEB 日志的作用和缺陷.156.漏斗模型(Funnel Model).177.目前提供此服务产品/企业.18三、项目目的.18四、项目需求.181.页面统计.182.用户行为指标.193.潜在用户特征分析.194.指定 User Cookie 的分析.205.用户趋势分析.20五、项目系统设计.20六、项目详细设计.211.数据收集.212.数据模型.221)统计 PV 量(趋势).222)消
3、重 统计独立 IP 量/IP 的平均访问页面量(趋势).223)消重 统计独立 UV 量/UV 的平均访问页面量(趋势).234)统计 URL 的访问来源 Ref 的量/Ref 排行(趋势).235)统计 Ref=URL 的去访 URL*/跳出的量/去访/跳出排行(趋势).236)统计分析/预测/规律 特定用户的行为(趋势).247)统计新访客/老访客(趋势).248)页面平均停留时间/页面平均时长(趋势).249)搜索引擎列表.2410)搜索引擎关键词.2511)搜索引擎关键词(各搜索引擎).2512)老用户回头率(用户黏性).2513)新增用户增加/流失(用户黏性).2514)不活跃用户激
4、活(用户黏性).2615)用户浏览深度(用户黏性).26技术开发部用户行为数据分析项目计划书16)用户访问兴趣分析(用户黏性).2617)性别结构(访客特征分析).2618)年龄结构(访客特征分析).2619)学历结构(访客特征分析).2620)收入结构(访客特征分析).2721)操作系统类型(客户端信息).2722)操作系统语言(客户端信息).2723)操作系统时区(客户端信息).2724)浏览器(客户端信息).2725)显示器颜色(客户端信息).2726)屏幕分辨率(客户端信息).2827)国家/省份-地址位置(客户端信息).2828)城市-地址位置(客户端信息).2829)接入商(客户端
5、信息).2830)场所(客户端信息).283.数据处理.284.数据展示.281)参考网站.292)趋势 曲线图趋势.353)忠诚度/用户黏性.394)用户客户端 浏览器.415)来源分析:Ref 分析、站内/站外、站外统计.416)用户行为.45七、项目约束.45八、项目资源.45九、项目周期.46十、项目交付.48十一、其他信息.48技术开发部用户行为数据分析项目计划书一、项目背景数据挖掘技术是近年来计算机技术发展的热点之一。通过对历史积累的大量数据的有效挖掘,可以发现隐藏的规律或模式,为决策提供支持,而这些规律或模式是不能够依靠简单的数据查询得到,或者是不能在可接受的时间内得到。这些规律
6、或模式可以进一步在专业人员的识别下成为知识。数据挖掘面对的任务是复杂的,通常包括分类、预测、关联规则发现和聚类分析等。企业网站的绩效考评就是指企业网站访问情况的绩效考评,在网络营销评价方法中,网站访问统计分析是重要的方法之一,通过网站访问统计报告,不仅可以了解网络营销所取得的效果,而且可以从统计数字中发现许多有说服力的问题。网站访问量统计分析无论对于某项具体的网络营销活动还是总体效果都有参考价值,也是网络营销评价体系中最具有说服力的量化指标。销售预测在提高企业的经济效益及决策支持水平方面占有重要的地位。随着企业信息化水平的提高,企业销售数据的日益丰富,管理者对其中隐藏的销售预测信息的渴望日益强
7、烈。用传统的方法来分析这些海量数据中的销售信息非常困难,已不能适应时代的要求。如何找到更好的方法挖掘出销售数据中隐藏的销售预测信息。二、相关术语1.Web 数据挖掘Web 数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。Web 数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。技术开发部用户行为数据分析项目计划书1)Web 数据挖掘分
8、类Web 数据挖掘可分为四类:Web 内容挖掘、Web 结构挖掘、Web 使用记录挖掘和 Web 用户性质挖掘。其中,Web 内容挖掘、Web 结构挖掘和 Web 使用记录挖掘是 Web1.0 时代就已经有了的,而 Web 用户性质挖掘则是伴随着 Web2.0 的出现而出现的。2.1 Web 内容挖掘(WCM,Web Content Mining)2.2 Web 结构挖掘(WSM,Web Structure Mining)的基本思想是将 Web 看作一个有向图,他的顶点是 Web 页面,页面间的超链就是图的边。然后利用图论对 Web 的拓扑结构进行分析。2.3 Web 使用记录挖掘(WUM,W
9、eb Usage Mining)Web 使用记录挖掘也叫 Web 日志挖掘或 Web 访问信息挖掘。它是通过挖掘相关的 Web 日志记录,来发现用户访问 Web 页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web 使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie 中的信息、用户查询、等一切用户与站点之间可能的交互记录。Web 使用记录挖掘方法主要有以下两种:(1)将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;(2)将网络服务器的日志
10、文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。2.4 Web 用户性质挖掘Web 用户性质挖掘是伴随着 Web2.0 的出现而出现的。基于 RSS、Blog、SNS、Tag 以及 WiKi等互联网软件的广泛应用,Web2.0 帮助人们从 Web10 时代各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。4面对 Web2.0 的诞生,Web 数据挖掘技术又面临着新的挑战。如果说 Web 使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么 Web 用户性质挖掘则是要去 We
11、b 用户的老巢探寻究竟。在 Web2.0 时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对 Web 用户自建的RSS、Blog 等 Web2.0 功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关 Web2.0 下的数据挖掘正在进一步的研究中。技术开发部用户行为数据分析项目计划书2)Web 数据的特点1)异构数据库环境。Web 上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站
12、点的信息和组织都不一样,这就构成了一个巨大的异构数据库。2)分布式数据源。Web 页面散布在世界各地的 Web 服务器上,形成了分布式数据源。3)半结构化。半结构化是 Web 上数据的最大特点。Web 上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。4)动态性强。Web 是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。5)多样复杂性。Web 包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。3)典型 Web 挖掘的处理流程包括如下四个过程:1)查找资源:根据挖掘目的,从 We
13、b 资源中提取相关数据,构成目标数据集,Web 数据挖掘主要从这些数据通信中进行数据提取。其任务是从日标 Web 数据(包括 Web 文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到数据。2)数据预处理:在进行 Web 挖掘之前对“杂质”数据进行过滤。例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。3)模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘
14、、时序模式发现、聚类和分类等技术。4)模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识。4)常用的数据挖掘技术6.1 路径分析技术我们通常采用图的方法来分析 Web 页面之问的路径关系。G(V,E),其中:V 是页面的集合,E 是页面之间的超链接集合,页面定义为图中的顶点,而页面闻的超链接定义为图技术开发部用户行为数据分析项目计划书中的有向边。顶点 v 的人边表示对 v 的引用,出边表示 v 引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。如 70的用户访问companyproduct
15、 时,是从company 开始,经过companynewcompanyproductscompanyproduct。此时可以将路径放在比较显著的地方,方便了用户访问,也提高了该产品的点击率。6.2 关联规则技术关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息 A 和 B,同时被很多用户浏览,则说明 A 和 B 有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用
16、这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时,系统会自动给你推荐信息,告知“很多读者在购买此书时还购买的其他书目”。ACM 数字图书馆也采用了这一思想,推出信息推荐服务“Peer to Peer”。6.3 序列模式挖掘技术序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服
17、务器方动态地创立特定的有针对性的页面。以满足访问者的特定需求。6.4 聚类分类技术分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在 Web 数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户待征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述,这种描述可以用于分类新的检索。如政府机关的用户一般感兴趣的页面是companyproduct。聚类可以从 Web 访问信息数据库巾聚集出具有相似特性的用户群。在 Web 事务日记中聚类用户信息或数据项能够便于开发和执行
18、未来的市场战略。这些事务信息可以用在:在找出用户共同兴趣后,进行合作式信息推荐,共同体的成员町以互相推荐新的滚动信息;自动给一个特定的用户聚类发送销售邮件,为用户聚类动态地改变一个特殊的站点等。5)Web 商业智能 BI(Business Intelligence)深入分析访问数据,从访问数据中挖掘财富。技术开发部用户行为数据分析项目计划书web-ia/1、文本挖掘技术和聚类模型分析的网站自动分类;2、用户访问兴趣聚类;3、用户等级自动分类;4、用途分析;5、新产品推广预测分析和精算分析;等一系列基于数学模型的 True BI 决策分析工具,帮助企业进行产品 BI 分析、用户 BI 分析、服务
19、质量测评、新产品市场预测与分析等一系列 True BI 服务。一、异常访问分析 一般情况下,正常的用户访问网站都是通过浏览器(IE、FireFox 等)向网站发送 URL 请求,操作是一个手动平缓的过程。所谓“异常访问”,是指不是通过浏览器,而是通过程序进行的一个高速机械化的连续 URL 请求过程。这包括不良程序黑客攻击、搜索引擎蜘蛛程序对网站的访问等。“异常访问异常访问”主要包括主要包括 5 个功能:异常访问分析、搜索个功能:异常访问分析、搜索引擎访问分析、发生错误分析、异常 URL 分析、时段访问分析。分析、时段访问分析。通过通过“异常访问分析异常访问分析”,可以让用户发现异常访问行为和访
20、问规律,通过对 URL 请求 频度、服务器处理时间、请求流量等时序图形趋势分析,确定黑客攻击点,排查软件错误、诊断服务器处理能力、网站Internet 带宽限制“瓶颈”所在点。二、频道关联分析 频道关联分析应用对象是内容管理者。网站在内容服务层面被抽象为“频道频道-子频道子频道-内容内容”,组成,组成“网站结构树网站结构树”。数据挖掘的经典故事是。数据挖掘的经典故事是“啤酒和尿布啤酒和尿布”关联发现,关联发现,说的是对某个商场的数据挖掘发现,购买啤酒的人有很多同时购买尿布。关联分析的目的,是发现在一个事物中,各个元素的关联关系,通过关联关系的发现,指导“关系设置”,进而引导事物向有利于管理者主
21、观倾向的方向发展。Web-DM 中的“频道关联分析”,针对 Web的具体应用情况,对经典的“关联分析”算法进行了改进,使关联分析速度更快,分析结果也更加有效。简单的结果可能不能给管理者更多的指导。Web-DM 不仅仅简单地给出关联分析中的“支持度”和“置信度”指标,在此基础上,提出了“置信差”指标,进一步提高关联分析结果的可用性。在给出关联分析技术指标的同时,给出包含关联项的访问 Session,使用户可以更加详细观察和研究关联分析的结果。三、特定关联分析“频道关联分析”是在内逻辑层面的关联分析,对于“广告”和用户特别关心的 Page 关联分析是网站管理者希望掌握的数据。哪些 Page 对于广
22、告的贡献有多大?看广告的人更多的看了哪些 Page?特别推出的内容与网站的其他 URL 有哪些关联?关联程度如何?Web-DM 的“特定关联分析”给出深入分析结果,同时以简单直观的形式展示给用户。以提供新闻或本地新闻为主的门户网站,管理人员关心网站总体访问情况,整体访问趋势,内容编辑人员关心热门新闻和冷门新闻以及 TOP 排名,经营人员关心访问者从哪个频道登录网站、从哪个频道的哪个页面离开网站,其访问行为呈现什么规律,设计人员关心网站频道的如何设置以及页面版面的如何布局,维护人员关心错误是怎么产生的、如何跳转的、网站是否收到恶意攻击等。商务网站 主要针对在网站上已经注册的客户群,作为网站的经营
23、者不仅要掌握用户在网上技术开发部用户行为数据分析项目计划书关心哪些商品,更重要的是要掌握匿名用户怎么变成注册用户,转化率是多少,匿名用户是直接访问的还是通过搜索引擎链接来的,购买行为如何,营业额是多少等。对于电子邮件市场推广,通过沉默用户分析其沉默时间,根据发出量、返回量、成交量来判断市场推广效果。对于广告市场推广,通过曝光量、点击量、成交量来反映市场推广的效果。2.网站流量统计流量统计是什么是指通过各种科学的方式,准确的纪录来访某一页面的访问者的流量信息,目前而言,必须具备可以统计:统计独立的访问者数量(独立用户、独立访客);可以统计独立的 IP 地址数量;可以统计页面被刷新的数量。其他附加
24、信息。3.统计指标/术语页面浏览数(page views)PV(page view),即页面浏览量,或点击量;通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。高手对 PV 的解释是,一个访问者在 24 小时(0 点到 24 点)内到底看了你网站几个页面。这里需要强调:同一个人浏览你网站同一个页面,不重复计算 PV 量,点 100 次也算 1 次。说白了,PV 就是一个访问者打开了你的几个页面。PV 之于网站,就像收视率之于电视,从某种程度上已成为投资者衡量商业网站表现的最重要尺度。PV 的计算:当一个访问者访问的时候,记录他所访问的页面和对应的 IP,然后确定这个 IP今天访问了这
25、个页面没有。如果你的网站到了 23 点,单纯 IP 有 60 万条的话,每个访问者平均访问了 3 个页面,那么 PV 表的记录就要有 180 万条。影响 PV 的因素:新闻发布的时间访问的周期突发事件独立访客数(unique visitor)UV(unique visitor):指访问某个站点或点击某条新闻的不同 IP 地址的人数。在同一天内,UV 只记录第一次进入网站的具有独立 IP 的访问者,在同一天内再次访问该网站则不计数。独立 IP 访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。每个访问者的页面浏览数(Page Views per user)技术开发部用户行
26、为数据分析项目计划书Page Views per user:这是一个平均数,即在一定时间内全部页面浏览数与所有访问者相除的结果,即一个用户浏览的网页数量。这一指标表明了访问者对网站内容或者产品信息感兴趣的程度,也就是常说的网站“粘性”。重复访客者数(repeat visitors)repeat visitors:重复访问者。是指在一定时期内不止一次访问一个网站的独立用户。浏览数 Page Views:网页网页(含文件及动态网页含文件及动态网页)被访客浏览的次数。被访客浏览的次数。Page View 的计算范围包的计算范围包括了所有格式的网页,例如:.htm、.html、.asp、.cfm、as
27、a、cdx、htmls、shtm、shtml、txt等等,可以由用户根据实际情况自己设定。访问数 Visits:也称为登陆数,一个登陆是指客户开始访问网站到离开网站的过程。其中:相邻两次点击页面时间间隔在 30 分钟以内(系统默认 30 分钟,用户可以修改默认值)为一次登陆,大于 30 分钟为两次登陆。用户数 Unique Visitors:也称为唯一客户数,是指一天内访问本网站的唯一也称为唯一客户数,是指一天内访问本网站的唯一 IP 个数。个数。点击数 Hits:是指日志文件中的总记录条数。是指日志文件中的总记录条数。停留时间 Visiting Times:也称为访问时长,是用同一个访问过程
28、中最后一个页面的访问时也称为访问时长,是用同一个访问过程中最后一个页面的访问时间减去第一个页面的访问时间,得到此访问在网站上的停留时间。首页浏览数:网站首页被访客浏览的次数。过滤浏览数 Filter Page Views:网站中的某些页面并不是独立的页面,而是附属于某个页面,如滚动条页面就是附属于首页的页面,用户可以将这些附属页面设置为过滤页面,过滤页面被访客浏览的次数即为过滤浏览数。有效浏览数 Effective Page Views:去除过滤页面后的其他所有页面被访客浏览的次数,即去除过滤页面后的其他所有页面被访客浏览的次数,即有效浏览数=浏览数-过滤浏览数。平均访问浏览数:一次访问平均产
29、生的浏览数,即平均访问浏览数=浏览数访问数。重复访问数 Returning Visits during a day:一天内访问两次以上的用户数。曝光数:广告弹出次数。广告点击数:用户点击弹出广告的次数,即 Click 数。返回数:通过电子邮件进行市场推广时,用户通过点击邮件中的链接地址访问网站的次数。注册数:用户通过电子邮件和广告访问本网站,并最终转换为注册用户的数量。返回率:广告弹出后,被用户点击的程度,即返回率=点击数曝光数100%。客户转化率:客户转化率包含两方面含义:用户通过广告访问本网站,并最终转化成注册用户的程度,即客户转化率=注册数点击数100%;用户通过邮件上的链接地址访问本网
30、站,并最终转化成注册用户的程度,即客户转化率=注册数返回数100%。发送字节数:从服务器端向客户端发出的字节数。接收字节数:服务器端从客户端接收的字节数。总字节数:是发送字节数和接收字节数的总和,即总字节数发送字节数接收字节数。行为/路径:在一个访问过程中,客户访问过的所有页面的轨迹称为路径,或称为行为。特定行为:由用户自行定义的行为,包含若干行为步骤,其中行为步骤不受限制,即可以任意设定行为步骤。进而分析出满足设定行为的发生次数及各个步骤之间的转化率。特定行为转化率:在特定行为中,两个步骤之间的转化率。行为入口:客户开始访问网站的第一个页面。在 Web-IA 中,根据入口给出典型行为分析。行
31、为出口:客户访问网站的最后一个页面。在 Web-IA 中,根据出口给出典型行为分析。沉默时间:注册用户最后一次访问网站到分析日的天数。沉默用户:在沉默时间内未访问网站的注册用户。技术开发部用户行为数据分析项目计划书重复访问用户比例:一天内访问两次以上用户占总用户数的比例,该值越大表明用户品质越高,理想值为 100%。用户粘着度指数:一天内的总访问数与总用户数之比,该值越大表明用户品质越高。重度访问用户:按每次访问的停留时间划分,把停留时间超过 20 分钟的用户归为重度访问用户;也可以按照每次访问产生的浏览数划分,把一次访问浏览超过 10 个页面的用户归为重度访问用户。对于重度访问用户,包括以下
32、四个指标,每个指标值越大,表明用户品质越高。重度用户比例(次数)=(浏览数11 页面的访问数)总访问数重度用户比例(时长)=(20 分钟的访问数)总访问数重度用户指数=(20 分钟的浏览数)(20 分钟的访问数)重度访问量比列=(20 分钟的浏览数)总浏览数轻度访问用户:按每次访问的停留时间划分,把停留时间不超过 1 分钟的用户归为轻度访问用户。对于轻度访问用户,包括以下三个指标,每个指标值越小,表明用户品质越高。轻度用户比例=(0-1 分钟的访问数)总访问数轻度用户指数=(0-1 分钟的浏览数)(0-1 分钟的访问数)轻度访问量比例=(0-1 分钟的浏览数)总浏览数拒绝率:一次访问只访问一个
33、页面的访问次数占总访问数的比例,比例越小,表明用户品质越高。拒绝率(一个页面)=只访问 1 个页面的访问数总访问数拒绝率(首页)=只访问首页的访问数总访问数地区:访问客户的来源地区,是根据 IP 地区对照表,查询访问客户的 IP 地址落在哪个 IP区段内,而得到其对应的地区。地区包括国内地区和国外地区,国内地区以省为单位,国外地区以国家为单位。时段:按照一天 24 个小时自然时间段进行划分。趋势:趋势分为两种,第一种是以时段为单位的一天 24 小时发展趋势。第二种是以日为单位的周、月、以及指定区间发展趋势。IP 地址:地址:IP 地址由地址由 4 个数组成,每个数可取值个数组成,每个数可取值
34、0255,各数之间用一个点号各数之间用一个点号.分开,例分开,例如:202.103.8.46。页面:网站中的所有格式的网页(含文件及动态网页),例如:.htm、.html、.asp、.cfm、asa、cdx、htmls、shtm、shtml、txt 等等,可以由用户根据实际情况自己设定属于页面的文件格式。特定页面:对于需要特殊分析的页面,通过设置,从众多页面中独立出来,进行特定分析的页面。过滤页面:网站中的某些页面并不是独立的页面,而是附属于某个页面,如滚动条页面就是附属于首页的页面,用户可以将这些附属页面设置为过滤页面。过滤后的浏览数方能真正反映网站的访问情况。离开页面:客户访问网站的最后一
35、个页面。未定义页面:页面功能没有定义的页面,即没有归类到任何频道的页面。频道/栏目:将网站中的各种内容根据功能归类,划分出若干逻辑上的频道或栏目。网站:网站是由 Web Server 组成,专业版一个网站只有一个 Web Server,企业版和商务版一个网站至少由一个 Web Server 组成。热点:将一个网页中包含的各个链接根据功能归类划分出若干板块,比如新闻板块、财经板块、体育板块、科技板块等,每个板块成为一个热点。进而分析出该页面上的各个热点板块被点击的情况。技术开发部用户行为数据分析项目计划书汇总:对多网站的分析进行汇总。同期比较:对任意两个日、周、月、以及指定区间的浏览数(或访问数
36、、或用户数、停留时间)进行比较。比较对象可以是页面、频道、栏目、广告、地区等。聚合:对日期的聚合,比如周聚合就是将 7 天的数据合在一起为一个分析项,聚合目的就是以聚合项为单位分析网站发展的趋势。环比:在趋势分析中,当前日期数据与上一日期数据的比成为环比。跳转:状态代码为 302 的访问请求。热门:最受欢迎的页面或频道,即浏览数排名前若干位(可由用户自行定义)的页面或频道。冷门:最不受欢迎的页面或频道,即浏览数排名后若干位(可由用户自行定义)的页面或频道。广告:通过在别的网站上弹出窗口等方式介绍本网站的一种商业活动。邮件:通过发送电子邮件,邮件中包含链接地址,吸引用户通过点击邮件中包含的链接地
37、址访问本网站,实际上也是广告的一种。搜索引擎:在互联网上为您提供信息检索服务的网站。关键字:通过搜索引擎检索的内容。Excel 输出:将分析结果以 Excel 表格形式输出。网站拓扑结构:网站的拓扑结构是由网站汇总、网站分析和频道分析三类节点构成。其中,网站汇总下可以有部门汇总,网站分析下可以有子网站,频道分析下可以有子频道。用户根据网站拓扑结构,来查询所需要的分析结果。匿名用户:登陆网站不用确认身份,便可访问网站内容的用户。认证用户:通过身份认证后,方可访问网站内容的用户。一般情况,用户通过注册成为认证用户。日志文件:在 Web-IA 中,日志文件是指被分析网站的工作日志。浏览器:客户端通过
38、什么浏览器访问网站。操作系统:客户端通过什么操作系统访问网站。运营商:客户端接入互联网的服务提供商,比如中国电信、中国网通、教研网等。接入方式:客户端接入互联网的方式,比如拨号、专线、ISDN、ADSL 等。状态代码:也称作错误代码,是为服务器所接收每个请求(网页点击)分配的 3 位数代码。4.用户分析 -网站用户的识别用户分析是网站分析中一个重要的组成部分,在分析用户之前我们必须首先能够识别每个用户,分辨哪些是”New Customer”,哪些是”Repeat Customer”。这样不但能够更加清晰地了解到底有多少用户访问了你的网站,分辨他们是谁(用户 ID、邮箱、性别年龄等);同时也能够
39、帮助你更好地跟踪你的用户,发现它们的行为特征、兴趣爱好及个性化的设置等,以便于更好地把握用户需求,提升用户体验。通常当你的网站提供了注册服务,而用户注册并登陆过你的网站,那么用户可以更容易地被识别,因为网站一般都会保存注册用户的详细信息;但是你的网站并不需要注册,而用户的行为以浏览为主,这是用户识别就会显得较为困难,下面提供了几种常用的用户识别的方法:技术开发部1)2)3)4)用户行为数据分析项目计划书识别用户的几种方法当用户并未注册登录的情况下,识别用户的唯一途径就只剩下用户浏览行为的点击流数据,通常情况下它们会保存在 WEB 日志里面。而 WEB 日志本身存在的缺陷可能导致用户识别的不准确
40、性,所以我们在选择用户识别方法的过程中,在条件允许的情况下尽量选择更为准确的方法:基于 IP 的用户识别IP 地址是最容易获取的信息,任何的 WEB 日志中均会包含,但其局限性也较为明显:伪 IP、代理、动态 IP、局域网共享同一公网 IP 出口这些情况都会影响基于 IP 来识别用户的准确性,所以 IP 识别用户的准确性比较低,目前一般不会直接采用 IP 来识别用户。获取难度:准确度:基于 IP+Agent 的用户识别同样基于最简单形式的 WEB 日志,我们可以增加一项Agent,来提高单一 IP 方式识别用户的准确性。Agent 也是 WEB 日志中一般都会包含的信息,通过 IP+Agent
41、 的方式可以适当提高 IP 代理、公用 IP 这类情况下用户的分辨度,同时通过 Agent 还可以识别网络爬虫等特殊“用户”,但同样准确度也欠高。获取难度:准确度:基于 cookie 的用户识别当你通过自定义 Apache 日志格式或者 JavaScript 的方法获得用户 cookie 的时候,其实你已经找到了一个更有效的用户识别的手段。cookie 在未被清除的其前提下可以认为是跟某个访问客户端电脑绑定的(一个客户端有可能包含多个 cookie),所以用 cookie 来标识用户其实指的是用户使用的客户端电脑,而并非用户本身。用 cookie 识别用户的方法当然也存在缺陷:最常见的就是 c
42、ookie 被清除而导致用户无法与原先记录实现对应;同时由于客户端电脑会被共用,或者用户会在不同的电脑上访问你的网站,这个时候 cookie 就无法直接对应到该用户了。获取难度:准确度:基于用户 ID 的用户识别的用户识别基于用户 ID 的用户识别是最为准确,因为一般情况下用户不同共享他的用户 ID,所以我们可以认为数据中的 userid 唯一地指向该用户,几乎不存在偏差。当然要使用用户 ID 来识别用户是需要一定的前提条件的:网站必须是提供用户注册登录服务的,并且可以通过一些手段在点击流数据中记录 userid。技术开发部5)6)用户行为数据分析项目计划书获取难度:准确度:所以对于一个需要用
43、户 ID 注册登录的网站来说,用户唯一标识符的选择可以遵从以下顺序:当用户注册登录时以 userid 为准,当用户在未登录状态浏览时以用户的 cookie 为准,当用户未登录且 cookie 无法获取的情况下以 IP+Agent 为准;这样就能从最大程度上识别唯一用户。这里推荐一个网站日志中 cookie 项的自定义设置方法,以便更好地识别用户。cookie是从用户端存放的 cookie 文件记录中获取的,这个文件里面一般在包含一个 cookieid 的同时也会记下用户在该网站的 userid(如果你的网站需要注册登陆并且该用户曾经登录过你的网站且 cookie 未被删除),所以在记录日志文件
44、中 cookie 项的时候可以优先去查询 cookie中是否含有用户 ID 类的信息,如果存在则将用户 ID 写到日志的 cookie 项,如果不存在则查找是否有 cookieid,如果有则记录,没有则记为”-”,这样日志中的 cookie 就可以直接作为最有效的用户唯一标识符被用作统计。当然这里需要注意该方法只有网站本身才能够实现,因为用户 ID 作为用户隐私信息只有该网站才知道其在 cookie 的设置及存放位置,第三方统计工具一般很难获取。获取用户信息的途径通过以上的方法实现用户身份的唯一标识后,我们可以通过一些途径来采集用户的基础信息、特征信息及行为信息,然后为每位用户建立起详细的 P
45、rofile:1)用户注册时填写的用户注册信息及基本资料;2)从网站日志中得到的用户浏览行为数据;3)从数据库中获取的用户网站业务应用数据;4)基于用户历史数据的推导和预测;5)通过直接联系用户或者用户调研的途径获得的用户数据;6)有第三方服务机构提供的用户数据。识别并获取用户信息的价值通过用户身份识别及用户基本信息的采集,我们可以通过网站分析的各种方法在网站是实现一些有价值的应用:基于用户特征信息的用户细分;基于用户的个性化页面设置;基于用户行为数据的关联推荐;基于用户兴趣的定向营销;参考:webdataanalysis/data-collection-and-preprocessing/5
46、.WEB 日志的作用和缺陷Avinash Kaushik 将点击流数据的获取方式分为 4 种:log files、web beacons、JavaScript tags和 packet sniffers,其中包嗅探器(packet sniffers)比较不常见,最传统的获取方式是通过技术开发部;2)用户行为数据分析项目计划书WEB 日志文件(log files)而 beacons 和 JavaScript 是目前较为流行的方式,Google Analytics目前就是采用 beacons+JavaScript 来获取数据的,我们可以来简单看一下传统的网站日志来获取数据的,我们可以来简单看一下传
47、统的网站日志和 beacons+JavaScript 方式各自的优缺点:1)WEB 日志文件日志文件优势:简单方便,不需要修改网页代码,可以自定义日志格式;较多的现成的日志分析工具的支持(AWStats、Webalizer 等);获取网络爬虫数据的唯一途径;可以收集底层数据供反复的分析。缺陷:数据的质量较低,网站日志包含所有日志数据,包括 CSS、图片、脚本文件的请求信息,所以过滤和预处理来提升数据质量必不可少;页面缓存导致浏览无日志记录,这个是比较致命的。beacons+JavaScript优势:只需要在页面代码中操作,不需要配置服务器;数据的获取有较高的可控性,可以只在需要统计的页面植入代
48、码;能够获取点击、响应等数据;不需要担心缓存等的影响,数据的准确度较高;可用第三方 cookie 实现多网站跟踪比较。缺陷:当浏览器禁止接收图片或者禁用 JS 时,都可能导致数据获取的失败;只在应用服务层操作,无法获取后台的数据;对图片、文件等请求信息的获取难度相对较大;过多地JS 可能导致页面性能的下降,虽然这方面的影响一般可以忽略。无论通过何种方式,最终数据都是通过日志文件来记录的,只是通过 JS 可以更容易控制想要获取的数据,并通过在 URL 带参数的方式记录到日志文件中共解析和统计。所以底层的数据形式无非就是记录在日志文件中的那几项,在 WEB 日志格式一文中,已经对网站日志的类型和组
49、成做了基本的介绍,这里就再来解析下 WEB 日志中各项对网站数据分析的作用,以及存在的不确定性和缺陷。3)日志的不准确性WEB 日志在技术层面的获取方式及各类外部因素的影响使基于网站日志的数据分析会存在许多的不准确性,下面来介绍下 WEB 日志中那些项目可能造成数据的不准确,以及造成这些缺陷的原因。a)客户端的控制和限制由于一些浏览网站的用户信息都是有客户端发送的,所以用户的 IP、Agent 都是可以人为设置的;另外 cookie 可以被清理,浏览器出于安全的设置,用户的可以在访问过程中限制 cookie、referrer 的发送。这些都会导致用户访问数据的丢失或者数据的不准确,而这类问题目
50、前很难得到解决。b)缓存浏览器缓存、服务器缓存、后退按钮操作等都会导致页面点击日志的丢失及 referrer 的丢失,目前主要的处理方法是保持页面信息的不断更新,可以在页面中添加随机数。当然如果你使用的 JavaScript 的方法,那么就不需要担心缓存的问题。技术开发部而用户行为数据分析项目计划书c)跳转一些跳转导致 referrer 信息的丢失,致使用户的访问足迹中断无法跟踪。解决方法是将referer 通过 URL 重写,作为 URL 参数带入下一页面,不过这样会是页面的 URL 显得混乱。d)代理代理 IP、动态、动态 IP、局域网(家庭)公用、局域网(家庭)公用 IPIP 其实准确性