1、第9章 商品关联营销商品关联营销l学习目标1.了解商品关联营销(购物篮关联分析)的概念2.了解简单关联规则的概念3.了解购物篮分析模型的基本原理和方法4.了解简单关联规则的应用场景及其有效性和实用性思维导图【开篇思考】拥有海量用户、车辆、司机以及交通轨迹的大数据对于滴滴而言,已经远离了纸上谈兵,在司机接入、智慧交通等多个维度产生了实际效用。滴滴出行近日披露,在其严格的注册审核机制下,共有超2500万名“问题司机”被拒之平台外。而通过大数据实时分析、智能上车点推荐等领先技术,全国20个机场上线“智能引导”功能,帮助乘客快速出港。请试想一下:滴滴出行有哪些大数据营销的场景?目录5购物篮商品关联问题
2、背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.1 商品关联营销的概念l 关联营销:关联营销是一种建立在双方互利互益的基础上的营销,在交叉营销的基础上,将事物、产品、品牌等所要营销的东西上寻找关联性,来实现深层次的多面引导。关联营销也是一种新的、低成本的、企业在网站上用来提高收入的营销方法。目录7购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.2 购物篮商品关联问题背景与挖掘目标l 关联营销:关联分析是挖掘数据内在结构特征或变量之间的关联性。在日常生活中事物之间的关联性随处可见,在电子
3、商务平台的购物篮中的商品,其关联性也是显而易见的。啤酒与尿布 购物篮商品的关联关系通常有两种情况:一种是顾客在一次购买行为中放入购物篮中不同商品之间的关联关系,我们称之为简单关联关系。另一种是顾客在购买某种商品之后,在下一次光顾时会购买另一些其他商品,这些前后不同时间购买的商品之间同样存在关联关系,我们把这种关联关系称为序列关联关系。最早的关联分析概念:是1993年由Agrawal、Imielinski和Swami提出的。其主要研究目的是分析超市顾客购买行为的规律,发现连带购买商品,为制定合理的方便顾客选取的货架摆放方案提供依据。该分析称为购物篮分析。电子商务领域:关联分析可帮助经营者发现顾客
4、的消费偏好,定位顾客消费需求,制定合理的交叉销售方案,实现商品的精准推荐;保险公司业务:关联分析可帮助企业分析保险索赔的原因,及时甄别欺诈行为;电信行业:关联分析可帮助企业发现不同增值业务间的关联性及对客户流失的影响等。9.2 购物篮商品关联问题背景与挖掘目标目录10购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.3 简单关联规则9.3.1 事务和项集事务就是简单关联分析的分析对象。事务可理解为一种行为,例如,百货商店顾客的购物行为是一种事务;网页用户的页面浏览关注行为是一种事务;一份财产保险公司的汽车保单也是一种事务。项目是在事
5、务中涉及的对象。一个事务通常包含若干个项目。一个项目可以是一种商品、一个网页链接、一个险种等。若干个项目的集合叫作项目集,简称项集。我们把属于同一个事务的所有项目组成的集合,称为事务的项集。9.3 简单关联规则小明喜欢在淘宝上购物,当他想购买某商品时,会在淘宝上浏览,一遍又一遍地研究该商品,也会关注它,甚至把它加入购物车。经过一段时间的研究,小明才会放入购物篮里准备购买,同时,小明也准备购买其他商品。最终他购买了A、B、C、D、E共5件商品。在这里,小明的购物行为就是一个事务。他购买的5件商品A、B、C、D、E的集合就是项集。为了研究方便,我们会给每一个事务一个ID(标识),对应于ID就有一个
6、项集。其他客户也会在淘宝上购物,也会像小明一样有自己的购物篮,购物篮里有自己喜欢的商品,见表9.1。事务ID项 集备 注1ABCDE表中不同的字母代表不同的商品2BEF3CDG4ABDF表9.1 顾客购买行为数据示例9.3 简单关联规则9.3.2关联规则的表达形式简单关联规则的一般表示形式是:前项后项支持度(Support)=s%,置信度(Confidence)=c%,或表达为:XY(S=s%,C=c%),其中:X称为规则的前项,可以是一个项目或项集,也可以是一个包含项目以及逻辑操作(与、或、非|)的逻辑表达式;Y称为规则的后项,一般为一个项目,表示某种结论或事实;括号中,S=s%表示规则支持
7、度为s%,C=c%表示规则置信度为c%。例如,面包牛奶(S=85%,C=90%),就是一条简单关联规则。前项和后项均为一个项目。该关联规则的含义是:有90%的把握程度相信购买面包则购买牛奶,该规则适用性为85%。9.3 简单关联规则9.3.2 置信度和支持度关联规则是形如XY的表达式,其中X和Y不相交。置信度和支持度这两个指标用于量度关联规则的强度。支持度也称为相对支持度,表示X与Y同时发生的概率。置信度是指X发生的条件下Y发生的概率。因此,支持度和置信度可以分别用下列公式表示:Support(XY)=C(XY)Confidence(XY)=S(Y|X)牛奶与鸡蛋n 挖掘数据集:购物篮数据 n
8、 挖掘目标:关联规则 n 关联规则:牛奶=鸡蛋【支持度=2%,置信度=60%】n 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋 n 置信度:购买了牛奶的客户有60%也购买了鸡蛋 n 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定 9.3 简单关联规则9.3.2频繁项集项集是项的集合,包含k项的项集称为k项集。项集的出现频率是所有包含项集事务的级数,又称绝对支持度或支持度计数。若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项集,频繁k项集通常记作Lk。而同时满足最小置信度和最小支持度的规则称为强规则。包含1个项目的频繁项集称为频繁1项集;包含k个项目的
9、项集称为频繁k项集。最大频繁项集是k最大时的最大频繁k-项集。根据频繁项集的定义很容易得到以下结论,即频繁项集的子集一定是频繁项集。例如,A,B,C是一个3项的频繁项集,则其子集A,B、B,C、A,C也一定是2项的频繁项集。反之,如果在不是频繁项集的项集I中添加事务A,那么新的项集IA一定也不是频繁项集。目录17购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.4 购物篮分析模型 关联规则算法有Apriori算法、FP-Tree 算法、Eclat算法和灰色关联算法等。关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本的统计规
10、律,进行关联规则分析。根据所分析的关联关系,可从一个特征的信息来推断另一个特征的信息。当信息置信度达到某一阈值时,就可以认为规则成立。Apriori算法是应用最广泛的关联规则算法之一,也是最为经典的在大数据集上可行的关联规则提取的算法。购物篮分析l哪些商品平凡的同时被客户购买?图9.1 购物篮商品关联规则模型的流程图9.4 购物篮分析模型9.4 简单关联规则9.4.1 原始数据的预处理ID商品A商品B商品C商品D商品E商品F商品G11111100201001103001100141101010ID项集X1A1B1C1D1E2B2E2F3C3D3G4A4B4D4F购物篮商品关联规则分析中的数据预
11、处理的主要任务是通过整理原始数据,建立事务数据集对象。事务数据集的组织方式有事实表和事务表两种格式。表9.2 事实表示例表9.3 事务表示例9.4 简单关联规则9.4.2 搜索频繁项集寻找频繁项集是Apriori算法提高寻找关联规则效率的关键。以图9.2为例,在Apriori算法中寻找频繁项集的基本原则是:如果最底层中只包含D项的1-项集不是频繁项集,则包含D项的其他所有项集,即D的超集(图中灰色圆圈)都不可能是频繁项集,后续无须再对这些项集进行判断,因为基于这些项集的关联规则不可能有较高的支持度。图9.2 寻找频繁项集Apriori算法从图9.2所示的底层(1-项集)开始向上,采用迭代方式逐
12、层找到下层的超集,并在超集中发现频繁项集。如此反复,直到最顶层得到最大频繁项集为止。每次迭代均包含两个步骤。第一步,产生候选集Ck。所谓候选集就是有可能成为频繁项集的项目集合。当k=1时,候选集Ck是所有1_项集。第二步,修剪候选集Ck。基于候选集Ck计算支持度,且依据最小支持度对候选集Ck进行删减,最终确定最大频繁项集Lk。9.4 简单关联规则9.4.2 搜索频繁项集9.4 简单关联规则9.4.2 搜索频繁项集图9.3就是用表9.1的数据举例说明以迭代的方式找出最大频繁项集的过程。由图9.3可以看出,最大频繁项集是ABD,支持度达50%。图9.3 用Apriori算法产生频繁项集的迭代过程举
13、例9.4.3 由频繁项集产生关联规则9.4 简单关联规则上述步骤已经剔除了不满足最小支持度阈值的项,如果剩下的项能满足预定的最小置信度阈值,那么就可以找到强关联规则。例如,对于上述例子,频繁项集L包含项目A、B、D。如果设L的子集L包含项目A和B,则L-L包含项目E。计算置信度:C(|A,B|D)=S(A,B,D)/S(A,B)=0.5/0.5=100%置信度最大,大于用户指定的任何阈值。因此,简单关联规则A,BD(S=50%,C=100%)为有效规则。同样我们也可以得到其他的关联规则:A,DB(S=50%,C=100%)B,DA(S=50%,C=100%)从以上结果可以看出,顾客同时购买商品
14、A、B和D的概率为50%,而置信度则达到100%,说明该规则有效。了解到上述信息即可对商品摆放位置进行更改,可以考虑把商品A、B和D的位置摆放得靠近一些,在增加销量的同时给客户更好的购物体验。目录26购物篮商品关联问题背景与挖掘目标商品关联营销的概念简单关联规则购物篮分析模型简单关联规则的有效性和实用性讨论9.5.1 Apriori算法的优缺点与适用场景9.5 简单关联规则的有效性和实用性讨论Apriori算法是关联规则最常用的也是最经典的分析频繁项集的算法,它的优点是大大压缩了频繁项集的大小,并取得良好性能。Apriori算法的缺点是每次计算支持度与置信度都需要重新扫描所有数据,而且该算法有
15、多次扫描事务数据的缺陷,在每一步产生候选集时循环产生的项集过多,没有排除不应该参与组合的元素。针对这些问题,Zaki等人于1997年提出了一种快速搜索频繁项集的算法 Equivalence CLAss clustering and bottom-up Traversal,简称Eclat算法。该算法与Apriori算法的思路类似,但它的特色在于:基于对等类,采用自底向上的搜索策略,只需访问很少次的数据集,便可确定最大频繁项集,从而提高了搜索效率。Apriori算法除了适用于商品零售购物篮分析外,近年来也广泛应用于金融行业中,可以成功预测银行客户的需求,还可应用于网络安全领域,检测出用户行为的安全
16、模式,进而锁定攻击者。此外,Apriori 算法还可应用于高校管理、移动通信、中医证型等领域。9.5.2 如何评价简单关联规则的有效性9.5 简单关联规则的有效性和实用性讨论从数据中可以找到很多关联规则,但并非所有的关联规则都有效。可能有的规则令人信服的水平不高,有的规则适用的范围很有限,也就是说,这些规则都不具有有效性。判断一条关联规则是否有效,应依据各种测度指标,其中最常用的测度是关联规则的置信度和支持度。一个有效的简单关联规则应具有较高的置信度和较高的支持度。如果规则支持度较高,但置信度较低,则说明规则的可信程度差;如果规则置信度较高但支持度较低,则说明规则的应用机会很少。一个置信度较高
17、但普遍性较低的规则并没有太多的实际应用价值。例如,如果在1000个关于顾客购买行为的事务中,只有1个顾客购买了野炊用的烧烤炉,同时也只有他购买了碳。虽然规则“烧烤炉碳”的置信度很高,为100%,但其支持度只有0.1%,很低,说明该规则缺乏普遍性,应用价值不高。9.5.2 如何评价简单关联规则的有效性9.5 简单关联规则的有效性和实用性讨论阈值的设置要尽量合理。如果支持度阈值太小,得到的简单关联规则会失去一般性;如果支持度阈值太大,可能无法找到“如此高代表性”的规则;同样,如果置信度阈值太小,得到的简单关联规则的可信度不高,阈值太大,也同样可能无法找到“如此高可信度”的规则。Y合计10X1ABR
18、10CDR2合计C1C2T表9.4 一个典型的列联表表9.4是统计学中的一个典型的列联表。这里,可令行表示前项,列表示后项,1和0分别表示出现和未出现;A、B、C、D为交叉分组下的频数,R1、R2、C1、C2分别为各行合计以及各列合计,T为总计。对于简单关联规则XY,规则置信度为A/R1,规则支持度为A/T,前项支持度为R1/T,后项支持度为C1/T。9.5.3 如何评价简单关联规则的实用性9.5 简单关联规则的有效性和实用性讨论简单关联规则的实用性体现在:一方面,简单关联规则应具有实际意义,例如,怀孕女性,这条简单关联规则就没有多少实用价值;另一方面,简单关联规则应具有指导意义,如果一条简单
19、关联规则的规则置信度和支持度大于用户指定的最小置信度和支持度阈值,尽管该规则具有有效性,但仍可能没有指导意义,具体表现为以下几种情况。(1)简单关联规则揭示的简单关联关系可能仅仅是一种随机关联关系。例如,超市依据表9.5(a)所示的调查结果,得到反映购买牛奶与否和性别关系的简单关联规则:牛奶性别(男)(S=40%,C=40%)。在最小置信度和支持度为30%时该规则是一条有效规则。男女合计买4006001000不买000合计4006001000表9.5(a)示意列联表(一)但:进一步发现,顾客中男性的(后项支持度)比例也为40%,即购买牛奶顾客的男性比例等于所有顾客的男性比例。此时认为,上述规则
20、反映的是一种前后项无关联下的随机性关联,该规则不具有实用性。9.5.3 如何评价简单关联规则的实用性9.5 简单关联规则的有效性和实用性讨论(1)简单关联规则揭示的简单关联关系可能是反向关联关系。例如,某教育研究机构依据表9.5(b)所示的调査结果,得到反映中学生的成绩优异与否与吃早餐关系的简单关联规则:成绩(优异)早餐(吃)(S=33.33%,C=60%),在最小置信度和支持度为30%时该规则是一条有效规则。吃不吃合计优异6040100不优异661480合计12654180但进一步计算发现,70%(后项支持度)的被调查者是吃早餐的,即成绩优异的学生中吃早餐的比例低于总体比例。此时认为,成绩优
21、异与吃早餐的关联是反向的,该规则有误导性。事实上,只有成绩优异的学生中吃早餐的比例高于70%的规则,才是有正向指导意义的规则。表9.5(b)示意列联表(二)总之,规则置信度和支持度只能测度简单关联规则的有效性,并不能衡量其是否具有实用性,为此还需借助规则的提升度。规则的提升度(Lift)定义为:规则置信度与后项支持度之比。提升度可反映规则是否可用,它表示在X发生的条件下,Y发生的概率与Y总体发生的概率之比,可以用下列公式计算:Lift(XY)=C(Y|X)/S(X)P(Y)若提升度小于1,则说明规则负相关;若提升度大于1,则说明规则正相关。本章小结 本章主要结合商品零售购物篮的项目,重点介绍了
22、关联规则算法中的Apriori算法在商品零售购物篮分析项目中的应用,详细地分析了商品零售的现状与问题,同时以某商场的商品零售数据为例,分析了商品的热销程度,最后通过Apriori算法构建相应模型,并根据模型结果制定销售策略。【实验与思考】1.实验目的掌握利用Apriori算法建立购物篮分析模型的基本原理和方法。2.工具/准备工作开始本实验之前,请认真阅读课程的相关内容。准备一台可以上网的计算机或者移动设备。【实验与思考】3.实验内容与步骤1)数据采集和整理(1)通过小组形式向学校食堂或便利店获取近一个月的部分商品的销售数据。(2)按照表9.6的格式做好原始数据整理。2)软件安装和数据分析(1)在电脑上安装Clementine软件。(2)在软件组建立流程。(3)导入Excel数据列表并设置最低条件支持度、最小规则置信度。(4)导出结果并分析商品间的关联规则关系。3)根据关联分析的结果给出营销建议。