1、什么是关联规则?关联规则数据挖掘是数据挖掘领域的热点之一。关联规则反映一个对象与其他对象之间的相互依赖性,如果多个对象之间存在一定的关联关系,那么,其中一个对象就能够通过其他对象进行预测。典型问题:a.分析超市中的购物篮数据;b.从海量商业交易记录中发现感兴趣的数据 关联,以帮助商家决策。例如:商品分类设计、降价经销分析、货架摆 放策略.支持度、置信度、项集、项 关联规则可以采用与分类规则相同的方式产生。由于得到的关联规则数量庞 大,通常需要根据覆盖率(coverage)和准确率(accuracy)进行修剪。覆盖率:又称为支持度支持度(support),支持度是支持度计数与实例总数的比 值,支
2、持度计数是应用规则后预测正确的实例数量;准确率:又称为置信度置信度(confidence),表示为支持度计数与应用规则的实例 数量的比值。由于仅对高覆盖量的关联规则感兴趣,因此关联只寻找能够达到预定的最小覆盖量的属性值对组合,这些组合称为项集项集(itemset),其中的任一个属性值对称为一个项项(item)。例如:套用购物篮分析案例,项就是购物篮中的商品,需要寻找的是购物篮中商品之间的关联。关联分析定义:主要用于发现隐藏在大型数据集中的有意义的联系,这些联系可以采用关联规则或频繁项集的形式表示。关联分析可用于购物篮数据分析,还可用于医疗诊断、网页挖掘和科学数据分析等领域。Weka数据挖掘平台
3、上的Associate标签页就是用来处理关联问题:Weka提供了Apriori、PredictiveApriori、Tertius等关联规则发掘算法;在Associate标签页中选定一个算法,进行一些必要的设置,包括支持度上界、下界,每次运算的支持度递减值,等等;其中,Apriori算法是第一个关联规则挖掘算法,而且这几个算法均不支持数值型数据,所以如果是数值型数据,则需要先对其进行离散化处理。了解Apriori算法中各个参数的解释案例1.weather.nominal.arff数据集AprioriFilteredAssociatorFPGrowth对于设置表中各个参数的含义:1.carcar
4、:如果设为true,则会挖掘类关联规则而不是全局关联规则。2.classindexclassindex:类属性索引。若设为-1,最后的属性被当做类属性。3.deltadelta:以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。4.lowerBoundMinSupportlowerBoundMinSupport:最小支持度下界。6.minMtricminMtric 度量的最小值。7.numRulesnumRules 要发现的规则数。8.outputItemSetsoutputItemSets 如果设置为真,会在结果中输出项集。9.removeAllMissin
5、gColsremoveAllMissingCols 移除全部为缺省值的列。10.significanceLevelsignificanceLevel 重要程度。重要性测试(仅用于置信度)。11.upperBoundMinSupportupperBoundMinSupport 最小支持度上界。从这个值开始迭代减小最小支持度。5.metricTypemetricType:度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。在 Weka中设置了几个类似置信度(confidence)的度量
6、来衡量规则的关联程度,它们分别是:a)Lift Lift(提升度):P(A,B)/(P(A)P(B)Lift=1时表示A和B独立。这个数越大(1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度.b)LeverageLeverage(杠杆率):P(A,B)-P(A)P(B)Leverage=0时A和B独立,Leverage越大A和B的关系越密切c)ConvictionConviction(确信度):P(A)P(!B)/P(A,!B)(!B表示B没有发生)Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A
7、、B越关联。完整的实验结果输出及具体分析:=Run information=/实验运行信息 Scheme:weka.associations.Apriori-N 10-T 0-C 0.9-D 0.05-U 1.0-M 0.1-S-1.0-c-1 Relation:weather.symbolic /数据的名称 Instances:14 /数据的记录数 Attributes:5 /属性数目及其名称 outlook temperature humidity windy play=Associator model(full training set)=Apriori /Apriori算法的运行结果=
8、Minimum support:0.15(2 instances)/最小的支持度(最少需要两个实例)Minimum metric:0.9 /最小度量(置信度)Number of cycles performed:17 /进行了17轮搜索 Generated sets of large itemsets:/生成的频繁项集 Size of set of large itemsets L(1):12 /频繁1项集:12个 Size of set of large itemsets L(2):47 /频繁2项集:47个 Size of set of large itemsets L(3):39 Siz
9、e of set of large itemsets L(4):6 Best rules found:前件 num.1=结论 num.2 表示有多少个 表示有多少个 实例满足前件 实例满足整个规则 1.outlook=overcast 4=play=yes 4 lift:(1.56)lev:(0.1)1 conv:(1.43)2.temperature=cool 4=humidity=normal 4 lift:(2)lev:(0.14)2 conv:(2)3.humidity=normal windy=FALSE 4=play=yes 4 lift:(1.56)lev:(0.1)1 conv
10、:(1.43)4.outlook=sunny play=no 3=humidity=high 3 lift:(2)lev:(0.11)1 conv:(1.5)5.outlook=sunny humidity=high 3=play=no 3 lift:(2.8)lev:(0.14)1 conv:(1.93)6.outlook=rainy play=yes 3=windy=FALSE 3 lift:(1.75)lev:(0.09)1 conv:(1.29)7.outlook=rainy windy=FALSE 3=play=yes 3 lift:(1.56)lev:(0.08)1 conv:(1
11、.07)8.temperature=cool play=yes 3=humidity=normal 3 lift:(2)lev:(0.11)1 conv:(1.5)9.outlook=sunny temperature=hot 2=humidity=high 2 lift:(2)lev:(0.07)1 conv:(1)10.temperature=hot play=no 2=outlook=sunny 2 lift:(2.8)lev:(0.09)1 conv:(1.29)2.vote.arff数据集(任务是基于投票模式预测所属党派)Best rules found:(二元标称型)1.adopt
12、ion-of-the-budget-resolution=y physician-fee-freeze=n 219=Class=democrat 219 lift:(1.63)lev:(0.19)84 conv:(84.58)第一条规则表明,支持“采纳预算决议”,并反对“冻结医疗费”的是“民主党”。2.adoption-of-the-budget-resolution=y physician-fee-freeze=n aid-to-nicaraguan-contras=y 198=Class=democrat 198 lift:(1.63)lev:(0.18)76 conv:(76.47)第二
13、条规则表明,支持“采纳预算决议”,反对“冻结医疗费”,并支持“援助尼加拉瓜反政府”的是“民主党”。3.physician-fee-freeze=n aid-to-nicaraguan-contras=y 211=Class=democrat 210 lift:(1.62)lev:(0.19)80 conv:(40.74)第三条规则表明,反对“冻结医疗费”,并支持“援助尼加拉瓜反政府”的是“民主党”。4.physician-fee-freeze=n education-spending=n 202=Class=democrat 201 lift:(1.62)lev:(0.18)77 conv:(
14、39.01)第四条规则表明,反对“冻结医疗费”,并反对“教育支出”的是“民主党”。5.physician-fee-freeze=n 247=Class=democrat 245 lift:(1.62)lev:(0.21)93 conv:(31.8)第五条规则表明,反对“教育支出”的是“民主党”。6.el-salvador-aid=n Class=democrat 200=aid-to-nicaraguan-contras=y 197 lift:(1.77)lev:(0.2)85 conv:(22.18)第六条规则表明,反对“EL-萨尔瓦多援助”,并且类别为“民主党”的,会支持“援助尼加拉瓜反政
15、府”。7.el-salvador-aid=n 208=aid-to-nicaraguan-contras=y 204 lift:(1.76)lev:(0.2)88 conv:(18.46)第七条规则表明,反对“EL-萨尔瓦多援助”的,会支持“援助尼加拉瓜反政府”。8.adoption-of-the-budget-resolution=y aid-to-nicaraguan-contras=y Class=democrat 203=physician-fee-freeze=n 198 lift:(1.72)lev:(0.19)82 conv:(14.62)第八条规则表明,支持“采纳预算决议”,支
16、持“援助尼加拉瓜反政府”,并且类别为“民主党”的,会反对“冻结医疗费”。9.el-salvador-aid=n aid-to-nicaraguan-contras=y 204=Class=democrat 197 lift:(1.57)lev:(0.17)71 conv:(9.85)第九条规则表明,反对“EL-萨尔瓦多援助”,并支持“援助尼加拉瓜反政府”的是“民主党”。10.aid-to-nicaraguan-contras=y Class=democrat 218=physician-fee-freeze=n 210 lift:(1.7)lev:(0.2)86 conv:(10.47)第十条
17、规则表明,支持“援助尼加拉瓜反政府”,并且类别为“民主党”的,会反对“冻结医疗费”。推断出:推断出:“民主党民主党”会支持会支持“采纳采纳预算决议预算决议”和和“援助尼加拉瓜反政援助尼加拉瓜反政府府”,反对,反对“冻结医疗费冻结医疗费”“”“教育教育支出支出”和和“EL-萨尔瓦多援助萨尔瓦多援助”。图中的蓝色(深色)代表民主党,红色(浅色)代表共和党。在前四行的16项属性中,有多项属性蓝色占据绝对的统治地位,基本上全是蓝色柱;而红色占据统治地位的只有很少几个属性,又因为覆盖率低而不具备竞争优势,故未能入选。在人数上民主党占优(267168),加上有明确的政治观点,因此前十条关联规则都打上了民主
18、党的烙印。3.市场购物篮分析市场购物篮分析购物篮分析将关联技术用于交易过程,特别是分析超市收银数据,找出那些以成组的形式同时出现的商品。对于大多数零售商来说,这是主要的用于数据挖掘的销售信息来源。例如,自动分析收银数据后发现:买啤酒的客户同时也买薯片,对超市管理人员来说,这个发现也许非常有意义。另一个沃尔玛的例子是,一些顾客通常星期四在买尿片的同时还买啤酒。这似乎令人惊讶,但如果仔细一想,年轻父母为了在家度周末而采购,这又非常容易理解。上述信息可以用于多种目的,如规划货架摆放位置、仅对会上述信息可以用于多种目的,如规划货架摆放位置、仅对会同时购买的商品中的一种进行打折销售、提供与单独销售的产品
19、同时购买的商品中的一种进行打折销售、提供与单独销售的产品相匹配产品的赠券,等等。相匹配产品的赠券,等等。了解顾客的个人购买历史记录能够创造出巨大的附加价值。商家可以从顾客的购买行为中鉴别特殊客户,不但可以分析其历史购买模式,而且还能精确地针对潜在用户提供特殊的极有可能感兴趣的购买信息。supermarket.arff数据集Best rules found:1.biscuits=t frozen foods=t fruit=t total=high 788=bread and cake=t 723 lift:(1.27)lev:(0.03)155 conv:(3.35)饼干+冷冻食品+水果+高总
20、额=面包和蛋糕。2.baking needs=t biscuits=t fruit=t total=high 760=bread and cake=t 696 lift:(1.27)lev:(0.03)149 conv:(3.28)烘烤所需+饼干+水果+高总额=面包和蛋糕。3.baking needs=t frozen foods=t fruit=t total=high 770=bread and cake=t 705 lift:(1.27)lev:(0.03)150 conv:(3.27)烘烤所需+冷冻食品+水果+高总额=面包和蛋糕。4.biscuits=t fruit=t vegetab
21、les=t total=high 815=bread and cake=t 746 lift:(1.27)lev:(0.03)159 conv:(3.26)饼干+水果+蔬菜+高总额=面包和蛋糕。5.party snack foods=t fruit=t total=high 854=bread and cake=t 779 lift:(1.27)lev:(0.04)164 conv:(3.15)聚会零食+水果+高总额=面包和蛋糕。6.biscuits=t frozen foods=t vegetables=t total=high 797=bread and cake=t 725 lift:(
22、1.26)lev:(0.03)151 conv:(3.06)饼干+冷冻食品+蔬菜+高总额=面包和蛋糕。7.baking needs=t biscuits=t vegetables=t total=high 772=bread and cake=t 701 lift:(1.26)lev:(0.03)145 conv:(3.01)烘烤所需+饼干+蔬菜+高总额=面包和蛋糕。8.biscuits=t fruit=t total=high 954=bread and cake=t 866 lift:(1.26)lev:(0.04)179 conv:(3)饼干+水果+高总额=面包和蛋糕。9.frozen
23、foods=t fruit=t vegetables=t total=high 834=bread and cake=t 757 lift:(1.26)lev:(0.03)156 conv:(3)冷冻食品+水果+蔬菜+高总额=面包和蛋糕。10.frozen foods=t fruit=t total=high 969=bread and cake=t 877 lift:(1.26)lev:(0.04)179 conv:(2.92)冷冻食品+水果+高总额=面包和蛋糕。十条关联规则中,多项商品多次出现,而且总金额都很高。这给出了一些显而易见的信息:第一,购买饼干、冷冻食品等速食的顾客,会顺便采购些水果、蔬菜,以补充身体所需的维生素;第二,购买饼干、冷冻食品以及水果、蔬菜的顾客,会顺便购买面包和蛋糕;第三,购买上述食品的顾客,一次的采购量会很大,总金额较高;第四,总金额较高的交易,一般都会购买面包和蛋糕,等等。对于超市经理来说,这些信息非常重要,可以根据挖掘到的知识重新安排货架,重新布局超市,提供快速付款通道以及安排送货等附加服务,以期提升市场竞争力。