1、第7章 数据挖掘方法7.1 关联规则挖掘第7章 数据挖掘方法7.1.1关联规则挖掘定义关联规则挖掘定义关联规则挖掘(Association Rules Mining)则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。例:(超级市场)在购买商品A的客户同时购买商品B,则可用关联规则表示为:AB7.1.1关联规则挖掘定义关联规则挖掘定义7.1.1关联规则挖掘定义关联规则挖掘定义关联规则属性关联规则属性1、可信度(Confidence)设W中支持物品
2、集A的事务中,有c%的事务同时也支持物品集B,c%称为关联规则AB的可信度。简单地说,可信度就是指在出现了物品集A的事务T中,物品集B也同时出现的概率有多大。如果一个顾客购买了铁锤,那么他也购买铁钉的可能性有多大呢?如购买铁锤的顾客中有70%的人购买了铁钉,所以可信度是70%。7.1.1关联规则挖掘定义关联规则挖掘定义关联规则属性关联规则属性2、支持度(Support)设W中有s%的事务同时支持物品集A 和B,s%称为关联规则AB 的支持度。支持度描述了A 和B 这两个物品集的并集C 在所有的事务中出现的概率有多大。某天共有1000 个顾客到商场购买物品,其中有100 个顾客同时购买了铁锤和铁
3、钉,那么上述的关联规则的支持度就是10%。7.1.1关联规则挖掘定义关联规则挖掘定义关联规则属性关联规则属性3、期望可信度(Expected confidence)设W 中有e%的事务支持物品集B,e%称为关联规则AB 的期望可信度。期望可信度描述了在没有任何条件影响时,物品集B 在所有事务中出现的概率有多大。某天共有1000 个顾客到商场购买物品,其中有200个顾客购买了铁钉,则上述的关联规则的期望可信度就是20%。7.1.1关联规则挖掘定义关联规则挖掘定义关联规则属性关联规则属性4、作用度(Lift)作用度是可信度与期望可信度的比值。作用度描述物品集A 的出现对物品集B 的出现有多大的影响
4、。因为物品集B 在所有事务中出现的概率是期望可信度;而物品集B 在有物品集A 出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“物品集A 出现”的这个条件后,物品集B 的出现概率发生了多大的变化。在上例中作用度就是70%/20%=3.5。7.1.1关联规则挖掘定义关联规则挖掘定义10000人20人铁锤18人铁钉铁锤铁钉 15人可信度:15/20=75%支持度:15/10000=0.15%期望可信度:18/10000=0.18%作用度:0.750.0018=416.677.1.1关联规则挖掘定义关联规则挖掘定义关联规则属性关联规则属性可信度是对关联规则的准确度的衡量;支持
5、度是对关联规则重要性的衡量;支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要;有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。7.1.1关联规则挖掘定义关联规则挖掘定义关联规则属性关联规则属性期望可信度描述了在没有物品集A 的作用下,物品集B 本身的支持度;作用度描述了物品集A 对物品集B 的影响力的大小;作用度越大,说明物品集B 受物品集A 的影响越大;一般情况,有用的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才说明A 的出现对B 的出现有促进作用,也说明了它们之间某种程度的相关性;7.1.2关联规
6、则挖掘关联规则挖掘为了发现有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度,前者规定了关联规则必须满足的最小支持度;后者规定了关联规则必须满足的最小可信度。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则(Strong rules)。7.1.2关联规则挖掘关联规则挖掘在关联规则的挖掘中要注意以下几点:1、充分理解数据。2、目标明确。3、数据准备工作要做好。能否做好数据准备又取决于前两点。数据准备将直接影响到问题的复杂度及目标的实现。4、选取恰当的最小支持度。5、很好地理解关联规则。7.1.2关联规则挖掘关联规则挖掘发现关联规则要经过以下三个步骤:1、连接数据,作数据准备(
7、数据清洗、整合相关工作);2、给定最小支持度,利用数据挖掘工具提供的算法发现关联规则;3、可视化显示、理解、评估关联规则。7.1.3关联规则分类关联规则分类1、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。性别=“女”=职业=“秘书”,是布尔型关联规则;性别=“女”=avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。7.1.3关联规则分类关联规则分类2、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。IBM台式机=Sony打印机,是一个细节数据上的单层关联规则;台式机=Sony打印机,是一个较高层次和细节层次之间的多层关联规则7.1.3关联规
8、则分类关联规则分类3、基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的啤酒=尿布,这条规则只涉及到用户的购买的物品;性别=“女”=职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维度上的一条关联规则。7.1.4 Apriori算法算法该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的
9、方法。7.1.4 Apriori算法算法k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。Apriori算法性质:任一频繁项集的所有非空子集也必须是频繁的。7.1.4 Apriori算法算法7.1.4 Apriori算法算法TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5数据库数据库 D扫描扫描 Ditemset sup.1223334153C1items
10、etsup1 211 321 512 322 53C23 52itemset1 21 31 52 32 53 5C2扫描扫描 DC3itemset2 3 5扫描扫描 DL3itemset sup2 3 52itemset sup.12233353L1itemset sup1 322 322 533 52L27.1.4 Apriori算法算法前面的例子中,得到一个频繁集前面的例子中,得到一个频繁集 2,3,5,非空真子,非空真子集有集有2,3,5,2,3,2,5,3,5itemset sup.12233353L1itemset sup1 322 322 533 52L3itemset sup2
11、3 52L2规则:规则:2 3 3 5 53 3 2 2 5 55 5 2 2 3 32 2 3 3 5 52 2 5 5 3 33 3 5 5 2 2置信度:置信度:2/3=66%(2,3,5频度频度/2频度)频度)2/3=66%(2,3,5频度频度/3频度)频度)2/3=66%(2,3,5频度频度/5频度)频度)2/2=100%(2,3,5频度频度/2,3频度)频度)2/3=66%(2,3,5频度频度/2,5频度)频度)2/2=100%(2,3,5频度频度/3,5频度)频度)支持度支持度:2/4=50%7.1.4 Apriori算法算法TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5关联规则关联规则(练习)练习)在政务问答数据集中找出各项事务关联规则,设最小支持度计数为2
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。