1、数据挖掘课程培训关联规则广度优先算法自底向上地搜索整个空间,首先生成候选集,然后提取其中的频繁项集算法代表有Apriori、AprioriTid和AprioriHybridAprioriHybrid的效率高于Apriori和AprioriTid深度优先算法利用模式增长的方式算法代表有FP-growth、Eclat和H-MineFP-growth以分而治之的策略,在经过第一次扫描过后,把数据库中的频繁项集压缩进一颗频繁模式树关联规则尿布 啤酒,面包,牛奶 鸡蛋,可口可乐,啤酒,面包 牛奶记录编号记录编号购物清单购物清单1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可口可乐4面包、牛奶、
2、尿布、啤酒5面包、牛奶、尿布、可口可乐频繁项集记录编号记录编号购物清单购物清单1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可口可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可口可乐u项集:项的集合,可以包含1项或多项,如面包,牛奶;项集中有K项就称为K项集,如上为2项集u支持度计数(绝对支持度)项集在事务集中出现的频率,如面包,牛奶=3u支持度(相对支持度)项集在事务集中出现的概率,如面包,牛奶=3/5u频繁项集 满足最小支持度阀值的项集,如这里把最小支持度阀值设置为3,则频繁2项集有面包,牛奶、尿布,啤酒关联规则记录编号记录编号购物清单购物清单1面包、牛奶2面包、尿布、啤酒、鸡
3、蛋3牛奶、尿布、啤酒、可口可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可口可乐u关联规则:根据一个项集里面的物品可以推测出另一个包含不同物品的项集,如啤酒,面包 牛奶,u规则度量标准-支持度(s)规则中前后两个项集在整个事务集中同时出现的概率-置信度(c)在前项集发生的情况下,由前项推出后项的概率-提升度(l)在含有前项的条件下后项发生的概率,与不包含前项这个条件下后项发生的概率对比 设前项为X,后项为Y:S=P(XUY)/P(I)C=P(XUY)/P(X)L=P(XUY)/P(X)P(Y)关联规则挖掘找出所有的频繁项集由频繁项集产生强关联规则支持度(项集)最小支持度阀值支持度 最小支持度
4、阀值置信度 最小置信度阀值提升度 最小提升度阀值项集生成nullABACADAEBCBDBECDCEDEABCDEABCABDABEACDACEADEBCDBCEBDECDEABCDABCEABDEACDEBCDEABCDE闭频繁项集和极大频繁项集闭频繁项集:频繁项集的支持度和所有包含这个频繁项集的超项集的支持度计数不同极大频繁项集:项集不存在超项集,并且该项集是频繁的项集关系极大频繁项集频繁项集闭频繁项集频繁模式挖掘种类根据完全性分类:根据完全性分类:频繁项集完全集、闭频繁项集、极大频繁项集、被约束的频繁项集、近似的频繁项集、接近匹配的频繁项集、最频繁的k个项集.根据抽象层分类:根据抽象层分
5、类:单层关联规则、多层关联规则(如:电脑打印机,台式机打印机)根据数据维度分类:根据数据维度分类:一维关联规则、多维关联规则根据处理值类型分类:根据处理值类型分类:布尔关联规则、量化关联规则Apriori算法Apriori:先验的、推测的Apriori使用逐层搜索的迭代方法,k项集用于探索k+1项集 扫描数据库,计算出每个项的计数,收集满足最小支持度的项,找出频繁1项集的集合,记为L1;使用L1寻找2项频繁集的集合L2,L2又用来寻找L3,如此下去直到不能再找到频繁k项集。翻译:方法:步骤:特征:找每个Lk都需要一次全库扫描Apriori性质Apriori性质表现如果项集I不满足最小支持度阀值
6、min_sup,则I不是频繁的,即P(I)min_sup;此时项A添加到项集I,组成一个新的项集(IUA)也是不频繁的,即P(IUA)min_supApriori性质图示非频繁项集Apriori实现步骤 根据频繁k-1项集组成的集合Lk-1 产生全部候选k项集Ck;对Ck进行修剪;计算Ck中每一个项集w的支持度;将支持度大于最小支持度阀值的项集添加到频繁k项集Lk中;只能够找到频繁k项集,并且k小于用户预先定义的最大值kmax,重复上面的步骤直到找到k+1项集Apriori实现步骤 对于L中的每一个频繁项集l,产生l的所有非空子集;对于l中的每个非空子集A,如果满足设定的评估标准 (如置信度大于等于最小置信度阀值)。在得到全部频繁项集L后,算法根据这些频繁项集产生关联规则:置信度关联规则度量e度量名称度量名称描述描述公式公式规则置信度直接使用置信度表示,默认评估度量置信度差前、后置信度差的绝对值置信度比率前、后置信度的比例信息差基于信息增益的度量方法标准化卡方基于独立的离散型数据的卡方统计检验信息差公式