1、 Computer,CCUT1 Computer,CCUT2 ,.,.,21nkttttD),.,2,1(,.,.,21nktiiiitkpmk),.,2,1(pmim Computer,CCUT3X()100%|XxDsupport()x supportminsup Computer,CCUT4,x yxy xy()()100%()xyconfidence xyxsupportsupport()confidence xyminconf()3()100%100%()3BEconfidence BEBsupportsupport Computer,CCUT5%70confidence Compu
2、ter,CCUT6()x supportminsup Computer,CCUT7 Computer,CCUT8 Computer,CCUT9|EiYjEi Computer,CCUT10概念之间的泛化概念之间的泛化和特化关系和特化关系,概概念聚类念聚类ABCD1a1b1c1d12a1b2c1d23a2b1c2d34a3b3c1d4 形式背景例子形式背景例子#7(3,a2,b1,c2,d3)#2(1,3,b1)#3(1,2,4,c1)#4(1,2,a1,c1)#6(2,a1,b2,c1,d2)#5(4,a3,b3,c1,d4)#8(1,a1,b1,c1,d1)#9(,a1,a2,a3,b1,b
3、2,b3,c1,c2,d1,d2,d3,d4)#1(1,2,3,4,)Computer,CCUT11代数格代数格 Computer,CCUT12 Computer,CCUT13 Computer,CCUT14 Computer,CCUT15 Computer,CCUT16 Computer,CCUT17 Computer,CCUT18 Computer,CCUT19 Computer,CCUT20 Computer,CCUT21 Computer,CCUT22 Computer,CCUT23 Computer,CCUT24 Computer,CCUT25 Computer,CCUT26数据质量
4、问题数据质量问题单数据源问题单数据源问题多数据源问题多数据源问题模式相关模式相关(缺乏完整性约束,(缺乏完整性约束,粗劣的模式设计)粗劣的模式设计)唯一值唯一值 参考完整性参考完整性实例相关实例相关(数据输入错误)(数据输入错误)拼写错误拼写错误 冗余冗余/重复重复 矛盾的数据矛盾的数据模式相关模式相关(不同的数据模型(不同的数据模型和模式设计)和模式设计)命名冲突命名冲突 结构冲突结构冲突实例相关实例相关(矛盾的或不一致(矛盾的或不一致的数据)的数据)不一致的聚集层次不一致的聚集层次 不一致的时间点不一致的时间点 Computer,CCUT27 Computer,CCUT28 主要包括主要包
5、括:数据清洗、数据集成、数据转换和数据消减。数据清洗、数据集成、数据转换和数据消减。数据清洗数据清洗是指消除数据中所存在的噪声以及纠正其不一致的错是指消除数据中所存在的噪声以及纠正其不一致的错误;填写空缺的值,平滑噪声数据,识别、删除孤立点,解决误;填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。不一致性。数据集成数据集成是指将来自多个数据源的数据合并到一起构成一个完是指将来自多个数据源的数据合并到一起构成一个完整的数据集;整的数据集;数据转换数据转换是指将一种格式的数据转换为另一种格式的数据;规是指将一种格式的数据转换为另一种格式的数据;规范化和聚集范化和聚集数据消减数据消减是指
6、通过删除冗余特征或聚类消除多余数据。是指通过删除冗余特征或聚类消除多余数据。数据归约数据归约是指得到数据集的压缩表示,它小得多,但可以得到是指得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果相同或相近的结果数据离散化数据离散化是数据归约的一部分,但具有特殊的重要性,特别是数据归约的一部分,但具有特殊的重要性,特别是对数字数据是对数字数据 Computer,CCUT29 Computer,CCUT30 Computer,CCUT31 Computer,CCUT32 Computer,CCUT33 Computer,CCUT34 Computer,CCUT35AAAAAAminnewmi
7、nnewmaxnewminmaxminvv_)_(Computer,CCUT36零均值规范化零均值规范化对属性对属性A A的的v v值值小数定标规范化小数定标规范化AAvvjvv10其中,其中,j j是使是使 Max(|)1Max(|)1的最小整数的最小整数 v数据消减技术用于帮助从原有庞大数据集中获得一个精简的数数据消减技术用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有
8、数据集所获得结果基本相同。结果与使用原有数据集所获得结果基本相同。数据消减的主要策略有以下几种:数据消减的主要策略有以下几种:Computer,CCUT37 Computer,CCUT38 Computer,CCUT39 Computer,CCUT40 Computer,CCUT41 Computer,CCUT42 Computer,CCUT43 Computer,CCUT44基于熵的离散化基于熵的离散化 给定一个样本集给定一个样本集S S,属性,属性A A的每个值可认为是个区间边界的每个值可认为是个区间边界或阈值或阈值T T,S S被划分为被划分为S1S1和和S2S2两个子集(两个子集(AT
9、 AT 与与A A T)T),那麽划,那麽划分后的信息熵增益为:分后的信息熵增益为:确定阈值的过程递归的用于所得到的每个划分,直到确定阈值的过程递归的用于所得到的每个划分,直到满足某个中止条件,如:满足某个中止条件,如:实验证明基于熵的离散化可以压缩数据量,提高分类的实验证明基于熵的离散化可以压缩数据量,提高分类的准确性准确性)(|)(|),(2211SSSSEntSEntSTSI Computer,CCUT45通过自然划分分段通过自然划分分段n将数值区域划分为相对一致的、易于阅读的、看上去更直观将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。或自然的区间。n自然划分的自然划
10、分的3-4-53-4-5规则:规则:n如果一个区间最高有效位上包含如果一个区间最高有效位上包含3 3,6 6,7 7或或9 9个不同的值,个不同的值,就将该区间划分为就将该区间划分为3 3个等宽子区间;个等宽子区间;(72,3,2)n如果一个区间最高有效位上包含如果一个区间最高有效位上包含2 2,4 4,或,或8 8个不同的值,个不同的值,就将该区间划分为就将该区间划分为4 4个等宽子区间;个等宽子区间;n如果一个区间最高有效位上包含如果一个区间最高有效位上包含1 1,5 5,或,或1010个不同的值,个不同的值,就将该区间划分为就将该区间划分为5 5个等宽子区间;个等宽子区间;n将该规则递归
11、的应用于每个子区间将该规则递归的应用于每个子区间n对于数据集中出现的最大值和最小值的极端分布,为了避免对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。部分的概率空间。e.g.5%-95%.e.g.5%-95%.超越分段的特高或特低值超越分段的特高或特低值 Computer,CCUT46(-$400-$5,000)(-$400-0)(-$400-$300)(-$300-$200)(-$200-$100)(-$100-0)(0-$1,000)(0-$200)($200-$40
12、0)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000 High=$2,000Step 2:Step 4:Step 1:-$351-$159profit$1,838$4,700 Min Low(i.e,5%-tile)High(i.e,95%-0 tile)Maxcount(-$1,000 -$2,000)(-$1,000-0)(0-$1,000)Step 3:($1,000-$2,000)Computer,CCUT47 Computer,CCUT48