1、数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估数据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库 定义:论域X=x上的模糊集合A由隶属函数A(x)来表征。其中A(x)在实轴的闭区间0,1中取值,A(x)的大小反映x对于模糊集合A的隶属程度。A(x)的值接近1,表示x隶属于A的程度很高。A(x)的值接近0,表示x隶属于A的程度很低。特例,当A的值域取0,1闭区间的两个端点,亦即0,1两个值时,A便退化为一个普通的逻辑子集。隶属函数也
2、就退化为普通逻辑值。数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约n简单,但是没有意义xyy=x+1X1Y1Y1冗余数据的处理BABAnBBAAr)1()()(,ABAB数据转换:规范化AAminnewmaxnew_,_AAAAAAminnewminnewmaxnewminmaxminvv_)_(Avv jvv10Where j is the smallest integer such that Max(|)Reduced attribute set:A1,A4,A6YYYNNNcount51015202530123456789101-1011-2021-3051015202
3、5132515PricePricecountcount51015202530123456789101-1011-2021-30510152025132515PricePricecountn例例1:包含数据:包含数据:101、110、203、222、305、315n方法:最高位包含方法:最高位包含3个值(个值(1、2、3)n分成分成100,200),),200,300),),300,400)三段)三段n例例2:包含数据:包含数据:101、110、103、422、405、415,400n方法:最高位包含方法:最高位包含2个值(个值(1、4)n分成分成100,150),),150,200),400,
4、450),450,500)四段)四段n例例3:包含数据:包含数据:101、210、203、322、305、415,500n方法:最高位包含方法:最高位包含5个值(个值(1、2、3、4、5)n分成分成100,200),),200,300),300,400),400,500),),500,600)五段五段countryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values主要内容主要内容l为什么需要数据预处理为什么需要数据预处理?l数据清洗数据清洗 l数据集成与转换数据集成与转换l数据归约数据归约l数据离散化与概念层次的构建数据离散化与概念层次的构建l本章小结本章小结信息可视化数据挖掘可视化 数据挖掘