1、11/11/2022111/11/2022211/11/2022311/11/2022411/11/2022511/11/20226数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估11/11/2022711/11/2022811/11/2022911/11/20221011/11/20221111/11/20221211/11/202213数据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库11/11/20221411/11/2022
2、1511/11/20221611/11/20221711/11/20221811/11/20221911/11/20222011/11/20222111/11/20222211/11/20222311/11/20222411/11/20222511/11/20222611/11/20222711/11/20222811/11/20222911/11/20223011/11/20223111/11/20223211/11/20223311/11/20223411/11/202235数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约11/11/20223611/11/20223711
3、/11/20223811/11/202239n简单,但是没有意义11/11/20224011/11/20224111/11/20224211/11/20224311/11/20224411/11/20224511/11/202246xyy=x+1X1Y1Y111/11/20224711/11/20224811/11/20224911/11/202250BABAnBBAAr)1()()(,ABAB11/11/20225111/11/202252AAminnewmaxnew_,_AAAAAAminnewminnewmaxnewminmaxminvv_)_(11/11/202253Avv jvv10
4、Where j is the smallest integer such that Max(|)Reduced attribute set:A1,A4,A6YYYNNN11/11/20226111/11/20226211/11/202263count51015202530123456789101-1011-2021-30510152025132515PricePricecount11/11/20226411/11/20226511/11/20226611/11/20226711/11/202268count51015202530123456789101-1011-2021-3051015202
5、5132515PricePricecount11/11/20226911/11/20227011/11/202271n例例1:包含数据:包含数据:101、110、203、222、305、315n方法:最高位包含方法:最高位包含3个值(个值(1、2、3)n分成分成100,200),),200,300),),300,400)三段)三段n例例2:包含数据:包含数据:101、110、103、422、405、415,400n方法:最高位包含方法:最高位包含2个值(个值(1、4)n分成分成100,150),),150,200),400,450),450,500)四段)四段n例例3:包含数据:包含数据:10
6、1、210、203、322、305、415,500n方法:最高位包含方法:最高位包含5个值(个值(1、2、3、4、5)n分成分成100,200),),200,300),300,400),400,500),),500,600)五段五段11/11/20227211/11/202273countryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values11/11/202274主要内容主要内容l为什么需要数据预处理为什么需要数据预处理?l数据清洗数据清洗 l数据集成与转换数据集成与转换l数据归约数据归约l数据离散化与概念层次的构建数据离散化与概念层次的构建l本章小结本章小结11/11/20227511/11/202276信息可视化数据挖掘可视化 数据挖掘11/11/20227711/11/20227811/11/20227911/11/20228011/11/20228111/11/20228211/11/20228311/11/20228411/11/20228511/11/20228611/11/20228711/11/20228811/11/20228911/11/20229011/11/202291