1、商务智能 第五章第五章 数据预处理技术案例数据预处理技术案例 数据预处理的方法 数据清洗 去掉噪声和无关数据 数据集成 将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据变换 把原始数据转换成为适合数据挖掘的形式 数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等 数据预处理工具Microsoft SQL Server SSISSQL Server 集成服务(SSIS)被定位成一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载(ETL)的平台。其集成的含义主要就是指把ETL集成在一起。SSIS通过一个统一的环境向用户提供了数据转
2、换服务(DTS)所能提供的所有功能,并且大大减少了用户花在编写程序和脚本上的精力和时间。集成服务(Integration Services) SSIS的基本功能包括: 合并来自异类数据源中的数据 填充数据仓库和数据集市 整理数据和将数据标准化 精确和模糊的查找功能 将商业智能置入数据转换过程 使管理功能和数据加载自动化案例1:数据的集成、导入 使用使用SSIS工具工具 1)新建Integration Services 项目Integration Sales,并在此项目中新建一个SSIS包Integration Sales.dtsx,在此包中进行数据的抽取,整合等操作。 2)创建数据源。 在在I
3、ntegraton Service项目下的数据源文件夹中添加两个项目下的数据源文件夹中添加两个新的数据源连接,一个连接新的数据源连接,一个连接AdeventurWorksLT2008,一一个连接目标数据库个连接目标数据库AdeventurWorksLT_DW2008 设计SSIS包Integration Sales.dtsx。 设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SSIS设计器窗口中,再对这些对象进行设计。 由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。l数据抽取中所涉及的表主要有:l事实表FactSales,l产品信息表DimProdu
4、ct,l产品类别信息表DimCategory,l订购时间表DimTimel客户信息表DimCustmer。 抽取事实表FactSales的数据流任务的过程 1)选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器中,并重命名为DimCustmer 2)双击【数据流任务】 DimCustmer打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。 3)打开【OLE DB源编辑器】进行【OLE DB源】对象的设置。在上述设计中需选中数据源AdventureWorksLT2008,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取
5、的SQL语句。 4)完成【OLE DB源】对象设置后,从工具箱中将【SQL Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源AdeventurWorksLT_DW2008。案例2:为数据挖掘算法准备数据 以AdventureWorksDW2008数据仓库为例,进行购物篮数据挖掘,数据源对象是顾客购买的商品和顾客年龄、收入状况,但这些数据散布在数据仓库不同的事实表和维表中的。如何进行? 视图vDMPrep就是为关联规则挖掘、经过预处理生成的数据表。 vDMPrep will
6、be used as a data source by the other data mining views. Uses DW data at customer, product, day, etc. granularity and gets region, model, year, month, etc. 关联规则挖掘的数据源为: vAssocSeqOrders supports assocation and sequence clustering data mmining models. vAssocSeqLineItems CREATE VIEW dbo.vAssocSeqOrders AS SELECT DISTINCT OrderNumber ,CustomerKey ,Region ,IncomeGroup FROM dbo.vDMPrep WHERE FiscalYear = 2004 CREATE VIEW dbo.vAssocSeqLineItems AS SELECT OrderNumber ,LineNumber ,Model FROM dbo.vDMPrep WHERE FiscalYear = 2004 ;