1、决策支持系统与数据挖掘第8章 决策支持系统与商务智能(1)第8章(1)决策支持和数据仓库 内容提要:内容提要:决策支持系统(DSS)联机分析处理(OLAP)数据仓库和数据挖掘 数据仓库在商业中的应用数据仓库在商业中的应用 主要术语和概念 主要参考资料数据仓库数据仓库Data warehouse已讲内容与新内容的关系营销系统营销系统生产系统生产系统财务系统财务系统人力管理人力管理决策支持系统决策支持系统DSS数据仓库数据仓库Data warehouse人工智能人工智能AI商务智能商务智能BI计算机计算机数据库数据库7种种策略策略TCSOAKWSMISDSSESS4种种战略战略MRPMRPIIER
2、PSCMCRMEC数据挖掘数据挖掘Datamining本章内容提要:相互关系数据仓库数据仓库OLAP决策支持系统决策支持系统数据挖掘技术数据挖掘技术人工智能人工智能商务智能商务智能决策支持系统、商务智能与数据仓库定义:定义:决策支持系统决策支持系统(decision support system decision support system DSSDSS)为交互式计算机系统)为交互式计算机系统,运用数据、模型分析、运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协专家知识及其他资源通过友善的人机接口互动,协助个人或团体决策者提升半结构化决策的绩效和满助个人或团体决策者提升半结构
3、化决策的绩效和满足。在足。在IBMIBM中,又称为中,又称为商务智能商务智能(business business intelligence intelligence BIBI)。)。定义:定义:数据仓库数据仓库(data warehouse data warehouse DWDW)是一种数)是一种数据库概念的延伸与推广,以适应决策支持需要的一据库概念的延伸与推广,以适应决策支持需要的一种数据的集合。种数据的集合。数据挖掘与联机分析处理定义:定义:数据挖掘数据挖掘(data mining DM)是)是一种一种探索性探索性的分析方法。的分析方法。(根据已经有的数据根据已经有的数据,挖掘其中的规律挖
4、掘其中的规律)定义:定义:联机分析处理联机分析处理(on-line analytical processes OLAP):是一种:是一种验证性验证性分析方法。分析方法。(先定方法先定方法,后由数据验证后由数据验证)决策支持系统 DSSDSS和MIS的不同1、MIS 主要为中层管理提供主要为中层管理提供 信息服务信息服务2、主要是通过查询或报表主要是通过查询或报表 进行联机事务处理(进行联机事务处理(OLTP)3、问题问题:结构化问题结构化问题4、使用:使用:5、主要技术主要技术:关系数据库的关系数据库的 关系运算关系运算1、DSS 支持高层的决策支持高层的决策2、主要是通过对话系统主要是通过对
5、话系统 进行联机分析处理(进行联机分析处理(OLAP)3、问题问题:半结构化问题半结构化问题4、使用、使用 历史性数据库历史性数据库5、主要技术:数据挖掘:、主要技术:数据挖掘:依赖性分析、聚类分析、依赖性分析、聚类分析、神经网络、遗传算法、神经网络、遗传算法、粗糙集理论粗糙集理论 数据库数据库数据仓库数据仓库决策支持系统(DSS)的半结构化问题决策支持系统决策支持系统(DSS)定义定义:为交互式计算机系统为交互式计算机系统,运用数据、模型分析、专家知运用数据、模型分析、专家知识及其他资源通过友善的人机接口互动,协助个人或团体识及其他资源通过友善的人机接口互动,协助个人或团体决策者提升半结构化
6、决策的绩效和满意决策。决策者提升半结构化决策的绩效和满意决策。给我销售量最好的产品名单给我销售量最好的产品名单 告诉我出现问题的地区告诉我出现问题的地区 告诉我为什么告诉我为什么(向下钻取向下钻取)让我看看其它数据让我看看其它数据(横向钻取横向钻取)显示最大的利润显示最大的利润 当一个地区的销售低于目标时当一个地区的销售低于目标时,提醒我提醒我半结构化问题:半结构化问题:股票管理、股票管理、贸易市场贸易市场开发开发经费预算经费预算资本获利分析资本获利分析等等 问问 题题决策支持系统(DSS)的基本模式DSS的基本模式:真实系统决策环境操作响应管理者管理者协作协作人员人员与人的行为有关的信息处理
7、数据MIS信息外部数据问题对话系统对话系统数据库数据库系统模型库模型库方法库方法库知识库知识库DSS决策支持系统(DSS)的基本构件 基本构件基本构件人人 机对话系统:机对话系统:核心是人人机界面机界面提问方式:“如果.则.”能够给用户必要的提示和帮助数据库数据库:MIS的的DB支持日常支持日常事务处理事务处理DSS的数据的数据仓库可以用仓库可以用联机分析联机分析处理处理(OLAP)支持决策。支持决策。方法库方法库:包括通用算法和包括通用算法和标准函数标准函数:排序算排序算法、分类算法、法、分类算法、最小生成树算法最小生成树算法最短路径算法、最短路径算法、线形规划、整数线形规划、整数规划、动态
8、规划、规划、动态规划、各种统计算法、各种统计算法、各种组合算法各种组合算法等等知识库知识库:包括包括知识的获取知识的获取,知识的解释、知知识的解释、知识的表示、知识识的表示、知识推理、知识库的推理、知识库的管理和维护管理和维护。DSS的知识库使的知识库使用的技术和用的技术和专家专家系统与人工智能系统与人工智能技术一致。技术一致。模型库模型库:可以提供推理可以提供推理比较选择、分析比较选择、分析整个问题的模整个问题的模型型,DSS是以模是以模型驱动型驱动的的,可根可根据具体问题生成据具体问题生成决策模型决策模型,输出输出用于制定或估计用于制定或估计决策决策.数据库、数据仓库、知识库、方法库数据库
9、、数据仓库、知识库、方法库数据库:数据库:指长期储存在计算机内的、有组指长期储存在计算机内的、有组织的、可共享的数据集合织的、可共享的数据集合 数据仓库:数据仓库:不同于数据库。数据库不同于数据库。数据库系统是一种通用的平台,用来管理企系统是一种通用的平台,用来管理企业的数据;而数据仓库是一种概念,业的数据;而数据仓库是一种概念,在此概念下进行的构造过程,我们叫在此概念下进行的构造过程,我们叫它数据仓库处理。所以,数据仓库不它数据仓库处理。所以,数据仓库不是花钱可以购买的现成产品,它是一是花钱可以购买的现成产品,它是一个建立的过程。个建立的过程。知识库知识库(Knowledge Base)是知
10、识工程中结构化,易操作,是知识工程中结构化,易操作,易利用,全面有组织的知识集群,易利用,全面有组织的知识集群,是针对某一是针对某一(或某些或某些)领域问题求领域问题求解的需要,采用某种知识表示方解的需要,采用某种知识表示方式在计算机存储器中、式在计算机存储器中、组织、管组织、管理和使用的互相联系的知识片存理和使用的互相联系的知识片存储集合储集合。方法库方法库基基本本数数学学方方法法统统计计方方法法优优化化方方法法预预测测方方法法计计划划方方法法金金融融方方法法计计划划评评审审时时间间序序列列矩矩阵阵运运算算线线性性规规划划判判别别分分析析因因子子分分析析关关联联分分析析初初等等函函数数算算法
11、法插插值值算算法法拟拟合合算算法法平平滑滑算算法法外外推推算算法法回回归归分分析析数据仓库建立过程建立过程ETL(Extract Transformation Load)数据加载:数据加载:包括数据的抽取、清洗(包括数据的抽取、清洗(Data Cleaning)、转换和加载)、转换和加载方法库方法库中的方法模块方法库中的方法模块方法库基本数学方法统计方法优化方法预测方法计划方法金融方法计划评审矩阵计算时间序列线性规划判别分析因子分析二元相关分析方差分析回归分析外推法平滑法拟合法插值法初等函数法方法库方法库的输出报表图形工程造价与管理知识库知识库项目管理知识库知识库 DSS Image Libr
12、ary Browser DSS的主要关键要素和决策流程决策流程DSS的主要的主要关键要素(关键要素(4个)个)即影响即影响DSS结果的因素:结果的因素:1、环境环境(如环境的压力、(如环境的压力、主主 管的支持、权力和管的支持、权力和 政治结构等)政治结构等)2、任务任务:决策的工作项目:决策的工作项目3、使用者使用者:使用者的认知方:使用者的认知方 式、动机、期望、使用方式式、动机、期望、使用方式4、DSS系统系统:系统设计的质:系统设计的质 量、推动和导人策略等量、推动和导人策略等问题认知情报搜集方案设计选择方案推动结果决策的流程:决策的流程:西蒙的决策过程西蒙的决策过程DSS Lifto
13、ff In Flight CLIME-DSS-2.Leicester(英国累斯特)(英国累斯特),DSS(STScI/AURUA)商务商务DSS系统决策支持系统(DSS)的发展趋势发展趋势决策支持系统(DSS)的发展趋势发展趋势1、智能决策支持系统(、智能决策支持系统(IDSS):):人机接口(对话机)自然语言处理系统自然语言处理系统问题处理系统模型库管理系统数据库管理系统方法库管理系统知识库管理系统推理机推理机模型库数据库方法库知识库用户企业智能决策支持系统架构图IDSS智能决策支持系统智能决策支持系统决策支持系统(DSS)的发展趋势发展趋势2、群体决策支持系统(、群体决策支持系统(GDSS
14、)决策室决策室大屏幕大屏幕大屏幕大屏幕大屏幕远程电信会议远程电信会议远程决策远程决策决策局网决策局网群体决策支持GDSS的类型及相互关系群组决策支持系统(群组决策支持系统(GDSS)就是由就是由DSS演化来的。演化来的。包括:计算机辅助协同工作(包括:计算机辅助协同工作(CSCW)群组决策支持系统(群组决策支持系统(GDSS)电子会议系统(电子会议系统(EMS)它们之间的关系如图:它们之间的关系如图:GDSS专家专家Delphi法法线上投票线上投票多目标决策多目标决策 EMS电子会议电子会议线上讨论线上讨论 CSCW共同编辑共同编辑协同设计协同设计GDSS群体决策支持系统the GDSS to
15、ols,word processing 联机分析处理 OLAPOLAP技术是与数据仓库技术相伴发展起来的,1993年,“关系数据库”之父E。F。Codd首次提出了OLAP的概念,专门支持复杂的分析操作。OLAP的主要特征是能够提供数据的多维概念视图。多维信息被抽象为立方体,它包括维和度量值,维是我们说的观察角度,度量值是我们关心的指标值。可以使用户从多角度、多侧面、多层次直观地考察数据仓库中数据,深入理解数据中的信息和内含。基本概念联锁商店的销售金额销售金额(主题主题)的维维1、按时间角度分析、统计其销售金额(季度)按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(
16、产品)、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)、按联锁商店不同地域分析统计的销售金额(地域)观察观察角度角度称为称为“维维”,观察,观察深度深度称为称为“层层”。一个维中可以允许有若干。一个维中可以允许有若干层层。NO1NO2NO3ALL一 二 三 四 all (季)(季)TV PC VCDALL产产品品商店商店什么是联机分析处理(OLAP)什么是联机分析处理(什么是联机分析处理(OLAP)OLAP是一种验证性分析软件,它具有归纳的作用。它将数据仓库中的数据作为分析对象,通过多种复杂操作,可以对高层管理人员提供有力的决策支持。它可以满足分析人
17、员的要求,进行快速灵活地大数据量复杂的操作处理。并且以一种直观、易懂的形式将结果展示给决策人员。OLAP与OLTP的比较比较项目比较项目OLAP(联机分析处理)联机分析处理)OLTP(联机事务处理)(联机事务处理)应用基础应用基础数据仓库数据仓库DBMS用户用户决策者(高层管理)决策者(高层管理)一般操作者(低、中)一般操作者(低、中)目的目的为决策提供支持为决策提供支持为日常工作服务为日常工作服务数据特征数据特征导出数据导出数据原始数据原始数据数据细节数据细节综合数据细节程度低综合数据细节程度低 细节程度高细节程度高时间特征时间特征历史数据,一个时段历史数据,一个时段 当前数据当前数据数据量
18、需求数据量需求一次处理需大量数据一次处理需大量数据 一次处理需少量数据一次处理需少量数据Create OLAP NET OLAP control界面 简单联机分析轴侧图结果OLAP的分析结果Analyzer OLAP OLAP Example 1 OLAP Market分析 什么是联机分析处理(OLAP)2、OLAP试测环境构建的4个过程:OLAP 主主 题题OLAP概念模型概念模型-星形、雪花、星座模型星形、雪花、星座模型OLAP 逻辑模型逻辑模型-多维数据模型多维数据模型OLAP 物理模型物理模型-ROLAP/MOLAPOLAP联机分析概念模型基本概念联锁商店的销售金额销售金额(主题主题)
19、的维度1、按时间角度分析、统计其销售金额(季度)按时间角度分析、统计其销售金额(季度)2、按不同商品角度分析统计的销售金额。(产品)、按不同商品角度分析统计的销售金额。(产品)3、按联锁商店不同地域分析统计的销售金额(地域)、按联锁商店不同地域分析统计的销售金额(地域)观察观察深度深度称为称为“层层”。一个维中可以允许有若干层。一个维中可以允许有若干层。NO1NO2NO3ALL一 二 三 四 all (季)(季)TV PC VCDALL产产品品商店商店OLAP vs 联机分析处理的基本数据模型OLAP的基本概念的基本概念模型模型:1、星型模型(星型模型(star schema)星型模型的主体是
20、事实表(如:销售表)其主要事实称为量或度量量或度量(如:销售金额),另一种表称为维表维表,用以建立多维结构中的维值,一般有一个事实表和n个维表。在维表 中给出取值条件,在事实表中获得值的结果。商店标识符产品标识符日期标识符 单价 金额日期标识符 日 月 季 年 产品标识符 产品名 类 名 大类名 现存货物日期表(维表)销售表(销售表(事实表事实表)商店表(维表)商店表(维表)商店标识符 商店名 市名 省名 国名 洲名产品表(维表)产品表(维表)实例实例联机分析处理的基本数据模型2、雪花模式、雪花模式 很多情况维呈现层次状,即具有一定深度。就成为雪花模式。商店标识符 商店名 市标识符 产品标识符
21、 类标识符 产品名 现存货物商店标识符产品标识符日期标识符 单价 牺牲金额日期标识符 月标识符 月年标识符季标识符年标识符季月标识符季标识符月类标识符大类标识符类名国标识符国名洲标识符省标识符省名国标识符市标识符市名省标识符大类标识符大类名洲标识符洲名销售表(事实表)事实表)产品表类表洲表大类表商店表市表省表国表年表日期表月表季表联机分析处理的基本数据模型3、星座模式、星座模式 通过共享维,将多个星型模式连接在一起,构成星座模式。产品标识符 产品名 类 名 大类名 现存货物日期标识符 日 月 季 年商店标识符产品标识符日期标识符 单价 牺牲金额商店标识符 商店名 市名 省名 国名 洲名产品标识
22、符 日期标识符 供应商标识 单价 数量 金额供应商标识符 供应商名 市名 省名 国名 洲名事实表事实表案例机构表机构表联机分析处理的实例:银行交易分析OLAP的操作实例的操作实例 (如(如:银行交易分析)银行交易分析)1、雪花模型:、雪花模型:帐号ID统计日期机构代号发生金额发生笔数帐号ID帐户类名称科目名称帐户名称日期ID月ID日月ID年ID 月年ID年省行代号ID省行名时间表帐户表帐户表帐户交易事实表帐户交易事实表交易分析雪花模型交易分析雪花模型OLAP的逻辑模型是的逻辑模型是四维四维数据模型,它的多维数组形式为(时间,帐号,数据模型,它的多维数组形式为(时间,帐号,机构,发生金额与笔数)
23、如(机构,发生金额与笔数)如(2019年年1月月15日,日,4321567,工行汉口分,工行汉口分理处,理处,360万元,万元,567笔)笔)联机分析处理的实例:银行交易分析2、银行交易量分析、银行交易量分析:年年季季月月发生额发生额2019q1119779862903。302019q1210791201958。282019q1318749783281。052019q2419138629532。602019q2517192112346。632019q2620601215354。17年年季季月月发生笔数发生笔数2019q1181,7622019q1253,9652019q1385,3682019
24、q2479,3962019q2568,3342019q26124,123发生发生金额金额发生发生笔数笔数案例分析结果发现发现2月份交易额萎缩,月份交易额萎缩,1月和月和4月进出月进出资金量较大,但交易笔数相对比较小。资金量较大,但交易笔数相对比较小。这表明客户进行大笔资金调度,进一这表明客户进行大笔资金调度,进一步对帐户做切片操作,最终可以将进步对帐户做切片操作,最终可以将进行大笔资金调度的客户锁定。行大笔资金调度的客户锁定。联机分析处理的基本概念基本概念基本概念:1、对象(、对象(Object)关注和聚焦的分析客体称为对象。如:联锁商店的销售金额。关注和聚焦的分析客体称为对象。如:联锁商店的
25、销售金额。2、维(、维(dimension)对对象的观察角度称为对对象的观察角度称为“维维”。如在联锁商店的销售金额可以有三维:。如在联锁商店的销售金额可以有三维:时间维:按时间角度分析、统计其销售金额。时间维:按时间角度分析、统计其销售金额。商品维:按不同商品角度分析统计的销售金额。商品维:按不同商品角度分析统计的销售金额。地域维:按联锁商店不同地域分析统计的销售金额。地域维:按联锁商店不同地域分析统计的销售金额。3、层(、层(layer)观察深度称为观察深度称为“层层”。一个维中可以允许有若干层。如:在联锁商店。一个维中可以允许有若干层。如:在联锁商店的的 时间维时间维可以有日、旬、月、季
26、、年等层可以有日、旬、月、季、年等层 商品维商品维可以有商品类(如家电类)商品大类(如电气产品大类)等可以有商品类(如家电类)商品大类(如电气产品大类)等 地域维地域维可以有市、省、国、洲等可以有市、省、国、洲等联机分析处理的多维数据模型多维数据模型(逻辑模型逻辑模型)OLAP的多维结构的多维结构 多维结构由多个维组成,当每个维确定一个取值时,即可获得一个多维结构中的变量。这个变量称为数据单元,或单元单元。(cell)这种表示方式称为多维数组。也称为数据立方体数据立方体。(如:产品维成员:vcd;日期维成员:2019年3月19日;商店维成员:NO。1)商店商店NO1NO2NO3ALL一 二 三
27、 四 all(季)(季)TV PC VCDALL产产品品多维结构的操作:多维结构的操作:1、切片、切片2、切块、切块3、旋转、旋转4、钻探(、钻探(下钻下钻如地域如地域 时间时间 和和上探上探(反方(反方 向向)数据仓库的操作(下钻、上卷)With the Oracle OLAP data model Relationships between common OLAP Oracle OLAP SAP OLAP MS SQL Server2019的功能:分析服务数据仓库DW与数据挖掘DM数据仓库引论数据仓库数据仓库(data warehouse)在1988年Devlin 和 Murphy发表了首
28、篇数据仓库的论文,在19931993年年,由 William H.Inmon 所写的Building the Data Warehouse首次系统地阐述了数据仓库的思想和理论。知识发现知识发现(Knowledge Discovery in Database KDD KDD)在19891989年年8 8月月第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现技术。数据挖掘数据挖掘(Data Mining DM DM)在20192019年年,在美国计算机年会(ACM)上,首次提出数据挖掘的概念。数据挖掘数据挖掘是是KDDKDD过程中最为关键的步骤过程中最为关键的步骤,在实际使用
29、中两个术语的应用往往不加区别。数据仓库定义:数据仓库数据仓库是一个面向主题面向主题的,集成的,随时间变化的非易失性数据的集合,用于支持管理层的决策过程。数据仓库数据仓库的的特性:1、面向主题性主题性(创建和使用都围绕主题:产品、客户等)2、数据集成性集成性(从业务处理系统获取,如:OLTP、EC 等,要经过数据预处理:挑选、清理、综合)3、数据的时变性时变性(数据不能长期不变)4、数据的非易失性非易失性(数据不能更改)5、数据的集合性集合性(多维数据库方式进行存储的多维模式)6、支持决策作用支持决策作用(根本的目的是对决策的支持,以便提 高管理决策的质量和效果)清洗操作,最后加载到数据仓库数据
30、仓库中 数据数据准备准备数据仓库数据仓库与数据数据集市 决策分析与多维分析、数据挖掘等的关系决策分析与多维分析、数据挖掘等的关系数据库数据库数据仓库数据仓库决策分析决策分析数据挖掘数据挖掘关系数关系数据模型据模型多维数多维数据模型据模型关系型分析关系型分析多维分析多维分析以数据仓库为基础的电子商务架构数据仓库典型产品简介公司公司产品产品管理管理数据抽取数据抽取建模建模OLAP 数据挖掘数据挖掘数据展示数据展示接口接口OracleOracle v9。i强良好强MSSQL Server强强SASSAS强特色Business ObjectBusiness ObjectBrioBrioCrystalD
31、ecisionsCrystal青大海青大海威威HIGHWAY强强参考:徐洁磐参考:徐洁磐 数据仓库与决策支持系统数据仓库与决策支持系统 科学出版社科学出版社 P192224 数据仓库数据仓库市场保持了良好的增长 数据挖掘、知识发现什么是数据挖掘(DM)什么是什么是数据挖掘数据挖掘(data mining)从数据仓库中利用知识发)从数据仓库中利用知识发现技术(如:现技术(如:依赖性分析、聚类分析、基于神经网依赖性分析、聚类分析、基于神经网络的数据挖掘技术、基于遗传算法的数据挖掘技络的数据挖掘技术、基于遗传算法的数据挖掘技术、基于粗糙集的数据挖掘技术等术、基于粗糙集的数据挖掘技术等)寻求商业模式。
32、)寻求商业模式。数据挖掘的数据挖掘的目标目标:1、找到、找到更好的顾客更好的顾客 2、增加市场分额和获取、增加市场分额和获取更高利润更高利润 3、了解顾客的全面关系、了解顾客的全面关系,制定制定定价策略定价策略和和产品包装产品包装方式方式。4、分辨、分辨顾客的生命期信息顾客的生命期信息 5、分析、分析购卖行为购卖行为和和促销反映促销反映,增加促销效益增加促销效益。什么是数据知识发现(KDD)数据知识发现知识发现(knowledge discovery database KDD)2019年年 fayyad 的定义:知识发现是从数据集中识别有效模式的非平凡过程,该模式是新颖的,有潜在应用价值的和最
33、终可以理解的。数据挖掘是知识发现的关键过程。数据挖掘是知识发现的关键过程。商务智能中的商务智能中的KDD过程:过程:数据数据目标数据目标数据预处理预处理后数据后数据转化后转化后数据数据商商务务智智能能模式模式数据选择预处理数据转化数据挖掘数据挖掘解释/评价数据挖掘的14种算法关联规则关联规则分类分析分类分析聚类分析聚类分析APRIoRI算法算法回回归归分分析析差差异异分分析析划分法层次法基于密度方法基于网格方法决决策策树树算算法法粗粗集集算算法法人人工工神神经经网网络络贝贝叶叶斯斯方方法法遗遗传传算算法法数据挖掘的主要技术(算法)内容数据挖掘主要技术数据挖掘主要技术1、描述(归纳)、描述(归纳
34、)2、分类预测、分类预测3、聚类分析、聚类分析4、关联分析、关联分析5、依赖性分析、依赖性分析6、粗糙集、粗糙集7、模糊技术、模糊技术MS SQL Server 2019 的的 数据挖掘算法:数据挖掘算法:1、贝叶斯算法、贝叶斯算法2、决策树算法、决策树算法3、时序算法、时序算法4、聚类算法、聚类算法5、序列聚类算法、序列聚类算法6、关联规则算法、关联规则算法7、神经网络算法、神经网络算法8、文本挖掘技术、文本挖掘技术数据挖掘数据挖掘的方法四类重要的数据挖掘方法聚类聚类分析分析关联关联分析分析异常检测异常检测预测预测建模建模数据挖掘技术(DM)1、分类和预测:、分类和预测:分类分类在机器学习中
35、称为在机器学习中称为模式识别模式识别,分类技术包括,分类技术包括统计方法(统计方法(logistic 回归、线形判别、二次判别、回归、线形判别、二次判别、费歇尔判别)费歇尔判别)k近邻分类、决策树分类、基于关近邻分类、决策树分类、基于关联规则的分类、贝叶斯分类、神经元网络分类、联规则的分类、贝叶斯分类、神经元网络分类、支持向量机分类支持向量机分类 预测预测是对业务信息所代表的对象的是对业务信息所代表的对象的显著性显著性区别,区别,对对象的区别对待,进而达到对对象的区别对待,进而达到控制成本或者提高控制成本或者提高效率效率。数据挖掘数据挖掘技术:预测方法、预测方法、预测方法聚类分析聚类分析、聚类
36、分析、聚类分析是多元分析的一种是多元分析的一种,也是非监督模式的一个重要分支。它把一个也是非监督模式的一个重要分支。它把一个没有类别没有类别标记的样本集,按某种准则划分成若干个子集(类)标记的样本集,按某种准则划分成若干个子集(类),使相似的样本,使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。尽可能归为一类,而不相似的样本尽量划分到不同的类中。传统的聚类分析是一种传统的聚类分析是一种硬划分硬划分,它把每个待划分的对象严格地划分,它把每个待划分的对象严格地划分到某类中,具有非此即彼的性质。而实际上大多数对象并没有严格的到某类中,具有非此即彼的性质。而实际上大多数对象并没有严格的
37、属性,它们在性态和类属方面存在着中介性。具有亦此亦彼的性质,属性,它们在性态和类属方面存在着中介性。具有亦此亦彼的性质,因此适合进行因此适合进行软划分软划分。分类算法将数据按含义划分成组,用户可以用。分类算法将数据按含义划分成组,用户可以用此算法生成此算法生成侧面侧面,例如,例如:感兴趣的顾客侧面。感兴趣的顾客侧面。一些常见的聚类算法包括:一些常见的聚类算法包括:模式识别、侧面生成、线模式识别、侧面生成、线形聚族和概念聚族形聚族和概念聚族。数据挖掘技术(DM)聚类分析聚类分析:是将一个数据集合按照某个标准分成:是将一个数据集合按照某个标准分成几个簇。几个簇。分类分类聚类聚类收入收入债务债务贷款
38、贷款不贷款不贷款收入收入债务债务123分类分类蛋白质的聚类分析SPSS数据挖掘方法-聚类分析聚类分析 关联规则关联规则4、关联规则挖掘:、关联规则挖掘:对不同类型之间的相互关系分析对不同类型之间的相互关系分析其其潜在的逻辑规律潜在的逻辑规律,为业务运作提供,为业务运作提供决策支持。是在给定的事务数据库中决策支持。是在给定的事务数据库中找出找出最小支持度最小支持度和和最小置信度最小置信度的规则的规则 如:如:x y数据挖掘数据挖掘软件SPSS(贝叶斯网络)数据挖掘数据挖掘技术:逻辑斯蒂回归 数据挖掘技术(DM)3、依赖性分析、依赖性分析:1、基本概念:、基本概念:规则规则:一般形式为:一般形式为
39、“IF 条件成立,条件成立,THEN 结论结论”。通过关联规则,可以发现这三种规则:通过关联规则,可以发现这三种规则:有用的、有用的、价值不高的、价值不高的、费解的。费解的。价值不高的规则价值不高的规则往往是对一些商业领域内众所周知的规往往是对一些商业领域内众所周知的规则的重现。如:今天是情人节,那么鲜花的价格肯定会暴则的重现。如:今天是情人节,那么鲜花的价格肯定会暴涨。涨。费解的规则费解的规则往往是数据中一些偶然的东西。如:有一天往往是数据中一些偶然的东西。如:有一天某个超市发现购买消暑商品的顾客增加,但是只有这一天某个超市发现购买消暑商品的顾客增加,但是只有这一天特别突出,前后消量趋于平常
40、。特别突出,前后消量趋于平常。有用的规则有用的规则多是那些多是那些“潜在的,别人没有发现的也没有潜在的,别人没有发现的也没有广泛运用在商业中的规则广泛运用在商业中的规则”如如:尿布与啤酒之间的依赖性尿布与啤酒之间的依赖性依赖性分析原理依赖性分析原理依赖性分析原理:依赖性分析原理:依赖性分析算法在数据仓库的条目或对象之间依赖性分析算法在数据仓库的条目或对象之间抽取依赖性抽取依赖性.利用依赖性分析算法利用依赖性分析算法可以从某一对象可以从某一对象的信息来推断另一数据对象的信息的信息来推断另一数据对象的信息.一组依赖性可以表示为一组依赖性可以表示为依赖图依赖图.人们利用依赖性人们利用依赖性分析是分析
41、是为了解变动,并了解变动发生的可能原因为了解变动,并了解变动发生的可能原因.如如:销后服务对产品销售的影响销后服务对产品销售的影响.依赖性分析依赖性分析支持度:支持度:如果如果88%的顾客购买了商品的顾客购买了商品A,就说商,就说商品品A 的支持度为的支持度为 0。88 即即 suport=0。88 最小支持度最小支持度:如果某种规则发生的概率低于指定的最小支持度(min support),则我们可以 不考虑这种规则。P(AB)min support 最小支持度用来去除可能性很小的规则,也就是费解的规则费解的规则数据挖掘技术(DM)最小置信度最小置信度:P(AB)min confidence
42、P(A)如果某个规则成立的概率很小,则这个规则没有什么用途。因为这两件事物的联系很小。事实上只有高于最小高于最小支持度支持度并且并且高于最小高于最小可信度可信度的规则才被保留保留。收入成本其他服务存货服务产品顾客依赖性分析图依赖性分析图依赖性分析依赖性分析案例“尿布与啤酒的依赖”可信度可信度:confidence=P(条件和结论)P(条件)例如在超市中,A,B,C商品的购买率如右表所示,我们定义如下规则:IF B THEN A ,则 它的可信度可信度是:P(A and B and C)P(B and C)=5%/15%=0。33 元组元组(商品商品)购买概率购买概率 A 45%B 42.5%C
43、 40%A和和B 25%A和和C 20%B和和C 15%A和和B和和C 5%依赖性分析依赖性分析案例“尿布与啤酒的依赖”序号序号 顾客顾客 商品名称商品名称 时间时间 1 tom 啤酒啤酒 尿布尿布 香烟香烟2000/1/1 2 john 啤酒啤酒 可乐可乐 尿布尿布 2000/1/2 3 kate 啤酒啤酒 罐头罐头 卫生巾卫生巾 2000/1/3 4 benny 啤酒啤酒 尿布尿布 卫生巾卫生巾 2000/1/4产品1产品2 置信度啤酒尿布0.75啤酒卫生巾0.5尿布啤酒0.75卫生巾啤酒0.5支持度支持度=同时购买啤酒和尿布的销售次数 总销售次数 置信度置信度:大于大于40%置信度置信度
44、的情况的情况大于大于60%支持支持度的度的情况情况产品1产品2置信度支持度啤酒尿布0.750.75尿布啤酒0.751卫生巾啤酒0.51香港大型商业中心对交通的依赖性分析依赖性分析 城市对房地产业的依赖性依赖性比较 依赖性分析软件粗糙集(粗糙集(rough set)技术)技术4、粗糙集(粗糙集(rough set)理论)理论 是一种研究不精确、不确定性的数学工具,是一种研究不精确、不确定性的数学工具,由波兰数学家由波兰数学家Z。Pawlak 在在1982年首先提出,年首先提出,1991年他的年他的粗糙集合粗糙集合专著出版。专著出版。在粗糙集理论中,在粗糙集理论中,知识知识这个概念被这个概念被视为
45、一种分视为一种分类能力类能力,通过分类将,通过分类将差异不大的个体划分为一类差异不大的个体划分为一类,它们,它们之间构成一种不可分辨关系,又被称为之间构成一种不可分辨关系,又被称为不可分辨划分不可分辨划分。它。它正是将这种划分后的每一类作为研究对象,正是将这种划分后的每一类作为研究对象,研究其某一概研究其某一概念的念的肯定支持,或肯定不支持,或可能支持(也可能不支肯定支持,或肯定不支持,或可能支持(也可能不支持)的程度持)的程度,并用,并用粗糙隶属函数粗糙隶属函数加以定量描述。加以定量描述。粗糙集(粗糙集(rough set)技术)技术应用应用粗糙集合粗糙集合进行数据挖掘:进行数据挖掘:数据挖
46、掘研究的实施对象多为关系数据库,数据挖掘研究的实施对象多为关系数据库,关系表关系表可被看可被看作是作是粗糙集理论粗糙集理论中的中的决策表决策表(也称为(也称为信息表信息表)这给粗糙集方法)这给粗糙集方法的应用带来极大的方便。现实世界中的规则有确定性的,也有的应用带来极大的方便。现实世界中的规则有确定性的,也有不确定性的,不确定性的,从数据库中发现不确定的知识,为粗糙集方法的从数据库中发现不确定的知识,为粗糙集方法的用武之地。用武之地。运用粗糙集方法得到的知识发现算法可以极大地提运用粗糙集方法得到的知识发现算法可以极大地提高效率。所以在高效率。所以在知识获取、机器学习、规则生成、决策分析、知识获
47、取、机器学习、规则生成、决策分析、智能控制智能控制等领域获得了广泛应用。等领域获得了广泛应用。在在科研、金融、天文、医疗科研、金融、天文、医疗等领域庞大数据的发掘中,可以等领域庞大数据的发掘中,可以发现隐含在数据中的许多有价值的知识。发现隐含在数据中的许多有价值的知识。基于粗糙集理论粗糙集理论的知识获取系统的知识获取系统模糊技术5、模糊技术:、模糊技术:扎德扎德提出的模糊集合论为模糊信息的描述和处理提供了数学基础。提出的模糊集合论为模糊信息的描述和处理提供了数学基础。模糊集合是传统集合的扩展。模糊集合的模糊集合是传统集合的扩展。模糊集合的隶属函数隶属函数的值域为的值域为0,1,当模糊集合的隶属
48、函数的值域为当模糊集合的隶属函数的值域为1,1 时,该模糊集合就退化为传统时,该模糊集合就退化为传统的集合。的集合。在对数据源进行挖掘分析时,可为指定的属性引人模在对数据源进行挖掘分析时,可为指定的属性引人模糊概念,使用模糊集的方法用糊概念,使用模糊集的方法用隶属度隶属度对对属性值属性值进行转换,进行转换,使数据源中的属性值便于人们的理解和计算机分析处理。使数据源中的属性值便于人们的理解和计算机分析处理。为为每个属性引人一个模糊概念每个属性引人一个模糊概念 模糊技术6、模糊技术:、模糊技术:如:如:收视率收视率为为“高高”或或“低低”等,并确定相应的隶等,并确定相应的隶属函数,然后进一步扫描数
49、据源,对每个事件的各属性的属函数,然后进一步扫描数据源,对每个事件的各属性的取值用相应的取值用相应的隶属度隶属度代替。原来代替。原来属性之间的关联属性之间的关联就变成就变成模模糊意义上的关联糊意义上的关联。所形成的关联规则,即为模糊关联规则。所形成的关联规则,即为模糊关联规则。模糊关联规则模糊关联规则的的模糊性不仅体现在模糊概念的模糊性,模糊性不仅体现在模糊概念的模糊性,而且体现在隶属函数确定的模糊性而且体现在隶属函数确定的模糊性,因为隶属函数的确定,因为隶属函数的确定也有一定的模糊性,而不同的隶属函数所得到的属性值也也有一定的模糊性,而不同的隶属函数所得到的属性值也会不同,从而可能导致挖掘结
50、论不同。会不同,从而可能导致挖掘结论不同。模糊集还用于分类,对于数据挖掘系统进行分类,模糊集还用于分类,对于数据挖掘系统进行分类,模模糊逻辑糊逻辑是有用的。它提供了在高度抽象层处理的便利。是有用的。它提供了在高度抽象层处理的便利。模糊模糊查询技术技术在公交管理中的应用 数据挖掘在解决方法上的分类 分析问题分析问题 示例示例 SQL Server 2019算法算法分类分类:为案例分布预定义的级别:为案例分布预定义的级别(如:好(如:好 与与 差)差)信用风险分析信用风险分析 客户流失分析客户流失分析客户挽留客户挽留决策树决策树 贝叶斯算法贝叶斯算法 神经网络神经网络分割分割:开发一种按相似案例分