1、第五章第五章电子商务企业管理电子商务企业管理方案方案 客户关系管理客户关系管理 供应链管理供应链管理 商务智能商务智能 客户关系管理简述客户关系管理简述CRM(Customer Relationship Management,客户关系管理客户关系管理),是正在兴起,是正在兴起的一种旨在健全、改善企业与客户之间关系的的一种旨在健全、改善企业与客户之间关系的新型管理系统新型管理系统 CRM核心思想是以核心思想是以“客户为中心客户为中心”,提高客户,提高客户满意度,改善客户关系,从而提高企业的竞争满意度,改善客户关系,从而提高企业的竞争力力 对对CRM的定义,目前还没有一个统一的表述。的定义,目前还
2、没有一个统一的表述。但就其功能来看,但就其功能来看,CRM是通过采用信息技术,是通过采用信息技术,使企业市场营销、销售管理、客户服务和支持使企业市场营销、销售管理、客户服务和支持等经营流程信息化,实现客户资源有效利用的等经营流程信息化,实现客户资源有效利用的管理软件系统管理软件系统 需求的拉动的冲击需求的拉动的冲击来自销售人员的声音来自销售人员的声音来自营销人员的声音来自营销人员的声音来自服务人员的声音来自服务人员的声音来自顾客的声音来自顾客的声音来自经理人员的声音来自经理人员的声音技术的推动技术的推动管理理念的更新管理理念的更新业务流程的重组(业务流程的重组(BPR)客户的重要性日益突出客户
3、的重要性日益突出网络化市场的主动权在客户方网络化市场的主动权在客户方CRM的产生的产生Internet和电子商务和电子商务多媒体技术多媒体技术数据仓库和数据挖掘数据仓库和数据挖掘人工智能和专家系统人工智能和专家系统呼叫中心及相应的硬件系统呼叫中心及相应的硬件系统专业咨询专业咨询真正的真正的CRM应做到应做到让客户更方便(让客户更方便(Convenient)让客户更亲切(让客户更亲切(Care)让客户更觉个性化(让客户更觉个性化(Personalized)实时反应(实时反应(real-time response)CRM作为解决方案作为解决方案CRM的主要内容的主要内容客户分析客户分析企业对客户的
4、承诺企业对客户的承诺客户信息交流客户信息交流一良好的关系留住客户一良好的关系留住客户客户反馈管理客户反馈管理CRM系统组成系统组成客户概况(客户概况(Profiling)分析子系统分析子系统客户利润(客户利润(Profitability)分析子系统分析子系统客户性能(客户性能(Performance)分析子系统分析子系统客户产品(客户产品(Product)分析子系统分析子系统客户忠诚度(客户忠诚度(Persistency)分析子系统分析子系统客户未来(客户未来(Prospecting)分析子系统分析子系统客户促销(客户促销(Promotion)分析子系统分析子系统CRM主要内容主要内容CRM与
5、与ERP的关系的关系客户关系管理模型客户关系管理模型客户关系管理的功能主要分为四大部分:客户关系管理的功能主要分为四大部分:客户信息管理客户信息管理:整合记录企业各部门、每个人所接整合记录企业各部门、每个人所接触的客户资料,并进行统一管理触的客户资料,并进行统一管理 市场营销管理:制订市场推广计划,并对各种渠道市场营销管理:制订市场推广计划,并对各种渠道接触的客户进行记录、分类和辨识,提供对潜在客接触的客户进行记录、分类和辨识,提供对潜在客户的管理,并对各种市场活动的成效进行评价户的管理,并对各种市场活动的成效进行评价 销售管理:包括对销售人员电话销售、现场销售、销售管理:包括对销售人员电话销
6、售、现场销售、销售佣金等管理,支持现场销售人员的移动通信设销售佣金等管理,支持现场销售人员的移动通信设备或掌上电脑接入备或掌上电脑接入 服务管理与客户关怀:功能包括产品安装档案、服服务管理与客户关怀:功能包括产品安装档案、服务请求、服务内容、服务网点、服务收费等管理信务请求、服务内容、服务网点、服务收费等管理信息,详细记录服务全程进行情况息,详细记录服务全程进行情况 CRM的典型功能的典型功能 IBM的的CRM解决方案解决方案 CRM解决方案的功能主要有三类:解决方案的功能主要有三类:接入管理接入管理:用来管理客户和企业进行交用来管理客户和企业进行交互的方式互的方式 CRMCRM流程管理流程管
7、理 :CRMCRM流程管理代表着与销流程管理代表着与销售、服务、支持和市场相关的业务流程的售、服务、支持和市场相关的业务流程的自动化,主要包括销售自动化自动化,主要包括销售自动化 、服务送、服务送达达 、产品支持、产品支持 和市场自动化和市场自动化 关系管理:关系管理:使用数据挖掘使用数据挖掘/数据仓库和复数据仓库和复杂的分析功能,杂的分析功能,贯穿于贯穿于CRMCRM解决方案关系解决方案关系管理的全过程,并具有全面的客户观念和管理的全过程,并具有全面的客户观念和客户忠诚度衡量标准和条件客户忠诚度衡量标准和条件 IBM CRM的主要内容的主要内容 客户关系管理客户关系管理 供应链管理供应链管理
8、 商务智能商务智能SCMSCM概念概念 供应链(供应链(supply chainsupply chain)定义为相互间定义为相互间通过提供原材料、零部件、产品、服务通过提供原材料、零部件、产品、服务的厂家、供应商、零售商等组成的网络的厂家、供应商、零售商等组成的网络 供应链管理(供应链管理(Supply Chain ManagementSupply Chain Management)则是对供应链中的信息流、物流和资金则是对供应链中的信息流、物流和资金流进行设计、规划和控制,从而增强竞流进行设计、规划和控制,从而增强竞争实力,提高供应链中各成员的效率和争实力,提高供应链中各成员的效率和效益效益
9、SCMSCM帮助管理人员有效分配资源,最大限帮助管理人员有效分配资源,最大限度提高效率和减少工作周期度提高效率和减少工作周期 SCM与与ERP供应链管理供应链管理(SCM)应用是在企业资源管理应用是在企业资源管理(ERP)的基础上发展起来的的基础上发展起来的 ERP从概念上而言仅是对企业内部的资源从概念上而言仅是对企业内部的资源进行调配与平衡进行调配与平衡 SCM被作为被作为ERP的外延和补充提出来,的外延和补充提出来,因为因为SCM不仅包括资源接收、生产制造不仅包括资源接收、生产制造过程的管理,还涉及产品交付过程过程的管理,还涉及产品交付过程等管理等管理ERP是着重在交易处理(是着重在交易处
10、理(Transaction Base)的层面,的层面,SCM软件则着重在规划软件则着重在规划层面,而且它是从供应链的角度思考作整层面,而且它是从供应链的角度思考作整个供应链的管理个供应链的管理 SCMSCM的功能的功能 订购管理:管理客户各种订购情况,如订购管理:管理客户各种订购情况,如订货、收货、付款与否等订货、收货、付款与否等 需求管理:从市场动态预测客户需求,需求管理:从市场动态预测客户需求,以及材料补给计划等以及材料补给计划等 供给管理:管理材料供应商的供给情况,供给管理:管理材料供应商的供给情况,如库存情况、价格、供给能力等如库存情况、价格、供给能力等 制造管理:管理产品的状况,如生
11、产线、制造管理:管理产品的状况,如生产线、生产量、物流管理等生产量、物流管理等 供应链流程观供应链流程观周期的观点周期的观点推拉的观点推拉的观点Dell供应链的推供应链的推/拉流程拉流程OracleOracle供应链管理系统主要包括:供应链管理系统主要包括:供应链计划供应链计划 供给管理供给管理 物料管理物料管理 销售定单管理销售定单管理 售后客户服务售后客户服务 质量管理质量管理 OracleOracle的供应链管理方案的供应链管理方案 客户关系管理客户关系管理 供应链管理供应链管理 商务智能商务智能核心业务与电子商务紧密结合核心业务与电子商务紧密结合 面向客户面向客户 个性化服务个性化服务
12、 商业智能商业智能 快速反应快速反应 智能电子商务的特征智能电子商务的特征 如果数据是金钱,商务智能可以如果数据是金钱,商务智能可以.Existing Data Assets产品或服务分析产品或服务分析降低成本降低成本分析利润分析利润发现销售机会发现销售机会目标市场目标市场/动态区隔动态区隔什么是商务智能?什么是商务智能??商务智能指收集、转换、分析和发布数据的过程,商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。目的是为了更好的决策。?商务智能是指将数据转化为知识的过程。它包括捕商务智能是指将数据转化为知识的过程。它包括捕获和分析信息,交流信息,以及利用这些信息开发获和分析
13、信息,交流信息,以及利用这些信息开发市场。市场。DataInformationKnowledge商务智能在行业的应用商务智能在行业的应用银行银行?客户利润分析?分支行利润分析?交叉销售?信用风险管理?新产品推销?收费策略保险?欺诈管理?收费策略?目标市场活动?客户挽留?客户利润分析零售?地区/商店各种货物(品牌,分类等)销售业绩?定价和减价?市场篮子关系?市场需求预测?仓储规划通讯?客户忠实?客户流失模式?客户利润分析?竞争分析?欺诈管理数据仓库技术数据仓库技术 联机分析处理技术联机分析处理技术OLAPOLAP数据挖掘技术数据挖掘技术代理技术代理技术商务智能关键技术商务智能关键技术 数据仓库数
14、据仓库数据仓库的最终目标是把企业范围内的所数据仓库的最终目标是把企业范围内的所有数据集成在一个大仓库中,让用户能运有数据集成在一个大仓库中,让用户能运行查询、产生报告、执行分析行查询、产生报告、执行分析“数据仓库之父数据仓库之父”Bill Inmon给的定义:给的定义:数据仓库就是一个用以更好地支持企业或组数据仓库就是一个用以更好地支持企业或组织的决策分析处理的,面向主题的,集成的,织的决策分析处理的,面向主题的,集成的,不可更新的,随时间不断变化的数据集合不可更新的,随时间不断变化的数据集合数据仓库的特征数据仓库的特征面向主题的:面向主题的:主题是一个在较高层次将数据归主题是一个在较高层次将
15、数据归类的标准,每个主题基本对应一个宏观的分析类的标准,每个主题基本对应一个宏观的分析领域领域 集成的:集成的:允许数据来自于跨组织和部门等不同允许数据来自于跨组织和部门等不同数据源;集成的数据必须是一致的、用户看来数据源;集成的数据必须是一致的、用户看来是统一的数据视图是统一的数据视图 不可更新的:不可更新的:指一旦某个数据进入数据仓库后,指一旦某个数据进入数据仓库后,一般情况下将被长期保留(反映历史数据内容)一般情况下将被长期保留(反映历史数据内容)随时间不断变化:随时间不断变化:库中的信息系统地记录了企库中的信息系统地记录了企业从过去某一点到目前的各阶段的信息业从过去某一点到目前的各阶段
16、的信息 数据仓库与数据库比较数据仓库与数据库比较不同点:不同点:依据决策要求,只从数据库中抽取需要的数据,依据决策要求,只从数据库中抽取需要的数据,并进行一定的处理并进行一定的处理 数据仓库是多维的,即数据仓库的数据的组织数据仓库是多维的,即数据仓库的数据的组织 方式有多层的行和列方式有多层的行和列 支持决策处理(支持决策处理(OLAP),),不同于普通的事务处不同于普通的事务处 理(理(OLTP)需要的数据库知识需要的数据库知识 并行数据库技术:数据量很大并行数据库技术:数据量很大 高性能的数据库服务器:分析型的应用高性能的数据库服务器:分析型的应用 数据库互操作技术:数据来源多种多样数据库
17、互操作技术:数据来源多种多样数据仓库的体系结构数据仓库的体系结构 操作型数据源1 报告查询、应用开发和EIS 工具 操作型数据源2OLAP工具 n数据挖掘工具 仓库管理器 元数据高度综合数据 轻度综合数据 细节数据 集成管理器查询管理器操作型数据源n数据仓库建模数据仓库建模 星型模式星型模式Example of Star SchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sales
18、MeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore数据仓库建模数据仓库建模 雪片模式雪片模式 DateMonthDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthY
19、earMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStore操作型(操作型(OLTP)数据源数据源-销售库销售库星形模式星形模式时间维时间维事实表事实表多维模型多维模型事实事实度量度量(Metrics)时间维时间维时间维的属性时间维的属性联机事物处理联机事物处理OLTP系统和数据仓库的比较系统和数据仓库的比较OLTP系系统统数数据据仓仓库库系系统统保持当前数据保持历史数据存储细节数据存储细节、轻度综合、高度综合的数据数据是动态的数据大体上是静态的重复处理即时的、非结构的、启发式的处理大量事务
20、少量事务可预测的使用模式不可预测的使用模式事务驱动分析驱动面向应用面向主题支持日常决策支持战略决策服务于大量操作型用户服务于少数管理用户典型的数据仓库解决方案典型的数据仓库解决方案IBM数据仓库解决方案数据仓库解决方案ORACLE数据仓库解决方案数据仓库解决方案SAS数据仓库解决方案数据仓库解决方案.IBM数据仓库解决方案数据仓库解决方案建立数据仓库包括以下阶段:建立数据仓库包括以下阶段:数据抽取阶段:完成对各种数据源的访问数据抽取阶段:完成对各种数据源的访问数据转换阶段:完成对数据的清洗、汇总、整合数据转换阶段:完成对数据的清洗、汇总、整合数据分布阶段:完成对结果数据存储的分配数据分布阶段:
21、完成对结果数据存储的分配 通常此三阶段紧密结合在一个产品中体现通常此三阶段紧密结合在一个产品中体现 数据仓库的存储:由数据仓库的存储:由DB2家族完成家族完成数据的呈现:由不同产品完成不同的分析要求数据的呈现:由不同产品完成不同的分析要求管理和维护数据仓库中的数据:管理和维护数据仓库中的数据:交给交给Visual WarehouseIBM数据仓库解决方案数据仓库解决方案数 据 仓 库 按 主 题划 分 的 商 务 领 域描 述 性 数 据 元 素 映 象 商务 视 图 操 作 性 数 据外 部 数 据管 理转 换 工 具商 务 视 图商 用 信 息IBM数据仓库解决方案数据仓库解决方案前三个阶
22、段(抽取、转换、分布):前三个阶段(抽取、转换、分布):Visual Warehouse、Data Joiner、Date Propagator数据仓库的存储由数据仓库的存储由DB2家族产品来完成家族产品来完成IBM数据仓库解决方案数据仓库解决方案数据的呈现:数据的呈现:Approach可进行查询和统计分析可进行查询和统计分析IntelligentDecisionServer支持多维分析支持多维分析IntelligentMiner用于数据挖掘用于数据挖掘用户查找和理解数据仓库中的数据:用户查找和理解数据仓库中的数据:DataGuideORACLE数据仓库解决方案数据仓库解决方案ORACLE数据
23、仓库解决方案是OracleOLAP产品。其示意图如下:OLAP应用程序OLAP工具OLAP Server数据源OracleSalesAnalyzerOracleFinancialAnalyzerOracleFinancialController第三方前端工具OracleExpressObjectsOracleExpressAnalyzerOracleExpress WebAgentOracleDiscovererOracle Express Server其他传统的和外部数据库关系型数据库管理系统ORACLE数据仓库解决方案数据仓库解决方案Oracle Express Server是一个先进的是
24、一个先进的计算引擎和数据高速缓存计算引擎和数据高速缓存 Oracle 的的OLAP工具主要包括工具主要包括Oracle Express Objects、Oracle Express Analyzer和和Oracle Discoverer ORACLE数据仓库解决方案数据仓库解决方案Oracle Express Web Agent将将Oracle Express技术的分析能力和技术的分析能力和Web浏览器浏览器的简单性相结合的简单性相结合 Oracle Financial Analyzer,Oracle Financial Controller和和Oracle Sales Analyzer是是O
25、racle针对财务和销售而预针对财务和销售而预制的制的OLAP应用应用 联机分析处理(联机分析处理(OLAP)60年代,关系数据库之父年代,关系数据库之父E.F.Codd提出了关提出了关系模型,促进了联机事务处理系模型,促进了联机事务处理(OLTP)的发展的发展(数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储)。1993年,年,E.F.Codd提出了提出了OLAP概念,认为概念,认为OLTP已不能满足终端用户对数据库查询分析已不能满足终端用户对数据库查询分析的需要,的需要,SQL对大型数据库进行的简单查询也对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分不
26、能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需果,而查询的结果并不能满足决策者提出的需求。因此,求。因此,E.F.Codd提出了多维数据库和多提出了多维数据库和多维分析的概念,即维分析的概念,即OLAP。OLTP数据数据 OLAP数据数据 原始数据原始数据 导出数据导出数据 细节性数据细节性数据 综合性和提炼性数据综合性和提炼性数据 当前值数据当前值数据 历史数据历史数据 可更新可更新 不可更新,但周期性刷新不可更新,但周期性刷新 一次处理的数据量小一次处理的数据量小 一次处理的数据
27、量大一次处理的数据量大 面向应用,事务驱动面向应用,事务驱动 面向分析,分析驱动面向分析,分析驱动 面向操作人员,支持日面向操作人员,支持日 面向决策人员,支持管理需要面向决策人员,支持管理需要 常操作常操作OLTP和和OLAP的区别的区别定义定义1:OLAP(联机分析处理联机分析处理)是针对特定问题的联机数是针对特定问题的联机数据访问和分析。通过对信息据访问和分析。通过对信息(维数据维数据)的多种可能的观察形的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。人员对数据进行深入观察。定义定义2:OLAP(联
28、机分析处理联机分析处理)是使分析人员、管理人员是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。深入了解的一类软件技术。(OLAP委员会的定义委员会的定义)OLAP的目标的目标是满足决策支持或多维环境特定的查询和报是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是表需求,它的技术核心是“维维”这个概念
29、,因此这个概念,因此OLAP也也可以说是多维数据分析工具的集合。可以说是多维数据分析工具的集合。什么是什么是OLAP?1.维:维:是人们观察数据的特定角度,是考虑问题时的一类是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维属性,属性集合构成一个维(时间维、地理维等时间维、地理维等)。2.维的层次:维的层次:人们观察数据的某个特定角度人们观察数据的某个特定角度(即某个维即某个维)可可以存在细节程度不同的各个描述方面以存在细节程度不同的各个描述方面(时间维:日期、月时间维:日期、月份、季度、年份、季度、年)。3.维的成员:维的成员:维的一个取值。是数据项在某维中位置的描维的一个
30、取值。是数据项在某维中位置的描述。述。(“某年某月某日某年某月某日”是在时间维上位置的描述是在时间维上位置的描述)4.多维数组:多维数组:维和变量的组合表示。一个多维数组可以表维和变量的组合表示。一个多维数组可以表示为:示为:(维维1,维,维2,维,维n,变量变量)。(时间,地区,产时间,地区,产品,销售额品,销售额)5.数据单元数据单元(单元格单元格):多维数组的取值。多维数组的取值。(2000年年1月,上月,上海,笔记本电脑,海,笔记本电脑,$100000)相关基本概念相关基本概念(1)(1)快速性快速性:用户对用户对OLAPOLAP的快速反应能力有很高的要求。系的快速反应能力有很高的要求
31、。系统应能在统应能在5 5秒内对用户的大部分分析要求做出反应。秒内对用户的大部分分析要求做出反应。(2)(2)可分析性可分析性:OLAPOLAP系统应能处理与应用有关的任何逻辑分系统应能处理与应用有关的任何逻辑分析和统计分析。析和统计分析。(3)(3)多维性多维性:多维性是多维性是OLAPOLAP的关键属性。系统必须提供对数的关键属性。系统必须提供对数据的多维视图和分析据的多维视图和分析,包括对层次维和多重层次维的完包括对层次维和多重层次维的完全支持全支持(4)(4)信息性信息性:不论数据量有多大,也不管数据存储在何处,不论数据量有多大,也不管数据存储在何处,OLAPOLAP系统应能及时获得信
32、息,并且管理大容量信息。系统应能及时获得信息,并且管理大容量信息。OLAP特性特性多维视图多维视图 地北京 理多维数据视图 位上海 99 置 98 年广州 97 份 彩电 洗衣机 电冰箱产 品 类 型98971.1.超立方结构超立方结构(Hypercube)Hypercube)超立方结构指用三维或更多的维数来描述一个对象超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。数据空间的各个部分都有相同的维属性。(收缩超立收缩超立方结构方结构:这种结构的数据密度更大这种结构的数
33、据密度更大,数据的维数更少数据的维数更少,并可加入额外的分析维并可加入额外的分析维)。2.2.多立方结构多立方结构(MulticubeMulticube)在多立方结构在多立方结构(Multicube)中中,将大的数据结构分成多将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集个多维结构。这些多维结构是大数据维数的子集,面面向某一特定应用对维进行分割向某一特定应用对维进行分割,即将超立方结构变为即将超立方结构变为子立方结构。它具有很强的灵活性子立方结构。它具有很强的灵活性,提高了数据提高了数据(特别特别是稀疏数据是稀疏数据)的分析效率的分析效率OLAP多维数据结构多维数据结构OLAP
34、多维数据分析多维数据分析对以多维形式组织起来的数据,采取切对以多维形式组织起来的数据,采取切片、切块、旋转等各种分析动作,以求片、切块、旋转等各种分析动作,以求剖析数据,使最终用户能从多个角度、剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据多侧面地观察数据库中的数据 1.1.切片和切块切片和切块(Slice and DiceSlice and Dice)在多维数据结构中在多维数据结构中,按二维进行切片按二维进行切片,按三维进行切按三维进行切块块,可得到所需要的数据。如在可得到所需要的数据。如在“城市、产品、时间城市、产品、时间”三维立方体中进行切块和切片三维立方体中进行切块和切片
35、,可得到各城市、各产可得到各城市、各产品的销售情况。品的销售情况。2.2.钻取钻取(Drill)Drill)钻取包含向下钻取钻取包含向下钻取(Drill-down)Drill-down)和向上钻取和向上钻取(Drill-Drill-up)/up)/上卷上卷(Roll-upRoll-up)操作,操作,钻取的深度与维所划分钻取的深度与维所划分的层次相对应。的层次相对应。3.3.旋转旋转(Rotate)/Rotate)/转轴转轴(Pivot)Pivot)通过旋转可以得到不同视角的数据。通过旋转可以得到不同视角的数据。数据分析方法数据分析方法OLAP的分析方法的分析方法(一一)切片、切块切片、切块OL
36、AP的分析方法的分析方法(二二)钻取钻取按按时时间间维维向向下下钻钻取取按按时时间间维维向向上上钻钻取取60OLAP的分析方法的分析方法(三三)旋转旋转数据组织形式数据组织形式RDB数据组织数据组织 -MDDB数据组织数据组织 -关系表中综合数据的存放关系表中综合数据的存放 多维数据库中综合数据的存放多维数据库中综合数据的存放 产品名称产品名称地区地区销售量销售量冰箱冰箱东北东北50冰箱冰箱西北西北60冰箱冰箱华北华北100彩电彩电东北东北40彩电彩电西北西北70彩电彩电华北华北80空调空调东北东北90空调空调西北西北120空调空调华北华北140 东东北北西西北北华华北北冰冰箱箱5060100
37、彩彩电电407080空空调调90120140产品名称产品名称地区地区销售量销售量冰箱冰箱东北东北50冰箱冰箱西北西北60冰箱冰箱华北华北100冰箱冰箱总和总和210彩电彩电东北东北40彩电彩电西北西北70彩电彩电华北华北80彩电彩电总和总和190空调空调东北东北90空调空调西北西北120空调空调华北华北140空调空调总和总和350总和总和东北东北180总和总和西北西北250总和总和华北华北320总和总和总和总和750 东北东北西北西北华北华北总和总和冰箱冰箱5060100210彩电彩电407080190空调空调90120140350总和总和180250320750OLAP体系结构体系结构 数据
38、集成、转换 数据过滤 用户图形接口超级立方体元数据数据库数据仓库数据挖掘(数据挖掘(Data Mining)数据挖掘数据挖掘(Data Mining),又称数据库中的知识又称数据库中的知识发现发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中是指从大型数据库或数据仓库中抽取出潜在的、抽取出潜在的、有价值的知识(模型或规则)的过程有价值的知识(模型或规则)的过程数据挖掘的目的:提高市场决策能力;检测异数据挖掘的目的:提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等常模式;在过去的经验基础上预言未来趋势等数据挖掘不同的术语和
39、定义:数据挖掘不同的术语和定义:data mining,data mining,knowledge discovery,pattern discovery,knowledge discovery,pattern discovery,data dredging,data archeology.data dredging,data archeology.数据挖掘过程数据挖掘过程选择选择转换转换挖掘挖掘理解理解转换后数据转换后数据抽取的信息抽取的信息可理解的信息可理解的信息选择的数据选择的数据数据仓库数据仓库数据挖掘过程模型数据挖掘过程模型1.定义商业问题定义商业问题2.建立数据挖掘模型建立数据挖掘
40、模型3.分析数据分析数据4.准备数据准备数据5.建立模型建立模型6.评价模型评价模型7.实施实施数据挖掘和数据仓库数据挖掘和数据仓库数据源数据源数据仓库数据仓库各分公司数各分公司数据集市据集市分析分析数据集市数据集市数据挖掘数据挖掘数据集市数据集市图图1:数据挖掘库从数据仓库中得出:数据挖掘库从数据仓库中得出数据源数据源数据挖掘库数据挖掘库图图2:数据挖掘库从事务数据库中得出:数据挖掘库从事务数据库中得出数据挖掘模式数据挖掘模式分类模式分类模式 关联模式关联模式顺序模式顺序模式 聚类模式聚类模式 回归模式回归模式时间序列模式时间序列模式分类分类 (Classification)方法:方法:首先
41、从数据中选出已经分好类的训练集,在该训练集首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。有分类的数据进行分类。例子:例子:a.信用卡申请者,分类为低、中、高风险信用卡申请者,分类为低、中、高风险b.b.分配客户到预先定义的客户分片分配客户到预先定义的客户分片注意:注意:类的个数是确定的,预先定义好的类的个数是确定的,预先定义好的常用算法:常用算法:Decision tree induction、Neural networks、Genetic algorithms、K-Nearest
42、 neighbors 、Case based reasoning、Association Rule Model、Decision Cluster model、Rough set classification model回归(估值回归(估值Estimation)方法方法 估值与分类类似,不同之处在于,分类描述的是离散型变估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。数目的,估值的量是不确定的。例子:例子:a.根据购买模式,估计一个家庭的孩子个数根据购买模式,估计一个
43、家庭的孩子个数b.根据购买模式,估计一个家庭的收入根据购买模式,估计一个家庭的收入c.估计估计real estate的价值的价值一般来说,估值可以作为分类的前一步工作。给定一些输一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(务,运用估值,给各个客户记分(Score 01)。)。然后,然后,根据阈值,将贷款级别分类。根据阈值,将贷款级别分类。关联模式关联模式相关性分
44、组或关联规则(相关性分组或关联规则(Affinity grouping or association rules)两种常用的技术是两种常用的技术是关联规则关联规则和和序列模式序列模式。关联规则是寻找在同一个事件中出现的不同项的相关联规则是寻找在同一个事件中出现的不同项的相关性;序列模式寻找的是事件之间时间上的相关性关性;序列模式寻找的是事件之间时间上的相关性 例子:例子:a.超市中客户在购买超市中客户在购买A的同时,经常会购买的同时,经常会购买B,即即A=B(关联规则关联规则)b.b.客户在购买客户在购买A后,隔一段时间,会购买后,隔一段时间,会购买B(序列分序列分析)析)聚类(聚类(Clus
45、tering)方法方法 聚类是对记录分组,把相似的记录在一个聚类聚类是对记录分组,把相似的记录在一个聚类里。聚类和分类的区别是聚类不依赖于预先定里。聚类和分类的区别是聚类不依赖于预先定义好的类,不需要训练集。义好的类,不需要训练集。例子:例子:a.一些特定症状的聚类可能预示了一个特定的疾病一些特定症状的聚类可能预示了一个特定的疾病b.租租VCD类型不相似的客户聚类,可能暗示成员类型不相似的客户聚类,可能暗示成员属于不同的亚文化群属于不同的亚文化群聚类通常作为数据挖掘的第一步。例如,聚类通常作为数据挖掘的第一步。例如,“哪哪一种类的促销对客户响应最好?一种类的促销对客户响应最好?”,对于这一,对
46、于这一类问题,首先对整个客户做聚类,将客户分组类问题,首先对整个客户做聚类,将客户分组在各自的聚类里,然后对每个不同的聚类,回在各自的聚类里,然后对每个不同的聚类,回答问题,可能效果更好。答问题,可能效果更好。数据挖掘典型方法数据挖掘典型方法-神经网络神经网络一个神经网络划分为输入层、输出层和隐含层。输入层一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应一个个的预测变量。输出层的节点对应的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层目标变量,可有多个。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每(对
47、神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度层节点的个数决定了神经网络的复杂度 神经网络常用于两类问题:分类和回归神经网络常用于两类问题:分类和回归123456输入输入输出输出隐含层隐含层 一个神经元网络一个神经元网络数据挖掘典型方法数据挖掘典型方法-决策树决策树收入¥40,000工作时间5年高负债高风险低风险高风险低风险否否否是是是 一棵简单的决策树决策树中最上面的节点称为决策树中最上面的节点称为根节点根节点,是整个决策树的,是整个决策树的开始。每个分支要么是一个新的决策节点,要么是树的开始。每个分支要么是一个新的决策节点,要么是树的结尾,称为结尾,称为叶子
48、叶子。在沿着决策树从上到下遍历的过程中,。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)个叶子会对应一个类别)数据挖掘和联机分析处理数据挖掘和联机分析处理 OLAPOLAP是决策支持领域的一部分。传统的查询
49、和是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(报表工具是告诉你数据库中都有什么(what what happenedhappened),),OLAPOLAP则更进一步告诉你下一步会则更进一步告诉你下一步会怎么样(怎么样(What nextWhat next)、)、和如果我采取这样的和如果我采取这样的措施又会怎么样(措施又会怎么样(What ifWhat if)OLAPOLAP方法先建立一系列的假设,然后通过方法先建立一系列的假设,然后通过OLAPOLAP来证实或推翻这些假设来最终得到自己的结论来证实或推翻这些假设来最终得到自己的结论OLAPOLAP分析过程在本质上是一个分析过程在本质上是一个演绎推理演绎推理的过程的过程数据挖掘是在数据库中自己寻找模型数据挖掘是在数据库中自己寻找模型 ,在本,在本质上是一个质上是一个归纳归纳的过程的过程 数据挖掘和数据挖掘和OLAPOLAP具有一定的互补性具有一定的互补性 代理技术代理技术 基于代理技术的电子商务应用基于代理技术的电子商务应用 IBMIBM智能商务解决方案智能商务解决方案