1、市场营销中的数据分析方法2 4/23/2022报告内容v 原理篇 客户关系管理中的数量方法v 方法篇 数据分析方法概论 统计分析方法 数据挖掘分析方法v 工具篇 常用数据分析工具简介v 总结 基本结论3 4/23/2022市场营销中的数量决策问题 传统的纯粹定性描述方法已远远不能满足现代市场营销实践的需要,为了体现市场营销学本身的科学性和对企业实践的指导性,数据分析理论与方法在市场营销学中占有越来越重要的地位。 理论上计量市场营销学的出现 理念上数据库营销、关系营销的兴起 实务上数据挖掘技术在客户关系管理中的应用 探察数量决策问题的两个视角 理论上的框架要素 实务上的业务流程4 4/23/20
2、22视角一:市场营销学的理论框架 核心概念营销观念营销计划营销组织营销控制营销审计产品策略定价策略分销策略促销策略需求分析市场细分目标市场市场定位基础理论战略理论策略理论管理理论5 4/23/2022视角一示例:市场营销中的产品决策 产品定位 定位图分析(感知定位图、偏好定位图等) 新产品扩散与产品生命周期管理 巴斯模型(BASS Model) 生长曲线模型(Growth Curve Model) 品牌决策 消费者品牌选择模型6 4/23/2022视角二示例:电信业业务流程视图(eTOM)运营运营实施实施保障保障计费计费运营运营支撑与支撑与就绪就绪客户关系管理客户关系管理服务管理与运营服务管理
3、与运营资源管理与运营资源管理与运营供应商供应商/合作伙伴关系管理合作伙伴关系管理(应用, 计算与网络)企业管理企业管理战略与战略与企业企业规划规划财务与资产财务与资产管理管理企业质量管理企业质量管理管理管理,过程与过程与IT规划规划 & 架构架构股东与外部股东与外部关系管理关系管理品牌管理品牌管理,市场研究市场研究 &广告广告人力资源人力资源管理管理灾难恢复灾难恢复,安全安全 &欺诈管理欺诈管理研究与研究与开发开发,技术技术获取获取战略战略, 基础设施基础设施 & 产品产品产品产品周期周期管理管理基础设施基础设施生命周期生命周期管理管理战略与战略与承诺承诺营销营销 & 产品提供管理产品提供管理
4、服务开发与管理服务开发与管理资源开发与管理资源开发与管理供应链开发与管理供应链开发与管理(应用, 计算与网络)客户客户7 4/23/2022视角二示例:理解客户与市场 市场购买行为 消费者购买行为模型 消费者品牌选择模型 市场需求测量 市场需求预测模型 市场细分8 4/23/2022客户生命周期与市场营销策略客户生命周期客户生命周期在不同生命在不同生命周期阶段需周期阶段需考虑不同问考虑不同问题题如何发现并获取潜在客户?阶段A (Acquisition)客户获取如何把客户培养成高价值客户?阶段B:(Build-up)客户提升如何使客户使用新电信产品?如何培养顾客忠诚度?阶段C:(Climax)客
5、户成熟如何延长客户“生命周期”?阶段D:(Decline)客户衰退如何赢回客户?阶段E:(Exit)客户离网客户价值客户价值多种分析主多种分析主题在不同时题在不同时期应用期应用客户获取市场细分与产品定位目标客户特征识别刺激需求提升销售交叉销售目标营销客户保持生存分析客户风险客户挽留9 4/23/2022客户细分 细分是指将一个大的消费群体划分成一个个细分群的动作,同属于一个细分群的消费者彼此相似,而隶属于不同细分群的消费者被视为不同。细分的目的可以让管理者从一个比较高的层次上“鸟瞰”整个数据库中的数据,从而可以用不同的方法对待处于不同细分群众的客户,提供相对个性化的服务。 客户细分的目的 更好
6、的了解客户结构 改善客户管理与沟通 增加客户贡献度 客户细分中的数量方法 聚类分析 卡方自动交互检测(CHAID)10 4/23/2022营销策略营销策略客户保持客户保持基于奖赏及高成本事件驱动的保持策略专注的, 区分优先级的Call center支持客户获取客户获取刻画子分群的特征建立跟踪系统(tracking systems)以从价值的角度监控新来的客户交叉销售交叉销售对高价值客户进行交叉销售会产生更大的收益经常地, 头20%的客户贡献了将近100% 的整体利润. 这些客户对CRM策略开发是至关重要的。示例:基于价值的客户细分(高价值客户)11 4/23/2022中间层代表了客户的大多数.
7、 他们利润较薄(thin margins)但容量巨大(high volume).营销策略营销策略定价与行为改变定价与行为改变识别服务机会 增强可能的定价结构性定价以鼓励改善收益性的行为交叉销售交叉销售利用预测模型识别具有潜在价值的客户利用事件营销与关系营销策略去增加产品的持有量渠道与服务的效率渠道与服务的效率识别高成本/低回报的渠道并重新部署或调整结构定位高成本业务流程以流线化或渠道迁移示例:基于价值的客户细分(中价值客户)12 4/23/2022尽管数量很少 (10% to 20%) 但他们消除了很大一部分的利润. 营销策略营销策略改变定价改变定价识别与负利润相关的定价策略与行为, 鼓励服务
8、使用与目标定价以增加或引入由服务改变而带来的可能收入客户风险客户风险避免向具有信用风险的客户进行交叉销售客户获取客户获取识别低价值客户并积极地在获取过程中避免与这类客户发生接触示例:基于价值的客户细分(低价值客户)13 4/23/2022 RetirementAgeChildren IndependentWealth AccumulationFirst ChildFirst HomePre-RetirementCareer LaunchIndependenceFinancial DebutEmployment ChangeMarriageHigh Value ?High Value ?Low
9、Value ?Low Value ?示例:基于生命阶段的客户细分14 4/23/2022客户获取 在大多数商业领域中,业务发展的主要指标里包括新客户的获取能力。新客户的获取包括发现那些对你的产品不了解的客户,也包括以前接受你的竞争对手服务的顾客。 客户获取中的数量方法 特征识别(Profiling and Penetration Analysis) 响应模型(Response Model)15 4/23/2022客户保持 随着行业的竞争越来越激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作愈来愈有价值。 客户保持中的数量方法 流失预测模型 客户忠诚度模型16 4/23/2022交叉销售与
10、提升销售 交叉营销是指你向现有的客户提供新的产品和服务的营销过程。公司与其客户之间的商业关系是一种持续的不断发展的关系,在这种关系建立起来以后,可以有很多种方法来不断改善这种关系。双方的目标是达到双赢的结果,客户获益是由于他们得到了更好更贴切的服务质量,商家则因为增加销售量获利。 交叉销售中的数量方法 购买倾向预测 产品关联分析17 4/23/2022客户流失 客户流失预警 分品牌、高/中/低价值、主动/被动构建模型 分类预测数据挖掘模型 客户挽留流程设计 彩铃客户流失预警 分主动/捆绑构建模型 分类预测数据挖掘模型 客户挽留流程设计 竞争对手流失预警 联通用户流失预测 客户挽留流程设计18
11、4/23/2022交叉销售与提升销售 购买倾向预测 彩铃预测模型 彩信预测模型 WAP预测模型 购物蓝分析 产品关联分析 营销方案关联分析 提升销售 价值提升预测模型19 4/23/2022营销案预演营销预演是为了支持业务人员营销预演是为了支持业务人员制订新的资费营销方案,然后制订新的资费营销方案,然后对该方案在历史数据上做相应对该方案在历史数据上做相应的测算,从而根据测算结果来的测算,从而根据测算结果来指导下一步工作。指导下一步工作。20 4/23/2022营销活动管理-CMP需求名称:需求名称:营销活动管理(CMP)提出时间:提出时间:2006-01-01需求提出部门:需求提出部门:市场部
12、需求内容描述:需求内容描述:营销活动管理。通过系统分析定位目标营销的客户群,并自动生成客户群信息进行管理,通过实时跟踪客户的营销情况进行营销策略的调整,并监控渠道销售信息。同时营销活动完成以后进行营销活动的评估。需求时间计划:需求时间计划:计划06年7月前完成东莞、佛山地市的推广。需求数据要求:需求数据要求:目前系统数据支撑需求优先级别:需求优先级别:高需求实施难度:需求实施难度:较高要求配合部门:要求配合部门:业务支撑中心、客户服务部其他说明:其他说明:全省推广需求,刘鹏负责需求分析和定位:需求分析和定位:属于05年的需求,已经纳入日常维护,今年需要推广。根据省公司的统一规划安排。省公司时间
13、规划:1.2006年上半年完成省、市二级规划,东莞和佛山推广2.2006年上半年完成三个事件营销21 4/23/2022KPI预测模型需求名称:需求名称:KPI预测模型提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:东莞公司需求内容描述:需求内容描述:KPI指标中的收入指标作为核心指标,规划和预测十分重要。而收入受营销政策与执行的影响较大,传统的历史曲线预测方法与手段不能准确预测当期及下期的收入。实现逻辑:将当期营收款细拆为“当期收入”(如购卡收入、补换卡收入、后付费收入等)与“分期划扣收入”(充值卡收入、营销活动预存款收入等)两个部分。“当期收入”非常稳定,只受季节因素影
14、响,“分期划扣收入” 结合号码级数据的消费ARPU可以较为方便地预演推算。 推广过去,针对KPI指标的重要指标(如收入、业务量等)都可以进行规划和预测,有效的帮助各部门制定相关的政策策略。需求时间计划:需求时间计划:无需求数据要求:需求数据要求:目前系统数据支撑。需求优先级别:需求优先级别:需求级别待定。需求实施难度:需求实施难度:高要求配合部门:要求配合部门:业务支撑中心、市场部其他说明:其他说明:区域接口人负责(刘鹏)需求分析和定位:需求分析和定位:需求可行,可以通过逻辑回归构建模型实现,具体的建设方案需要与相关人员进行细化和确认。22 4/23/2022个人客户分群需求名称:需求名称:个
15、人客户分群提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:佛山公司需求内容描述:需求内容描述:每个人作为消费者其对同一种产品的具体功能需求和关注点是不同的,因此作为为用户服务的企业,必须尽可能的考虑这些差异,发现这些存在于客户整体内部的具有不同特征或消费习惯的客户群体,然后再根据每个群体的特征执行针对性的管理或营销策略。将这个把客户分成不同群体的过程称之为“客户分群”。 通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,对客户总体构成有准确的认识,对客户的服务和营销更具针对性。对客户分群可以达到如下目标:了解客户的总体构成了解各种客户
16、价值的客户群体特征了解流失客户的客户群体特征了解使用各种套餐的客户群体特征了解各消费等级的客户群体特征需求时间计划:需求时间计划:无需求数据要求:需求数据要求:目前系统数据支撑。需求优先级别:需求优先级别:中等需求实施难度:需求实施难度:中等要求配合部门:要求配合部门:业务支撑中心、市场部、数据业务中心其他说明:其他说明:区域接口人负责(刘敏)需求分析和定位:需求分析和定位:需求可行。客户分类/聚类是根据一个或多个客户属性组合把所有客户划分成不同的类,同类内的客户具有最大的相似性,异类间的客户具有最大的差异性。通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出
17、特点,对客户总体构成有准确的认识,对客户的服务和营销更具针对性。对于各种业务(新业务)可以单独进行客户的细分,也可按照各种业务的综合指标进行客户细分,使市场营销更具针对性。23 4/23/2022个人客户价值评估需求名称:需求名称:个人客户价值评估提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:市场部需求内容描述:需求内容描述:有区别的看待个人客户的差异性,观察其价值特征变化,综合考虑成本,用户成长度,客户消费等因素,通过建模量化个人客户对公司的贡献和价值。客户价值包括客户贡献与客户成本两个侧面,对于前者,客户的帐单金额已是很好的衡量指标,但是也需要综合考虑其他指标(如新业
18、务使用情况、长途或者漫游比例等);而对于后者,由于利用财务数据进行分摊或者活动单位成本进行直接计算还需时日(等待财务部的成本分摊工作完成),故当前阶段是处理贡献类相关指标以供用户直观考察。需求时间计划:需求时间计划:06年3月广州数据集市试点需求数据要求:需求数据要求:目前系统数据支撑需求优先级别:需求优先级别:高需求实施难度:需求实施难度:高要求配合部门:要求配合部门:业务支撑中心、财务部其他说明:其他说明:负责人待定需求分析和定位:需求分析和定位:个人客户价值如果考虑成本分摊,需要等财务部开展的成本分摊完成后才能考虑到地市的实施。24 4/23/2022新产品生命周期分析需求名称:需求名称
19、:新产品生命周期分析提出时间:提出时间:2006-02-23需求提出部门:需求提出部门:数据业务中心需求内容描述:需求内容描述:目前地市没有明确和急需的需求,只是有个这样的概念和初步的想法。省公司想法是作为一个科研项目来研究和分析,希望能研究一些成果帮助市公司的市场分析和营销策略。需求时间计划:需求时间计划:根据省公司的统一规划安排。需求数据要求:需求数据要求:目前系统数据支撑需求优先级别:需求优先级别:高需求实施难度:需求实施难度:高要求配合部门:要求配合部门:业务支撑中心、市场部其他说明:其他说明:试点科研项目,邓逸斌、刘鹏负责需求分析和定位:需求分析和定位:题目比较难,优先级别比较高,先
20、按照省公司的思路和计划安排走。初步思路进行两个方面的研究:1.现有新业务产品的生命周期曲线研究 本研究的内容主要包括构建产品生命周期曲线预测模型并基于相关产品展开数据实证研究,同时对实证结果进行有效的业务解释并形成合理的政策建议。2.新业务产品生命周期变迁之关键绩效指标的研究 本研究的内容主要包括分析并总结产品生命周期变迁过程中对阶段性转折点具有前瞻警示作用的业务指标,并在此基础之上构建切实可行的关键指标体系25 4/23/2022报告内容v 原理篇 客户关系管理中的数量方法v 方法篇 数据分析方法概论 统计分析方法 数据挖掘分析方法v 工具篇 常用数据分析工具简介v 总结 基本结论26 4/
21、23/2022数量分析方法(Quantitative Analysis) 数量分析是对事物的数量特征、数量关系与数量变化的分析。 数量分析的类型 按照分析的目的 探索性数据分析 描述性数据分析 解释性数据分析 按照问题的本质 确定性分析 不确定性分析27 4/23/2022数量分析中的模型化方法 数量模型是对现实问题的描述和模仿 模型是为认识目的或实践目的而建立的 典型的模型化过程准备假设确定数学关系求解分析检验应用28 4/23/2022数据分析模型nE.F.Codd的数据分析模型 绝对模型(Categorical Model):依据预定义路径寻找原因,如查询 解释模型(Exegetical
22、 Model):依据多层次路径寻找原因,如多维分析 思考模型(Contemplative Model):参数化路径,如场景分析 公式模型(Formulaic Model):模型化路径,如数据挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened ?Why did it happen ?What will happen ?ROI应用复杂性应用复杂性Stage 3Stage 2Stage 1Human DiscoveryMachine-assisted Discovery29 4/23/2022常用的数据分析方法/模型 数量分析是对事物的
23、数量特征、数量关系与数量变化的分析。 数量分析的类型 按照分析的目的 探索性数据分析 描述性数据分析 解释性数据分析 按照问题的本质 确定性分析 不确定性分析30 4/23/2022认识分析数据:数据测量尺度 名义尺度 有序尺度 间隔尺度 比例尺度31 4/23/2022认识分析数据:数据结构类型 截面数据(Cross-section Data) 时间序列数据(Time-series Data) 面板数据(Panel Data)32 4/23/2022数据分析的出发点:数据矩阵 截面数据(Cross-section Data) 时间序列数据(Time-series Data) 面板数据(Pan
24、el Data)33 4/23/2022常用的统计分析方法 数据分类分析 聚类分析 判别分析 数据化简分析 主成分分析 因子分析 数据相关分析 回归分析 典型相关分析 数据预测分析 时间序列预测34 4/23/2022什么是数据挖掘?DataInformationKnowledgeWisdomn存在太多数据挖掘的定义,但基本上有这样一种描述结构 To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information
25、 / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse 、Data + contextInformation + rulesKnowledge + experience35 4/23/2022为什么会出现数据挖掘?n数据爆炸性增长是数据挖掘技术应运而生的根本原因。 只见树木,不见森林(Drowning in data but starving for information) 计算复杂度 数据管理问题 数据类
26、型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?36 4/23/2022其他数据分析方法:统计学n从处理数据的角度看、数据规模不同数据来源不同:观测数据(Secondary Analysis) VS 试验数据(Primary Analysis)数据类型不同(结构化数据、半结构化数据、非结构化数据)n从分析思想的角度看更关注实证性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis)更关注模型(Model)而非算法(Algorithm)n但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑
27、和思想源泉更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析 !37 4/23/2022数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算38 4/23/2022数据挖掘是一个过程- “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)39 4/23/2022数据挖掘过程中的数据预处理n数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(
28、Binning)、聚类、回归n数据集成 多个数据库、数据方或文件的集成n数据变换 规范化与汇总n数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析n数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说)40 4/23/2022数据挖掘过程中的数据探索n探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 “玩”数据n主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据拟合 + 残差) 数
29、据的重新表达(什么样的尺度对数抑或平方跟会简化分析?) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)n常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类41 4/23/2022数据挖掘结果的评价n兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种程度上,对于新数据或者测试数据是有效的、潜在有用或者验证了用户渴望确认的某些假设。 目前仍无很好的解决办法,很大程度上仍依靠人工 不存在解决这个问题的简单技术,最终答案是不要把数据挖掘当作脱离数据内涵的简单技术来运用 客观兴趣度:基于统计或模式的结构,
30、如统计量、支持度、lift等 主观兴趣度:基于用户对数据的确信程度,如意外程度、新奇程度或者可行动性等 过度拟合(Over-fitting)问题42 4/23/2022什么不是数据挖掘?n定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。 简单的报表、图表及多维分析仍是日常分析工作的主要内容 小样本数据的分析传统统计分析方法更成熟有效,如趋势预测 某些特定业务问题无法用数据挖掘算法加以解决,例如资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿
31、真问题43 4/23/2022几个基本概念n模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析n算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出n描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据
32、进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段44 4/23/2022几类基本的挖掘算法n关联规则(模式、描述型) 发现数据集中的频繁模式 例如:buy(x,”diapers”) buy(x,”beers”) 0.5%, 60%n分类与预测(模型、预测型) 发现能够区分或预测目标变量(唯一的)的规则或者函数 分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示 例如:股票市值的预测,病人病情的判断n聚类(模型、描述型) 对数据分组以形成新类,类标记是未知的 例如:市场细分n孤立点
33、探测(Outlier Detection)(模式、预测型) 分析异常或噪声数据的行为模式 例如:欺诈检测45 4/23/2022关联规则的基本概念n基本定义 给定(1)事务数据集(2)每个事务是数据项的集合,试图发现项集中的频繁模式或关联关系 所谓频繁模式或者关联规则就是一个具有“A B”形式的逻辑蕴涵式 频繁模式并不必然蕴涵着因果关系或相关关系! 算法实现基本上基于APRIORI法则:频繁项集的所有非空子集一定也是频繁(Frequent)的n基本分类 布尔关联规则 vs 定量关联规则buy(x,”diapers”) buy(x,”beers”)Age(x,”30.39”) income(x,
34、”42k.48k”) buy(x,”PC”) 单维关联规则 vs 多维关联规则 单层关联规则 vs 多层关联规则Age(x,”30.39”) income(x,”42k.48k”) buy(x,”IBM PC”) 序列模式(Sequence Pattern)数据项是一个包含时间标签的序偶item(i),t46 4/23/2022关联规则的度量n发现具有最小置信度和支持度的全部规则 X Y Z 支持度(support), s, 事务中包含X & Y & Z的概率 置信度(confidence), c, 事务中包含X & Y的条件下, 包含Z的条件概率n令最小支持度为50%, 最小置信度为50%,
35、 则有A C (50%, 66.6%)C A (50%, 100%)顾客购买尿布顾客购买尿布顾客购买两者顾客购买两者顾客购买啤酒顾客购买啤酒47 4/23/2022对支持度与置信度的批判n示例 总共5000名学生, 其中3000人玩篮球3750人吃谷类食品2000人既玩篮球又吃谷类食品play basketball eat cereal 40%, 66.7% 是一个误导规则, 因为吃谷类食品的学生占学生总数的75%, 比66.7%更高play basketball not eat cereal 20%, 33.3% 其实是一个更精确的规则, 尽管它的支持度和置信度都比较低48 4/23/202
36、2关联规则的应用n市场购物篮分析(Market Basket Analysis) 例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是两个不同的事务 数据项是所有可能陈列货物的全集 目标是发现同时出现的货品组合间的关联模式 应用:商品货价设计、仓储规划、网页布局、产品目录设计等等n交叉销售(Cross Selling) 客户依次购买不同产品的序列 目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务 应用:网络故障分析、网站门户设计等49 4/23/2022分类问题的基本定义n给定一数据集合(训练集) 数据记录由一系列变量组成 其中有一个变量是目标分类标签n寻找一模型,使目标分
37、类变量值是其他变量值的一个函数n利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某一类别中去 一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准确性,避免过度拟合50 4/23/2022分类过程示意训练集训练集分类学习分类学习训练集训练集分类器分类器IF rank = professorOR years 6THEN tenured = yesJef is YES!51 4/23/2022分类中的决策树(Decision Tree)归纳n决策树 类似于流程图的树型结构 内部节点代表对某个属性的一次测试 分支代表测试的输出结果 叶节点代表分类标签或分布n决策树的生成包括两
38、个阶段 树的创建首先, 所有训练样本都位于根节点递归地基于选择属性来划分样本集 树的修剪识别并删除那些反映噪声或孤立点的分支n应用决策树: 对未知样本进行分类 在决策树上测试样本的各个属性值52 4/23/2022决策树示意age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40n示例:是否购买计算机? 53 4/23/2022聚类的基本概念n基本定义 将数据对象集划分成事先未知的分组或类别 聚类的原则:类内相似度高,类间相似度低 相似度一般为某种距离函数D(i,j) 聚类既可以作为独立分析工具考察数据分布
39、结构,也可以作为其他分析方法的预处理步骤 很不幸,对聚类结果的评价一般都是主观的n基本分类 将数据对象集划分成事先未知的分组或类别54 4/23/2022聚类示意n 基于欧氏距离的三维空间中的聚类)|(|),(222jzizjyiyjxixjidA1A2B1xyz55 4/23/2022从算法到应用56 4/23/2022报告内容v 原理篇 客户关系管理中的数量方法v 方法篇 数据分析方法概论 统计分析方法 数据挖掘分析方法 其他分析方法v 工具篇 常用数据分析工具简介v 总结 基本结论57 4/23/2022数据分析软件数据分析软件的种类数据分析软件的种类 按照分析模式 统计分析软件 数据挖
40、掘软件 OLAP软件 科学计算软件 按照分析范围 通用分析软件 专用分析软件 按照分析规模 企业级分析软件 桌面级分析软件58 4/23/2022数据分析软件的基本特点 功能全面,系统地集成了多种成熟的数据分析方法 有完善的数据定义、操作和管理功能 方便地生成各种统计图形和统计表格 使用方式简单、灵活,有完备的联机帮助功能 软件开放性好,能方便地和其他软件进行数据交换59 4/23/2022学习使用统计分析软件的基本方法 弄清分析的目的 正确收集待处理和分析的数据(目的、影响因素的剔除) 弄清分析方法的概念、含义和适用范围。无需记忆公式 选择一种或几种分析方法来探索性地分析数据 读懂计算机分析
41、的数据结果,发现规律,得出结论60 4/23/2022SAS:The Power to Know SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统;目前国际上最流行的一种大型统计分析系统;统计分析的标准软件 SAS系统主要完成以数据为中心的四大任务:数据访问;数据管理;数据呈现;数据分析。 它由数十个专用模块构成,SAS/STAT(统计分析);SAS/ETS(经济计量与时间序列分析);SAS/QC(质量控制管理);SAS/OR(运筹学);SAS/IML(矩阵运算);SAS/GRAPH(绘图)等61 4/23/2022SPSS:Real S
42、tat, Real Easy SPSS(Statistical Package for the Social Science)社会科学统计软件包是世界是著名的统计分析软件之一。 SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计
43、过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。62 4/23/2022报告内容v 原理篇 客户关系管理中的数量方法v 方法篇 数据分析方法概论 统计分析方法 数据挖掘分析方法v 工具篇 常用数据分析工具简介v 总结 基本结论63 4/23/2022总结总结 关键是业务问题的发现及其构建以及切实迎合业务需要 从分析方法的角度切入讨论只是手段而非目的 方法还是很重要的 方法应该是最不会成为问题的 方法是个
44、工具箱关于Teradata65 4/23/20222005 Revenue by Business UnitTeradata Data WarehouseRetail SolutionsFinancial Solutions Worldwide Customer ServicesSystemediaNCR公司概貌 Fortune 500 company Global operations in over 100 countries & territories More than 28,000 employees $6B revenue Non-pension operating income
45、3 point improvement to 9%66 4/23/202250% of Top Global Retailers 60% of Top Most Admired Global Companies 90% of Top Global Telco Firms60% of Top Global Airlines50% of the Top Transportation Logistic FirmsTeradata在Fortune500中的优异表现Leading industries Banking Government Insurance & Healthcare Manufactu
46、ring Retail Telecommunications Transportation Logistics Travel World class customer list More than 800 customersGlobal presence Over 100 countries and territories FORTUNE Global Rankings, July 2005Top Ten Ranking in Fortune 50067 4/23/2022分析型CRM是擅长之一RetailFinancial TravelCommunications InsuranceManu
47、facturing/SourcingUnion Bank of Norway68 4/23/2022Technology ROI Awards Harrahs - Grand Prize Winner State of Iowa - Winner, Public SectorTDWI Best Practices Award Enterprise Data Warehouse: Union Pacific Government & Non-profit: State of MichiganWorld Class Solution Awards Jefferson County Public S
48、chools, winner- Data Management category; GCN Agency Awards US Air Force Knowledge Systems, Material Systems Group/Enterprise Systems DivisionNCDM Database Excellence Award Fubon Financial Holding Company (Taiwan) - Silver AwardCIO Magazine Enterprise Value Awards Continental Airlines, Winner - Tran
49、sportation Ace Hardware, Winner - Retail/WholesaleIntelligent Enterprise Editors Choice Awards Teradata named one of Intelligent Enterprise Dozen Most Influential CompaniesDM Review 100 Teradata - industry leader in business intelligence, data warehousing and analytics market CRM Market Leader Terad
50、ata - Market Leader in CRM Analytics categoryBest Practices in Business Intelligence LexisNexis, Managing and Enhancing BI Applications and Infrastructure category RealWare Awards Fubon Financial Holding Company, Merit Award Winner - Marketing Management, Best Intelligent CRM Application categoryTer