1、 2003-2007 T All Rights Reserved.版权所有数据挖掘经验分享数据挖掘经验分享商业智能部 万里2007年8月20日 2003-2007 T All Rights Reserved.版权所有l如何为客户做好咨询l数据挖掘与其他技术l数据挖掘的工作流程l挖掘模型认识误区l工作建议和思考 2003-2007 T All Rights Reserved.版权所有如何为客户做好咨询如何为客户做好咨询l如何为客户做好咨询要成为行业内的业务专家从客户需求出发,清晰界定客户的问题以结果为导向有可操作性强的解决方案复杂问题简单化简单问题流程化流程问题客户化 2003-2007 T A
2、ll Rights Reserved.版权所有数据挖掘与其他技术数据挖掘与其他技术验证驱动手工8月份总收入是多少?Query/ReportingData MiningOLAP 可视化驱动 手工时间收入地区下钻 不同维度收入情况目标驱动 自动化目标=激活概率?:If 注册时长=80%then 激活概率=15%可执行决策模型 报表&图形 2003-2007 T All Rights Reserved.版权所有数据挖掘与其他技术数据挖掘与其他技术神经网络决策树、规则提取统计数据可视化联机分析处理(OLAP)自动化高维度非线性关系高预测性 查询,SQL用户驱动-手工低维度低预测性数据挖掘的不同方法 T
3、he data“mine”2003-2007 T All Rights Reserved.版权所有数据挖掘与其他技术数据挖掘与其他技术l数据仓库并不是数据挖掘必需的l 但是它是一个极好的平台l数据仓库汇总并清理数据l在挖掘之前,必须知道数据仓库中所包含的数据l数据存储、组织、管理分析、探索模型Data WarehouseData Mining$0.5-5M$30-200K数据仓库与数据挖掘的关系 2003-2007 T All Rights Reserved.版权所有计费系统客服系统源数据源数据其他业务系统外部数据数据挖掘数据挖掘信用评分信用评分离网预警离网预警客户细分客户细分交叉销售交叉销售
4、OLAP多维分析多维分析数据访问数据访问数据分析数据分析报表报表查询查询中间层中间层中间件中间件多维数据库数据抽取、数据抽取、转换、装载转换、装载数据仓库管理工具抽取 转换装载数据清洗工具数据建模工具中心元数据数据集市数据集市中心数据仓库中心数据仓库数据数据集市集市数据数据集市集市中心中心数据数据仓库仓库局部 元数据局部 元数据局部 元数据元数据交换关系数据库关系数据库数据挖掘与其他技术数据挖掘与其他技术通用技术架构 2003-2007 T All Rights Reserved.版权所有挖掘项目工作流程挖掘项目工作流程商业目标确定 确认数据源识别数据筛选数据收集数据质量检测结果应用结果解释应
5、用建议模型构建数据转换 2003-2007 T All Rights Reserved.版权所有挖掘项目工作流程挖掘项目工作流程l数据挖掘项目的关键点商业定义转换为技术定义数据的质量模型的解释营销方案l数据挖掘项目的难点商业目标确定结果应用(推广实施)2003-2007 T All Rights Reserved.版权所有挖掘模型认识误区挖掘模型认识误区l挖掘模型认识误区数据挖掘模型是技术研究的结果。挖掘模型能解决所有的业务问题。建模数据是越多越好。准确率是衡量挖掘模型的唯一标准。挖掘算法的选择对模型是绝对重要的。数据探索时用什么数据分析方法是没有关系的。以挖掘技术为导向来构建模型。l5挖掘模
6、型的基本假设:事件发生的规律具有一定的稳定性,挖掘模型的基本假设:事件发生的规律具有一定的稳定性,历史发生的规律可以延续到现在。(历史唯物主义)历史发生的规律可以延续到现在。(历史唯物主义)2003-2007 T All Rights Reserved.版权所有挖掘模型认识误区挖掘模型认识误区l挖掘模型的正确理解建模是挖掘项目的一个重要组成部分,有完成时间和成本限制。挖掘模型是历史数据的统计规律的反映,不能解释为什么。高价值的结果往往从适量的数据中获得,数据并不是越多越好。准确率并不总是衡量挖掘模型的唯一标准。算法并不是如某些人想象的那么重要。数据探索时选择正确的数据分析方法是必要的要摆脱纯技
7、术驱动的“模型导向”方式,跳出技术看技术。2003-2007 T All Rights Reserved.版权所有挖掘模型认识误区挖掘模型认识误区数据探索时选择正确的数据分析方法是必要的 错误的分析方法往往会得到错误的结论。如关于汽车事故和行驶速度的分析:统计资料显示,80%的汽车事故发生在中等速度的行驶中,20%的事故是发生在大于150公里/小时的行驶速度中。这是否就意味着高速行驶比较安全?2003-2007 T All Rights Reserved.版权所有挖掘模型认识误区挖掘模型认识误区l要摆脱纯技术驱动的“模型导向”方式跳出技术看技术。因子分析聚类算法分组结果分组策略营销执行n 从统
8、计的角度,因子分析的结果应作为细分变量的首要选择标准;n 但从运营中心的营销角度(如EDM),细分的变量究竟需要什么?n 按数学上距离公式的计算结果形成的聚类分组,在实际营销上如何理解?n 在消费行为上具有相似性,其自身的客户属性和消费需求是否也具有相似性?n 按行为将不同属性和特征的客户放在同一组是否具有产品宣传、促销和渠道的可达性?n 是否真能满足话务量营销或数据业务营销策略制定及其执行的需要?2003-2007 T All Rights Reserved.版权所有工作建议和思考工作建议和思考l后续工作的一些建议练好内功挖掘的软硬件环境规划、创建好挖掘数据集市数据挖掘的流程化挖掘文档的标准化以淘宝指标为标尺,来衡量、模型项目开展的先后顺序 2003-2007 T All Rights Reserved.版权所有工作建议和思考工作建议和思考l关于数据挖掘工作的思考数据挖掘团队的定位?数据挖掘团队的存在价值如何体现?怎样扩大数据挖掘的影响力,如何走出BI、走出财务分析中心?2003-2007 T All Rights Reserved.版权所有 谢谢!