1、2-5 数据挖掘过程及实例(手机客户流失预测)数据挖掘过程及实例(手机客户流失预测)第一步:需求分析。明确挖掘目标和要求。第一步:需求分析。明确挖掘目标和要求。第二步:数据理解。了解目前的数据状况。第二步:数据理解。了解目前的数据状况。第三步:数据准备:选择挖掘的数据并进行预处理第三步:数据准备:选择挖掘的数据并进行预处理 第四步:挖掘算法与挖掘软件的选择。第四步:挖掘算法与挖掘软件的选择。第五步:构建硬件、软件、数据平台,确定相关参数,第五步:构建硬件、软件、数据平台,确定相关参数,并具体挖掘。并具体挖掘。第六步:结果展示与评价、导出。第六步:结果展示与评价、导出。0 数据挖掘的步骤数据挖掘
2、的步骤数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估0 数据挖掘的步骤数据挖掘的步骤数据挖掘中的数据变换过程数据挖掘中的数据变换过程第一步:需求分析。第一步:需求分析。明确挖掘目标和要求。明确挖掘目标和要求。方法:方法: 1)调查、访谈。)调查、访谈。 2)头脑风暴。头脑风暴会议应在充分的材料准备基础上,)头脑风暴。头脑风暴会议应在充分的材料准备基础上,在轻松的环境中进行,以充分发挥与会人员的才智。在轻松的环境中进行,以充分发挥与会人员的才智。任务:任务: 1) 数据挖掘应完成哪一类任务:关联、分类、回归、聚数
3、据挖掘应完成哪一类任务:关联、分类、回归、聚类?类? 2)如何展示和应用挖掘结果。)如何展示和应用挖掘结果。 3)挖掘系统部署后,对业务有哪些提升?)挖掘系统部署后,对业务有哪些提升?1 需求分析需求分析手机客户流失预测需求分析:手机客户流失预测需求分析: 发展一个新客户的成本远远高于保持一个老客户。所以,发展一个新客户的成本远远高于保持一个老客户。所以,保持老客户就十分重要。保持老客户就十分重要。 一个电信企业在运营过程中,不可避免地要流失部分客一个电信企业在运营过程中,不可避免地要流失部分客户。所以,可以建立客户流失模型。从大量的与客户相关的户。所以,可以建立客户流失模型。从大量的与客户相
4、关的数据中,挖掘出流失客户的共同特征。从而对初显流失客户数据中,挖掘出流失客户的共同特征。从而对初显流失客户特征的客户采取必要的措施。特征的客户采取必要的措施。 手机客户的特征:自然特征行为特征手机客户的特征:自然特征行为特征 1 需求分析需求分析第二步:数据理解。第二步:数据理解。即了解目前的数据状况。即了解目前的数据状况。 1. 需要的数据及含义需要的数据及含义 2. 数据的分布情况:数据的分布情况: 需要的数据都分布在哪些系统(数据库、表)中,有多需要的数据都分布在哪些系统(数据库、表)中,有多少数据。少数据。 3. 数据的质量:数据的质量: 1)关键数据是否能够获取。)关键数据是否能够
5、获取。 2)缺失值或无效值数量如何?)缺失值或无效值数量如何? 3)是否有足够的历史数据。)是否有足够的历史数据。2 数据理解数据理解手机客户流失预测数据理解:手机客户流失预测数据理解: 预测需要的数据:客户数据、通话详单、短信详单、预测需要的数据:客户数据、通话详单、短信详单、投诉数据、交费数据等。投诉数据、交费数据等。客户数据:客户数据:客客户户代代码码客客户户姓姓名名性性别别年年龄龄学学历历职职业业单单位位收收入入手手机机号号码码号号码码品品牌牌套套餐餐付付款款方方式式入入网网渠渠道道客客户户类类型型2 数据理解数据理解 客户级别数据按月提供,每个客户一条记录。客户的年龄、职业、客户级别
6、数据按月提供,每个客户一条记录。客户的年龄、职业、学历、收入等数据准确性较低。学历、收入等数据准确性较低。通话详单如下:通话详单如下:2 数据理解数据理解手机手机号码号码呼叫呼叫类型类型漫游漫游类型类型长途长途类型类型目标目标通话通话号码号码通话通话开始开始时间时间通话通话持续持续时间时间.主叫主叫被叫被叫短信详单与上面类似。短信详单与上面类似。投诉数据:投诉数据:2 数据理解数据理解客户客户号码号码投诉投诉时间时间投诉投诉类型类型投诉投诉小类小类投诉投诉处理处理情况情况客户客户满意满意度度.交费数据:交费数据: 对后付费客户,主要是交费是否及时,对预付费客户,对后付费客户,主要是交费是否及时
7、,对预付费客户,主要是充值时间、金额等。主要是充值时间、金额等。第三步:数据准备。按要求准备好需要挖掘的数据。第三步:数据准备。按要求准备好需要挖掘的数据。 按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,将数据整理成适合挖掘的形式。(宽表)将数据整理成适合挖掘的形式。(宽表) 数据预处理的主要内容数据预处理的主要内容 1)数据归约:)数据归约:在保持数据完整性和有效性的前提下,将庞大的数据量在保持数据完整性和有效性的前提下,将庞大的数据量压缩到可接受的范围。压缩到可接受的范围。 2)数据清理:)数据清理:填充空缺值,识别孤立
8、点,消除噪音。填充空缺值,识别孤立点,消除噪音。 3)离散化处理:)离散化处理:有些数据的属性呈连续值,不利于数据挖掘。应对这有些数据的属性呈连续值,不利于数据挖掘。应对这些连续值,采用不同粒度进行离散化采样处理;些连续值,采用不同粒度进行离散化采样处理; 4)概念提升:)概念提升:有些属性值域很大(可能的取值数量很多),对于过于有些属性值域很大(可能的取值数量很多),对于过于密集的离散值,用更概括的值取代。例如年龄属性可以概括为青年、中年、密集的离散值,用更概括的值取代。例如年龄属性可以概括为青年、中年、老年等。老年等。3 数据准备数据准备将详单数据聚集为月度数据:将详单数据聚集为月度数据:
9、客户客户号码号码月通月通话总话总长长月通月通话次话次数数月呼月呼出时出时长长月呼月呼出次出次数数漫游漫游通话通话时长时长长途长途通话通话时长时长IP电电话通话通话时话时长长分时分时段通段通话时话时长长分天分天通话通话时长时长主、主、被叫被叫市话市话的个的个数数主、主、被叫被叫长话长话的个的个数数. 短信详单可聚集出类似的变量。投诉信息可统计出投短信详单可聚集出类似的变量。投诉信息可统计出投诉次数等。诉次数等。3 数据准备数据准备数据采样:数据采样: 客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿失。因此,应选择满足一定价
10、值标准的客户。例如,积分或历史消费数据失。因此,应选择满足一定价值标准的客户。例如,积分或历史消费数据应大于某个标准。应大于某个标准。客户客户“类标签类标签”的确定:的确定: 在电信客户流失中,主要有三类流失:在电信客户流失中,主要有三类流失: 1)主动流失:)主动流失:客户客户主动去营业厅要求销户客户客户主动去营业厅要求销户 2)变动流失:)变动流失:因欠费,被电信公司关闭账户。因欠费,被电信公司关闭账户。 3)自然流失:)自然流失:因各种原因停止使用手机号码,有时可能还有少量通话。因各种原因停止使用手机号码,有时可能还有少量通话。 前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变
11、前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变化,予以标记。化,予以标记。3 数据准备数据准备数据清理:数据清理: 1)客户基本数据中的学历、职业等字段中有大量的缺值,)客户基本数据中的学历、职业等字段中有大量的缺值,而且正确性难以保证,可以去掉,不参加建模。而且正确性难以保证,可以去掉,不参加建模。 2)有些客户的通话数据可能存在异常,可以删除这些客)有些客户的通话数据可能存在异常,可以删除这些客户。户。 3)有些属性之间相关性较大,可进一步选择。)有些属性之间相关性较大,可进一步选择。3 数据准备数据准备时间窗口选择:时间窗口选择: 客户流失与时间有关。因此,需要选择时间窗口。
12、例如,时间窗客户流失与时间有关。因此,需要选择时间窗口。例如,时间窗口为口为3,就是取,就是取3个月的通话等相关数据。个月的通话等相关数据。 3 数据准备数据准备客客户户号号码码手手机机号号码码号号码码品品牌牌套套餐餐付付款款方方式式入入网网渠渠道道客客户户类类型型第第1个月个月各项各项数据数据第第2个月个月各项各项数据数据第第3个月个月各项各项数据数据流失流失情况情况流失流失正常正常时间窗口的叠加:时间窗口的叠加: 为了提高模型的适应性,可使用不同的时间窗口的数据进行叠加。为了提高模型的适应性,可使用不同的时间窗口的数据进行叠加。4567891011121233 数据准备数据准备456789
13、101112123456789101112123456789101112123第四步:第四步:挖掘算法与挖掘软件的选择。挖掘算法与挖掘软件的选择。主要考虑因素:主要考虑因素:1)算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万)算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万化的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的化的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的数据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。数据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。2)模型的可理解性:模型可解释,可增
14、加人们对模型的信任度。例如,用决)模型的可理解性:模型可解释,可增加人们对模型的信任度。例如,用决策树算法生成的模型易于解释,而神经网络算法生成的模型则难以解释。策树算法生成的模型易于解释,而神经网络算法生成的模型则难以解释。3)性能与计算复杂度。)性能与计算复杂度。4)处理连续数据或离散数据的能力、处理高维数据的能力等。)处理连续数据或离散数据的能力、处理高维数据的能力等。 常见的算法都可对部分参数进行调整。常见的算法都可对部分参数进行调整。 实际问题中,可使用多个算法对同一个问题进行建模。实际问题中,可使用多个算法对同一个问题进行建模。4 挖掘算法与挖掘软件的选择挖掘算法与挖掘软件的选择典
15、型数据挖掘软件介绍:典型数据挖掘软件介绍:1)SAS公司的公司的Enterpride Miner软件。为软件。为SAS统计软件的一个模块。统计软件的一个模块。2) IBM公司公司Intelligent Miner软件、软件、 Clementine软件(原软件(原SPSS公公司)。司)。3)Oracle公司的公司的Oracle Data Mining软件。为软件。为Oracle数据库管理系数据库管理系统新增的模块,与数据库管理软件紧密集成。统新增的模块,与数据库管理软件紧密集成。4) MS公司的公司的SQL Server 2005 Data Mining软件。软件。4 挖掘算法与挖掘软件的选择挖掘算法与挖掘软件的选择第五步:第五步:构建硬件、软件、数据平台,确定相关参数,并具体构建硬件、软件、数据平台,确定相关参数,并具体挖掘。挖掘。5 构建平台,具体挖掘构建平台,具体挖掘第六步:第六步:结果展示、评价、部署、维护。结果展示、评价、部署、维护。6 挖掘结果展示、评价与应用挖掘结果展示、评价与应用