1、数据挖掘课程培训案例背景中国电信市场的用户通常都为刚需用户,不存在用户不再使用电信业务。但各大运营商之间却存在巨大的竞争,尤其是各家运营商之间的很多服务几乎都是交叉重叠的服务,因此用户通常会由于某些原因离网转而使用其它运营商的服务。为有效减少自家用户的流失,运营商通常会基于自身的数据做一些分析来最大限度的挽留即将流失的用户。ABCDABCD商业理解哪些用户会流失 流失定义 特征变量选取 数据时间段选取流失用户具有哪些特征 流失用户识别规则 流失用户特征分布流失定义销号停止使用服务主动欠费服务取消被动特征变量选取?人口属性数据行为数据客服数据其它数据数据时间段训练数据时间段测试数据时间段流失预测
2、模型分类算法C5.0以“信息增益率”为度量来选择分裂属性以“信息增益”为度量来选择分裂属性C5.0(C4.5)ID3样本数据天气天气温度温度湿度湿度是否有风是否有风是否打球是否打球晴朗热高否否晴朗热高是否阴天热高否是下雨凉爽高否是下雨冷正常否是下雨冷正常是否阴天冷正常是是晴朗凉爽高否否晴朗冷正常否是下雨凉爽正常否是阴天凉爽正常是是阴天凉爽高是是阴天热正常否是下雨凉爽高是否C5.0计算步骤计算目标变量(是否打球)不确定性计算各个输入变量的熵计算各个输入变量的信息增益计算各个输入变量的信息增益率I(是否打球)E(是否打球|天气)、E(是否打球|是否有风)Gain(是否打球|天气)、Gain(是否打
3、球|是否有风)GainR(是否打球|天气)、GainR(是否打球|是否有风)C5.0关键点值(天气为例)熵:E(是否打球|天气)=0.5786信息增益:Gain(是否打球|天气)=I(是否打球)E(是否打球|天气)=0.3617信息增以率:Split(是否打球|天气)=1.5774 GainR(是否打球|天气)=0.2293C5.0算法缺失值处理将带有缺失值的样本当做临时剔除样本看待,并在后面进行权数调整。C5.0算法可以自己处理字段中的缺失值带有缺失值的样本天气天气温度温度湿度湿度是否有风是否有风是否打球是否打球热高否否晴朗热高是否阴天热高否是下雨凉爽高否是下雨冷正常否是下雨冷正常是否阴天冷
4、正常是是晴朗凉爽高否否晴朗冷正常否是下雨凉爽正常否是阴天凉爽正常是是阴天凉爽高是是阴天热正常否是下雨凉爽高是否计算步骤是否打球是否打球CountCountRateRate是99/14否55/14Step 1:计算训练样本的信息量计算步骤Step 2:计算每个属性的信息增益(以天气为例)天气天气是否打球是否打球=“是是”是否打球是否打球=“否否”totaltotal晴朗123阴天505下雨325Total9513关键点值熵:E(是否打球|天气)=0.5854信息增益:Gain(是否打球|天气)=0.3296信息增以率:Split(是否打球|天气)=1.5486GainR(是否打球|天气)=0.2
5、128Modeler数值型变量默认处理方法分裂属性为数值型变量MDLP算法:基于最短描述长度原则的熵分组方法。如果分组后的输入变量对输出变量取值的解释能力显著低于分组之前,那么这样的分组是没有意义的。MDLP的核心测度指标是信息熵和信息增益。C5.0剪枝特点后剪枝误差估计剪枝标准分类算法神经网络轴突树突突触细胞体神经末梢神经网络模型降水量:x3太阳黑子数:x4径流量:x1含沙量:x2土壤湿度:x8气温:x5ENSO指数:x6大气环流指数:x7jikWikWjkW1iW1jW2iW2jW3iW3jW4iW4jW5iW5jW6iW6jW7iW7jW8iW8j输入层隐含层2输出层隐含层1Y:是否发大
6、水神经网络节点介绍 接收和处理输入的变量值 其个数取决于输入变量的个数输入节点 实现非线性样本的线性变换 其个数可自行设定隐含层节点 提供分类预测结果 依据具体情况而定输出节点神经网络划分方式神经网络划分基于拓扑结构基于连接方式基于学习方式神经网络节点构成加法器W1W2激活函数神经网络激活函数阀值函数(阶跃函数)分阶段函数Sigmoid函数(S型函数)1 (当v大于等于0时)0 (当v小于0时)神经网络建立步骤数据处理(去除变量间的量纲影响、分类型变量转化为数值型变量)确定神经网络的层数和每层的节点数神经网络权值确定训练神经网络模型使用神经网络模型进行预测分类Modeler中神经网络核心算法多
7、层感知器MLP径向基函数RBF多层感知器MLP特点p可以包含一层或者多层隐含层p激活函数为sigmoid函数p具有高度的连通性p网络中包含函数信号和误差信号p3层前向网络(输入层、隐藏层、输出层)p激活函数为基函数(高斯函数)p根据隐藏层节点数量可分为正规化网络和广义网络径向基函数RBFMLP&RBF对比多层感知器多层感知器MLPMLP径向基函数径向基函数RBFRBF多个隐含层1个隐含层隐含层、输出层所有节点计算模型相同隐含层、输出层节点计算模型不同用于分类时选用非线性,用于非线性回归问题时,选用线性的隐含层计算为非线性,输出层计算为线性函数计算输入信号与连接权值间的内积函数计算输入向量与质心的欧式距离非线性映射全局逼近非线性映射局部逼近