1、金融数据挖掘和商业数据挖掘金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程郑宇庭谢邦昌 程兆庆 台湾政治大学资料采矿中心2022/10/292报告大纲n研究目的n分析工具 n建模流程n结论与建议nQ&A2022/10/293研究目的n有效地筛选出偿债能力不佳的个人信用卡客户,依此开发出一套信用风险系统,以帮助银行做出正确的核卡决策。n这个系统的开发、维护、与更新的成本预期将比银行现有系统的成本低。2022/10/294分析工具nMicrosoft SQL Sever 2005价格自动化以及开发延伸程度目前SPSS跟微软之间是采取合作的态度2022/10/29图表来源:杨自强 企业如
2、何应用商业智慧来提升执行力与竞争力5建模流程:CRISP-DM2022/10/29图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力6微软商业智慧解决方案SSIS 分析服务分析服务报表服务报表服务分析服务分析服务(Data Mining)资料来源检视资料来源检视表表(Data(Data SourceSourceView)View)整合性整合性服务服务(SSIS)(SSIS)商业理解商业理解资料理解资料理解资料准备资料准备建模建模评估评估发布发布资料源资料源资料源资料源2022/10/297资料采矿无处不在商业问题商业问题Microsoft 算法算法预测类别变量,例如营销响应、顾客流失、
3、违约预测(巴塞尔资本协定IRB)决策树贝氏机率分类群集类神经网络罗吉斯回归预测连续变量,例如预测销售量、预测客户价值变动、预测金融商品价格波动.回归树时间序列类神经网络预测序列,例如找出网站使用者的点选路径模式、客户缴款行为模式、商品购物顺序时序群集找出产品交叉销售关联性,又称为购物篮分析关联规则决策树找出潜在相似性,例如市场区隔、侦测晶圆瑕疵分配、文件分类、保险浮滥理赔侦测、伪卡侦测群集时序群集2022/10/298商业理解(Business Understanding)n厘清商业问题目前呆帐率是多少?信用卡审核流程?n信用卡评分模型=分类模型2022/10/299资料理解(Data Und
4、erstanding)n资料来源某银行2000.1.12002.6.30的信用卡资料n数据内容申请数据文件缴款纪录文件总共有1220个变数,502,333笔原始资料n违约户定义缴款期间曾经有逾期60天以上未缴之卡户 2022/10/2910建模流程图选择2001.42001.6原始资料清除遗漏值、异常值数据转换误差抽样训练组测试组建模评估评估2022/10/2911资料准备(Data Preparation)n选择合理的建模变量基本数据n性别、教育程度、职业别联合征信中心(JCIC)的资料n被查询总家数、延迟月数比率与银行往来的资料n申请卡别类型、有没有使用扣款服务2022/10/2912资料
5、准备(Data Preparation)n选择合理的建模时间时间间隔取为12个月至18个月n清除遗漏值、异常值n数据转换连续型转成离散型:被查询总家数合并变项太多之变量:职业别n衍生新的变数2022/10/2913类型类型变量名称变量名称数据类型数据类型个人资料教育别类别型(2类)性别旗标型行业别类别型(3类)职称别类别型(3类)工作年资类别型(5类)紧急联络人与正卡关系类别型(4类)与银行往来纪录是否申请结余代偿旗标型扣款账号旗标型金融联合征信中心延迟月数比率连续型循还月数比率连续型近一年M2次数整数型近期是否逾期旗标型负债所得比连续型有效卡张数类别型(3类)被查询总家数类别型(4类)202
6、2/10/2914建模(Modeling)n误差抽样(Over-Sampling)将稀有事件透过抽样的方式将其比重提高n多的少抽(Reduce):正常户抽取率0.1违约户抽取率1n将资料分成训练组与测试组避免过度学习(Over-fitting)n建模方法选择罗吉斯回归、决策树、类神经网络Data Mining Model Evaluation2022/10/2916Data Mining Model Evaluationn分类矩阵横轴为预测结果,纵轴为实际结果n增益图横轴为名单百分比,纵轴为累积占全体之百分比n收益图根据成本以及销售成功利润,并计算出累积利润图n散布图针对连续变量,可以利用此功
7、能了解实际值与预测值间之差异性以及预测之趋势变动情形2022/10/2917选择“vTargetMail(dbo)”勾选需要比较之模型Data Mining Model Evaluation说明:说明:在进行模型效益评估前必须先选入数据表,并在模型中勾选要进行评估比较之模型2022/10/2918Data Mining Model Evaluation分类矩阵分类矩阵藉由分类矩阵进一步比较,判别两模型的预测能力,由决策树模型发现,预测正确的资料有7103+5857=12960;而群集分析模型的正确预测数据为5395+5308=10703,也可看出决策树决策树分类结果较群集分析群集分析分类结果好
8、2022/10/2919Data Mining Model Evaluation增益图增益图增益图:增益图:主要展现在整体的百分上所累积的效益状况2022/10/2920Data Mining Model Evaluation收益图收益图收益图:收益图:可根据所设定之固定成本、单位成本以及单位营收加以计算,找出最佳获利点2022/10/2921Data Mining Model Evaluation散布图散布图散布图:散布图:了解各模型之预测值、预测趋势以及实际值2022/10/2922评估(Evaluation)n增益图(lift chart)2022/10/2923评估(Evaluation)n分类矩阵(classification matrix)n衡量指标Precise=a/a+bRecall=a/a+cAccuracy=a+d/a+b+c+d 实际预测违约户正常户违约户ab正常户cd2022/10/2924发布(Deployment)n产生预测的违约机率值单一查询整批查询2022/10/2925结论与建议n本研究以罗吉斯回归模型预测能力最好n本研究目的在于帮助作核卡的决策,另外有一些主题可供继续研究核卡后n针对缴费情况的变化,再建构一预测违约模型,以预防违约发生。已违约n建立一处理催收顺序的模型2022/10/2926Q&A