1、資料探勘與資料探勘與Modeler使用介紹使用介紹資料分類資料分類-C5.0和和CR&T模型模型資料集群資料集群-K-means 和模型評估和模型評估 4 2 3 1SPSS Modeler資料探勘應用基礎資料探勘應用基礎資料關聯資料關聯-Apriori和和Sequence分類範例一分類範例一:鳶尾花分類應用鳶尾花分類應用分類範例二分類範例二:客戶信用風險評估客戶信用風險評估分類範例四分類範例四:乳腺癌乳腺癌醫學診斷應用醫學診斷應用 4 2 3 12.2.資料分類資料分類-C5.0-C5.0和和CR&TCR&T模型模型分類範例三分類範例三:部署客戶信用模型部署客戶信用模型資料分類範例資料分類範
2、例 一一節點節點【C5.0】檔案檔案iris.txt150 records 5 fields決策樹基本概念決策樹基本概念QuinlanQuinlan在在19861986年所提出的年所提出的ID3ID3演算法後,因其演算法後,因其無法處理連續屬性的問題且不適用在處理大的無法處理連續屬性的問題且不適用在處理大的資料集,因此資料集,因此19931993又發表又發表C5.0C5.0的前身的前身4.54.5,直到,直到現在所使用的現在所使用的C5.0C5.0決策樹演算法決策樹演算法C5.0C5.0演算法的結果可產生決策樹及規則集兩種演算法的結果可產生決策樹及規則集兩種模型,並且依最大資訊增益的欄位來切割
3、樣本模型,並且依最大資訊增益的欄位來切割樣本,並重複進行切割直到樣本子集不能再被分割,並重複進行切割直到樣本子集不能再被分割爲止爲止【C5.0C5.0】模型節點能處理連續型變數與類別型模型節點能處理連續型變數與類別型的變數資料,因此需要至少一個的變數資料,因此需要至少一個【輸入輸入】的輸的輸入欄位以及一個(或以上)的入欄位以及一個(或以上)的【目標目標】欄位,欄位,且目標欄位必須是類別型變數且目標欄位必須是類別型變數決策樹圖例決策樹圖例鳶尾花分類鳶尾花分類應用應用這個鳶尾花這個鳶尾花(Iris)(Iris)資料集是非常著名的生物資訊資料資料集是非常著名的生物資訊資料集之一,取自美國加州大學歐文
4、分校的機械學習資料集之一,取自美國加州大學歐文分校的機械學習資料庫,庫,http:/http:/archive.ics.uci.eduarchive.ics.uci.edu/ml/datasets/Iris/ml/datasets/Iris主要是使用於分類主要是使用於分類(classification)(classification)演算法的測試,演算法的測試,非常符合本章的決策樹非常符合本章的決策樹C5.0C5.0演算法來練習。資料的筆演算法來練習。資料的筆數計有數計有150150筆,共有五個欄位筆,共有五個欄位:1.花萼長度(Sepal Length):計算單位是公分。2.花萼寬度(Sep
5、al Width):計算單位是公分。3.花瓣長度(Petal Length):計算單位是公分。4.花瓣寬度(Petal Width):計算單位是公分。5.類別(Class):可分為Setosa,Versicolour和Virginica三個品種【變數檔案變數檔案】節點節點【類型類型】節點節點【分割區分割區】節點節點【C5.0】模型輸出決策樹模型輸出決策樹執行後產生模型金磚執行後產生模型金磚(nugget)檢視決策樹及檢視決策樹及預測變數重要性預測變數重要性由左至右的決策樹模型由左至右的決策樹模型查看摘要設定值查看摘要設定值計算每一筆資料的預測信賴度計算每一筆資料的預測信賴度【C5.0】模型輸出
6、模型輸出規則組集規則組集檢視規則組集及檢視規則組集及預測變數重要性預測變數重要性輸出測試資料的矩陣和分析輸出測試資料的矩陣和分析資料分類範例二資料分類範例二節點節點【C5.0】檔案檔案Risk.xlxs4117 records 12 fields【EXCEL】節點節點【過濾器過濾器】節點節點【導出導出】節點節點【導出導出】節點節點【分割區分割區】節點節點【類型類型】節點節點【C5.0】節點節點【矩陣矩陣】節點節點外觀加上百分比外觀加上百分比建模後使用測試資料建模後使用測試資料測試資料的矩陣和分析結果測試資料的矩陣和分析結果資料分類範例三資料分類範例三節點節點【C5.0】檔案檔案 RiskNew
7、.xlsx12470 records 10 fields模型的部署模型的部署部署部署(deployment)(deployment)就是將模型運用在新資料上就是將模型運用在新資料上,亦即先訓練舊資料再以新資料預測,亦即先訓練舊資料再以新資料預測舊資料檔舊資料檔RiskRisk有有4117 4117 筆資料,已有分類好的筆資料,已有分類好的RISKRISK欄位,某欄名欄位,某欄名storecarstorecar,loanloan範圍範圍0-30-3新資料檔新資料檔RiskNewRiskNew有有1247012470筆資料,但沒有筆資料,但沒有RISKRISK欄位,欄位,storecardssto
8、recards需改名成需改名成storecarstorecar ,又如果,又如果有一筆資料有一筆資料loan=5?loan=5?因為新資料檔沒有因為新資料檔沒有RISKRISK欄位,因此產生的模型欄位,因此產生的模型就無法產生混淆矩陣和正確率分析的結果就無法產生混淆矩陣和正確率分析的結果訓練訓練Risk後再以後再以RiskNew預測模型預測模型所產生模型的所產生模型的表格表格模型的模型的分配圖分配圖模型的直方圖模型的直方圖資料分類範例四資料分類範例四節點節點【CR&T】檔案檔案wdbc.txt569 records 32 fields分類迴歸樹基本概念分類迴歸樹基本概念分類迴歸樹分類迴歸樹(C
9、&R Tree,Classification(C&R Tree,Classification and Regression Tree)and Regression Tree)由由BreimanBreiman在在19841984年提出年提出C&R TreeC&R Tree以反覆運算的方式,由根部開以反覆運算的方式,由根部開始反覆建立二元分支樹,直到樹節點中始反覆建立二元分支樹,直到樹節點中的同質性達到某個標準,或觸發反覆運的同質性達到某個標準,或觸發反覆運算終止條件為止算終止條件為止C&R TreeC&R Tree的輸出欄位既可以是數值型資的輸出欄位既可以是數值型資料,也可以是類別型資料料,也可
10、以是類別型資料乳腺癌醫學診斷應用乳腺癌醫學診斷應用本範例檔本範例檔wdbc.txtwdbc.txt的乳腺癌的乳腺癌(Breast Cancer(Breast Cancer Diagnostic)Diagnostic)的診斷資料,取自美國加州大學歐的診斷資料,取自美國加州大學歐文分校的機械學習資料庫文分校的機械學習資料庫http:/archive.ics.uci.edu/ml/datasets/Brhttp:/archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29east+Cancer+Wisconsin+
11、%28Diagnostic%29WisconsinWisconsin大學臨床研究中心於大學臨床研究中心於19951995年蒐集年蒐集569569例乳腺癌症的病患實際診斷資料,診斷的方式例乳腺癌症的病患實際診斷資料,診斷的方式是對於可疑的乳腺腫塊使用細針穿刺的技術是對於可疑的乳腺腫塊使用細針穿刺的技術 (Fine Needle Aspirate,FNA)(Fine Needle Aspirate,FNA)蒐集數位化圖像蒐集數位化圖像並加以計算並加以計算乳腺癌醫學診斷欄位說明乳腺癌醫學診斷欄位說明wdbc.txtwdbc.txt的欄位計有的欄位計有3232項,分別是項,分別是1.1.識別號碼識別號
12、碼(ID number)(ID number):識別號碼:識別號碼2.2.診斷結果診斷結果(Diagnosis)(Diagnosis):惡性:惡性(M=(M=malignant)malignant)、良性、良性(B=benign)(B=benign)3-32.3-32.這這3030項資料是計算每一個細胞核的真實項資料是計算每一個細胞核的真實資料測量值,包含以下的內容:半徑資料測量值,包含以下的內容:半徑(radius)(radius)、紋理、紋理(texture)(texture)周長周長(perimeter)(perimeter)、範圍、範圍(area)(area)、平滑度、平滑度(smoo
13、thness)(smoothness)、緊密度、緊密度(compactness)(compactness)、凹陷部分的程度、凹陷部分的程度(concavity)(concavity)、凹陷部分的數量、凹陷部分的數量(concave points)(concave points)、對稱度、對稱度(symmetry)(symmetry)、碎型維度、碎型維度(fractal dimension)(fractal dimension)【類型類型】節點和節點和【CR&T】節點節點檢視決策樹及預測變數重要性檢視決策樹及預測變數重要性由左至右的決策樹模型由左至右的決策樹模型輸出的矩陣和表格輸出的矩陣和表格正確率分析正確率分析改用改用【C5.0】節點預測效果更好節點預測效果更好