1、2022/6/23Data Mining1Chapter 3 Data Preprocessing2022/6/23Data Mining2 簡介簡介 (1/4)n所謂的資料前置處理是指在進行資料探勘之前,為了讓資料更適合進行探勘的工作,對於資料所做的預先處理動作。 n在整個資料探勘的過程當中,資料前置處理所需要花費的功夫通常是最多的,同時資料前置處理也是對探勘品質影響最大的一個關鍵步驟。 n資料前置處理的主要目的就是解決資料品質不良的問題,使得探勘結果的品質得以提升。 2022/6/23Data Mining3 簡介簡介 (2/4)n 未經處理的資料可能存在許多品質不良的情況:A.A. 資料
2、不完整資料不完整(data incomplete) 資料不完整的情況最常見的便是資料中有某些屬性值有遺缺。例如:某顧客填寫會員資料表時,可能遺漏了填寫年齡這一欄。一般在線上作業的資料庫系統,除非管理者將資料庫中的每一個欄位均設定為不可接受空值(null),否則即有可能在某些欄位出現資料遺缺的情況。 2022/6/23Data Mining4 簡介簡介 (3/4)B.B. 資料有雜訊資料有雜訊(noise) 此問題多半是因資料有錯誤或是特例(outlier)所造成的。例如,顧客填寫會員資料表時,有可能因為要保護自己的隱私而故意填寫錯誤的資料。雜訊不一定全是故意填錯造成的,也有可能是因為填寫資料時
3、不小心或是資料中原本就包含特例而產生的。例如:一般男生的身高大多介於165公分到185公分之間,然而有一位顧客的身高是197公分,這便是一個特例。雜訊不僅可能導致探勘的結果不正確,也有可能會誤導探勘的結果分析。 2022/6/23Data Mining5 簡介簡介 (4/4)C.C. 資料不一致資料不一致(data inconsistency) 資料不一致的情況有許多,主要是因為資料由不同來源整合而得所產生。例如某一跨國性的企業,其商品在台灣是以台幣計價,而在美國則是以美金計價;當兩國的銷售資料被整合在一起做探勘時,若沒有經過適當的單位轉換,便會產生完全不正確的探勘結果。 n 有高品質的資料,
4、才有高品質的探勘結果2022/6/23Data Mining6資料前置處理的主要工作資料前置處理的主要工作 n 資料前置處理主要包含資料整合(data integration)、資料清理(data cleaning)以及資料轉換(data transformation)等三項工作 。資資料料整整合合整合後的資料清理過的資料資資料料轉轉換換準備進行探勘的資料各種不同來源的資料資資料料清清理理資資料料整整合合整合後的資料清理過的資料資資料料轉轉換換準備進行探勘的資料各種不同來源的資料資資料料清清理理2022/6/23Data Mining71.資料整合 Data Integrationn 所謂的資
5、料整合便是將多重來源的資料整合在一個貯存庫中,因此資料整合最主要的目的便是解決多重資料來源的整合問題。Data Warehouse n 資料整合的主要工作有二: A. 消除資料不一致 B. 消除資料重複性 2022/6/23Data Mining8資料不一致的情況資料不一致的情況 (1/2)n數值不一致(data value conflict)例如商品價格在某個資料來源中用台幣計價,而在另一個資料來源中卻用美金計價。這種數值單位不一致的現象,透過單位換算,使數值的計算單位統一,即可消除。另外一種數值不一致的情況是不同來源的資料內容不相同。例如:同一位會員在A資料表中記錄的年齡是30歲,然而在B
6、資料表中卻是25歲。因為無法判定究竟哪一個資料表是正確的,通常會採取的作法是將該屬性的資料刪除,以空值來取代,以消除內容不一致的情況。 2022/6/23Data Mining9資料不一致的情況資料不一致的情況 (2/2)綱目不一致(schema conflict)多半是屬性名稱不一致所造成的。例如有的資料來源用會員姓名這個屬性名稱,而另一個資料來源卻用顧客姓名這個屬性名稱,雖然名稱並不相同,但實際所代表的意義卻是一樣的,可以透過屬性更名的動作來進行統一。 2022/6/23Data Mining10資料重複性的情況資料重複性的情況 n數值重複例如整合中發現A資料表中有某會員的資料,在B資料表
7、中也有同一位會員的資料,則可刪除其中一筆記錄,以免造成資料重複。 n綱目重複例如資料經整合之後發現其中同時包含生日以及年齡這兩個屬性,因為年齡可以從生日推導出來,因此可以將年齡這個屬性刪掉以避免資料重複。 2022/6/23Data Mining112.2.資料清理資料清理 Data CleaningData Cleaning n資料清理的步驟主要目的是確認資料的正確性以及完整性,使得資料探勘能夠順利進行。 2022/6/23Data Mining12常見的資料常見的資料正確性正確性問題問題檢查內容檢查內容說明說明屬性的有效值或有效範圍例如:性別屬性的值不是男性就是女性;生日的月份應該介於1和
8、12之間。數值的唯一性例如:身分證字號或是顧客編號不可有重複。參考完整性(referential integrity)例如:存在於訂單資料表中的會員編號必須同時存在於會員資料表中。資料的合理性驗證例如:從會員的生日計算出該會員的年齡只有10歲,但是該會員所填寫的學歷卻是博士,顯然不合理。 2022/6/23Data Mining13常見的資料常見的資料完整性完整性問題問題 檢查內容檢查內容說明說明是否缺少探勘所需的屬性例如:當我們想要探勘顧客年齡與購買商品種類的關係時,卻發現資料庫中並未包含年齡這個屬性。是否只包含統計整合過的資訊,而缺少詳細的單筆資料例如:當我們想要分析某網站的瀏覽率以了解一
9、天當中那一個時段最多人拜訪這個網站時,卻發現該網站每天只有記錄一筆當天的總瀏覽人次,而缺少每個小時的瀏覽人次資料。缺少的屬性有時可以從其他屬性推導而出。例如:如果資料庫中有生日這個屬性,便可利用生日將顧客的年齡計算出來,而產生原本缺少的年齡屬性。若是探勘所需的屬性確實無法取得,那麼就必須修正探勘的目標,以便使資料探勘的工作可以繼續進行。 2022/6/23Data Mining14其它相關的資料清理工作其它相關的資料清理工作 n遺缺填補:為了不讓屬性值有遺缺的資料影響探勘的結果,在進行資料探勘之前,應該設法把遺缺的資料填補進去。填補的方式又可分為人工填補或是自動填補。n雜訊消除:由於雜訊的存在
10、有可能會使探勘的結果有相當大的偏差,因此必須將雜訊移除或是將資料做適當的平緩化處理(smoothing),以降低或是消除雜訊對於探勘結果的影響。 2022/6/23Data Mining15Data Cleaning-Data Cleaning-遺缺填補法遺缺填補法 n資料遺缺的原因 資料建立時未輸入:可能是故意或是不小心造成資料在建立時沒有被輸入。例如,因為擔心個人資料曝光故意不填身分證號碼,或是因為疏忽漏填電話。若資料庫中的欄位未設定為不可接受空值,便有機會產生資料遺缺的情況。 設備故障:例如因為收銀機故障導致顧客的消費明細無法即時輸入。 當資料內容不一致時,為了避免錯誤的資料影響分析的準
11、確性,可能會將該項資料以空值取代,因此產生資料的遺缺。 2022/6/23Data Mining16資料遺缺的處理方法資料遺缺的處理方法 (1/2)n 直接忽略法直接忽略法 直接忽略該筆內容有遺缺的資料。 這種作法特別適用在進行分類探勘時,若是某筆資料的分類標記(class label)為空值,那麼這筆資料因無法被正確分類,便可直接刪除。例如要找出顧客信用等級的分類規則時,信用等級這個屬性便是所謂的分類標記;若有一筆顧客資料其信用等級欄位存放的是空值,這筆資料便無法作為信用等級分類規則探勘時的依據,因此這筆資料可直接刪除。 雖然直接忽略法相當容易,然而如果資料遺缺的比例很可觀時,此法會造成大量
12、的資料流失,反而不利於探勘。 直接忽略法較適用於所蒐集的資料量很多,但遺缺的資料只佔其中一小部分的情況。 2022/6/23Data Mining17資料遺缺的處理方法資料遺缺的處理方法 (2/2)(2/2)n 人工填補法人工填補法 為了處理資料遺缺的現象,可採用人工來填補遺缺的資料。例如當某會員資料的生日屬性有遺缺時,可打電話詢問該會員以取得其生日加以填補。 人力的負擔將會十分沉重。 n 自動填補法自動填補法 在資料遺缺的處理方法上,較為實際且可行的作法便是自動填補法。最簡單的自動填補法便是填入一個通用的常數值,例如,填入“未知”。當這個屬性被用來當做分類標記時,“未知”會成為一個新的類別,
13、得到適當的分類規則。 另外一種自動填補法是填入該屬性的整體平均值。就統計的觀點而言,將遺缺的資料自動填入該屬性的整體(或同類)平均值,將不會對統計的結果造成太大的影響。 2022/6/23Data Mining18Data Cleaning-Data Cleaning-雜訊去除法雜訊去除法 n雜訊產生的原因和資料遺缺產生的原因大同小異,有可能是資料收集儀器暫時故障,或是資料輸入時的疏忽,或是資料本來就存在的特例等等。 n消除雜訊可以透過雜訊的辨識方法將雜訊找出並且移除,也可以利用資料的平緩化處理將雜訊對於探勘結果的影響加以平緩。 2022/6/23Data Mining19辨識雜訊的方法辨識雜
14、訊的方法 n 辨識雜訊最簡單的作法就是結合電腦偵測與人工檢視。先利用電腦計算偵測出可疑的數值,例如大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再用人工的方式確認這些可疑的資料是否真的是雜訊。這個方法雖然簡單,但因需要人力介入,曠日費時,並不實際。n 另一種方法是用群集分析法先將資料做分群,分群之後未能落於任一群集的零散資料便可認定為雜訊。當雜訊所在的資料被辨識出來之後,便可將之移除。 2022/6/23Data Mining20資料平緩化處理的方法資料平緩化處理的方法(裝箱法裝箱法)n 裝箱法(binning method)的基本概念是先將資料做排序,排序後將資料分組裝入箱子中,接
15、著再用各個箱子中所有資料的平均值、中位數、或邊界值來取代箱子中的每一筆資料。 n 裝箱法主要有兩種:等寬分割法(或者稱為等距分割法),以及等深分割法(或稱為等頻分割法)。 所謂的等寬分割法是指依照資料的數值範圍來劃分資料分組的區間,而等深分割法則是依照資料的個數來劃分資料分組的區間。 2022/6/23Data Mining21等寬分割法等寬分割法 (1/3)n 等寬分割法將資料依數值範圍劃分為N個間隔相同的區間。 假設A和B分別為該屬性中的最小與最大值,要將資料劃分成N個區間,則每個區間的寬度W=(B-A)/N。 例如,欲分析顧客年齡與購買商品種類的關係,使用了12個顧客作為分析對象,其年齡
16、分別為:12, 15, 18, 21, 28, 33, 36, 45, 50, 52, 60, 80,如果要消除年齡屬性的雜訊,可將此12人的年齡分割成四個箱子來進行裝箱法的處理。因為此年齡屬性的最大值是80,最小值是12,因此箱子的寬度便是最大值減最小值再除以箱子的個數,即(80-12)/4=17,得到的箱子寬度就是17。 2022/6/23Data Mining22等寬分割法等寬分割法 (2/3) 箱子一所裝的是介在12和28之間的年齡資料,箱子二裝2945,箱子三裝4662,箱子四裝6380。 因此箱子一會裝五個數字:12, 15, 18, 21, 28,箱子二會裝三個數字:33, 36
17、, 45,箱子三會裝三個數字:50, 52, 60,第四個箱子只裝一個數字:80 。2022/6/23Data Mining23等寬分割法等寬分割法 (3/3)n 等寬分割法雖然頗符合直覺,然而當資料有雜訊或特例時,此種分割方法將對探勘結果有很大的影響。 以前圖為例,前面11個數字的分布還算平均,然而第四個箱子卻只包含一個數字80,這一個數字很有可能是個特例。 由於利用等寬分割法時,如果遇到特別高或是特別低的數值,用最大值和最小值作為區間範圍所計算出的箱子寬度,可能會造成裝入箱子裡的資料個數不平均的問題,因此等寬分割法並不適合用在偏斜的資料(skew data)上。 2022/6/23Data
18、 Mining24等深分割法等深分割法 (1/2)(1/2) n 等深分割法是將資料劃分為數個相同數量而非相同間隔的資料區間。 以相同例子做說明,12個會員的年齡分別如下:12, 15, 18, 21, 28, 33, 36, 45, 50, 52, 60, 80,欲分割成四個箱子,12/4=3,因此每一個箱子放三個數字。箱子一放12, 15, 18,箱子二放21, 28, 33,箱子三放36, 45, 50,而箱子四放52, 60, 80。 2022/6/23Data Mining25等深分割法等深分割法 (2/2)(2/2)n 等深分割法的資料分佈比等寬分割法好,箱子內含的資料量比較平均,
19、即使資料有偏斜的情況也可以處理。n 無論是採用等深分割或是等寬分割,裝箱法最大的缺點便是不容易處理類別型態的屬性。例如:職業屬性的可能值有金融/保險、房地產、政府機關、軍警、教育/研究等等,然而這些職業類別並沒有先後次序,無法進行排序,因此比較不適合用裝箱法來處理雜訊。 2022/6/23Data Mining26裝箱資料的平緩處理裝箱資料的平緩處理 (1/3)(1/3) n 平均值法:以平均值取代個別的數字來消除雜訊。 以等深分割法的例子來說,箱子一中裝著12, 15, 18, 此三數的平均值為15 (如果有小數點即自動進位),因此便以15, 15, 15取代12, 15, 18。箱子二裝著
20、21, 28, 33,平均值為28,因此以28, 28, 28取代21, 28, 33。以此類推,箱子三裝的36, 45, 50以平均值取代成44, 44, 44;箱子四裝的52, 60, 80,以平均值取代成64, 64, 64。 經過這樣的處理後可以發現,原本年齡80是一個特例,但被平緩化處理成64之後,其值便接近正常值了,由此可見平緩化的處理確實可消除雜訊。 2022/6/23Data Mining27裝箱資料的平緩處理裝箱資料的平緩處理 (2/3)(2/3)n 中位數:以中位數取代個別的數字來消除雜訊。 以12, 15, 18這三個數字而言,位於中間的是15,因此就用15, 15, 1
21、5來取代12, 15, 18;21, 28, 33這三個數字中位於中間的是28,因此就用28, 28, 28取代21, 28, 33。依此類推,36, 45, 50取代成45, 45, 45;52, 60, 80則取代成60, 60, 60。 中位數較平均值容易排除極端值的影響。在箱子四中放著52, 60, 80,其中80是一個相對較大的數字,但還不算太極端,如果80換成120,52, 60, 120的平均值為77,對於其他數字而言,仍可視為特例。因此平均值的方式無法完全避免極端的特例對平緩後的數值所產生的影響。若是採用中位數來處理,不管80被換成100、1000、或是10000,其中位數仍為
22、60。 2022/6/23Data Mining28裝箱資料的平緩處理裝箱資料的平緩處理 (3/3)(3/3)n 邊界值法:以邊界值取代個別的數字來消除雜訊。 若是一數值離最小值較接近便用最小值取代,若離最大值較接近便用最大值取代。例如:12, 15, 18這個箱子中,15與最小值12和最大值18的距離相同,因此可任選12或18來取代15;假設選擇18, 則取代的結果為12, 18, 18。然而在21, 28, 33 這個箱子中,28距離33較21近,因此便用33取代28,成為21, 33, 33。 若是箱子四中有十個數字分別為52, 52, 52, 52, 52, 52, 60, 60, 6
23、0, 80,其中60距離52較近,因此前九個數字都會用52來取代,只有最後一個數字維持80。平均下來,極端值對整個統計結果的影響便可減少。用邊界值來消除雜訊時,雖然仍可看到雜訊的存在,但是雜訊的影響力已被降低。 2022/6/23Data Mining293.3.資料轉換資料轉換 Data TransformationData Transformationn 資料轉換的主要目的是將資料內容轉換成更容易探勘或是探勘結果可信度更高的狀態。n 基礎的資料轉換工作包括資料統整化(data aggregation)、資料一般化(data generalization)以及建立新屬性(attribute
24、construction)等。n 進階的資料轉換工作包括資料正規化、資料形式(data forms)轉換、資料形態轉換以及資料模糊化等等。n Data Reduction2022/6/23Data Mining30資料統整資料統整 n 資料統整是指將現有的資料做加總、統計或是建立資料方塊。例如:將商品銷售資料按照銷售地區或是商品類別做加總。n 資料統整的目的是將資料做初步的整理,使得資料更適合探勘的工作。 例如:整合後的資料中有每一天的商品銷售紀錄,然而想要進行的探勘工作是找出銷售業績與氣候的關係。由於以每一天的數據來看,很可能因為資料變化太大而找不出規律性,因此可以嘗試將銷售資料按銷售月份做
25、加總,同時將氣溫按照月份作平均,用統整過後的資訊來進行探勘,有時會更容易探勘出隱藏在資料中的規律性。 2022/6/23Data Mining31資料一般化資料一般化 n資料一般化是指將資料的概念階層(concept hierarchy)向上提升。 例如:將會員的詳細地址用城市或是北中南東四區來取代。n資料一般化可將某屬性中所包含的不同數值減少,以增加探勘結果的可用性。(Data Reduction) 2022/6/23Data Mining32建立新屬性建立新屬性 n利用舊屬性將探勘所需的新屬性建立出來。 例如:整合後的資料只包含會員的生日,然而探勘時要用的屬性是會員的年齡,由於年齡可以從生
26、日推算而出,因此可在此步驟建立出所需要的年齡屬性。(Derived Variables) 2022/6/23Data Mining33資料正規化資料正規化 Data NormalizationData Normalization n資料正規化的主要目的是將不同標準之下所記錄的資料轉換到同一個標準,以便提高分析時的準確度。資料的正規化會將資料重新分佈在一個較小而且特定的範圍內。 例如:台灣人民的平均所得遠高於菲律賓人。一個月賺一萬八千元台幣在台灣算是中低收入,然而在菲律賓,這卻是相當於三個大學教授的薪水。若是直接拿兩國人民的收入數字來做比較,便會產生不夠客觀的問題。 2022/6/23Data
27、Mining34極值正規化 (1/2)n極值正規化的公式如下: 其中v為正規化前的數值,其範圍為a, b; v為正規化後的數值,其範圍為c, d。)/()(abcdavcvabcdvv2022/6/23Data Mining35極值正規化 (2/2) 假設一般臺灣上班族的月收入範圍為20000, 100000,而一般菲律賓上班族的月收入範圍為2000, 10000;在台灣收入30000元相當於在菲律賓收入多少? v = 30000 a = 20000 b = 100000 c = 2000 d = 10000 將以上數字代入公式中即可求得v正規化後的數值為 極值正規化適合用在需要將資料規範在某
28、一個指定範圍內的情況。3000)20000100000/(200010000)2000030000(2000v2022/6/23Data Mining36Z-分數正規化n 公式範例:假設臺灣人月收入平均為35000元,標準差是10000元,利用Z-分數法將月收入30000元做正規化,將得到 負數表示收入低於平均,正數表示高於平均;結果之絕對值越小,表示偏離平均值程度越小,反之越高Z-分數正規化適合用在需要了解數值與平均分佈之間的關係時標準差平均值v v5 . 010,000000,35000,302022/6/23Data Mining37十進位正規化 n十進位正規化之公式如下: ,其中是使得
29、Max(|v|)1的最小整數。 假設台灣上班族最高月收入為100000元,因此使得正規化後的結果小於或等於1的最小整數為5。則月收入30000元經由十進位正規化之後將會得到: 十進位正規化適合用在要將數字壓縮到區間0,1的情況。ivv10/3 . 010/300005v2022/6/23Data Mining38資料形式轉換資料形式轉換 n 資料探勘技術所能處理的資料形式(data forms) 通常可分為四種:本文形式、時間形式、交易形式、關聯形式。 本文形式:本文形式:通常表示內容或是文件,可看作是字串的集合。例如:新聞或是各種網頁的內容。 時間形式:時間形式:通常儲存著時間序列(time
30、 series),記錄隨時間而改變的資料。例如:證劵交易的行情變化或是顧客的交易歷程。 交易形式:交易形式:記錄交易的項目。例如:顧客單次採購的商品項目所成之集合。 關聯形式:關聯形式:即關聯式資料庫中的表格,是最常用的資料形式,可儲存多種型態的資料。 2022/6/23Data Mining39資料探勘技術適用之資料形式資料探勘技術適用之資料形式(1/6)(1/6) n多層次資料一般化多層次資料一般化 (multilevel data generalization) 主要目標是要在資料庫中發掘出較高層次的資料觀點(view),以表達某些人類比較容易了解的觀念。例如了解來自不同區域的學生各科成
31、績之間的關係。(concept hierarchy) 合適之資料形式:關聯形式,主要乃藉由收集統計關聯式資料庫表格的對應屬性資料,以發掘出較高層次的資料觀點。2022/6/23Data Mining40資料探勘技術適用之資料形式資料探勘技術適用之資料形式 (2/6)(2/6) n分類法分類法 (data classification) 主要目的是在訓練樣本中發掘出分類的規則,以用來分類新進資料。 合適之資料形式:適用於關聯形式的資料,以關聯式資料庫表格來儲存訓練樣本,以一個屬性做為分類的目標屬性,其中記錄著資料樣本的分類標記(class label),而其他屬性則被當作分類演算法的輸入數據。
32、2022/6/23Data Mining41資料探勘技術適用之資料形式資料探勘技術適用之資料形式 (3/6)(3/6) n群集分析群集分析 (cluster analysis) 根據資料樣本的樣式(pattern),將最相似的資料樣本分成一個群集;同一群集的資料樣本差異性小,而不同群集的資料樣本差異性大。 合適之資料形式如同分類法,適用於關聯形式的資料,以關聯式資料庫表格來儲存欲進行群集分析探勘的資料樣本。 2022/6/23Data Mining42資料探勘技術適用之資料形式資料探勘技術適用之資料形式 (4/6)(4/6) n關連法則探勘關連法則探勘 (association rules m
33、ining) 關連法則探勘的主要目的是在龐大的交易資料中找出交易項目的關連性。 合適之資料形式: 通常應用在交易形式的資料中。 n時間序列分析時間序列分析(time series analysis)(time series analysis) 追蹤並分析不同時間點的資料值變化,以發掘出可預測未來發展的規則。 合適之資料形式:通常運用在時間形式的資料上。 2022/6/23Data Mining43資料探勘技術適用之資料形式資料探勘技術適用之資料形式 (5/6)(5/6) n以樣式為基礎的相似搜尋以樣式為基礎的相似搜尋 (pattern-based similarity search) 預先設定
34、一個目標樣式以及一個差異容忍度,找出與目標樣式之相似度在差異容忍度範圍內的物件,可分成文字搜尋以及時間序列搜尋兩類。 合適之資料形式:本文形式的資料適用於文字的相似搜尋,而時間形式的資料適用於時間序列的相似搜尋。 2022/6/23Data Mining44資料探勘技術適用之資料形式資料探勘技術適用之資料形式 (6/6)(6/6) 資料探勘技術多層次資料一般化分類法群集分析關連法則探勘時間序列分析以樣式為基礎的相似搜尋關聯形式交易形式時間形式本文形式資料探勘技術多層次資料一般化分類法群集分析關連法則探勘時間序列分析以樣式為基礎的相似搜尋關聯形式交易形式時間形式本文形式2022/6/23Data
35、 Mining45資料型式的轉換資料型式的轉換 (1/2)n 範例一:假設交易資料表記錄著顧客所購買的每一樣商品的資料,包括:交易編號、會員帳號、商品編號、交易時間、交易數量、付款方式。若我們想要分析顧客同一天購買的商品之間的關連性,以目前交易資料表內所儲存的資料格式並無法直接套用於關連法則探勘的演算法,因此在探勘之前必須先進行以下的資料前置處理步驟: 選取相關屬性:選出會員帳號、商品編號、交易時間這三個屬性。 精簡資料:將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。 轉換資料形式:依照會員帳號及交易日期將同一會員同一天同一天的交易記錄集合成為一筆交易形式的資料。 2022/6/
36、23Data Mining46資料型式的轉換資料型式的轉換 (2/2)(2/2)n 範例二:若我們想要利用分類演算法針對本文形式的資料,例如新聞或是網頁等文件,進行分類規則的探勘。由於分類法一般乃是適用於關聯形式的資料,因此必須先將欲進行分類的文件內容轉換成資料屬性的形式,才能夠進行分類的探勘工作。我們可以將文件當中出現頻率最高的十個關鍵字找出來,分別記錄在十個資料屬性當中,當作分類法的輸入數據,另外再增加一個屬性,記錄文件的類別,當做分類法的類別標記屬性,如此一來,便可利用一般的分類演算法進行文件分類探勘的工作。 (如memory-based reasoning)2022/6/23Data
37、Mining47資料型態轉換資料型態轉換 (1/3) n不同的資料探勘演算法均有其適合的資料型態,為了應用適當的資料探勘演算法以獲取所需的知識種類,進行資料探勘前必須先將資料型態做轉換。 n在資料探勘中,可以把這些資料型態分成離散型(discrete)或是連續型(continuous)兩種類型。 2022/6/23Data Mining48資料型態轉換資料型態轉換 (2/3)n 離散型的資料其屬性值是由預先定義的資料集合所組成的,資料集合中兩個值的距離並無法直接計算 像布林型態(例如:性別)、列舉型態(例如:職業等) 、或是字串型態(例如:地址)均屬於此類型。 以性別屬性而言,可能的值只有兩種
38、:男或女,因而稱之為布林型態 以職業而言,可能的值是金融/保險、房地產、政府機關、軍警、教育/研究等等,視列舉出給會員勾選的選項而定,因而稱之為列舉型態 以地址屬性而言,其中可以出現各種符合地址模式的字串,因而稱之為字串型態。 (列舉型態:城市、路名、門牌、樓層等)2022/6/23Data Mining49資料型態轉換資料型態轉換 (3/3)n 連續型的資料主要就是數字型態(例如:平均月收入)、或是日期型態(例如:生日)均屬於此類型。n 與離散型的資料相比較,連續型的資料其值與值之間會有關連性或是順序性,我們可以正確計算兩數值的距離或是其相似性。 例如:平均月收入為25000元與平均月收入為
39、30000元相差5000元;生日在1964年8月18日與生日在1965年8月21日相差368天。 2022/6/23Data Mining50資料探勘技術適用之資料型態資料探勘技術適用之資料型態 n 離散的資料型態 適用在監督式學習(supervised learning)的資料探勘演算法上(例如:分類法),但是不能直接用在非監督式學習(unsupervised learning)的方法上 (例如:群集分析法) 因為大部分的群集分析演算法都必須計算資料樣本間的距離或是相似度,這在離散型的資料型態中是較難計算的n 連續型的資料型態不只適用於非監督式學習法,也同時適用於監督式學習法。 2022/6
40、/23Data Mining51資料型態的適用性資料型態的適用性 較低較適合適合較易計算數字型態日期型態連續型較高較不適合適合較難計算布林型態列舉型態字串型態離散型理解度群集分析分類探勘兩值間的距離資料型態範例特性型態較低較適合適合較易計算數字型態日期型態連續型較高較不適合適合較難計算布林型態列舉型態字串型態離散型理解度群集分析分類探勘兩值間的距離資料型態範例特性型態2022/6/23Data Mining52資料型態的轉換資料型態的轉換 n 離散型資料轉換成連續型資料離散型資料轉換成連續型資料 此種轉換必須利用適當的領域知識(domain knowledge)來定義離散資料值的距離或是相似度
41、。(相似性矩陣)類別型的資料假如只有兩個值的話,例如:是 / 否,男性 / 女性,通常可以0或1來轉換為數值型的資料如變數值較多時,如:有N個變數值情形下,就可以N個二位元數值變數去表示 (Dummy variables)n 連續型資料轉換成離散型資料連續型資料轉換成離散型資料 連續型資料需要轉換成離散型資料的理由是因為某些資料探勘演算法並不適合處理數值型態的資料,例如分類法中的決策樹分類法,如果直接應用決策樹分類法來將數值型態的資料分類,將會導致分類結果過度遷就且分類效率不佳的問題。 例如,我們可以將年齡轉換成離散數值,區分為少年、青年、中年與老年四類。 2022/6/23Data Mining53總結總結n 本章介紹資料前置處理的相關問題,包括資料清理、資料整合以及資料轉換。n 資料前置處理的目的 提高資料探勘的品質n 資料模糊化n 資料精簡的目的 (next chapter) 提高資料探勘的效率n 有高品質的資料,才有高品質的探勘結果。