1、1第三章第三章 資料資料前置處理前置處理2第三章第三章 資料資料前置處理前置處理 簡介簡介 資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結3資料未經處理的問題資料未經處理的問題資料不完整資料不完整(data incomplete)資料中某些屬性值屬性值有遺缺缺少某些分析時需要用到的屬性屬性,Ex:性別性別資料有雜訊資料有雜訊(noise)資料有錯誤錯誤或是特例特例(outlier)造成資料不一致資料不一致(data inconsistency)由不
2、同來源整合不同來源整合而得所產生 商品在台灣是以台幣台幣,在美國則是美金美金計價有高品質的資料,才有高品質的探勘結果有高品質的資料,才有高品質的探勘結果4第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結5前置處理的主要工作前置處理的主要工作資料整合資料整合整合後整合後的資料的資料(貯存貯存室室=資資料倉儲料倉儲)清理過清理過的資料的資料資料轉換資料轉換準備進行探準備進行探勘的資料勘的資料各種不同來各種不同
3、來源的資料源的資料資料清理資料清理6資料整合資料整合資料整合資料整合(data integration)解決多重資料來源多重資料來源的整合整合問題主要工作主要工作消除資料不一致消除資料不一致 數值不一致數值不一致(data value conflict),Ex:單位不一:單位不一 綱目不一致綱目不一致(schema conflict),Ex:屬性名稱不一,:屬性名稱不一,會員姓名和顧客姓名消除資料重複性消除資料重複性 數值重複數值重複,Ex:A和和B資料表有同一會員資料資料表有同一會員資料 綱目重複綱目重複,Ex:生日和年齡:生日和年齡7資料清理資料清理(1)確認資料確認資料正確性正確性、完整
4、性完整性常見的資料常見的資料正確性問題正確性問題8資料清理資料清理(2)確認資料完整性確認資料完整性常見的資料常見的資料完整性問題完整性問題:9資料清理資料清理(3)其它清理工作其它清理工作遺缺填補遺缺填補:人工填補人工填補或自動填補自動填補雜訊消除雜訊消除:雜訊使探勘結果有相當大的偏差,必須將雜訊移除雜訊移除或將資料資料做平緩化處理平緩化處理(smoothing)10資料轉換資料轉換 資料統整化資料統整化(data aggregation)加總加總、統計統計或是建立資料方塊建立資料方塊(data cube)目的:將資料做初步整理初步整理,使得資料更適合探勘一種資料精簡化資料精簡化處理 資料一
5、般化資料一般化(data generalization)資料的概念階層概念階層(concept hierarchy)向上提升 會員地址會員地址用城市城市或是北中南東四區北中南東四區取代可將某屬性屬性中所包含的不同數值減少,資料精簡的方法之一 建立新屬性建立新屬性(attribute construction)利用舊屬性舊屬性將探勘所需的新屬性新屬性建立生日生日屬性產生年齡年齡屬性11第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料
6、模糊化資料模糊化*總結總結12資料遺缺資料遺缺原因原因資料建立時未輸入資料建立時未輸入故意或是不小心造成資料沒有被輸入設備故障設備故障例如收銀機故障收銀機故障,導致顧客消費明細無法輸入因資料內容不一致而被刪除因資料內容不一致而被刪除當資料內容不一致時,為了避免錯誤的資料影響分析的準確性準確性,可能會將該項資料以空值空值取代,因此產生資料的遺缺13資料遺缺處理方法資料遺缺處理方法-直接忽略法直接忽略法處理資料遺缺處理資料遺缺最簡單的方法最簡單的方法適用時機適用時機進行分類探勘分類探勘時,若資料的分類標記分類標記(class label)為空值空值,這筆資料因無法被正確分類,便可直接刪除,Ex:信
7、用等級信用等級適用對象適用對象蒐集資料量很多、遺缺資料只佔一小部分一小部分缺點缺點資料遺缺比例很可觀時,會造成大量資料流失14資料遺缺處理方法資料遺缺處理方法-人工填補法人工填補法處理資料遺缺的現象,可採用人工來填補處理資料遺缺的現象,可採用人工來填補範例範例當某會員資料的生日屬性生日屬性有遺缺,可打電話詢問該會員,以取得其生日並加以填補。缺點缺點當資料遺缺較多時,耗時且人力負擔沉重。15資料遺缺處理方法資料遺缺處理方法-自動填補法自動填補法主要兩種方式主要兩種方式填入一個通用的常數值填入一個通用的常數值 如填入“未知未知/unknown”,成為一個新的類別填入該屬性的整體平均值填入該屬性的整
8、體平均值 不會對統計結果造成太大的影響 優點優點:可以在不影響統計結果的情況下,保留此資料屬性 缺點缺點是不夠客觀不夠客觀更精確作法是用推論法推論法求出較可能的值來填入 方法方法基本上有兩種,一種是貝式方程式貝式方程式(Bayesian formula),另一種方法是利用決策樹決策樹(decision tree)16第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結17雜訊雜訊的處理方法的處理方法 結合電腦
9、和人工檢視結合電腦和人工檢視結合電腦偵測與人工檢視結合電腦偵測與人工檢視,Ex:大於或小於平均值百分之二十以上的資料便有可能是雜訊,接著再利用人工方式確認缺點缺點:需要人力介入,曠日費時,不實際 資料平緩化處理資料平緩化處理回歸分析法回歸分析法(regression analysis)將資料套入回歸函數回歸函數以消除雜訊裝箱法裝箱法(binning method)將資料排序資料排序並切割切割成數個箱子 用所有資料的平均值平均值、中位數中位數或邊界值邊界值來取代箱子中的每一筆資料以消除雜訊 包括等寬分割法等寬分割法(或稱等距分割法或稱等距分割法)和等深分割法等深分割法(或稱等頻分割法或稱等頻分割
10、法)18裝箱法裝箱法-等寬分割法等寬分割法 等寬分割法等寬分割法(或稱等距分割法,Equal Width/Distance)將資料的數值範圍數值範圍劃分為N 個間隔相同的區間個間隔相同的區間若A和和B分別為此屬性中的最小與最大值最小與最大值,則每個區間的間間隔大小為:隔大小為:W=(B-A)/N.Ex:假設欲分析顧客年齡顧客年齡與購買商品種類購買商品種類的關係,將12個顧客年齡資料排序依序如下:12,15,18,21,28,33,36,45,50,52,60,80 欲分割為四個箱子四個箱子則箱子寬度箱子寬度=(80-12)/4=17 箱子 1(12-28):12,15,18,21,28 箱子
11、2(29-45):33,36,45 箱子 3(46-62):50,52,60 箱子 4(63-80):80最直覺的分割法最直覺的分割法,但資料有雜訊雜訊或特例特例對分割結果的影響很大(探勘結果影響很大)不適用於偏斜的資料偏斜的資料(skew data)19等寬分割法示意圖等寬分割法示意圖12,15,18,21,28 箱子箱子箱子箱子33,36,45 箱子箱子50,52,60 80 箱子箱子20裝箱法裝箱法-等深分割法等深分割法 等深分割法等深分割法(或稱等頻分割法,Equal Depth/Frequency)將資料劃分為N 個資料數量資料數量大致相同的區間相同的區間(個數個數)例同上,將12個
12、顧客年齡資料排序依序如下:12,15,18,21,28,33,36,45,50,52,60,80四個箱子則每個箱子均含三筆資料均含三筆資料(寬度寬度12/4=3)箱子 1:12,15,18 箱子 2:21,28,33 箱子 3:36,45,50 箱子 4:52,60,80資料分布資料分布(scaling)良好良好但類別屬性類別屬性(categorical attributes)較難處理較難處理21等深分割法示意圖等深分割法示意圖12,15,18 箱子箱子21,28,33 箱子箱子箱子箱子52,60,80 36,45,50 箱子箱子22等深分割法等深分割法裝箱資料的裝箱資料的平緩處理平緩處理 以
13、平均值消除雜訊以平均值消除雜訊 箱子 1(12,15,18):15,15,15 箱子 2(21,28,33):28,28,28 箱子 3(36,45,50):44,44,44 箱子 4(52,60,80):64,64,64 以中位數消除雜訊以中位數消除雜訊 箱子 1(12,15,18):15,15,15 箱子 2(21,28,33):28,28,28 箱子 3(36,45,50):45,45,45 箱子 4(52,60,80):60,60,60 以邊界值消除雜訊以邊界值消除雜訊 箱子 1(12,15,18):12,18,18 箱子 2(21,28,33):21,33,33 箱子 3(36,45
14、,50):36,50,50 箱子 4(52,60,80):52,52,8023等寬分割法等寬分割法裝箱資料的裝箱資料的平緩處理平緩處理 以平均值消除雜訊以平均值消除雜訊 箱子 1(12,15,18,21,28):19,19,19,19,19 箱子 2(33,36,45):38,38,38 箱子 3(50,52,60):54,54,54 箱子 4(80):80 以中位數消除雜訊以中位數消除雜訊 箱子 1(12,15,18,21,28):18,18,18,18,18 箱子 2(33,36,45):36,36,36 箱子 3(50,52,60):52,52,52 箱子 4(80):80 以邊界值消除
15、雜訊以邊界值消除雜訊 箱子 1(12,15,18,21,28):12,12,12,28,28 箱子 2(33,36,45):33,33,45 箱子 3(50,52,60):50,50,60 箱子 4(80):8024第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結25資料正規化資料正規化 資料正規化資料正規化(Data normalization)將資料重新分布在一個較小且特定的範圍內 例如:台灣台灣的平
16、均所得平均所得遠高於菲律賓菲律賓,即使年收入均以台幣作單位,直接直接將兩國顧客的年收入用數值相比仍然不不夠客觀夠客觀,此時便需要正規化正規化到同一個標準同一個標準下做評比。資料正規化的方法資料正規化的方法極值正規化極值正規化(Min-max normalization)Z-分數正規化分數正規化(Z-score normalization)十進位正規化十進位正規化(Normalization by decimal scaling)26極值正規化極值正規化公式公式範例::假設一般臺灣上班族的月收入範圍為 20000,100000,而一般菲律賓上班族的月收入範圍為 2000,10000;在台灣收入3
17、0000元相當於在菲律賓收入多少?適合用在需要將資料規範在某一個指定範圍內規範在某一個指定範圍內的情況3000000,20000,100000,2000,10)2000030000(2000abcda-vcvP3-12:正規化前數值,範圍a,b:正規化後數值,範圍c,d27Z-分數正規化分數正規化 公式公式範例:假設臺灣人月收入平均為35000元,標準差是10000元,利用Z-分數法分數法將月 收入30000元做正規化,將得到 負數負數表示收入低於平均收入低於平均,正數正數表示高於平均高於平均適合用在需要了解數值數值與平均分佈平均分佈之間的關係時標準差平均值v v5.010,000000,35
18、000,30P3-1328十進位正規化十進位正規化公式公式範例:假設台灣上班族最高月收入為100000元,因此使得正規化後的結果小於或等於1的最小整數為5。則月收入30000元經由十進位正規化之後將會得到適合用在要將數字壓縮數字壓縮到區間 0,1 的情況 ivv10i是使得Max(|)1的最小整數 v3.010300005v29第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結30資料探勘中的資料形式資料探
19、勘中的資料形式資料形式資料形式(data forms)分為四種分為四種本文形式:內容或是文件,可看作是字串集合時間形式:存時間序列(time series),記錄隨時間 而變的資料交易形式:記錄交易的項目關聯形式:即關聯式資料庫中的表格31資料探勘技術適用之資料形式資料探勘技術適用之資料形式多層次資料一般化多層次資料一般化(multilevel data generalization)發掘之知識:資料庫中發掘較高層次的資料觀點(view),也就是發掘出所謂的概念階層(concept hierarchy)合適之資料形式:關聯形式分類法分類法(data classification)發掘之知識:在
20、訓練樣本中發掘分類規則,分類新資料合適之資料形式:關聯形式群集分析群集分析(cluster analysis)發掘之知識:根據資料樣本的樣式(pattern),將相似的資料樣本分成一個群集合適之資料形式:關聯形式32資料探勘技術適用之資料形式資料探勘技術適用之資料形式 關連法則探勘關連法則探勘(association rules mining)發掘之知識:龐大交易資料中找出交易的關連性合適之資料形式:交易形式資料 時間序列分析時間序列分析(time series analysis)發掘之知識:分析不同時間點的資料值變化,發掘規則合適之資料形式:時間形式資料 以樣式為基礎的相似搜尋以樣式為基礎的
21、相似搜尋(pattern-based similarity search)發掘之知識:預先設定目標樣式及差異容忍度,找出與目標樣式之相似度在差異容忍度範圍內的物件,可分成文字搜尋以及時間序列搜尋合適之資料形式:文字搜尋本文形式 時間序列時間形式33資料探勘與資料形式的關係資料探勘與資料形式的關係資料探勘技術多層次資料一般化分類法群集分析關連法則探勘時間序列分析以樣式為基礎的相似搜尋 關聯形式交易形式時間形式本文形式34資料型式的轉換資料型式的轉換 以購物網站所用的資料庫為例以購物網站所用的資料庫為例記錄顧客所買的每樣商品資料,包括:交易編號、會員帳號、商品編號、交易時間、交易數量、付款方式若分
22、析顧客同一天購買的商品間關連性,目前交易表內所存的資料 格式並無法直接套用關連法則探勘演算法,要經以下步驟轉化 Step 1-選取相關屬性選取相關屬性:選出會員帳號、商品編號、交易時間三個屬性。Step 2-精簡資料精簡資料:將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。Step 3-轉換資料形式轉換資料形式:依照會員帳號及交易日期將同一會員同一天的交易紀錄集合成一筆交易形式的資料。35第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換
23、資料型態轉換*資料模糊化資料模糊化*總結總結36資料探勘中的資料型態資料探勘中的資料型態 離散型離散型(discrete)預先定義的資料集合所組成集合中兩個值的距離無法直接計算 像布林型態(例如:性別)、列舉型態(例如:職業等)、或是字串型態(例如:地址)均屬於此類型連續型連續型(continuous)數字型態(例如:平均月收入)或是日期型態(例如:生日)均屬於此類型37資料探勘技術適用之資料型態資料探勘技術適用之資料型態(1)離散型離散型監督式學習法(supervised learning)分類法連續型連續型監督式學習法非監督式學習法(unsupervised learning)群集分析法3
24、8資料探勘技術適用之資料型態資料探勘技術適用之資料型態(2)特性型態特性型態資料型態範例資料型態範例 兩值間的距離兩值間的距離分類探勘分類探勘群集分析群集分析理解度理解度離散型離散型布林型態布林型態列舉型態列舉型態字串型態字串型態較難計算較難計算適合適合不適合不適合較高較高連續型連續型數字型態數字型態日期型態日期型態較易計算較易計算適合適合適合適合較低較低39資料型態的轉換資料型態的轉換離散型轉換成連續型資料離散型轉換成連續型資料Step1:用相似性矩陣定義值與值的距離或相似度Step2:再利用值與值的距離或是相似度把離散的 資料形態表示成連續的資料型態連續型轉換成離散型資料連續型轉換成離散型
25、資料Step1:利用群集分析法將數值型態資料分群Step2:接著將群集做合適名稱,再利用群集的名稱 代替群集內所包含的數值型資料轉換成離 散型資料40第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法 雜訊去除法雜訊去除法 資料正規化資料正規化 資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結41資料模糊化資料模糊化在二進位邏輯中只有兩個可能的值(成立在二進位邏輯中只有兩個可能的值(成立或不成立)或不成立)現實生活中的許多概念的表達,並非只有成立或是不成立這樣極端的值所能描述 不適合用來處理不確定性
26、(uncertainty)1965年年Zadeh提出模糊集合提出模糊集合(fuzzy sets)與與 模糊邏輯模糊邏輯(fuzzy logic)的概念的概念描述真實世界中許多不明確、含糊不清的事物 42模糊集合與模糊邏輯模糊集合與模糊邏輯模糊集合模糊集合(fuzzy sets)傳統集合:只有是與否兩種情況模糊集合:每個元素均有特定的歸屬程度 例如:160cm(0.0)170cm(0.5)175cm(0.75)180cm(1.0)模糊邏輯模糊邏輯(fuzzy logic)利用模糊定量詞(fuzzy quantifiers)來表達 大多數的、相當多、不很多模糊命題模糊命題(fuzzy propos
27、itions)湯姆很年輕或是明天可能下雨 43模糊資料探勘模糊資料探勘包括四個主要的處理程序:包括四個主要的處理程序:模糊化模糊化(fuzzification)模糊資料探勘模糊資料探勘(Fuzzy Data Mining)模糊推論模糊推論(fuzzy inference)解模糊化解模糊化(defuzzification)。44模糊化模糊化 主要是將所有語言變數的實際輸入值(如年齡、主要是將所有語言變數的實際輸入值(如年齡、年收入)透過語言值年收入)透過語言值(linguistic value)的模糊成員函數的模糊成員函數(membership function)求得模糊輸入值求得模糊輸入值(f
28、uzzy input)後,後,接著進行資料探勘接著進行資料探勘 找出大量資料當中的模糊規則,進行模糊推論,找出大量資料當中的模糊規則,進行模糊推論,得出模糊輸出值,最後再經由解模糊化將推論完得出模糊輸出值,最後再經由解模糊化將推論完 成所獲得的最終結果值轉換為另一個語言變數的語成所獲得的最終結果值轉換為另一個語言變數的語言值言值 45模糊化範例模糊化範例範例範例定義年齡成員函數,輸入數值“約翰是67歲”,取67歲平行於縱軸,分別與年輕和年老 函數曲線相交約翰年輕的程度為0.46,約翰年老的程度為0.92年老年青1.00.920.4600 67 100年齡程度46模糊資料探勘模糊資料探勘 模糊化
29、語句所呈現的知識規則稱為模糊規則模糊化語句所呈現的知識規則稱為模糊規則 模糊規則模糊規則 Rj 可表示可表示其中 xi(i=1,2,.,n)為輸入,y 為輸出;輸入 語意值 Aij 和輸出語意值 Bj(j=1,2,N)分別 是定義於 Xi 和 Y 的模糊集合 範例範例 IF 股價近期上漲AND 上漲持續時間短AND 成交量變小 THEN 未來股價會可能會持續上漲j njnjjjis BTHEN y is Ax is A x is A:IF xR and and 221147模糊推論模糊推論主要以近似推理主要以近似推理(approximate reasoning)的方的方式,根據知識庫中的規則進
30、行模糊推論得出結式,根據知識庫中的規則進行模糊推論得出結果果運算方式運算方式將模糊規則的前件部(antecedent part)各項輸入值與語意值 所得進行模糊匹配轉換成模糊集合後規則庫中有關的模糊邏輯運算子AND、OR、NOT,便等效於模糊集合的交集、聯集、補集運算,所得的結果稱為該條規則的觸發強度(firing strength)48模糊推論過程模糊推論過程觸發強度(firing strength):代表第j條規則的觸發強度,交集 代表AND運算 經由觸發強度可得出第j個模糊基底函數 niiARxxijj1)()(xx xxn 12 TjRRjNxxxjj()()()149模糊推論範例模糊
31、推論範例 STEP1 假設模糊規則如下:規則 1:IF X 是一個年輕又高的人 THEN X 適合玩籃球規則 2:IF X 是一個年老的人 THEN X 適宜慢跑 STEP2已知“約翰年輕的程度為 0.46”且“約翰年老的程度為 0.92”STEP3假設“約翰高的程度為 0.8”,則規則 1 中“約翰年輕又高”的程度為 Minimum(0.46,0.8)=0.46 而規則 2 中“約翰年老的”的程度為 0.92,故得到模糊輸出值為 輸出 1:量化單位 0.46 對應於玩籃球 輸出 2:量化單位 0.92 對應於慢跑50解模糊化解模糊化 將定義於 Y 的模糊集合 B 轉換為精確的輸出值 y Y,
32、才是真正系統的輸出“約翰適合慢跑”成為最後的輸出結果 加權平均解模糊化法(weighted average defuzzification)其中為模糊基底函數向量,為輸出語意值Bj的支點 yxxxjRjNRjNjj()():()11T51常用的模糊成員函數常用的模糊成員函數(1)S 函數是最常用的模糊成員函數之一函數是最常用的模糊成員函數之一 當輸入值小於或等於時,模糊函數值為0 輸入值等於時,模糊函數值為0.5 輸入值大於或等於時,模糊函數值為1。在這個函數中,(+)/2,亦即|-|=|-|52常用的模糊成員函數常用的模糊成員函數(2)通常一組模糊概念可用高、中、低三個模糊詞來表達53常用的
33、模糊成員函數常用的模糊成員函數(3)54常用的模糊成員函數常用的模糊成員函數(4)55範例範例 假設=0、=0.5 且=1.00 0.4 0.5 1.01.00.920.680.320LOW AVERAGE HIGH56範例說明範例說明令令x 為代入值(如溫度、長度、速度等數值),為代入值(如溫度、長度、速度等數值),而而、及及 為函數之參數為函數之參數當當 x 值值 LOW 程度為0 且 HIGH 的程度為 1.0。57總結總結本章介紹資料前置處理的相關問題,包括本章介紹資料前置處理的相關問題,包括資資料清理料清理、資料整合資料整合以及以及資料轉換資料轉換。資料前置處理的目的資料前置處理的目的提高資料探勘的品質提高資料探勘的品質資料精簡的目的資料精簡的目的(下一章)下一章)提高資料探勘的效率提高資料探勘的效率有高品質的資料,才有高品質的探勘結果有高品質的資料,才有高品質的探勘結果
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。