建构整合决策树与关连规则之挖矿架构及实证研究课件.ppt_163文库

资源描述

1、建構整合決策樹與關連規則建構整合決策樹與關連規則之資料挖礦架構及實證研究之資料挖礦架構及實證研究期末報告組別：三資四B H24932128 謝殿臣資四B H24932089 黃孝慈資四B H24932437 顏姿青作者：楊景晴2一一、緒論緒論_研究背景及重要性研究背景及重要性n隨著資訊科技的進步，企業所記錄或儲存的大量資料，對於不同階層的使用者來，資料代表著不同的意義與價值。n當大量的資料被企業儲存起來，如何發揮與創造出資料價值變成為將資料由負債轉換資產的成功關鍵。3一一、緒論緒論_研究背景及重要性研究背景及重要性決策結果解釋(視覺化技術)資料挖礦(資訊探索)資料探索(OLAP、統計分析、查詢

2、報表)資料倉儲、資料超市資料來源(資料庫系統、OLTP、檔案)資訊量資訊量價值性價值性決策者決策者企業主管企業主管資料資料分析者分析者資料庫資料庫管理者管理者圖圖1.1 1.1 企業中的資料階層企業中的資料階層4一一、緒論緒論_研究目的研究目的n目的：目的：事故排除n方法：方法：建構整合決策樹與關連規則之資料挖礦架構及實證研究。n實驗對象：實驗對象：以台灣電力公司與某半導體廠兩個不同產業之案例做為實證，已檢驗此資料挖礦架構之效度。5一一、緒論緒論_論文結構與研究流程論文結構與研究流程n1.2圖研究流程問題定義與架構問題定義與架構問題定義問題定義理論架構理論架構結果分析與討論結果分析與討論結論

3、結論專家訪談專家訪談實證研究一實證研究一台灣電力公司台灣電力公司實證研究二實證研究二某半導體大廠某半導體大廠6二二、文獻探討文獻探討_知識發現與資料挖礦知識發現與資料挖礦n表2.2 資料挖礦的定義n2.2圖資料挖礦的四個循環確認問題類型確認問題類型評估挖礦結果評估挖礦結果採用適當工具採用適當工具進行挖礦工作進行挖礦工作7二二、文獻探討文獻探討_知識發現與資料挖礦知識發現與資料挖礦n2.3圖資料挖礦過程的主要步驟問題定義問題定義獲取相關領域知識獲取相關領域知識選取資料選取資料資料前置處理資料前置處理分析與解釋分析與解釋報告與使用資訊報告與使用資訊8二二、文獻探討文獻探討_知識發現與資料挖礦知

4、識發現與資料挖礦n2.4圖資料挖礦專案流程步驟n2.5圖適用各產業之資料挖礦架構9二二、文獻探討文獻探討_資料挖礦模式與工具資料挖礦模式與工具n資料挖礦模式(Model)的六種形式資料挖礦模式資料挖礦模式(Model)分類分類迴歸迴歸時間序列時間序列分群分群關聯分析關聯分析順序挖掘順序挖掘監督式學習監督式學習非監督式學習非監督式學習10二二、文獻探討文獻探討_資料挖礦模式與工具資料挖礦模式與工具n2.6圖資料挖礦的技術資料挖礦資料挖礦(Data Mining)(Data Mining)資料庫技術資料庫技術(Database Technology)統計學統計學(Statistics)資訊科學

5、資訊科學(Information Science)機器學習機器學習(Machine Learning)視覺化技術視覺化技術(Visualization)其他領域研究其他領域研究11二二、文獻探討文獻探討_資料挖礦挖掘結果類型資料挖礦挖掘結果類型n資料挖礦所處理的問題類型q由上而下:利用現有的模型來建立資料，藉此來描述某一特定變數。q由下而上:不需要特別標註在某一變數或某一種値，而是試著尋找所有變數中是否有隱藏某種關係。分類(Classification)預測(Prediction)分群(Clustering)關聯規則分析(Association Rule)資料挖礦所處理的問題類型資料挖礦所處理

6、的問題類型由上而下由上而下由下而上由下而上 12二、文獻探討_資料挖礦工具n資料挖礦q屬於探索導向，不需事先假設以求驗證。q挖礦者需在一開始就釐清處理的工作目的為何？n資料挖礦工具q依照解決的問題類型與挖礦的目的而異。q通常不會只使用單一工具來進行挖掘工作。13二、文獻探討_資料挖礦工具n表2.3 挖礦問題類型及可使用的工具 (附註:表工具可使用之挖掘問題類型)問題類型工具分類Classification預測Prediction關聯分組Affinity Grouping聚集分析Clustering基本統計關聯規則/購物籃分析記憶基礎法遺傳演算法聚類偵測法鍊結分析法決策樹類神經網路14二、

7、文獻探討_資料挖礦工具n表2.4 資料挖掘工具的基本特性n介紹的演算法如下:q遺傳演算法q類神經網路qFuzzy Logicq記憶基礎理解q決策樹。n使用14種特性作介紹。15二、文獻探討_資料挖礦工具n表2.5資料挖礦工具間的比較n(附註:表資料挖礦工具能表現的能力)工具表現能力Regression/ANOVA類神經網路決策樹關聯規則模式使用上(Model free)對離群値的穩定性(Robust to Outliers)具體解釋能力(Physical intertation)連續變數處理能力(Continuous outputs)類別變數處理能力(Discrete outputs)16二

8、、文獻探討_關聯規則n是最常被應用的模式之一n關聯規則分析（association Rule Analysis）q從資料庫龐大的資料中，探索資料間欄位有趣的關係或相關性。q購物籃分析購物籃分析q如何從日積月累的交易資料中，以有效的方法找出商品間的關聯性，進而推斷消費者購買行為，創造無限商機。17二、文獻探討_關聯規則定義與說明n進行關聯規則挖礦時，作業流程的兩大步驟q找出所有的高頻項目組(Frequent Itemsets)n高頻項目組所出現的次數必須大於等於事先定義的最小支持度數目。n此步驟決定了整體作業的效能q從找到高頻項目組產生關聯規則n所產生的規則必須滿足決策者所給定支持度與信賴度的最

9、低門檻値，規則才成立。18二、文獻探討_關聯規則定義與說明n定義描述定義描述YXIYXitemset)t(Consequen Yitemset)t(Anteceden X YXY)then X(If YXTDITon)(Transacti T(Item),.,I21的子集合且皆為和為結果項目組為前提項目組則規則表示形式為有很大機會會發生情況下，生若產生的關聯規則為發的集合。是有交易紀錄。內物品項的集合，則是指一筆交易的集合。是所有相異物品項目miii19二二、文獻探討文獻探討_關聯規則定義與說明關聯規則定義與說明n關聯規則的成立q必須滿足決策者所訂定之最小支持度（Minmum Support

10、Threshold），和最小信賴度(Minmum Confidence Threshold)。n有意義的關聯規則q其支持度與信賴度必須大於或等於所訂定之最小門檻値。n增益指標q加入後，若增益大於1，則表示規則的預測結果比單純的亂數還要好，反之，則較差。20二、文獻探討_關聯規則定義與說明n若規則表示為X=Y，則n1.支持度（Support）q在規則(Rule)中，項目(Items)一起出現的交易暨路佔全部交易紀錄的百分比。q最小支持度控制了一個關聯規則必須涵蓋的最少資料數目，以篩選掉不顯著的規則，在實務上才有應用價値。q支持度代表的意義為X與Y一起出現的機率。q 2.1)()()(式YXPYX

11、Support21二、文獻探討_關聯規則定義與說明n若規則表示為X=Y，則n2.信賴度(Confidence)q代表此條規則的預測強度。qX發生之下發生Y結果的機率足以使得此關聯規則得以成立。q計算在前提項目X發生的情況下，發生結果Y的機率。q 2.2)()(Y)P(X)()(式XPXYPYXConfidence22二、文獻探討_關聯規則定義與說明n若規則表示為X=Y，則n3.增益(Lift or Improvement)q比較信賴度與結果項目Y單獨發生時之機率兩者間的大小。q關聯規則的條件機率比母體中原本發生的機率大才具有意義。q 2.3)()()()()()()(式YPXYPYPXPYXP

12、YXLift23二、文獻探討_關聯規則類型n關聯規則類型q1.以屬性質的形態為基礎n若挖礦規則焦點放在項目(Item)是否出現，則稱為布林値的關聯規則(Boolean Association Rule)。q2.以規則中涵蓋資料維度為基礎n若要挖礦的規則的項目或屬性著眼在單一維度時，稱之為單一維度關聯規則(Single Dimensional Association Rule)。q3.以規則集合中所涵蓋的抽象層級(Level of Abstraction)為基礎n規則屬性或是項目全為同一層級，則稱為單一層級關聯規則(Single-Level Association Rule)。24二、文獻探討_

13、關聯規則類型n2.7圖概念層級樹25二、文獻探討_關聯規則演算法與特性n表2.6 關聯規則演算法與特性演算法演算法作者作者/年代年代主要特色主要特色缺點缺點AprioriAgrawal(1994)反覆產生候選項目組，找出所有高頻項目組，進而推導規則。需反覆搜尋資料庫，花費I/O時間。PartitionSavasere(1995)將資料庫分區段，找出個區段之高頻項目組並集合之，再次搜尋資料庫找出真正高頻項目組。在各區段中會產生較多非相關項目組。DHPJong等人(1997)利用雜湊表(hash table)刪減不必要的候選項目組。一開始會花時間建立hash tableBSMWur等人(1999

14、)使用表格運算方式產生高頻項目組，改善Apriori多次掃描資料庫的缺點。需事先轉換運算表格。26二、文獻探討_關聯規則的應用n1.商業應用q藉由關聯規則方法了解顧客購買行為的資訊，協助零售業在進行商品擺放位置規畫。n2.工業應用q利用關聯規則發展一彈性且有項的巢式製造系統(Cellular Manufacturing System)，找出機台間的最佳組合，形成群組技術(Group Technology)。n3.醫學應用q利用關聯規則做藥品櫥位管理，或以過去看診暨路檢式藥品使用量與方法是否正確，並可分析個病例特徵間關聯程度。27二、文獻探討_決策樹n決策樹q監督式的特徵萃取演算法，廣泛應用來解

15、決分類(Classification)形態問題的工具，亦可做為探索與預測之用。q能夠將輸入變數依據某種規則或資料進行分類，並以樹枝狀方式表現類別之間由輸入變數所造成的區別，因此決策樹可對資料進行架構的分類。28二、文獻探討_決策樹n決策樹演算法的四大步驟q1.決策樹的切割(Splitting)n決策樹須將輸入的預測變數作分類，用以解釋目標變數變異的原因。q2.停止長樹(Stopping)n當無法找出任何分隔預測變數可以顯著降低下一節點的分散度，表示樹以生長完整(Complete)。29二、文獻探討_決策樹n決策樹演算法的四大步驟q3.評估(Assessment)n評估整個決策樹的錯分率(Mis

16、classification)或是評估每個節點的錯誤率(Error Rate)。n公式如下：2.5)()()()(:)Re()()()(:)(2式錯分率迴歸樹錯分率分類樹tptsTRTreegressiontptrTRTreetionClassifica30二、文獻探討_決策樹n決策樹演算法的四大步驟q4.決策樹的修剪n當決策樹所生長的層級越深時，子節點的資料比數就會越來越少，資料的代表性就越低，所產生的法則可能會造成過度學習(Over Fitting)而產生偏差，此時演算法中就應加修剪的步驟。n找出錯誤的分支給予修剪，如:CART、C4.5。n以測試資料(Testing Data)驗證、抽樣

17、方法來減少決策樹過度學習現象的發生。31二、文獻探討_決策樹n2.11圖修剪對錯誤率的影響32二、文獻探討_決策樹演算法n表2.7 常用決策樹演算法之比較演算法比較準則常見幾種決策樹的演算法CARTID3C4.5CHAID作者(年代)Briemen(1984)Quinlan(1986)Quinlin(1993)Hartigan(1975)處理資料形態離散、連續離散、連續離散、連續離散分裂樹二元樹不受限制不受限制不受限制連續形資料處理方式分2枝不受限制不受限制無法處理分枝準則Gini値Information GainGain_Ratio統計檢定(卡方分配)33二、文獻探討_決策樹於事故診斷的相

18、關研究n表2.8 應用決策樹於事故排出之相關研究研究者研究者實證對象實證對象使用的演算法使用的演算法Braha&Shmilovici(2003)半導體黃光區C4.5鄭人傑(2003)晶圓過站記綠與CP測試値Kruskal-Wallis、卡方交互影響檢測、變異降低分枝法則劉中光(2002)印刷電路板(PCB)決策樹結合SOM方法Raghavan(2002)良率、IC E-T Test parameter利用決策樹(CART、CHAID)Fan(2001)WAT、InLine Manufacturing data決策樹蔡智政(2001)晶圓批量製程管制(LPC)資料以CART決策樹分析LPC李培瑞

19、(2001)半導體WAT資料、CP資料結合人工類神經網路與決策樹林鼎浩(2000)半導體WAT與製造相關資料無母數Kruskal-Wallis統計檢定法34三、研究架構研究架構_問題定義問題定義n透過清楚的問題定義，瞭解問題類型包含哪些類別，才知道有哪些是屬於關鍵性的資料。35三、研究架構研究架構_資料選擇資料選擇n對領域知識及問題有了基本的認識之後，便是進行資料選擇的工作，應先對資料有進一步的瞭解，而非將資料盲目的丟進模式分析。n資料取得的方式如下表：檔案(File)好處是取得快速且閱讀容易，但是一旦建立好以後日後想再做資料處理就不太容易處理，如：Microsoft Excel。關聯資料庫(

20、Relational Databases)在關聯式資料庫中，透過查詢工具語言(SQL)可以蒐集到想要的資料。資料倉儲(Data Warehouse)資料量通常達數百Mega甚至上Giga，資料讀取方式是以切割的觀念，並非巷資料庫連結表格的方式處理36三、研究架構研究架構_資料前置處理資料前置處理n一般資料可分成質與量兩類，質的資料又分成空間性與時間性兩種，掘取欲分析的資料，並以去蕪存菁的方式轉化處理，才能確保分析資料的品質和分析結果的正確性。n資料前置處理的步驟需要不斷學習與經濟累積。n資料前置處理形式q資料清理q資料整合q資料轉換q資料化約。37三、研究架構研究架構_資料前置處理資料前置處理

21、n資料前置處理通常會採取的動作如下：n1.資料的基本分佈與檢視資料的基本分佈與檢視：對於資料的基本數理特性做醫界面性的檢視，分佈為常態、非常態、偏右、偏左等，瞭解資料的長相與分佈以便做後續處理。n2.偏離值的檢測與處理：偏離值的檢測與處理：對於散佈在正常分佈外的資料點作出處理，譬如直接刪除還是保留其資訊。38三、研究架構研究架構_資料前置處理資料前置處理n3.空白值與缺值的處理：空白值與缺值的處理：空白值與缺值所代表的意義並不相同，空白值為無法填入的資料；缺值則為資料的遺漏或錯誤。要刪除該筆資料或者以特殊方式補值，對於挖礦結果的解釋會有不同的影響，所以須對資料有近一步的了解。n4.

22、資料為度轉換：資料為度轉換：般而言高維度的資料計算複雜，所花費的時間較多，因此維度的降低亦是一種重要的課題。39三、研究架構研究架構_資料前置處理資料前置處理n5.資料格式化或分佈轉換：資料格式化或分佈轉換：資料處理時，資料的格式轉換與其所代表的相對意義都須瞭解。資料格式化和轉換亦會挖掘出另層意義的結果。般將資料數字分成四種不同的衡量尺度，名義尺度、順序尺度、區間尺度、比例尺度衡量。40三、研究架構研究架構_資料前置處理資料前置處理衡量的層次內容說明舉例名目尺度(Nominal Scale)又稱類別尺度，使用數字或標記區分物件或事件，此尺度並無大小之分。機台和貨批的編號等。順序尺度(Or

23、dinal Scale)又稱等級尺度，就事務之某特質好壞次序加以排列，有方向次序的比較，但沒有距離或獨特的原點。各種Bin值的分類、成績區間尺度(Interval Scale)以此尺度表現之變數，可區分類別及排出大小順序之外，可算出差異之大小。區間尺度中，零點的位置並非固定的，而且衡量的單位也是任意的。機台的溫度、量測的參數比例尺度(Ratio Scale)可說出名稱、排出順序、算出差距、亦可表示出比例的關係。比例尺度具有絕對零度的。化學藥劑使用量、重量41三、研究架構研究架構_目標與顯著變數的選取目標與顯著變數的選取n當目標變數與署醒確定後，接下來即確認預測變數。為避免加入對目標變數結果無顯

24、著影響的資料，可利用統計方法檢定預測變數與目標變數是否獨立。42三、研究架構研究架構_目標與顯著變數的選取目標與顯著變數的選取n變數衡量尺度對應之統計檢定方法：獨立變數(Independent Variable)相依變數(Dependent Variable)變數尺度名目尺度順序尺度區間尺度名目尺度Chi-SquareChi-SquareChi-Square順序尺度Spearman積差相關區間尺度T-testANOVAT-test、ANOVA、K-W(無母數方法)Pearson相關Regression43三、研究架構研究架構_目標與顯著變數的選取目標與顯著變數的選取nK-W法適用資料分配不符合

25、常態，或是已確定其為非常態分佈的情況下，此種檢驗對平均值差異敏感，可將此方法想像成一個對處理平均相等的檢驗。nK-W Test 其主要步驟如下：n1.先將觀測值依遞增順序，然後以取代觀測值。n2.令處理i知下秩的和。n3.求檢定統計量。nN為所有觀測值的數目44三、研究架構研究架構_ K-W法法n 是第i個處理下的觀測值數目，N是所有觀測值的數目總和KinjijNNRNSi121224)1(11in45三、研究架構研究架構_ K-W法法n(a)當k=3,時，可查詢K-T test檢定附 n 表，決定機率值P-value,如果P-value 則拒絕虛無假設，表示k可能不致。(b)當，則表

26、示這K個處理中某些處理會產生較其他處理為大的觀測值，可有效檢定在資料非常態分佈時不同處理是有造成差異的原因。5 ,21nn3nlevel-5in46三、研究架構研究架構_資料挖礦與決策樹資料挖礦與決策樹n資料挖礦q對於不同的資料賀企業問題，不同的模式和演算法將可能產出最好的結果。n決策樹q決策樹會根據目標變數，將資料進行適當的分類，並以樹枝狀架構呈現其分類結果。由分類結果亦可萃取出其分類的特徵規則。47三、研究架構研究架構_關聯規則關聯規則n關聯規則q關聯規則主要是從龐大資料中，探索資料間欄位的相關性，這些規則展示了屬性值。在大量資料中找出有趣的規則，以便幫助使用者制定決策的依據。n關聯規

27、則步驟q1.計算支持度q2.找出所有的高頻項目組q3.計算信賴度q4.找出候選規則q5.產生關聯規則q6.整理Y為目標變數之規則48三、研究架構研究架構_整合決策樹與關聯規則整合決策樹與關聯規則工具決策樹關聯規則優點明白指出最佳變數的能力產生易於了解的規則節省分類時的計算時間可處理連續與類別變數能完整的呈現各變數之影響，與變數組合能產生簡單明瞭的結論適用不同形式的原始資料計算模式簡單易懂缺點當類別太多時，資料量小，錯誤會增加的比較快。無法全面的看到各種變數的影響程度對有時間順序的資料，需要很多欲處理的工作結果多且凌亂，難已決定哪一變數較重要與適當的組合當問題變大時，運算量會成幾何級

28、數增加對於資料的個別資訊不甚重視容易剷除罕見變數49三、研究架構研究架構_解釋與評估解釋與評估n挖礦的結果對於工程師而言是否有提供幫助，整個挖掘的過程是否有效率，皆是透過結果解釋與討論重複循環，才可使得研究模式與結果更加完備。n若挖掘出的樣形式有價值的，之後便可將相同屬性、類別的規則儲存至規則庫，以建立自動化的製程監控的事故偵測與分類機制或是事故排除的決策支援系統。50四、實證研究n本章針對於兩種不同類型之產業資料，以前述所提之研究方法進行事故定位與事故診斷，以驗證整合決策樹與關聯規則資料挖礦架構之效度。51四、實證研究1_台灣電力配電事故定位n問題定義q配電事故為影響電力系統安全性、可靠性

29、以及供電品質的重要因素。但這樣一連串的試驗將對於線路造成損害，且也無法在短時間內使供電恢復，因此為提高供電品質，如何發展一個可以快速找到事故發生地點的方法，即成為電力公司所關心的議題。52四、實證研究1_台灣電力配電事故定位n資料選擇 q本研究所採用之資料為台電公司於 1995 1997 年間，針對臺北市區每次配電事故所記錄之配電事故紀錄表，共有 1649 筆資料，每筆配電事故資料皆記錄 23 項變數資料（如表 4.1）。q首先針對損壞部位資料屬性進行統計與圖表分析，以初步檢視資料之分佈樣型，其分佈如圖 4.1 所示。53四、實證研究1_台灣電力配電事故定位n資料前置處理 q本案例為推導事故之

30、損壞設備與特殊的事故資料樣型，以快速的找到事故發生地點為目標，因此損壞部位屬性為本研究模式之目標項。q最後本實證研究的輸入與目標屬性如表 4.2 所示。54四、實證研究1_台灣電力配電事故定位n目標與顯著變數的選取 q為推導事故之損壞設備與特殊的事故資料樣型，以快速的找到事故發生地點為目標，因此損壞部位為模式之目標變數，共 60 項變數值。由於輸入變數已刪除在找出事故地點之前並無法獲得資料，剩 8 個輸入變數，經由與工程師討論後，並不需刪減多餘變數，因此，直接將表 4.2 中的變數丟入模式中。55四、實證研究1_台灣電力配電事故定位n資料挖礦-以關聯規則推導顯著事故定位規則以關聯規則推導顯著事

31、故定位規則q經由資料的前置處理（圖 4.2）後，將資料格式轉換為能以挖礦模式建構分析的資料格式，設定參數後，推導顯著關聯規則。q研究設定最小支持度為 1.67，最小信賴度為 50，而增益則需大於 1，參數設定依據如下。n支持度n信賴度n增益56四、實證研究1_台灣電力配電事故定位n資料挖礦-以關聯規則推導顯著事故定位規則以關聯規則推導顯著事故定位規則q評估規則好壞的參數錯分率（FP），希望所推導之規則，皆在所能容忍之決策風險下，因在此加入 ROC Curve 的觀念，隨著不同的臨界值條件下，TP比率與 FP比率變化所構成的特徵曲線，如圖 4.3 所示。q關聯規則若有較大的 TP與較小的 FP，

32、則此規則是較佳的。q在此驗證中，錯分率小於 0.25。57四、實證研究1_台灣電力配電事故定位n資料挖礦-以關聯規則推導顯著事故定位規則以關聯規則推導顯著事故定位規則q由表 4.3 可知，關聯規則結果僅與高壓電纜、用戶設備、高壓電纜直線接頭以及熔絲鏈開關四種損壞設備有關。q在損壞設備為高壓電纜直線接頭與熔絲鏈開關所找出之規則，雖其信賴度只介於50%70%，但其規則之錯分率相當低，仍可容忍決策風險之內（0.25），因此，所找出之顯著規則是好的，可藉由此規則推斷出損壞部位。58四、實證研究1_台灣電力配電事故定位n資料挖礦-以決策樹挖掘顯著分類規則以決策樹挖掘顯著分類規則 q利用 780 筆資料進

33、行資料篩選，首先選出具有 13 筆資料以上之損壞部位，挑選過後僅剩下 650 筆資料以及 12 種損壞部位。以初步的簡化模式，形成決策樹的輸入資料。其資料處理過程如圖 4.4。q針對此 699 筆資料進行資料分佈之繪製，可得圖 4.5 之次數分佈圖。59四、實證研究1_台灣電力配電事故定位n資料挖礦-以決策樹挖掘顯著分類規則以決策樹挖掘顯著分類規則 q本研究決策樹所使用軟體為 Scenario，其演算法的結果類似 CHAID，若針對連續型的目標變數是以F-Test作為分枝方法，若針對間斷型的變數，其以Chi-Square Test 作為分枝準則。在長樹的過程設定上，枝葉中顯著目標變數值資料最少

34、需有 13 筆資料，且下一層的子集合純度一定要比上一層的母集合（Parentsubset）較高，且下一層子集合正確率（純度）需大於 50%，以使得枝葉具有絕對之顯著程度，以及最多有三層枝葉等。60四、實證研究1_台灣電力配電事故定位n解釋與評估 q決策樹提供影響目標變數之關鍵預測變數資訊，提供工程師快速且準確之事故定位資訊參考。決策樹的結果呈現上，會將影響最大的變數放在第一層，且顯示變數之間的相對關係，但這樣的作法會將其他變數之影響分散在較下層的枝葉中，而無法全面的看到各種變數的影響程度。q關聯規則之結果為針對整體資料而言，顯示各關聯規則之顯著性，其優點為能夠更完整的呈現各變數之影響，缺點則是

35、關聯規則之結果多且零亂。61四、實證研究1_台灣電力配電事故定位n解釋與評估q本案例之研究目的，在特定決策環境下推測配電事故的樣型，減少事故定位所需的時間，因此，在顯著關聯規則的篩選，加入 ROC 曲線中的錯分率概念，以期望每筆決策規則，都在工程師可容忍的風險下。62四、實證研究2_以某半導體廠工程資料為實證對象 n問題定義q半導體產品製造製程中，若有貨批出現了低良率的問題，這將會導致工廠的生產力下滑及製造成本的增加。因此，我們必須回溯相關的製造資料並尋找影響良率的原因，以儘快解決此製程問題。63四、實證研究2_以某半導體廠工程資料為實證對象n資料選擇 q積體電路的製程相當複雜，往往需經過數百

36、個不同的站別、流程才完成。且加上產品特性差異，因而製造程式等種種環境參數亦會有所不同。在生產製造的過程中，會累積大量產品經過電性測試或是物理特性監控量測的結果，以檢驗產品是否在規格內的資料。整個資料蒐集流程可見圖 4.6。64四、實證研究2_以某半導體廠工程資料為實證對象n資料選擇q資料類型大概可以分成幾大類：nWIP 類型（Wafer In Process）nMetrology 類型nDefect 類型nParametric 類型nBin Map類型nNon-Lot類型q大量的製程資料，記錄了晶圓在製造與測試的種種狀況。因此工程師便可以透過工程資料分析系統瞭解產品的生產測試狀況，以進行製程的

37、改善與事故診斷。65四、實證研究2_以某半導體廠工程資料為實證對象n資料前置處理 q工程資料主要可分為四部分：基本資料、歷史資料、CP 資料、WAT 資料。q經過前置處理後，可從圖 4.7 良率分佈圖中見，CP 良率值大致可區分成兩群，以 60 為分界值，將 CP 良率值大於等於 60 為高良率，小於 60 為低良率（與 k-mean 分群的結果相同，圖 4.8）。66四、實證研究2_以某半導體廠工程資料為實證對象n目標與顯著變數的選取q首先，利用 Kruskal-Wallis 檢定來檢測是否在屬性之各層級下，其目標變數晶片針測良率是否具有顯著的差異。在此所設定的顯著水準為0.05。Krusk

38、al-Wallis 檢定選取出 36 的顯著的候選屬性，由 P-value 由小排到大。67四、實證研究2_以某半導體廠工程資料為實證對象n資料挖礦-決策樹分析以萃取特徵決策樹分析以萃取特徵q將目標資料分成兩群，cluster 1 為所定義之高良率，cluster 2 為所定義之低良率，經由決策樹的樹枝狀架構及規則的表達方式進行資料分類描述這些群體的特徵，以達到特徵萃取的目的。q在輸入變數值方面，分成兩部份探討，一是輸入站別機台，一是輸入站別機台與過站時間，希望藉由決策樹找出影響良率的顯著機台或是某些時間區段出現了故障。68四、實證研究2_以某半導體廠工程資料為實證對象n資料挖礦-關聯規則挖掘

39、問題機台組合關聯規則挖掘問題機台組合 q關聯規則主要是從資料庫龐大資料中，找出發生頻率較高的組合，希望藉由此特性找出造成低良率之問題機台，幫助工程師趁早作出修機或是製程上之改善。69四、實證研究2_以某半導體廠工程資料為實證對象n解釋與評估 q目標變數是產品的良率，有時候不適合作為事故診斷。產品的良率是半導體製程上的綜合表現，在事故診斷上較不易發掘。電子特性參數所代表的數值較難去定義，因此，較無法直觀的評判出好批及壞批。q半導體的資料挖礦過程中，很少只利用單一模式就可以解決。用不同的資料挖礦工具挖掘製程資料所隱含的重要訊息，以此方法將結果篩選與過濾，可將問題的可能發生範圍縮小，找到導致問題的主

40、因，建立更完善的事故診斷的資料挖礦架構，提供工程師更多事故診斷上之線索。並非每次的挖掘過程都能刪除大多數可能性，必須將所有可能結果列出，再逐一與領域專家討論。70四、實證研究_案例討論台電半導體問題定義事故定位事故診斷資料特性資料欄位”少”預測變數&目標數事件”多”資料欄位”多”預測變數&目標數事件”少”方法應用關聯規則-可模擬出較多的決策環境規則。決策樹-可顯示較影響目標之關鍵預測變數，提供工程師在決策時所需參考。決策樹找出區分高低良率之最顯著關鍵站別和機台，再以關聯規則找出低良率資料發生頻率較高的機台與時間，結合決策樹之分類規則與顯著關聯規則後，找出發生問題的機台與時間點。71五、結論n從

41、台電配電事故資料，藉由架構流程萃取出事故資料中損壞設備與特殊的事故資料關聯的樣型，此中，加入 ROC曲線的概念，降低規則的決策風險，在特定決策環境下，推測配電事故的樣型，來減少事故定位所需的時間與正確性。n對於半導體廠來說，資料取得不是問題，但不能保證越能挖掘到有價值的資訊，針對半導體工程資料龐大且混雜之特性，傳統統計分析方法有其限制。本研究建構完整的分析步驟，其中包括利用 Kruskal-Wallis 檢定找出顯著屬性，縮小範圍，再以決策樹的分類規則和關聯規則高頻率的關聯規則描述造成低良率的特徵，透過綜合資訊的比較縮小診斷範圍，提供給工程師作為製程監控的依據，以快速排除事故提昇良率與未來事故診斷的參考。72THE END737475767778798081

展开阅读全文