商业智慧与探勘课件.ppt

上传人(卖家):三亚风情 文档编号:3587055 上传时间:2022-09-21 格式:PPT 页数:36 大小:963KB
下载 相关 举报
商业智慧与探勘课件.ppt_第1页
第1页 / 共36页
商业智慧与探勘课件.ppt_第2页
第2页 / 共36页
商业智慧与探勘课件.ppt_第3页
第3页 / 共36页
商业智慧与探勘课件.ppt_第4页
第4页 / 共36页
商业智慧与探勘课件.ppt_第5页
第5页 / 共36页
点击查看更多>>
资源描述

1、商業智慧與資料探勘資料探勘資料探勘的基本觀念 企業的焦點已從以往的資料整理與蒐集,轉變成如何有效的利用資料庫來進行資訊的獲取。資料探勘資料探勘就是放棄以往透過人類分析師主觀解讀的方式,而讓資料、數字自己說話,來呈現出最真實的一面 資料探勘的演進資料探勘的演進1800年統計學的萌芽1970年代專家系統及樣式識別(PR)理論的提出及系統實作1980年歸納法則式的機器學習理論及關聯式資料庫的發展1990年管理資訊系統(MIS)、及決策支援系統(DSS)陸續受到重視,專家學者開始探討如何有效地從資料庫中進行知識萃取(KDD)1995年資料探勘資料探勘名詞的出現 資料探勘的成功案例資料探勘的成功案例 I

2、BM公司的Advanced Scout系統,自動分析NBA敵我球隊及球員的數據,以協助教練作出最佳化的戰術組合 加州理工學院噴氣推進實驗室與天文學家合作開發的SKICAT系統,成功幫助天文科學家發現遙遠的星體 芬蘭赫爾辛基大學計算機科學系研發的TASA,則可預測網路通信中的異常現象等等 資料探勘的程序資料探勘的程序一一.決定企業探勘資料的目的決定企業探勘資料的目的二二.相關領域知識的瞭解相關領域知識的瞭解三三.資料收集與整合資料收集與整合四四.使用適當的資料探勘技術使用適當的資料探勘技術五五.結果分析結果分析六六.知識應用知識應用資料探勘的前置步驟資料探勘的前置步驟 形成資料倉儲(Data W

3、arehousing)資料選取資料清理(cleaning)資料精簡和轉換 資料探勘的技術資料探勘的技術1.資料方塊(Data Cube)2.分類分析(Classification)3.群集分析(Clustering Analysis)4.聯結(關連)分析(Association Rule Analysis)5.序列樣式相關分析(Sequential Pattern Analysis)6.鏈結分析(Link Analysis)7.時間序列相似性分析(Time Series Similarity Analysis)維繫客戶關係避免客戶流失穩定流動性高的客戶定義預測流動性高的客戶分類分析群集分析聯結

4、分析次序相關分析資料探勘技術交叉行銷新產品與市場開發產品合售產品創新資料探勘任務企業策略企業問題資料方塊資料方塊(一一)表表14-114-1客戶代號客戶代號 負債狀況負債狀況 信用歷史紀信用歷史紀錄錄 抵押品抵押品 月薪月薪 風險程度風險程度 1 1高高 壞壞 無無 2 2萬以下萬以下 高高 2 2高高 未知未知 無無 2-42-4萬萬 高高 3 3低低 未知未知 無無 2-42-4萬萬 中等中等 4 4低低 未知未知 無無 2 2萬以下萬以下 高高 5 5低低 未知未知 無無 超過超過4 4萬萬 低低 6 6低低 未知未知 適當適當 超過超過4 4萬萬 低低 7 7低低 壞壞 無無 2 2萬

5、以下萬以下 高高 8 8低低 壞壞 適當適當 超過超過4 4萬萬 中等中等 9 9低低 好好 無無 超過超過4 4萬萬 低低 1010高高 好好 適當適當 超過超過4 4萬萬 低低 1111高高 好好 無無 2 2萬以下萬以下 高高1212高高 好好 無無 2-42-4萬萬 中等中等 1313高高 好好 無無超過超過4 4萬萬 低低 1414高高 壞壞 無無2-42-4萬萬 高高 資料方塊資料方塊(二二)風險風險 負債負債 抵押品抵押品 顧客人數顧客人數 高高 高高 適當適當 0 0無無 4 4低低 適當適當 0 0無無 2 2中等中等 高高 適當適當 0 0無無 1 1低低 適當適當 1 1

6、無無 1 1低低 高高 適當適當 1 1無無 1 1低低 適當適當 1 1無無 2 2與範例對應之與範例對應之一維資料方塊一維資料方塊資料方塊資料方塊(三三)Data Cube(資料方塊法)資料方塊法的一般概念為具體化一些經常被要求的高成本計算尤其是計數(count)、總計(sum)、求平均數(average)、取最大值(max)等函數將具體化後的景觀儲存在一個資料方塊,可供決策支援、知識發現及其他應用做參考 分類分析分類分析(Classification)(Classification)資訊含量:)(log)()(21iinimpmpMI)21(log21)21(log21221I=1(bi

7、t)Heads showing with 75%)41(log41)43(log43222I)(811.0)2(41)415.0(43bitsex:an honest coin)145(log145)143(log143)146(log146)(222TableI=1.531Expected Information:)()(1iniiCICCPE使用月薪收入作為最上層辨識屬性,則C1=1,4,7,11,C2=2,3,12,14 C3=5,6,8,9,10,13(圖14-7)(146)(144)(144)(321CICICIincomeE65.014611440144=0.564gain(inc

8、ome)=I(Table)-E(income)=0.967gain(credit history)=0.266gain(debt)=0.581gain(collateral)=0.7563.3.群集分析群集分析 (K-MEANS ALGORITHM)1.任意選擇k個樣本資料,作為一開始k群集的中心點,一般稱為種子。2.對任一輸入資料,皆計算與此k個中心點的距離,並將此資料點指定到最近中心點的群集中,直到分派完畢。3.計算每一群集新的中心點(此平均值就不一定剛好對應到特定輸入資料點)。4.重新根據最短距離,指派資料到適當群集。5.如果重新分派群集的結果都沒變動,代表群集分析結束;否則重新執行第3

9、步驟。4.4.聯結分析聯結分析(Association Rules)(Association Rules)範例交易代號交易項目1柳橙汁,碳酸飲料,清潔用品2牛奶,柳橙汁,清潔用品3柳橙汁,洗衣精,碳酸飲料4碳酸飲料,底片5碳酸飲料,洋芋片聯結分析聯結分析Rule XY滿足XY=1.X和Y的所有交易項目的集合,必須出現在至少S%全部交易中minimum support2.在所有包含X之交易中,至少有C%包含Y的交易minimum confidence 聯結分析聯結分析演算法(一)1.1.計算出所有計算出所有1-itemset1-itemset的支持度,並找出的支持度,並找出1-1-itemset

10、sitemsets的支持率大於或等於最小支持率的集的支持率大於或等於最小支持率的集合合(稱之為稱之為large 1-itemsets)large 1-itemsets)若若large 1-large 1-itemsetsitemsets為空集合,則停止執行為空集合,則停止執行2.2.結合所有結合所有large 1-itemsetslarge 1-itemsets中的項目,形成多中的項目,形成多個候選的個候選的2-itemset 2-itemset,同樣地找出,同樣地找出2-itemset2-itemset的支持率大於或等於最小支持率的集合的支持率大於或等於最小支持率的集合(稱之稱之為為larg

11、e 2-itemsets)large 2-itemsets)若若large 2-itemsetslarge 2-itemsets為為空集合,則停止執行空集合,則停止執行3.對於large 2-itemsets中每一個2-itemset,列出所有可能的聯結法則,並且選擇其信賴度大於或等於最小信賴度的聯結法則4.結合large 2-itemsets中的項目,形成多個候選的3-itemset,若候選的3-itemset之任一個2-itemset子集合沒有出現在large 2-itemsets中,則刪除此候選的3-itemset 對於留下之後選的3-itemset,找出3-itemset的支持率大於或

12、等於最小支持率的集合(稱之為large 3-itemsets)若large 3-itemsets為空集合,則停止執行5.對於large 3-itemsets中的每一個3-itemset,列出所有可能的聯結法則,並且選擇其信賴度大或等於最小信賴度的聯結法則6.重複步驟4和5,產生large k-itemsets(k3)與大於或等於最小信賴度的聯結法則,直到large k-itemsets為空集合為止1-itemset(S%=30%)1-itemset支持率Large 1-itemset柳橙汁60%碳酸飲料80%清潔用品40%牛奶20%洗衣精20%底片20%洋芋片20%2-itemset2-ite

13、mset2-itemset支持率Large 2-itemset柳橙汁,碳酸飲料40%柳橙汁,清潔用品40%碳酸飲料,清潔用品20%1.柳橙汁 碳酸飲料 c=66.67%2.碳酸飲料 柳橙汁 c=50%3.柳橙汁 清潔用品 c=66.67%4.清潔用品 柳橙汁 c=100%*Large 3-itemset is empty5.序列樣式相關分析 聯結分析聯結分析以單一交易為單位序列樣式相關分析序列樣式相關分析將同一顧客所有交易視為一群有次序性之交易,並找出不同交易間交易項目之關聯性顧客交易資料庫顧客代號顧客代號顧客交易次序顧客交易次序(Sequence)(Sequence)1 2 3 4 5 範例

14、資料(A)(A)180%(B)240%(E)360%(G)480%(E,G)560%(H)640%(J)760%顧客代號表示1 21,(3,4,),6,7 3144 5 支持率35%次序相關分析次序相關分析(一一)利用large k-sequence 來產生large(k+1)sequence =7 6=42,其中支持率35%計有 p72p7240%L2次序相關分析次序相關分析(二二)再從其中選擇二個前(k-1)sequence相同之k sequence結合成(K+1)sequence 且任一子k sequence 並且出現在large set,則(k+1)sequence不能成立次序相關分析次序相關分析(三三)40%L3次序相關分析次序相關分析(四四)40%L4次序相關分析次序相關分析之結果確認之結果確認最大化確定1.聯集所有large set L2 U L3 U L42.還原編號3.從最大長度開始,針對每個K sequence,刪除其子次序4.反覆上步驟,直到k=2為止最後結果只剩 即 及 即

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(商业智慧与探勘课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|