ImageVerifierCode 换一换
格式:PPT , 页数:92 ,大小:2.42MB ,
文档编号:3025773      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3025773.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(资料库管理系统课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

资料库管理系统课件.ppt

1、第六章:商業智慧的基礎:資料庫與資訊管理祝天雄 博士100.07.2課程大綱q 前言o 學習目標o 在傳統檔案環境下的資料組織o 使用資料庫管理資料o 使用資料庫改善企業績效與決策制訂o 管理資訊資源o 結論3前言本章討論:o 如何組織企業的資料員工容易取得及使用資料哪些管理及組織上的挑戰4學習目標o 描述基本檔案組織的概念與傳統檔案環境中管理資訊資源的問題。o 描述資料庫管理系統的原則與關連式資料庫的特性。o 應用重要的資料庫設計原則。o 討論可從資料庫中提供資訊以加強營運績效與決策制訂的工具與技術。o 說明資訊政策、資料管理與資料品質保證,在組織化資料資源管理中的角色。5惠普能從資料倉儲中

2、挖掘成功嗎?o 惠普(Hewlett-Packard, HP)是世界上最大的資訊科技廠商之一,包含有個人電腦、伺服器電腦、印表機與顧問服務。雖然該公司有相當多的系統專業技術可以銷售給其他公司,但在資訊科技上仍有苦惱的問題。o HP有很多資料,但是它們被儲存於跨越部門、事業單位與地區的多個應用軟體與資料儲存體中。HP中眾多的系統與應用軟體無法提供給該公司完整與一致性的企業營運狀況。執行長Mark Hurd的困難在於如何收集與分析分散於企業不同地方的一致性與即時資料。開場故事6o 有些系統記錄產品的銷售與價格,而其他的則是記錄地區性的銷售資訊,常用的財務資訊如評估獲利記錄的毛利是由各個事業部份別計

3、算。公司的管理者是從整個公司中超過750個分散的資料來源中得到資訊。缺乏資料一致性降低了銷售與獲利,彙總從不同系統來的營運相關資訊需要花費一個星期,因此管理者必須根據相對上比較舊的資料來制定決策。o 看似簡單的問題,如公司在不同的事業部上花費了多少行銷費用,卻是相當難以回答的。7o 沒有對企業一致性的觀點,高階主管很難做出決策,如分配給某個系統應有的銷售與服務團隊的規模。管理者明顯需要更好的資訊。o HP的管理者決定的解決方案是建立一個資料倉儲,具有全球化單一整體事業的可分享資訊資料庫,可提供統一與正確的營運觀點。資料倉儲取代了17個分散的資料庫技術,並整合了14,000個正在使用的資料庫,讓

4、HP的員工可以即時取得資料而沒有部門與地區隔閡。8o 在2005年11月,HP的資訊長Randy Mott成立了一個團隊以建立整體企業資料庫的模型,作為資料倉儲的基礎。他們發展了一個方法可以建立整個公司的資料模型,並確保資料可以保持最新、企業整體一致性及完整性。o HP為資料倉儲發展自己專屬的平台,包括了整合伺服器群、儲存體、作業系統、資料庫管理系統與查詢和報表軟體,資料倉儲中所有的事件都做了最佳化。HP的資料倉儲平台證明很成功,讓該公司決定將它的資料倉儲設備產品以Neoview的名稱銷售給其他公司。9o 至 本 書 完 成 時 , H P 的 資 料 倉 儲 含 有 超 過400TB(ter

5、abytes)的資料,提供給5萬名HP的員工使用,所有HP的財務資料都可透過資料倉儲取得。HP的努力顯然有所回收,導入資料倉儲後,該公司現在可以在三個月的會計期間內的財務資料庫中執行比過去多12倍數量的資料查詢、更新與其他交易(一個月的交易尖峰約在500億筆)。HP可以根據不同媒體與客戶類別、全世界或各個國家,追蹤所有事業部門於行銷上的花費。該公司在以前無法做到這類事情。這類資訊幫助HP的管理者在要花費於何處以獲得最大好處上制定更好的決策。10惠普能從資料倉儲中挖掘成功嗎?11開場故事討論o 企業如何儲存、組織及管理資料,對於企業績效有重大之影響。o HP的經驗說明了資料管理與資料庫系統對企業

6、的重要性。過去該公司無法充分瞭解企業的營運狀況,或是即時制定策略,因為它的資料是重複、不一致且分散在許多不同系統與應用之中。企業如何儲存、組織與管理他們的資料,對於組織約有效性會有巨大的影響。o 僅用適當的技術是不夠的,必須以標準格式校正與重整資料,並建立與企業夥伴使用新資料庫資訊的規則。126.1在傳統檔案環境下的資料組織電腦系統以層級式處理資料,開始時是位元,代表 0 或 1。位元可以被組成位元組,代表一個字元、數字或符號。位元組可以被組成欄位,而相關欄位則被組成記錄。相關記錄被收集成檔案。相關檔案被組織成資料庫。o 檔案組織名稱與概念13 位元:位元:電腦可處理的最小單位資料;電腦可處理

7、的最小單位資料; 二進位數位二進位數位 (0,1) 位元組:位元組:一組位元,代表單一字元一組位元,代表單一字元 欄位:欄位: 一組文字,或一套完整的數字一組文字,或一套完整的數字 記錄:記錄: 一組相關欄位一組相關欄位 檔案:檔案: 一組相同型態的記錄一組相同型態的記錄 在傳統檔案環境下的資料組織在傳統檔案環境下的資料組織 14 資料庫:資料庫:一組相關檔案一組相關檔案 實體:實體: 一個人、地、物或事件,是我們用以保存資訊一個人、地、物或事件,是我們用以保存資訊的基本單位的基本單位 屬性:屬性:描述一特殊實體的特徵或性質描述一特殊實體的特徵或性質 鍵值欄位:鍵值欄位:識別該筆記錄,以便該記

8、錄可以被檢索、識別該筆記錄,以便該記錄可以被檢索、更新或分類更新或分類 在傳統檔案環境下的資料組織在傳統檔案環境下的資料組織 15實體與屬性實體與屬性 在傳統檔案環境下的資料組織在傳統檔案環境下的資料組織 圖圖 7-216o 傳統檔案環境的問題6.1在傳統檔案環境下的資料組織使用傳統方法處理檔案,鼓勵公司內每個工作部門發展特殊的應用系統與檔案。各應用系統需要一個獨特的資料檔案,類似主檔的子集合。主檔的子集合會造成資料重複與不一致性、流程缺乏彈性和浪費儲存資源。17o 資料重複與不一致性n 資料重複 (data redundancy) 代表多個檔案中有重複的資料,而這些相同的資料存放在超過一個地

9、方與位置。n 資料重複不但浪費儲存資源,並且當相同資料的屬性出現不同的值則會導致資料不一致性 (data inconsistency)。6.1在傳統檔案環境下的資料組織18o 程式資料相互依賴n程式資料相互依賴 (program-data dependence) 意指檔案中的資料和更新與維護這些檔案的程式之間有緊密的關係,使得修改程式必須同時修改資料。o 欠缺彈性n對於偶發性的資訊需求,系統雖有資料,但是檢索的費用太昂貴。o 安全性低n因為幾乎沒有控制或管理資料,存取與散佈資訊根本無法控制。o 缺乏資料共享與實用性n因為資訊存放在不同檔案與不同部門中,也不容易建立相互關係,要做到資訊共享或及時

10、存取是幾乎不可能的事。6.1在傳統檔案環境下的資料組織19 傳統檔案處理傳統檔案處理 在傳統檔案環境下的資料組織在傳統檔案環境下的資料組織 圖圖 7-320o 資料庫管理系統(database management system, DBMS) n 是一套軟體,可以讓組織用來集中資料、有效地管理資料,並可由應用程式存取資料。n 資料庫管理軟體可以讓實體資料庫依使用者需要而表現出不同的邏輯觀點。6.2使用資料庫管理資料21一個單一的人力資源資料庫,根據使用者的資訊需求,提供不同觀點的資料。這裡描述二個可能的觀點,一個是對社福人員有用,而另一個則對公司的薪資部門人員有用。22o 資料庫管理系統資料庫

11、管理系統n 資料庫管理系統如何解決傳統檔案環境的問題o 藉由消除個別檔案中重複的資料,DBMS 可以減少資料的重複與不一致性。n 關連式資料庫管理系統o 現代的 DBMS使用不同的資料庫模型來記錄實體、屬性與關係。6.2使用資料庫管理資料23現代資料庫環境現代資料庫環境 使用資料庫管理資料使用資料庫管理資料 圖圖 7-424資料庫管理系統有三個部分資料庫管理系統有三個部分 資料定義語言:資料定義語言:程式設計師用以確定資料庫的內容和程式設計師用以確定資料庫的內容和架構架構 資料操作語言:資料操作語言:操作資料庫中的資料操作資料庫中的資料 資料字典:資料字典:用以儲存資料元件的定義與資料特性用以

12、儲存資料元件的定義與資料特性使用資料庫管理資料使用資料庫管理資料 25資料字典報表的範例資料字典報表的範例 使用資料庫管理資料使用資料庫管理資料 圖圖 7-526o 資料庫管理系統資料庫管理系統n 階層式與網路式資料庫管理系統o 階層式資料庫管理系統(hierarchical DBMS) 被用來描述一對多關係的模型o 網路式資料庫管理系統(network DBMS) 則描述了多對多的關係的模型。n 物件導向資料庫o 物件導向資料庫管理系統(object-oriented DBMS, OODBMS) 像物件般儲存資料和處理程序,卻可以自動取回與共享。6.2使用資料庫管理資料27資料庫的種類:資料

13、庫的種類: 關聯式資料庫管理系統關聯式資料庫管理系統 階層式與網路式資料庫管理系統階層式與網路式資料庫管理系統 物件導向資料庫物件導向資料庫 使用資料庫管理資料使用資料庫管理資料 28關聯式資料庫管理系統:關聯式資料庫管理系統: 資料庫中所有資料係以簡單的二維表格來表示資料庫中所有資料係以簡單的二維表格來表示 只要表格中有共同的資料單元,就可使任一檔案或表只要表格中有共同的資料單元,就可使任一檔案或表格的資料與另一檔案或表格的資料互相發生關係格的資料與另一檔案或表格的資料互相發生關係 案例:案例:DB2,Oracle, MS SQL Server使用資料庫管理資料使用資料庫管理資料 29關連式

14、資料庫以二維表格的形式組織資料。這裡描述的是供應商與零件實體的表格。顯示它們如何代表每個實體與屬性。供應商編號是供應商表格的主鍵值,也是零件表格的外鍵值。30o 資料庫管理系統資料庫管理系統n 關連式資料庫的運作o 關連式資料庫表格可以簡單的被合併,從任二個表格中分享一個相同的資料元素,以提供使用者所需的資料。6.2使用資料庫管理資料關聯式資料管理系統的三項基本作業選擇、擷取與合併作業可以整合二個不同表格中的資料,並只顯示被選取的屬性。31 關聯式資料模型關聯式資料模型 使用資料庫管理資料使用資料庫管理資料 圖圖 7-632 選擇:選擇:選擇作業建立一個子集,由所有符合宣告要件選擇作業建立一個

15、子集,由所有符合宣告要件的檔案記錄組成的檔案記錄組成 聯合:聯合:聯合作業組合關聯式表格,為使用者提供此個聯合作業組合關聯式表格,為使用者提供此個別表格更多的資訊別表格更多的資訊 擷取:擷取:擷取作業將建立一個子集,由表格的行組成,擷取作業將建立一個子集,由表格的行組成,允許使用者建立只包含需求資訊的新表格允許使用者建立只包含需求資訊的新表格 使用資料庫管理資料使用資料庫管理資料 33關聯式資料管理系統的三項基本作業關聯式資料管理系統的三項基本作業 使用資料庫管理資料使用資料庫管理資料 圖圖 7-734 用樹狀結構來呈現資料用樹狀結構來呈現資料 用來描述一對多、父子關係的模型用來描述一對多、父

16、子關係的模型 大型的既有系統多採用此方法大型的既有系統多採用此方法階層式資料庫管理系統:階層式資料庫管理系統:使用資料庫管理資料使用資料庫管理資料 35人力資源系統的階層式資料庫人力資源系統的階層式資料庫 使用資料庫管理資料使用資料庫管理資料 圖圖 7-836 邏輯上描述了多對多的關係邏輯上描述了多對多的關係 網路式資料庫管理系統網路式資料庫管理系統 : 使用資料庫管理資料使用資料庫管理資料 37網路式資料模型網路式資料模型 使用資料庫管理資料使用資料庫管理資料 圖圖 7-938 過時的產品過時的產品 比起關聯式比起關聯式 DBMS,階層式與網路式,階層式與網路式 DBMS較缺乏彈性較缺乏彈性

17、 不支援偶發性或類似英文語句的資訊查詢不支援偶發性或類似英文語句的資訊查詢 缺點:缺點: 使用資料庫管理資料使用資料庫管理資料 39 物件導向資料庫管理系統:物件導向資料庫管理系統:像物件般儲存資料和處理像物件般儲存資料和處理程序,可以自動取回與共享程序,可以自動取回與共享 物件關聯式資料庫管理系統:物件關聯式資料庫管理系統:可提供物件導向與關聯可提供物件導向與關聯式式 DBMS 的功能的功能 物件導向資料庫:物件導向資料庫:使用資料庫管理資料使用資料庫管理資料 40o 資料庫管理系統的功能n DBMS 包括了組織、管理與使用資料庫中資料的功能與工具。最重要的是資料定義功能、資料字典與資料操作

18、功能。n 查詢與報表o 資料庫設計n 要建立一個資料庫,需要了解資料間的關係、資料庫中維護的資料種類、資料如何被使用,以及需要改變的組織如何從整體公司的觀點來管理資料。n 正規化與實體關係圖n 分散式資料庫6.2使用資料庫管理資料41 概念設計:概念設計:依企業觀點來建立資料庫的抽象模型依企業觀點來建立資料庫的抽象模型 實體設計:實體設計:表示資料庫如何實際安排於直接存取的儲表示資料庫如何實際安排於直接存取的儲存設備存設備 建立資料庫環境建立資料庫環境 設計資料庫:設計資料庫: 42 實體關係圖:實體關係圖:將資料庫中各種實體間的關係文件化的方法將資料庫中各種實體間的關係文件化的方法 正規化:

19、正規化:由複雜的資料組合來建立小、穩定、靈活與合適由複雜的資料組合來建立小、穩定、靈活與合適之資料結構過程之資料結構過程 建立資料庫環境建立資料庫環境 設計資料庫設計資料庫 : (續續) 4344這個圖形表示訂單、訂單_項目、零件與供應商等實體之間的關係45中央集中式資料庫:中央集中式資料庫: 它利用一個或多個它利用一個或多個CPU的主從架構網路的主從架構網路 將所有相關的資料放再同一地點會有其優缺點將所有相關的資料放再同一地點會有其優缺點 中央集中環境的安全性較高,風險性較低中央集中環境的安全性較高,風險性較低 如果資料需求係高度分散,則非集中式的設計將可降低成本如果資料需求係高度分散,則非

20、集中式的設計將可降低成本及增加彈性及增加彈性 建立資料庫環境建立資料庫環境 46 資料庫的分散方法可用分割或複製資料庫的分散方法可用分割或複製 已劃分資料庫:已劃分資料庫:資料庫分成片段或區域。例如,客戶資料庫分成片段或區域。例如,客戶資料庫被分成東區客戶與西區客戶,分別由不同區域資料庫被分成東區客戶與西區客戶,分別由不同區域的資料庫來管理的資料庫來管理分散式資料庫分散式資料庫 :建立資料庫環境建立資料庫環境 47 複製資料庫:複製資料庫:資料庫完全複製於二個以上的地方。這資料庫完全複製於二個以上的地方。這些不同的資料庫利用下班時間做批次的同步更新些不同的資料庫利用下班時間做批次的同步更新 無

21、論採取哪一種方法,資料管理員及公司主管都必須無論採取哪一種方法,資料管理員及公司主管都必須了解儲存於不同資料庫的資料如何協調,另非集中式了解儲存於不同資料庫的資料如何協調,另非集中式可能會影響商業流程可能會影響商業流程建立資料庫環境建立資料庫環境 48分散式資料庫有不同的方式。中央資料庫可以被劃分如(a),每一遠端處理器都有部分的資料庫可服務其區域性需求。中央資料庫也可以於遠端被複製如(b)。6.3使用資料庫改善企業績效與決策制訂o 運用資料庫以改善企業績效與決策制訂的技術:u資料倉儲u線上分析處理4950資料倉儲資料倉儲 : 提供報表與查詢工具提供報表與查詢工具 儲存目前與歷史資料儲存目前與

22、歷史資料 結合資料做管理報告與分析之用結合資料做管理報告與分析之用資料庫的發展趨勢資料庫的發展趨勢 51線上分析處理線上分析處理 (OLAP): 多維資料分析多維資料分析 從多維觀點操作及分析大量資料的能力從多維觀點操作及分析大量資料的能力資料庫的發展趨勢資料庫的發展趨勢 52o 資料倉儲(data warehouse)n 是儲存目前與過去的資料中,對公司管理者決策有潛在效益部分的資料庫。6.3使用資料庫改善企業績效與決策制訂資料倉儲由組織的操作系統中篩選現在與歷史資料。這些資料與外部之資料重組成中央資料庫,供管理者分析與報告之用。資訊目錄提供使用者資料倉儲中可用資料的資訊。53o 資料倉儲資

23、料倉儲(data warehouse)n 資料超市o 公司除了可以建立企業整體資料倉儲來服務全體組織,也可以建立一種較小、分散的倉儲稱為資料超市。o 資料超市 (data mart) 是資料倉儲的子集,其中存著已彙總或高度針對組織特定部分的資料被儲存在不同的資料庫中,提供給特定的使用者使用。6.3使用資料庫改善企業績效與決策制訂54o 商業智慧、多維度資料分析與資料挖掘n 商業智慧 (business intelligence, BI),可以整合、分析並提供大量資料的取得,協助使用者制訂更好的企業決策。n 商業智慧的主要工具包括資料庫查詢與報表的軟體、多維度資料分析的工具(線上分析處理)與資料

24、挖掘。6.3使用資料庫改善企業績效與決策制訂55一系列分析工具使用資料庫所存的資料,找出資料的類型與內涵,幫助管理者與員工制訂更好決策來改善組織績效。56o 商業智慧、多維度資料分析與資料挖掘商業智慧、多維度資料分析與資料挖掘n 線上分析處理o 線上分析處理 (online analytical processing,OLAP)。OLAP 支援多維度資料分析,可以讓使用者利用多維度從不同方面來檢視相同的資料。6.3使用資料庫改善企業績效與決策制訂顯示產品與地區的關係。如果你將立方體旋轉 90 度,表現的層面就是產品實際銷售量與產品計畫銷售量。如果你將立方體再旋轉 90度,你會看到地區實際銷售量

25、與計畫銷售量,其他觀點也可以如此表達。57o 商業智慧、多維度資料分析與資料挖掘商業智慧、多維度資料分析與資料挖掘n 資料挖掘o 資料挖掘 (data mining)較傾向發現導向。它在公司的大型資料庫尋找資料的隱藏型態和關係,依據推論規則來預測未來的行為,並提供 OLAP 無法獲得的深入資料。o 資料挖掘所產生的資訊型態有關連、順序、分類、群集和預測。6.3使用資料庫改善企業績效與決策制訂58知識發現的過程資料前置處理資料前置處理資料倉儲建立資料倉儲建立資料探勘資料探勘樣式評估樣式評估結果展示結果展示知識庫知識庫使用者使用者多維度資料庫多維度資料庫資料庫資料庫原始資料原始資料資料收集資料收集

26、資料庫資料庫59Data Mining選取 轉換 探勘(型態) 解釋評估60資料探勘的模型 o主要有以下四種n 資料分類 (data classification)n 資料關聯 (data association)n 資料群集 (data clustering) n 順序樣式探勘 (sequential pattern mining)資料挖掘技術分類維繫客戶關係維繫客戶關係避免客戶流失避免客戶流失穩定流動性穩定流動性高的客戶高的客戶產品創新產品創新定義預測流定義預測流動性高之客戶動性高之客戶交叉行銷交叉行銷新產品與新產品與市場開發市場開發產品合售產品合售分類分析分類分析群集分析群集分析聯結分析

27、聯結分析次序相關分析次序相關分析決定資料挖掘技術之範例決定資料挖掘技術之範例企業策略企業策略資料挖掘任務資料挖掘任務資料挖掘技術資料挖掘技術62維繫客戶關係維繫客戶關係避免客戶流失避免客戶流失穩定流動性穩定流動性高的客戶高的客戶產品創新產品創新定義預測流定義預測流動性高之客戶動性高之客戶交叉行銷交叉行銷新產品與新產品與市場開發市場開發產品合售產品合售次序相關分析次序相關分析63資料關聯o 資料關聯n 探討資料項目間的關係,找出某一事件或資料中會同時出現的項目n 也叫做關聯法則探勘o 適用領域n 購物籃分析(market basket analyses)o 幫助零售業者瞭解客戶的消費行為o 範例

28、n 如果顧客買NB,同時購買隨身碟的機率是80%n 如果買全麥麵包及低脂優酪乳,那麼顧客同時也買低脂牛奶的機率是85%資料挖掘的分類技術o 分類的方法有兩種,一種是根據過去已知類別資料來找出分類模型,再據以預測未來。這種由已知類別的歷史資料來建立分類模型的方法稱為歸納法。又稱為監督式學習或歸納學習。根據未知的類別資料來找出它們之間的相似性,並將相似的案例歸成同類。集群分析,也稱為非監督式學習。資料挖掘的分類技術o 關聯模式可以幫助超級市場規劃如何擺設貨品,將顧客可能會同時購買的商品放在附近,提高銷售量。資料的型態可以幫助企業做預測,例如,企業可以從一份郵寄名單中,預測出哪些客戶最可能對企業的促

29、銷活動做出回應。o 歸納分類o 群集分析群集分析o 有時我們會有一批資料,但是並不清楚其類別為何,因此,無法用歸納分析法。一個百貨公司想知道客戶的生活型態有哪幾類,此時便需要運用群集分析,將生活型態相似的客戶歸為同一族群。時間相關的資料挖掘技術n 順序型態分析可定義如下:順序型態分析是在一個交易資料庫中,找出所有滿足最小支持率且是最大的順序型態(或簡稱順序),每個順序代表一個順序型態。68文字挖掘與網路挖掘o 文 字 知 識 挖 掘 ( K n o w l e d g e Discovery in Text, KDT),可稱為文字探勘(Text Mining)或文件探勘(Document Mi

30、ning)o 文字探勘(Text Mining),它是編輯、組織及分析大量文件的過程,以提供特定使用者(如:決策者,分析師)特定的資訊(如:摘要、關鍵字),及發現某些特定資訊的特性與之間的關聯(Dan Sullivan, 2001)69文字探勘o 文 字 探 勘 整 合 傳 統 資 訊 檢 索 技 術(Information Retrieval),包括關鍵字擷取、全文檢索、摘要自動萃取等,讓使用者從文件資料中找出隱含而有價值的資訊(Yuen-Hsien, 2005)網路挖掘o 發掘來自全球資訊網的有用類型與資訊:u 內容挖掘u 結構挖掘u 網路使用挖掘7071o 資料庫與全球資訊網n 使用全球

31、資訊網來存取組織內部資料庫有一些優點:第一,網路瀏覽器軟體比專屬的查詢工具容易使用。第二,全球資訊網介面需要很少或不需要對內部資料庫做修改。72全球資訊網與超媒體資料庫:全球資訊網與超媒體資料庫: 將資料組成如網路的節點將資料組成如網路的節點 以使用者指定的形式連結以使用者指定的形式連結 節點可以包含有文字、圖形、聲音、影片或可執行的節點可以包含有文字、圖形、聲音、影片或可執行的程式程式資料庫的發展趨勢資料庫的發展趨勢 73超媒體資料庫超媒體資料庫 資料庫的發展趨勢資料庫的發展趨勢 圖圖 7-1674資料庫伺服器資料庫伺服器 : 負責使用資料庫管理軟體來處理負責使用資料庫管理軟體來處理SQL

32、指令和執行資料指令和執行資料庫管理任務的一台位於主從式環境的電腦庫管理任務的一台位於主從式環境的電腦應用伺服器應用伺服器 : 可以處理所有應用程式作業的一種軟體程式可以處理所有應用程式作業的一種軟體程式資料庫的發展趨勢資料庫的發展趨勢 75o 資料庫與全球資訊網使用者可以利用桌上型電腦與網路瀏覽器軟體,透過全球資訊網使用組織內部資料庫。76組織視窗:國稅局用資料倉儲找出逃漏稅o 國稅局(Internal Revenue Service, lRS)是美國政府機關,徵收稅金與執行稅法。從I860年代創立以來,國稅局以美國人口成長的速度在成長。在2006年,國稅局處理近1.34億件個人納稅申報,稅收

33、總額為1.2兆美元。不令人意外的是任何資訊系統的無效率會導致對聯邦政府的大量稅收損失。o 對國稅局來說是幸運,但對某些眛著良心的美國人是不幸的,國稅局與Sybase已經合作導入資訊倉儲,被稱為稅收資料倉儲(Compliance Data Warehouse, CDW),可以大幅改善效率與增加國稅局對拖欠稅款者徵收的金額。77o 國稅局需要資料倉儲以組織累積的資訊,包括了納稅人的個人資料與納稅檔案。這些資料儲存於設計為有效率處理所得稅申報表格的大型系統中,並被組織成多種不同的格式,包括了階層式大型主機資料庫、Oracle關聯式資料庫與非資料庫的文字檔案。這些老式階層式資料庫與文字檔案的資料幾乎不

34、可能查詢或分析,也不容易與關聯式資料整合。o CDW可以允許用高彈性的查詢這個世界上少數最大的資料庫之一,它存有七年內的個人與企業納稅資料。每一年有4TB的個人與企業納稅資料被載入這個系統。78o 這個資料倉儲的資料庫是關聯式的,有數十億的資料列與超過200個欄位,全部都與相關的清單與附件建立了複雜的連結。當資料一進入就以標準定義與格式重組成用集中化的正確與一致性資料來源,同時搜尋與分析數億甚至數十億筆記錄,而不用忍受從不同來源不一致的資訊。o CDW的導入大幅改善了國稅局管理與使用已收集資料的能力。結果是它讓該機構從舊系統上遺漏的稅收中回收了數十億美元。例如,在2006年國稅局透過稽核140

35、萬可能短報收入的納稅人,因而多徵收了592億美元。79o CDW的容量己經從1990年代末期開始的3TB成長到今日的150TB資枓。它讓使用者可以用下同的工具搜尋整個資料。CDW一開始含有Sybase Adaptive Server IQ(用於資料倉儲的關聯式資料庫軟體.現稱為Sybase IQ)、 Sybase PowerBuilder(報表與資料庫內容存取的應用開發工具)、Sybase Open Client(用戶端系統與Sybase伺服器之間的介面)、Open Database Connectiivity應用程式設計介面、執行Solarls 2.6(SUN的UNlX版本)作業系統的Dua

36、l Sun Enterprise 6000伺服器與EMC的磁碟陣列。o 該資料倉儲最重要的特點是容量夠大可以存用TB來計算的資料,但也有容易使用的多種工其查詢它的資枓。這些國稅局選擇的元件讓CDW可以做到這些。o 然而CDW的導入並不是沒有受到挑戰。最大的挑戰之一就是舊資料轉換成新系統的程序是不一致的。因為稅法多年來已經多次改變,國稅局資料的結構數年來並不一致。這使得資料整合成為一個複雜的程序。o 另外CDW設計要管理的所有資料量也遠超過國稅局之前曾處理過的。說服該組織執行如資料倉儲導入的徹底升級並不容易,因為政府機構一般都避免風險並且抗拒這類的改變。資料倉儲往往也需要大量的努力與金錢才能不斷

37、更新。80o 儘管有這些障礙,此項導入被認為是成功的。國稅局報導在導人CDW後的很短時間內達到了200比1的投資回報率,它只花了200萬美元的成本。許多來自於CDW的節省是來自於該系統偵測稅收上錯誤的速度與容易性。使用資料倉儲,分析員可以找出一群人是最容易逃漏稅的類型,例如離婚夫妻在同一年各自在表格中申報他們的小孩、濫用所得稅額或小型公司避稅項目,或大學剛畢業有學生貸款的人可能拖欠繳稅。資料倉儲減少花在追蹤申報錯誤與分析資料的時間,從六到八個月至只要數小時。81o 最近國稅局升級資料傳送至中央資料倉儲的方式。在資料倉儲開發的早期階段,該機構使用每一個容量只有2GB的磁帶傳送它的資料。在2006

38、年,他們用2TB的網路儲存裝置取代了磁帶,其尺寸與磁帶相當但儲存的資料相當於1,500卷磁帶的儲存數量。同時儲存裝置也加密以確保在運輸時資料是安全的,以往使用磁帶是不安全的,使得納稅人資訊在傳遞時是不受保護的。這項改變估計可以替該機構在五年的期間內節省數百萬美元。82o 許多由國稅局進行的稽核都顯示CDW的運作良好,使得對逃漏稅的人做更多的稽查與對誠實納稅的人做更少的審查。被審查的機會在從2000年的1/377上升至2006年的1/140。每年收入在100萬美元或更多的納稅人在2006年有1/11的機會被審查。而在2003年同樣收入等級的機會是1/20。但國稅局已經可以減少對清白納稅人進行審查

39、的數量,因此增加的稽核主要是對實際有逃漏稅的人才有影響。8384o 建立資料庫只是開始。要確保你企業的資料能保持正確、可靠與需要的人可以隨時取得,你的企業需要有特別的資料管理政策與程序。n建立資訊政策o 資訊政策 (information policy) 確立分享、傳播、獲取、標準化、分類與儲存資訊的組織規則。o 資訊政策設計特定的程序和責任,指出組織哪些使用者與單位可以共享資訊,資訊可以分配到哪兒,誰負責資訊的更新與維護。n確保資料品質o 在新的資料庫上線之前,組織需要確認與修正錯誤的資料,並且在資料庫開始運作時,建立一套好的資料編輯程序。o 資料品質稽核o 資料淨化6.4管理資料資源85確

40、保資料品質:確保資料品質: 政府機關及企業體的資料庫在資料品質上非常差政府機關及企業體的資料庫在資料品質上非常差 全國消費者信用報告資料庫的錯誤率達到全國消費者信用報告資料庫的錯誤率達到20-35% 在聯邦調查局的電腦犯罪歷史記錄中,有在聯邦調查局的電腦犯罪歷史記錄中,有32%是錯誤是錯誤的,或不完整的,或模擬兩可的的,或不完整的,或模擬兩可的 Gartner Group深信顧客資料正以每個月百分之二的深信顧客資料正以每個月百分之二的比例降低品質比例降低品質 建立資料庫環境建立資料庫環境 86 企業決策的品質與資料庫中資料的品質有直接的關聯企業決策的品質與資料庫中資料的品質有直接的關聯 資料品

41、質稽核:資料品質稽核:有組織、有計畫的調查資訊系統中資有組織、有計畫的調查資訊系統中資料的準確度與完整性料的準確度與完整性 資料淨化:資料淨化:調查活動的一致性與修正資料庫或是檔案調查活動的一致性與修正資料庫或是檔案裡不正確、不完整、不適當格式化或是重複的資料裡不正確、不完整、不適當格式化或是重複的資料 建立資料庫環境建立資料庫環境 確保資料品質確保資料品質:(續續)87技術視窗:MySpace背後的資料庫o MyS是知名的社交網絡網站,經歷了網際網路歷史上其中之一的最大幅成長加速。該網站在2003年11月成立,而到了2007年5月它有1.57億的會員。MySpace的挑戰是避免技術上的落後降

42、低網站的效能並阻撓它快速擴張使用者的網路。o 像MySpace這樣網站的技術需求是與其他大流量網站有所不同。一般來說,有一些人會一天幾次改變新聞網站的內容。網站也許收到數千個對底層資料庫的讀取需求,而不用更新資料庫。在MySpace中,數千萬個使用者同時更新他們的內容,提高了資料庫互動的比例,需要更新底層的資料庫。每一次當使用者檢視在MySpace上的個人資枓,結果的頁面是由多個資料庫查詢組成,組織的資訊是來自於位於多個伺服器中的多個資料庫上儲存的數個資料表格。88o 在一開始的階段,MySpace運作二個網站伺服器連結一個資料庫伺服器與微軟SOL Server資料庫。這樣的開始對於小型與中型

43、的網站是合適的,因為其簡單性。在MySpace中,這樣的配置在更多使用者登入時就顯得吃緊了。o 一開始,MySpace藉由增加網站伺服器而減少負載並處理增加的使用者需求。但當帳號數目在2004年增加至50萬,一個資料庫伺服器是不夠的。部署額外的資料庫伺服器比增加網站伺服器還複雜,因為資料必須切割成為數個資料庫而不能無法讀取或減少效能o MySpace部署了三個SOL Server資料庫.一個伺服器作為主資料庫,接收所有新的資料並複製到另外二個資料庫。這些資料庫主要取出使用者頁面需求的資料。o 當MySpace的帳號數逼近200萬個時,資料庫伺服器也逐漸達到其輸入/輸出的容量,也就是可以讀取與寫

44、入資枓的速度。這使得網站在內容更新上會延遲。MySpace改採用垂直切割模式,讓不同資料庫支援不同的網站功能如登入畫面、使用者基本資料與部落格。 o 然而,這些不同的功能有時也會分享資料,而當該網站達到300萬個會員時會產生問題。除此之外,網站的有些功能成長的太過快速,使得單一伺服器無法負荷。89o在考慮過投資更多強力與昂貴伺服器的擴張策略後,MySpace反而是額外增加了許多便宜的伺服器來分擔資料庫的工作負載。更經濟的分散式架搆的解決方案需要新的設計,將所有的伺服器整合如同一個邏輯電腦般的運作。在此設計下,仍需要透過將使用者帳號切割成每群100萬個的群體而分散工作負載,並將所有與這些帳號相關

45、的資料放置在一個分開的SQL Server中。 o雖然在效率上得到改善,但工作負載並沒有平均的被分散,有時候會引起特定資料庫的儲存區域超載。MySpace試著以人工作業來修正此問題,但此作業是吃力的並且不能有效的利用資源。因此MySpace改採用虛擬儲存架構,不再使用將附加磁碟專屬於特定應用軟體,而是採用所有應用軟體可用的單一儲存池。在這樣的安排下,資料庫可以寫入資料到任何可用的磁碟,因此減少一個應用軟體專屬的磁碟變成超過負載的可能性。90o 在2005年,MySpace也加強了基礎建設,在位於資料庫伺服器與網站伺服器間安裝了一層伺服器,儲存與提供經常被使用的資料物件,因此該網站的網路伺服器就

46、不需要經常查詢資料庫伺服器。 o 雖然有這些方法,MySpace仍然比其他主要的網站更長超過負荷,使用者表達了對於無法登入或觀看某些網頁的挫折。某些日子裡登入錯誤發生的機率在20%到40%。網站的活動持續挑戰技術的限制。到目前為止, 該網站持續的成長顯示使用者仍願意忍受非預期錯誤畫面。o MySpace的開發者仍持續重新設計網站的資料庫、軟體與儲存系統, 以跟上它爆炸性的成長, 而它們的工作永不會完成。9192結論 本章旨在介紹資料管理與企業如何使用資料庫科技來達本章旨在介紹資料管理與企業如何使用資料庫科技來達成目標。一旦企業使用資料庫管理系統將資料適當的組成目標。一旦企業使用資料庫管理系統將

47、資料適當的組織後,這些資料就可以被分析。產出的資訊可用於分析織後,這些資料就可以被分析。產出的資訊可用於分析經營績效、與顧客和供應商之間的緊密結合、制定更佳經營績效、與顧客和供應商之間的緊密結合、制定更佳的決策、及新的產品或服務等。你必須要知道如何運用的決策、及新的產品或服務等。你必須要知道如何運用資料庫技術以幫助你的公司獲利。資料庫技術以幫助你的公司獲利。1.1.財務或會計領域,需要使用到金融交易資訊庫等財務或會計領域,需要使用到金融交易資訊庫等. . 。2.2.人力資源或管理領域,需要使用到人事資訊庫等人力資源或管理領域,需要使用到人事資訊庫等. . 。3.3.資訊系統領域,會設計資料庫、導入與維護資料庫科技,資訊系統領域,會設計資料庫、導入與維護資料庫科技,並協助發展資料管理政策與程序。並協助發展資料管理政策與程序。4.4.製造、生產或作業管理領域,需要在供應鏈管理上使用製造、生產或作業管理領域,需要在供應鏈管理上使用大型資料庫。大型資料庫。5.5.業務或行銷領域,需要資料庫在顧客關係管理上面。業務或行銷領域,需要資料庫在顧客關係管理上面。

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|