移动与转换课件.ppt

上传人(卖家):晟晟文业 文档编号:4642300 上传时间:2022-12-28 格式:PPT 页数:34 大小:314.50KB
下载 相关 举报
移动与转换课件.ppt_第1页
第1页 / 共34页
移动与转换课件.ppt_第2页
第2页 / 共34页
移动与转换课件.ppt_第3页
第3页 / 共34页
移动与转换课件.ppt_第4页
第4页 / 共34页
移动与转换课件.ppt_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、第第 8 8 章:章:資料移動與轉換資料移動與轉換 各種資料轉換的需求各種資料轉換的需求 資料清潔資料清潔 資料移動與轉換的效率調整資料移動與轉換的效率調整 資料移動與轉換工具功能資料移動與轉換工具功能本章學習重點本章學習重點資料移動與轉換包括了三個不同的步驟:提取(Extraction):由資料來源讀取出資料。轉換(Transformation):將資料轉換成適合分析的型態。匯入(Load):將合適型態的資料匯入資料倉儲系統。因此資料移動與轉換簡稱為 ETL。資料移動與轉換的定義資料移動與轉換的定義 許多資料倉儲系統至少有一半的建置時間都會花在資料移動與轉換上面。這是由於以下的幾項原因:資料

2、倉儲團隊對資料在源頭的儲存方式並不熟悉。資料型態經常需要經過複雜的轉換。資料清潔需求。資料量。資料移動與轉換會耗費很多時間資料移動與轉換會耗費很多時間 資料轉換的類別資料轉換的類別 簡單轉換簡單轉換:將原本的資料直接轉換成資料倉儲系統內所需要的格式。資料清潔資料清潔:將有問題的資料篩選出來並做特別處理。資料整合資料整合:將不同來源的資料做整合以,達到統一資料內容及定義的效果。合計表格產生合計表格產生:將一些運算動作先做出,已增加資料查詢的速度。資料類別轉換 例:數字轉為日期。日期及時間的轉變 例:YYYYMMDD DD-MON-YYYY欄位譯解 例:M0、F1、其餘的值一律轉換為2。簡單轉換的

3、做法簡單轉換的做法在源頭系統中的資料經常是有問題的。常見的情況如下:欄位有不被允許的資料資料有漏失資料錯誤資料清潔的目的是將這些資料在匯入資料倉儲系統之前先做一個整頓。資料清潔資料清潔 不同資料來源的資料整合 緩慢改變維度支持 資料正規化與非正規化 衍生資料的產生 資料整合類別資料整合類別 合計表格能使一個查詢所需要讀取的資料量減低,因而增進查詢的速率。合計表格的建置是在資料轉換這個步驟中做出。合計表格產生合計表格產生 如果資料倉儲系統中的資訊的品質不夠,那資料倉儲存在的意義也就消失了。以下舉出幾項資料源頭可能會發生的問題:錯誤資料。資料重複。物件定義不明。不合規定資料。單一欄位中有兩種不同意

4、義的數值。資料清潔的需求資料清潔的需求 當資料有問題時,我們可以在兩個不同的層面做處理:資料來源處資料轉換處資料清潔的處理層面資料清潔的處理層面 主要的好處是如此一來,資料倉儲系統的資料移動與轉換工作就可以比較快速地完成。包括以下三種做法:依照找出來的問題修改資料來源系統的資料。修改資料來源系統的使用者介面。替換掉原本的資料來源系統。資料來源處的處理方式資料來源處的處理方式 這種方式不必動用到系統本身程式和設計,而是只改變裏面所存的資料,所以比較容易執行。壞處是資料發生問題的原因並沒有消除。這只是將資料清潔的工作由資料移動與轉換這個步驟上移至源頭執行而已。依照找出來的問題修改資料來源系統依照找

5、出來的問題修改資料來源系統的資料的資料許多資料問題的來源是前線員工在輸入資料時打錯。因此,一種資料清潔的方式是修改原本系統的使用者界面,以此迫使員工一定要輸入正確的值。如此一來,資料就不再會有定義域之外的值出現。修改資料來源系統的使用者界面修改資料來源系統的使用者界面如果我們覺得資料來源系統所造成的資料品質問題不是做一些修改就可以改善的,替換掉原本的資料來源系統是一個可以考慮的作法。這個處理方式極少被採用,因為這勢必牽扯到許多其他的問題(尤其是當資料來源是一個複雜的大系統時)。替換掉原本的資料來源系統替換掉原本的資料來源系統這種方式的好處是資料倉儲團隊對這一個步驟有絕對的控制權,所以不必去擔心

6、別的部門的員工需要配合。這種方式的壞處是這會增加處理資料所需的時間。資料轉換處的處理方式資料轉換處的處理方式將不合規定的資料匯入一個錯誤表格。將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計。利用資料轉換處理不合規定的資料。資料轉換處處理的方式資料轉換處處理的方式將不合規定的資料匯入一個錯誤表格將不合規定的資料匯入一個錯誤表格資料來源資料來源正確正確/符合規定符合規定*不正確不正確/不符合規定不符合規定*錯誤表格錯誤表格顧客編號 出生年1011925102196010319621042005105581061958107196108197210919691101982顧

7、客編號 出生年1011925102196010319621061958108197210919691101982顧客編號 出生年104200510558107196*規定為出生年不能小於1990 或大於2003。資料倉儲表格資料倉儲表格錯誤表格中的資料將由資料倉儲團隊做進一步的研究,直到找到了正確的值再匯入資料倉儲中。由於這種方法需要花費很多人力,所以通常不會被採用。將不合規定的資料匯入一個錯誤表格將不合規定的資料匯入一個錯誤表格將不合規定的資料如正常資料一樣匯入同將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註計一個表格,而在有問題的資料上加個註計資料來源資料來源資料倉

8、儲表格資料倉儲表格顧客編號 出生年1011925102196010319621042005105581061958107196108197210919691101982顧客編號 出生年 正確與否1011925Y1021960Y1031962Y1042005N10558N1061958Y107196N1081972Y1091969Y1101982Y出生年不能小於1990 或大於2003這種方式的運用是當資料品質問題不嚴重時採用。所有資料都會被匯入資料倉儲內。能夠很容易獲知哪些是有問題的資料。將不合規定的資料如正常資料一樣匯入同將不合規定的資料如正常資料一樣匯入同一個表格,而在有問題的資料上加個註

9、計一個表格,而在有問題的資料上加個註計利用資料轉換處理不合規定的資料利用資料轉換處理不合規定的資料資料來源資料來源資料倉儲表格資料倉儲表格顧客編號 性別 出生年101M1925102F196010311962104M2005105K58106M1958107F19610801972109F1969110M1982性別只允許M、F、U;不合乎規定的一律記錄為 U出生年不能小於1990 或大於2003。不合乎規定的一律記錄為-1顧客編號性別 出生年101M1925102F1960103U1962104M-1105U-1106M1958107F-1108U1972109F1969110M1982這是

10、最常用的方式。一般來說,有以下三種方式:資料對映。建立新的規則。以預設的值來替換有問題的資料欄位。利用資料轉換處理不合規定的資料利用資料轉換處理不合規定的資料資料擦洗最普遍的例子就是確定單一顧客及由顧客資料導出戶口(Household)資料。確認單一顧客的目的是讓組織可以精確地瞭解客戶的消費習性以及喜好,而進而由這些資訊對這位顧客做出更恰當的服務及促銷。戶口資料則能讓組織瞭解一個消費個體的消費情形。資料擦洗目的資料擦洗目的 確定單一顧客及由顧客資料導出戶口資料一般有兩種方法:由已有的資料中去推測。向第三者購買顧客或戶口資料,然後再與本身資料合併一起去推測。資料擦洗做法資料擦洗做法 確定單一顧客

11、及由顧客資料導出戶口資料並不是很直接的步驟。這是由於以下兩個原因:定義問題 資料相符問題 資料擦洗會碰到的問題資料擦洗會碰到的問題 資料移動與轉換的效率調整方式資料移動與轉換的效率調整方式 以下是一些資料移動與轉換上常被用到的效率調整方式:運用資料平行匯入資料完整性確認的需要將資料轉換工作於資料庫外做出考慮當資料匯入時將表格索引刪除 運用能增進大量資料匯入的速度的檔案型式當兩段(或是多段)資料匯入過程之間互相無關時,我們就可以考慮將它們同時匯入。在決定平行運作的策略時,我們必須要考慮硬體設備、運作系統功能、以及資料庫功能。運用資料平行匯入運用資料平行匯入某些資料完整性確認程式需要花很多時間去做

12、,而實際上做出來後對滿足分析需求方面來說並沒有多少幫助。為了節省時間,資料倉儲團隊可以考慮忽略這些資料完整性的需求。資料完整性確認的需要資料完整性確認的需要 在大部份的情況下,資料轉換在資料庫外進行時的速度比在資料庫內進行時要快。這是因為以下的原因:資料庫內的運行受限於SQL。許多影響效率的因素,例如資料輸入輸出的速度以及記憶體的運用,在資料庫外都比較容易控制。將資料轉換工作於資料庫外做出將資料轉換工作於資料庫外做出若在資料匯入時索引已存在的話,那每一筆資料進入表格時索引都會被更改,導致速度降低。如果在資料匯入之前將表格索引刪除的話,那就不會有這個問題了。不過,表格索引的建置也是需要時間。因此

13、,在做決定時,應該將這兩種情況都考慮在內。考慮當資料匯入時將表格索引刪除考慮當資料匯入時將表格索引刪除某些檔案型式可能可以增進大量資料匯入的速度,所以應該儘量運用這類型式。舉例來說,可能增進資料匯入速度的檔案型式包括:已分類的檔案。不含特別文字類別的檔案。運用能增進大量資料匯入的速度的檔案型式運用能增進大量資料匯入的速度的檔案型式資料移動與轉換工具資料移動與轉換工具功能功能可由圖形化使用者介面設計出資料移動與轉換的過程。能夠做到改變管理。可以供多人同時使用。良好的中繼資料記載效能。能由許多不同的資料來源系統提取資料。有強大的資料轉換功能。每一個步驟後結束後,都可以依步驟的成功與否來決定下一步要如何繼續。重新起動的功能。資料移動與轉換工具資料移動與轉換工具功能功能能夠啟動在工具外設定的程序(Procedure)。將過程詳細記載下來,並能夠產生易瞭解的過程報表。例外數值處理(Exception Handling)。將過程詳細記載下來,並能夠產生易瞭解的過程報表。中繼資料層具備應用程式設計介面,可以讓別的工具或程式讀出它的中繼資料。能夠運用到資料庫與運作系統所提供的平行運算的功能。廠商需提供適當的教育訓練課程。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(移动与转换课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|