DATASTAGE的介绍及基本操作课件.ppt

上传人(卖家):三亚风情 文档编号:2877060 上传时间:2022-06-07 格式:PPT 页数:133 大小:2.37MB
下载 相关 举报
DATASTAGE的介绍及基本操作课件.ppt_第1页
第1页 / 共133页
DATASTAGE的介绍及基本操作课件.ppt_第2页
第2页 / 共133页
DATASTAGE的介绍及基本操作课件.ppt_第3页
第3页 / 共133页
DATASTAGE的介绍及基本操作课件.ppt_第4页
第4页 / 共133页
DATASTAGE的介绍及基本操作课件.ppt_第5页
第5页 / 共133页
点击查看更多>>
资源描述

1、DATASTAGE 介绍及基本操作内容提要: 一、一、datastage datastage 介绍介绍 二、如何安装二、如何安装datastagedatastage 三、配置三、配置datastage datastage 工程工程 四、设计并运行四、设计并运行datastagedatastage的的jobjob 五、操作元数据五、操作元数据 六、操作关联数据六、操作关联数据 七、操作约束条件及数据来源七、操作约束条件及数据来源 八、定义查找使用的哈希文件八、定义查找使用的哈希文件 九、聚合数据九、聚合数据 十、十、jobjob的运行及调试的运行及调试 十一、创建十一、创建BasicBasic表

2、达式表达式一,一,datastagedatastage的介绍的介绍 本章主要讲解ETL的概念,datastage的介绍、组成及主要功能。 ETL概要 ETL包括数据抽取(Extract)、数据转换(Transform)以及数据加载(Load)3个阶段。 一般而言,这三个过程中有二次落地(生成中间文件)。 Ascential DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。 DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统 。包括Oracle,

3、Sybase,DB2,SQL Server,Teradata, FTP文件系统,文本文件等等。 数据清洗、转换、加载都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能 。DS介绍:介绍:Datastage的组成:Datastage的服务器端和客户端 Datastage是C/S软件,服务器端存储所有的ds项目和元数据,由关系型数据库(RDBMS)组成。客户端具有同服务端一样的软件接口。 客户端运行于windows95或更高版本,服务端可运行于windowsNT4.0或windows2000 版本,d

4、atastage的很多版本都支持unix。 DS Administrator 在服务端管理ds的项目和服务端操作。主要用于工程的参数调整,变量设置,及command操作。 DS Designer 建立ds的job并且编译执行的程序。主要用于job的开发及编译。 DS Director运行和监控ds的job。主要用于job调试。 DS Manager允许编辑和查看在ds中存储的内容。主要用于项目管理或job的导入、导出、备份。DataStage中的Administrator 默认使用Administator来指定常规的服务端,用来增加或删除DataStage工程,并且可以设置工程的属性。 Adm

5、inistator也对于总库提供命令接口。 使用Administator的Project Propertities 工程属性的窗口,可以进行 1、在General页框中,设置Job监控的一些限制信息和Director中的其他信息。 2、在Permission页框中,设置并分配开发人员组的权限 。 3、在Tracing 页框中, 设置或取消服务端进行跟踪。 4、在Schedule 页框中, 设置调度时运行Job所用到的用户名和口令。 5、在Tunables页框中,指定Hash文件Stage的读写的缓存大小。 在DataStage中的Administrator设置常用服务器的默认值: 1、改变Li

6、cence信息。 2、设置服务端连接超时时间。DataStage中的Manager 使用DataStage中的Manager来存储和管理Job的元数据,使之可以在DataStage中的Designer中再度被使用。 元数据包括表单和文件结构和导出数据的Routines的转换等等。 Manager是DataStage存储的一个重要的部分,可以用来加入表单和文件的结构,在左侧分支树中显示Routines、Transforms和Jobs。 自定义的Routines和Transforms也在DataStage中的Manager里创建。DataStage中的Designer DataStage中的Des

7、igner允许使用熟练地拖拽图标和连线的方式来表示数据抽取、清洗、转换、整合和加载的过程,并将数据导入数据仓库的表单之中。 Designer提供一个数据流程的模式,轻松将设置和Job的设计有机的组成。 使用Designer,可以:1、指定数据如何抽取。 2、指定数据的转换规则和进行转换。 3、使用参考性质的LookUp到数据集市中编辑数据。 a)例如,如果销售的记录集包括CustomerID,可以在CustomerMaster表中使用LookUp查找到Customer的名称。 b)当需要连接数据集市并使用查询,可以快速的进行访问。 4、对数据进行整合。 5、在定义的约束条件中将基础数据分割成为

8、多个输出的连接。 在Tools菜单中可以轻松的于Director,Designer和Manager之间切换。DataStage中的Director 使用Datastage的Director可以对设计的job进行验证、运行、任务调度和监控的工作。也 可以针对job 的运行查看运行的聚合统计情况。在Datastage中进行开发 在Administrator中定义全局的和项目属性。 在Datastage中的Manager里导入定义源的元数据和目标的元数据。 在Datastage中的Designer中验证和编译job。 在Datastage中的Director中验证、运行、和监控job。 1、定义工程

9、的属性在Administrator中。 2、打开工程。 3、导入元数据,在job中定义格式、读入或写入在Manager中。 4、设计job在Designer中。a) 定义数据的抽取(读取)。b) 定义数据流程。c) 定义数据的集合。d) 定义数据的转换。e) 定义数据的约束条件。f ) 定义数据的加载(写入)。g) 定义数据的聚合。 5、编译和调试job在Designer中。 6、运行和监控job在Director中。Datastage的工程管理 所有的工作都在一个工程中。 在安装过后,需要建立一个工程,这是安装必选的项目。 在使用它工作之前,要登录这个工程。 可以在工程间进行导入和导出Dat

10、astage的项目内容。 多个用户可以在同一时间使用同一工程,但是不能同时编辑同一个项目。所有的工作都在Datastage的工程里进行。在做任何事之前,那些具有同样管理权限的人,都要先打开一个工程,即进行登录。在安装过程中,工程就要求创建,这是必须做的事情。可以在安装之后,在Administrator中的Project页框中另增加其它工程。一个工程关联着一个目录,这个工程目录用来存储jobs、 Datastage项目和元数据。在做任何操作前都要先打开这个工程,即登录这个工程。工程是自包含的很多的工程可以在同一时间被打开,在各自单独的环境打开。可以在它们之间导入或导出项目。多用户可以在同一时间使

11、用一个工程中工作,但是Datastage禁止在同一时间由多个用户访问同一个job。Datastage测试 问题一:Datastage的Designer是用来建立和编译job、用来进行数据的抽取、转换和加载即ETL。(Yes/No)答案一:Yes,Designer使用拖拽的方式将设计元素(习惯上叫stage)拖拽到设计区域中,经过建立和编译,Job就可以执行,用来进行数据的抽取、转换和加载。 问题二:Datastage的Manager用来执行编译通过的Jobs。(Yes/No)答案二:No, Datastage的Manager是用来管理元数据的,如表单结构,内置和自定义Routines等的,使D

12、atastage用来管理资源存储的。 问题三: Datastage的Director用来执行编译通过的Jobs。(Yes/No)答案三:Yes,使用Director来对编译通过的job进行验证或者运行,也可以在jobs运行过程中对其进行监控。 问题四:Datastage的Administrator是用来定义全局变量和设置工程属性的。(Yes/No)答案四:Yes,可以在Administrator中设置工程中使用的全局变量和必要属性,如连接数据库超时,登录者权限等等。第二章 如何安装Datastage下面的讲解中,将可以了解到: 在Windows系统中安装Datastage服务端。 建立一个Da

13、tastage的工程。 安装Datastage的客户端。 Datastage 的服务端要首先安装,之后才可以安装Datastage 客户端,服务端能都安装在WinNT、Windows2000或者UNIX系统中,这个模块将介绍在Windows环境下进行安装。系统的具体配置依赖于所要安装的Datastage 版本,在安装盘上找到最接近的系统需求配置。安装Datastage 服务端需要有哪些安装盘和服务端的许可,这个许可包含以下信息: 1,注册号(序列号)。 2,工程数量。在Datastage服务端可以建立的最大工程数量。包括新建的工程,也包括对先前建立的工程进行加上升级。 3,到期时间。 4,授权

14、代码。在许可信息中,这个信息必须被正确输入的。 安装向导会指导通过以下步骤进行: 1,输入许可信息。 2,指定服务器的路径。 3,选择程序的文件夹。 4,创建一个新的工程或升级已经存在的工程。安装Datastage 首先安装Datastage Server端,鼠标点击 软件会自动安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。在Datastage Server安装的过程中会提示用户建立一个工程。在安装Datastage Server端以后,需要安装Datastage Client端,鼠标点击软件会自动进行安装,安装过程中系统提示使用者选择安装路径和输入产品序列号。 安装有Datas

15、tage服务端的机器,必须运行着。 需要运行Datastage的客户端。 打开Datastage的控制面板,来停止或启动服务端。 当再次安装Datastage的时候,会停止服务端。为了保证Datastage客户端程序的正常运行,必须保证Datastage的服务器保持运行状态。在Windows2000的控制面板中打开Datastage的控制面板,可以启动或停止全部的Datastage服务。点击可以启动全部的服务或者停止全部的服务。在安装或重新安装Datastage的时候,这些服务一定要全部停止。安装Datastage客户端 在安装Datastage服务端之后。 可以安装在WinNT,Window

16、s2000以及WinXP上。 Datastage产品的许可用于安装Datastage的客户端。 Datastage的操作许可只能用于安装Director和Administrator。 Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装,客户端能够安装在Windows95、Windows98、WindowsNT、Windows2000以及WindowsXP操作系统上。这里有俩个版本的Datastage:1,开发版本的Datastage,包含了解所有的客户端应用程序。2,操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序,即Director和A

17、dministrator。 安装开发版本的Datastage,需要有Datastage开发版的许可。 安装操作员版本的Datastage,需要有Datastage的Director的许可。 许可包括以下几个信息: 1,序列号 2,用户限制 3,到期时间 4,授权认可代码 这些信息必须是正确的数据。第三章 配置 Datastage 工程下面的讲解中,将可以了解到。 在Datastage的 Administrator中设置工程属性。 在Datastage的Administrator中设置用户的权限。Datastage工程属性 建立或者删除Datastage工程。 设置Datastage工程的默认属

18、性。 修改Datastage工程属性的方法。登录Datastage的Administrator。选择要修改属性的工程。 Datastage中所有的开发工作都在一个Datastage的工程中,在安装Datastage服务端时,默认就已经建立了一个工程,可以使用Administrator进行工程的控制。每个工程都有其关联的目录,目录存储了在工程中建立的项目,如Jobs、元数据、自定义的Routines等等。在一个工程中工作之前,必须要先打开它(即进行登录)。在使用Datastage的Administrator时,可以设置默认的工程属性。设置Datastage工程属性 选择要进行修改的工程,点击“P

19、roperties”工程属性的“General”页框点击Datastage的Administrator的“Properties”按钮,打开工程属性的窗口,这里有5个页框(“Mainframe”页框只有在许可支持大型机的Jobs的时候可用),默认打开的“General”页框。如果选择“Enable job administrator in Director”的选择项,那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数。在Director中运行一个Job的时候,事件被写入Jobs的运行的日志,例如:记录了何时开始运行Jobs,何时停止,

20、何时终止。日志记录的事件增长量很大,“Auto-purpe of job log”选择框可以让指定用什么条件来筛选这些事件。可以限制记录时间的每天的数量或者运行Jobs运行的数量。工程属性的“Permissions”页框 使用这个页框可以设置访问和使用Datastage的用户组权限。 所有的Datastage用户中,在登录Datastage之前,都必须拥有一个公认的,属于自己的用户角色,使之用来进行登录,这样可以用来防止匿名的方式使用Datastage工程。 这里有三种Datastage用户角色:1, Datastage Developer,可以访问Datastage工程 全部的范围。2, D

21、atastage Operator,可以运行、释放、 Datastage的Jobs。3, Datastage Production Manager,可以管理Datastage 产品组件。工程属性的“Tracing”页框 在这个页面设置是否在Datastage服务端进行跟踪处理。 Datastage服务端进行跟踪处理默认是无效的。 当使其有效, Datastage客户端运行项目的时候,所有的记录信息都要在Datastage服务端进行监控,并写入监控文件。使用这些底层系统知识可以帮助找到Datastage客户端的问题所在,如果跟踪设置为有效,当调用一个Datastage的客户端的时候,用户会收到一

22、些警告的信息。 警告: 跟踪会消耗Datastage服务器大量的系统资源,除非用户需要诊断重大的问题,一般不建议设置跟踪有效。 工程属性的“Schedule”页框 使用使用“Schedule”页框,来指页框,来指定在选择的项目中运行计划任务的定在选择的项目中运行计划任务的jobs的用户名和口令,如果没有指的用户名和口令,如果没有指定,定,Jobs会在当前系统的计划任务会在当前系统的计划任务的用户名下运行。的用户名下运行。 工程属性的“Tunables”页框 在在“Tunable”页框中,可以页框中,可以指定当用来读取指定当用来读取Hash文件记录时文件记录时的缓存的大小,的缓存的大小,Hash

23、文件大多数文件大多数用于查找操作,这部分介绍会在用于查找操作,这部分介绍会在下面的介绍中进行。下面的介绍中进行。第四章 设计并运行Datastage的Job 下面的讲解中,将可以了解到: 描述什么是Datastage的Job。 一步步讲述如何建立Datastage Job。 描述Link和Stage。 识别不同类型的Stage。 设计一个简单抽取和加载的Job。 编译、验证和运行Job。 监控Job的执行。什么是JobJob开发的浏览 在Manager导入数据源和目标数据库的数据结构定义。 在Designer加入Stage定义数据的抽取和加载。 加入Transformer和其它的Stage来定

24、义转换。 从源数据到目的数据,加入Link来定义数据的流向。 编译Job。 在Director中,验证、运行和监控Job。 在这个讲解中,将通过一个单一在这个讲解中,将通过一个单一Job的过程第一步,的过程第一步,着手定义元数据。着手定义元数据。 Designer的工作区域 中间偏右是Datastage的设计区域,可以将Stage和Link从工具的板块上拖动过来放在上面,左边是“Repository”(存储)窗口,显示的是Manager中的分支。 Manager中的分支,就像Jobs和表定义一样可以直接拖拽到设计区域,点击“ViewRepository”来显示“Repository”窗口。 点

25、击“ViewProperty Browser”来显示“Property Browser”窗口,显示在设计区选择的项目的属性。Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数,更加方便进行Jobs的设计工作。Designer的Stage工具面板 工具面板中包含描述的图标,可以将其加入到Jobs设计当中。 当安装Datastage的时候,很多的Stage都会自动地进行安装,也可以根据特定的目的安装另外的Stage,这些被叫做插件。 例如,那个叫做“Sort”的插件就是用来对数据排序的。 插件的介绍将在以后的讲解来介绍。下面将部分的Stage进行简单的说明(

26、有些Stage在普通应用中并不常用):被动Stage和主动Stage 被动Stage的定义是用来读写数据源的Stage。 被动Stage包括:Sequential,Odbc,Hash文件的Stage。 主动Stage的定义是用来数据的筛选和转换部分的Stage。 主动Stage包括:Transformer、Aggregator和Sort的插件。 这里有俩种类型的Stage: 被动Stage,是用来读写数据源的数据的,包括Sequential、Odbc、Hash文件的Stage,等等。 主动Stage:是用来筛选和转换部分的Stage,包括Transformer、Aggregator和Sort的

27、插件,等等。Datastage测试:测试:问题一: Sequential Stage是一个主动地Stage。(Yes/No)答案一:No,由于Sequential Stage可以用于读取数据源和写入数据,但是又不能对数据进行转换,所以不是主动的Stage,而是被动的Stage。Sequential Stage 导出数据或加载数据到一个Sequential文件。 为Sequential指定完整的路径。 指定文件的格式:定义宽度或者分隔符。 指定列的定义。 指定写的形式:覆盖、追加。Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中。 在修改S

28、equential文件的时候需要指定一下内容: 1、文件的路径和名称。 2、文件的格式。 3、列的定义。 4、如果Sequential Stage被用作一个目标的话,指定写入动作时选择:覆盖已存在的文件或者在文件基础上进行追加。编辑目标端的一个Sequential文件Stage 定义一个Sequential的目标Stage类似于定义一个源的Sequential Stage。 在输入的Link中,定义数据导入到Stage的数据格式。从“Input Box”中输入Link的列表进行选择。 定义一个文件的Job,定义文件被写入,如果文件不存在,Datastage将会自动建立,在“Update act

29、ion”中指定数据文件是否覆盖或者追加。 “General”页框中的“FilterCommand”,可以指定一个过滤程序,可以使用其在抽取数据的过程中进行数据的过滤。 举例,在读取数据之前要有一个解压缩的过程。从中选择类型或者浏览从过滤程序中,在输入框中指定命令行,只有在“General”页框中的Stage页面中选择了“Stage uses filter commands”的选择框,这个输入框变为可用,如果指定了过滤命令,数据浏览没有定义,那么“ViewData”按钮不可用。 在“Format”页框中,指定不同格式的目标文件,同指定源文件相同。 如果目标文件不存在,在Jobs运行之后,才可以浏

30、览数据。如果这时点击了“ViewData”按钮,Datastage将会返回一个“Failed to Open.”的错误。 在源数据的Stage里定义输出数据的列定义,同时定义目标Stage中的相应的输入Link。 可以将Link想象成为一个通道,从一头流到另外一头,所以输入和输出的格式要保持一致。Transformer Stage 很关键的主动Stage。 使用Transformer Stage可以定义条件、来源和字段的对应关系。 输入的列和输出的列进行对应。 在这个讲解中,我们将定义列的对应。 Transformer Stage是一个重要的主动Stage,其它主动地Stage执行很多指定类型

31、的转换。 在Transformer Stage中可以指定: 1、列的对应。 2、数据的来源。 3、过滤条件。 字段对应是指输入字段和输出字段进行对应,从输入列到输出列数值直接通过。 数据来源的值经过计算写入到输出的列,以输入列为基础。 在引入的行将被写入到输出的列,约束指定的条件将有效。Transformer Stage元素 Transformer 有以下元素: 在上方,左边的区域显示输入Link的列信息,如果有很多的输入Link,就会有许多的列显示。 在上方,右边的区域显示的输出Link的内容,我们不能在这里定义字段,如果有很多的输出Link,就会有很多的列显示。 现在,忽略右上方的“Sta

32、ge Variables”窗口,我们将在以后的讲解进行讲述。 下方显示元数据的列定义,输入和输出的Link。 如果有很多的输入和输出的Link,那么将出现很多的页框。Annotation Stage 使用它来在Job上增加文本注释。 输入框有不同格式的设置。 当Job打印的时候显示。 描述注释的Stage将在下一节介绍。编辑Annotation Stage输入框内输入的是文本类型,指定的设置有:1、文本的字体和颜色。2、输入框的颜色。3、文字的横纵位置。编译Job在运行Jobs之前,必须要对其进行编译,在服务端的机器上产生可以运行的编码,对于编译Jobs,点击“FileCompile”或者在工

33、具栏上点击“Compile”按钮,编译Jobs的窗口显示Jobs编译的情况。编译如果发生错误:点击“Show error”来定位错误的位置。点击“More”来返回关于错误更多的信息。运行Job 从Datastage的Designer切换到Director。 在Director的列表中,选择要运行的Job点击运行。 选择运行的属性。 验证这个Job。 运行Job,并在日志浏览中监控Job运行的过程。 就像知道的那样,在Datastage的Director中运行Job,可以从Designer中的“Tools”菜单中启动,Datastage的Director。 可以通过这个方法在Director、M

34、anager和Designer之间进行切换。 这里有俩种方法运行一个Job: 1、直接运行。(可以在Designer运行,也可以切换 到Director中运行) 2、在以后的时间或日期里调用计划任务执行。 对于直接运行的Job: 1、在列表中选择需要运行的Job,这个Job必须是经过 编译的。 2、点击Job菜单中的运行,或者点击工具栏中的运 行。这是Job运行时的设置窗口会显示出来。Datastage Director在Director中显示Jobs状况的列表,运行一个Job,选择一个而后点击Job菜单中的运行。其它查看内容:1、Job的日志从Job运行产生的数量。2、计划任务预览在计划的时

35、间或日期运行Job。运行参数设置Director 的日志浏览 在工具栏上点击Log按钮来查看Job的日志,Jobs日志集合了Jobs执行期间的所有事件信息。 这些事件,包括:控制事件,如:开始、结束和中止、报告信息、警告信息、错误信息、和程序发生信息。 当点击Job菜单中运行的时候,Job运行设置的窗口会显示出来。 这个窗口允许用户在以下情况下停止Job的运行。 1、指定行数。 2、指定警告消息的数量。 在运行Job之前可以将其验证,验证是保证Job运行成功地关键。包括: 1、验证 Link的数据源是否准备好。 2、验证文件是否被打开。 3、验证SQL是否可以查询数据。 经过验证后点击Run运

36、行Job,在Job运行时列的状况会显示出来。第五章 操作元数据 下面的讲解中,将可以了解到: 介绍DataStage的Manager的构成和功能。 导入和导出Datastage的项目。 从Sequential文件中导入元数据。 加载元数据到Sequential Stage中。什么是元数据 Datastage和Manager是一个图形化管理Datastage项目存储的工具,包括元数据和Datastage的其它构成,如Jobs和Routines等等。 元数据是数据源和目标数据的描述的标准化。它包括诸如记录列和分割的通用信息,分割标志,还包括指定列的定义,等等。 左边的包括工程的树。分了八大分支,但

37、是可以在其下创建下一级文件夹,在工程树下选择一个文件夹显示它的组成。在这个例子中,在工程里一个命名为”WHBI”的文件夹下创建很多Job。 “DataElements”分支:列出内置的和自定义的数据元素。(数据元素是数据类型的扩展,将在下面讲述) “Jobs”分支,显示在当前工程的Jobs列表。 “Routines”分支:先是内置和自定义的Routines,Routines是Datastage Basic代码的一部分,可以引入到一个Job中。 “ShareContainers”分支:共享容器就是Datastage的一个单独的Satage的组成。 “StageType”分支:列出在一个Jobs中

38、可用的Stage的类型。内置的Stage包括在Designer中的结果部分和转换部分的Stage。 “TableDefinitions”分支:显示加载到一个Job的有效的表结构定义。 “Transformer”分支:先是内置和自定义的Transformer。Transformer是可以用于Job的数据转换函数。Manager内容 数据源和目标数据的元数据描述。 Datastage项目。Jobs。Routines。表单。 Datastage的Manager管理俩个不同类型的项目: 数据源和目标数据的元数据描述。 在Manager中叫做表单定义。Datastage表单定义用于描述各种类型源的列定义

39、的格式:结果、有关的、Hash文件等等。 可以在Manager或者Designer中创建表单的定义,可以从源或者目的导入其结构。 Datastage的构成 在Datastage中任何一个项目(Jobs,Routines,表定义,等等)在Datastage中存储Manager是接口用来存储。 Datastage组成包括整个项目,都可以从导出的文件中导入到Manager中。Import 和Export Manager中的所有项目,都可以导出成为一个文件。 导出整个工程。 用于备份 用于版本控制。 用于Datastage的项目从一个工程到其它工程的移动。 对于其它开发者,用于共享Datastage的

40、Job和项目。 Datastage中的项目包括整个工程,全部都在Manager进行存储,可以将其导出成为一个文件。这个导出的文件能够重新导入回Datastage。 导入和导出能用作很多的目的,包括: 备份Jobs和工程。 维持不同Jobs或者工程的版本。 从一个工程到另外一个工程,Datastage项目的移动。将导出的项目,移动到其它的工程,将其重新导入到新的工程里。 在开发者之间共享Jobs和工程。导出的文件,当被压缩以后,变得很小,很容易从一个开发者到其他人之间传递。导出过程 在Manager中,点击“ExportDatastage Components”。 选择Datastage需要到导

41、出的项目。 指定导出的类型:dsx,xml。 在客户端机器上指定导出文件的路径。 在Manager中点击“ExportDatastage Components”开始导出的过程。 在Manager中任何的项目都可以将其导出成为一个文件。使用这个程序可以对工作进行备份或者将项目从一个工程移动到另一个工程中。 选择导出文件的类型,可以选择整个工程或者在一个工程中的一部分项目。 指定导出文件的类型,默认的,项目被导成一个文本格式的文件,默认的导出文件是“Dsx”格式的。也可以将项目导出成为“XML”格式的文档。 导出的文件目录是在Datastage的客户端,而不是在服务器。Datastage测试问题一

42、:可以将Datastage工程中的Jobs导出来,但是却不能将元数据导出,所以不能将元数据的定义导出成为一个文本。(Yes/No)答案一:No,元数据的定义的结构,都存在于“Table Definitions”中,而表单的定义是可以通过导入导出流通于各个工程之间。问题二:Datastage工程导出的目的是存放在客户端,而不是存放在服务器。(Yes/No)答案二:Yes。导出Datastage的项目 在Datastage的Manager的菜单上点击“ExportDatastage Components”。 选择“Whole Project”或根据需要进行选择,而后进行导出。导入Datastage

43、工程 在Manager中,点击“ImportDatastage Components”。 选择要导入的Datastage项目文件。 选择要导入的文件,点击“Import All”开始导入或者“Import Select”从浏览的项目中选择一个导入。选择“Overwrite Withnot Query”按钮来覆盖那些同名但没有警告的项目。导入元数据 从Sequential文件中导入格式和列的定义。 导入关联表的列的定义。 导入Hash文件的列的定义。 导入的信息在“Table Definitions”。 在Job中Stage可以将表定义进行加载进来。 表格定义对于一些变化的数据文件和表单进行格式

44、的定义。这些定义可以重复的是用于设计的Jobs,来指定数据的格式。 举例,可以导入“Customers.txt”文件的格式和列的定义,可以将其加载到源的“Sequential Stage”中,表示Job是从“Customers.txt”中抽取数据。 可以加载这些相同的元数据到其它的Stage中,用来访问同样格式的数据。可以感觉到,元数据是可以再度使用的,它可以被用于格式相同的文件和数据上。 如果需要的列定义很相似,可以编辑定义并将其保存在一个新的名字下面。 也可以使用不同类型的数据相同的表单定义使用同样的格式。举例,可以导入一个表单定义从一个“Sequential”文件,并使其指定一个ODBC

45、的表单的格式。可以清楚地看到元数据在格式定义上是宽松灵活的。 可以导入和定义几个不同类型的表单定义,包括:“Sequential”文件、ODBC数据源、Hash文件和全部的表单。Sequential文件导入过程 在Datastage Manager中,点击“ImportTable DefinitionsSequential File Definistions” 选择指定的“Sequential”文件的目录和名称。 选择Manager的分类。 检查格式和列定义和编辑必要的信息。 要开始导入,点击“ImportTable DefinitionsSequential File Definitions

46、”,“Import Meta Data(Sequential)”窗体会出现。 选择目录中包含的Sequential文件,在文件的列表中选择需要导入的文件。 选择文件进行导入。 选择指定的类别(即文件夹)进行导入 1、格式为:(类别/子类别)。 2、是在Table Definitions下的第一级子目录。 3、是在目录下的另外一层。在Manager中定义结构 在Manager中,选择“Table Definition”的包含的类别。 在“Table Definition”上双击,打开“Table Definition”的窗口。 单击“Columns”的页框浏览和编辑列的定义,选择“Format”

47、页框来编辑文件的格式说明。导入Sequential元数据过程加载表结构定义 在导入了Sequential元数据结构后,可以将元数据的结构加载到“Sequential Stage”中。第六章 操作关联数据 下面的讲解中,将可以了解到: 设置ODBC连接来关联数据库。 导入关联的元数据。 从关联表中抽取数据。 加载数据到关联表。操作关联数据 在关联的源数据表单中抽取,过滤、转换数据。 加载数据到关联表单中。 通过ODBC Stage来进行连接。 支持用户定义SQL。 可以对关系型数据执行就像对Sequential数据那样的任务。可以对关系型数据表进行抽取、过滤、转换数据,也可以向关系型表单中加载数

48、据。 虽然可以通过本机得到驱动来操作一些关系型数据库,但Oracle等,也可以使用ODBC来访问这些关系型数据库。 使用ODBC Stage,既可以指定在一个或多个表的关联查询,也可以定义查询,还可以粘贴已经存在的查询。设置一个ODBC连接 在通过ODBC来访问数据之前,一定要先定义一个ODBC 的数据源。在Windows中,在控制面板中定义并使用32位的ODBC数据源。 ODBC数据源控制,有好几个页框。对于DataStage,我们需要将数据源定义在系统DSN中,而不是用户DSN中。 可以从dataStage安装盘中,安装更多的通用的关系型数据库系统的驱动。 点击添加来定义一个数据源。点击添

49、加后,会显示出一系列的驱动列表。选择适当的驱动而点击完成。 不同关系型数据库有不同的意图,在这个例子中, 定义一个Microdoft Access作为数据源: 1. 在数据源名称输入框中定义数据源的名称。 2. 点击选择选择一个存在的数据库,定义一个连接。 3. 点击创建,针对这个数据库定义一个连接。导入ODBC元数据 从ODBC数据中导入表单定义,类似于从Sequntial 文件中导入结构定义。在Manager中点击菜单Import -Table Definitions- ODBC Table Definitions, 开始进行导入。 DSN列表显示出DataStage服务端定义的数据源。选

50、择需要导入的数据源,如果需要,需要数据用户名和口令。 这时Import Metadata 窗口显示出来。列表显示出数据库中所有可以用到的表单,可供导入。选择一个或多个表单核导入的列别,点击OK即可。抽取关系型数据 从关系型数据库表单中抽取数据,类似于从关系型数据库表单中抽取数据,类似于从一个从一个SequentialSequential文件中抽取数据,除了文件中抽取数据,除了使用使用ODBCODBC的的StageStage代替了代替了SequentialSequential的的StageStage。 在这个例子里,从一个关系型数据表单中在这个例子里,从一个关系型数据表单中抽取数据,加载到一个抽

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(DATASTAGE的介绍及基本操作课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|