大数据预处理技术-第5章-Kettle作业设计.pptx

上传人(卖家):三亚风情 文档编号:3583949 上传时间:2022-09-21 格式:PPTX 页数:85 大小:5.11MB
下载 相关 举报
大数据预处理技术-第5章-Kettle作业设计.pptx_第1页
第1页 / 共85页
大数据预处理技术-第5章-Kettle作业设计.pptx_第2页
第2页 / 共85页
大数据预处理技术-第5章-Kettle作业设计.pptx_第3页
第3页 / 共85页
大数据预处理技术-第5章-Kettle作业设计.pptx_第4页
第4页 / 共85页
大数据预处理技术-第5章-Kettle作业设计.pptx_第5页
第5页 / 共85页
点击查看更多>>
资源描述

1、数据预处理-第五章作业设计目录01020304作业的概念和组成作业的运行方式作业的设计变量目录050607监控命令行启动实验01作业的概念及组成作业的概念及组成 阶段1:作业的概念 阶段2:作业的组成作业的概念一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Hop)和每个作业项的执行结果来决定。什么是作业?作业的组成1.作业项2.作业跳3.注释作业流程图作业项n 作业的基本组成部分n 以图标的方式图形化展示作业项1.作业项可以有影子拷贝2.作业项之间传递一个结果对象3.可以并行执行作业项与转换步骤的区别作业项作业项执行返回一个结果对象结果对象包含的信息n

2、 一组数据行n 一组文件名n 读、写、输入、输出、更新、删除、拒绝的行数和转换里的错误数n 脚本作业项的退出状态作业项n 结果决定作业执行路径n 向下一个作业项传递一个结果对象作业流程图作业项结果的作用:作业跳概念作业项之间的连接线定义作业的执行路径作业跳3种判断方式n 无条件的n 当结果为真的时候继续下一步 n 当结果为假的时候继续下一步 小结本课程知识点:n 作业的概念n 作业的组成02作业的执行方式作业的执行方式 阶段1:回溯算法 阶段2:多路径和回溯 阶段3:并行执行作业的执行方式Kettle是使用一种回溯算法来执行作业里的所有作业项的,而且作业项运行结果(真或假)决定执行路径。回溯算

3、法概念 假设执行到了一条路径的某个节点,要依次执行这个节点的所有子路径,直到没有再可以执行的子路径就返回上一个节点,再反复这个过程。回溯算法示例执行顺序:START A B 结束搜索步骤:START A B A START 结束多路径和回溯执行顺序:除了ABC,还可以是CAB作业执行的两个重要特征n 作业的执行结果不是唯一的。n 作业项的多次运行结果会保存在内存里,便于以后使用。并行执行n 作业项A和C几乎同时启动n 各自单独执行 数据来源如果A和C是顺序执行的多个作业项,那么这两组作业项也是并行执行的。数据来源并行执行作为另一个作业的作业项小结本课程知识点:n 回溯算法n 多路径和回溯n 并

4、行执行03作业设计作业设计 阶段1:作业的创建 阶段2:START的使用 阶段3:“作业”作业项 功能 特殊性 作用 配置 阶段4:“转换”作业项 作用 配置作业创建n新建n保存名称 路径n 文件格式*.kjb“START”作业项作用:一个 作业的起点特殊性:一个作业必须且只能有一个。图标:“START”作业项功能:作业定时调度类型:n 不需要定时n 时间间隔n 天n 周n 月“转换”作业项图标:作用:调用预定义的转换目的:功能模块化易于管理重复使用“转换”作业项主属性:作业项名称:设置作业项的名称 Transformation:设置的是预定义的转换,可通过浏览按钮查找。“转换”作业项Opti

5、ons:设置引擎和执行方式“转换”作业项设置日志:可自定义日志“转换”作业项Arguments:可设置位置参数。“转换”作业项命名参数:设置命名参数并传递参数。“作业”作业项图标:作用:调用预定义的作业目的:功能模块化易于管理重复使用“作业”作业项主属性:作业项名称:设置作业项的名称 Job:设置的是预定义的作业,可通过浏览按钮查找。“作业”作业项Options:设置运行环境和执行方式 小结本课程知识点:n 创建作业n“START”作业项n“转换”和“作业”作业项04变量变量 阶段1:定义变量 阶段2:使用变量 概念和作用 定义变量的方式变量重要性 变量可以使作业变得更加可维护 概念 代表一个

6、任意长度的字符串值 它有自己的作用范围变量初始化变量的两种方式:n 系统内置n 用户自定义 变量系统内置:n Java虚拟机的变量如 java.io.tmpdirn Kettle内部定义的变量如 Internal.Entry.Current.Directory变量用户自定义:n kettle.properties n 命名参数n“设置变量”作业项n 在转换中设置设置变量kettle.properties 位于$KETTLE_HOME/.kettle文件夹下 键值对形式:key=valuen“key”代表变量的名称n“value”代表变量的值n“=”是赋值设置变量列表形式n 命名参数:变量名称n

7、 默认值:变量的值n 描述:描述变量命名参数 作业属性中设置变量设置变量属性n 获取属性文件n 设置变量“变量设置”作业项作业属性中设置变量1.在转换中设置变量2.在作业中调用转换转换设置变量注:转换中设置的变量在其自身是无法使用的使用变量n 格式:$变量名或者%变量名%n 文本输入框后有菱形的符号标记n 使用“Ctrl+Alt+空格”组合键来显示 变量的使用方法使用变量示例图小结本课程知识点:n 定义变量n 使用变量05监控监控 阶段1:日志 阶段2:邮件监控监控方式n 日志n 邮件 日志日志是针对执行过程的信息反馈 日志日志是针对执行过程的信息反馈 示例1日志示例2日志日志级别 从高到低依

8、次是:1.Nothing:不显示任何输出,基本不用。2.Error:只显示错误,一般在生产环境中使用,要求作业或转换在非常短时间内运行。3.Minimal:只使用最少的记录4.Basic:基本日志输出,一般也用于生产环境中,对于时间要求不太严格。如定期输出已处理的行数。5.Detailed:详细的日志输出。6.Debug:以调试为目的,非常详细的输出。7.Rowlevel:使用行级记录,会产生大量的数据,一般用于开发和测试阶段使用。日志日志的优缺点优点:便于程序监控和调试缺点:消耗系统性能日志的设置作业项中设置日志的输出Spoon启动作业日志的输出命令行启动作业使用参数设置level:设置日志

9、的级别logfile:设置日志的存放路径和文件名日志的输出命令行启动作业示例:Windows:kitchen/file:D:/demo/demo.kjb/level:BasicD:/demo/demo.log类unix:sh kitchen.sh/file:/home/job/demo.kjb/level:Basic /home/job/log/demo.log邮件邮件通知通过发送邮件的方式通知管理员作业的执行情况邮件通知示例邮件通知设置步骤:1.添加发送邮件作业项2.设置作业项属性邮件通知发送邮件步骤:1.添加发送邮件作业项2.设置作业项属性邮件通知1.添加发送邮件作业项邮件通知2.设置作业

10、项属性地址n 收件人地址:收件人邮箱地址;n 抄送:选填项n 暗送:选填项n 回复名称:n 发件人地址:发件人邮箱地址联系人:选填n 联系电话:选填 邮件通知2.设置作业项属性服务器n SMTP服务器:发送邮件的服务器地址;n 端口:服务器端口号n 用户验证?:勾选n 用户名:邮箱帐号n 密码:邮箱密码n 使用安全验证:选填 n 安全连接类型:选择类型邮件通知2.设置作业项属性邮件消息n 消息设置项:设置邮件的内容格式、邮件编码和优先等级n 消息项:填写邮件的主题和注释内容 邮件通知2.设置作业项属性附件n 带附件?:勾选则带附件n 文件类型:选择日志级别n 压缩成统一文件格式?:压缩文件n

11、压缩文件名称:设置压缩文件名称n 内嵌图片项:设置附件的图片 小结本课程知识点:监控方式n 日志n 邮件06命令行启动命令行启动 阶段1:工具和命令 阶段2:命令参数命令行启动启动作业的工具:kitchenn Windows:kitchen.bat 格式:kitchen.bat/file d:或者-file=D:或者/file:D:n 类Unix:kitchen.sh 格式:sh kitchen.sh/file d:或者-file=D:或者/file:D:命令行启动作业在文件中的示例:n Windows:kitchen/file:D:/demo/demo.kjb/level:BasicD:/d

12、emo/demo.logn 类unix:sh kitchen.sh/file:/home/job/demo.kjb/level:Basic /home/job/log/demo.log命令行启动作业在资源库中的示例:n Windows:kitchen/rep etl/user admin/pass admin/dir demo/job demo/level Basic/logfile D:/demo/log/demo.logn 类unix:sh kitche.sh-rep=etl-user=admin-pass=admin-level=Basic-job=demo命令行启动Kitchen和和Pan共有的命令行参数共有的命令行参数 命令行启动Kitchen独有的命令行参数小结本课程知识点:n 命令行启动作业的工具和命令格式n 命令行的参数07实验谢谢观看

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据预处理技术-第5章-Kettle作业设计.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|