1、我们专注于审计、专注于数据分析、专注于大数据 Arbutus 概念与基础概念与基础 Arbutus Services Ltd. 2 Arbutus是与不是是与不是 不是现成的不是现成的 不是现成的大楼不是现成的大楼 不是精装修的房子不是精装修的房子 不是买回来的装饰画不是买回来的装饰画 可以画成油画 是一个审计数据分析工具集 可以是初级的 也可以是大师级的 也可以是空白的 也可以什么都不是 可以画成国画 也可以画成卡通画 Arbutus Services Ltd. 3 看看看看Arbutus长什么样:启动长什么样:启动Arbutus Arbutus Services Ltd. 4 几个关于数据
2、的概念几个关于数据的概念 几个关于数据的概念几个关于数据的概念 数据数据 数据域(字段)数据域(字段) 数据类型数据类型 数据记录数据记录 数据文件数据文件 结构化数据结构化数据和非结构化数据和非结构化数据 姓名姓名 地址地址 电话电话 薪水薪水 Anderson, Jane 876 Quiet Lane 345-6020 122000.00 Jones, Bob 123 Anywhere Street 345-8907 250000.00 Lim, Mike 209 Main Street 345-9032 89000.00 Ramirez, Able 992 10th Avenue 345
3、-2920 60000.00 Wong, Sue 345 Shady Street 345-9078 180000.00 包含数据的文件 数据 数据域 数据记录 数据类型: 数值 Arbutus Services Ltd. 5 多样的数据文件多样的数据文件 Excel Access txt dbase 数据库(数据库(database) PDF XML XBRL 变长文件:分隔符文件 固定长度文件:平构文件 报告文件 Arbutus Services Ltd. 6 Arbutus基本概念基本概念 项目项目 (Project) 表表 (Tables) 表布局表布局 (Table Layout)
4、源数据源数据 (Data Source) 视图视图 (View) 脚本脚本 (Scripts) 日志日志 (Logs) 文件夹文件夹 (Folders) Arbutus Services Ltd. 7 数据分析的元素数据分析的元素 命令命令 表达式表达式 过滤器过滤器 计算域计算域 函数函数 变量变量 Arbutus Services Ltd. 8 数据分析的元素数据分析的元素 命令命令 表达式表达式 过滤器过滤器 计算域计算域 函数函数 变量变量 命令命令 设定好的分析,包括了统计、分层、汇总、 分类、帐龄等等。命令的结果可以被展示 在屏幕、存储在文件、打印和作为图表显 示。 Arbutus
5、 Services Ltd. 9 数据分析的元素数据分析的元素 命令命令 表达式表达式 过滤器过滤器 计算域计算域 函数函数 变量变量 表达式表达式 被主要用于生成过滤器和计算域的公式。 它们执行运算,作逻辑判断,或生成在原 数据不存在的新值。 过滤器过滤器 逻辑表达式,选择所需的数据 计算域计算域 又称虚拟域 Arbutus Services Ltd. 10 数据分析的元素数据分析的元素 命令命令 表达式表达式 过滤器过滤器 计算域计算域 函数函数 变量变量 函数函数 预设好的,对特定数据进行运算的算式。 比例:ALLTRIM(),STRING(),VALUE(), DATE() Arbut
6、us Services Ltd. 11 数据分析的元素数据分析的元素 命令命令 表达式表达式 过滤器过滤器 计算域计算域 函数函数 变量变量 变量变量 被命名的,用于存储数据的内存空间。可 以是字符类型,数值型,日期型或者逻辑 型。 Arbutus Services Ltd. 12 审计数据分析是一个循序渐进、逐步累积的过程审计数据分析是一个循序渐进、逐步累积的过程 理 解 讨 论 业务人员业务人员 需求收集 分析团队分析团队 分析模型 分析团队分析团队 脚本固化 业务人员业务人员 结果应用 业务人员|分析团队 Arbutus Services Ltd. 13 基础知识小结基础知识小结 数据的
7、概念数据的概念 数据、域(字段)、类型、记录、文件数据、域(字段)、类型、记录、文件 基本概念基本概念 项目、表、日志、脚本、文件夹项目、表、日志、脚本、文件夹 数据分析要素:命令、表达式、函数、变量数据分析要素:命令、表达式、函数、变量 审计数据分析步骤审计数据分析步骤 计划计划 数据获取数据获取 数据完整性验证数据完整性验证 数据分析数据分析 结果报告结果报告 Arbutus Services Ltd. 14 数据基础概念数据基础概念(参看视频参看视频) Arbutus Services Ltd. 15 练习与测试练习与测试 请打开你的请打开你的Analyzer,熟悉界面及基本操作,请在各
8、处都点点看,熟悉界面及基本操作,请在各处都点点看 请使用配套习题请使用配套习题1 我们专注于审计、专注于数据分析、专注于大数据 模块二:数据获取模块二:数据获取 Arbutus Services Ltd. 17 内容内容 数据存取的三个阶段数据存取的三个阶段 了解数据所在了解数据所在 申请存取数据申请存取数据 存取数据存取数据 建立用于存取数据的表建立用于存取数据的表 Arbutus Services Ltd. 18 数据存取的三个阶段数据存取的三个阶段 了解数据所在了解数据所在 找出哪些数据是需要的、可用的;找出哪些数据是需要的、可用的; 理解可用的数据,文件类型;理解可用的数据,文件类型;
9、 用于存取这些文件的技术。用于存取这些文件的技术。 申请存取数据申请存取数据 将需求提交给有关部门,列明具体的要求。将需求提交给有关部门,列明具体的要求。 存取数据存取数据 建立一个建立一个Arbutus项目来组织需要的表布局(数据的结构信息)。项目来组织需要的表布局(数据的结构信息)。 建立表布局来存取你的数据(数据)。建立表布局来存取你的数据(数据)。 Arbutus Services Ltd. 19 了解数据所在了解数据所在 和信息管理部门建立紧密联系和信息管理部门建立紧密联系 教育你和你的员工教育你和你的员工 了解数据技术了解数据技术 数据存取和传输的方法数据存取和传输的方法 识别可用
10、的数据识别可用的数据 文件格式文件格式 文件包含的内容和域文件包含的内容和域 Arbutus Services Ltd. 20 确定数据文件格式确定数据文件格式 Excel, Access ODBC-兼容的数据源兼容的数据源 dbase 文件文件 大多数数据库系统可导出大多数数据库系统可导出dbase文件文件 平构文件平构文件 仅包含数据,没域定义信息(数据结构信息)仅包含数据,没域定义信息(数据结构信息) 如如FIL文件文件 报表文件报表文件 (用于打印用于打印) 仅包含数据,没域定义信息仅包含数据,没域定义信息 包括一些页眉、页脚、数据等信息包括一些页眉、页脚、数据等信息 分隔的文本文件分
11、隔的文本文件 仅包含数据,没域定义信息(数据结构信息)仅包含数据,没域定义信息(数据结构信息) 如:如:CVS(逗号分隔符文件)(逗号分隔符文件) XML文件文件 XBRL Arbutus Services Ltd. 21 申请数据申请数据 确定目标确定目标 标识出所需数据,例:资金交易流水、操作流水标识出所需数据,例:资金交易流水、操作流水 要求数据要求数据 数据要求(时间段、分支机构等)数据要求(时间段、分支机构等) 控制总数(控制总数(Total Control,记录数、小计、总计等)报告,记录数、小计、总计等)报告 传输数据传输数据 存取生产环境(或备份)数据库存取生产环境(或备份)数
12、据库 ODBC 存取一个数据复制存取一个数据复制 网络驱动器、网络驱动器、FTP Email 通过用户登陆存取数据源通过用户登陆存取数据源 自己登录到系统,使用导出工具,创建自己登录到系统,使用导出工具,创建Arbutus可读取的文件可读取的文件 Arbutus Services Ltd. 22 一起来看看常见的数据文件一起来看看常见的数据文件 分隔符文件(txt 文件,Delimited files) Access文件 分隔符文件特点: 1、使用特定的字符来分隔字段 2、没有表头信息 3、没有字段的数据类型 Access文件特点: 1、有表头信息 2、有字段的数据类型 3、有附件的其他信息(
13、如字体等) Arbutus Services Ltd. 23 一起来看看常见的数据文件(续)一起来看看常见的数据文件(续) Excel文件 dbf文件 Excel文件特点: 1、有表头信息 2、有字段的数据类型 3、有附加的其他信息(如字体) dbf文件特点: 1、有表头信息 2、有字段的数据类型 3、没有附加的其他信息 Arbutus Services Ltd. 24 读入读入Arbutus时要做哪些工作?时要做哪些工作? Arbutus数据文件(FIL):平构文件 数据结构信息保存在表布局中 计算机要能理解数据,要求: (1)数据结构信息: 表头(字段名称) 字段数据类型 (2)数据 分隔
14、符文件 没表头 只包含数据 Access文件 有表头 包含数据 Excel文件 有表头 包含数据 dbf文件 有表头 包含数据 读入Arbutus,将要做什么? (1)如何获取数据结构信息? (2)如何获取数据? Arbutus Services Ltd. 25 存取数据存取数据 直接存取:直接存取: Arbutus可在不导入和复制数据的情况下可在不导入和复制数据的情况下直接访问直接访问某些数据源。根据数据某些数据源。根据数据 源包含的布局信息,源包含的布局信息, Arbutus 可不同自动程度地创建数据表。可不同自动程度地创建数据表。 自动生成表布局自动生成表布局 手工生成表布局手工生成表布
15、局 外部定义外部定义 导入和复制:导入和复制: Arbutus 使用扩展名为使用扩展名为 FIL 的平构文件来的平构文件来创建数据源的副本创建数据源的副本。如果数。如果数 据源或数据访问技术提供记录布局信息,据源或数据访问技术提供记录布局信息,Arbutus将自动创建表。将自动创建表。 自动生成表布局自动生成表布局 手工生成表布局手工生成表布局 Arbutus Services Ltd. 26 数据导入小结数据导入小结 Dbase Excel Accpac DB2 / IMS / VSAM SAP AIS ODBC Excel Access Flat files Cobol PL/1 AS/4
16、00 Delimited files Report files 直接读取直接读取 转换转换 自动获取自动获取 表布局表布局 手工定义手工定义 表布局表布局 表布局表布局 数据数据 Arbutus Services Ltd. 27 数据导入数据导入(参看案例视频参看案例视频) Arbutus Services Ltd. 28 练习与测试练习与测试 练习练习 请练习将请练习将Arec.dbf,Credit_cards_metaphor.xls,Sample.mdf,delimit.dat导入导入 Arbutus中中 请使用配套习题请使用配套习题2 我们专注于审计、专注于数据分析、专注于大数据 模块
17、三:数据完整性验证模块三:数据完整性验证 Arbutus Services Ltd. 30 内容内容 关于数据完整性关于数据完整性 验证数据完整性验证数据完整性 检查有效性检查有效性 确认控制总数确认控制总数 检查边界值的正确性检查边界值的正确性 查找缺失的记录查找缺失的记录 识别重复的记录识别重复的记录 测试可靠性测试可靠性 其他数据完整性测试其他数据完整性测试 Arbutus Services Ltd. 31 什么是数据完整性?什么是数据完整性? 数据完整性意味着对表应该包含数据完整性意味着对表应该包含: : 所有你要求的数据,没有多余的数据所有你要求的数据,没有多余的数据 数值域只有数值
18、型数据数值域只有数值型数据 日期数据只有有效日期数据日期数据只有有效日期数据 没有缺失的记录没有缺失的记录 没有重复的记录没有重复的记录 域之间的关系应该是一致,并且符合逻辑的域之间的关系应该是一致,并且符合逻辑的 数据之间的关系符合业务规则数据之间的关系符合业务规则 Arbutus Services Ltd. 32 错误的来源错误的来源 输入输入 包括了不正确的数据,遗漏记录,不应该有的项,和无效数据。包括了不正确的数据,遗漏记录,不应该有的项,和无效数据。 处理处理 业务程序的错误可能导致有效性的错误。业务程序的错误可能导致有效性的错误。 提取提取 负责提取数据的人可能理解错了你的需求,或
19、者不小心提取了错误的数据。负责提取数据的人可能理解错了你的需求,或者不小心提取了错误的数据。 转换转换 程序员时常会把程序员时常会把EBCDIC数据转换成数据转换成ASCII数据。这过程有时会混淆了原来数据。这过程有时会混淆了原来 在大型机环境中的数据。在大型机环境中的数据。 传输传输 传输数据的过程有时会丢失数据。传输数据的过程有时会丢失数据。 定义定义 表布局中的错误会引起有效性错误。表布局中的错误会引起有效性错误。 Arbutus Services Ltd. 33 检查有效性(检查有效性(VERIFY) 确认你的表是有效的确认你的表是有效的 数据是正确的数据是正确的 域定义与数据吻合域定
20、义与数据吻合 使用使用 验证(验证(Verify)命令验证有效性命令验证有效性 如果发现错误如果发现错误: 确认错误是在表布局还是在数据本身。确认错误是在表布局还是在数据本身。 如果是表布局有错误,改正后再做有效性验证。如果是表布局有错误,改正后再做有效性验证。 如果是数据本身有问题,可以要求重传数据或尝试修改。如果是数据本身有问题,可以要求重传数据或尝试修改。 Arbutus Services Ltd. 34 确认控制总数确认控制总数 比较通过比较通过Arbutus产生的控制总数和报告一致产生的控制总数和报告一致 为了确认控制总数(为了确认控制总数(Total Control),可以使用:)
21、,可以使用: 记录计数(记录计数(Count)命令命令 合计域(合计域(Total)命令命令 统计(统计(Statistics)命令命令 如果控制总数不吻合如果控制总数不吻合: 通常代表数据提取的过程有问题;通常代表数据提取的过程有问题; 如果数据多于需要,可以使用一个过滤器把需要的数据提取出来;如果数据多于需要,可以使用一个过滤器把需要的数据提取出来; 如果数据少于需要,只能要求有关部门重传。如果数据少于需要,只能要求有关部门重传。 Arbutus Services Ltd. 35 检查边界值的正确性检查边界值的正确性 确认数据的上下限与你的需求吻合确认数据的上下限与你的需求吻合 数值的边界
22、数值的边界 日期的边界日期的边界 为了验证边界值,可以使用为了验证边界值,可以使用: 统计统计(Statistics) 命令命令 BETWEEN( ) 函数函数 如果你的数据不是刚好在边界值以内如果你的数据不是刚好在边界值以内: 如果你的表包含多余的数据,可以只提取有效的数据到一个新的表;如果你的表包含多余的数据,可以只提取有效的数据到一个新的表; 如果有缺失了边界值以内的数据,应该要求重传。如果有缺失了边界值以内的数据,应该要求重传。 BETWEEN( ) 根据指定值是否在最小值和最大值之间(包括最小值 和最大值)返回 True 或 False Arbutus Services Ltd. 3
23、6 查找缺失的记录(查找缺失的记录(GAPS) 查找可能被遗漏的记录查找可能被遗漏的记录 为了查找遗漏记录,可以使用为了查找遗漏记录,可以使用: 查找间隔(查找间隔(Gaps)命令命令 ISBLANK( ) 函数函数 如果找到遗漏的记录如果找到遗漏的记录: 确定遗漏的数据对你的分析有没有影响;确定遗漏的数据对你的分析有没有影响; 通知提供数据的部门。通知提供数据的部门。 ISBLANK( ) 根据字符串是否完全由空格组成而返回 True 或 False。 Arbutus Services Ltd. 37 识别重复记录(识别重复记录(DUPLICATE) 重复记录时有发生,有时是合理的重复记录时
24、有发生,有时是合理的 查找那些不应该有重复的重复的记录和某些域中重复的值查找那些不应该有重复的重复的记录和某些域中重复的值 使用使用查找重复(查找重复(Duplicates)命令查找重复命令查找重复 如果找到重复如果找到重复: 通过实际情况检验这些重复是否合理;通过实际情况检验这些重复是否合理; 联系提供数据的部门;联系提供数据的部门; 可以使用可以使用汇总(汇总(Summarize)命令建立一个不包含重复的新表。)命令建立一个不包含重复的新表。 查找重复,输出默认为文件。 如果查找很大的数据表,最好的方式是将结果保 存到文件,否则将花费相当长的时间。 Arbutus Services Ltd
25、. 38 测试可靠性测试可靠性 一定要检验通过计算得到的值一定要检验通过计算得到的值 确认这些通过计算得来的值没有错误确认这些通过计算得来的值没有错误 使用计算域来测试可靠性使用计算域来测试可靠性 如果你的计算域和原来的域不吻合:如果你的计算域和原来的域不吻合: 联系提供数据的部门;联系提供数据的部门; 如果问题普遍存在或是对分析影响大,要求重传。如果问题普遍存在或是对分析影响大,要求重传。 Arbutus Services Ltd. 39 数据完整性验证小结数据完整性验证小结 检验检验 使用使用 确认确认 有效性 验证(Verify) 数据与数据定义的有效性 控制总数 记录计数(Count)
26、 记录数,数值域和控制总数 吻合 合计域(Total) 统计(Statistics) 边界值 统计(Statistics) 数据在边界值以内 缺失的项 查找间隔(Gaps) 没有数据缺失 重复 查找重复(Duplicates) 交易的唯一性 可靠性 计算域(Computed fields) 有效的处理 合理性 组合命令 数据符合常理 关系 组合命令 数据之间的关系是一致的 Arbutus Services Ltd. 40 练习与测试练习与测试 请使用配套习题请使用配套习题3 我们专注于审计、专注于数据分析、专注于大数据 模块四:数据分析模块四:数据分析 Arbutus Services Ltd
27、. 42 内容内容 表达式表达式 单个数据表分析单个数据表分析 数据概况数据概况 分离数据分离数据 重新排序重新排序 多个数据表分析多个数据表分析 合并表合并表 联接表联接表 关联表关联表 Arbutus Services Ltd. 43 表达式表达式 一组操作符和数值,用于执行一组操作符和数值,用于执行: 计算计算 设臵逻辑条件设臵逻辑条件 产生不存在于原数据中的值产生不存在于原数据中的值 表达式主要用于创建过滤器或计算域表达式主要用于创建过滤器或计算域 在在Arbutus中有四种类型表达式中有四种类型表达式 逻辑、数值、日期、字符逻辑、数值、日期、字符 可由以下元素组合而成可由以下元素组合
28、而成: 数据域、操作符、常数、函数、变量数据域、操作符、常数、函数、变量 Arbutus Services Ltd. 44 操作符,值操作符,值 操作符操作符 说明说明 = 等于 大于 = 大于等于 = 小于等于 不等于 字符型值 双引号,如:”北京” 数值型值 没有符号,如:1234.56 日期型值 反单引号,如:20080723 Arbutus Services Ltd. 45 过滤器过滤器 一个逻辑表达式一个逻辑表达式 True (T) or False (F) 让你选择需要的数据让你选择需要的数据 类似于一个查询(类似于一个查询(Query) Arbutus Services Ltd.
29、 46 计算域计算域 一个被命名的表达式,用于计算生成新的数值。一个被命名的表达式,用于计算生成新的数值。 是一个虚拟的域,可以让你对其做进一步的分析运算。是一个虚拟的域,可以让你对其做进一步的分析运算。 不会影响和改变原来的数据不会影响和改变原来的数据 计算域可以是字符型,数值型,日期型或者逻辑型。计算域可以是字符型,数值型,日期型或者逻辑型。 计算域的四大用途计算域的四大用途: : 执行数学计算执行数学计算 转换域的数据类型转换域的数据类型 进行一些字词的转换进行一些字词的转换 建立逻辑测试建立逻辑测试 ( (过滤器过滤器) ) Arbutus使用固定小数位进行数学计算,四舍五入! 100
30、.00/2 = 50.00 3/4= 1 3.00/4= 0.75 Arbutus Services Ltd. 47 转换域的数据类型转换域的数据类型 从从 到到 使用使用 字符(Character) 数值(Numeric) VALUE() 字符(Character) 日期(Date) CTOD() 数值(Numeric) 字符(Character) STRING() 日期(Date) 字符(Character) DATE() Arbutus Services Ltd. 48 数据概况数据概况 数据的全貌数据的全貌 可以帮助确认趋势和异常可以帮助确认趋势和异常 五个建立概况的主要命令五个建立概
31、况的主要命令: : 分类分类 汇总汇总 交叉制表交叉制表 分层分层 帐龄帐龄 Arbutus Services Ltd. 49 分类(分类(CLASSIFY) 按唯一的字符型域累加一个或多个数值域按唯一的字符型域累加一个或多个数值域 用用分类(分类(Classify): 选定一个字符型域选定一个字符型域 选定要累加的数值域选定要累加的数值域 把结果输出到屏幕,把结果输出到屏幕,图表图表,打印或文件中,打印或文件中 思考:思考: 如果需要按多个字符型域累加数据?如果需要按多个字符型域累加数据? Arbutus Services Ltd. 50 汇总(汇总(SUMMARIZE) 按字符型或日期型域
32、累加一个或多个数值域按字符型或日期型域累加一个或多个数值域 使用使用汇总(汇总(Summarize)命令:)命令: 选定按哪些域作汇总选定按哪些域作汇总 选定累加哪些数据域选定累加哪些数据域 输出到屏幕,打印或文件输出到屏幕,打印或文件 Arbutus Services Ltd. 51 练习:分类、汇总命令练习:分类、汇总命令 数据表:数据表:Payroll(薪资发放流水)(薪资发放流水)AR(应收流水表)(应收流水表) 分类命令分类命令 分类域:分类域:Workdept(工作部门)(工作部门) 小计域:小计域: Gross_pay(税前工资)(税前工资) 按部门统计税前工资金额按部门统计税前
33、工资金额 汇总命令汇总命令 汇总域:汇总域:no(客户编号)、(客户编号)、type(交易类型)(交易类型) 小计域:小计域: amount(交易金额)(交易金额) 按客户和交易类型统计交易金额按客户和交易类型统计交易金额 思考:思考: 练习中金额小计结果占总的金额的百分比?练习中金额小计结果占总的金额的百分比? Arbutus Services Ltd. 52 交叉制表(交叉制表(CROSSTAB) 分类命令的逻辑延伸分类命令的逻辑延伸 产生关于两个或更多字符域的报表产生关于两个或更多字符域的报表 把相关的域安排进行和列把相关的域安排进行和列 使用交叉制表使用交叉制表, , 你你: : 选定
34、一个字符域作列选定一个字符域作列 选定一个字符域作行选定一个字符域作行 选定一个数值域作累加选定一个数值域作累加 输出结果到屏幕,图表,打印或者文件输出结果到屏幕,图表,打印或者文件 Arbutus Services Ltd. 53 分层(分层(STRATIFY) 按数值域的值把记录归类到不同的范围按数值域的值把记录归类到不同的范围 在使用在使用分层(分层(Stratify)前前: 找出数值域的总范围找出数值域的总范围 (统计统计) 选择最小和最大值作为分层的范围选择最小和最大值作为分层的范围 使用使用分层分层, 你你: 选定一个数值域选定一个数值域 选定间隔数选定间隔数 选定汇总的域选定汇总
35、的域 输出到屏幕,图表,打印或文件输出到屏幕,图表,打印或文件 Arbutus Services Ltd. 54 帐龄(帐龄(AGE) 把记录按一定帐龄归类把记录按一定帐龄归类 一般用于对应收账数据进行一般用于对应收账数据进行帐龄(帐龄(Age)分析分析 使用帐龄使用帐龄,你你: 选定一个日期域选定一个日期域 选定一个截止日期选定一个截止日期 选定帐龄周期选定帐龄周期 选定累加域选定累加域 输出到屏幕,图表,打印或者文件输出到屏幕,图表,打印或者文件 Arbutus Services Ltd. 55 练习练习 分层分层 数据表:数据表: Payroll(薪资发放流水)(薪资发放流水) 分层:分
36、层:Gross Pay税前工资(在一时间区间内薪资发放情况)税前工资(在一时间区间内薪资发放情况) 分分5层(均分)层(均分) 哪层的人数最多?有多少人?哪层的人数最多?有多少人? 人数最多的这层都涉及哪些部门?人数最多的这层都涉及哪些部门? Arbutus Services Ltd. 56 练习练习 账龄账龄 数据表:数据表: AP_Trans(应付流水)(应付流水) 账龄:以账龄:以2000年年5月月31日为账龄点,账龄周期使用默认设臵,观察发票金额日为账龄点,账龄周期使用默认设臵,观察发票金额 的情况的情况 如果如果2000年年5月月31日为本付款周期内的最后付款日期,日为本付款周期内的
37、最后付款日期, 有多少笔逾期未付?有多少笔逾期未付? 总金额最大的部分是正常记录吗?总金额最大的部分是正常记录吗? 逾期付款最久的部分有多少金额?有多少笔?逾期付款最久的部分有多少金额?有多少笔? Arbutus Services Ltd. 57 分离数据分离数据 建立数据的子集建立数据的子集 隔离跟你分析无关的数据隔离跟你分析无关的数据 三个隔离数据的方法三个隔离数据的方法: : 过滤器过滤器 提取命令提取命令 导出命令导出命令 Arbutus Services Ltd. 58 过滤器(过滤器(FILTER) 从一个表中分离出数据,但又无须把它们物理性地抽离或建立一个新的从一个表中分离出数据
38、,但又无须把它们物理性地抽离或建立一个新的 表;表; 但如果用于从一个很大的表中分离出极少量的数据,这个方法可能不是但如果用于从一个很大的表中分离出极少量的数据,这个方法可能不是 很有效率。很有效率。 Arbutus Services Ltd. 59 提取(提取(EXTRACT) 使用使用提取(提取(Extract)命令从原来的表中抽取特定的记录和域命令从原来的表中抽取特定的记录和域 只把与你分析工作相关的记录和域分离出来只把与你分析工作相关的记录和域分离出来 “提取的两个选项提取的两个选项: 记录记录 新的表和原来表的结构一样,新的表和原来表的结构一样,连原数据中未定义连原数据中未定义的区域
39、也包括在内的区域也包括在内 计算域在新表中仍旧是计算域计算域在新表中仍旧是计算域 域域 新表只包含选中的域新表只包含选中的域 计算域将在提取过程中计算出相应的值并作为物理性的域被保存在新表中计算域将在提取过程中计算出相应的值并作为物理性的域被保存在新表中 Arbutus Services Ltd. 60 导出(导出(EXPORT) 把把 Arbutus 作为一个数据转换的工具使用作为一个数据转换的工具使用 创建其他程序能读取的文件创建其他程序能读取的文件 导出(导出(Export)的两种方法的两种方法 选定需要导出的域选定需要导出的域 导出当前视图中所有的域导出当前视图中所有的域 导出数据到导
40、出数据到: ACCESS 剪切板剪切板 dBase 分隔文本文件分隔文本文件 Excel Lotus XML 各种数据库各种数据库 Arbutus Services Ltd. 61 对表进行重新排序对表进行重新排序 表重新排序,为了表重新排序,为了: 为其他后续的命令作准备为其他后续的命令作准备 三种重排表的方法三种重排表的方法: 排序记录(排序记录(Sort) 创建索引(创建索引(Index) 快速排序(快速排序(Quick Sort) Arbutus Services Ltd. 62 排序记录(排序记录(SORT) 建立一个新的表,里面的记录按特定的关键域排好序建立一个新的表,里面的记录按
41、特定的关键域排好序 新的表和原来的表有相同的结构新的表和原来的表有相同的结构 Arbutus Services Ltd. 63 创建索引(创建索引(INDEX) 在不建立一个新表的情况下,可以分析一个排好序的表。在不建立一个新表的情况下,可以分析一个排好序的表。 是逻辑性的重新排序,而不是物理性的。是逻辑性的重新排序,而不是物理性的。 Arbutus Services Ltd. 64 快速排序(快速排序(Quick Sort) 快速排序快速排序是一种按升序或降序查看记录临时方式,是一种按升序或降序查看记录临时方式,适用于视图适用于视图,适,适 用于命令用于命令 对数据表临时性排序,针对一个域对
42、数据表临时性排序,针对一个域 不会创建一个排好序的数据表不会创建一个排好序的数据表 Arbutus Services Ltd. 65 练习练习 快速排序、排序记录、创建索引快速排序、排序记录、创建索引 排序记录和创建索引排序记录和创建索引 数据表:数据表:Payroll 排序域:排序域:Workdept 索引域:索引域: Empno 快速排序:快速排序:Gross Pay税前工资最多的是多少?税前工资最多的是多少? Arbutus Services Ltd. 66 排序记录排序记录 vs 创建索引创建索引 要求要求 排序记录(排序记录(Sort) 创建索引(创建索引(Index) 执行速度执行
43、速度 较慢较慢 较快较快 生成的文件大小生成的文件大小 大大 小小 需要的磁盘空间需要的磁盘空间 较多较多 较少较少 后续命令对整个表的分析后续命令对整个表的分析 快很多快很多 慢很多慢很多 后续命令用于找出几个记录后续命令用于找出几个记录 慢很多慢很多 快很多快很多 Arbutus Services Ltd. 67 合并表合并表 有时候你需要比较来源于两个或多个表的数据有时候你需要比较来源于两个或多个表的数据 多个数据表还可能来源于不同的业务系统,如财务系统、营销系统多个数据表还可能来源于不同的业务系统,如财务系统、营销系统 三种合并表的方法三种合并表的方法: 提取(提取(Extract)命
44、令,同时选择命令,同时选择附加(附加(Append)选项选项 联接表(联接表(Join)命令命令 关联表(关联表(Relate)命令命令 Arbutus Services Ltd. 68 提取(提取(EXTRACT),附加(),附加(APPEND)选项)选项 建立一个新表建立一个新表: : 合并几个有相同结构的表合并几个有相同结构的表 包含同样类型的信息包含同样类型的信息 Arbutus Services Ltd. 69 联接表(联接表(JOIN) 用两个表中的记录组成一个新表用两个表中的记录组成一个新表 基于两个表中相同的关键域基于两个表中相同的关键域 可以基于多个对一个的配对关系可以基于多
45、个对一个的配对关系 6种类型的联接表种类型的联接表 : 匹配主表记录匹配主表记录 不匹配主表记录不匹配主表记录 匹配,且包含所有主表记录匹配,且包含所有主表记录 匹配,且包含所有辅助表记录匹配,且包含所有辅助表记录 匹配,且包含所有主表和辅助表的记录匹配,且包含所有主表和辅助表的记录 多对多匹配多对多匹配 Arbutus Services Ltd. 70 “联接表”例子联接表”例子 前五个联接表选项的例子前五个联接表选项的例子 薪资分类账(薪资分类账(Payroll Ledger) 包含一个付薪周期的薪金支付数据包含一个付薪周期的薪金支付数据 有一个员工有一个员工(003)得到了重复的支付得到
46、了重复的支付 员工表(员工表(Employee Records) 包含在职的员工和他们应得的薪资数目包含在职的员工和他们应得的薪资数目 有一个员工有一个员工 (002) 不在表中不在表中 Arbutus Services Ltd. 71 匹配的主表记录匹配的主表记录 每一个主表和辅助表中的记录匹配将在新表中生成一条记录每一个主表和辅助表中的记录匹配将在新表中生成一条记录 新的表记录了那些得到了薪资,并在员工表中有记录的员工新的表记录了那些得到了薪资,并在员工表中有记录的员工 Arbutus Services Ltd. 72 不匹配的主表记录不匹配的主表记录 每一条在主表中的记录,如果找不到在辅助表中的匹配,则在新表中产每一条在主表中的记录,如果找不到在辅助表中的匹配,则在新表中产 生一条记录生一条记录 新的表记录得到了薪金,但不在员工表中的人新的表记录得到了薪金,但不在员工表中的人 Arbutus Services Ltd. 73 匹配的主表记录匹配的主表记录, 包括所有主表记录包括所有主表记录 每一个主表和辅助表中的记录匹配将在新表中生成一条记录。而且每一每一个主表和辅助表中的记录匹配将在新表中生成一条记录。而且每一 条在主表中,但没有在辅助表中有匹配的记录也加上条在主表中,但没有在辅助表中有匹配的记录也加上