数据质量与信息质量综述课件.ppt

上传人(卖家):晟晟文业 文档编号:5139059 上传时间:2023-02-14 格式:PPT 页数:28 大小:2.48MB
下载 相关 举报
数据质量与信息质量综述课件.ppt_第1页
第1页 / 共28页
数据质量与信息质量综述课件.ppt_第2页
第2页 / 共28页
数据质量与信息质量综述课件.ppt_第3页
第3页 / 共28页
数据质量与信息质量综述课件.ppt_第4页
第4页 / 共28页
数据质量与信息质量综述课件.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

1、数据质量与信息质量12456数据质量与信息质量数据质量的评价方法TDQM循环3质量信息的内容和类别大数据拓展数据与信息数据与信息 数据是客观记录事物的可以鉴别的符号,包括数据是客观记录事物的可以鉴别的符号,包括文字、数文字、数字、声音、图像字、声音、图像等,具有客观性,是描述一个现象的原始事等,具有客观性,是描述一个现象的原始事实,例如温度,价格。实,例如温度,价格。信息是以适合于通信、存储或处理的形式来表示的信息是以适合于通信、存储或处理的形式来表示的知识知识或或消息消息,是通过对原始信息加工,产生明确、更容易理解的,是通过对原始信息加工,产生明确、更容易理解的知识或内容,是在特定背景下有特

2、定含义的数据。知识或内容,是在特定背景下有特定含义的数据。数据与信息区别 数据是信息的载体,信息是加工后的数数据是信息的载体,信息是加工后的数据。据。数据本身对我们来说并没有实际的数据本身对我们来说并没有实际的意义,但通过处理、分析、解读、综合之意义,但通过处理、分析、解读、综合之后,就会获得后,就会获得可理解的、有价值的可理解的、有价值的信息。信息。数据质量与信息质量来源来源数据质量技术角度准确性依附产品质量大批量数据数据库技术基于数据库的有效的测量、分析和改进早期20世纪70年代至今关注数据数据语义内容信息产生的速度信息社会信息质量良莠不齐影响组织运作信息质量数据质量和信息质量的联系 从数

3、据的产生到信息系统之间的过程是数从数据的产生到信息系统之间的过程是数据质量的问题,从信息系统到用户之间的据质量的问题,从信息系统到用户之间的过程是信息质量的问题过程是信息质量的问题 信息质量是在数据质量基础上得信息质量是在数据质量基础上得到的,包含了数据质量,数据质量的到的,包含了数据质量,数据质量的好坏在一定程度上决定了信息的质量。好坏在一定程度上决定了信息的质量。1.1.前后过程的关系前后过程的关系2.2.包含关系包含关系数据质量和信息质量的区别(1)数据质量和信息质量所要数据质量和信息质量所要解决问题的侧重点解决问题的侧重点不同不同(2)数据质量和信息质量数据质量和信息质量关注的对象关注

4、的对象不同不同数据质量和信息质量的区别数据质量是面向系统的,信息质量的研究对象范围更广泛,不仅包括数数据质量是面向系统的,信息质量的研究对象范围更广泛,不仅包括数据质量的内容,还注重信息的内容特征。据质量的内容,还注重信息的内容特征。(3)数据质量和信息质量所数据质量和信息质量所反映的质量观念反映的质量观念不同不同数据质量:数据质量:符合性符合性 数据生产者数据生产者数据管理者数据管理者信息用户信息用户”,是一种任务驱动的管理方,是一种任务驱动的管理方式。式。信息质量:信息质量:适用性适用性 “信息用户信息用户信息管理者信息管理者数据生产者数据生产者”,将用户的质量要,将用户的质量要求传递到求

5、传递到“数据生产者数据生产者”。数据质量与信息质量管理产品观 把数据或信息当做具有生产把数据或信息当做具有生产过程的产品这一观点是理查德过程的产品这一观点是理查德.王在王在19981998年就已经提出的。年就已经提出的。管理信息类产品需要对信息的理解有根本的转变,管理信息类产品需要对信息的理解有根本的转变,需要遵循需要遵循 以下以下4 4个原则:个原则:1)1)理解顾客的信息需求理解顾客的信息需求 2)2)把信息当成明确界定的产品来管理把信息当成明确界定的产品来管理 3)3)把信息当成具有生命周期的产品来管理把信息当成具有生命周期的产品来管理 4)4)由专门的信息产品管理者来管理信息产品由专门

6、的信息产品管理者来管理信息产品数据质量和信息质量主要研究的内容数据质量的研究主要围绕两个方面展开:数据质量的研究主要围绕两个方面展开:(1)数据质量的评估和监控)数据质量的评估和监控(2)从技术的角度如何保证和提高数据质量。)从技术的角度如何保证和提高数据质量。数据质量和信息质量的评价及其改进方法 数据数据/信息质量评价包括数据、相关业务记录和报告信息质量评价包括数据、相关业务记录和报告系统以及涉及到收集、存储和使用组织数据或信息的业系统以及涉及到收集、存储和使用组织数据或信息的业务流程。务流程。数据数据/信息质量的评价技术主要有三种:信息质量的评价技术主要有三种:1数据数据/信息质量调查信息

7、质量调查2可量化数据可量化数据/信息质量指标信息质量指标3数据数据/信息完整性评价。信息完整性评价。数据质量的评估和监控 数数据质量评估的核心在于如何具体地评估各个维度,据质量评估的核心在于如何具体地评估各个维度,目前方法主要分成两类:定性的策略和定量的策略。目前方法主要分成两类:定性的策略和定量的策略。对数据质量可从若干个维度进行分析:对数据质量可从若干个维度进行分析:(1)准)准确性确性(2)完整性完整性(3)一致性一致性(4)最小性最小性(5)(6)可信度()可信度(7)及时性()及时性(8)易获取性。)易获取性。数据质量提高策略 人们常常抱怨人们常常抱怨“数据丰富,信息贫乏数据丰富,信

8、息贫乏”。一个原因是缺乏有效的数据分析技术,另一个重要原因则是一个原因是缺乏有效的数据分析技术,另一个重要原因则是数据质量不高,如数据残缺不全、数据不一致、数据重复等,数据质量不高,如数据残缺不全、数据不一致、数据重复等,导致数据不能有效地被利用。导致数据不能有效地被利用。原因:原因:如何提高?如何提高?数据质量提高主要分两个角度:数据质量提高主要分两个角度:一类是从预防的角度,即在数据生命周期的任何一个阶一类是从预防的角度,即在数据生命周期的任何一个阶段,都有严格的数据规划和约束来防止脏数据的产生。段,都有严格的数据规划和约束来防止脏数据的产生。另一类是事后诊断,即由于数据的演化和集中,会有

9、脏另一类是事后诊断,即由于数据的演化和集中,会有脏数据涌现出来,需采用特定的算法检测出现的脏数据。数据涌现出来,需采用特定的算法检测出现的脏数据。数据质量提高技术数据清洗 数据重复对象检测、确实数据处理、数据重复对象检测、确实数据处理、异常数据检验、逻辑错误检验、不一致异常数据检验、逻辑错误检验、不一致数据处理等。数据处理等。数据清洗主要研究如何检测数据清洗主要研究如何检测并消除数据中的错误和不一致,并消除数据中的错误和不一致,以提高数据质量。以提高数据质量。(一)重复对象检验(一)重复对象检验主要研究两个方面:主要研究两个方面:1、关系数据库数据的重复记录检验。、关系数据库数据的重复记录检验

10、。2、XML重复元素检测。重复元素检测。(二)缺失数据处理(二)缺失数据处理主要处理方法:主要处理方法:1、单一填补法(平均值、中间数填补法、回归填补法、最大期望填补法)、单一填补法(平均值、中间数填补法、回归填补法、最大期望填补法)2、多重填补法、多重填补法(趋势得分法、(趋势得分法、PMM)(三)异常数据检测(三)异常数据检测 数据审计的方法,又称数据质量挖掘。数据审计的方法,又称数据质量挖掘。(四)逻辑数据检测(四)逻辑数据检测主要是数据编辑修正。主要是数据编辑修正。(五)不一致数据处理(五)不一致数据处理排序、融合和依据规则的方式。排序、融合和依据规则的方式。数据质量的保证和提高遵循的

11、过程数据质量分析数据质量分析发现问题发现问题应用独立清洗应用独立清洗应用依赖清洗应用依赖清洗数据质量分析数据质量分析 在这个不断反复的过程中,数据中在这个不断反复的过程中,数据中的问题逐步被发现解决,从而使数据质的问题逐步被发现解决,从而使数据质量得到保证和提高。这个过程周而复始,量得到保证和提高。这个过程周而复始,伴随数据的整个生命周期。伴随数据的整个生命周期。数据质量的保证和提高遵循的过程居于核心的是质量维度监控评估居于核心的是质量维度监控评估;中间一层是不依赖于知识的数据清洗中间一层是不依赖于知识的数据清洗,最外层是依赖于应用逻辑的数据清洗。最外层是依赖于应用逻辑的数据清洗。TDQM框架

12、1992年年MIT主导的全面数据质量管理项目主导的全面数据质量管理项目(TDQM)提出了数据提出了数据质量持续改进的框架质量持续改进的框架TDQM循环循环(1)定义;定义;(2)评价;评价;(3)分析;分析;(4)改进改进TDQM框架 在使用在使用TDQM框架进行信息产品的开发时,也需要进框架进行信息产品的开发时,也需要进行定义、评价、分析和改进四个过程行定义、评价、分析和改进四个过程:(1)定义信息产品,信息产品的定义有宏观和微观两个层次。定义信息产品,信息产品的定义有宏观和微观两个层次。(2)评价信息产品,关键是做好数据质量的评价矩阵。评价信息产品,关键是做好数据质量的评价矩阵。(3)分析

13、信息产品,在获得信息产品的评价结果后,信息产分析信息产品,在获得信息产品的评价结果后,信息产 品团队应该找出潜在数据质量问题的根本原因。品团队应该找出潜在数据质量问题的根本原因。(4)改进信息产品,分析过程完成之后,就进行产品的改进。改进信息产品,分析过程完成之后,就进行产品的改进。质量信息的内容和类别 质量信息就是企业质量管理活动中产生的反映产品质量信息就是企业质量管理活动中产生的反映产品质量和工作质量情况及其变化的各种数据、图表、图像、质量和工作质量情况及其变化的各种数据、图表、图像、文字及符号的总称。文字及符号的总称。质量数据是对生产过程质量数据是对生产过程测量结果测量结果的直的直接反映

14、,而质量信息则是在对质量数据进接反映,而质量信息则是在对质量数据进一步一步分析分析的基础上得到的,更能的基础上得到的,更能反映问题反映问题的本质的本质。质量信息的内容1.1.质量信息的内容质量信息的内容(1 1)产品符合性信息。指反映所生产的产品和提供的服务与设定的质量产品符合性信息。指反映所生产的产品和提供的服务与设定的质量标准符合程度的信息。标准符合程度的信息。(2 2)生产过程信息。指能反映生产过程能力和稳定性的信息。生产过程信息。指能反映生产过程能力和稳定性的信息。(3 3)顾客满意信息。指能反映顾客对组织是否已满足其要求的感受的信顾客满意信息。指能反映顾客对组织是否已满足其要求的感受

15、的信息。息。(4 4)采购信息。指与所采购的产品有关的信息。采购信息。指与所采购的产品有关的信息。(5 5)根据在寿命周期中所处的阶段不同,分为设计质量信息、制造质量)根据在寿命周期中所处的阶段不同,分为设计质量信息、制造质量信息、检验质量信息、使用质量信息、用后质量信息和市场质量信息,信息、检验质量信息、使用质量信息、用后质量信息和市场质量信息,分别表示在产品寿命周期的相应阶段产生的质量信息。分别表示在产品寿命周期的相应阶段产生的质量信息。(6 6)根据表述形式的不同,分为定性质量信息和定量质量信息。根据表述形式的不同,分为定性质量信息和定量质量信息。质量信息的作用(1)质质量信息对提高产品

16、质量有重要作用量信息对提高产品质量有重要作用(2)质量信息是企业进行质量决策的重要依据质量信息是企业进行质量决策的重要依据(3)质量信息是质量管理的基础质量信息是质量管理的基础(4)质量信息是提高企业经济效益的需要质量信息是提高企业经济效益的需要质量信息分析1.1.质量信息的类别质量信息的类别(1 1)根据质量信息的来源不同,分为根据质量信息的来源不同,分为内部内部质量信息和质量信息和外部外部质质量信息。量信息。(2 2)根据质量信息的功能不同,分为根据质量信息的功能不同,分为状态状态质量信息、质量质量信息、质量指指令令信息和质量信息和质量反馈反馈信息。信息。(3 3)根据质量信息的影响不同,

17、分为根据质量信息的影响不同,分为正常正常质量信息和质量信息和异常异常质质量信息。量信息。(4 4)根据质量信息的性质不同,分为根据质量信息的性质不同,分为工作工作质量信息、质量信息、工序工序质质量信息、量信息、产品产品质量信息和质量信息和服务服务质量信息。质量信息。质量信息分析有效的质量信息应具有以下特性:有效的质量信息应具有以下特性:(1 1)可靠性可靠性:可靠性要求质量信息要能够准确无误地反映:可靠性要求质量信息要能够准确无误地反映产品和生产过程的质量信息。产品和生产过程的质量信息。(2 2)有效性有效性:有效性要求质量信息不仅要是准确可靠的,:有效性要求质量信息不仅要是准确可靠的,而且要

18、能够反映企业存在的质量问题,要有针对性,要是决而且要能够反映企业存在的质量问题,要有针对性,要是决策需要的,要有助于企业做出正确的质量改进决策。策需要的,要有助于企业做出正确的质量改进决策。(3 3)可获得性可获得性:可获得性要求企业做到在适当的时间使适:可获得性要求企业做到在适当的时间使适当的人员能够获得适当的质量信息。当的人员能够获得适当的质量信息。(4 4)时效性时效性:信息一般都有很强的时间价值,随着时间的:信息一般都有很强的时间价值,随着时间的延长,其价值会越来越小。因此,及时获得需要的质量信息延长,其价值会越来越小。因此,及时获得需要的质量信息也是成功地进行质量管理的关键之一。也是

19、成功地进行质量管理的关键之一。(5 5)安全性安全性:企业必须保证只有经过授权的人员才能获得:企业必须保证只有经过授权的人员才能获得相应的信息。相应的信息。大数据维基百科对大数据的定义:大数据是指利用常用软件工具捕维基百科对大数据的定义:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。获、管理和处理数据所耗时间超过可容忍时间的数据集。大数据的大数据的4V特点:特点:Volume(大量)、(大量)、Velocity(高速)、(高速)、Variety(多样)、(多样)、Value(价值)。(价值)。工业大数据(一一)制造业从制造业从5M模式向模式向6C模式转型将催生工

20、业大数据模式转型将催生工业大数据(二二)工业大数据为研究工业复杂系统动态行为机理提供可能工业大数据为研究工业复杂系统动态行为机理提供可能5M:Material(材料材料)、Ma-chine(机器机器)、Methods(方法方法)、Measurement(测度测度)、Modeling(建模建模)。6C:Connection(连接连接)、Cloud(云储存云储存)、Cyber(虚拟网络虚拟网络)、Content(内容内容)、Community(社群社群)、Customization(定制化定制化)。在制造智能化时代,工业机器、设备、存储系统以及运营资源可以在制造智能化时代,工业机器、设备、存储系统

21、以及运营资源可以利用现代网络通信技术连接成网络。这些工厂与机器设备不仅可以随时利用现代网络通信技术连接成网络。这些工厂与机器设备不仅可以随时随地进行信息分享,而且互相连接的系统可以独立地自我管理随地进行信息分享,而且互相连接的系统可以独立地自我管理(自组织自组织).工业领域大数据主要呈现大体量、多源性、连续采样、价值密工业领域大数据主要呈现大体量、多源性、连续采样、价值密度低、动态性强等特点。度低、动态性强等特点。目前大数据应用技术、建模技术与仿真技术等信息技术,为研目前大数据应用技术、建模技术与仿真技术等信息技术,为研究工业领域机理不清的复杂系统的动态行为开辟了可能途径。究工业领域机理不清的复杂系统的动态行为开辟了可能途径。谢 谢

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据质量与信息质量综述课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|