1、江聪世江聪世武汉大学国际软件学院武汉大学国际软件学院13871170005(M),68778770(O)ssd9_QQ:523958303QQ群:210998848.1 空间数据质量n空间数据质量问题主要表现:u数据不正确u数据不完整u数据不一致n空间数据是空间信息应用项目得以正常运行的“血液”。n从数据作为产品的角度出发,应该对空间数据的质量有一个恰当的描述,也称为质量信息,用户可以根据质量信息来选择适合自己应用范围和应用质量要求的数据产品。n空间数据质量的好坏直接影响到数字工程建设的经济效益和社会效益。 8.1.1 空间数据质量的定义n 空间数据质量是指数据适用于不同应用的能力。u数据质量
2、的概念主要是指在数据生产过程中形成的“质量”指标,如精度、一致性、完整性等,也称本征质量。u用户使用数据时的满意程度成为衡量数据质量的重要指标。在这种意义上,数据质量可以说是满足使用要求的相对状态,也称为广义数据质量,本征质量外可得性(即获取的难易程度)满足用户要求的程度、表达的是否清晰易懂以及动态质量等。n 这种广义数据质量的概念在各种数据质量描述框架中虽然内容有差别,但不同程度均有反映,综合起来主要包括:u数据源、点位精度、属性精度、要素完整性和属性完整性、数据逻辑一致性、数据现势性等。 8.1.1 空间数据质量的定义n 导致数据质量问题的10大原因为(Wang R.Y & Strong
3、D.M.,1996)u多重数据源u数据生产中主观的判断与技术u过松或过严的输入规则u大量的数据u分布式异构系统u复杂的数据表达如文本和图像u不同功能领域的编码数据u客户改变数据需求u安全与可访问性的权衡u有限的计算资源 n 数据质量主要侧重的问题在于两方面: u数据的可信度,这是在数据生产过程中形成的质量,为本征质量;u数据的可用度,是从用户或数据共享的角度出发描述数据质量,将用户要求的满意程度作为衡量数据质量的重要指标,此时的数据质量表现为满足使用要求的相对状态。 数据可信度 数据可用度 数据不完整与要素连续性错误示例数据质量描述框架 n 通俗地说,描述数据质量的框架确定从哪些方面描述数据质
4、量。建立反映领域特点的数据质量框架,是数据质量控制首先要解决的问题。 n 几种不同类型的数据质量描述框架 u(1)美国联邦政府对联邦机构向公众传播的数据质量描述框架(OMB Guidelines,2003):实用性、客观性(准确、可靠、清晰、完整、无歧义)、安全性。u(2)国际金融基金会统计部经研究提出的数据质量描述框架(Carol S. Carson, 2000):包括产品质量与制度质量两大方面。分为5个域进行描述:完整性、概念一致性、准确度、服务性及可访问性。每个域再细分为若干元素及指示元素。u(3)美国国防部在其数据质量指南中提出的数据质量描述框架(DOD Guidelines,2004
5、):准确度、完整性、一致性、现势性、主键唯一性及值域的有效性。u(4)国际地理信息标准lSO19113提出的地理信息质量描述框架:分为定量数据质量与非定量数据质量。u(5)在MIT(麻省理工)的研究成果中,数据质量被描述分为四个大类,其中每类中再分解成若干域, MIT的数据质量描述框架 n 确保空间数据的准确并不是很容易的任务。u首先,数据信息来源于多个方面,例如基础测绘数据、卫星影像数据、外业普查数据、统计数据等;u其次,与空间信息有关的需求与流程具备极强的专业性,这加剧了数据来源的复杂性;u最后,各个信息采集部门,专业生产部门都有独立的数据源,导致数据的分散性和差异性。n 由于人类对空间实
6、体或现象认识和表达上的局限性,致使对地理环境的抽象表达不可能完全达到真实值,只能在一定程度上接近真实值,从这种意义上讲空间数据存在质量问题是不可避免的,同时在空间数据处理的过程中也会产生不同程度的误差。 空间数据肯定包含误差,Error不是错误8.1.3 影响空间数据质量的原因n有效的数据质量保证工作开始于数据采集。一旦错误的数据进入系统,再想把它修正过来,代价十分巨大。据统计,修正错误数据的成本是阻止错误数据发生的成本的10倍。一些数据质量工具可以对数据进行管理、分析、集成、标准化,以及消除重复记录。n美权威IT调查咨询公司MetaGroup(目前为GartnerGroup)2003年发布的
7、一份数据质量工具评价报告指出,在接下来的35年内,数据质量工具每年的增长率将达到20%30%,数据质量市场规模将从5亿美元增长到10亿美元。 数据质量产生的原因 n 1、空间现象自身的不稳定性:u空间数据的主要研究对象是地球,地球是一个复杂的动态巨系统,地球上发生的许多变化和过程十分复杂且呈非线性特征,时间和空间的跨度变化不等。例如河流的改道,陆地板块的挤压造成海平面的上升与下降,地震海啸引起的泥石流、山体滑坡等等u空间现象自身存在的不稳定性包括空间特性和过程在空间、专题、时间和内容上的不确定性。空间现象在空间上的不确定性是指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其
8、在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性、非数值型属性值表达的不精确性。 2004年6月23日海啸前 2004年12月28日海啸后 数据质量产生的原因 n 2、空间数据生产中的误差:u(1)系统误差是指在相同条件下重复测量同一数据量时,误差的大小和符号保持不变,或按照一定的规律变化的误差。u(2)随机误差也叫偶然误差。在相同条件下多次重复测量同一量时,误差大小和符号无规律的变化的误差称为随机误差。u(3)粗差也叫过失误差。这种误差是由于测量者对仪器不了解、粗心,导致读数不正确而引起的,测量条件的突然变化也会引起粗差。空间数据生产应用过程中产生的误差 航摄数据
9、的生产过程以及需要进行数据质量检查的环节 空间数据生产应用过程中产生的误差n 不同的数据生产方式误差来源不同:u用全站仪、电子速测仪、GPS施测的野外测量误差包括仪器误差、人为误差、环境误差等。仪器误差是指测量仪器本身的电气或机械等性能不完善所造成的误差,消除仪器误差的方法是配备性能优良的仪器并定时对测量仪器进行校准,主要是系统误差。人为误差也叫操作误差,是指测量过程中因操作不当而引起的误差,此类误差可能是粗差,也可能是系统误差或随机误差,例如测量结果的读数错误,减小使用误差的办法是测量前详细阅读仪器的使用说明书,严格遵守操作规程,提高操作技巧和对各种仪器和操作能力。环境误差主要因为温度、气压
10、、湿度、磁场等变化以及信号干扰、风力、日照等引起的。 空间数据生产应用过程中产生的误差n 不同的数据生产方式误差来源不同:u纸质地图的扫描矢量化,纸质地图变形(温度、湿度变化)带来的误差:p线性变形:地图的缩放、旋转、平移 p非线性变形:主要是指地图的扭曲,根据变形的区域不同存在着不均匀的局部(Local)变形和全局(Global)变形。数据转换带来的误差 扫描误差空间数据生产应用过程中产生的误差n 不同的数据生产方式误差来源不同:u由航片或近景测量所导致的遥感数据误差是累积误差,即在数据获取、处理、分析、转换和人工判读等各个阶段中产生的误差都有可能产生,如果一个环节中的质量问题没有完全解决,
11、就有可能不断累积下来,造成误差上的误差。 遥感数据获取误差是获取数据的过程中受自然条件影响及卫星的成图成像系统所造成的。传感器精度与畸变带来的误差处理误差是利用地面控制点对原始数据进行几何校正、辐射纠正、图像增强和分类、重采样等时引起的 矢量数据与栅格数据的转换过程中形成的转换误差p线性变形:地图的缩放、旋转、平移 p非线性变形:主要是指地图的扭曲,根据变形的区域不同存在着不均匀的局部(Local)变形和全局(Global)变形。人工判读误差 扫描误差空间数据生产中的误差n 3、空间数据处理中的误差u1)投影变换误差:在不同的投影形式下,地理特征的位置、面积和方向的表现会有差异,因此要进行地图
12、投影变换。地图的比例尺是指真实的主比例尺。例如,对兰勃托正形投影而言,主比例尺只有沿着标准纬线时才是不变的,而标准纬线之间的比例尺变小,标准纬线之外的比例尺变大。因此,在将地图数字化或者从地图上量距时,必须利用适当的比例尺因子进行改正。如果从不同的图上采集信息,必须要了解图的投影方式是否一致、比例尺是否匹配。修测后的旧图在新的版本中可能采用不同的投影方式。空间数据生产中的误差n 3、空间数据处理中的误差u(2)在地图数字化及矢量化处理时,采点的位置精度、空间分辨率、属性赋值等都可能产生误差。数字化和扫描误差与特征的宽度操作员的技术水平特征的复杂程度数字化仪的分辨率特征的密度都有关。u例如当数字
13、化一条粗线时,数字化头难以始终保持在线条中间;在数字化山区等高线时,操作员易产生误差,操作员疲劳时,也容易出错。通常,线划跟踪技术和扫描仪所引起的平面误差较小,但在扫描时特征跟踪误差有可能较大。 空间数据生产中的误差n 3、空间数据处理中的误差u(3)在数据转换时,可能因为源数据格式与目标数据格式之间的组织方式有所差异,而引起信息的失真甚至丢失,从而造成目标数据与原始数据的差误,若控制方法不当,经过多次转换之后,就可能以讹传讹,误差不断累积滋生,最后的数据结果与真实环境大相径庭。其中,数据转换误差主要包括3类:栅格格式与矢量格式在互相转换时,由于数据结构的差异会带来一定程度的误差;不同文件格式
14、的数据之间进行转换时,由于各系统内部数据结构不同和功能差异,往往造成信息的损失;通过各种计算方法如坐标变换、比例变换、投影变换等对数据进行处理时,在变换的过程中由于算法模型本身的局限会引起误差。空间数据生产中的误差n 3、空间数据处理中的误差u(4)空间分析是空间数据得以超越本身实体意义的操作过程,但是在数据之间建立拓扑关系和不同数据层进行匹配、叠加与更新时,会产生空间位置和属性值的差异。例如在城市规划中,建设用地的界址点必须在用地红线上,地形图中以河流为国界时,河流与国界线必须一致,如果无法满足这些空间关系的要求,则认为产生质量问题。空间分析过程中的多层立体叠置会产生大量的冗余多边形 数据质
15、量产生的原因 n3、空间数据处理中的误差u(5)数据在可视化表达过程中为适应视觉效果,带来的误差:制图综合:取舍、简化、概括制图美观性要求对图面要素的调整带来的误差:增强图的可交流性,使图易读,需对数据的空间特征位置、注记等进行调整,有时甚至需要夸大某些特征,由此会因为在图上难以按其真实情况表示而产生数据表达上的误差。例如,实地上的国界、省界等分界线一般没有宽度,而在地图上表示时它必然占一定宽度。有时根据图的用途,也需要将某些特征夸大以区别于其他特征,例如在道路图上,将道路特征夸大以示醒目。特征夸大所导致的误差取决于地图的比例尺、用途和所涉及特征的种类。 显示设备误差、输出设备误差数据质量产生
16、的原因 n 3、空间数据处理中的误差u(6)在使用空间数据时,由于用户对数据的解释的偏差,数据本身缺少对数据集相关信息的声明(如缺少投影类型、数据定义等描述信息),都会导致数据用户无法正确有效地使用数据,或者是由于对数据的随意性使用而使误差扩散。u除此之外,空间数据还可能存在大量的非量化误差。包括:错标误差。错标误差是注记出错而导致的误差。例如把无毒的塘错标成有毒,或把有毒的塘错标为无毒。此类误差有时会造成很棘手的局面。错误分类误差。把道路、符号和林地等错误分类也会造成实际误差,使用合适的命名、正确拼写名称也是十分重要。特征编码误差。像等高线、河流之类数字化的特征,要加注属性信息。而在加注过程
17、中,也可能产生误差,即特征编码误差。实际信息要么正确,要么错误,故此类信息无精度规范或标准存在。 数据质量产生的原因 n 4. 数据组织时产生的质量问题u数据组织时的质量问题单个数据集合中,例如一个数据文件或者一个数据库;多个数据集的集成中,例如数据仓库。对于数据质量来说,仅仅关心数据源本身的质量是不够的,因为小到一个数据文件的建立,大到数据仓库的建设,里面包含的数据记录之间并非各自独立,而是具有千丝万缕的关系,因此还应该关注数据的组织与关系所引起的质量问题。大量异源异构数据的汇集,要进行有机的组织和管理才具有长久的生命力。u与数据记录本身相关的质量问题,称为实例相关问题。(1)空缺值:一些记
18、录的属性为空,这往往由于在数据输入时没有合适的数据、遗漏或者采用缺省值等原因而引起。(2)拼写问题:拼写错误,缩写等问题。例如把“metadata”拼写为“matadata”,将“武汉大学”缩写为“武大”。 (3)内嵌数据:一个字段包括多个数据,这经常出现在一些具有自由格式的字段中。(4)属性依赖冲突:如地址与门牌号码应该相对应,年龄应当等于当前年份与出生年份的差值。(5)数据重复:如由于数据输入的错误导致有多条记录表示现实世界中的同一个实体。数据质量产生的原因 n4. 数据组织时产生的质量问题数据质量产生的原因 n 4. 数据组织时产生的质量问题u与数据组织关系有关的质量问题,称为模式相关问
19、题(约束)。事实上一个数据源的数据质量在很大程度上是由数据模式以及相应的完整性约束决定的。数据模式和完整性约束控制了所允许进入源数据集中数据的范围。如果在一个源数据集中没有数据模式的约定,就会导致进入和存储的数据缺乏相应的限制,出现数据错误和不一致的概率也将大大提高。数据组织中产生的质量问题主要是由于缺乏合适的数据模型或满足特定应用的完整性约束而引起的。这些与数据模式相关的质量问题可以进一步细分为:记录属性(字段)记录关系记录类型以记录来源。u对于多数据源的语义冲突名城冲突结构冲突(表示方法不同)数据冲突(实例级)类型定义不同8.1.4 研究空间数据质量控制的重要意义n空间数据是我们认识自然、
20、改造自然进行决策的依据,是源泉,所以在使用空间数据前一定要对空间数据进行评价,保证空间数据的质量能够满足任务的精度要求,从而保证决策的正确性。8.2 质量控制体系n 为了有效的控制误差,必须建立起适宜的数据质量控制体系,从数据采集、数据处理、数据组织、数据应用等多方面进行有效性、质量、安全性、完备性和使用效果的全面管理。:8.2.1 质量管理体系n 空间数据质量管理:u一是从数据生产和数据的质量管理角度出发,是指对空间数据生产的整个流程进行的质量跟踪和管理;u另一层意思是从空间数据质量在使用中的表达出发,是指对空间数据质量情况进行的可用性管理。 n 空间数据质量管理体系的要点 :u(1)定义。
21、分为三部分:定义数据产品的特征,即满足客户应用要求的功能、基本单位、组成部分及相互关系;定义质量要求,从数据的提供者、生产者和管理者等不同的角度定义数据产品的要求;定义数据生产系统。u(2)量度。根据数据产品的定义,跟踪数据的量度,监控数据质量。u(3)分析。分析度量结果,找出数据质量出现问题的根本原因。u(4)改进。分析过程结束后,即可根据分析的结果,采取措施消除产生数据质量问题的根源,进而改进数据质量。n 数据周期中的质量管理通常是针对空间数据生产流程进行的质量控制行为,主要包括数据的来源、数据质量标准的选择,数据质量项目的检查,数据的修改等行为的管理。目的是对空间数据的生产加工进行有效的
22、监控,以使空间数据质量符合有关的要求,同时,对空间数据的不确定性指标、处理流程、处理情况等进行详细的文档记载,以利于空间数据的共享和分析。n 质量管理的责任者包括数据生产商、软硬件提供商以及系统整合者等。每一个责任者都需要依据相关的工具,进行空间数据产品中有关数据质量信息交流的文档生成、跟踪、审核等处理。这一过程需要贯穿于空间数据生产的整个流程,包括数据生产、软硬件提供、系统整合、数据使用、最终产品、空间数据在决策中的应用。n 空间数据的质量问题是空间特征由于种种内在或外在原因引起的,是空间目标在空间信息系统中存在的状态和其在地理空间中存在状态的差别的反映。质量问题本身具有抽象的特点,可以通过
23、数值、概念得到反映,必须依据定量化和定性化不确定性指标值进行描述。 6.2.2 质量标准体系n 空间数据质量方面的国际标准化组织uISO/TC211(国际标准化组织/地理信息技术委员会)地理信息-质量标准ISO15046-13地理信息-质量评价过程标准ISO15046-14。 uCEN/TC287(欧洲标准委员会地理信息技术委员会)uFGDC(美国联邦地理数据委员会) 6.2.2 质量标准体系n1. 空间信息质量规则 u(1)描述数据质量的元素(元素及子元素)非定量的质量信息定量的质量信息6.2.2 质量标准体系n 1. 空间信息质量规则 u(1)描述数据质量的元素(元素及子元素)非定量的质量
24、信息定量的质量信息6.2.2 质量标准体系n 1. 空间信息质量规则 u(1)描述数据质量的元素(元素及子元素)u(2)描述具体数据的数据质量信息的指南可根据实际数据与应用的特点确定数据质量元素与子元素。有些数据的质量并不需要用上述所有元素来描述。还可根据需要可扩充新的质量元素与子元素。三个非定量的质量元素对所有的数据都是必选的。此外根据需要也可扩展。u(3)数据质量信息的报告定量质量信息的报告有两种方式,p按照ISO19115的规定报告p按照ISO19114的有关规定采用质量报告的方式报告数据质量;非定量质量信息的报告只有一种方式,即按照ISO19115的规定进行报告。6.2.2 质量标准体
25、系n2. 空间信息数据质量的量度u该标准的目的是规范空间数据的量度,使得数据质量更具可比性,便于用户对不同来源的数据进行对比,确定哪些数据适合自己的应用。u(1)定义数据质量度量注册簿的内容与结构。u(2)提供数据质量度量的基本集合,如错误个数、错误率、误差均值、最大误差、标准偏差、布尔值。同一个数据质量元素可使用不同的度量。最终的确定取决于数据的类型和预期目的。数据质量产生的原因 n 3. 质量标准与检查规范u数据质量标准与检查规范包括数据源质量规范(所采集数据的基本要求)数据生产质量规范(采集手段中避免误差而制定的规范)数据加工处理质量规范(采集结果转化为所需格式数据时依据的规范)数据使用
26、质量规范(数据使用过程中对适用场合、适用对象的一些要求同种数据面对不同用户所要求的质量水平不同)。u数据的生产者在数据产品生命周期的不同阶段,如制定规范、数据生产、交付、使用和更新等过程可根据标准确定对数据质量的要求,在生产过程中指导质量评价并报告评价结果,也可用于向用户描述自己产品的质量。这些标准为不同的数据生产者描述、评价及报告数据质量时提供了统一的框架,便于用户对不同来源的数据进行对比,便于选择合适的数据。主要涉及到的国家标准与规范包括以下内容:数据质量产生的原因 n 空间信息数字工程中的标准体系:为确保系统各数据为确保系统各数据库与各功能模块之库与各功能模块之间的数据分类、编间的数据分
27、类、编码及数据文件命名码及数据文件命名的系统性和唯一性,的系统性和唯一性,从而满足系统正常从而满足系统正常高效运行以及与其高效运行以及与其他相关系统协同运他相关系统协同运作的要求,实现系作的要求,实现系统之间相互兼容、统之间相互兼容、信息共享,数据库信息共享,数据库建设时必须对规范建设时必须对规范化,标准化原则予化,标准化原则予以高度重视,包括以高度重视,包括下列数据标准:下列数据标准: n空间数据标准是指空间数据的名称、代码、分类编码、数据类型、精度、单位、格式等的标准形式。目前我国已有一些与GIS有关的国家标准,内容涉及数据编码、数据格式、地理格网、数据采集技术规范、数据记录格式等。 管理
28、标准明细表 方法标准明细表 术语标准明细表术语标准明细表信息分类和编码明细表 空间数据标准明细表 标准名称现行标准国家、行业标准数字测绘产品检查验收规定和质量评定GB/T 18316-2001数字地形图系列和基本要求GB/T 18315-2001全球定位系统(GPS)测量规范GB/T 18314-2001数字测绘产品质量要求 第1部分: 数字线划地形图、数字高程模型质量要求GB/T 17941.1-2000测绘产品质量评定标准CH 1003-1995测绘产品检查验收规定CH 1002-1995测绘技术总结编写规定CH 1001-1991地理点位置的纬度,经度和高度的标准表示法GB/T 1683
29、1-1997数据采集规范地球空间数据交换格式(中文) GB/T 17798-1999软件工程和系统设计标准空间要素标识规范与标准 序号标准名称现行国家、行业标准级别1地理格网(中文)GB 12409-1990国家标准2地理信息空间基础定位基本要求GB104.15国家标准5城市地理要素 城市道路、道路交叉口、街坊、市政工程管线编码结构规则GB/14395-3 国家标准6城市地理要素 建筑物、构筑物编码结构规则系统规范7城市地理要素,市政工程管网附属设施编码结构规则系统规范8城市地理要素,道路交通设施编码结构规则。系统规范9城市地理要素,地块、宗地编码结构规则系统规范图形符号标准 中文信息处理标准
30、 序号标准名称国家、行业标准级别备注汉字输入方式规范汉字输出方式规范信息交换用汉字编码字符集基本集GB 2312-80汉字传输规范中文信息处理系统设计导则汉字输入方法评测规则电子数据交换基础标准 n统一的地理定位标准统一的地理定位标准所有的基础空间数据系列必须具备相应统一的空间定位标准,即具有统一的平面坐标基准,高程基准,投影类型和分带系统。 本系统选择的坐标系统为广州独立坐标系,高程系统采用珠江高程基准。 序号标准名称国家、行业标准管理信息系统总体标准 数据库交换文件规范(中文)QJ 1859.3-1990 电子数据交换术语GB/T 14915 用于行政、商业和运输业的电子数据应用及语法规则
31、GB/T 14805 用于行政、商业和运输业的电子数据段目录GB/T 15634 用于行政、商业和运输业的电子数据复合数据元目录GB/T 15635用于行政、商业和运输业的电子数据报文设计指南与规则GB/T 15947用于行政、商业和运输业的电子数据代码表地形数据库与地名数据库接口技术规程GB/T17797-99地学数字地理底图数据交换格式DZ/T 0188-1997地球空间数据交换格式GB/T17798-998.2.3 质量控制措施n数据质量并非越高越好,如果进入数据库中的质量过高,超过实际需要,则可能造成不必要的浪费;反之,质量太低,则达不到要求,不能满足生产需要。因此,应当从费用分配、生
32、产方水平、用户方(人、制度、技术)需求等方面制定切实可行的数据质量控制要求。u理解客户的信息需求u将信息作为具有明确定义的生产过程的产品进行管理u将数据作为具有生命周期的产品进行管理u设置数据产品管理员管理数据生产过程与结果。 空间数据质量总体控制 n1总体技术方案的控制与评价n一个数据生产项目的总体技术方案是贯穿整个数据生产流程和质量保证的关键。总体技术方案的科学性和可行性是最终保证空间数据质量的前提。根据现有的计算机软硬件条件、时间、人员等情况,以充分满足用户需求为前提而提出的切实可行的技术方案。u(1)用户需求分析及联合设计。用户需求决定了数据生产的最终目的及数据的面貌。充分听取用户的意
33、见,从用户的角度出发,根据空间数据的可用性(包括位置精度、属性精度、逻辑一致性、要素完备性、现势性、影像质量、附件质量,确定联合设计方案。u(2)数据源。数据源是数据生产的原材料,它在最终决定数据的现势性、可用性方面起着关键作用。收集和正确应用多源数据,才能确保空间数据的可信性与可用性。u(3)制图综合。制图综合决定了地理实体表达的繁简程度。要根据比例尺、用户需求、地理特征等情况决定表示什么,突出表示什么,舍弃什么,最终决定了信息载负量和数据的冗余度。u(4)数据生产时间。时间在决定空间数据质量方面起着举足轻重的作用。只有充足的时间才能生产出数据精品。时间与速度兼顾,这是不可违背的规律。u(5
34、)引用标准。科学、先进、完整的数据引用标准是保证空间数据科学性和可共享性的基础。因此在制定技术方案时必须收集、了解现行的各种国家、部门和行业有关的标准。u(6)数学基础。数学基础包括坐标系,高程系以及投影系统的合理选择。在了解现行标准的基础上结合用户需求,资料情况确定投影或坐标系统的转换。u(7)要素分类编码。在制定科学合理的要素分类编码之前,必须充分了解学习国家已颁布的各种地物要素分类编码体系与标准,结合用户需求、本地区实际地理状况编制确实可行的要素分类编码表,此表一经确定就决定了最终的地理实体表示内容。数据表达的详细程度。u(8)数据格式。数据格式主要根据用户需求确定。目前主要有两类,一类
35、为满足地图可视化要求的地图制图的CAD数据,它不带有地理实体的属性信息。另一类为满足空间数据库建设要求的带有属性信息的空间数据。数据要求不同就会有不同的技术路线,使用的软件会有所区别。u(9)技术路线与技术性试验。技术路线对数据获取的程序、整个作业流程作出规定。技术性试验根据总体设计思路一步步模拟具体生产状况,它将为确定产品的技术指标、技术路线、生产工艺流程、生产定额和成本定额提供可操作的依据,为全面组织生产积累经验。n 2数据源质量控制u根据用户需求及数据产品的生产目的选择满足要求的数据源,这是决定数据产品质量的关键因素。尽量收集有关的现势性好的图像、图形资料以及属性、文档资料,在此基础上进
36、行分析评价,提出可利用的方案和存在问题的解决意见。原始资料的正确处理,不但可以减少数字化误差,还可以提高效率。数据源误差应控制在数据产品的质量要求范围内。n 3数据生产质量控制u在数据生产之前,须做好准备工作,包括组织学习有关技术文件,如测区技术设计书和相关的技术依据、内外业规范、数字化测绘产品质量标准、数据分类编码规定、操作技术规程等。u对用于数据采集的各种软硬件,其性能指标必须满足数据采集的质量标准和技术设计书的要求,作业前后须对其进行检校,定期检修使其符合生产的技术要求。u数据采集过程中,经常抽查采集的数据质量,发现问题及时解决。如须进行数据格式转换,应确保完整转换即数学精度、分层、空间
37、关系、注记及线型等转换后准确无误。n 4数据加工处理质量控制u数据加工处理质量控制包括计算误差、拓扑分析质量和图层叠置质量等。对空间元素的位置精度、属性精度进行质量控制检查。n 5数据质量控制策略u(1)数据清洗。在单个数据源中可能存在采集或录入的质量问题,但是考虑多个数据源的情形,比如数据仓库系统、联邦数据库系统,或者是基于Web的信息系统,问题更加复杂。来自不同数据源的数据,对同一个概念有不同的表示方法。在集成多个数据源时,需要消解模式冲突,主要就是为了解决这个问题.还有相似重复记录的问题。需要检测出并且合并这些记录。解决这些问题的过程称为数据清洗过程.数据清洗过程的目的就是要解决“脏数据
38、(dirty data)”问题,检测数据中存在的错误和不一致,剔除或者改正它们,这样就提高了数据的质量。数据清洗过程必须满足如下几个条件:不论是单数据源还是多数据源,都要检测并且除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源;应该和数据转化相结合;要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成。u(2)生产组织管理。为了数据生产的顺利进行,人员和设备是生产组织实施的必备条件,在生产组织管理中必须做好人员和设备的配备。必须对生产管理人员、生产作业人员、产品质量检验人员进行培训。同时制定确实可行的生产进程
39、,确定生产组织形式及生产岗位设置,制定合理的生产定额,按天、按月或按季完成的生产工作量以及保质保量完成任务的关键措施。u(3)建立质量保障体系。建立质量保障体系是保障产品质量的主要手段之一。建立质量责任制度,制定质量工作计划,明确各个部门、每个岗位的任务、职责、权限,使各项工作系统化、标准化、程序化和制度化。u(4)建立“二级检查,一级验收”制度。对数据产品实行过程检查和最终检查的检查验收制度。过程检查主要由数据生产者、专职检查员承担,最终验收由单位内质量管理机构和用户完成。各级检查验收工作必须独立进行,不得省略或代替。u(5)目标与效益关系评价(性价比),即区分数据清理的优先级。每个人都希望
40、高质量地控制所有的数据。 基于元数据的空间信息共享质量控制n 一旦原始数据被清理、转化、整合、简化乃至以各种形式被剖析,若不借助元数据将无法在数据仓库中重新定位该数据。n 元数据能告诉人们数据的来源、数据上一次的更新时间、数据的所有者、数据的含义、数据的转换方式以及数据值的可靠程度等。元数据有两种类型:u业务元数据是为用户服务的,在日常基础上向用户解释他们使用的数据;u技术元数据同时向用户和技术人员提供帮助,帮助他们研究像迷宫一样复杂的图表和计划(这些东西是被用来解释和维持数据仓库以及与此相关联的程序的)。n 值得注意的是,必须制定一定的规则,明确并分配获取和维护元数据的权利和责任,同时还要确
41、定它的使用方式和时间,保证元数据的完整和准确。 元数据定义n 用元数据方法实现空间数据质量的描述已得到大面积的推广。元数据是关于数据的内涵、数据质量、条件和其他特性的信息。元数据可以看作空间数据完整的使用说明书,有助于用户对空间数据产品的理解,并能及时地发现数据集中的一些问题。n 元数据是关于数据的数据。是数据库中用于描述、定位和控制数据的数据,也包括在数据库中描述和定位的处理方法及有关数据环境的数据,是在数据特征基础上的对数据的定义性和选择性的信息。相应地,空间元数据则被认为是关于地理相关数据和信息资源的描述性信息,更被形象地认为是空间数据库的使用说明书。元数据中一般应包括:u数据集的基本信
42、息u数据质量信息u数据沿革信息空间数据表示u参照系统u要素分类信息u发行信息以u元数据参考n 空间数据集的元数据对质量指标主要是以定性的描述为主,如1:1万DLG产品的元数据内容中直接关于数据集质量的有数据几何精度中误差、属性精度、逻辑一致性、完整性、接边质量评价数据质量总体评价等方面。由于空间信息用户的层次不同,对空间数据的要求各种各样,实现空间数据共享必须考虑空间数据质量指标能适应这些不同的需要,即元数据能够提供数据集的定性质量描述以及空间数据实体的质量要素。n 元数据标准元数据(metadata)是关于数据的数据,用以描述数据集或数据库的内容、数据的组织形式、数据存取方式等。元数据还包括
43、了数据质量和转换的相关信息。元数据有三种用途u一是作为数据的目录,提供数据集内容的摘要,类似于图书馆中的图书卡片;u二是有助于数据共享,提供数据集或数据库转换和使用所需要的数据内容、形式、质量方面的信息;u三是内部文件记录,用以记录数据集或数据库的内容、组织形式、维护和更新等情况。n 国际上和国内目前已有以下元数据标准:uISO:空间地理信息元数据标准(IS0 1504615);u美国联邦地理数据委员会(FGDC):地理空间数据元数据内容标准(CSDGM);u国家空间信息基础设施(NSII)地学空间元数据标准规程草案;国家空间信息基础设施空间元数据内容标准草案(V1。0,V2。O)等。u目前比
44、较成熟的是美国FGDC的地理空间数据元数据内容标准元数据标准项目示例 n 在进行元数据标准的制定时,不同的机构部门对于空间数据的一些共性部分都有着相同的要求,尤其是在空间数据质量部分的表现上,所有的元数据标准都毫无例外地有着明确的要求。质量特性是数据集的重要特性,是用户决定数据集能否使用的关键因素。元数据中的分级质量特性 n 在我国的元数据标准中,数据质量信息主要是对数据集质量信息的总体评价。包含有数据誌信息和数据质量元素。数据质量元素有完整性、逻辑一致性、位置准确度、专题准确度和时间准确度等一级质量特性,它们可以进一步细分为若干数据质量子元素(二级质量特性)元数据的层次与元数据中的质量信息n
45、 由于这样的元数据是针对整个数据集的,质量指标是对数据集中所有要素的统一描述,数据集的基础是数据层,但由于缺乏对数据集中特定数据层中的质量描述,基于此基础上的数据集的质量指标当然也无法解决。所以需要首先对元数据进行层次划分。一般而言,针对元数据所描述的数据的情况。可以把元数据分为数据库元数据、数据集层元数据、数据层(特征层)元数据、空间实体元数据等层次。 数据库元数据数据库元数据数据库数据库数据集元数据数据集元数据数据层元数据数据层元数据实体元数据实体元数据数据集数据集数据层数据层实体实体库整体质量库整体质量集整体质量集整体质量层整体质量层整体质量单个实体质量单个实体质量数据库中的质量成分数据库中的质量成分数据集中的质量成分数据集中的质量成分数据层中的质量成分数据层中的质量成分实体的质量成分实体的质量成分