1、地质数据处理基础2洪金益中南大学地学院第二章 统计数据的采集与预处理1、地质数据的采集2、数据的预处理3、数据的计量尺度1 数据的采集 以某化探数据的采集为例,步骤:以某化探数据的采集为例,步骤:1.采样设计采样设计(按国家、行业规范按国家、行业规范);2.采样采样(保证质和量、记录规范、必要的备注保证质和量、记录规范、必要的备注);3.加工加工(防止污染和编号错乱防止污染和编号错乱);4.送样化验分析送样化验分析(根据研究目的和研究对象的内在关联性来确根据研究目的和研究对象的内在关联性来确定分析项目、选择分析方法、仪器类型定分析项目、选择分析方法、仪器类型)。 遥感数据是常用的地质数据之一,
2、订购数据要选择航天遥感数据是常用的地质数据之一,订购数据要选择航天器的类型、波段的特点,产品的级别等等。器的类型、波段的特点,产品的级别等等。2 数据预处理数据预处理的必要性没有干净的数据不可能获得好的处理结果;任何数据都是有污染的、有冗余的;数据一般有多种格式的,要进行统一格式或格式规范化;空间数据要进行必要的几何(变形)校正;数据的度量单位要匹配处理;任何数据都是有误差的,要进行误差处理;数据总体空间与数据样本空间的一致性(或);数据读写(IO)与处理软件之间的转换;数据预处理 数据预处理(data preprocessing)或数据清洗(data scrubbing)或数据清理(data
3、 cleaning)或数据净化(data cleansing)是数据处理的第一步。 目的:使数据适合于后续的处理工作,提高数据的准确度、整体性、可用性,有助于提高数据处理的质量。数据预处理的基本方法 不同类型的数据有不同的预处理方法,不同学科的数据有不同的预处理内容。 如遥感数据,要进行辐射校正、几何校正、系统误差的补偿、随机误差的平滑等等。 对化探数据,要进行完整性检查、数据冗余检查、不同批次或不同仪器之间的数据进行系统误差的处理等等。 对矿石品位数据要进行样品的厚度、长度加权、特高品位的处理等等。预处理的主要内容完整性:空间的分布、线距点距的规律性;合规性:满足规范要求;冗余与缺失的处理;
4、系统误差的补偿;随机误差的平滑;数据预处理方法1.对于地质数据,可以作出各种图件进行直观判断:如做样品空间(采样)分布图,检查样品的缺失和重复;等值线平面图,等等;如果出现样品缺失时,采取线性插值或近邻窗口插值的方法,用手工补全数据,如果样品重复,手工处理(剔除);样品空间分布平面图预处理方法2.平面等值线图:对一些冗余的数据进行必要的剔除。预处理方法3. 统计法:如频数分布图。统计法的理论基础是客观世界中绝大部分的实体属性数据为正态分布。预处理方法4. 三维可视化:去除不合理的数据。3 数据的计量尺度四种计量尺度 数据的计量尺度数据的计量尺度定类尺度(概念要点)1. 计量层次最低2. 对事物
5、进行平行的分类3. 各类别可以指定数字代码表示4. 使用时必须符合类别穷尽和互斥的要求5. 数据表现为“类别”6. 具有=或的数学特性定序尺度(概念要点)1. 对事物分类的同时给出各类别的顺序2. 比定类尺度精确3. 未测量出类别之间的准确差值4. 数据表现为“类别”,但有序5. 具有或的数学特性定距尺度(概念要点) 1. 对事物的准确测度 2. 比定序尺度精确 3. 数据表现为“数值” 4. 没有绝对零点 5. 具有 + 或 - 的数学特性定比尺度 1. 对事物的准确测度 2. 与定距尺度处于同一层次 3. 数据表现为“数值” 4. 有绝对零点 5. 具有 或 的数学特性四种计量尺度的比较四
6、种计量尺度的比较四种计量尺度的比较定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 分类(,分类(, ) 排序(排序( ) 间距(间距( + ,- ) 比值(比值( ,) 计量尺度计量尺度数学特性数学特性“”表示该尺度所具有的特性数据类型与统计方法 数据类型与统计方法数据类型与统计方法定类数据定类数据定序数据定序数据品质数据品质数据非参数方法非参数方法变量及其类型 变变 量量定序变量定序变量定类变量定类变量数字变量数字变量统计指标及其类型 统计指标统计指标相对指标相对指标总量指标总量指标平均指标平均指标数据的质量要求 1. 精度:精度:最低的抽样误差或随机误差; 2. 准
7、确性:准确性:最小的非抽样误差或偏差; 3. 关联性:关联性:符合数据间的内在关联性,同时满足用户决策、管理和研究的需要; 4. 及时性:及时性:在最短的时间里取得并公布数据; 5. 一致性:一致性:数据属性的可比性; 6. 最低成本:最低成本:以最经济的方式取得数据。原始数据的检查1.逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象;主要用于对定类数据和定序数据的审核;2.计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误;主要用于对定距和定比数据的审核;第二手数据数据的检查1.适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料;确定
8、数据是否符合自己分析研究的需要;2.时效性审核 适用于有时效性的样品分析数据,如水样品; 应尽可能使用可靠的数据;3.确认是否必要做进一步的加工整理;数据的筛选1.对审核过程中发现的错误应尽可能予以纠正2.当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选3.数据筛选的内容包括:将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出数据的排序1. 按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2. 排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3. 在某些场合,
9、排序本身就是分析的目的之一4. 排序可借助于计算机完成数据的排序1.定类数据的排序字母型数据,排序有升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分2.定距和定比数据的排序递增排序:设一组数据为X1,X2,XN,递增排序后可表示为:X(1)X(2)X(2)X(N)定类数据的预处理1.要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的;2.对定类数据和定序数据主要是做分类整理;3.对定距数据和定比数据则主要是做分组整理;4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据;THE END
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。