1、地学数据处理基础 课程的主要内容 第一部分 统计学基础 认识数据的基本特征和简单规律 第二部分 地学统计学 研究数据的空间相关性和空间依赖性 第三部分 空间数据挖掘 从空间数据中获取隐含的、未知的、有用的知 识 主要参考教材 行为科学统计概要 主要参考教材 统计学科学与工程应用 主要参考教材 地质统计学 主要参考教材 课时安排 地学数据处理的教学课时安排: 课堂教学 36学时 实验教学 10学时 课程考试 2学时 - 合 计 48学时 学习成绩评定: 上课及课堂提问 20% 实验及作业 20% 期末考试 60% - 合 计 100% 前置知识 1.线性代数的基础; 2.概率论与数理统计的基础;
2、 3. MATLAB或有关数据处理软件的基础; 第一部分 统计学及其基本方法 统计数据的内在规律 1. 正常条件下新生婴儿的性别比为107:100 2. 投掷一枚均匀的硬币,出现正面和反面的频 率各为1/2;投掷一枚骰子出现16点的频率 各为1/6 3. 铅锌矿石中铅的品位与银的品位之间的关系 统计学概述 统计学主要又分为描述统计学和推断统 计学。给定一组数据,统计学可以摘要并且 描述这份数据,这个用法称作为描述统计学。 另外,观察者以数据的形态建立出一个用以 解释其随机性和不确定性的数学模型,以之 来推论研究中的步骤及母体,这种用法被称 做推论统计学。这两种用法都可以被称作为 应用统计学。另
3、外也有一个叫做数理统计学 的学科专门用来讨论这门科目背后的理论基 础。 统计学的发展历程 统计学的英文statistics最早是源于现代拉丁文 statisticum collegium (国会)以及意大利文 statista (国民或政治家)。 德文Statistik,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学 问,也就是“研究国家的科学”。 统计学是一门很古老的科学,一般认为其学理研究始于 古希腊的亚里斯多德时代,迄今已有2300多年的历史。它起 源于研究社会经济问题,在两千多年的发展过程中,统计学 至少经历了“城邦政情”,“政治算数”和
4、“统计分析科学” 三个发展阶段。所谓“数理统计”并非独立于统计学的新学 科,确切地说它是统计学在第三个发展阶段所形成的所有收 集和分析数据的新方法的一个综合性名词。概率论是数理统 计方法的理论基础,但是它不属于统计学的范畴,而属于数 学的范畴。 统计学的发展过程的三个阶段 第一阶段称之为“城邦政情”第一阶段称之为“城邦政情”(Matters of state)阶段阶段 “城邦政情”阶段始于古希腊的亚里斯多德撰写 的“城邦纪要”。他一共撰 写了一百五十馀种纪要,其内容包括各城邦的历史,行政,科学,艺术,人口, 资源和财富等社会和经济情况的比较,分析,具有社会科学特点。这个阶段延续 了一两千年,直
5、至十七世纪中叶才逐渐被“政治算数”这个名词所替代,并且很 快被演化为“统计学”(Statistics)。统计学依然保留了城邦(state)这个词根。 第二阶段称之为“政治算数”第二阶段称之为“政治算数”(Politcal arthmetic)阶段阶段 “政治算数”的特点是统计方法与数学计算和推理方法开始结合,分析社会经 济问题的方式更加注重运用定量分析方法。主要应用于国家的数据统计。 第三阶段称之为“统计分析科学”第三阶段称之为“统计分析科学”(Science of statistical analysis)阶段阶段 在“政治算数”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分 析科学”
6、。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名 称逐渐消失,代之而起的是“统计分析科学”课程。课程的内容仍然是分析研究 社会经济问题。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表 了关于t分布的论文,这是一篇在统计学发展史上划时代的文章。它创立了小样本 代替大样本的方法,开创了统计学的新纪元。现代统计学的理论基础概率论始于 研究赌博的机遇问题,逐渐形成了概率论理论框架。在概率论的基础上,到十九 世纪初,逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代 统计方法便有了比较坚实的理论基础。 迅速发展的统计学迅速发展的统计学
7、 20世纪初以来,科学技术迅猛发展,社会发生了巨大变化,统计学进入了快 速发展时期。归纳起来有以下几个方面。 1、由记述统计向推断统计发展。记述统计是对所搜集的大量数据资料进行 加工整理、综合概括,通过图示、列表和数字,如编制次数分布表、绘制直方图、 计算各种特征数等,对资料进行分析和描述。而推断统计,则是在搜集、整理观 测的样本数据基础上,对有关总体作出推断。其特点是根据带随机性的观测样本 数据以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的 推断。 2、由社会、经济统计向多分支学科发展。在20世纪以前,统计学的领域主 要是人口统计、生命统计、社会统计和经济统计。随着社会、
8、经济和科学技术的 发展,到今天,统计的范畴已覆盖了社会生活的一切领域,几乎无所不包,成为 通用的方法论科学。它被广泛用于研究社会和自然界的各个方面,并发展成为有 着许多分支学科的科学。 3、统计预测和决策科学的发展。传统的统计是对已经发生和正在发生的事 物进行统计,提供统计资料和数据。20世纪30年代以来,特别是第二次世界大战 以来,由于经济、社会、军事等方面的客观需要,统计预测和统计决策科学有了 很大发展,使统计走出了传统的领域而被赋予新的意义和使命。 4、信息论、控制论、系统论与统计学的相互渗透和结合,使统计科学进一 步得到发展和日趋完善。信息论、控制论、系统论在许多基本概念、基本思想、
9、基本方法等方面有着共同之处,三者从不同角度、侧面提出了解决共同问题的方 法和原则。三论的创立和发展,彻底改变了世界的科学图景和科学家的思维方式, 也使统计科学和统计工作从中吸取了营养,拓宽了视野,丰富了内容,出现了新 的发展趋势。 5、计算技术和一系列新技术、新方法在统计领域不断得到开发和应用。近 几十年间,计算机技术不断发展,使统计数据的搜集、处理、分析、存贮、传递、 印制等过程日益现代化,提高了统计工作的效能。计算机技术的发展,日益扩大 了传统的和先进的统计技术的应用领域,促使统计科学和统计工作发生了革命性 的变化。如今,计算机科学已经成为统计科学不可分割组成部分。随着科学技术 的发展,统
10、计理论和实践深度和广度方面也不断发展。 6统计在现代化管理和社会生活中的地位日益重要。随着社会、经济和科 学技术的发展,统计在现代化国家管理和企业管理中的地位,在社会生活中的地 位,越来越重要了。人们的日常生活和一切社会生活都离不开统计。英国统计学 家哈斯利特说:“统计方法的应用是这样普遍,在我们的生活和习惯中,统计的 影响是这样巨大,以致统计的重要性无论怎样强调也不过分。”甚至有的科学有 还把我们的时代叫做“统计时代”。显然,统计科学的发展及其未来,已经被赋 予了划时代的意义。 统计学现状 在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不 断开发应用新技术和新方法,深化和丰
11、富了统计学传统领域的理论与方法,并拓 展了新的领域。 第一,对系统性及系统复杂性的认识为统计学的未来发展增加了新的思路。 由于社会实践广度和深度迅速发展,以及科学技术的高度发展,人们对客观世界 的系统性及系统的复杂性认识也更加全面和深入。复杂现象,如模糊现象、突变 现象及混沌现象等新的领域,给统计开辟了新的研究领域。 第二,定性与定量相结合的综合集成法将为统计分析方法的发展提供新的思 想。定性与定量相结合的综合集成方法是钱学森教授于1990年提出的。这一方 法的实质就是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再 用经验数据和资料以及模型对它的确实性进行检测,经过定量计算及反复对
12、比, 最后形成结论。 第三,统计科学与其他科学渗透将为统计学的应用开辟新的领域。模糊论、 突变论及其他新的边缘学科的出现为统计学的进一步发展提供了新的科学方法和 思想。 统计学产生于应用,在应用过程中发展壮大。随着经济社会的发展、各学科 相互融合趋势的发展和计算机技术的迅速发展,统计学的应用领域、统计理论与 分析方法也将不断发展,在所有领域展现它的生命力和重要作用。 统计学统计学 统计学指的是一套组织、总结和解释信息的数学过程。 统计过程帮助研究者确定信息或观测值是以一种准确的、信息丰富的方式呈 现和解释的。从宏观上来看,统计帮助研究者从混乱中找出规律。另外,统计为 整个科学团体提供了一套标准
13、的技术来相互辨认和理解。因此,一个研究者和其 他研究者所用的统计方法是相似的,这样一来,研究者们就可以通过完整地理解 分析过程了解研究结果的意义,进而对数据分析作出准确的解释。 第一章 统计学概论 1.1 统计、科学和观察 1.2 常用术语 什么是统计? 1. 统计工作统计工作 收集数据的活动收集数据的活动 2. 统计数据统计数据 对现象计量的结果对现象计量的结果 3. 统计学统计学 分析数据的方法与技术分析数据的方法与技术 什么是统计学? 1. 数据搜集:例如,调查与 试验 2. 数据整理:例如,分组 3. 数据展示:例如, 图和表 4. 数据分析:例如,回归分析 统计学是一门收集、整理和分
14、析数据的方法科学 ,其目的是探索数据的内在数量规律性,以达到 对客观事物的科学认识 1 统计、科学和观察 统计学: 统计学是一套组织、总结和解释信息的数 学过程。 统计学的分科 描述统计描述统计 推断统计推断统计 统计学的分科统计学的分科 理论统计理论统计 应用统计应用统计 统计的作用 1统计是用来组织和总结信息的,所以, 研究者可以看到在研究中发生了什么,同 时可以与其他人交流研究结果。 2统计通过确定得到的结果中哪些结论 是合理的,来帮助研究者回答想要研究的 主要问题。 2 常用术语 总体总体是特定研究中所关注的所有个体的集合。 特征: 总体在时间、空间上的大小由研究者定义 而决定,因此大
15、小会有明显的差异,从极 大的到很小的都有。如一个勘查区中的全 部土壤地化数据。 构成总体的数据属性也有很大差异。如某 勘查区的化探、物探、遥感等数据。 样本(样品)是指那些从总体中选出的个体,通 常在研究中是被用来代表总体的。 特征: 是总体的一部分,而代表着总体; 对样本的研究结果要推广到总体。 参数和统计量 描述数据时有必要区分数据是来自总体还 来自是样本。一个用来描述总体的特征 如,总体平均数被称做参数。另一 方面,描述一个样本的特征被称做统计量。 如:一批土壤地化分析数据中,Pb的平均 值则为参数,而每个样品分析Cu、Pb、Zn 三个元素称为统计量。 定义: 参数参数通常是一个描述总体
16、的数值。参数可 能是从某种单一的测量得到的,也可能来 源于一系列对总体的测量。 统计量统计量通常是一个描述样本的数值。统计 量可能是从某种单一的测量中得到的,也 可能来源于一系列对样本的测量。 描述和推论统计方法 研究的问题是通过收集信息开始的。在 科学中,信息是通过对个体进行观察和记 录测量而得到的。对个体进行测量或是观 察得到的结果被称做数据,更普遍的情况 下,也被称做一个分数或原始分数。一整 套分数或测量结果被称做数据集或简单地 称做数据。当得到数据以后,就用统计方 法来整理和描述这些数据。 定义: 数据是测量或观察所得的结果。一个数据 集是一系列的测量或观察结果。一个数据 是一个单独测
17、量或观察的结果,同时它常 常被叫做分数或原始分数。 研究者开发出许多不同种类的统计程序 来整理和描述这些数据,这些不同的统计 过程可以被分为两大类。第一类是描述统 计,第二类是推论统计。 描述统计是那些用来总结、整理和简化数据 的统计方法。 描述统计是整理或总结原始分数,使这些数 据更便于管理的技术。通常分数会被整理到一个 表格或图形中,这样一来我们就可以看到整个分 数的情况。另一个常用的技术是通过计算平均数 来总结所有的数据。即使数据集中有几百个分数, 平均数也可以给全体数据提供一个单一的描述值。 推论统计包括能够用于研究样本并对样本 所来自的总体作出推论的技术。 总体通常都很大,所以我们选
18、出样本来 代表总体。我们希望通过样本的分析,得 到关于总体的信息。 但是,使用样本的一个问题是,样本只 能提供关于总体的有限信息。尽管总的来 说样本能代表总体,但样本并不能完美、 准确地描绘出总体的情况。通常,一个样 本的统计量和相应的总体参数之间是有差 异的。这个差异被称做抽样误差。 抽样误差是一种或一些存在于样本统计 量和相应的总体参数间的误差(随机误差)。 变量:变量:是个体可以改变或者有不同取值的一种特征或情况。变量是相对 于常数而言的。 常数常数是一个不变的、对每个个体都相同的特征或环境。 自变量自变量:变量的属性值不因其他变量属性值的变化而变化的变量; 因变量因变量:变量的属性值因
19、其他变量属性值的变化而变化的变量; 相关相关:变量之间的相互关联性; 离散变量离散变量:由可计数的、分离的、不能分割的数值组成的变量,如样本 个数; 连续变量连续变量:有无限多个的可能值在任意两个观察值之间,如时间; 统计学的应用领域 统计学统计学 经济学经济学 管理学管理学 医学医学 工程学工程学 社会学社会学 统计方法 统计方法统计方法 描述统计描述统计 推断统计推断统计 参数估计参数估计 假设检验假设检验 描述统计 1. 内容内容 搜集数据 整理数据 展示数据 2. 目的目的 描述数据特征 找出数据的基本规律 0 25 50 Q1 Q2 Q3 Q4 ¥ x = 30 s2 = 105 推
20、断统计 1. 内容内容 参数估计 假设检验 2. 目的目的 对总体特征作出 推断 样 本 总体 描述统计与推断统计的关系 反映客观反映客观 现象的数现象的数 据据 总体内在的总体内在的 数量规律性数量规律性 推断统计推断统计 (利用样本信息和概率(利用样本信息和概率 论对总体的数量特征进论对总体的数量特征进 行估计和检验等)行估计和检验等) 概率论概率论 (包括分布理论、大数定律(包括分布理论、大数定律 和中心极限定理等)和中心极限定理等) 描述统计描述统计 (统计数据的搜集、整(统计数据的搜集、整 理、显示和分析等)理、显示和分析等) 总体数据 样本数据 统计学探索现象数量规律性的过程统计学
21、探索现象数量规律性的过程 理论统计与应用统计 1. 理论统计理论统计 研究统计学的一般理论 研究统计方法的数学原理 2. 应用统计应用统计 研究统计学在各领域的具体应用 统计学与数学的关系 (联系) 1. 统计学运用到大量的数学知识 2. 数学为统计理论和统计方法的发展提供基 础 3. 不能将统计学等同于数学 统计学与数学的关系 (区别) 1. 数学研究的是抽象的数量规律,统计学则是 研究具体的、实际现象的数量规律 2. 数学研究的是没有量纲或单位的抽象的数, 统计学研究的是有具体实物或计量单位的数 据 3. 统计学与数学研究中所使用的逻辑方法不同 数学研究所使用的主要是的演绎 统计学则是演绎
22、与归纳相结合,占主导地位的 是归纳 统计学与其他学科的关系 1. 统计学可以用到几乎所有的学科领域 2. 统计学可以帮助其他学科探索学科内在 的数量规律性 3. 统计学不能解决各学科领域的所有问题 4. 对统计分析结果的解释需要各学科领域 的专业人员 小结 1、统计与统计学,统计学分类; 2、主要的术语; 地质数据处理基础2 洪金益 中南大学地学院 第二章 统计数据的采集与预处理 1、地质数据的采集 2、数据的预处理 3、数据的计量尺度 1 数据的采集 以某化探数据的采集为例,步骤:以某化探数据的采集为例,步骤: 1.采样设计采样设计(按国家、行业规范按国家、行业规范); 2.采样采样(保证质
23、和量、记录规范、必要的备注保证质和量、记录规范、必要的备注); 3.加工加工(防止污染和编号错乱防止污染和编号错乱); 4.送样化验分析送样化验分析(根据研究目的和研究对象的内在关联性来确根据研究目的和研究对象的内在关联性来确 定分析项目、选择分析方法、仪器类型定分析项目、选择分析方法、仪器类型)。 遥感数据是常用的地质数据之一,订购数据要选择航天遥感数据是常用的地质数据之一,订购数据要选择航天 器的类型、波段的特点,产品的级别等等。器的类型、波段的特点,产品的级别等等。 2 数据预处理 数据预处理的必要性 没有干净的数据不可能获得好的处理结果; 任何数据都是有污染的、有冗余的; 数据一般有多
24、种格式的,要进行统一格式或格式规范化; 空间数据要进行必要的几何(变形)校正; 数据的度量单位要匹配处理; 任何数据都是有误差的,要进行误差处理; 数据总体空间与数据样本空间的一致性(或); 数据读写(IO)与处理软件之间的转换; 数据预处理 数据预处理(data preprocessing)或数据清洗(data scrubbing)或数据清理(data cleaning)或数据净化(data cleansing)是数据处理的第一步。 目的:使数据适合于后续的处理工作,提高数据的 准确度、整体性、可用性,有助于提高数据处理的质量。 数据预处理的基本方法 不同类型的数据有不同的预处理方法,不同学
25、科 的数据有不同的预处理内容。 如遥感数据,要进行辐射校正、几何校正、系统 误差的补偿、随机误差的平滑等等。 对化探数据,要进行完整性检查、数据冗余检查、 不同批次或不同仪器之间的数据进行系统误差的处理等 等。 对矿石品位数据要进行样品的厚度、长度加权、 特高品位的处理等等。 预处理的主要内容 完整性:空间的分布、线距点距的规律性; 合规性:满足规范要求; 冗余与缺失的处理; 系统误差的补偿; 随机误差的平滑; 数据预处理方法 1.对于地质数据,可以作出各种图件进行直观判断: 如做样品空间(采样)分布图,检查样品的缺失和重复;等值线平面图,等等;如 果出现样品缺失时,采取线性插值或近邻窗口插值
26、的方法,用手工补全数据,如 果样品重复,手工处理(剔除); 样品空间分布平面图 预处理方法 2.平面等值线图:对一些冗余的数据进行必要的剔除。 预处理方法 3. 统计法:如频数分布图。统计法的理论基础是客观世界中绝大部分的实体属性 数据为正态分布。 预处理方法 4. 三维可视化:去除不合理的数据。 3 数据的计量尺度 四种计量尺度 数据的计量尺度数据的计量尺度 定类尺度定类尺度 定序尺度定序尺度 定距尺度定距尺度 定比尺度定比尺度 定类尺度 (概念要点) 1. 计量层次最低 2. 对事物进行平行的分类 3. 各类别可以指定数字代码表示 4. 使用时必须符合类别穷尽和互斥的要求 5. 数据表现为
27、“类别” 6. 具有=或的数学特性 定序尺度 (概念要点) 1. 对事物分类的同时给出各类别的顺序 2. 比定类尺度精确 3. 未测量出类别之间的准确差值 4. 数据表现为“类别”,但有序 5. 具有或的数学特性 定距尺度 (概念要点) 1. 对事物的准确测度 2. 比定序尺度精确 3. 数据表现为“数值” 4. 没有绝对零点 5. 具有 + 或 - 的数学特性 定比尺度 1. 对事物的准确测度 2. 与定距尺度处于同一层次 3. 数据表现为“数值” 4. 有绝对零点 5. 具有 或 的数学特性 四种计量尺度的比较 四种计量尺度的比较四种计量尺度的比较 定类尺度定类尺度 定序尺度定序尺度 定距
28、尺度定距尺度 定比尺度定比尺度 分类分类(, ) 排序排序( ) 间距间距( + ,- ) 比值比值( ,) 计量尺度计量尺度 数学特性数学特性 表示该尺度所具有的特性 数据类型与统计方法 数据类型与统计方法数据类型与统计方法 定类数据定类数据 定序数据定序数据 品质数据品质数据 数量数据数量数据 定距数据定距数据 定比数据定比数据 参数方法参数方法 非参数方法非参数方法 变量及其类型 变变 量量 定序变量定序变量 离散变量离散变量 连续变量连续变量 定类变量定类变量 数字变量数字变量 统计指标及其类型 时期指标时期指标 时点指标时点指标 统计指标统计指标 相对指标相对指标 总量指标总量指标
29、平均指标平均指标 比例比例 比率比率 数据的质量要求 1. 精度:精度:最低的抽样误差或随机误差; 2. 准确性:准确性:最小的非抽样误差或偏差; 3. 关联性:关联性:符合数据间的内在关联性,同时满足用户决策、 管理和研究的需要; 4. 及时性:及时性:在最短的时间里取得并公布数据; 5. 一致性:一致性:数据属性的可比性; 6. 最低成本:最低成本:以最经济的方式取得数据。 原始数据的检查 1.逻辑检查 从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象; 主要用于对定类数据和定序数据的审核; 2.计算检查 检查调查表中的各项数据在计算结果和计算方法 上有
30、无错误; 主要用于对定距和定比数据的审核; 第二手数据数据的检查 1.适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料; 确定数据是否符合自己分析研究的需要; 2.时效性审核 适用于有时效性的样品分析数据,如水样品; 应尽可能使用可靠的数据; 3.确认是否必要做进一步的加工整理; 数据的筛选 1.对审核过程中发现的错误应尽可能予以纠正 2.当发现数据中的错误不能予以纠正,或者有 些数据不符合调查的要求而又无法弥补时, 需要对数据进行筛选 3.数据筛选的内容包括: 将某些不符合要求的数据或有明显错误的数 据予以剔除 将符合某种特定条件的数据筛选出来,而不 符合特定条件的数据予以剔出 数
31、据的排序 1. 按一定顺序将数据排列,以发现一些明显 的特征或趋势,找到解决问题的线索 2. 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据 3. 在某些场合,排序本身就是分析的目的之 一 4. 排序可借助于计算机完成 数据的排序 1.定类数据的排序 字母型数据,排序有升序降序之分,但习惯上 用升序 汉字型数据,可按汉字的首位拼音字母排列, 也可按笔画排序,其中也有笔画多少的升序降 序之分 2.定距和定比数据的排序 递增排序:设一组数据为X1,X2,XN,递 增排序后可表示为:X(1)X(2)X(2)X(N) 定类数据的预处理 1.要弄清所面对的数据类型,因为不同类型的数据,所采
32、取的处理方式和方法是不同的; 2.对定类数据和定序数据主要是做分类整理; 3.对定距数据和定比数据则主要是做分组整理; 4.适合于低层次数据的整理和显示方法也适合于高层次的 数据;但适合于高层次数据的整理和显示方法并不适合 于低层次的数据; THE END 地质数据处理基础3 洪金益 中南大学地学院 第三章 数据的简单可视化 1 定类数据; 2 定序数据 3 数值型数据 1 定类数据 1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形显示数据 定类数据 1. 频频 数:数:落在各类别中的数据个数 2. 比比 例:例:某一类别数据占全部数据的比值 3. 百分比:百分比:
33、将对比的基数作为100而计算的比值 4. 比比 率:率:不同类别数值的比值 定类数据的图示条形图 1.条形图是用宽度相同的条形的高度或长短来表示数据变 动的图形 2.条形图有单式、复式等形式 3.在表示定类数据的分布时,是用条形图的高度来表示各 类别数据的频数或频率 4.绘制时,各类别可以放在纵轴,称为条形图,也可以放 在横轴,称为柱形图 定类数据的图示条形图 51 9 16 10 2 112 0 40 80 120 334 331 221 121 111 某矿区矿石的储量级别分布条形图某矿区矿石的储量级别分布条形图 333 定类数据的图示饼图(圆形图) 1.也称饼图,是用圆形及园内扇形的面积
34、来表示数值大小 的图形; 2.主要用于表示总体中各组成部分所占的比例,对于研究 结构性问题十分有用; 3.在绘制圆形图时,总体中各部分所占的百分比用园内的 各个扇形面积表示,这些扇形的中心角度,是按各部分 百分比占3600的相应比例确定的; 定类数据的图示(饼图)圆形图 111 1.0% 221 8.0% 334 56.0% 331 4.5% 25.5% 121 5.8% 某矿区矿石的储量级别分布饼图某矿区矿石的储量级别分布饼图 333 2 定序数据(可计算的指标) 1. 累计频数:累计频数:将各类别的频数逐级累加 2. 累计频率:累计频率:将各类别的频率(百分比)逐级累加 定序数据频数分布表
35、 (实例 ) 在镜下统计某种矿物单体颗粒的分布情况,进行工艺矿相分析。 某种矿物单体颗粒的分布某种矿物单体颗粒的分布的频数分布的频数分布 单体类别单体类别 某光片某光片 粒数粒数 百分百分 比比 (%) 向上累积向上累积 向下累积向下累积 粒数粒数 百分百分 比比 (%) 粒数粒数 百分百分 比比 (%) 很细粒很细粒A 细粒细粒B 一般一般C 较粗粒较粗粒D 粗粒粗粒E 24 108 93 45 30 8 36 31 15 10 24 132 225 270 300 8.0 44.0 75.0 90.0 100.0 300 276 168 75 30 100.0 92 56 25 10 合计
36、合计 300 100.0 定序数据的图示累计频数分布图 24 300 132 225 270 0 100 200 300 400 A B C D E 累 积 粒 数 (a)向下累积向下累积 276 168 30 300 75 0 100 200 300 400 A B C D E 累 积 粒 数 (b)向上累积向上累积 某种矿物单体颗粒的分布的的累积频数分布 累计频数分布图在地质数据处理经常用到,如确定矿石的破碎粒度的大小, 土壤的粒度分布等等。 定类数据的图示环形图 (环形图的制作) 1.环形图中间有一个“空洞”,总体中的每一部分数据 用环中的一段表示 2.环形图与圆形图类似,但又有区别 圆
37、形图只能显示一个总体各部分所占的比例 环形图则可以同时绘制多个总体的数据系列,每 一个总体的数据系列为一个环 3.环形图可用于进行比较研究 4.环形图可用于展示定类和定序的数据 品质数据的图示环形图 8% 36% 31% 15% 7% 33% 26% 21% 13% 10% A B C D E 甲乙两岩体 甲乙两岩体5 5元素含量分布的差异元素含量分布的差异 3 数值型数据数值型数据 1. 数据的分组 2. 数值型数据的图示 3. 频数分布的类型 编制频数分布表的步骤 确确 定定 组组 数数 编制频数分编制频数分 布表的步骤布表的步骤 确确 定定 组组 距距 计计 算算 频频 数数 编编 制制
38、 表表 格格 频数分布表的编制 117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121 某岩体50个样品的某元素分析结果,试采用单变量值对数据进行分组。 分组方法 分组方法分组方法 等距分组等距分组 异距分组异距分组 单变量值分组单变量值分组 组距分组组距
39、分组 单变量值分组 1. 将一个变量值作为一组 2. 适合于离散变量 3. 适合于变量值较少的情况 单变量值分组表 某岩体50个样品的某元素分析结果分组表 含量含量 频数频数 含量含量 频数频数 含量含量 频数频数 107 108 110 112 113 114 115 117 118 1 2 1 2 1 1 1 3 3 119 120 121 122 123 124 125 126 127 1 2 1 4 4 3 2 2 3 128 129 130 131 133 134 135 137 139 2 1 1 1 2 2 1 1 2 组距分组 (要点) 1.将变量值的一个区间作为一组 2.适合
40、于连续变量 3.适合于变量值较多的情况 4.必须遵循“不重不漏”的原则 5.可采用等距分组,也可采用不等距分组 组距分组 (步骤) 1.确定组数:组数的确定应以能够显示数据的分布特征和 规律为目的。在实际分组时,可以按 Sturges 提出的经 验公式来确定组数K 2. 确定各组的组距:组距(Class Width)是一个组的上限 与下限之差,可根据全部数据的最大值和最小值及 所分的组数来确定,即 组距组距( 最大值最大值 - 最小值最小值) 组数组数 3. 根据分组整理成频数分布表 )2lg( )lg( 1 n K 组距分组 (几个概念) 1. 下下 限:限:一个组的最小值 2. 上上 限:
41、限:一个组的最大值 3. 组组 距:距:上限与下限之差 4. 组中值:组中值:下限与上限之间的中点值 下限值下限值+上限值上限值 2 组中值 等距分组表 (上下组限重叠) 某岩体50个样品的某元素分析结果分组表 按含量分组按含量分组 频数频数 频率(频率(%) 105110 110115 115120 120125 125130 130135 135140 3 5 8 14 10 6 4 6 10 16 28 20 12 8 合计合计 50 100 等距分组表 (上下组限间断) 某岩体50个样品的某元素分析结果分组表分组表 按含量分组按含量分组 频数频数 频率(频率(%) 105109 110
42、114 115119 120124 125129 130134 135139 3 5 8 14 10 6 4 6 10 16 28 20 12 8 合计合计 50 100 等距分组表 (使用开口组) 某岩体50个样品的某元素分析结果分组表分组表 按含量分组按含量分组 频数频数 频率(频率(%) 110以下以下 110114 115119 120124 125129 130134 135以上以上 3 5 8 14 10 6 4 6 10 16 28 20 12 8 合计合计 50 100 等距分组与不等距分组 (在表现频数分布上的差异) 1.等距分组 各组频数的分布不受组距大小的影响 可直接根据
43、绝对频数来观察频数分布的特征和规律 2.不等距分组 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度频数/组距)反映频数 分布的实际状况 分组数据直方图 (直方图的制作) 1.用矩形的宽度和高度来表示频数分布的图形,实际上是 用矩形的面积面积来表示各组的频数分布; 2.在直角坐标中,用横轴表示数据分组,纵轴表示频数或 频率,各组与相应的频数就形成了一个矩形,即直方图 (Histogram); 3.直方图下的总面积等于1 1。 分组数据直方图 (直方图的绘制) 频频 数数 15 12 9 6 3 105 110 115 120 125 1
44、30 135 140 元素含量 直方图下的面 积之和等于1 某岩体50个样品的某元素分析结果 分组数据直方图 (直方图与条形图的区别) 1.条形图是用条形的长度(横置时)表示各类别 频数的多少,其宽度(表示类别)则是固定的; 2.直方图是用面积表示各组频数的多少,矩形 的高度表示每一组的频数或百分比,宽度则 表示各组的组距,其高度与宽度均有意义; 3.直方图的各矩形通常是连续排列,条形图则 是分开排列。 分组数据折线图 (折线图的制作) 1.折线图也称频数多边形图(Frequency polygon); 2.是在直方图的基础上,把直方图顶部的中点(组中值)用 直线连接起来,再把原来的直方图抹掉
45、; 3.折线图的两个终点要与横轴相交,具体的做法是: 第一个矩形的顶部中点通过竖边中点(即该组频数 一半的位置)连接到横轴,最后一个矩形顶部中点 与其竖边中点连接到横轴; 折线图下所围成的面积与直方图的面积相等,二者 所表示的频数分布是一致的。 15 12 9 6 3 105 110 115 120 125 130 135 140 元素含量元素含量 频频 数数 折线图下的面积 与直方图的面积 相等! 分组数据折线图 (折线图的绘制) 某岩体50个样品的某元素分析结果分组折线图 未分组数据茎叶图 (茎叶图的制作) 1.用于显示未分组的原始数据的分布; 2.由“茎”和“叶”两部分构成,其图形是由数
46、字组成的; 3.以该组数据的高位数值作树茎,低位数字作树叶; 4.对于n(20n300)个数据,茎叶图最大行数不超过 L = 10 log 10 n 5. 茎叶图类似于横置的直方图,但又有区别: 直方图可大体上看出一组数据的分布状况,但没有 给出具体的数值; 茎叶图既能给出数据的分布状况,又能给出每一个 原始数值,保留了原始数据的信息。 树茎树茎 树叶树叶 788 022347778889 0012222333344466777889 0133445799 10 11 12 13 数据个数数据个数 3 13 24 10 茎叶图类似横置 的直方图 未分组数据茎叶图 (茎叶图的制作) 某岩体50个样品的某元素分析结果茎叶图茎叶图 未分组数据箱线图 (箱线图的制作) 1.用于显示未分组的原始数据或分组数据的分布; 2.箱线图由一