1、地学数据处理基础洪金益中南大学地学院课程的主要内容第一部分 统计学基础 认识数据的基本特征和简单规律第二部分 地学统计学 研究数据的空间相关性和空间依赖性第三部分 空间数据挖掘 从空间数据中获取隐含的、未知的、有用的知识主要参考教材行为科学统计概要 主要参考教材统计学科学与工程应用主要参考教材地质统计学 主要参考教材课时安排地学数据处理的教学课时安排:课堂教学 36学时实验教学 10学时课程考试 2学时-合 计 48学时学习成绩评定:上课及课堂提问 20%实验及作业 20%期末考试 60%-合 计 100%前置知识1.线性代数的基础;2.概率论与数理统计的基础;3. MATLAB或有关数据处理
2、软件的基础;第一部分 统计学及其基本方法统计数据的内在规律1. 正常条件下新生婴儿的性别比为107:1002. 投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/63. 铅锌矿石中铅的品位与银的品位之间的关系统计学概述 统计学主要又分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础
3、。统计学的发展历程 统计学的英文statistics最早是源于现代拉丁文statisticum collegium (国会)以及意大利文 statista (国民或政治家)。 德文Statistik,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里斯多德时代,迄今已有2300多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”,“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说它
4、是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而属于数学的范畴。统计学的发展过程的三个阶段 第一阶段称之为第一阶段称之为“城邦政情城邦政情”(Matters of state)阶段阶段 “城邦政情”阶段始于古希腊的亚里斯多德撰写 的“城邦纪要”。他一共撰写了一百五十馀种纪要,其内容包括各城邦的历史,行政,科学,艺术,人口,资源和财富等社会和经济情况的比较,分析,具有社会科学特点。这个阶段延续了一两千年,直至十七世纪中叶才逐渐被“政治算数”这个名词所替代,并且很快被演化为“统计学”(Statistics)。统
5、计学依然保留了城邦(state)这个词根。 第二阶段称之为第二阶段称之为“政治算数政治算数”(Politcal arthmetic)阶段阶段 “政治算数”的特点是统计方法与数学计算和推理方法开始结合,分析社会经济问题的方式更加注重运用定量分析方法。主要应用于国家的数据统计。第三阶段称之为第三阶段称之为“统计分析科学统计分析科学”(Science of statistical analysis)阶段阶段 在“政治算数”阶段出现的统计与数学的结合趋势逐渐发展形成了“统计分析科学”。十九世纪末,欧洲大学开设的“国情纪要”或“政治算数”等课程名称逐渐消失,代之而起的是“统计分析科学”课程。课程的内容仍
6、然是分析研究社会经济问题。1908年,“学生”氏(William Sleey Gosset的笔名Student)发表了关于t分布的论文,这是一篇在统计学发展史上划时代的文章。它创立了小样本代替大样本的方法,开创了统计学的新纪元。现代统计学的理论基础概率论始于研究赌博的机遇问题,逐渐形成了概率论理论框架。在概率论的基础上,到十九世纪初,逐渐建立了观察误差理论,正态分布理论和最小平方法则。于是,现代统计方法便有了比较坚实的理论基础。迅速发展的统计学迅速发展的统计学20世纪初以来,科学技术迅猛发展,社会发生了巨大变化,统计学进入了快速发展时期。归纳起来有以下几个方面。 1、由记述统计向推断统计发展。
7、记述统计是对所搜集的大量数据资料进行加工整理、综合概括,通过图示、列表和数字,如编制次数分布表、绘制直方图、计算各种特征数等,对资料进行分析和描述。而推断统计,则是在搜集、整理观测的样本数据基础上,对有关总体作出推断。其特点是根据带随机性的观测样本数据以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。2、由社会、经济统计向多分支学科发展。在20世纪以前,统计学的领域主要是人口统计、生命统计、社会统计和经济统计。随着社会、经济和科学技术的发展,到今天,统计的范畴已覆盖了社会生活的一切领域,几乎无所不包,成为通用的方法论科学。它被广泛用于研究社会和自然界的各个方面,并发展成为
8、有着许多分支学科的科学。 3、统计预测和决策科学的发展。传统的统计是对已经发生和正在发生的事物进行统计,提供统计资料和数据。20世纪30年代以来,特别是第二次世界大战以来,由于经济、社会、军事等方面的客观需要,统计预测和统计决策科学有了很大发展,使统计走出了传统的领域而被赋予新的意义和使命。 4、信息论、控制论、系统论与统计学的相互渗透和结合,使统计科学进一步得到发展和日趋完善。信息论、控制论、系统论在许多基本概念、基本思想、基本方法等方面有着共同之处,三者从不同角度、侧面提出了解决共同问题的方法和原则。三论的创立和发展,彻底改变了世界的科学图景和科学家的思维方式,也使统计科学和统计工作从中吸
9、取了营养,拓宽了视野,丰富了内容,出现了新的发展趋势。 5、计算技术和一系列新技术、新方法在统计领域不断得到开发和应用。近几十年间,计算机技术不断发展,使统计数据的搜集、处理、分析、存贮、传递、印制等过程日益现代化,提高了统计工作的效能。计算机技术的发展,日益扩大了传统的和先进的统计技术的应用领域,促使统计科学和统计工作发生了革命性的变化。如今,计算机科学已经成为统计科学不可分割组成部分。随着科学技术的发展,统计理论和实践深度和广度方面也不断发展。 6统计在现代化管理和社会生活中的地位日益重要。随着社会、经济和科学技术的发展,统计在现代化国家管理和企业管理中的地位,在社会生活中的地位,越来越重
10、要了。人们的日常生活和一切社会生活都离不开统计。英国统计学家哈斯利特说:“统计方法的应用是这样普遍,在我们的生活和习惯中,统计的影响是这样巨大,以致统计的重要性无论怎样强调也不过分。”甚至有的科学有还把我们的时代叫做“统计时代”。显然,统计科学的发展及其未来,已经被赋予了划时代的意义。统计学现状 在科学技术飞速发展的今天,统计学广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法,并拓展了新的领域。第一,对系统性及系统复杂性的认识为统计学的未来发展增加了新的思路。由于社会实践广度和深度迅速发展,以及科学技术的高度发展,人们对客观世界的系统性及系统的
11、复杂性认识也更加全面和深入。复杂现象,如模糊现象、突变现象及混沌现象等新的领域,给统计开辟了新的研究领域。 第二,定性与定量相结合的综合集成法将为统计分析方法的发展提供新的思想。定性与定量相结合的综合集成方法是钱学森教授于1990年提出的。这一方法的实质就是将科学理论、经验知识和专家判断相结合,提出经验性的假设,再用经验数据和资料以及模型对它的确实性进行检测,经过定量计算及反复对比,最后形成结论。第三,统计科学与其他科学渗透将为统计学的应用开辟新的领域。模糊论、突变论及其他新的边缘学科的出现为统计学的进一步发展提供了新的科学方法和思想。统计学产生于应用,在应用过程中发展壮大。随着经济社会的发展
12、、各学科相互融合趋势的发展和计算机技术的迅速发展,统计学的应用领域、统计理论与分析方法也将不断发展,在所有领域展现它的生命力和重要作用。统计学统计学 统计学指的是一套组织、总结和解释信息的数学过程。 统计过程帮助研究者确定信息或观测值是以一种准确的、信息丰富的方式呈现和解释的。从宏观上来看,统计帮助研究者从混乱中找出规律。另外,统计为整个科学团体提供了一套标准的技术来相互辨认和理解。因此,一个研究者和其他研究者所用的统计方法是相似的,这样一来,研究者们就可以通过完整地理解分析过程了解研究结果的意义,进而对数据分析作出准确的解释。第一章 统计学概论1.1 统计、科学和观察1.2 常用术语什么是统
13、计? 1. 统计工作统计工作 收集数据的活动收集数据的活动 2. 统计数据统计数据对现象计量的结果对现象计量的结果 3. 统计学统计学 分析数据的方法与技术分析数据的方法与技术什么是统计学?1. 数据搜集:例如,调查与试验2. 数据整理:例如,分组 3. 数据展示:例如, 图和表4. 数据分析:例如,回归分析1 统计、科学和观察统计学: 统计学是一套组织、总结和解释信息的数学过程。 统计学的分科 统计学的分科统计学的分科统计的作用 1统计是用来组织和总结信息的,所以,研究者可以看到在研究中发生了什么,同时可以与其他人交流研究结果。 2统计通过确定得到的结果中哪些结论是合理的,来帮助研究者回答想
14、要研究的主要问题。2 常用术语总体总体是特定研究中所关注的所有个体的集合。特征: 总体在时间、空间上的大小由研究者定义而决定,因此大小会有明显的差异,从极大的到很小的都有。如一个勘查区中的全部土壤地化数据。 构成总体的数据属性也有很大差异。如某勘查区的化探、物探、遥感等数据。样本(样品)是指那些从总体中选出的个体,通常在研究中是被用来代表总体的。特征: 是总体的一部分,而代表着总体; 对样本的研究结果要推广到总体。参数和统计量 描述数据时有必要区分数据是来自总体还来自是样本。一个用来描述总体的特征如,总体平均数被称做参数。另一方面,描述一个样本的特征被称做统计量。 如:一批土壤地化分析数据中,
15、Pb的平均值则为参数,而每个样品分析Cu、Pb、Zn三个元素称为统计量。定义: 参数参数通常是一个描述总体的数值。参数可能是从某种单一的测量得到的,也可能来源于一系列对总体的测量。 统计量统计量通常是一个描述样本的数值。统计量可能是从某种单一的测量中得到的,也可能来源于一系列对样本的测量。描述和推论统计方法 研究的问题是通过收集信息开始的。在科学中,信息是通过对个体进行观察和记录测量而得到的。对个体进行测量或是观察得到的结果被称做数据,更普遍的情况下,也被称做一个分数或原始分数。一整套分数或测量结果被称做数据集或简单地称做数据。当得到数据以后,就用统计方法来整理和描述这些数据。定义: 数据是测
16、量或观察所得的结果。一个数据集是一系列的测量或观察结果。一个数据是一个单独测量或观察的结果,同时它常常被叫做分数或原始分数。 研究者开发出许多不同种类的统计程序来整理和描述这些数据,这些不同的统计过程可以被分为两大类。第一类是描述统计,第二类是推论统计。 描述统计是那些用来总结、整理和简化数据的统计方法。 描述统计是整理或总结原始分数,使这些数据更便于管理的技术。通常分数会被整理到一个表格或图形中,这样一来我们就可以看到整个分数的情况。另一个常用的技术是通过计算平均数来总结所有的数据。即使数据集中有几百个分数,平均数也可以给全体数据提供一个单一的描述值。 推论统计包括能够用于研究样本并对样本所
17、来自的总体作出推论的技术。 总体通常都很大,所以我们选出样本来代表总体。我们希望通过样本的分析,得到关于总体的信息。 但是,使用样本的一个问题是,样本只能提供关于总体的有限信息。尽管总的来说样本能代表总体,但样本并不能完美、准确地描绘出总体的情况。通常,一个样本的统计量和相应的总体参数之间是有差异的。这个差异被称做抽样误差。 抽样误差是一种或一些存在于样本统计量和相应的总体参数间的误差(随机误差)。变量:变量:是个体可以改变或者有不同取值的一种特征或情况。变量是相对于常数而言的。常数常数是一个不变的、对每个个体都相同的特征或环境。自变量自变量:变量的属性值不因其他变量属性值的变化而变化的变量;
18、因变量因变量:变量的属性值因其他变量属性值的变化而变化的变量;相关相关:变量之间的相互关联性;离散变量离散变量:由可计数的、分离的、不能分割的数值组成的变量,如样本个数;连续变量连续变量:有无限多个的可能值在任意两个观察值之间,如时间;统计学的应用领域统计方法统计方法统计方法描述统计描述统计推断统计推断统计参数估计参数估计假设检验假设检验描述统计1. 内容内容 搜集数据 整理数据 展示数据2. 目的目的 描述数据特征 找出数据的基本规律推断统计1. 内容内容参数估计假设检验2. 目的目的对总体特征作出推断描述统计与推断统计的关系理论统计与应用统计1. 理论统计理论统计研究统计学的一般理论研究统
19、计方法的数学原理2. 应用统计应用统计研究统计学在各领域的具体应用统计学与数学的关系(联系)1. 统计学运用到大量的数学知识2. 数学为统计理论和统计方法的发展提供基础3. 不能将统计学等同于数学统计学与数学的关系(区别)1. 数学研究的是抽象的数量规律,统计学则是研究具体的、实际现象的数量规律2. 数学研究的是没有量纲或单位的抽象的数,统计学研究的是有具体实物或计量单位的数据3. 统计学与数学研究中所使用的逻辑方法不同数学研究所使用的主要是的演绎统计学则是演绎与归纳相结合,占主导地位的是归纳统计学与其他学科的关系1. 统计学可以用到几乎所有的学科领域2. 统计学可以帮助其他学科探索学科内在的数量规律性3. 统计学不能解决各学科领域的所有问题4. 对统计分析结果的解释需要各学科领域的专业人员小结1、统计与统计学,统计学分类;2、主要的术语;
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。