地质数据处理课件:4-数据分布的特征和测度.ppt

上传人(卖家):罗嗣辉 文档编号:2057487 上传时间:2022-01-26 格式:PPT 页数:86 大小:791.50KB
下载 相关 举报
地质数据处理课件:4-数据分布的特征和测度.ppt_第1页
第1页 / 共86页
地质数据处理课件:4-数据分布的特征和测度.ppt_第2页
第2页 / 共86页
地质数据处理课件:4-数据分布的特征和测度.ppt_第3页
第3页 / 共86页
地质数据处理课件:4-数据分布的特征和测度.ppt_第4页
第4页 / 共86页
地质数据处理课件:4-数据分布的特征和测度.ppt_第5页
第5页 / 共86页
点击查看更多>>
资源描述

1、1数据分布的特征和测度洪金益中南大学地学院地质数据处理基础42第四章 数据分布特征的测度1 集中趋势的测度集中趋势的测度 2 离散程度的测度离散程度的测度3 偏态与峰度的测度偏态与峰度的测度31.集中趋势各测度值的计算方法2.集中趋势不同测度值的特点和应用场合3.离散程度各测度值的计算方法4.离散程度不同测度值的特点和应用场合5.偏态与峰度测度方法4数据分布的特征5数据分布的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度6第一节 集中趋势的测度一一. 定类数据:众数定类数据:众数二二. 定序数据:中位数和分位数定序数据:中位数和分位数三三. 定距

2、和定比数据:均值定距和定比数据:均值四四. 众数、中位数和均值的比较众数、中位数和均值的比较7集中趋势(Central tendency)1. 一组数据向其中心值靠拢的倾向和程度;2. 测度集中趋势就是寻找数据一般水平的代表值或中心值;3. 不同类型的数据用不同的集中趋势测度值;4. 低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据;5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定;8众数(概念要点)1. 集中趋势的测度值之一2. 出现次数最多的变量值3. 不受极端值的影响4. 可能没有众数或有几个众数5.

3、 主要用于定类数据,也可用于定序数据和数值型数据9众数(众数的不唯一性)无众数无众数原始数据: 10 5 9 12 6 810定类数据的众数某河流地段岩石类型的频数分布某河流地段岩石类型的频数分布 岩石类型岩石类型块数块数比例比例频率频率(%) 花岗岩花岗岩 A 闪长岩闪长岩 B 灰岩灰岩 C 砂岩砂岩 D 辉长岩辉长岩 E 石英脉石英脉 F112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100实例:为了解勘查区中分布的主要岩石类型,对勘查区中的某个河流地段的转石进行分类计数,结果如表,试计算众数。 这里

4、的变量为“岩石类型”,这是个定类变量,不同类型的岩石就是变量值。在所调查的200块岩石当中,花岗岩的块数最多,占总数的56%,因此众数为“花岗岩”这一类别,即 Mo花岗岩花岗岩11定序数据的众数岩体中裂隙走向的统计数据,计算众数:对岩体中裂隙统计的频数分布对岩体中裂隙统计的频数分布走向走向岩体岩体裂隙裂隙 (条条)百分比百分比 (%) NS NNE NEE EW NW24108934530836311510合计合计300100.012数值型分组数据的众数(要点及计算公式) 13数值型分组数据的众数某岩体50个样品的某元素分析结果分组表含量频数含量频数含量频数含量分组频数(个)累积频数10711

5、19112821051103310821202129111011558110112111301115120816112212241311120120125125141430301131123413321251301040114112431342130135646115112521351135140450117312621371合 计5011831273139214定序数据:中位数和分位数15中位数(概念要点)1.集中趋势的测度值之一2.排序后处于中间位置上的值16中位数(位置的确定)17未分组数据的中位数(计算公式)18定序数据的中位数(算例)对岩体中裂隙统计的频数分布对岩体中裂隙统计的频数分

6、布走向走向岩体岩体裂隙裂隙 (条条)百分比百分比 (%) NS NNE NEE EW NW24108934530836311510合计合计300100.019数值型未分组数据的中位数 (5个数据的算例)原始数据原始数据: 24 22 21 26 20排排 序序: 20 21 22 24 26位位 置置: 1 2 3 4 520数值型未分组数据的中位数 (6个数据的算例)原始数据原始数据: 10 5 9 12 6 8排排 序序: 5 6 8 9 10 12位位 置置: 1 2 3 4 5 6211. 根据位置公式确定中位数所在的组2. 采用下列近似公式计算: 数值型分组数据的中位数(要点及计算公

7、式)22数值型分组数据的中位数某岩体50个样品的某元素分析结果分组表含量频数含量频数含量频数含量分组频数(个)累积频数1071119112821051103310821202129111011558110112111301115120816112212241311120120125125141430301131123413321251301040114112431342130135646115112521351135140450117312621371合 计5011831273139223四分位数(概念要点) 1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值24四分位数(位

8、置的确定)25定序数据的四分位数(算例)前述矿物单体粒度的四分位数矿物单体粒度的频数分布矿物单体粒度的频数分布粒度级别粒度级别某矿石某矿石单体数单体数累计频数累计频数 A B C D E2410893453024132225270300合计合计30026数值型未分组数据的四分位数 (7个数据的算例)原始数据原始数据: 23 21 30 32 28 25 26排排 序序: 21 23 25 26 28 30 32位位 置置: 1 2 3 4 5 6 7 27数值型未分组数据的四分位数 (6个数据的算例)原始数据原始数据: 23 21 30 28 25 26排排 序序: 21 23 25 26 2

9、8 30位位 置置: 1 2 3 4 5 628数值型分组数据的四分位数(计算公式) 下四分位数: 29数值型分组数据的四分位数(计算示例)QL位置位置50/412.5QU位置位置350/437.550个样品某元素分析数据分组表按元素含量分组按元素含量分组频数(个)频数(个)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50前述岩体50个样品某元素分析数据,计算样品的四分位数30定距和定比数据:均值31均值(概念要点) 1. 集中趋势的测度值之一 2. 最常用的测度值 3. 一组数据的均衡点

10、所在 4. 易受极端值的影响 5. 用于数值型数据,不能用于定类数据和定序数据32均值(计算公式)33简单均值(算例)原始数据: 1059136834加权均值某岩体某岩体50 个样品某元素分析结果均值个样品某元素分析结果均值计算表计算表按元素含量分组按元素含量分组组中值(组中值(Xi)频数(频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.0前述某岩体50 个

11、样品某元素分析结果计算均值35加权均值(权数对均值的影响)刻槽取样对比:甲乙两组槽各有10米长,长度及其分析数据如下: 甲组:甲组: 分析结果(分析结果(X ): 0 20 100 刻槽长度(刻槽长度(F ):):1 1 8 乙组:乙组: 分析结果(分析结果(X ): 0 20 100 刻槽长度(刻槽长度(F ):):8 1 136均值(数学性质) 1. 各变量值与均值的离差之和等于零37调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5. 不能用于定类数据和定序数据6. 计算公式为38调和平均数某砂矿三个块段的品位和储量数据块段块段名

12、称名称品位品位(克克/立方米立方米) Xi砂矿储量砂矿储量(立方米立方米) Fi金属量金属量(克克)XiFi甲甲乙乙丙丙1.200.500.801500025000800018000125006400合计合计4800036900某砂矿三个块段的品位和储量数据如表,计算该砂矿的平均品位39几何平均数(概念要点)1. 集中趋势的测度值之一2. N 个变量值乘积的 N 次方根3. 适用于特殊的数据4. 主要用于计算平均发展速度5. 计算公式为40几何平均数(算例)某矿业公司1996年、1997年、1998年和1999年净资产收益率分别为4.5%、2.0%、3.5%、5.4%。计算该矿业公司在这四年内

13、的平均收益率41众数、中位数和均值的比较42众数、中位数和均值的关系43数据类型与集中趋势测度值表表4-4 数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型定类数据定类数据 定序数据定序数据定距数据定距数据定比数据定比数据适适用用的的测测度度值值众数众数中位数中位数均值均值均值均值四分位数四分位数众数众数调和平均数调和平均数众数众数中位数中位数几何平均数几何平均数四分位数四分位数 中位数中位数四分位数四分位数众数众数44第二节 离散程度的测度一. 定类数据:异众比率二. 定序数据:四分位差三. 定距和定比数据:方差及标准差四. 相对离散程度:离散系数45离中趋势

14、46数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势47定类数据:异众比率48异众比率(概念要点) 1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为49异众比率某矿体各级别的储量的频数分布某矿体各级别的储量的频数分布 储量级别类型储量级别类型储量储量频率频率(%) 334 333 331 221 121 1111125191610256.025.54.58.05.01.0合计合计200100 50定序数据:四分位差51四分位差(概念要点)1. 离散程度的测度值之一2. 也称为内距或四分间距3. 上四分位数与下四

15、分位数之差 QD = QU - QL4. 反映了中间50%数据的离散程度5. 不受极端值的影响6. 用于衡量中位数的代表性52四分位差(定序数据的算例)矿石中某矿物单体粒度的数据,计算单体粒度的四分位差 矿石中某矿物单体粒度的频数分布矿石中某矿物单体粒度的频数分布粒度类别粒度类别某单体矿物某单体矿物粒数粒数 累计频数累计频数 A B C D E2410893453024132225270300合计合计30053定距和定比数据:方差和标准差54极差(概念要点及计算公式)1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布55平均差(概念要点及计

16、算公式)1. 离散程度的测度值之一2. 各变量值与其均值离差绝对值的平均数3. 能全面反映一组数据的离散程度4. 数学性质较差,实际中应用较少56平均差(计算过程及结果)某岩体的50个样品某元素分析数据平均差计算表按元素含量分组按元素含量分组组中值组中值(Xi)频数频数(Fi)| Xi- X |Xi-X |Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计合计503

17、12某岩体的50个样品某元素的分析数据,计算的平均差57方差和标准差(概念要点)1. 离散程度的测度值之一;2. 最常用的测度值;3. 反映了数据的分布;4. 反映了各变量值与均值的平均差异;5. 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差。58总体方差和标准差(计算公式)未分组数据:59总体标准差(计算过程及结果)某岩体的50个样品某元素分析数据的标准差计算表元素含量分组元素含量分组组中值组中值(Xi)频数频数(Fi)(Xi- X )2(Xi- X )2Fi105110110115115120120125125130130135135140107.51

18、12.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计合计503100.5某岩体的50个样品某元素的分析数据,计算标准差60样本方差和标准差(计算公式)未分组数据:61样本方差自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数;2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值; 例如,样本有3个数值,即x1=2,x2=4,

19、x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值; 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量。62样本方差(算例)原始数据: 10 5 9 13 6 863样本标准差(算例) 样本标准差样本标准差64方差(简化计算公式)样本方差样本方差65方差(数学性质) 各变量值对均值的方差小于对任意值的方差各变量值对均值的方差小于对任意值的方差 设X0为不等于X 的任意数,D2为对X0的方差,则66

20、标准化值(概念要点和计算公式) 1. 也称标准分数 2. 给出某一个值在一组数据中的相对位置 3. 可用于判断一组数据是否有离群点 4. 用于对变量的标准化处理 5. 计算公式为67相对离散程度:离散系数68离散系数(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5. 计算公式为69离散系数(实例和计算过程)某铅矿石中铅和银的分析某铅矿石中铅和银的分析数据数据样品编号样品编号银(银(PPM)X1铅(铅(%)X21234567817022039043048065095010008.112.51

21、8.022.026.540.064.069.070离散系数(计算结果)结论:结论: 计算结果表明,V1 0为右偏分布 4. 偏态系数 0为左偏分布 5. 计算公式为77偏态样品化学分析样品化学分析数据数据元素含量分组(元)元素含量分组(元)样品比重(样品比重(%)500以下以下500100010001500150020002000250025003000300035003500400040004500450050005000以上以上2.2812.4520.3519.5214.9310.356.564.132.681.814.9478偏态与峰度(从直方图上观察)79偏态系数(计算过程)样品分析样

22、品分析数据偏态及峰度计算表数据偏态及峰度计算表元素含量分组元素含量分组(%)组中值组中值Xi样品比重样品比重(%)Fi(Xi- X ) Fi3(Xi- X ) Fi45以下以下5101015152020252530303535404045455050以上以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.51

23、1293.5346.520.20140.60985.492755.005282.948361.9846041.33合计合计1001689.2572521.2580偏态系数(计算结果)81峰 度82峰度(概念要点)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数3为尖峰分布5. 计算公式为83峰度系数系数(实例计算结果) 一批矿石样品化学分析结果计算的分布峰度系数 84输出的描述统计量平均平均122.98122.98标准误差标准误差1.141.14中值中值(中位数中位数)123123模式模式(众数众数)122122标准偏差标准偏差8.038.03样本方差样本方差64.4364.

24、43峰值峰值-0.41-0.41偏斜度偏斜度0.000.00区域区域(极差极差)3232最小值最小值107107最大值最大值139139求和求和61496149计数计数5050最大( 1 )最大( 1 )139139最小( 1 )最小( 1 )107107置信度( 9 5 .0%)置信度( 9 5 .0%)2.282.2885本章小节1. 集中趋势各测度值的含义、计算方法、集中趋势各测度值的含义、计算方法、特点和应用场合特点和应用场合2. 离散程度各测度值的含义、计算方法、离散程度各测度值的含义、计算方法、特点和应用场合特点和应用场合3. 偏态及峰度的测度方法偏态及峰度的测度方法4. 计算描述统计量计算描述统计量86结结 束束

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(地质数据处理课件:4-数据分布的特征和测度.ppt)为本站会员(罗嗣辉)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|