ImageVerifierCode 换一换
格式:PPT , 页数:67 ,大小:2.79MB ,
文档编号:4106475      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4106475.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(第1章-统计数据的收集与整理分解课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

第1章-统计数据的收集与整理分解课件.ppt

1、第一章 统计数据的收集与整理1.数据类型及频数(率)分布2.数据整理3.样本平均值4.样本标准差5.变异系数 1.数据类型及频数(率)分布连续型数据和离散型数据 连续型数据:与某种标准比较所得到的数据,又称度量数据 离散型数据:由记录不同类别个体的 数目所得到的数据,又称计数数据,对离散型数据进行分析的方法通常称为属性的方法。频数表或频数图是描述数据变化规律最简单的方法频数(率)表和频数(率)图的编绘例1.1 调查每天出生的 10名新生儿中体重超过3kg的人数,共调查120d01020304050012345678910图1-1 频数图2.数据整理【例1.2】将126头基础母羊的体重资料表1-

2、2 126头母羊的体重资料(单位:kg)1、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即 R=Max(x)-Min(x)本例 R=65.0-37.0=28.0(kg)计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。2、确定组数 一般以达到既简化资料又不影响反映资料的规律性为原则。样本含量组数60-1007-10100-2009-12200-50012-1750017-30本例中,n126,根据表2-6,初步确定组数为10组。3、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距相等。组距的计算公式为:

3、组距(i)全距组数 本例 i28.0103.0 4、确定组限及组中值 各组最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:组中值(组下限组上限)/2组下限1/2组距组上限1/2组距相邻两组的组中值间的距离等于组距。组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。表1-2中,最小值为37.0,第一组的组中值取37.5,因组距已

4、确定为3.0,所以第一组的下限为:37.5-(1/2)3.036.0;第一组的上限也就是第二组的下限为:36.0+3.0=39.0;第二组的上限也就是第三组的下限为:39.0+3.0=42.0,以此类推,一直到某一组的上限大于资料中的最大值为止。于是可分组为:36.0-39.0,39.0-42.0,。为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。第一组记为36.0-,第二组记为39.0-,5、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。表1-3 126头母羊的体重的次数分布表在归组划线时应注

5、意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。100株“三尺三”株高测量结果15515515315315915915515515015015915915715715915915115115215215915915815815315315315314414415615615015015715716016015015015015015015016016015615616016015515

6、516016015115115715715515515915916116115615614114115615615415415615615315315815816116115715714914915315315315315515516216215415415215216216215515516116115915916116115615616216215115115215215415415715716216215815815515515315315115115715715615615315314714715815815515514814816316315615616316315415415815

7、81521521631631581581541541641641551551561561581581641641481481641641541541571571651651581581661661541541541541571571671671571571591591701701581581.00100总计0.011159167.5170.51681700.033166164.5167.51651670.1010正正163161.5164.51621640.1515正正正160158.5161.51591610.2828正正正正正157155.5158.51561580.2323正正正正154

8、152.5155.51531550.1313正正151149.5152.51501520.044148146.5149.51471490.022145143.5146.51441460.011142140.5143.5141143频率频数频数计算中值组界/cm组限/cm三尺三株高直方图170.0167.5165.0162.5160.0157.5155.0152.5150.0147.5145.0142.5140.03020100Std.Dev=4.85 Mean=156.2N=100.00SPSS13.0“三尺三”株高多边形图17016616416216015815615415215014814

9、41086420“三尺三”株高的累积频数图167.00165.00163.00161.00159.00157.00155.00153.00151.00149.00147.00141.00Cumulative Frequency1201008060402003.样本平均值 平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:中位数(median)众数(mode)几何平均数(geometric mean)调和平均数(harmonic mean)3.1 算术平均数 算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为 。算术平均

10、数可根据样本大小及分组情况而采用直接法或加权法计算。(一)直接法 主要用于样本含量n30以下、未经分组资料平均数的计算。x 设某一资料包含设某一资料包含n个观测值:个观测值:x1、x2、xn,则样本平均数可通过下式计算:则样本平均数可通过下式计算:(3-1)其中,其中,为总和符号;为总和符号;表示从第一个观测值表示从第一个观测值x1累加到第累加到第n个观测值个观测值xn。当。当 在意义上已明确时,可在意义上已明确时,可简写为简写为x,(,(3-1)式可改写为:)式可改写为:121ninixxxxxnn1niixxxn1niix【例1.3】某种公牛站测得10头成年公牛的体重分别为500、520、

11、535、560、585、600、480、510、505、490(kg),求其平均数。由于 x=500+520+535+560+58+600+480+510+505+49 =5285,n=10得:即10头种公牛平均体重为528.5 kg。5285528.5(kg)10 xxn?(二)加权法 对于样本含量 n30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:(3-2)1 1221121kiikkikkiif xfxf xf xf xxfffff 式中:第i组的组中值;第i组的次数;分组数 第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi

12、 称为是xi的“权”,加权法也由此而得名。ixifk【例1.4】将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。表1-1 100头长白母猪仔猪一月窝重次数分布表组别组中值次数(f)fx10-1534520-25615030-352691040-4530135050-5524132060-65852070-753225合计1004520 利用(3-2)式得:即这100头长白母猪仔猪一月龄平均窝重为45.2kg。计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。452045.2()100fxxkgf 【例3.3】某牛群有黑

13、白花奶牛 1500头,其平均体重为750 kg,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即750 1500725 1200738.89()2700fxxkgf 即两个牛群混合后平均体重为738.89 kg。?(三)平均数的基本性质 1、样本各观测值与平均数之差的和为零,即离均差之和等于零。或简写成1()0niixx()0ixx 2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。或简写为:

14、对于总体而言,通常用表示总体平均数,有限总体的平均数为:(3-3)式中,N表示总体所包含的个体数。1NiixN2211()()()nniiiixxxx22()()xxx当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。统计学中常用样本平均数()作为总体平均数()的估计量,并已证明样本平均数是总体平均数的无偏估计量。x 将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。中位数的计算方法因资料是否分组而有所不同。

15、3.2 中位数 (一)未分组资料中位数的计算方法 对于未分组资料,先将各观测值由小到大依次排列。1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数:2、当观测值个数为 偶 数 时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即:(3-4)(1)/2dnMx/2(/2 1)2nndxxM【例3.4】观察得9只西农莎能奶山羊的妊娠天数为 144、145、147、149、150、151、153、156、157,求其中位数。此例 n=9,为奇数,则:Md=150(天)即西农莎能奶山羊妊娠天数的中位数为150天。(1)/2(9 1)/25nxxx 【例3.

16、5】某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。此例n=10,为偶数,则:(天)即10只仔犬从发现症状到死亡天数的中位数为11.5天。/2(/2 1)5611 1211.5222nndxxxxM(二)已分组资料中位数的计算方法 若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为:(3-5)式中:L 中位数所在组的下限;i 组距;f 中位数所在组的次数;n 总次数;c 小于中数所在组的累加次数。()2dinMLcf 【例3.6】某奶牛场68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如

17、表 3-2 所示,求中位数。表3-2 68头母牛从分娩到第一次发情间隔时间次数分布表 由表3-2可见:i=15,n=68,因而中位数只能在累加头数为36所对应的“57-71”这一组,于是可确定L=57,f=20,c=16,代入公式(3-5)得:(天)即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。15 68()57(16)70.52202dinMLcf3.3 几何平均数 n 个观测值相乘之积开 n 次方所得的方根,称为几何平均数,记为G。它主要应用于动态分析,疾病及药物效价的统计分析。如养殖的增长率,抗体的滴度,药物的效价,疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。

18、其计算公式如下:(3-6)1123123()nnnnGx x xxx x xx 为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即 (3-7)1121lg (lglglg)nGxxxn 表3-3 某波尔山羊群各年度存栏数与增长率 【例3.7】某波尔山羊群1997-2000年各年度的存栏数见表3-3,试求其年平均增长率。利用(3-7)式求年平均增长率 G=lg-1(-0.368-0.3980.602)=lg-1(-0.456)=0.3501 即年平均增长率为0.3501或35.01%。1121lg (lglglg)nxxxn3.4 众 数 资料中出现次数最多

19、的那个观测值或次数最多一组的组中值,称为众数,记为M0。如表2-3 所列 的 50枚受精种蛋出雏天数次数分布中,以22出现的次数最多,则该资料的众数为22天。又如 【例3.6】所 列 出 的 次数分布表中,57-71这一组次数最多,其组中值为64天,则该资料的众数为64天。3.5 调和平均数 资料中各观测值倒数的算术平均数的倒数,称为调和平均数,记为H,即 (3-8)调和平均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。1211111111()nnxxxnxH 【例3.8】某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,

20、4世代210头,试求其平均规模。利用(3-9)式求平均规模:208.33(头)即保种群平均规模为208.33头。11111115 2002202101902105111()(0.024)0.0048H对于同一资料:算术平均数几何平均数调和平均数上述五种平均数,最常用的是算术平均数。4.标准差 4.1 标准差的意义 用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表

21、达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。为 了 准 确 地 表示样本内各个观测值的变异程度,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差,(),称为离均差。虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即()=0,因而不能用离均差之和 来表示资料中所有观测值的总偏离程度。()xxxxxx为了解决离均差有正、有负,离均差之和为零的问 题,可先求离均差的绝对值并将各离均差绝对值之和 除以观测值个数n 求得平均绝对离差,即虽然平均绝对离差可以表示资料中各观测值的变异程

22、度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。nxx/我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。先将各个离均差平方,即 ,再求离均差平方和,即 ,简称平方和,记为SS;由于离差平方和常随样本大小而改变,为了消除样 本大小的影响,用平方和除以样本大小,即 ,求出离均差平方和的平均数;2()/xxn2()xx2()xx 为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度 n-1,于是,我们采用统计量 表示资料的变异程度。统计量 称为均方(mean square缩写为MS)

23、,又称样本方差,记为S2,即 S2=(3-9)2()/1xxn2()/1x xn2()/1xxn 相应的总体参数叫总体方差,记为2。对于有限总体而言,2的计算公式为:(3-10)22()/x xN 由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这 时应 将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差 S2 的平方根叫做样本标准差,记为S,即:(3-11)2()1xxSn 由于 所以(3-11)式可改写为:(3-12)222()(2)xxxxxx222xxxnx222()2()xxxnnn22()xxn2(

24、)21xnxSn 相应的总体参数叫总体标准差,记为相应的总体参数叫总体标准差,记为。对于有限总体。对于有限总体而言,而言,的计算公式为:的计算公式为:(3-13)在统计学中,常用样本标准差在统计学中,常用样本标准差S估计总体标准差估计总体标准差。2()/xN4.2 标准差的计算方法 (一)直接法 对于未分组或小样本资料,可直接利用(3-11)或(3-12)式来计算标准差。【例3.9】计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。此例n=10,经计算得:x=5400,x2=2955000,代入(3-12)式得:(

25、g)即10只辽宁绒山羊产绒量的 标准差 为65.828g。222()/29550005400/1065.828110 1xxnSn (二)加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:(3-14)式中,f为各组次数;x为各组的组中值;f=n为总次数。222()()/11f xxfxfxfSff 【例3.10】利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差。将表3-4中的f、fx、fx2 代入(3-14)式得:(g)即某纯系蛋鸡200枚蛋重的标准差为3.5524g。222()/575507.11 10705.1/2003.552

26、412001fxfxfSf表3-4 某纯系蛋鸡200枚蛋重资料次数分布及标准差计算表 4.3 标准差的特性 (一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。(二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。(三)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。(四)在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(S)范围内;约有95.43%的观测值在平均数左右两倍标准差(2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(3S)范围内。也就是说全距近似地等于6倍标

27、准差,可用(全距/6)来粗略估计标准差。xxx5.变异系数 变异系数是衡量资料中各观测值变异程度的另一个统计量。标 准差与平均数的比值称为 变异系数,记为CV。变异系数可以消除单位 和(或)平 均数不同对两个或多个资料变异程度比较的影响。100%SC Vx 变异系数的计算公式为:(3-15)【例3.11】已知某良种猪场长白成年母猪平均体重为 190kg,标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,哪一个体重变异程度大?由于,长白成年母猪体重的变异系数:大约克成年母猪体重的变异系数:所以,长白成年母猪体重的变异程度大于大约克成年母猪。10.5100%5.53%190C V8.5100%4.34%196C V 注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。下课啦!

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|