基础统计培训课件.ppt

上传人(卖家):三亚风情 文档编号:2296779 上传时间:2022-03-31 格式:PPT 页数:44 大小:5.85MB
下载 相关 举报
基础统计培训课件.ppt_第1页
第1页 / 共44页
基础统计培训课件.ppt_第2页
第2页 / 共44页
基础统计培训课件.ppt_第3页
第3页 / 共44页
基础统计培训课件.ppt_第4页
第4页 / 共44页
基础统计培训课件.ppt_第5页
第5页 / 共44页
点击查看更多>>
资源描述

1、当今,我们在日常生活中不知不觉地使用统计学当今,我们在日常生活中不知不觉地使用统计学,跟跟统计学有着非常密切的关系统计学有着非常密切的关系q为了预测棒球比赛的胜负,调查各队过去的胜率q搞民意测验预测总统选举结果q根据收集到的气象数据预测未来的天气q报纸、广播的问卷调查对不确定的将来的议事决定提供必要的情报而收集、分类、对不确定的将来的议事决定提供必要的情报而收集、分类、分析资料,以它为基础提示结论的学问。分析资料,以它为基础提示结论的学问。总统候选人的支持率?总统候选人的支持率?q 记述统计学(Descriptive Statistics) 收集的资料(Data)的量庞大 时把资料整理成容易看

2、出资料全体的特征, 作图或作表格的领域。q 推测统计学(Inferential Statistics) 分析资料中内含的情报,对不确定的事实 进行推论的领域。q 选举结果的预测q 消费者爱好调查q 新药品的测试q 经济指标的预测q 对制品寿命试验分析q 为了改善、管理品质的工具q 为了市场战略的广告效果的分析q 地下矿藏的埋藏量估计q 人口普查、市场调查、经营情报分析等敌人的司令部电机收看者电机收看者计算机计算机选举人选举人人群人群=研究组别研究组别计算机计算机 :不良率不良率(%)?收视率收视率 :节目的收节目的收看率看率 (%)?成为关心对象的所有个体的观测值或测定值的集合选举人选举人 :

3、候选人的支候选人的支持率持率 (%) ?成为关心对象的所有个体的观测值或测定值的集合对指定候候人的对指定候候人的支持率支持率(32%,45%,.)(0.05%,1.2%,.)(23%,37%,.)指定电脑的指定电脑的不良率不良率某电视的收某电视的收视率视率调查对象调查对象母集团母集团所有的情报中想所有的情报中想 了解的是?了解的是?有限母集团:有限母集团:无限母集团:无限母集团:人群的范围人群的范围?母集团具有有限个抽样单位母集团具有有限个抽样单位时的情况时的情况例)特定LOT内的制 品的个数母集团具有无限个抽样单位母集团具有无限个抽样单位的情况的情况例)在连续生产工程中出荷的制品个数抽样单位

4、:在母集团中构成全体的各个个体抽样单位:在母集团中构成全体的各个个体为得到母集团的情报,而实际抽取的观测值或测定值的集合为得到母集团的情报,而实际抽取的观测值或测定值的集合研究集团研究集团 = 母集团母集团例例一个选举人的投票结果选举人1, 选举人2, 选举人3电脑1 , 2, 3观看者1 , 2候选人ABA好 坏 好A节目 B节目知道这个程度知道这个程度A候选人 , B候选人 , .特定电脑的良&不良好 , 坏 , .一台节目A节目 , B节目 , .0.31mm 0.57mm每个数据样品样品测定了特定制品长度的数据每个样品的测定值每个样品的测定值0.57mm0.31mm各自的高度为各自的高

5、度为?计量上能测定的品质特性的值计量上能测定的品质特性的值连续性资料连续性资料(continuous data)例) 长度(m , cm) , 重量(kg)存在测定单位存在测定单位这个盒子的重量这个盒子的重量?重量重量 = 25.3333kg又称计量值又称计量值2341可以作为个数数的品质特性的值可以作为个数数的品质特性的值离散形资料离散形资料代表例) 不良品的数, 缺点数可数的可数的1 1张张, 2, 2张张, , . .通常像通常像 0 ,1 , 2 , 3 0 ,1 , 2 , 3 .一样由正的整数构成一样由正的整数构成优劣的数据优劣的数据 , , 级别资料级别资料, ,集团集团化的资料

6、等也看成离散形化的资料等也看成离散形例例) ) 满足度的上满足度的上/ /中中/ /下资料下资料 , , 1/2/3.1/2/3.q 层别层别 : : 说的是将母集团根据某种特性分成几个层说的是将母集团根据某种特性分成几个层q 目的目的 : : 通过比较层别前后的品质集团的品质分布通过比较层别前后的品质集团的品质分布, , 找出对品质引起品质变动的原因或调查散找出对品质引起品质变动的原因或调查散 布的影响程度布的影响程度q 层别方法层别方法 : : 引起品质变动的原因很多引起品质变动的原因很多 , ,所以我们所以我们 根据根据5M5M以认为是重要的原因别将数据以认为是重要的原因别将数据 层别层

7、别q 时间别时间别 : 时间时间 , 日期日期 , 早上早上 , 下午下午q 作业者别作业者别 : 女女 , 男男 , 工作经验工作经验 , 个人别个人别 , .q 机器、设备别机器、设备别 :机种、机种、 型号型号 , 新新 , 旧旧 , .q 工作方法工作方法 / 工作条件别工作条件别 : 工作方法工作方法 , .q 原资材别原资材别 : 供应商供应商 , 购买时间购买时间 , .q 测定别测定别 : 测定设备测定设备 ,测定者,测定者, 测定方法测定方法 , .q 环境别环境别 : 温度温度 , 湿度湿度 , 天气天气 , .两条线体生产同样的电子开关,两条线体生产同样的电子开关, 下面

8、有两条线体生产的数据下面有两条线体生产的数据 . 根根据这些数据据这些数据 , 我们按照不层别或层别进行分析我们按照不层别或层别进行分析.LINE 1 的的DATALINE 2 的的DATA没有层别的情况层别的情况机器机器 3机器 4机器 2机器 1计作业者计项目表示计小计合计划痕拧孔模样日火水木金土日上午下午 上午下午上午下午 上午下午 上午下午 上午下午上午下午合计小计不良品数不良品数构成比率构成比率总效果总效果不良品不良品数数改善前改善前 改善后改善后气 光 异 拱 划 裂 其泡 泽 物 起 痕 开 他 不 良光 气 异 拱 划 裂 其泽 泡 物 起 痕 开 他不良q 母集团母集团(Po

9、pulation) : 成为研究的对象的集团成为研究的对象的集团:q 样品样品(Sample) : 为了得到母集团的情报而实际抽取为了得到母集团的情报而实际抽取的的 观测值或测定值的集合观测值或测定值的集合:q 抽样的理由抽样的理由 费用的问题费用的问题 破坏检查破坏检查 检查设备的不足检查设备的不足 时间上的问题时间上的问题q 误差误差(Error) : 调查母集团全部后得到的特性和样品中调查母集团全部后得到的特性和样品中 得到的特性值之间的差得到的特性值之间的差获取数据的方法获取数据的方法q 取样的错误取样的错误 : 是与样品选择方法关联的误差,是与样品选择方法关联的误差, 偶然误差和偏移

10、属于此类偶然误差和偏移属于此类q 偶然误差偶然误差(Random Error) : (Random Error) : 它是由许多不可控制的它是由许多不可控制的 因素因素 而偶然发生而偶然发生通过增加样品数可以降低偶然误差通过增加样品数可以降低偶然误差q 偏差偏差( (Bias)Bias) :它是由于没能随意抽取样品而产生的它是由于没能随意抽取样品而产生的偏差不能通过增加样品来降低偏差不能通过增加样品来降低通过校正抽样的方法来降低偏移通过校正抽样的方法来降低偏移q 非样品误差非样品误差 : 测定误差占多数,观测(测定)方法的测定误差占多数,观测(测定)方法的 不不 正确引起的误差正确引起的误差:

11、随意抽样随意抽样抽样时包含在母集团的所有成员被选取的概率相同的方法层别(层别(Stratified)抽样)抽样在取样前 , 将母集团按照某种特征分成几个层, 然后在各层通过随意抽样而取样的方法q仪器 : 骰子,番号表 , 乱数表(母集团大时)q特征 : 容易使用 , 使用的次数最多的方法q例) 假设从3条装配线体的制品中选取30个样品,每个线体中各抽取10个制品q层内同质性高而层间异质性高时,它比随意抽样精确度高 群体群体(Cluster)的抽样的抽样当母集团自然地或人为地形成一个集团时 , 在这种集团中随意选取几个样品 ,然后调查所选择的集团的全体的方法q特点当母集团分布广泛时 , 更有效果

12、与其说是提高精确性的方法,不如说是减少费用的方法,如果群体化不好误差就大二阶段二阶段(Two Stage)抽样抽样把母集团分成若干个抽样单位 , 然后在这些单位中选取一部分 , 最选择的各单位又选取一部分的方法q特点如果抽样单位的大小大或者抽样单位内的组成成员同质性高时 ,它比群体抽样更经济系统系统(Systemstic)抽样抽样将样品在空间上或时间上以一定的间隔抽取的方法I willtryto takegoodsample!我要尽量选取好我要尽量选取好的样品的样品q特点如果母集团在空间和时间上不是随意排列 , 而是有倾向或有周期性时 ,使用这个方法有偏差大的可能性从样品中得到什么样的情报从样

13、品中得到什么样的情报?1. (数据数据)分配的中心位置分配的中心位置2. (数据数据)分布的散布分布的散布.3. (数据数据)分布的形态分布的形态.掌握数据的掌握数据的特点特点?q中心位置中心位置 : 它显示出数据们以什么值为中心分布它显示出数据们以什么值为中心分布1. (数据数据) 分配的中心位置分配的中心位置2. (数据数据) 分图的散分图的散布布q散布图散布图(dispersion measure) : 它显示出数据分布的它显示出数据分布的程度程度1. (数据数据)分配的中心位置分配的中心位置2. (数据数据)分配的散分配的散布布3. (数据数据)分配的形态分配的形态以下是制品长度的以下

14、是制品长度的6次测量的结果次测量的结果长度长度(单位省略单位省略)1 1 2 3 1 3这些数据的中心在哪里?这些数据的中心在哪里? 即中心在哪个位置即中心在哪个位置有几种显示中心位置的测量方法!有几种显示中心位置的测量方法!T Th he e c ce en nt t e er r = =r re ep pr re es se en nt t a at t i i o on nv va al l u ue e中心位置中心位置= 代表值代表值平均平均(mean, 算术平均值算术平均值): 平均值=X1+数据之和数据个数X2Xnninixnniixx1 1或xx 是将收集的所有资料相加后以资料的

15、个数除掉后得到的x长度数据的情况.833. 16313211x算术平均算术平均(mean )制品长度的情况下,如果测定其长度得到了17制品长度 (单位省略)1 1 2 3 1 3 “17”(算术)平均值为 4 , 代表值是由不正常的大数字 “ 17 ” 而提高.这种情况下(算术)平均值不能作为一个代表值而起作用为什么它这样提高了 ?怎样才能不受相关庞大数据的影响而找出有代表性的数据方式 1中央值中央值当数据从小到大排列,处于中间位置的数当数据从小到大排列,处于中间位置的数从小到大安排数据.在测定制品 “ 17 ” 的长度之前 : 1 1 1 2 3 3数据个数是偶数个 : 中心位置 = 1与2

16、的(算术)平均 = 1.5测定制品 “ 17 ” 的长度后 : : 1 1 1 2 3 3 17数据个数是奇数个 : 中心位置 = 2是中间吗是中间吗?比起(算术)平均值 , 包含测量数 “ 17 ” 和不包含 “ 17 ”所代表的数据区别不是很大测定制品 “ 17 ” 的长度 : : 1 1 1 2 3 3 17怎样才能求出不受较大数的影响而具有代表性的数据方式 2最频值最频值 =在数据中最频繁出现的数在数据中最频繁出现的数:中心位置中心位置 :频繁出现的数频繁出现的数 = 1在测定制品 “ 17 ” 的长度之前 : 1 1 1 2 3 3 中心位置中心位置 :频繁出现的数频繁出现的数 =

17、1对于最频值不像算术平均值 , 包含测量数 “ 17 ” 和不包含 “ 17 ”所代表的数据差异不大中间数值 ( 代表性数值 ) 是用来做什么的 ?计量值数据计量值数据如长度 , 重量 . 也就是说 , 是测量材料的一般分散分散的形式 = 对 称的钟形(算术)平均值=中间值=频度数任意代表数都是OK!一般来说 , 具有代表性的数 , 使用 ( 算术 )平均值分布的形态歪斜或偏离的情况时分布的形态歪斜或偏离的情况时 ?这是最原始的数据特征例) 运动员年薪的分散分散图向右呈斜钟型Why ?在小组的抽样数据中 , 特别是较大或较小的数据会被重复抽取例) Major League选手的年薪分布形态尽管

18、中间值位置是代表数据位置的有用信息 , 但却不能显示全部分散形式偶尔 , 分散度比一组群集的数据更重要例) A , B 两公司的轮胎寿命的分散哪一个更可靠哪一个更可靠 ?10thou.50 60分散距离(km)B公司平均寿命好于A公司然而B公司轮胎寿命的分散度较大,我们选择购买B公司的10K公里以下寿命的轮胎是错误的。分散度: 它表示数据的分散程度有几种方法可以衡量分散度有几种方法可以衡量分散度 , 如平均值如平均值.AB方差是距离平方的平均 ( 技术原因 , 自由度不是 n 而是 n-1 )假设墨水渍点大小 (在测量 “17 ”前的数)3040506070 xix)( -ixx()-niin

19、xxs122)1()-niinxxs12)1()()967. 0) 16(.833. 1) 1(12122=-=-=niiniixnxxs标准偏差是方差的平方根方差和标准偏差代表每一个数据与平均值“ X ”的距离的分散程度,也就是说,用距离的平方表示。距离的平方表示点Xi到X即( Xi - X )2怎样更容易地测定分散度 ?数值公式非常复杂范围 = 最大值 - 最小值.111233Max.Min.范围 = 3-1 = 2()-niinxxs12)1(用用 进行数据的分析进行数据的分析MinitabMinitab 是通过图表更简便地进行基础统计16.5 18.0 14.6 17.6 15.3 1

20、4.8 16.1 14.5 19.0 14.718.4 15.3 17.3 16.9 17.1 16.3 18.4 16.9 15.2 14.916.5 18.0 14.6 17.6 15.3 14.8 16.1 14.5 19.0 14.718.4 15.3 17.3 16.9 17.1 16.3 18.4 16.9 15.2 14.9每辆车行驶的距离多长 ?( UNIT : Km / l )step1.在工作表中录入数据在工作表中录入数据step2. Stat Basic Statistics DisplayDescriptiveStatistics Graph选择,按下,OKstep3.

21、 ResultAnalysis 1 (Graph)计 算 平 均 值 的计 算 平 均 值 的结 果 是结 果 是 1 6 . 3 9计算范围的结果是计算范围的结果是( 95% 置信区间)置信区间)( 15.72 , 17.06 )step4. Result Analysis 2 ( Session )数据个数数据个数 : 20平均值平均值 : 16.39标准偏差:标准偏差: 1.434范围范围 : 16.4Min. : 14.5Max. : 19.0nXnXXXXniin121 ) 1/()( 122-nXXSSniiMax. : 19.0平均值平均值 :标准偏差标准偏差 :step4. Result Analysis2 ( Session) 1四分位点:将数据从大到小排列的长度的25%处的数据节选平均值节选平均值 : 16.351四分位点四分位点 14.9753四分位点四分位点 17.525 标准误差标准误差 : 0.3213四分位点:将数据从大到小排列的长度的75%处的数据节选平均值:除去最下面5%和最上面5%的数据后剩余的数据的平均值

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(基础统计培训课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|