1、商务与经济统计 Statistics for Bussiness and Economics一、商务统计课程的性质n1、商务统计是全面系统论述商务与经济统计活动全过程中所用统计理论与方法的综合性课程,在调查分析师证书系列课程中是具有提纲挈领作用的一门课程。n2、商务统计课程的内容都是硕士研究生入学考试必考的内容,是任何一个统计人员和调查分析人员都必须掌握的统计学的核心知识。二、商务统计学习的方法n1、商务统计是一门应用性统计学课程,在学习过程中应注重各种基本概念的含义和各种方法的基本原理与应用,要掌握每种方法的使用条件、计算步骤、以及结果的意义与解释。n2、要在理解和领会中记忆和掌握课程的内容
2、。如对于各种统计分布的复杂的密度函数公式就不需记忆,但却需要熟练掌握其概念定义以及分布函数表的使用方法。第一章第一章 绪论绪论 一、统计学的性质一、统计学的性质二、统计学的作用二、统计学的作用三、统计学的基本概念四、统计指标体系的设计一、统计学的性质 n(一)统计活动的内容与阶段n 对各种数据资料的搜集、整理、分析和推断的活动过程称为统计活动,一项完整的统计活动过程可分为统计资料的搜集整理和统计资料的分析推断两大阶段。n(二)统计学的定义与分科n 统计学就是关于数据资料的搜集、整理、分析和推断的科学。关于统计资料的搜集整理和分析推断的理论与方法构成了统计学的全部内容。n (1)理论统计学与应用
3、统计学n (2)描述统计学与推断统计学二、统计学的作用n(一)统计学在科学研究中的作用提出假说并判定假说的正确与否n(二)统计学在生产中的作用通过试验分析找出最佳工艺,并对生产过程进行统计质量控制。n(三)统计学在管理中的作用抽样调查了解社会与市场,为决策提供依据;并可建立各种社会与经济发展模型,定量地模拟社会与经济的运行,既可分析社会与经济的发展及其结构变化,又可进行政策效果的评价。三、统计学的基本概念n(一)总体和个体 组成统计活动研究对象的全部事物的全体集合,就称为统计总体,简称总体或母体;而总体中的各个事物则称为个体,总体中个体的数量称为总体容量。1、自然物体总体与人为划定个体的总体;
4、2、有限总体与无限总体;3、具体总体与设想总体(抽象总体)。三、统计学的基本概念(二)统计指标及其测度(二)统计指标及其测度 用来测度统计活动研究对象某种特征数量的概念称为统计指标,简称指标。其中,测度总体特征数量的概念称为总体指标,而测度个体特征数量的概念则称为个体指标。指标的测度计量尺度有(指标的测度计量尺度有(1 1)定类尺度,(2)定序尺度,(3)定距尺度,(4)定比尺度。三、统计学的基本概念(三)样本和统计推断 1、样本从总体中随机抽出的部分个体所组成的集合称为样本或子样,样本中所含个体的数目称为样本容量。2、统计推断根据样本观测资料来对总体的分布状况和分布特征进行推断。3、样本数据
5、的分类(1)横截面数据,(2)时间序列数据。四、统计指标体系及其设计(一)统计指标体系的定义 反映总体及其所含个体的各个方面特征数量的一系列相互联系、相互补充的统计指标所形成的体系,称为统计指标体系。(二)构建统计指标体系的意义 CONTENTS 目录Unit 1 第一单元第一单元 Introduction to Probability 概率论介绍概率论介绍-学时学时10 Sampling and Sampling Distrbuions抽样抽样和抽样分布和抽样分布-学时学时4Descriptive Statitics 描述性统计学描述性统计学-学时学时6 Introduction to Pr
6、obability 概率介绍概率介绍-2学时学时4.1 Experiments 实验 练习4.14.2 Events and Their Probabilitys 事件和概率4.3 Some Basic Relationships of Probability 一些基本的概率关系 练习4.2-4.34.4 Conditional Probabilitys 条件概率 练习4.4作业要求与示范Discrete Random Variables 离散型概率-2学时5.1 Discrete Random Variables 离散型随机变量5.2 Discrete Probability Distrib
7、utions 离散型概率分布5.4 Binomial Probability Distributions 二项概率分布 练习5.2和5.45.3 Expected Value and Variances-2学时 期望和方差 练习5.3 Continuous Random Variables连续型随机变量连续型随机变量-2学时学时6.1 Uniform Probability Distributions 均匀分布6.2 Normal Probability Distributions 正态分布练习6.2Sampling and Sampling Distributions抽样和抽样分布抽样和抽样
8、分布7.2 Simple Random Sampling简单随机抽样-2学时7.4 Introduction to Sampling Distrbuions抽样分布介绍7.5 Sampling Distrbuions of 样本均值的抽样分布-2学时练习7.57.6 Sampling Distrbuions of 样本比例的抽样分布练习7.6xpDescriptive Statitics 1-Tabular and Graphical Methods 描述性统计学描述性统计学1 表格和图形方法表格和图形方法-3学时学时SAS软件的数据输入SAS输出结果转化成Excel表或进行修改的方法2.1
9、Summarizing Qualitative Data定性数据汇总2.2 Summarizing Quantitative Data定量数据汇总2.4 Scatter Diagrams散点图Descriptive Statitics 1-Tabular and Graphical Methods 描述性统计学描述性统计学1 表格和图形方法表格和图形方法-3学时学时2.1 Summarizing Qualitative Data定性数据汇总2.2 Summarizing Quantitative Data定量数据汇总2.4 Scatter Diagrams散点图Descriptive Stat
10、itics 2 -Numerical Methods描述性统计学描述性统计学2-数值方法数值方法 3学时学时3.1 Measures of Location 位置的度量3.2 Measures of Variability 离散性的度量练习3.1-3.23.3 Z-scores,Measure of Relative Locationz值,相对位置 练习3.33.4 Exploratory Data Analysis探索性数据分析3.5 Measures of Association Berween Two Variables 两个变量之间联系的度量练习3.53.6 The Weighted
11、Mean and Working with Grouped Data 加权均值和分组数据的处理Unit 2 第二单元第二单元 Estimation:Population Mean,Proportion and Variance总体均值,总体比例和总体方差的参数估计-学时48.1 Interval Estimationof a Population Mean:Large-Sample Case总体均值的区间估计:大样本-2学时练习8.18.2 Interval Estimationof a Population Mean:Small-Sample Case总体均值的区间估计:小样本练习8.28.
12、3 Determining the Sample Size样本数量的确定-2学时练习8.38.4 Interval Estimationof a Population Proportion总体比例的区间估计练习8.4Unit 3 第三单元第三单元Hypothesis Testing:Mean and Variance假设检验假设检验:均值和方差均值和方差-学时学时109.1 Developing Null and Alternative Hypothesis提出零假设和备择假设-2学时9.2 Type and Type Errors 两类错误两类错误9.3 One-Tailed Tests a
13、bout a Population Mean:Large-Sample Case-2学时总体均值的单侧检验:大样本的情况9.4 Two-Tailed Tests about a Population Mean:Large-Sample Case 总体均值的双侧检验:大样本的情况9.5 Tests about a Population Mean:Small-Sample Case总体均值检验:小样本的情况-2学时练习9.1-9.59.6 Tests about a Population Proportion总体比例的检验练习9.610.2 Hypothesis Tests about the d
14、ifference between the Means of Two Populations:Independent Samples 练习练习10.2两个总体均值差的检验两个总体均值差的检验:独立样本独立样本-2学时学时10.3 Inferences about the difference between the Means of Two Populations:Matched Samples 两个总体均值差的推论两个总体均值差的推论:配对样本配对样本 练习练习10.3n11.1 Inference About the Difference BetweennThe Proportions o
15、f Two Populationsn两总体比例差的推论2学时 练习11.1Unit 4 第四单元第四单元Analysis of Variance 方差分析方差分析-学时学时410.4 Introduction to Analysis of Variance方差分析介绍-2学时10.5 Analysis of Variance:Testing for the Equality of k Population Means-2学时方差分析:k个总体均值相等的检验 练习10.4-10.5Unit 5 第五单元第五单元 Regression回归分析回归分析-学时学时612.1 Simple Linear
16、 Regression Method简单线性回归模型-2学时12.2 Least Squares Method最小二乘法12.3 Coefficient of Determination系数的确定12.4 Model Assumption模型假设-2学时12.5 Testing for Significance显著性检验练习12.4-12.512.6 Using the Estimated Regression Equation for Estimation and Predition用估计的回归方程进行估计和预测-2学时12.9 Multiple Regression多元回归练习12.911
17、.3 选讲内容 Test of Independence:Contingency Tables 独立性检验:列联表总复习 Ex4.1-4.3Ex5.2-5.4Ex6.2Ex7.5-7.6 Ex3.1-3.5Ex8.1-8.4Ex9.1-9.6Ex10.3-10.5、11.1Ex12.4-12.9附录1:SAS的数据输出附录2用SAS作直方图的过程模拟试卷参考书1:电子版概率论与数理统计参考书2:电子版SAS操作入门课程44学时+总复习8学时+考试2学时=54学时课程成绩n作业:占总成绩20%1.每周交一次作业,交给约定的班长或课代表,然后交给老师,作业内容为PPT上全部练习(不发回)2.每周作
18、业班长或课代表负责记录按时上交与否同学名单,以”O”表示上交,以”表示未交n3.整个课程上交8次作业,交满7次及以上者得总分的20分平时成绩,不足7次,少1次扣2分,少4次及以上平时成绩记0分n出勤:占总成绩5%缺课1次扣总成绩0.5分,迟到1次扣0.25分,按莱姆顿学院规定缺课1/3取消考试资格即缺课8次及以上不给考试n期中考:占总成绩30%n期末考:占总成绩45%课程简介n 统计是处理数据的科学,是从数据中提取信息、对经济和商务活动进行科学管理的重要手段。统计学是研究不确定数量规律性的学科,概率论是统计学的理论基础,而统计是概率论在处理数据时的实际应用。n 本课程首先介绍了概率论基础知识。
19、统计学部分介绍了定性数据和定量数据的描述性统计学,然后介绍了统计推断的参数估计和假设检验以及方差分析和回归分析。n 为了提高分析处理的实际能力,本课程在统计部分采用Excel和SAS等统计软件处理分析数据。n下表是快餐店在3年中三类业务的销量百分数据(数据名Q203)n本例中我们采用统计中图表法来对数据中的某些特征进行对比分析。n譬如借助Excel采用作带状图进行分类对比n 以上数据做图如下一个数据分析的例下面带状图是业务类别为组,比较每个业务类别内三个年度销量百分数下面带状图是以年份为组比较同一年三个业务类别的销量百分数 这样处理方法是描述性统计学常用的手段,给我们的感觉是不是简洁又一目了然
20、呢。常用的简单图表还有散点图,折线图、直方图、环形图、雷达图、甘特图等等Introduction to Probability 概率介绍概率介绍4.1 Experiments 实验Experiments-试验是可以产生明确定义的一些结果的过程,试验可以重复进行,在一次试验中有且仅有一个结果发生.Exmple:Experiment Experimental Outcomes抛一个硬币 正面,反面检查一个部件 有缺陷,无缺陷接到一个销售电话 购买,未购买抛一个骰子 1,2,3,4,5,6打一场足球赛 胜,负,平 随机试验的Sample Space一个随机试验的样本空间是这个试验全体(基本)试验结果
21、(又称样本点)的集合Experiment Sample Space抛一个硬币 正面,反面检查一个部件 有缺陷,无缺陷接到一个销售电话 购买,未购买抛一个骰子 1,2,3,4,5,6打一场足球赛 胜,负,平 一批同类灯泡的寿命 t0t5”=6,则事件AB表示”点数2”=2,3,4,5,6,事件AB=3,可以验证P(AB)=P(A)+P(B)-P(AB)事件A与事件C是相互排斥的,即AC=,此时P(AC)=P(A)+P(C)Exercises 4.24.3 1.设A、B、C是三个随机事件,试用A、B、C表示下列各事件。(1)恰有A发生;(2)A、C发生而B不发生;(3)A、B、C都发生;(4)A、
22、B、C都不发生;(5)A、B、C中至少有一个发生;(6)A、B、C中至少有二个发生;(7)A、B、C中至多有一个发生;(8)A、B、C中至多有二个发生;(9)A、B、C中恰有一个发生;(10)A、B、C中恰有二个发生;2.袋中装有5个白球,3个黑球,4个红球,从中一次取出三个球,求三个球是同色球的概率。3.某城市发行二种报纸A、B经调查,订阅A报的有30%,订阅B报的有50%,同时订阅A及B报的有15%,试求下列事件的概率:(1)至少订阅一种报纸的;(2)不订阅任何报纸的;(3)只订阅A报的;(4)只订阅一种报纸的;(5)至多订阅一种报纸的;Exercises 4.24.3 1.设A、B、C是
23、三个随机事件,试用A、B、C表示下列各事件。(1)恰有A发生;(2)A、C发生而B不发生;(3)A、B、C都发生;(4)A、B、C都不发生;(5)A、B、C中至少有一个发生;(6)A、B、C中至少有二个发生;(7)A、B、C中至多有一个发生;(8)A、B、C中至多有二个发生;(9)A、B、C中恰有一个发生;(10)A、B、C中恰有二个发生;2.袋中装有5个白球,3个黑球,4个红球,从中一次取出三个球,求三个球是同色球的概率。3.某城市发行二种报纸A、B经调查,订阅A报的有30%,订阅B报的有50%,同时订阅A及B报的有15%,试求下列事件的概率:(1)至少订阅一种报纸的;(2)不订阅任何报纸的
24、;(3)只订阅A报的;(4)只订阅一种报纸的;(5)至多订阅一种报纸的;Answer4.4 Conditional Probability条件概率nExmplen口袋里有5个红球3个白球,先后无放回地随机各摸出一球,n记事件B:”第一次摸出红球”,n 事件A:”第二次”摸出红球”n条件概率P(AB)可(直接)计算如下,当事件B发生时,即第一次摸出红球发生了,第二次摸球时口袋中有4个红球3个白球,所以74)(BAPExmple警力部门有1200个官员,在过去二年里提升情况如表事件M:”官员是男性”事件W”官员是女性”事件A”官员得到提升”则有P(MA)=288/1200P(MAc)=672/12
25、00P(WA)=36/1200P(WAc)=204/1200右上角表的联合概率见右下表在本例中P(AW)=一般情况下 P(AW)P(A)男性女性 合计提升未提升28867236204324876合计960 2401200男性 女性 合计提升未提升0.240.560.030.170.270.73合计0.80.21.0015.02403615.02.003.0)()(或直接WPWAPMultiplication Law乘法法则P(AB)=P(A)P(BA)或P(AB)=P(B)P(AB)实际计算时条件概率往往由题意直接求出Independent Event P(AB)=P(A)或P(BA)=P(B
26、)时称事件A与事件B相互独立或称A与B是独立事件。事件的独立性往往可以从事件的描述中直接判断。譬如先后抛一颗骰子,前后出现的点数是相互独立的Multiplication Law for Independent EventP(AB)=P(A)P(B)Exercises 4.4Answer5.Discrete Random Variables 离散型概率5.1 Discrete Random VariablesRandom Variable-随机试验的结果用数值(这样的数值称为随机变量)来描述,每一可能结果结合一个数值,在试验中随机变量的实际取值依赖于试验的结果。随机变量又可分类成离散型Discr
27、ete或连续型Continuous。Experiment Sample Space Numerical Description抛一个硬币 正面,反面 0,1离散型检查一个部件 有缺陷,无缺陷 1,0离散型接到一个销售电话 购买,未购买 1,0离散型抛一个骰子 1,2,3,4,5,6 1,2,3,4,5,6离散型打一场足球赛 胜,负,平 1,0,-1离散型一批同类灯泡的寿命 t0t t0t连续型建造新图书馆 六个月内完成项目百分进度 0 x100连续型5.2 Discrete Probability Distributions 离散型概率分布5.4 Binomial Probability Di
28、stributions 二项概率分布A Binomial Experiment具有以下四个性质:1.A Binomial Experiment包含n个相同试验序列2.在每次试验中只有二个可能结果我们称其中之一(通常是我们感兴趣的结果)为成功success(S),另一个(感兴趣结果的反面)称为失败failure(F)(或用A与Ac表示)3.在每次试验中,P(S)=p,P(F)=q=1-p4.所有n次试验都是相互独立的具有以上四个性质的试验过程称为n重伯努利试验,简称伯努利试验,这时讨论的问题称为伯努利概型。例如,连续地n次射击,连续地抛掷n次硬币,连续取球n次作有放回抽样等都属于伯努利概型。n以
29、上四点简洁地归纳为:进行n次独立重复试验;每次正(A)、反(Ac)两个结果。n设Xi为第i次试验A发生的次数,则Xi0-1分布,n分布律为n此时,X=X1+X2+Xn=n为n重贝努利试验中事件A发生的次数没有发生当发生当AAXi,0,1Xi01P1-ppniiX1Binomial Probability Function二项分布二项分布称n=1时的二项分布为0-1分布Exmple:口袋中有3个红球2个白球,有放回的连续4次随机摸出一球,事件A:每次摸出红球。问题1:设X为以上过程中摸出红球的次数,求X的分布律问题2:求一共摸出3次红球的概率问题3:求过程中摸到红球的概率。Answer:6256
30、09625161)53(1)0(1)1(.3625216625544)3(.2)(),53;4(.1)52()52()53()52()53()52()53(40441441334440CCCCXPXPXPkXPBXkkkkkkkExercises 5.2 and 5.4Answer5.3 Expected Value and Variances 期望和方差(数学)期望Expected Value又称为均值Mean是随机变量中心位置的一种度量Variance方差-变异或离散性的一种度量Variance of a Discrete Random VariablesExpected Value an
31、d Variance for the Binomial Probability Distributions 二项分布的期望与方差n5.4中Exmple的二项分布XB(20,0.01),即n=20,p=0.01,所以n期望E(x)=np=200.01=0.2,n方差Var(X)=np(1-p)=200.010.99=0.1980-1分布及其期望与方差 在随机试验中把某个结果发生视为事件A发生,这个结果不发生视为A不发生,譬如一批零部件质量检查中检查有无次品、随机调查一个人是否烟民、抛一个骰子是否出现点数”6”等等。设一次试验中事件A发生的概率为p,则以上试验就可以认为服从0-1分布。记X为事件A
32、在一次试验中发生的次数0-1分布是二项分布n=1时的特殊情况,0-1分布的期望与方差计算如下表则E(X)=E(X2)=0(1-p)+1p=p,所以Var(V)=E(X2)-(E(X)2=p-p2=p(1-p);1)0(,0)()1(,1pXPAXpXPAX没有发生当事件即总体的比例发生当事件X01X201概率1-ppExercises 5.3Answer6.Continuous Probability Distributions 若随机变量若随机变量X的取值为区间的取值为区间,其取值某个区间的概率用所谓密度函数曲线其取值某个区间的概率用所谓密度函数曲线下的面积给出时下的面积给出时,称称X为连续
33、型随机变量为连续型随机变量6.1 Uniform Probability Distributions 均匀分布6.2 Normal Probability Distributions 正态分布正态分布Standard Normal Probability Distributions 标准正态分布标准正态分布设ZN(0,1)问题1:给定Z的一个区间,如何求标准正态取值该区间的概率问题2:对于一个含有未知端点的区间和给定的一个概率值,确定这个未知端点,使标准正态取值该区间的概率等于上面概率可以使用Table 6.1解决上述二个问题Computing Probability for Any Norm
34、al Probability Distributions 计算任意正态分布的概率计算任意正态分布的概率 利用以下转换公式可以将任意正态分布的概率计算问题转换为利用以下转换公式可以将任意正态分布的概率计算问题转换为标准正态的概率计算问题标准正态的概率计算问题若若XN(,2),则则Z=N(0,1),这个变换称为随机变量的,这个变换称为随机变量的标准化标准化,因此有概率计算公式因此有概率计算公式 P(aXb)=P()=P(标准正态标准正态Z )问题:设XN(10,22),求P(10X14)解:P(10X14)=P()=P(0 标准正态变量15=P =1.34n(查表6.1)=(0.5-0.4099)
35、2=0.182.n(2)P 10=P 0.5的有限总体)n这儿N是有限总体大小,n是样本容量pnppnppNnNpp)1()1(1pExercises 7.61.某批产品的次品率为0.005,试求任意抽取10000件产品中,次品数不多于70件的概率。(答案:0.9981)2.一保险公司有10000人投保,每人每年付12元保险费。已知一年内投保人死亡率为0.006,如死亡公司付给家属1000元,求:保险公司年利润不少于70000元的概率;(答案:0.0985)Exercises 7.6 Answer1.某批产品的次品率为0.005,试求任意抽取10000件产品中,次品数不多于70件的概率。Ans
36、wer:p=0.005,n=10000,查表6.1,标准正态变量0z2.84的概率面积为0.4977,本题为标准正态变量z2.84的概率面积为0.4977+0.5=0.997784.210000995.0005.0005.01000070)1(70)1(7070),)1(,(npppnnppppPnpPpnPnpppNp等式经标准化后本题有以下2.一保险公司有10000人投保,每人每年付12元保险费。已知一年内投保人死亡率为0.006,如死亡公司付给家属1000元,求:保险公司年利润不少于70000元的概率;Answer:n=10000,p=0.006,投保收入120000,利润不少于7000
37、0即赔付不大于50000,查表6.1,标准正态变量0z1.29的概率面积为0.4015,本题为标准正态变量z-1.29的概率面积为0.5-0.4015=0.098529.110000994.0006.0006.01000050)1(50)1(50500001000),)1(,(npppnnppppPnpPpnPnpppNp等式经标准化后本题有以下1.2 数据n数据=事实n数据是统计分析的基础,数据可以通过安排试验采集或通过观察收集。n数据分为定性数据(Qualitative Data)和定量数据(Quantitive Data),以下数据表中的变量city列是定性数据,而变量x1,x2,x3所
38、在列是定量变量n如果是同一时间点(段)采集的数据表称为(同一时间)横断面数据(Cross-Sectional Data),如前表数据;n如果是一个变量在不同时间的取值数据表称为时间序列数据(Time Series Data),如下某快餐店的外卖数统计表:2.Descriptive Statitics 1-Tabular and Graphical Methods 描述性统计学描述性统计学1 表格和图形方法表格和图形方法n统计分析方法近年来在科研与生产实践包括商务领域中获得了广泛的应用,其原因一是它在高效率获取信息与充分利用信息方面的重要作用;其二是计算机技术的普及,统计软件譬如象SAS等的推广
39、应用,为数据处理方法的广泛应用提供了便捷有力的计算手段。上述两个原因使本课程具有强烈的应用背景和旺盛的生命力。本课程介绍了软件SAS(SAS数据输出或调用Excel数据方法参见附录1)和Excel在数理统计各部分的实际应用。2.1 Summarizing Qualitative Data 定性数据汇总定性数据汇总nSAS数据操作步骤数据操作步骤n 第一步:(启动SAS)点击SAS图标 n第二步:(编写或调用SAS程序)(在Program Edito窗口编写SAS程序)或调用sas的V8文档一个已有程序:点击(Program Edito)file Open(打开 V8)选中并打开所需数据名 第三
40、步:(执行以上SAS程序)点击SAS上方工具栏”Submit”n更详细的操作请参阅word文件”SAS操作步骤”nSAS软件的详细功能和操作可参阅电子版参考书”SAS操作入门”利用SAS软件作Bar Graphs(数据名p25)适用对定性变量进行频率分布讨论以下是频数图、百分频数图、累计频数图频数图、百分频数图、累计频数图 用Excel作Pie Graphs(Excel数据名Q202)n选中饼图(单变量,以数据点序为横坐标)选中子图表左上角类型饼图点右下角”下一步”选择Excel中数据为行或列,点”下一步”可进行各选项(本例对”数据标志”分别选择了”值”和”百分数”)点”下一步”点”完成”n利
41、用Excel可以作各种统计图如折线图、圆饼图、散点图、环形图、直方图、条形图、柏拉图等等,具体作法请参见word文件”利用Excel作统计图”Exercises 2.1n1.将教材p56第44题数据录成SAS数据(起名p56e44),并输出成Excel数据文件(操作参见”SAS操作步骤”)n2.将教材p54第38题数据录成Excel数据(起名p54e38),并作圆饼图圆饼图2.2 Summarizing Quantitative Data定量数据汇总nExcel作直方图n以下数据为食品公司的包子馅料机的采样数据,据此数据作直方图nExcel原始文件名为包子馅重量,样本量n=154n步骤1.对数
42、据由小到大排序对数据由小到大排序n(为了便于对数据还原可先排序前在原始数据左侧增加一序号列如下为了便于对数据还原可先排序前在原始数据左侧增加一序号列如下图图),数据由小到大排序完成后数据由小到大排序完成后n求出极差求出极差Range=最大数最大数max-最小数最小数min=27.9-23.1=4.8Dot Plot点图-每个观测点(x,n)出现在点图上,x代表观测值,n代表相同观测值出现的次序,以下为用Excel对数据文件p32作的点图用刚才作图(Bar Chart)的方式在选项Number of Bars选中选中Bar for each discrete level选项选项 Bar Valu
43、es选中选中Frequnce 则可以作与Dot Plot效果一致的直方图,以下为p32的直方图Cumulative Distribution累计分布的图称为Ogive,以下用SAS软件对84名学生的身高数据(p35)作图操作如下84名学生体重的频数、百分频数累计图(p35)Exercises 2.21.利用Excel对Excel数据文件”包子馅重量和频数”求频率分布包括频数直方图、百分频数直方图、累计频数直方图、累计百分频数直方图、比例直方图2.利用SAS数据文件p30中的学生身高数据h求频率分布包括频数直方图、百分频数直方图、累计频数直方图、累计百分频数直方图、比例直方图3.录入教材p57第
44、46题变量Ratio数据,用Excel作Dot Plot图,用SAS作等效的直方图2.4 Scatter Diagrams散点图如果采集了定量变量X与Y的数据(xi,yi)(i=1,2,n),散点图可以直观地看到二个变量的某些联系。操作步骤如下:数据文件p47的散点图反映出变量x(气温)与y(蒸汽量)是负相关的Negative Relationshipn以下是Excel数据P48中变量x分别与变量y、z、u、v的散点图n由上面图可以直观地看出大致的相关性类型和相关程度。以后还要对线性相关性进一步进行定量讨论(第3章第5节)Exercises 2.4n将教材p512题44中二个数值变量录成数据文
45、件(起名p512e44),并分别用SAS和Excel作散点图3.Descriptive Statitics 2-Numerical Methods描述性统计学描述性统计学2-数值方法数值方法 n对被研究的对象全体进行全面观测或试验是研究一个总体获得最准确结果的方法,但这样实施往往有很大的困难或不可行.例如,要了解全国人口的某些情况,虽然可以进行全国人口普查,但由于工作量惊人而不可能轻易采用这种方法;又如要了解某厂家生产的一批灯管的质量,由于试验带有破坏性不可能通过点坏所有灯管来确定寿命分布.在长期的实践研究中,人们总结出解决上述问题的合适而有效的方法:从研究对象中随机抽取一小部分进行试验或观测
46、,对所得资料加以整理和分析,根据这些资料所显示的统计规律性,应用概率论原理,对研究对象的分布或它的某些数字特征作出推断.3.1 Measures of Location 位置的度量 总体X,从中抽得样本X1,X2,Xn总体X的均值 特点:是一个确定的数,但往往未知 样本均值Mean 特点:通过抽样可求得样本均值,但是随机变量有波动。公式 Nxinxniix1对样本X1,X2,Xn进行由小到大的排序记为X1*X2*.Xn*Median中位数-位于X1*,X2*,.,Xn*中间位置的数,具体当n=2m+1为奇数时中位数即Median=Xm+1,当n=2m为偶数时Median=(Xm+Xm+1)/2
47、Mode众数-出现频率最大的数Exmple 设数据由小到大排序后为 3.2 4.2 4.2 4.2 7.27.2 7.8 9.9 11.4 11.4 12.1 12.1则均值mean=中位数4.2出现频次最高为3,所以众数mode=4.29.7)12.1 12.1 11.411.9.9 7.8 7.27.2 4.2 4.2 4.2 3.2(1215.7)8.7)7(2.7)6(21MedianThe pth Percentle p百分位数-排在第p百分位的数,公式the pth Percentle的计算步骤:1.排序X1*X2*.Xn*2.计算下标计算下标i,3.如果如果i不是整数则最终不是整
48、数则最终i取整后取整后+1;如果如果i已是整数则取已是整数则取Xi*与Xi+1*的平均作为the pth Percentle分位数中位数、分位数、分别称为此时百分位数通常取是所需要的是样本容量这儿434175,50,25,100321QQQpnnpiExmple 设数据由小到大排序后为 3.2 4.2 4.2 4.2 7.27.2 7.8 9.9 11.4 11.4 12.1 12.12.75365,32.41210036100:)36(364.11)4.114.11(21)109(21)75(,2.4)2.42.4(214341,31210025100),41,25(311号数据非整数进一法
49、取序的求法百分位数号号百分位数类似可算得号数据的平均即号与分位数为所以分位数又称百分位数对于lendpercentiinpilendpercentinpiQQQ对数据文件p25中地板磨损数据利用SAS求位置参数操作如下数据文件p25输出各个位置参数结果如下3.2 Measures of Variability 离散性的度量Exercises 3.13.2n教材p77第8题nP84第15题nP85第21题n将教材p76第5题录成SAS数据文件(起名p76e5),并对数据作描述性分析,求出样本均值、最大值、最小值、中位数、Q1、Q3、众数、方差、标准差、极差、四分位极差、变异系数3.3 Z-sco
50、re标准化和数据的相对位置n对应于6.2节中随机变量的标准化,样本数据x1,x2,xn也可以进行z-score标准化处理:n如果某个zi=-0.5,说明对应样本第i个数据比标本均值 小0.5个标准差s,这样经z-score标准化处理后,每个数据在样本中的相对位置就确定了。n例 样本数据xi 均值离差xi-(=44)z-score标准化数据n (s=8)n 46 2 0.25n 54 10 1.25n 42 -2 -0.25n 46 2 0.25n 32 -12 -1.50是标本标准差是样本均值这儿标准化样本sxnisxscorezxzii,.,2,1xxxsxxi契比雪夫定理契比雪夫不等式:设
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。