1、2022-11-11复习2013年6月9日注:该注:该PPTPPT中红色标注的内容为重点复习内容(必须中红色标注的内容为重点复习内容(必须掌握)掌握)2022-11-12试题和分布试题和分布填空题填空题 20%20%5 5题题单选题单选题 14%14%7 7题题计算题计算题 48%448%4题题根据输出结果回答问题根据输出结果回答问题 18%118%1题题l分组数据平均数、中位数和众数分组数据平均数、中位数和众数 l单总体均值区间估计单总体均值区间估计l假设检验假设检验2 2题题(单总体和两个总体各单总体和两个总体各1 1题题)l一元回归分析综合题一元回归分析综合题1 1题题2022-11-1
2、3第第1 1章和第章和第2 2章不考章不考第第3 3章重点:章重点:1.1.几何平均数(几何平均数(p.49p.49)2.2.分组数据的平均数、中位数、众数计算分组数据的平均数、中位数、众数计算(p.42-45)(p.42-45)3.3.算术平均数、中位数和众数间的关系算术平均数、中位数和众数间的关系(p.45)(p.45)4.p.334.p.33偏态曲线偏态曲线2022-11-14 (1)(1)简单算术平均数简单算术平均数niixnx11算术平均数的计算算术平均数的计算 n 总体单位总数;xi 第 i 个单位的标志值。xi 第 i 组的代表值(组中值或该组变量值);f i 第 i 组的频数。
3、iiiffxx (2)(2)加权算术平均数加权算术平均数 2022-11-15几何平均数几何平均数当统计资料是各时期的发展速度等前后期的两两环比数据,要求每时期的平均发展速度时,就需要使用几何平均数。几何平均数是 n 个数连乘积的 n 次方根。1.简单几何平均数简单几何平均数nnGxxxx 21 2.加权几何平均数加权几何平均数 ffnffGnxxxx 2121f i 各比率出现的频数 2022-11-16例例:某公司原料成本随时间增长的情况如下表求原料成本的平均年增长率。解一解一:1992199319941995成本200228239.4244.2年增长率(%)1452302.105.114
4、.1Gx解二:解二:3200/2.244Gx 年平均增长率=1.0688-1=6.88%0688.10688.12022-11-17复习题复习题某公司原料成本随时间增长的情况如下,1992年的原料成本为200万元,1995年的原料成本为244.2万元,则3年中该公司原料成本的年平均增长率为()。(保留小数点后2位)。19921993199419952022-11-18000,100$X000,50$X000,100$X32150%decrease 100%increase25.2)1()5.(X%0111)2()50(.1)1(1()5.(1(1)1()1()1(2/12/12/1/121nn
5、GRRRR算术平均数算术平均数:几何平均数几何平均数:2022-11-19位置平均数是根据总体标志值所处的特殊位置确定的一类平均指标。包括中位数和众数两种。(一一)中位数中位数(Median)将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数,记为Me。中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。比如有 5 笔付款:9元,10元,10元,11元,60元付款的均值为 20 元,显然这并不是一个很好的代表值,而中位数 Me=10 元则更能代表平均每笔的付款数。二二.位置平均数位置平均数2022-11-110分
6、组数据中位数的确定分组数据中位数的确定 对于分组数据的统计资料,中位数要用插值法来估算。(1)计算各组的累计频数;(2)确定中位数所在的组 是累计频数首次包含中位数位次f/2的组。dfSfLMmme121其中:L 中位数所在组的下限;Sm-1 中位数所在组前一组的累计频数;fm 中位数所在组的频数;d 中位数所在组的组距。2022-11-111(二二)众数众数(Mode)是总体中出现次数最多的标志值,记为M 0。众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。在某些情况下,众数是一个较好的代表值。例如在服装行业中,生产商
7、、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。又如,当要了解大多数家庭的收入状况时,也要用到众数。2022-11-112未分组数据众数的确定未分组数据众数的确定在数据量很大的时候,可以使用 Excel 统计函数中的 MODE 函数返回众数。格式:MODE(,)功能:返回所有参数中数据的众数。0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mode=92022-11-113分组数据众数的确定分组数据众数的确定对于分组数据的统计资料,众数也要用插值法来估算。(1)确定众数所在的组 对于等距分组,众数组是频数最高的组;(2)使用以下插值公式计算
8、dLM2110其中:L 众数组的下限1 众数组与前一组的频数之差2 众数组与后一组的频数之差 d 众数组的组距12众数Ld2022-11-114三三.算术平均数和位置平均数间的关系算术平均数和位置平均数间的关系1.频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同0 xf(Me,M0)X0 xfMeXM00 xfMeXM02.频数分布为右偏态时,众数小于中位数,算术平均数大于中位数3.频数分布为左偏态时,众数大于中位数,算术平均数小于中位数2022-11-115复习例(必看)复习例(必看)补充题:某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众平均数
9、、中位数和众数,并判断分布的形状数,并判断分布的形状。注册资金(万元)50以下 50100 100150 150200 200250 250以上企业数203542261552022-11-116 答案答案注册资金(万元)企业数 累计企业数组中值50以下2020255010035557510015042971251502002612317520025015138225250以上5143275(万元)6.123iiiffxx(万元)64.1195042555.711002/1dfSfLMmmef/2=143/2=71.5,中位数所在“100150”的组,众数组为“100150”的组,)(22.11
10、550)2642()3542(35421002110万元dLM2022-11-117第四章(2-5分)条件概率乘法公式全概率公式贝叶斯公式事件独立性2022-11-118某地区死亡人口统计资料表明,该地区人口死亡某地区死亡人口统计资料表明,该地区人口死亡年龄不低于年龄不低于60岁的占岁的占80%,死亡年龄不低于,死亡年龄不低于80岁的岁的占占20%。问:该地区现年问:该地区现年60岁的人能活到岁的人能活到80岁的概率是多岁的概率是多少?少?2022-11-119某地区死亡人口统计资料表明,该地区人口死亡年龄不低于60岁的占80%,死亡年龄不低于80岁的占20%。问:该地区现年60岁的人能活到8
11、0岁的概率是多少?解解:设A=寿命60,B=寿命80,求P(B|A)。B A,P(AB)=P(B)ABP(AB)=P(B)P(B|A)=P(AB)/P(A)=P(B)/P(A)=0.2/0.8=0.252022-11-120复习重点复习重点1.贝叶斯公式2022-11-121贝叶斯(Bayes)公式若A1,A2,A3,An 为样本空间S的一个完备事件组,则对任一事件B,(P(B)0),有)()|()()|()()|()()|(1BPABPAPABPAPABPAPBAPiiniiiiiii=1,2,n(*)贝叶斯公式在风险型决策中有非常重要的应用,详见本章最后的案例。2022-11-122贝叶斯
12、公式的简单应用某产品由甲、乙、丙三个班组生产,甲、乙、丙班的产量分别占全部产量的50%、30%和20%;次品率分别为2%、3%和1%。现任取1件进行检验,求:(1)抽到的是甲班生产,且是次品的概率;(2)抽到次品的概率;(3)若抽到的是次品,求该次品是丙班生产的概率。2022-11-123解:记:记A1,A2,A3,分别为抽到的产品是甲班、乙班、丙班生产的,分别为抽到的产品是甲班、乙班、丙班生产的,B=抽到的是次品抽到的是次品。(1)由概率的乘法公式,P(A1B)=P(A1)P(B|A1)=0.500.02=0.01(2)由全概率公式 P(B)=P(A1)P(B|A1)+P(A2)P(B|A2
13、)+P(A3)P(B|A3)=0.50.02+0.30.03+0.20.01=0.021(3)由Bayes公式0952.0021.001.02.0)()|()()|(333BPABPAPBAP2022-11-124案例3解答 统计资料表明,某地癌症发病率为千分之五,现该地区正进行癌症普查。普查试验的结果为阴性或阳性。以往的临床资料表明,癌症患者试验反应为阳性的概率是0.95,健康人试验反应呈阳性的概率是0.04。问:(1)当某人试验反应为阳性时他确患癌症的概率;(2)试验反应为阴性者患癌症的概率。2022-11-125记:记:A A1 1=癌症患者癌症患者,A A2 2=健康人健康人,B B1
14、 1=反应阳性反应阳性,B B2 2=反应阴性反应阴性 由题意可知,P(A1)=0.005,P(A2)=0.995,P(B1|A1)=0.95,P(B2|A1)=0.05,P(B1|A2)=0.04,P(B2|A2)=0.96,由全概率公式:P(B1)=P(A1)P(B1|A1)+P(A2)P(B1|A2)=0.0050.95+0.9950.004=0.04455 P(B2)=1-P(B1)=1-0.04455=0.95545。由Bayes公式可得1066.0045.095.0005.0)()|()()|(111111BPABPAPBAP00026.095545.005.0005.0)()|(
15、)()|(212121BPABPAPBAP 即普查试验反应为阳性者确患癌症的概率是10.66%,而反应为阴性者患癌症的概率为万分之2.6。2022-11-126第第5 5章章 抽样与抽样分布抽样与抽样分布复习重点:1.1.抽样方法特点和关系(选择题)抽样方法特点和关系(选择题)2.2.抽样分布抽样分布3.3.会查标准正态分布表、会查标准正态分布表、t t分布表,卡方分布表,卡方,F,F分布分布表表2022-11-127抽样方法抽样方法关系到抽样调查的成本费用和抽样误差的大小,应根据调查的目的、和调查对象的特点采取不同的抽样方法。主要有以下几种抽样方法。2022-11-128(simple ra
16、ndom sampling)也称纯随机抽样纯随机抽样,指不对总体作任何处理,直接按随机原则抽取调查单位的抽样方式。简单随机样本(I.I.D)简单随机抽样最能体现抽样的随机原则,抽样误差的计算就是以简单随机抽样为基础的。局限性局限性:当总体单位数很大时,就难以实现简单随机抽样,且抽样误差较大。1.简单随机抽样2022-11-129(1).分层随机抽样(stratified sampling)也称类型抽样抽样,是将总体按某一主要标志进行分类(分组),分别从各类型组中随机抽取一部分调查单位共同组成样本。三种方法:三种方法:(1 1)等数分配法)等数分配法(2 2)等比分配法)等比分配法(3 3)最优
17、分配法)最优分配法。2.其他抽样方法例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。2022-11-130(2).机械抽样(systematic sampling)也称等距抽样或系统抽样,其步骤如下:(1)按某一标志值的大小将总体单位进行排队并顺序编号;(2)根据确定的抽样比例确定抽样间距;(3)随机确定第一个样本单位;(4)按顺序从总体中等间距地抽取其余样本单位。系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。2.其他抽样方法(续)2022
18、-11-131(3).整群抽样(Cluster sampling )人们就将总体的各单位按一定的标志或要求,分成若干群,然后以群为单位,随机抽取几个群,对被抽中的群进行全部调查,这就是整群抽样。如对人口普查资料进行复查,就采用整群抽样的方式。当群中的元素差异性大时,整群抽样得到的结果比较好。在理想状态下,每一群是整个总体小范围内的代表。分层抽样分层抽样:层间差异尽可能大,层内差异尽可能小整群抽样整群抽样:群间差异尽可能小,群内差异尽可能大2.其他抽样方法(续)2022-11-132(2)代表性误差指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分
19、为两类:系统性误差系统性误差指由于违反抽样的随机原则而产生的误差。随机误差随机误差也称抽样误差抽样误差,指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品,随机抽取100件,其中恰好有2件次品的可能性是很少的。统计误差和抽样误差(续)统计误差和抽样误差(续)2022-11-133影响抽样误差的主要因素(1)(1)总体标准差总体标准差越大,样本结构就越难以接近总体结构,误差也就越大。(2)(2)样本容量样本容量 越大,样本结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小。(3)(3)抽样方法抽样方法不同抽样
20、的方法,将直接影响样本内部结构与总体结构之间的差异。如分层抽样就可以使样本结构更接近于总体结构,因而其抽样误差是所有抽样方法中最小的。(4)(4)抽样方式抽样方式不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样。2022-11-134抽样分布抽样分布(1 1)均值的抽样分布)均值的抽样分布(2 2)比例的抽样分布)比例的抽样分布2(,)xN un2(,)XN u2(,)xN un2(,)XN u(1)(,)spppN pn5(1)5npnp2022-11-135第六章第六章 置信区间估计置信区间估计1.1.允许误差允许误差d d2.2.区间估计(单总体方差未知时
21、的均区间估计(单总体方差未知时的均值估计)值估计)3.3.样本容量的确定(均值和比例)样本容量的确定(均值和比例)2022-11-136估计对象估计对象条件条件要求要求置信区间置信区间nZddxdx/),(2/nSntddxdx/)1(),(2/nSntx/)1(nSntx/)1(,),(dpdpnppZd/)1(2/)1()1(,)1()1(22/1222/2nSnnSn)1()1(22nSn)1()1(212nSnP2 2已知 2未知未知双侧双侧双侧双侧双侧双侧单侧上限单侧上限单侧上限单侧上限单侧下限单侧下限单侧下限单侧下限第六章第六章 置信区间估计置信区间估计2022-11-137设某种
22、元件的寿命 XN(,2),其中,2未知,现随机测得10个元件的寿命如下(小时)1502,1453,1367,1108,1650 1213,1208,1480,1550,1700试求元件平均寿命 的95%置信区间。复习题复习题2022-11-138 故所求 的 95%置信区间为 解:解:已知x/2=0.025,10/5.1962622.2=1423.1,S=196.5,=1-0.95=0.05,n=10,查表得 t0.025(9)=2.26226.140nSntd/)1(2/),(dxdx 可用 Excel 的【工具】“数据分析”“描述统计”需要注意:只给出只给出d值值求解正态总体均值 的置信区
23、间。)7.1563 ,5.1282(2022-11-139复习题复习题 某车床加工的缸套外径尺寸 XN(,2),下面是随机测得的10个加工后的缸套外径尺寸(mm),90.01,90.01,90.02,90.03,89.99 89.98,89.97,90.00,90.01,89.99求 (,)求 的置信度为95%的置信区间;001.90 x2201853.0S2022-11-140总体均值区间估计时样本容量的确定总体均值区间估计时样本容量的确定在给定置信度和允许误差 d 的条件下,由nSntd/)1(2/可得22/)1(dSntn22/dz 其中总体标准差或样本标准差也是未知的,通常可以先通过小
24、规模抽样作出估计。由于使用的是近似公式,可知实际采用的最低样本容量应比计算结果稍大。22/dSz2022-11-141总体比例区间估计时样本容量的确定总体比例区间估计时样本容量的确定国外民意调查机构在进行民意调查时,通常要求在95%的置信度下将调查的允许误差(即置信区间的 d 值)控制在3%以内。问为满足该调查精度要求,需要多大的样本?如果要求置信度达到99%,调查误差仍为3%,此时至少需要多大的样本?2022-11-142案例思考题解答(1)本案例中,当没有关于总体均值P先验值和估计时,要用P=0.5确定样本容量,这样产生最大可能的样本容量及成本最高的抽样,可得由 /)1(2/nppZd22
25、2/)1(dppZn时,当5.0 p故需要的样本容量为2203.05.05.096.1n1.1067(人)1068 达到最大值,)1(pp2022-11-143案例思考题解答案例思考题解答(2)(2)如果要求置信度达到99%,则Z/2=Z0.005=2.575,2203.05.05.0575.2n8.1841 (人)18422022-11-144第第6 6章作业题(尤其章作业题(尤其2,62,6必须掌握)必须掌握)2022-11-145第第7 7章章 单个总体的假设检验单个总体的假设检验复习重点:1.两类错误及其关系两类错误及其关系(重点:选择题)2.单总体假设检验必须掌握内容:单总体假设检验
26、必须掌握内容:sigma未知情况下,总体均值假设检验 2022-11-146设设 t 为检验原假设为检验原假设 H0 所用的统计量,所用的统计量,t(n-1)为为检验的临界值,由显著性水平检验的临界值,由显著性水平 的定义的定义(右边检验右边检验)P t t(n-1)|H0 为真=可知检验中可能出现以下两类判断错误:四.检验中可能犯的两类错误第一类错误第一类错误当 H0 为真时拒绝 H0 的错误,即“弃真”错误,犯此类错误的概率为。第二类错误第二类错误 当 H0 不真时接受 H0 的错误,即“取伪”错误,记犯该类错误的概率为,即P tt(n-1)H0 不真=由于 H0 不真时与 H0 为真时,
27、统计量 t 的分布是不同的,故 1-。2022-11-147由图可知,减少 会增大,反之也然。在样本容量 n 不变时,不可能同时减小犯两类错误的概率。应着重控制犯哪类错误的概率,这应由问题的实际背景决定。n当第一类错误造成的损失大时,就应控制犯第一类错误的概率 (通常取 0.05,0.01等);n反之,当第二类错误造成的损失大时,就应控制犯第二类错误的概率。要同时减小须犯两类错误的概率,必须增大样本容量 n。x0H0:=0t(n-1)H1:=1四.检验中可能犯的两类错误(续)2022-11-148单个总体均值的检验单个总体均值的检验当样本容量足够大时,当样本容量足够大时,t t值可以用值可以用
28、Z Z值近值近似确定似确定2022-11-149案例案例1.1.检验新工艺的效果检验新工艺的效果某厂生产的一种钢丝抗拉强度服从均值为10560(kg/cm2)的正态分布,现采用新工艺生产了一种新钢丝,随机抽取10根测得抗拉强度为:10512,10623,10668,10554,10776 10707,10557,10581,10666,10670问在显著性水平 =0.05下,新钢丝的平均抗拉强度比原钢丝是否有显著提高?2022-11-150案例案例 1 解答:解答:,4.10631xnSxt/0 说明新工艺对提高钢丝绳的抗拉强度是有显著效果的。本案例为右边检验问题,设新钢丝的平均抗拉强度为,2
29、 未知,故使用t 检验。由题意,H0:=0,H1:0由所给样本数据,可求得:S=81,n=10,=0.05,t0.05(9)=1.8331 t=2.7875 故拒绝 H0,即在水平 =0.05下,显著高于 0。10/81105604.106317875.2 t(n-1)=t0.05(9)=1.83312022-11-151在案例1中,若取 =0.01,问结论如何?【解】t0.01(9)=2.8214,t=2.7875 F0.001(a-1,N-a),称因素 A 的作用极高度显著;若 F F0.01(a-1,N-a),称因素 A 的作用高度显著高度显著;若 F0.01(a-1,N-a)F F0.
30、05(a-1,N-a),称因素 A 的作用一般一般显著显著;若 F F0.05(a-1,N-a),则认为因素 A 的作用不显著不显著。单因素方差分析2022-11-160某大型连锁超市为研究各种促销方式的效果,选择下属4个门店,分别采用不同促销方式,对包装食品各进行了4个月的试验。试验结果如下:超市管理部门希望了解:不同促销方式对销售量是否有显著影响?哪种促销方式的效果最好?【案例【案例1】哪种促销方式效果最好】哪种促销方式效果最好?可用 Excel 的【工具】“数据分析”“方差分析:单因素方差分析”求解单因素方差分析问题。案例 1 的方差分析表 其中:P-value P 值,为检验中达到的显
31、著性水平,其含义与 t 检验中“P(T=t)单尾”相同。F crit 在水平(默认0.05)下拒绝域的临界值 F。P-value=0.00014 0.001 故不同的促销方式对商品销售额有极高度显著影响。差异源SSdfMSFP-valueF crit组间7925.43 2641.8 16.628 0.000143.4903组内1906.512 158.87总计9831.915案例案例 1 分析分析2022-11-162进一步的分析进一步的分析对各 i 的 t 检验结果如下(=0.05):1 2 4 (广告宣传)1(有奖销售)2(买一送一)4 *(特价销售)3 *,875.1011x95.106
32、2x175.1583x775.1294x由 Excel 或 SPSS 软件的运行输出结果还可得:2022-11-163无交互作用的双因素方差分析无交互作用的双因素方差分析在无交互作用的双因素方差分析中,要检验的原假设有以下两个:H01:1=2=a=0 H02:1=2=b=0若拒绝 H01,说明因素 A 的作用显著;若拒绝 H02,说明因素 B 的作用显著。2022-11-164 无交互作用的双因素方差分析表来源 平方和 自由度 均方和 F 比 A SA a-1 SA/(a-1)B SB b-1 SB/(b-1)误差 Se(a-1)(b-1)Se/(a-1)(b-1)总和 ST ab-1 )1)
33、(1/()1/(baSaSeA)1)(1/()1/(baSbSeB2022-11-165 考虑交互作用时的双因素试验重点,一定要掌握H01:1=2=a=0H02:1=2=b=0H03:()ij=0;对一切 i,j2022-11-166来源 平方和 自由度 均方和 F 比 A SA a-1 SA/(a-1)B SB b-1 SB/(b-1)AB SAB(a-1)(b-1)SAB/(a-1)(b-1)误差 Se ab(n-1)Se/ab(n-1)总和 ST abn-1 )1(/)1/(nabSaSeA)1(/)1/(nabSbSeB)1(/)1)(1/(nabSbaSeBA2022-11-167给
34、出一个双因子试验如下方差分析表,填入缺失(以“?”表示)的结果,并说明因子A和B所具有的水平数,和每个水平组合下进行重复试验的次数。并在的显著性水平下,判断因素A、B和交互效应的效应是否显著。(已知F0.05(2,30)=3.32,F0.05(8,30)=2.27,F0.05(4,30)=2.69)2022-11-168在某种金属材料的生产过程中,对热处理温度(B)与时间(A)各取两个水平,对产品强度具有交互作用的方差分析部分结果如下(且设各水平搭配下强度的总体服从正态分布且方差相同)问处理温度、时间以及这两者的交互作用对产品强度是否有显著的影响(alpha=0.05)2022-11-170线
35、性回归线性回归作用:分析两个变量之间或多个变量之间的因果关系或相关关系基本假设:随机误差项与自变量项独立对因变量进行解释(因此可以对总的偏差平方和进行分解),随机误差独立、正态同方差分布基本思想:最小二乘法及其原理2022-11-171分别是参数 0 和 1 的最小方差无偏估计。可以证明,,)(1)(2220 xxxNDi221)()(xxDi10 和 以上两式说明,的方差分别为:2.2.10 和10 和 在满足经典假设的条件下1 1回归系数的估计精度不仅与 2 及样本容量 N 有关,而且与各 xi 取值的分散程度有关。在给定样本容量下,xi 的取值越分散,的取值越分散,则估则估计的方差就越小
36、计的方差就越小,反之估计的精确就差。0123450123456789101112=0+1Xyx以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y(kg)与其价格 X(元/kg)间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。价格 xi 4.0 4.0 4.8 5.4 6.0 6.0 7.0 7.2 7.6 8.0 9.0 10 消费量 yi 3.0 3.8 2.6 2.8 2.0 2.9 1.9 2.2 1.9 1.2 1.5 1.6 2022-11-173,5240.3401.X.Y3405245240.来源 平方和 自由度 均方和 F 比 Significance F
37、 回归 4.589 1 4.589 剩余 1.608 10 0.1608 28.54 0.00032 总和 6.197 11 “Significance F”为达到的显著性水平,含义与 P-value 相同。Significance F=0.00032 0.001 故回归方程是极高度显著的。方差分析表故所求回归方程为:说明该食品价格每上涨一元,0.34kg,kg 为该食品的最大月平均消费量。2022-11-174ExcelExcel结果说明补充结果说明补充R Square 为判定系数修正判定系数标准误差TRSSr总平方和回归平方和2()/2ERTSSSN(2)ESN 111bSt2022-11
38、-175 需要继续研究的问题需要继续研究的问题 1.以 90%的可信度预测当价格为5.6元/kg时,该食品的家庭平均月消费量。2.该食品的生产商和供应商希望该食品的家庭月平均消费量能以 90%的把握达到 2.5kg 以上,应将价格控制在什么水平之下?2022-11-176)2()()(11 )2(2202N/SxxxxNNtdEi/)(00dyd,y可以证明,0100 xy预测和控制预测和控制1.1.预测预测就是对解释变量 X 的某一给定值 x0,求被解释变量 Y 的取值 y0 的类似于区间估计问题。对任一给定的 x0,由回归方程可得 y0 的回归值(点估计):y0 的置信度为 1-的预测区间
39、为置信度为 1-的预测区间,2022-11-177关于预测的精度关于预测的精度xx)(00 xdy)(00 xdy 01xy00 xx0oy允许误差 d 的公式说明,预测区间的大小(预测精度)不仅与、样本容量 N 及各 xi 取值的分散程度有关,而且和 x0 有关。当 x0 靠近时,d 就较小,反之,x0 离越远,d 就越大。d 是 x0 的函数 d=d(x0)。2022-11-178预测区间的近似计算预测区间的近似计算 当样本容量 N 足够大时,)()()(11)(222202N/SxxxxNNtdEi/222)()(N/SNE/td 22)(N/SZE/d或中方括号内的部分就近似于 1。因
40、此 d 可以使用以下近似公式计算:其中)2/(NSE 就是回归方程的标准误差标准误差。2022-11-179由所得回归方程 XY0.344.526.534.052.40y4007.0)2/(NSE由 Excel 或 SPSS 的输出结果,可解得当 x0=5.6 时,案例案例 1 的预测问题分析的预测问题分析62.2可得标准误差为dt0.05(10)0.4007=1.81250.4007=0.73 故当价格为 5.6/kg 时,该食品的家庭月平均消费量的 90%置信预测区间为:),(00dydykg)35.3 ,89.1(2022-11-1802.2.控制控制控制问题在质量管理及其他经济管理领域
41、中有着非常广泛的应用,它是预测的反问题。即当要求以 1-的概率将 Y 的值控制在某一范围(y1,y2)内时,应将解释变量 X 的值控制在哪一范围内的问题。也即要确定 X 的两个值 x1,x2,当 x1 X x2 时,在 1-的置信度下可使y1 Y y2即满足 P y1 Y y2|x1 X x2,则说明无法实现所要求的控制目标,也即 Y 的控制范围不能过小(与,N 及 xi 的分散程度等都有关)。2022-11-1831110ydx2210ydx)0(1 当样本容量 N 足够大时,dydyxy10 x0yx1x2y2y1x0yx1x2y2y1控制范围的近似求解控制范围的近似求解1210ydx21
42、10ydx)0(12022-11-184 要求以90%的概率使该食品的家庭月平均消费量达到2.5kg以上,应将价格控制在什么水平之下?xyx22.5X.Y340524dY 5210.dx)2()2(N/SNEtd本例中,可得 dt0.1(10)0.4007=0.55由 4.52-0.34x-0.55 2.5可解得:x 4.32 故应将该食品价格控制在4.32元/kg 之下。注意,对于单侧控制控制要求分析控制要求分析 显然,这是一个单侧控制问题。即要确定 x2的值,使2022-11-185重点,一定要掌握:重点,一定要掌握:一元线性回归模型、一元线性回归模型、EXCELEXCEL解读、预测和控制
43、解读、预测和控制(允许误差(允许误差d d的应用)的应用)2022-11-186ExcelExcel结果说明补充结果说明补充R Square 为判定系数修正判定系数标准误差TRSSr总平方和回归平方和2()/2ERTSSSN(2)ESN 111bSt2022-11-187以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y(kg)与其价格 X(元/kg)间的调查10组数据。为了考察家庭平均月消费量 Y(kg)与其价格 X(元/kg)间的关系,估计了一个平均月消费量 Y(kg)与其价格 X(元/kg)的一元线性回归模型,经计算,月消费量Y的离差平方和SS8,模型的拟合优度R Square0
44、.8,截距的估计值为6.7,标准差为0.434275;价格X回归系数的估计值为-0.5,标准差为0.063583。l 编制一个方差分析表,并依据方差分析的结果在10的显著性水平下检验回归方程的显著性;l 估计回归方程(随机扰动项)的标准差;l 在10的显著性水平下,利用t检验检验价格 X回归系数的统计显著性(备择假设为其系数不为零)2022-11-1882022-11-189(1)写出线性回归方程,并说明变量X与Y之间的线性相关是否显著,并说明理由;(2)填写上表方差分析部分带“?”标示单元格的值(非整数值保留小数点后3位)(3)求当该食品价格为5.4元/千克时,家庭月平均消费量的置信度为90%的预测区间(精确到小数点后3位)(4)如果销售商希望该食品的家庭月平均消费量能以95%的概率达到3千克以上,问应将价格控制在什么水平之下?2022-11-190Thanks&Good Luck
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。