统计学(数量分析方法)完整教学课件.ppt

上传人(卖家):金钥匙文档 文档编号:1248296 上传时间:2021-04-05 格式:PPT 页数:464 大小:2.69MB
下载 相关 举报
统计学(数量分析方法)完整教学课件.ppt_第1页
第1页 / 共464页
统计学(数量分析方法)完整教学课件.ppt_第2页
第2页 / 共464页
统计学(数量分析方法)完整教学课件.ppt_第3页
第3页 / 共464页
统计学(数量分析方法)完整教学课件.ppt_第4页
第4页 / 共464页
统计学(数量分析方法)完整教学课件.ppt_第5页
第5页 / 共464页
点击查看更多>>
资源描述

1、应用统计学应用统计学完整教学课件完整教学课件 (数量分析方法)(数量分析方法) 应用统计学 (数量分析方法) 3 目标 理解量化量化的重要性和数据的作用数据的作用 在决策中减少由“不确定性不确定性”带来的烦 恼 理解统计思想统计思想对管理的重要性 数据分析的有用工具 4 量化 高度, 重量, 销售额, 股票回报, 次品百分 比, 汇率, 会员数据, 条形码数据 品牌, 服务, 雇员素质, 培训效果, 风险 5 由不确定性带来的烦恼 产品升级?研制新的产品? 高级公寓还是经济型公寓? 增加投资组合中高科技股所占的比例? 我们如何竞争? 风险管理 6-sigma(企业质量改进与管理) 6 统计学是

2、什么?统计学是什么? 统计学是用以(1)收集数据、 (2)整理分析数据和(3) 由数据得出结论的一组概念、 原则和方法 7 政府收集 数据的需要 概率理论 的数学发展 计算机 的出现 统计学 的发展 8 统计学分类统计学分类 描述统计推断统计 统计学 9 描述统计描述统计 利用表格、图形或者 数值(社会经济统计 中的指标指标)来展示和 刻画数据中的信息 n xi 10 推断统计推断统计 利用样本样本获得的数据对总体总体的性质进行估计或 者检验。总体的性质通常用概率模型概率模型刻画。 回答: 为什么某个论断是正确的? 在什么样的假设下? 出现错误的概率是多少? 我们以多高的自信心推出某个论断 (

3、和结论)? 多少样本是足够的? (精确度 与 成本) 我们是在处理我们是在处理偶然性偶然性.没有没有100的必然的必然! 11 我们为什么学习和使用统计学? 理解数字 (和数据挖掘) 股票价格(预测?) 公司收益图表 人口调查 民意测验 质量调查(消费者报告) 以数字为论据 A 比B好 A和B之间的关系 测量与调查 报告 12 利用数字进行决策 营销战略 存货管理 调度 投资决策 避免被欺骗 - 平均年薪是 $60,000. (100个工人每人赚 $30,000, CEO $3,000,000) 去年的薪酬平均增长率是20%. (100个工人的年薪从 $30,000 降到 $27,000. C

4、EO 从 $3,000,000 增加到 $4,5000,000) 13 医院A 医院B 死亡 63 16 康复 2037 784 总数 2100 800 A:63/2100=0.03 B: 16/200=0.02 良好状态病人 恶劣病情病人 辛普森悖论 医院A 医院B 死亡 6 8 康复 594 592 总数 600 600 医院A 医院B 死亡 57 8 康复 1443 192 总数 1500 200 A: 6/600=0.01 A: 57/1500=0.038 B: 8/600=0.013 B: 8/200=0.04 死亡率 14 统计学在商务管理中的应用统计学在商务管理中的应用 营销:新

5、产品(服务)定价、广告预算的制定 与分配比例、市场调研、销售预测、客户细分 金融:投资组合的评价与比较、市场模型、风 险管理 生产作业管理:度量及控制排队成本、产品在 保修期内的失效率的分布、产品可靠性的度量、 储存量的决定、质量管理、学习曲线 15 经济:需求曲线的估计 会计:成本函数的估计 人力资源管理:招聘(或培训)中的考 试分数及效果的度量、补偿金额的确定、 其他:垃圾邮件识别、手写识别、DNA 表达、数据挖掘. 16 更多的例子: 可变电阻器数据: 在生产过程中按时间顺序取得的135 个观测值 目的: 统计过程控制 12010080604020 50 40 30 Index D-Rh

6、eo 17 道琼斯平均指数(每月收盘) (1976.11981.8) 目的: 预测? 605040302010 1000 900 800 Index DJ 18 食品周销售额(156 个观测值) 目的: 衡量营销手段的效果 马歇尔 菲尔兹公司季度销售额 (1960.11975.4) 目的: 季节性变化 19 银行数据:给什么样的人发信用卡?给 什么样的企业发放贷款? 连锁店数据:预测新店的利润,预测新 店对其他店的影响。 电信数据:客户消费模式、防止高价值 客户流失、使不活跃客户活跃起来、使 低价值客户上升为高价值客户。 20 教材及参考书 戴维 R. 安德森 等著,商务与经济统计商务与经济统

7、计 (第8版) “管理统计案例管理统计案例”,(中文版英文版均可) P.C.Bell, 机械工业出版社,1999年。 “ExcelExcel统计分析与决策统计分析与决策”,于洪彦等, 21 考核方式考核方式 作业 20 小组案例 20 期末考试 60 第一讲第一讲 对数据做统计描述对数据做统计描述 23 数数 据据 数据数据(data)是所收集、分析、汇总表述 和解释的事实及数字; 个体个体(element)是从中收集数据的实体; 变量变量(variable)是关于个体的特征; 观测观测(observation)是对一特定个体收 集的度量集。 城乡每周通话次数数字移动电话类型性别 城市20神州

8、行男 农村20神州行男 农村40神州行男 城市30全球通男 城市10全球通男 城市20全球通女 城市20长白行男 城市40神州行男 城市60全球通男 城市20全球通男 城市20全球通男 城市20全球通男 城市20全球通男 城市20长白行男 城市20全球通男 城市25全球通男 城市30全球通男 城市7全球通女 城市20全球通男 城市10全球通男 25 数据变量的分类数据变量的分类 按照取值类型:品质数据(Qualitative data) 和数量数据(Quantitative data); 品质数据:用于鉴别每一个体品质的标记或名称 数量数据:表示多少 按照获取时间:截面数据 (Cross-se

9、ctional data)、时间 序列(Time series data); 截面数据:在相同或近似相同的时间点上收集的数据 时间序列数据:在几个时间期间收集的数据 年份月份社会消费品零售额 19901651.68 2572.3 3572.5 4557.56 5568.62 6569.02 7549.99 8557.96 9607.16 10613.64 11638.04 12732.36 19911706.41 2698.85 3641.32 28 品质数据的描述方法(一)品质数据的描述方法(一) 频数分布,相对频数、百分比频数 数字移动电话类型汇总 相对频数百分比累计百分比 长白行20.1

10、1010 全球通140.77080 神州行40.220100 总计201100 29 品质数据的描述方法(二)品质数据的描述方法(二) -条形图、柱形图、饼图条形图、柱形图、饼图 频数 2 14 4 0 2 4 6 8 10 12 14 16 长白行全球通神州行 类型 30 百分比 长白行 10% 全球通 70% 神州行 20% 31 数量数据的描述方法(一) 频率 103 3014 502 701 32 数量数据的描述方法(二) 直方图 0 5 10 15 10305070其他 频率 33 刻画两个变量的关系 交叉分组列表: 数字移动电话类型男女总计 长白行22 全球通12214 神州行44

11、 总计18220 34 身高体重的散点图 0 10 20 30 40 50 60 70 80 150160170180190 身高 体重 散点图 35 数据描述的数值方法 通过数据指标来概括数据中的信息。 如何刻画数据的位置; 如何刻画数据的变异程度; 如何刻画检验异常值; 如何刻画两个变量之间的关系。 36 数据位置的度量 平均数 中位数 众数 四分位数 百分位数 37 平均数平均数(Mean) 数据值的算术平均数据值的算术平均: 最常用的中心位置度量最常用的中心位置度量 受极端值影响受极端值影响 n x n i i 1 n xxx ni 2 0 1 2 3 4 5 6 7 8 9 10 0

12、 1 2 3 4 5 6 7 8 9 10 12 14 平均数平均数 = 5 平均数平均数 = 6 x 38 中位数中位数(Median) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 中位数中位数= 5 中位数中位数= 5 重要的中心位置度量重要的中心位置度量 在递增排序后的数据列中,在递增排序后的数据列中, 若若 n 是是 奇数,中位数是正中央的数奇数,中位数是正中央的数. 若若 n 是是 偶数,中位数是正中央的两数的平均值偶数,中位数是正中央的两数的平均值. 不受极端值的影响不受极端值的影响 39 众数众数(Mode) 0 1 2

13、 3 4 5 6 7 8 9 10 11 12 13 14 众数众数 = 9 发生频数最高的数据值发生频数最高的数据值 不受极端值的影响不受极端值的影响 众数可能不存在众数可能不存在 可能有多个众数可能有多个众数 可用于数量型或品质型数据可用于数量型或品质型数据 0 1 2 3 4 5 6 没有众数没有众数 40 百分位数百分位数(Percentile) 第p百分位数:使得至少有p%的数据小 于或等于这个值,且使得至少有(100- p)%的数据大于或等于这个值。 计算: 1.将原数据从小到大排列 2. 计算i=(p/100)n 3.若i是整数, 则第p百分位数为第 i 与第 i+1 项的平均。

14、 4. 若i不是整数,则向上取整。 41 四分位数(Quartile) 将排序后的数据分为四个等份将排序后的数据分为四个等份 25% 25% 25% 25% Q1 Q2 Q3 11 12 13 16 16 17 18 21 Q1 =12.5 42 变异程度的度量变异程度的度量 全距 方差 标准差 变异系数 43 全距全距= 最大值最大值 最小值最小值 忽略数据的分布忽略数据的分布 全距全距(Range) 7 8 9 10 11 12 全距全距= 12 - 7 = 5 7 8 9 10 11 12 全距全距= 12 - 7 = 5 44 重要度量重要度量 对于总体对于总体: 对于样本对于样本:

15、方差方差(Variance) N Xi 2 2 1 2 2 n XX s i 45 最重要的变异程度的度量最重要的变异程度的度量 反映了关于平均值的变异程度反映了关于平均值的变异程度 对于总体对于总体: 对于样本对于样本: 标准差标准差(Standard deviation) N X i 2 1 2 n XX s i 46 标准差的比较标准差的比较 Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 11 12 13 14 15 16 17 18 19 20 21 Data B Data A Mean = 15.5 s = .9258

16、11 12 13 14 15 16 17 18 19 20 21 Mean = 15.5 s = 4.57 Data C 47 变异系数变异系数 反映反映 相对于平均值的变异程度相对于平均值的变异程度 可用来比较两组或多组数据可用来比较两组或多组数据 公式公式 ( 对样本对样本): 100 X S CV 48 变异系数的比较变异系数的比较 Stock A: 去年的平均价格去年的平均价格 = $50 标准差标准差 = $5 Stock B: 去年的平均价格去年的平均价格 = $100 标准差标准差= $5 100 X S CV 变异系数变异系数: Stock A: 10 Stock B: 5 4

17、9 异常值的检测的经验法则异常值的检测的经验法则 对于钟型分布(正态分布)的数据: 约68%的数据与平均数相差在1个标准差之内; 约95%的数据与平均数相差在2个标准差之内; 几乎所有的数据与平均数相差在3个标准差之 内; 与平均数的距离超过3个标准差的数据应作为 异常值对待。 50 例:Jensen计算机用品有限公司 Jensen计算机用品有限公司(JCS)生产个人计算机上使 用的直径为3.5英寸的软盘。在开工后第1个小时,第2 个小时,.分别抽取5张软盘组成一个随机样本,直到 抽取了20个样本为止。 51 01020 3.485 3.495 3.505 3.515 Sample Numbe

18、r Sample Mean X=3.499 3.0SL=3.514 -3.0SL=3.485 控 制 图 52 两个变量相关性的度量两个变量相关性的度量 对于数量型的变量: 协方差(Covariance) 相关系数(Correlation coefficient) 注: 描述的是线性相关关系的程度 n yx yx n n yyxx YX i n ii n i ii n i ii 11 1 n 1i 1 1 1 )( ),cov( yxs s YX r ),cov( 样本相关系数 的取值区间是:-1,1 . 54 当点沿y 轴的变化不依赖于其在x 轴的位置或 反之时,则r 将接近0,我们称x与y

19、不相关。 当各点在平面上大致沿一条正斜率直线分布 时,r便大于0,我们称x与y 正相关。 当各点在平面上大致沿一条负斜率直线变化 时,r便小于0,我们称x与y 负相关. 在极特殊的情况下,所有点都准确落在一条具 有正(或负)斜率的直线上,这时r的值为1 (或 1)。r.doc 55 案例 加拿大和日本投资收益比较 数据包含两个国家各自从1988年2月至 1996年2月之间的107个月的金融资产组 合收益。 canajapan.xls 56 第二讲第二讲 概率分布概率分布 57 概率(Probability) 概率是事件发生的可能性的 数值度量。 取值在 0 到 1 之间 古典法,相对频数法,主

20、观 法 必然事件 不可能 事件 .5 1 0 58 对以下情况应使用哪种方法找概率?对以下情况应使用哪种方法找概率? 一个有六个孩子的家庭有一对双胞胎; 从一副牌中抽出一张A; 明天郊游时下雨。 59 样本空间(Sample Space) 一个试验所有可能出现的结果构成样本空间。 e.g. All 6 faces of a die: e.g. All 52 cards of a bridge deck: 60 事件(Event) 若干样本点的集合。 事件的概率等于事件中所有样本点的概率的和 61 随机变量(Random Variable) 一次试验结果的数值性描述 离散型随机变量,连续型随机变

21、量 期望,方差 62 离散型随机变量离散型随机变量 nProbability Distribution nValues(x) Probability (f(x) n 0 1/4 = .25 n 1 2/4 = .50 n 2 1/4 = .25 Toss 2 Coins. Count # Tails. T T T T 63 离散随机变量的数学期望 定义: 对期望的解释: 1) 以概率作为加权的加权平均值 2) 概率分布的中心 3) 长期重复的平均值 4) 一场赌博的公平值 5) 得到随机变量的总体的总体的平均值 )()(xxfxE 64 离散随机变量的方差 定义: 对方差的解释 1) 与平均值

22、偏差的平方的概率加权平均值 2) 概率分布的散布程度 3) 多次重复结果的方差 4) 赌博的“风险” 5) 得到随机变量的总总体的体的方差 )()()( 22 xfxxVar 65 例 A股票:获得3%回报的概率是0.7。获得1%回 报的概率是0.3 B股票:获得 6%回报的概率是0.7。获得8%回 报的概率是0.3 C股票:获得45.42%回报的概率是0.7。获得 100%回报的概率是0.3 你选择哪一个你选择哪一个? A股票:均值1.8%,标准差1.83 B股票:均值1.8%,标准差6.42 C股票:均值1.8%,标准差66.64 66 方差作为期权定价 A股票:今天的价格是150。假定3

23、个月后,价格将变为: X= 每股收益: R=X-150 期望收益: 0 方差 标准差 50 5 . 0100 5 . 0200 with with 222 505 . 0)150100(5 . 0)150200(xx 期权:在特定时间以特定价格买卖股票的权利 一个 150看跌期权: 在3个月后以$150的价格售出一股股票的权利 一个 150看涨期权: 在3个月后以$150的价格买入一股股票的权利 67 你如何赚钱? = 现在以$150的价格买入一股。买入两个看跌期权(可以以$150的价 格售出) 3个月后: 如果X=$200. 收益=$50 (股票收益 $50. 期权作废) 如果X=$100.

24、 收益=$50 (股票损失 $50. 每一个期权盈利$50) 但是,你需要为期权付费(它不是免费的!) 期权的价值是多少? $25 68 B股票:今天价格是$150。3个月后 如果 X= 期望收益 0 方差 标准差 100 5 . 050 5 . 0250 with with 222 1005 . 0)15050(5 . 0)150250(xx 同样的方案: 收益 $100 期权价格: 50 69 方差作为质量的度量 x1 y1 -101 -101 x1 y1 -101 -101 x1 y1 -101 -101 x1 y1 -101 -101 70 Bernoulli分布分布 又称二值分布,X

25、只取0和1两个值,而且 Pr(x=1)=p, Pr(x=0)=1-p. 期望和方差: E(X)=p; Var(X)=p(1-p). 什么样的问题(数据)可以使用该模型? 71 二项分布(二项分布(Binomial)Binomial) 概率函数 期望 方差 .2 , 1 , 0,)1 ()( )( nxpp x n xf xnx npxE)( )1 ()(pnpxVar 72 (1) n 次独立的试验 (2) 每一个试验有两种可能的结果 成功, 失败 (3) 所有试验的成功的概率, P(S)=p, 都相等 (4)在n次独立的试验中成功了的次数是X 73 n = 5 p = 0.1 n = 5 p

26、 = 0.5 Mean Standard Deviation E X np np p ( ) ( ) 0 .2 .4 .6 0 1 2 3 4 5 X P(X) .2 .4 .6 0 1 2 3 4 5 X P(X) e.g. = 5 (.1) = .5 e.g. = 5(.5)(1 - .5) = 1.118 0 74 超几何分布超几何分布(Hypergeometric)(Hypergeometric) 概率函数: 期望和方差: 从抽样方式上看:二项式分布和超几何 分布的区别。 ., 2 , 1 , 0 )(rx n N xn rN x r xf N nN N rN N r nxVar N

27、nr xE )( ,)( 75 泊松分布泊松分布(Poisson)(Poisson) 概率函数: 期望和方差: , 3 , 2 , 1 , 0 , ! )( x x e xf x )( ,)(xVarxE 76 = 0.5 = 6 ) 0 .2 .4 .6 0 1 2 3 4 5 X P(X) 0 .2 .4 .6 0 2 4 6 8 10 X P(X) 77 连续随连续随机机变变量量 密度:f(x) 期望: 方差: 1)(, 0)(xfxf dxxfxxVar dxxxfxE )()()( )()( 22 78 均匀分布均匀分布(Uniform)(Uniform) 概率密度函数: 期望和方差

28、: 其它。 0 ; 1 )(bxa ab xf 12 )( )( , 2 )( 2 ab xVar ba xE 79 正态分布正态分布(Normal)(Normal) 概率密度函数 标准正态分布的密度函数 2 2 2 )( 2 1 )( x exf 2 2 2 1 )( x exf 80 正态分布的图形正态分布的图形 正态分布的密度曲线正态分布的密度曲线 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 -6-4-20246 f(x)sigma=0.5 f(x)sigma=2 81 指数分布指数分布( (Exponential ) ) 密度函数: 期望和方差: 0 , 1 )( /

29、 xexf x 2 )( )(xVarxE 82 Exponential Distributions f(X) X = 0.5 = 2.0 83 随随机机变变量的量的组组合合 假如 和 是两个随机变量。它们的 (线性)组合可这样取得 式中c1和c2 代表确定的数字。 应用:这种组合的典型用途是描述证券投 资组合的收益。 1 X 2 X 2211 XcXc 84 例:设定随机变量 = % SafeCo共同基金的收益 = % RiskCo共同基金的收益 假设 N(5, 22) 而 N(8, 42) 你更愿意要哪一种基金? 1 X 2 X 1 X 2 X 假设你有一笔固定数目的钱要投资。 假如你将5

30、0%投资在SafeCo,将50%投资在RiskCo,你的收益将会如何? 假如你将80%投资在SafeCo,将20%投资在RiskCo,你的收益将会如何? 85 相关系数。 的和为其中 21 21 2211 2121 2 2 21 2 12211 22112211 )()( )( )()(2 )()()( )()()( XX XVarXVar XXE XVarXVarcc XVarcXVarcXcXcVar XEcXEcXcXcE 86 平均收益 方差 50%50% 组 合 6.5 5 7 3 80%20%组 合 5.6 3.2 4.48 1.92 05 . 05 . 0 87 第三讲第三讲 抽

31、样分布和估计抽样分布和估计 88 概率论与统计学之间的关系概率论与统计学之间的关系 一个概率论的问题:一个概率论的问题: 假定有一个大盒子中有 10,000个球,分布如 下: 70%的黑球和 30%的白球 随机抽取100个球,得到60个黑球和40个白球 的概率是多少? - 给定一个总体(盒子中的所有小球)的 已知特征(70% 和30%),研究一个试验(抽 取小球)的可能的结果 (例如 60-40) 。 89 一个统计学的问题:一个统计学的问题: 假定一个大盒子中有 10,000个小球(黑和 白)。随机抽取100个小球,发现其中有60个 黑球和40个白球。那么黑球在盒子中所占的比 例是多少? -

32、 观察到一个试验(抽取小球)的结果 (60-40), 推断出这个总体(盒子中的所有小 球)的特征(比例) 90 总体样本理论总体样本理论 统计推断采用一个(有代表性的)子总 体(样本)来对总体的某些特征进行科 学的推断。 91 总体总体 扑克筹码总体, 中国所有MBA学生的身高总体, 深圳所有居民的收入总体, 金融资产收益总体 可以认为被研究的总体包含了一个非常大的 (或无限的)数量的元素,这些元素以一定的 方式分布。 92 样本样本 从盒子中随机抽取100个扑克筹码 从中国随机抽取的200个MBA学生的身高 随机抽取的1000个深圳居民的收入 观察到的金融资产的收益 样本必须是总体的一个具有

33、真实代表性 的子集。只有依靠这样的样本,我们才 能得出科学的(符合统计学的)结论。 93 例:EAI的抽样问题 (p.185) 人事主管要制定一项公司2500名管理人 员的简报。 内容包括平均年薪、已完成培训项目的 管理人员所占比例。 如果已有全部2500人的信息 如果没有 94 几个问题 如何抽样? 样本和总体有什么样的关系? 如何由样本估计出平均年薪及完成培训 的比例?估计的误差有多大? 某人声称该公司管理人员平均年薪为 53000元,你是否同意这个说法? 该公司管理人员的年薪有什么样的分布? (是正态分布吗?) 95 统计推断的基本概念统计推断的基本概念 总体:有限总体、无限总体; 样本

34、; 统计推断的任务:通过样本来了解总体。 为什么需要抽样: 1) 总体无法得到; 2) 时间成本不允许; 3) 实验具有破坏性。 96 参数:总体的特征 例:P(正面), P(不合格品) 深圳居民的平均收入 统计量:从样本中计算出的任何量 例:在100次抛掷硬币中得到正面的比例 在随机抽取的1000枚芯片中不合格品的比例 随机抽取的1000个深圳居民的平均收入 估计量:用来估计参数的统计量 97 统计推断的内容之一统计推断的内容之一 估计参数 点估计和区间估计 管理人员年薪 ) , ( 2 N 22 1 2 1 )( 1 1 1 xx n s x n x n i i n i i 98 统计推断

35、内容之二统计推断内容之二 假设检验:是否可以选用这个模型? 例子: 是否可以使用模型N(53000,16062) 来刻画管理人员的年薪? 思想: 如果该模型是好的,那么 和 53000相差很多的可能性不能太大。 x 99 简单随机抽样 有限总体的简单随机抽样:等概率抽样; 有放回抽样:独立性 无放回抽样:非独立性 抽样方法: 利用 Excel 100 无限总体的简单随机抽样:独立性; 例子:某快餐店11:3013:00午饭时 间顾客从点餐到拿到食品的时间。 101 样本和总体分布 例子:筹码 一个箱子中有10000个筹码,其中50%为 5元, 30%为10元, 10%为15元, 10%为30元

36、。 y P(y) 5 .5 10 .3 15 .1 30 .1 102 从中抽一个容量为30的样本: 10 5 5 10 5 5 10 10 10 30 30 5 5 5 5 5 10 5 5 5 30 15 10 15 10 5 15 15 5 10 总体分布 0 0.2 0.4 0.6 5101530 价值 概率 样本分布 0 0.2 0.4 0.6 5101530 价值 概率 54.7 78.56 33.10 42.7 55 10 2 2 s s x 105 抽样分布 样本不同, 值也不同。那么 取不同 值的可能性分别是什么? 的概率分布称作它的抽样分布。 抽样分布在统计推断中的中心地位

37、。 抽样分布取决于总体的分布(模型)以 及抽样的方式。 抽样方式 总体分布= 抽样分布 xx x 106 样本均值的抽样分布 (无限总体) 如果总体服从 , 那么简单随机 样本的均值服从正态分布 如果样本容量n非常大,而且总体的期望 是,方差是2+,那么简单随机样 本的均值 近似服从正态分布 (中心极限定理) ) , ( 2 N ) n , ( 2 N x ) n , ( 2 N 107 样本比率的抽样分布 (无限总体) 小样本情况 x服从二项分布B(n,p). 大样本情况,按照中心极限定理,近似 地 n x p ) n p)-p(1 ,(pNp 108 正态分布的图形正态分布的图形 正态分布

38、的密度曲线正态分布的密度曲线 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 -6-4-20246 f(x)sigma=0.5 f(x)sigma=2 109 一个例子 一种电器元件设计的服务寿命为3000小时, 标准差为800小时。一名顾客买了49个元件。 这49个元件的平均寿命至少为2750小时的概 率为多大?至少为3000小时呢? 110 样本方差的抽样分布样本方差的抽样分布 如果 是来自正态总体 的 一个随机样本,定义样本方差为: n xxx, 21 ) , ( 2 N ) 1( ) 1( )( 1 1 2 2 2 2 1 2 n sn xx n s n i i 则 11

39、1 认识卡方分布认识卡方分布 卡方分布的密度函数卡方分布的密度函数 -0.05 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 051015202530 Chisq(1) Chisq(4) Chisq(10) 112 方差未知时样本均值的抽样分布方差未知时样本均值的抽样分布 正态总体,2未知,使用样本方差s2来替 代2,则样本均值满足: n30时,可以用标准正态分布近似。 ) 1( )( nt s xn 113 正态分布和正态分布和t t 分布的比较分布的比较 正态分布与t分布比较正态分布与t分布比较 0 0.1 0.2 0.3 0.4 0.5 -

40、4-3-2-101234 normalnormal t(1)t(1) t(3)t(3) t(5)t(5) t(9)t(9) t(19)t(19) 114 估计的误差 不能以个别估计值作为评价准则; 估计的误差: 偏差估计量的方差 )()( )()( 2 22 xExVar xExExExE 115 对估计量的评价对估计量的评价 无偏性:偏差是零; 有效性:方差最小; 一致性:样本容量增加会降低估计误差。 样本均值(比率)是对总体均值(比率) 的一个无偏的、有效的、一致的估计量。 116 Estimate Population Parameter. with Sample Statistic M

41、ean Proportion p Variance s 2 Population Parameters Estimated 2 Difference - 1 2 x - x 1 2 _ _ _ p x 117 联合食品公司的案例联合食品公司的案例 针对“联合食品公司”的案例(P.44 案例2- 1),我们假设调查的100个客户组成一个简单 随机样本。尝试回答下面的问题: 1)所有客户一次购买金额的平均值是多少? 2)所有使用信用卡的客户一次购买金额的平均 值是多少? 3)使用信用卡的客户占的比例是多少? all data 平均29.4449 标准误差2.04162 中值27.63 模式#N/A

42、 标准偏差20.4162 样本方差416.8213 峰值-1.05328 偏斜度0.31424 区域77.07 最小值1.09 最大值78.16 求和2944.49 计数100 Credit 平均40.8768182 标准误差3.17110824 中值45.33 模式#N/A 标准偏差14.873816 样本方差221.230404 峰值-1.00003171 偏斜度-0.11736036 区域55.33 最小值14.44 最大值69.77 求和899.29 计数22 120 1)所有客户一次购买金额的平均值是多少? (29.4449) 2)所有使用信用卡的客户一次购买金额的平均 值是多少?(

43、40.8768) 3)使用信用卡的客户占的比例是多少?(0.22) 121 第四讲第四讲 区间估计区间估计 122 区间估计 总体均值 总体比例 总体方差 123 联合食品公司的案例联合食品公司的案例 1)所有客户一次购买金额的平均值是多少? (29.4449) 2)所有使用信用卡的客户一次购买金额的平均 值是多少?(40.8768) 3)使用信用卡的客户占的比例是多少?(0.22) 124 我们的估计值离真值有多远?我们的估计值离真值有多远? 我们希望通过样本的信息给出一个范围, 使这个范围按足够大的概率包含我们所 感兴趣的参数。 如何寻找K和L ,使得以95%的概率成立: . ; LppL

44、pLpp KxKxKx 或者 或者 125 抽样误差:无偏点估计值与总体参数之 差的绝对值。 126 大样本且大样本且 已知的情况已知的情况 称为置信系数。的置信区间,为 的置信水平为于是称 11 ) ,( 1P ; 1P 1) , 0( 22 22 2 nn nn n n zxzx zxzx z x N x 127 理解置信区间的含义理解置信区间的含义 抽取100个样本,计算出100个平均值和100个区间, 它们当中至少有(1-)*100个包含了未知的总体均值 。 因此,可以以(1-)的程度确信落在每一个区间里面。 边际误差: n x zx zz n z 2 222 记作:通常可以将置信区间

45、简 标准误差; 128 联合食品公司的例子 如果已知所有消费者一次购买金额的标准差是 22,那么一次购买平均金额的一个95%的置信 区间是: 29.44491.96*(22/10) 或者(25.1329, 33.7569),其中边际误差 =4.312. 问题: 怎么可能知道 标准差? 129 大样本且大样本且 未知的情形未知的情形 . ; )1 , 0( 2 2 n s n s n s z zx N x 边际误差是 置信区间是 近似地: all data 平均29.4449 标准误差2.04162 中值27.63 模式#N/A 标准偏差20.4162 样本方差416.8213 峰值-1.053

46、28 偏斜度0.31424 区域77.07 最小值1.09 最大值78.16 求和2944.49 计数100 131 联合食品公司的例子 所有顾客一次购买金额的平均值的95%的 置信区间: 29.44491.96*(20.4162/10) 或者 (25.44333, 33.44506) 问题:对使用信用卡的顾客一次购买金额 的平均值能否类似进行区间估计? 132 小样本且小样本且 未知的情形未知的情形 ?n ? : ) 1( 1 ) 1( 2 否一致很大时与大样本情况是 对总体分布有无要求问题 的置信区间是:的水平为 n s n s ntx nt x Credit 平均40.8768182 标

47、准误差3.17110824 中值45.33 模式#N/A 标准偏差14.873816 样本方差221.230404 峰值-1.00003171 偏斜度-0.11736036 区域55.33 最小值14.44 最大值69.77 求和899.29 计数22 134 联合食品公司的例子 所有持信用卡的顾客一次购买金额的平 均值的95%的置信区间是: 问题:你获得上述结论时对总体作了什么假定?是否合 理? 47.4715) ,28214.34 )(080.28768.40 22 8738.14 ( 或者: 135 总体比率总体比率p p的区间估计的区间估计 n pp zp p N pp n pp )1

48、( 1 1) , 0( 2 )1( 的置信区间是的水平为所以 大样本情形,近似地, 136 联合食品公司的例子 使用信用卡支付的顾客的比率的95%的 置信区间是多少? 问题:是否符合大样本的条件? 进一步的问题:如果嫌精度不够怎麽办? )30.0 ,14.0( 081.022.0 100/78.022.096.122.0 或者 137 Data Variation Sample Size n Level of Confidence (1 - ) Intervals Extend ?1984-1994 T/Maker Co. 影响区间长度的因素影响区间长度的因素 n ZX 2 138 90% S

49、amples 95% Samples x _ Confidence Intervals xx 645. 1645. 1 xx 96. 196. 1 xx 576. 2576. 2 99% Samples X _ 139 样本容量的确定(样本容量的确定(1) 给定边际误差E和置信系数1-,问题是:确定 样本容量n使得总体均值(比率)的1- 水平 的置信区间长度不超过2E?(该问题有什么实 际意义?) 2 22 2/ )( 2 E z n zE n 140 样本容量的确定(样本容量的确定(2) 怎么获得? 1)用以前相同或类似的样本的样本标准差代替; 2)用试验调查的方法选择初始样本,用该样本的样

50、 本标准差代替; 3)对进行判断或者猜测:比如全距的1/4作为估计。 为什么用正态分布的/2分位数而不用t分布? 141 样本容量的确定(样本容量的确定(3) 对于总体比率来说: 如何确定p? 1)类似对的确定方法; 2)使用p=0.5,此时p(1-p)最大,从而高估 样本容量。 2 2 )1()( 2 E ppz n 142 联合食品公司的例子 为使得所有顾客一次购买金额的平均值 的95%的置信区间长度不超出6美圆,需 至少采用多大的样本? E=? =? (全距=77.07) n=(1.96*77.07/4) 2/9=158.46159 n=(1.96*20.42) 2/9=177.98 1

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 大学
版权提示 | 免责声明

1,本文(统计学(数量分析方法)完整教学课件.ppt)为本站会员(金钥匙文档)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|