ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:495.67KB ,
文档编号:1755617      下载积分:3.49 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-1755617.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(四川天地人教育)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(第3节 统计模型.docx)为本站会员(四川天地人教育)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

第3节 统计模型.docx

1、第第 3 节节统计模型统计模型 知识梳理 1.线性相关 一般地,如果收集到了变量 x 和变量 y 的 n 对数据(简称为成对数据),如下表所 示. 序号 i123n 变量 xx1x2x3xn 变量 yy1y2y3yn 则在平面直角坐标系 xOy 中描出点(xi,yi),i1,2,3,n,就可以得到这 n 对数据的散点图.如果由变量的成对数据、散点图或直观经验可知,变量 x 与变 量 y 之间的关系可以近似地用一次函数来刻画, 则称 x 与 y 线性相关.此时, 如果 一个变量增大,另一个变量大体上也增大,则称这两个变量正相关;如果一个变 量增大,另一个变量大体上减少,则称这两个变量负相关. 2

2、.回归直线方程 一般地,已知变量 x 与 y 的 n 对成对数据(xi,yi),i1,2,3,n.任意给定 一个一次函数 ybxa,对每一个已知的 xi,由直线方程可以得到一个估计值 y i bxia,如果一次函数y b xa 能使(y 1y1)2(y 2y2)2(y nyn)2 n i1 (yi y i)2取得最小值,则y b xa 称为 y 关于 x 的回归直线方程(对应的直线称为回 归直线).因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.b n i1 (xix ) (yiy ) n i1 (xix )2 n i1xiyinx y n i1x 2 inx 2 ,a y b x.其

3、中,x 1 n n i1xi,y 1 n n i1yi; b 称为回归系数,它实际上也就是回归直线方程的斜率. 3.相关系数 统计学里,一般用r n i1 (xix ) (yiy ) n i1 (xix )2 n i1 (yiy )2 n i1xiyinx y ( n i1x 2 inx 2) ( n i1y 2 iny 2) 来衡量 y 与 x 的线性相关性强弱,这里的 r 称为线 性相关系数(简称为相关系数). 可以证明,相关系数 r 具有以下性质: (1)|r|1,且 y 与 x 正相关的充要条件是 r0,y 与 x 负相关的充要条件是 r0; (2)|r|越小,说明两个变量之间的线性相

4、关性越弱,也就是得出的回归直线方程越 没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相 关性越强,也就是得出的回归直线方程越有价值. (3)|r|1 的充要条件是成对数据构成的点都在回归直线上. 4.22 列联表和2 如果随机事件 A 与 B 的样本数据的 22 列联表如下. A A 总计 Babab B cdcd 总计acbdabcd 记 nabcd,则2 n(adbc)2 (ab) (cd) (ac) (bd).5.独立性检验 统计学中,常用的显著性水平以及对应的分位数 k 如下表所示. P(2k)0.10.050.010.0050.001 k2.7063.841

5、6.6357.87910.828 要推断“A 与 B 有关系”可按下面的步骤 (1)作 22 列联表. (2)根据 22 列联表计算2的值. (3)查对分位数 k,作出判断.如果根据样本数据算出2的值后,发现2k 成立, 就称在犯错误的概率不超过的前提下,可以认为 A 与 B 不独立(也称为 A 与 B 有关); 或说有 1的把握认为 A 与 B 有关.若20.75,则线性相关程度很高,可用线性回归模型拟合); (2)求 y 关于 x 的回归方程,并预测液体肥料每亩使用量为 12 千克时,西红柿亩 产量的增加量约为多少 附:相关系数 r n i1xiyinx y n i1x 2 inx 2 n

6、 i1y 2 iny 2 , 回归直线y b xa 的斜率和截距的最小二乘估计分别为b n i1(xix ) (yiy ) n i1(xix )2 n i1xiyinx y n i1x 2 inx 2 ,a y b x . 解(1)x 24568 5 5,y 34567 5 5. 5 i1 (xix )(yiy )(3)(2)(1)(1)00113214, 5 i1 (xix )2(3)2(1)202123220, 5 i1 (yiy )2(2)2(1)202122210. r0.75, 可用线性回归模型拟合 y 与 x 的关系 (2)b 5 i1(xix ) (yiy ) 5 i1(xix

7、)2 14 200.7, 则a y b x 50.751.5, y 0.7x1.5. 当 x12 时,y 0.7121.59.9, 预测液体肥料每亩使用量为 12 千克时,西红柿亩产量的增加量约为 9.9 百千 克 考点三独立性检验 【例 3】(2020全国卷)某学生兴趣小组随机调查了某市 100 天中每天的空气质 量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天): 锻炼人次 空气质量等级 0,200(200,400(400,600 1(优)21625 2(良)51012 3(轻度污染)678 4(中度污染)720 (1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率;

8、(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中 点值为代表); (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好” ;若某天的空气质 量等级为 3 或 4,则称这天“空气质量不好”根据所给数据,完成下面的 22 列联表, 并根据列联表, 判断是否有 95%的把握认为一天中到该公园锻炼的人次 与该市当天的空气质量有关? 人次400人次400 空气质量好 空气质量不好 附:2 n(adbc)2 (ab) (cd) (ac) (bd), P(2k)0.0500.0100.001 k3.8416.63510.828 解(1)由所给数据,得该市一天的空气质量等级

9、为 1,2,3,4 的概率的估计值 如下表: 空气质量等级1234 概率的估计值0.430.270.210.09 (2)一天中到该公园锻炼的平均人次的估计值为 1 100(100203003550045)350. (3)根据所给数据,可得 22 列联表: 人次400人次400 空气质量好3337 空气质量不好228 根据列联表得 2= 100(3382237)2 55457030 5.820. 由于 5.8203.841,故有 95%的把握认为一天中到该公园锻炼的人次与该市当天 的空气质量有关 感悟升华1.在 22 列联表中, 如果两个变量没有关系, 则应满足 adbc0.|ad bc|越小,

10、说明两个变量之间关系越弱;|adbc|越大,说明两个变量之间关系 越强 2解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论独立 性检验的一般步骤: (1)根据样本数据制成 22 列联表: (2)根据公式2 n(adbc)2 (ab) (ac) (bd) (cd)计算 2的值; (3)通过比较2的值与临界值的大小关系来作统计推断 【训练 2】为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50 名学生,得到如下 22 列联表: 理科文科 男1310 女720 已 知 P(23.841)0.05 , P(25.024)0.025. 根 据 表 中 数 据 , 得 到 2 5

11、0(1320107)2 23272030 4.844.则认为选修文科与性别有关系出错的可能性为 _ 答案5% 解析24.844,这表明小概率事件发生根据假设检验的基本原理,应该断定 “是否选修文科与性别之间有关系”成立, 并且这种判断出错的可能性约为 5%. A 级基础巩固 一、选择题 1对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正 确的是() Ar2r40r3r1Br4r20r1r3 Cr4r20r3r1Dr2r40r10,r30,图(2)与图(4)是负相关, 故 r20, r40, 且图(1)与图(2)的样本点集中在一条直线附近, 因此 r2r40r30,可知产品的销

12、售额与广 告费用成正相关,故 A 中的说法正确; x 01234 5 2,y 1015m3035 5 90m 5 ,代入y 6.5x9,得 90m 5 6.529,解得 m20,故 D 中的说法正确; y 90m 5 9020 5 22,则该回归直线过点(2,22),故 B 中的说法正确; 当 x10 时,y 6.510974,说明当广告费用为 10 万元时,销售额预计为 74 万元,故 C 中的说法错误故选 ABD. 5(多选题)(2021广东百校联考)下表是我国某城市在 2019 年 1 月份至 10 月份 期间各月最低温度与最高温度(单位:)的数据一览表 月份12345678910 最高

13、温 度/ 59911172427303121 最低温 度/ 12312717 19232510 已知该城市的各月最低温度与最高温度具有相关关系,根据该一览表,则下列结 论正确的是() A最低温度与最高温度为正相关 B每月最高温度与最低温度的平均值在前 8 个月逐月增加 C月温差(最高温度减最低温度)的最大值出现在 1 月 D1 月至 4 月的月温差(最高温度减最低温度)相对于 7 月至 10 月,波动性更大 答案ACD 解析将最高温度、最低温度、温差列表如下: 月份12345678910 最高温 度/ 59911172427303121 最低温 度/ 1231271719232510 温差17

14、1281310787611 度/ 由表格可知,最低温度大致随最高温度的升高而升高,A 正确; 每月最高温度与最低温度的平均值在前 8 个月不是逐月增加,B 错误; 月温差的最大值出现在 1 月,C 正确; 1 月至 4 月的月温差相对于 7 月至 10 月,波动性更大,D 正确 62018 世界特色魅力城市 200 强新鲜出炉,包括黄山市在内的 28 个中国城市 入选,美丽的黄山风景和人文景观迎来众多宾客现在很多人喜欢“自助游”, 某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取 了 100 人,得如下所示的列联表: 赞成“自助 游” 不赞成“自助 游” 总计 男性301

15、545 女性451055 总计7525100 参考公式:2 n(adbc)2 (ab) (cd) (ac) (bd),其中 nabcd. P(2k)0.150.100.050.0250.0100.0050.001 k2.0722.7063.8415.0246.6357.87910.828 参照公式,得到的正确结论是() A有 99.5%以上的把握认为“赞成自助游与性别无关” B有 99.5%以上的把握认为“赞成自助游与性别有关” C在犯错误的概率不超过 0.1 的前提下,认为“赞成自助游与性别无关” D在犯错误的概率不超过 0.1 的前提下,认为“赞成自助游与性别有关” 答案D 解 析将22列

16、 联 表 中 的 数 据 代 入 计 算 , 得 2 100(30104515)2 45557525 3.030, 2.7063.030R22,故较大者为 R21. 8在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数 据, 并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的 是_(填序号) 人体脂肪含量与年龄正相关,且脂肪含量的中位数等于 20%; 人体脂肪含量与年龄正相关,且脂肪含量的中位数小于 20%; 人体脂肪含量与年龄负相关,且脂肪含量的中位数等于 20%; 人体脂肪含量与年龄负相关,且脂肪含量的中位数小于 20%. 答案 解析观察图形,可知人体脂肪含

17、量与年龄正相关,且脂肪含量的中位数小于 20%. 9某医疗研究所为了检验某种血清预防感冒的作用,把 500 名使用血清的人与 另外 500 名未使用血清的人一年中的感冒记录作比较,提出假设 H0:“这种血 清不能起到预防感冒的作用”,利用 22 列联表计算得23.918,经查临界值 表知 P(23.841)0.05.则下列结论中,正确结论的序号是_ 有 95%的把握认为“这种血清能起到预防感冒的作用”; 若某人未使用该血 清,那么他在一年中有 95%的可能性得感冒;这种血清预防感冒的有效率为 95%;这种血清预防感冒的有效率为 5%. 答案 解析23.9183.841,而 P(23.814)0

18、.05,所以有 95%的把握认为“这种 血清能起到预防感冒的作用” 要注意我们检验的是假设是否成立和该血清预防 感冒的有效率是没有关系的,不是同一个问题,不要混淆 三、解答题 10(2020全国卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数 量有所增加为调查该地区某种野生动物的数量,将其分成面积相近的 200 个地 块,从这些地块中用简单随机抽样的方法抽取 20 个作为样区,调查得到样本数 据(xi,yi)(i1,2,20),其中 xi和 yi分别表示第 i 个样区的植物覆盖面积(单 位:公顷)和这种野生动物的数量,并计算得 20 i1xi60, 20 i1yi1200, 20 i1

19、 (xix )2 80, 20 i1 (yiy )29000, 20 i1(xix )(yiy )800. (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这 种野生动物数量的平均数乘以地块数); (2)求样本(xi,yi)(i1,2,20)的相关系数(精确到 0.01); (3)根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性 以获得该地区这种野生动物数量更准确的估计, 请给出一种你认为更合理的抽样 方法,并说明理由 附:相关系数 r n i1(xix ) (yiy ) n i1(xix )2 n i1(yiy )2 , 21.414. 解(1)由已知

20、得样本平均数y 1 20 20 i1yi60,从而该地区这种野生动物数量的估 计值为 6020012000. (2)样本(xi,yi)(i1,2,20)的相关系数 r 20 i1(xix ) (yiy ) 20 i1(xix )2 20 i1(yiy )2 800 809000 2 2 3 0.94. (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对 200 个地块进行分层 抽样 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关 性 由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异 也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性

21、,提高 了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计 11某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整 理得到了第 x 年与年销售量 y(单位:万件)之间的关系如下表: x1234 y12284256 (1)在图中画出表中数据的散点图; (2)根据散点图选择合适的回归模型拟合 y 与 x 的关系(不必说明理由); (3)建立 y 关于 x 的回归方程,预测第 5 年的销售量 参考公式:回归直线 x 的斜率和截距的最小二乘估计分别为 b a y b x 解(1)作出的散点图如图: (2)根据散点图观察,可以用线性回归模型拟合 y 与 x 的关系. (3)观

22、察(1)中散点图可知各点大致分布在一条直线附近,列出表格:, ixiyix2ixiyi 1112112 2228456 33429126 445616224 1013830418 可得x 5 2,y 69 2 , 所以b 41845 2 69 2 304 5 2 2 73 5 , a y b x 69 2 73 5 5 22. 故回归直线方程为y 73 5 x2. 当 x5 时,y 73 5 5271. 故预测第 5 年的销售量大约为 71 万件 B 级能力提升 12 在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是 () A 若26.635, 在犯错误的概率不超过 0.01

23、 的前提下认为吸烟与患肺癌有关系, 那么在 100 个吸烟的人中必有 99 人患有肺癌 B由独立性检验可知,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌 有关系时,我们说某人吸烟,那么他有 99%的可能患有肺癌 C 若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有 关系,是指有 1%的可能性使得判断出现错误 D以上三种说法都不正确 答案C 解析独立性检验得出的结论是带有概率性质的, 只能说结论成立的概率有多大, 而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这 点, 不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解

24、释若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌 有关系,是指有 1%的可能性使得判断出现错误故选 C. 13(2021海南调研)在一组样本数据(x1,y1),(x2,y2),(x6,y6)的散点图中, 若所有样本点(xi,yi)(i1,2,6)都在曲线 ybx21 2附近波动经计算 6 i1xi 12, 6 i1yi14, 6 i1x 2 i23,则实数 b 的值为_ 答案 17 23 解析令 tx2,则曲线的回归方程变为线性的回归方程,即 ybt1 2,此时t 6 i1x 2 i 6 23 6 ,y 6 i1yi 6 14 6 ,代入 ybt1 2,得 14 6

25、b23 6 1 2,解得 b 17 23. 14某城市地铁将于 2022 年 6 月开始运营,为此召开了一个价格听证会,拟定 价格后又进行了一次调查,随机抽查了 50 人,他们的收入与态度如下: 月收入(单 位:百元) 15,25)25,35)35,45)45,55)55,65)65,75 赞成定价 者人数 123534 认为价格偏 高者人数 4812521 (1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定 价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留 2 位小数); (2)由以上统计数据填下面 22 列联表,分析是否有 99%的把握认为“月收入以 55

26、 百元为分界点对地铁定价的态度有差异” 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高 者 赞成定价者 总计 附:2 n(adbc)2 (ab) (cd) (ac) (bd),其中 nabcd. 解(1)“赞成定价者”的月平均收入为 x1201302403505603704 123534 50.56. “认为价格偏高者”的月平均收入为 x22043084012505602701 4812521 38.75, “赞成定价者”与“认为价格偏高者”的月平均收入的差距是 x1x250.56 38.7511.81(百元) (2)根据条件可得 22 列联表如下: 月收入不低于 55 百元的人数 月收入低于 55 百元的人数 总计 认为价格偏高 者 32932 赞成定价者71118 总计104050 250(311729) 2 10401832 6.276.635, 没有 99%的把握认为“月收入以 55 百元为分界点对地铁定价的态度有差异”

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|