大数据与统计-共57页课件.ppt

上传人(卖家):三亚风情 文档编号:3195034 上传时间:2022-08-01 格式:PPT 页数:57 大小:4.35MB
下载 相关 举报
大数据与统计-共57页课件.ppt_第1页
第1页 / 共57页
大数据与统计-共57页课件.ppt_第2页
第2页 / 共57页
大数据与统计-共57页课件.ppt_第3页
第3页 / 共57页
大数据与统计-共57页课件.ppt_第4页
第4页 / 共57页
大数据与统计-共57页课件.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

1、1大 数 据 与 统 计张芃国家统计局统计资料管理中心2大数据与统计3大数据来了 联合国:2019年,大数据促发展:挑战与机遇 OECD研究报告:使用大数据做决策 美国 2019年:规划数字化的未来 2019年:Big Data is a Big Deal 2019年:实现政府信息公开化和机器可读化总统令 中国 2019年:中国通信学会大数据专家委员会 大数据发展战略4什么是大数据从技术角度看:1KB:2101MB:2201GB:2301TB:2401PB:2501EB:2601ZB:2701YB:2801BB:2905从概念看:维基百科:“大数据”是由数量巨大、结构复杂、类型众多数据构成的数

2、据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享、交叉复用形成的智力资源和知识服务能力。特点:6个V Volume:数据量大 Variety:数据类型多 Velocity:处理速度快 Value:应用价值大 Vender:获取与发送的方式自由灵活 Veracity:真实准确性 大数据是对海量信息进行分析,从而收集有价值的见解、发现规律和预言复杂问题答案的技巧与科学。7从特征看:样本=总体 接受不精确 相关关系更重要8对中国统计而言,大数据并不新鲜 所谓“大数据”不过是 全面统计的理念与方法在信息化时代的升华 是成熟了的电子商务与数据挖掘技术相结合的产物 是统计分析与预测在电子化、信

3、息化、网络化社会的新实践9大数据的价值 对大数据的掌握程度可以转化为经济价值的来源 大数据时代已经撼动了世界的方方面面 核心思想:用规模剧增来改变现状10为什么会出现大数据 计算机技术提高 数据采集自动化 数据存储能力倍增 以计算机技术为基础的 数据应用进程的历史推动11翱翔翱翔化蝶化蝶破茧破茧结蛹结蛹蚕动蚕动起源起源数据应用的前世今生数据应用的前世今生12起源起源从数据到知识的挑战和跨越从数据到知识的挑战和跨越1946年人类历史上第一台电子计算机在美国费城问世。计算机的主要设计者冯诺依曼被后世称为“计算机之父”。冯诺依曼13从数据到知识的挑战和跨越从数据到知识的挑战和跨越赫伯特西蒙1947年

4、卡内基梅隆大学的赫伯特西蒙开始研究决策支持系统,这是现代数据应用概念最早的起源和起点。14结蛹结蛹数据仓库之厚积薄发数据仓库之厚积薄发埃德加科德1970年IBM研究员埃德加科德发明了关系型数据库,解决了快速组织、存储和读取数据的问题,被誉为“关系型数据库之父”。15数据仓库之厚积薄发数据仓库之厚积薄发1988年为解决不同运营系统的数据集成问题,IBM的两名研究员Barry Devlin和Paul Murphy创造性的提出“数据仓库”的概念,但没有进一步提出实际的架构和设计。Barry DevlinPaul Murphy16数据仓库之厚积薄发数据仓库之厚积薄发比尔恩门1992年比尔恩门第一次给出

5、了数据仓库的清晰定义和操作性很强的实战法则,真正拉开了数据仓库走向大规模应用的序幕。比尔恩门被誉为“数据仓库之父”,他强调数据的一致性,主张由顶至底的构建方法。17数据仓库之厚积薄发数据仓库之厚积薄发拉尔夫金博尔2019年斯坦福大学博士,拉尔夫金博尔出版数据仓库的工具,认为务实的数据仓库应该从下往上。他认同了比尔恩门对于数据仓库的定义,却在具体的构建方法上和他分庭抗礼。18蚕动蚕动联机分析之惊艳联机分析之惊艳埃德加科德1993年发明关系型数据库的埃德加科德再立新功,他立足数据仓库的新基础,详尽的阐述了构建联机分析的十二条原则。19破茧破茧数据挖掘之智能生命的产生数据挖掘之智能生命的产生德斯纳1

6、989年德斯纳提出了数据应用的概念和定义,强调了数据应用是一系列以事实为支持,辅助决策的技术和方法的集合,获得了业界的广泛认同。20化蝶化蝶可视化信息的华丽上演可视化信息的华丽上演弗罗伦斯南丁格尔1855年弗罗伦斯南丁格尔把克里米亚战争中战斗死亡和非战斗死亡的士兵数量制作成图表。这份视觉效果强烈的图表,催生了一座医院,改变了一个制度。21可视化信息的华丽上演可视化信息的华丽上演奥巴马2019年3月,奥巴马任命专人运用“数据可视化”的技术推进联邦政府专项资金使用情况的透明度。22大数据时代对统计将产生怎样的影响 非精准化 非结构化 非样本化 非滞后性统计如何应对大数据时代 理念革命化 采集自动化

7、 存储规模化 挖掘深度化 分析技术化 展现可视化 发布即时化 人才复合化24理念革命化:思维观念的改变真的那么重要吗?数据的价值在哪里?数据需要精准码?如何采集数据?指标体系重要吗?因果关系还是相关关系?统计需要预测吗?26经济总量经济发展的先行指标和指示器全国GDP与CRI变动趋势分析27经济总量经济发展的先行指标和指示器全国财政收入与CRI变动趋势分析28采集自动化:文字变成数据方位变成数据沟通变成数据一切事物变成数据 什么意思?真可以!过去我喜欢一个人 现在我喜欢一个人30存储规模化:在过去50年中,数字存储成本大约每两年削减一半,而存储密度则增加了5000万倍。31挖掘深度化:数据挖掘

8、:是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。是通过分析每个数据,从大量数据中寻找其规律的技术。32l数据挖掘步骤:数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集寻找规律:用某种方法将数据集所含的规律找出来结果展示:尽可能以用户可理解的方式(如可视化)将找出的规律表示出来33l数据挖掘的技术基础:人工智能机器学习模式识别统计学数据库可视化技术34l数据挖掘的任务:关联分析聚类分析分类分析异常分析特定群组分析演变分析35分析技术化:现实:简单的图表、数据对比、数字文字化 大数据时代:数字工具、数学模型、机器智能36GDP、财政收入与企业注

9、册资本之间的线性关系示意图经济总量主体发展与经济社会发展的关联37展现可视化:数据可视化:是指将大型数据集中地以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。38数据可视化的技术基础:几何技术 像素技术 图标技术 图层技术 图像技术 分布式技术 统计技术39数据可视化的基本思想:依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识 利用人类感觉系统的广阔带宽,来解释错综复杂的过程、以及来源多样的大型数据集合的内在规律40数数据利用的技据利用的技术发术发展展历历程程实际实际也是价也是价值值探求的摸索探求的摸索历历程程数据库数据仓库OLAP联机分析技术数据

10、挖掘可视化展现价值应用统计分析GIS技术4120192019年奥巴马政府预算开支的可视化展示年奥巴马政府预算开支的可视化展示一眼就可以看出,赤字约占美国总支出的1/3,个人所得税是美国政府最大的财政来源,而国防支出是其最大的支出。(图片来源:华盛顿邮报,2019年2月1日)42左边为强制性开支,右边为自主性开支。强制开支中最大的圆为医疗保险和医疗补助,其为绿色,表示较去年增加了,鼠标停留处显示其大小为1.18亿,较去年增加了8.4,是强制性开支中最大的一块。(图片来源于网络)20192019年奥巴马政府预算开支的可视化展示年奥巴马政府预算开支的可视化展示43多种直观的图表展示方式44示例示例示

11、例示例45示例示例示例示例4647整体分布48 GIS(地理信息分析系统)市场主体3D分析 49发布即时化:美国麻省理工学院承担的一项“十亿价格项目”(Billion Price Project)是基于学术研究方法对全世界海量网上零全世界海量网上零售价格售价格进行价格指数计算为判断通胀趋势提供信息每天实时实时收取5050万条万条互联网上的商品信息,是美国政府统计收集的5 5倍倍每日网上价格指数每日网上价格指数 Daily Online Price Index50基于淘宝网、天猫网、支付宝等网络平台的数据编制大体反映国内网络零售渠道的一般物价变动。包含价格指数系列和实物交易量指数系列分为九大基本

12、分类指数权重为成交金额的比例采用链式加权的拉氏指数法计算,并逐级计算淘宝网络零售价格指数淘宝网络零售价格指数 ISPI51上海钢联中国大宗商品价格指数与国家统计局PPI、CPI走势对比图 作为中国领先的大宗商品咨询平台,上海钢联电子商务股份有限公司通过其资讯采集系统,编制了上海钢联中国大宗商品价格指数。它以产值作为权重,同时考虑在地区因素影响基础上,对9大类行业的基础产品价格数据进行处理合成而得。52人才复合化:谷歌首席经济学家哈尔.范里安:“数据非常之多而且具有战略重要性,但真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。”资料中心怎么办 统计资料的大数据中心 统计网络的大数据中心 统计服务的大数据中心 统计历史的大数据中心正确认识大数据 重视非结构化不等于不要结构化,而是要 做到从非结构化到结构化 接受不准确和混杂不等于不要准确性 强调总体、全数据不等于蔑视或取消抽样 强化相关分析不等于不要因果分析 大数据分析得出的结论也是有偏的55数数相连,数数相通 经济数社会数人口数,数数相连 过去数现在数未来数,数数相通56用 大数据 促进经济社会科学发展谢谢!谢谢

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(大数据与统计-共57页课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|