1、第4章 数据处理与应用浙教浙教版版信息技术信息技术(高中)(高中)必修必修1 1 数据与计算数据与计算4.1 常用表格数据的处理 学习目标12能根据实际需求,对表格数据进行处理。数据整理、数据计算、数据图表12重点难点重点:难点:数据整理、数据计算、数据图表数据计算、数据图表课堂导入 数据处理的核心是数据,数据的质量直接影响数据分析的结果。但获取到的数据并不是优质的,常常存在缺失、重复、错误、数量级不同等问题。因此,在数据分析和数据挖掘前,通常先对数据进行整理。常见的数据问题数据缺失数据重复数据异常逻辑错误格式不一4.1.1 数据整理 若要合并这两个数据集以对比两个球员的技术情况,将遇到哪些问
2、题?图4.1.1 数据集A图4.1.1 数据集B问题与讨论 专业的数据处理和统计分析工具有spss、sas、matlab等,也可以通过R、Python、java等计算机语言编程进行数据处理。4.1.2 数据计算常用的数据处理和统计分析工具 Excel软件是微软公司推出的Microsoft Office系列套装软件中的组成部分,是一个简单易用的电子表格软件,可以进行数据的处理、统计分析和辅助决策操作,广泛应用于文秘办公、财务管理、市场营销、行政管理和协同办公等事务。SPSS是IBM公司推出的一款统计分析软件,具备数据收集、准备、分析、描述、解释和展现的功能。SPSS提供丰富的统计算法,并且操作简
3、使、功能强大、扩展性强,但需要使用人员具备一定的数理统计学知识背器,比较退合专业分析、研究等人员使用。SAS是SAS软件研究所开发的一套大同集成应用软件系统,共有三十多个功能模块,具有数据访问、数据管理、数据分析、数据皇现等功能。SAS系统从大型机上的系统发展而来,其操作以编程为主。系统地学习和掌握SAS,需要花费一定的精力,比较适合统计专业人员使用。MATLAB是MathWorks公司推出的一种科学计算语言和编程环境,主要应用于数据分析、无线通信、深度学习、计算机视觉、量化金融与风险管理等领域。MATLAB 将适合选代分析和设计过程的桌面环境与直接表达矩阵和数组远算的编程语言相结合,为分析数
4、据、开发算法和创建模型等提供了便于探索和发现的环境,深受工程师和料学家的青缺。拓展链接SUM(numberl,number2,.)AVERAGE(numberl,number2,.)MIN(numberl,number2,.)MAX(numberl,number2._.)参数可以是数字、单元格或单元格区域求参数的和求参数的平均值返回参数列表中的最小值返回参数列表中的最大值函数语法 图表是用视觉形式向人们展示数据的一种方法。常见的图表类型有柱形图、拆线图、饼图、雷达图、散点图、气泡图等。在运用图表表现数据时,通常依据数据间的关系选择相应的图表类型。4.1.3 数据图表呈现雷达图、散点图、气泡图等
5、分别适合展现何种数据关系?问题与讨论使用Excel软件创建图表图4.1.4 2012-2016年部分省市国内生产总值数据分析数据数据以电子表格的形式进行组织和存储,其中,20122016年北京市、天津市、上海市三地国内生产总值的数据包含时间趋势和大小比较的两层关系,因此图表类型可以选用折线图。创建图表选择要在图表中展示的数据区域A2:F4,A10:F10。单击“插人”选项卡上的“插入折线图或面积图”按钮,选择“折线图”,生成的折线图如图4.1.5所示。使用图表右上角附近的“图表元素”按钮,可添加坐标轴标题和数据标签等图表元素,使用“图表样式”按钮可自定义图表的外观,使用“图表筛选器”按钮可更改
6、图表中显示的数据。另外,选中图表,使用“设计”和“格式”选项卡可自定义图表的外观,美化图表。图4.1.5 2012-2016年北京、天津、上海生产总值折线图检查图表 查看图表中数据的展现是否完整,将鼠标移到折线相应的数据点上,查看数据卡显示的数据与表格中的数据是否一致。观察折线的走势,发现北京市、天津市、上海市三地国内生产总值在20122016年间一直呈上升趋势。思考与练习 浏览各省市统计局、国家统计局、国家数据等网站的数据,收集你感兴趣的数据,使用excel软件进行分析。分析建议如下:问题问题建议建议过程记录过程记录找到了哪些感兴趣的数据浏览数据,寻找感兴趣、可分析的数据,确定目标分析目标收集了哪些数据使用合适的方法收集相关数据,使用excel进行存储收集数据的方法:文件名:哪些数据是本次分析所必需的整理数据,使之符合分析需要最后保留的数据格式:如何分析这些数据采用合适的方法分析数据,创建图表呈现数据采用的分析方法:发现了什么记录分析的结果和形成的结论结果:结论:有哪些心得体会记录在数据收集与分析中的心得体会:谢 谢!Thanks!