1、课程基本信息 课题数据整理 教科书 书名:信息技术必修 1 数据与计算 出版社:人民教育出版社&中国地图出版社出版日期:2019 年 6 月 教学目标 教学目标:掌握数据整理的基本方法,能够根据需求选择适当的工具整理数据。 教学重点:数据整理的目的和方法。 教学难点:数据整理的方法。 教学过程 时 间 教 学 环 节 主要师生活动 1 分 钟 20 分 钟 课 堂 引 入 新 课 讲 授 1、课堂引入、课堂引入 教师:通过之前课程的学习,我们了解到数据处理一般过程是数据采集、数据整理、 数据分析、 数据呈现四个过程。 那么为什么数据采集到的数据要进行数据整理?让我 们通过今天的学习找到答案。
2、2 2、数据整理的目的、数据整理的目的 教师: 请同学们仔细观察这部分学生体质健康原始数据, 观察下这份数据是否存在问 题。 教师:我们通过观察会发现这张表格中的数据存在重复、空缺、数据单位不正确的问 题。其实这也是很多采集来的数据普遍存在的问题。 教师:通常采集的原始数据都会或多或少存在缺失、错误、重复、非标准化的问题。 这样的数据我们形象地称之为脏数据。 我们如果想从数据中心提取出数据的价值, 首 先得确保数据是有效的数据。什么样的数据是有效的?具有完整性、统一性、准确性 的数据。 那么存在问题的数据我们就需要通过数据整理将至转变为清洁数据, 也就是 有效数据。这也是我们数据整理的目的。
3、教师:怎样才可以将问题数据处理成清洁数据呢?我们要通过去重来删除重复数据、 通过补漏来补全缺失数据,通过勘误来纠正数据中的错误和非标准化问题。 2 2、数据整理的方法数据整理的方法 教师:我们了解了脏数据存在数据重复、缺失、错误和非标准化的问题,那么就可以 对应采取去重、补漏、勘误的方法来清洗数据。这也数据整理的基本方法。 3 3、数据整理数据整理 教师:下面,我们通过课堂活动过来体验一下数据整理的过程。金山银山不如绿水青 山、我们国家这些年一直致力于环境治理、生态修复,也落实了很多政策、关停了很 多污染企业。 随着环境的治理, 你所在的城市空气质量是否也随着治理改善了呢?我 们要做出判断,需
4、要数据的支撑。这里,老师提供了一份全国三百多个城市地区的空 气质量采集数据。这张表中的 AQI 就是空气质量指数。通过这个指数,我们可以直观 判断空气质量。表中的数据是每小时采集一次的空气质量数据。 3.13.1 活动活动 1 1:观察数据:观察数据 教师:下面,请大家暂停视频,下载资源包中的 原始数据.csv 文件。请观察表中的 数据,这份采集数据是否存在问题?能否直接使用呢?请大家仔细观察。 3.1.13.1.1 观察数据(重复)观察数据(重复) 教师:嗯,我猜想各位同学已经或多或少发现了一些问题。 观察仔细的同学可能已经发现了,数据中存在一些重复的数据,比如 23 点的数据存 在两次。
5、3.1.23.1.2 观察数据(筛选)观察数据(筛选) 教师:这份表格里,并且包含 367 个城市或地区 6 年的空气质量数据,并且是每小时 采集一次的数据,所以有四五万条数据,数据量很大。 我们只需要一个城市的数据,所以需要筛选出一个城市的数据,去掉冗余的数据。 3.1.33.1.3 观察(非标准化)观察(非标准化) 教师:数据中第一列的日期格式不规范。不是常见的标准日期格式。我们需要做数据 标准化。 3.1.43.1.4 观察数据(缺失)观察数据(缺失) 教师:眼尖的同学,可能还会发现这些数据中还存在空缺的情况,有的是连续数据中 缺了一个两个, 有的是大段日期的数据不存在。 为什么?偶然性
6、出现的缺失可能是采 集设备存在故障或线路问题导致的。 前期大量数据缺失是由于前期未公布该城市的数 据。所以采集到的数据并不完整。 教师:我们一起回顾下这份原始的数据存在哪些问题: 1、数据中存在重复数据,需要去重。 2、数据量太多,我们只需要自己所在的城市的数据,所以需要筛选 3、第一列日期格式不对,需要标准化。 4、存在缺失数据。需要补缺。 下面我们一起通过数据整理来解决这四个问题。 3.2pandas3.2pandas 库介绍库介绍 教师:在完成数据整理之前,我们来介绍一下使用的工具。今天,我们会用到一个叫 做 PANDAS 的第三方库,这也是一个数据分析和整理过程常用到的库。这个库包含了
7、 很多现成的读写多种文件格式的方法;pandas 能够高效操作大型的数据集。间接得 说,它处理大量数据能力又快又好。另外,pandas 库非常擅长处理的数据结构就是 类似于表格这样行列组成的数据,也是我们数据处理最常见的数据结构。 教师:pandas 库包含两个常用的主要数据结构。series 结构,这个是一串数据组成 的集合,可以简单理解为一个队列,一个一维的字典。DataFrame 结构,这是一个表 格型的数据结构,也就是由行和列组成。 教师:今天我们主要用到了 DataFrame 结构,我们主要介绍下这个结构。 DataFrame 结构由三部分组成,行索引号(类似于 excel 表格里的
8、行号) ,列索引号 (类似于 excel 表格里的列标题) ,另外还有列数据,也就是一列包含的数据集合。 这里需要强调下, DataFrame 的行索引号是从 0 开始, 我们这张图是 wps 表格显示的, 行索引号是从 1 开始,这一点不一样哦。下面我们就在数据整理过程中进一步了解 DataFrame 结构的具体用法。 3.33.3 活动活动 2 2空气质量数据去重空气质量数据去重 教师:请大家打开资源包,下载课堂活动(去重).py 文件,和 原始数据.csv 放在 同一目录下。打开 课堂活动.(去重).py 文件 教师:我们的目标是删除重复数据,那么这个功能用代码怎么实现呢? 请大家打开刚
9、才下载的程序文件。 我们看到这里有三句代码, 第一句, 是导入 pandas 库, 并起一个别名叫做 pd 第二句是定义了一个变量, 也就是我们要处理的文件名称, 这里就是同目录下的原始数据.csv。第三句是定义了一个变量 savename,也就是处 理后数据另存的文件名称。 我们可以看到注释里请大家补全代码实现对数据的去重操作。 补全什么代码呢?我们 接着看。 教师:其实利用 pandas 实现去重,只需要三句代码即可实现。 下面就是三句代码。但是他们的顺序不对。我们一起来看看正确的顺序是什么。 A 句,这一句中的 DATA 变量就是一个 DataFrame 表,使用 to_csv 方法,将
10、数据表的 数据保存到指定的文件里,第一个参数 savename 是保存的文件名称,第二个参数 index=False 说明,保存时不要保存现有 DateFrame 表的索引。 B 句,这一句是调用 pandas 的读取 csv 的方法,也就是 read_csv 方法,第一个参数 file 指定的文件名称,参数 encoding 是指采用 utf-8 数据编码来读取,header=0 表示读取时将第 1 行的数据当做列索引号。也就是作为表格的列标题。 C 句,这一句是使用 DateFrame 的 drop_duplicates 方法直接将表格中的重复数据删 除,然后再保存到 data 变量里。这
11、里的 keep=first 是指重复的数据中保留第一行, 多余的重复数据删除。 这三句的代码作用,相信大家已经理解了。那么这三句的正确排序是什么? 我想,大家都有了自己的答案。正确的答案是 BCA。你对了嘛? 教师:去重的过程就是读取文件、删除重复数据、另存为新文件三个步骤。 下面,请大家参考老师提供的代码,将 课堂活动(去重).py 文件缺失的代码补全, 然后运行,看看去重后的效果吧! 学生:尝试参考任务单,实现删除重复删除数据的函数。 3.43.4 活动活动 3 3空气质量数据筛选空气质量数据筛选 教师: 我们的需求是从几百个城市的数据中找到自己所在城市的数据, 所以我们需要 筛选数据出来
12、。例如,老师要筛选北京的数据。 教师:DataFrame 筛选数据有几种方式。如果筛选某列数据,可以直接 df列索引 筛选某列的数据,如图所示,如果想筛选北京这一列的数据,df北京筛选红色区 域所示的数据。 教师: 如果想筛选多列, 那么就用多列的索引号组成列表, 然后作为参数来筛选即可。 例如筛选 date 和北京这两列数据。df date,北京 筛选两列数据。 教师:DataFrame 还有很多丰富的筛选数据的方法。感兴趣的同学可参考资料包中的 阅读材料了解。 教师:下面,我们一起体验下数据筛选的过程。请大家打开资源包,下载 课堂活动 (筛选).py 文件,和 STEP1_删除重复数据.c
13、sv 放在同一目录下。现有的数据,我 们需要筛选出自己所要城市的数据,比如我需要筛选出前三列 datehourtype 和北 京,一共四列的数据。 教师:那么用 python 编程实现,是怎样实现筛选的呢?其实我们理顺思路,会发现, 筛选的过程就是读取文件、筛选数据、将数据另存文件三个步骤。 让我们打开 课堂活动 2(筛选).py,一起看看。这里定义了三个变量,file 是处 理的文件,save 那么是处理后保存的文件,city 是要筛选出的城市名称。 但是筛选数据的代码需要大家补全。 教师:补全的过程,依然是用 3 句代码来实现。 第一句,读取文件,这句和之前相同,不多加解释。 第二句,筛选
14、数据,用到了刚才老师介绍的筛选多列的方法。我们用列索引号组成的 列表作为参数,筛选出这四列的数据。注意,city 变量在代码中已定义了,就是北 京。需要修改为自己所在城市的同学,请在代码中自行修改。 第三句,将筛选的数据保存为新文件。也不多加解释了。 下面,请大家参考老师给出的三句代码,将 活动 2 的代码补全,然后运行,看看筛 选后的效果吧! 学生:补全代码,体验筛选数据的过程。 3.1.53.1.5 活动活动 4 4空气质量数据标准化处理空气质量数据标准化处理 教师:下面,我们一起完成数据标准化的体验。 请大家下载 课堂活动(标准化).py 这个文件。注意,要和 STEP2_筛选后数据.c
15、sv 放在同目录。因为我们需要调用上一步生成的结果文件哦。 教师: 数据中的第一列日期格式不符合日期标准, 我们需要将其处理为年-月-日的形 式。 教师:那么怎样把一个字符串形式的日期转化为-间隔的标准格式呢? 我们一起分析一下,其实 20150521 这个日期可以分割为年 2015、月 05、日 21 三部 分,然后我们用-把他们拼接起来,那么就生成了 2015-05-21 这样的日期格式。 本质上, 这就是一个将字符串分隔、 拼接的过程。 假如20150521放在一个变量datestr 中,这个字符串变量的前四位截取出来就是 2015,中间 2 位截取出来就是 05,最后 两位截取出来就是
16、 21。最后,我们将至和“-”拼接起来。就实现了这个日期的标准 化。 教师:标准化的整体思路就是读取文件、将日期循环拼接处理好,将处理好的数据另 存新文件。让我们一起来看看代码是怎样实现的吧!开始,读取文件。然后筛选出 date 这列的数据。然后,用到了我们熟悉的 for 循环。循环拼接需要处理的字符串, 处理完将数据存入到指定单元格中。最后保存数据到一个文件。 教师:下面,请暂停视频,下载的课堂活动(标准化).py 文件,运行程序,观察新 生成的数据文件。 学生:运行程序,观察结果文件。 3.1.63.1.6 活动活动 5 5空气质量数据补缺空气质量数据补缺 教师:下面,我们开始第四步,对已
17、经标准化的数据进行最后补缺的操作。 请大家暂停视频,下载 课堂活动(补缺).py 文件,注意一定和上一步生成的文件 STEP3_日期标准化后数据.csv 放在同目录下。 教师:转换时间的代码语句也已经封装为一个函数 changeDate 函数。请大家在调用 changeDate 函数的第三步,将#删除,然后运行。 1 分 钟 课 堂 小 教师:这一步,我们的目标是补全缺失的数据。注意,对于未发布的数据,我们是无 法补全的,如果需要补全,需要人工去找到缺失的数据。这不在我们的讨论范围内。 今天,我们只对偶发性的数据进行自动补全。运用数学方法自动补全数据,有很多成 熟的方法, 比如线性插值法、 均
18、值插值法、 临近值补缺等。 这些方法涉及到高等数学、 统计数学中的知识。请感兴趣的同学课后参考资料或者上网学习相关的知识。 教师:请大家打开下载的 课堂活动(补缺).py 文件。这个文件中,我们依然使用 pandas 库来实现数据的自动补缺。这个文件中,老师定义了一个自定义函数 supplyData 实现了对某一列数据的补缺。大家在程序底部,可以看到下面四句代码, 分别是定义了处理的文件名、保存的文件名、定义补缺的列、调用补缺函数。请大家 根据自己所在的城市或地区,修改 city 变量,然后运行程序,体验下补缺的过程吧! 学生:运行代码,体验数据补缺。 3.1.73.1.7 数据整理活动小结数
19、据整理活动小结 教师:这节课,我们体验了删除重复数据、筛选数据、标准化数据、补全缺失值的四 种数据整理过程。其实,除了使用 python 编程工具来完成数据整理,我们还有表格 软件、 在线数据分析平台可以实现数据的整理。 那么相比较, 编程工具有哪些优势呢? 表格软件操作简单,但是可处理的数据 量较小,编程工具具有处理大数据的优势。 几十万条甚至几百万条数据处理起来毫不费力。 在线数据分析平台操作方便, 有很多 现成的整理方法,但是我们只能使用平台提供的方法。相比之下,编程工具可以按我 们的意愿随心所欲的去整理和分析,具有更灵活的特点。 4 4、课堂小结课堂小结 1 分 钟 结 课 后 作 业
20、 教师:我们一起回顾下本节课我们学习过的内容。本节课我们学习了数据整理,对数 据进行整理的目的是什么?是因为采集到的数据是问题数据需要整理。 什么是问题数 据?就是存在重复数据、非标准化数据、错误数据、缺失数据的数据。那么怎样整理 数据呢?我们了解了数据整理的方法,那就是去重(删除重复数据) ,勘误(纠正非 标准化数据、错误数据) ,补漏(补全缺失数据) 。 5 5、课后作业、课后作业 教师:最后,请大家完成课后作业。上节课我们已经通过调查问卷形式采集到了身边 同学们在课余时间安排的数据。 那么这些数据是否存在问题?请将采集到的数据进行 整理,去除无效、错误、重复的数据,将数据标准化处理。请大家参考本节课的代码 以及学习资料中的示例,通过 python 编程完成课后作业。 学生:参考学习资料,完成课后作业的数据处理。