1、课程基本信息课题数据整理教科书书名:信息技术必修 1 数据与计算 出版社:人民教育出版社&中国地图出版社 出版日期:2019 年 6 月教学目标教学目标:掌握数据整理的基本方法,能够根据需求选择适当的工具整理数据。教学重点:数据整理的目的和方法。教学难点:数据整理的方法。教学过程时间教学环节主要师生活动1分钟20分钟课堂引入新课讲授1、课堂引入、课堂引入教师:通过之前课程的学习,我们了解到数据处理一般过程是数据采集、数据整理、数据分析、数据呈现四个过程。那么为什么数据采集到的数据要进行数据整理?让我们通过今天的学习找到答案。2、数据整理的目的2、数据整理的目的教师:请同学们仔细观察这部分学生体
2、质健康原始数据,观察下这份数据是否存在问题。教师:我们通过观察会发现这张表格中的数据存在重复、空缺、数据单位不正确的问题。其实这也是很多采集来的数据普遍存在的问题。教师:通常采集的原始数据都会或多或少存在缺失、错误、重复、非标准化的问题。这样的数据我们形象地称之为脏数据。我们如果想从数据中心提取出数据的价值,首先得确保数据是有效的数据。什么样的数据是有效的?具有完整性、统一性、准确性的数据。那么存在问题的数据我们就需要通过数据整理将至转变为清洁数据,也就是有效数据。这也是我们数据整理的目的。教师:怎样才可以将问题数据处理成清洁数据呢?我们要通过去重来删除重复数据、通过补漏来补全缺失数据,通过勘
3、误来纠正数据中的错误和非标准化问题。2、数据整理的方法2、数据整理的方法教师:我们了解了脏数据存在数据重复、缺失、错误和非标准化的问题,那么就可以对应采取去重、补漏、勘误的方法来清洗数据。这也数据整理的基本方法。3、数据整理3、数据整理教师:下面,我们通过课堂活动过来体验一下数据整理的过程。金山银山不如绿水青山、我们国家这些年一直致力于环境治理、生态修复,也落实了很多政策、关停了很多污染企业。随着环境的治理,你所在的城市空气质量是否也随着治理改善了呢?我们要做出判断,需要数据的支撑。这里,老师提供了一份全国三百多个城市地区的空气质量采集数据。这张表中的 AQI 就是空气质量指数。通过这个指数,
4、我们可以直观判断空气质量。表中的数据是每小时采集一次的空气质量数据。3.1 活动 1:观察数据3.1 活动 1:观察数据教师:下面,请大家暂停视频,下载资源包中的 原始数据.csv 文件。请观察表中的数据,这份采集数据是否存在问题?能否直接使用呢?请大家仔细观察。3.1.1 观察数据(重复)3.1.1 观察数据(重复)教师:嗯,我猜想各位同学已经或多或少发现了一些问题。观察仔细的同学可能已经发现了,数据中存在一些重复的数据,比如 23 点的数据存在两次。3.1.2 观察数据(筛选)3.1.2 观察数据(筛选)教师:这份表格里,并且包含 367 个城市或地区 6 年的空气质量数据,并且是每小时采
5、集一次的数据,所以有四五万条数据,数据量很大。我们只需要一个城市的数据,所以需要筛选出一个城市的数据,去掉冗余的数据。3.1.3 观察(非标准化)3.1.3 观察(非标准化)教师:数据中第一列的日期格式不规范。不是常见的标准日期格式。我们需要做数据标准化。3.1.4 观察数据(缺失)3.1.4 观察数据(缺失)教师:眼尖的同学,可能还会发现这些数据中还存在空缺的情况,有的是连续数据中缺了一个两个,有的是大段日期的数据不存在。为什么?偶然性出现的缺失可能是采集设备存在故障或线路问题导致的。前期大量数据缺失是由于前期未公布该城市的数据。所以采集到的数据并不完整。教师:我们一起回顾下这份原始的数据存
6、在哪些问题:1、数据中存在重复数据,需要去重。2、数据量太多,我们只需要自己所在的城市的数据,所以需要筛选3、第一列日期格式不对,需要标准化。4、存在缺失数据。需要补缺。下面我们一起通过数据整理来解决这四个问题。3.2pandas 库介绍3.2pandas 库介绍教师:在完成数据整理之前,我们来介绍一下使用的工具。今天,我们会用到一个叫做 PANDAS 的第三方库,这也是一个数据分析和整理过程常用到的库。这个库包含了很多现成的读写多种文件格式的方法;pandas 能够高效操作大型的数据集。间接得说,它处理大量数据能力又快又好。另外,pandas 库非常擅长处理的数据结构就是类似于表格这样行列组
7、成的数据,也是我们数据处理最常见的数据结构。教师:pandas 库包含两个常用的主要数据结构。series 结构,这个是一串数据组成的集合,可以简单理解为一个队列,一个一维的字典。DataFrame 结构,这是一个表格型的数据结构,也就是由行和列组成。教师:今天我们主要用到了 DataFrame 结构,我们主要介绍下这个结构。DataFrame 结构由三部分组成,行索引号(类似于 excel 表格里的行号),列索引号(类似于 excel 表格里的列标题),另外还有列数据,也就是一列包含的数据集合。这里需要强调下,DataFrame 的行索引号是从 0 开始,我们这张图是 wps 表格显示的,行
8、索引号是从 1 开始,这一点不一样哦。下面我们就在数据整理过程中进一步了解DataFrame 结构的具体用法。3.3 活动 2空气质量数据去重3.3 活动 2空气质量数据去重教师:请大家打开资源包,下载课堂活动(去重).py 文件,和 原始数据.csv 放在同一目录下。打开 课堂活动.(去重).py 文件教师:我们的目标是删除重复数据,那么这个功能用代码怎么实现呢?请大家打开刚才下载的程序文件。我们看到这里有三句代码,第一句,是导入 pandas库,并起一个别名叫做 pd 第二句是定义了一个变量,也就是我们要处理的文件名称,这里就是同目录下的原始数据.csv。第三句是定义了一个变量 saven
9、ame,也就是处理后数据另存的文件名称。我们可以看到注释里请大家补全代码实现对数据的去重操作。补全什么代码呢?我们接着看。教师:其实利用 pandas 实现去重,只需要三句代码即可实现。下面就是三句代码。但是他们的顺序不对。我们一起来看看正确的顺序是什么。A 句,这一句中的 DATA 变量就是一个 DataFrame 表,使用 to_csv 方法,将数据表的数据保存到指定的文件里,第一个参数 savename 是保存的文件名称,第二个参数index=False 说明,保存时不要保存现有 DateFrame 表的索引。B 句,这一句是调用 pandas 的读取 csv 的方法,也就是 read_
10、csv 方法,第一个参数file 指定的文件名称,参数 encoding 是指采用 utf-8 数据编码来读取,header=0 表示读取时将第 1 行的数据当做列索引号。也就是作为表格的列标题。C 句,这一句是使用 DateFrame 的 drop_duplicates 方法直接将表格中的重复数据删除,然后再保存到 data 变量里。这里的 keep=first 是指重复的数据中保留第一行,多余的重复数据删除。这三句的代码作用,相信大家已经理解了。那么这三句的正确排序是什么?我想,大家都有了自己的答案。正确的答案是 BCA。你对了嘛?教师:去重的过程就是读取文件、删除重复数据、另存为新文件三
11、个步骤。下面,请大家参考老师提供的代码,将 课堂活动(去重).py 文件缺失的代码补全,然后运行,看看去重后的效果吧!学生:尝试参考任务单,实现删除重复删除数据的函数。3.4 活动 3空气质量数据筛选3.4 活动 3空气质量数据筛选教师:我们的需求是从几百个城市的数据中找到自己所在城市的数据,所以我们需要筛选数据出来。例如,老师要筛选北京的数据。教师:DataFrame 筛选数据有几种方式。如果筛选某列数据,可以直接 df列索引筛选某列的数据,如图所示,如果想筛选北京这一列的数据,df北京筛选红色区域所示的数据。教师:如果想筛选多列,那么就用多列的索引号组成列表,然后作为参数来筛选即可。例如筛
12、选 date 和北京这两列数据。df date,北京 筛选两列数据。教师:DataFrame 还有很多丰富的筛选数据的方法。感兴趣的同学可参考资料包中的阅读材料了解。教师:下面,我们一起体验下数据筛选的过程。请大家打开资源包,下载 课堂活动(筛选).py 文件,和 STEP1_删除重复数据.csv 放在同一目录下。现有的数据,我们需要筛选出自己所要城市的数据,比如我需要筛选出前三列 datehourtype 和北京,一共四列的数据。教师:那么用 python 编程实现,是怎样实现筛选的呢?其实我们理顺思路,会发现,筛选的过程就是读取文件、筛选数据、将数据另存文件三个步骤。让我们打开 课堂活动
13、2(筛选).py ,一起看看。这里定义了三个变量,file 是处理的文件,save 那么是处理后保存的文件,city 是要筛选出的城市名称。但是筛选数据的代码需要大家补全。教师:补全的过程,依然是用 3 句代码来实现。第一句,读取文件,这句和之前相同,不多加解释。第二句,筛选数据,用到了刚才老师介绍的筛选多列的方法。我们用列索引号组成的列表作为参数,筛选出这四列的数据。注意,city 变量在代码中已定义了,就是北京。需要修改为自己所在城市的同学,请在代码中自行修改。第三句,将筛选的数据保存为新文件。也不多加解释了。下面,请大家参考老师给出的三句代码,将 活动 2 的代码补全,然后运行,看看筛选
14、后的效果吧!学生:补全代码,体验筛选数据的过程。3.1.5 活动 4空气质量数据标准化处理3.1.5 活动 4空气质量数据标准化处理教师:下面,我们一起完成数据标准化的体验。请大家下载 课堂活动(标准化).py 这个文件。注意,要和 STEP2_筛选后数据.csv放在同目录。因为我们需要调用上一步生成的结果文件哦。教师:数据中的第一列日期格式不符合日期标准,我们需要将其处理为年-月-日的形式。教师:那么怎样把一个字符串形式的日期转化为-间隔的标准格式呢?我们一起分析一下,其实 20150521 这个日期可以分割为年 2015、月 05、日 21 三部分,然后我们用-把他们拼接起来,那么就生成了
15、 2015-05-21 这样的日期格式。本质上,这就是一个将字符串分隔、拼接的过程。假如 20150521 放在一个变量datestr 中,这个字符串变量的前四位截取出来就是 2015,中间 2 位截取出来就是 05,最后两位截取出来就是 21。最后,我们将至和“-”拼接起来。就实现了这个日期的标准化。教师:标准化的整体思路就是读取文件、将日期循环拼接处理好,将处理好的数据另存新文件。让我们一起来看看代码是怎样实现的吧!开始,读取文件。然后筛选出date 这列的数据。然后,用到了我们熟悉的 for 循环。循环拼接需要处理的字符串,处理完将数据存入到指定单元格中。最后保存数据到一个文件。教师:下
16、面,请暂停视频,下载的课堂活动(标准化).py 文件,运行程序,观察新生成的数据文件。学生:运行程序,观察结果文件。3.1.6 活动 5空气质量数据补缺3.1.6 活动 5空气质量数据补缺教师:下面,我们开始第四步,对已经标准化的数据进行最后补缺的操作。请大家暂停视频,下载 课堂活动(补缺).py 文件,注意一定和上一步生成的文件 STEP3_日期标准化后数据.csv 放在同目录下。教师:转换时间的代码语句也已经封装为一个函数 changeDate 函数。请大家在调用changeDate 函数的第三步,将#删除,然后运行。1分钟课堂小教师:这一步,我们的目标是补全缺失的数据。注意,对于未发布的
17、数据,我们是无法补全的,如果需要补全,需要人工去找到缺失的数据。这不在我们的讨论范围内。今天,我们只对偶发性的数据进行自动补全。运用数学方法自动补全数据,有很多成熟的方法,比如线性插值法、均值插值法、临近值补缺等。这些方法涉及到高等数学、统计数学中的知识。请感兴趣的同学课后参考资料或者上网学习相关的知识。教师:请大家打开下载的 课堂活动(补缺).py 文件。这个文件中,我们依然使用pandas 库来实现数据的自动补缺。这个文件中,老师定义了一个自定义函数supplyData 实现了对某一列数据的补缺。大家在程序底部,可以看到下面四句代码,分别是定义了处理的文件名、保存的文件名、定义补缺的列、调
18、用补缺函数。请大家根据自己所在的城市或地区,修改 city 变量,然后运行程序,体验下补缺的过程吧!学生:运行代码,体验数据补缺。3.1.7 数据整理活动小结3.1.7 数据整理活动小结教师:这节课,我们体验了删除重复数据、筛选数据、标准化数据、补全缺失值的四种数据整理过程。其实,除了使用 python 编程工具来完成数据整理,我们还有表格软件、在线数据分析平台可以实现数据的整理。那么相比较,编程工具有哪些优势呢?表格软件操作简单,但是可处理的数据 量较小,编程工具具有处理大数据的优势。几十万条甚至几百万条数据处理起来毫不费力。在线数据分析平台操作方便,有很多现成的整理方法,但是我们只能使用平
19、台提供的方法。相比之下,编程工具可以按我们的意愿随心所欲的去整理和分析,具有更灵活的特点。4、课堂小结4、课堂小结1分钟结课后作业教师:我们一起回顾下本节课我们学习过的内容。本节课我们学习了数据整理,对数据进行整理的目的是什么?是因为采集到的数据是问题数据需要整理。什么是问题数据?就是存在重复数据、非标准化数据、错误数据、缺失数据的数据。那么怎样整理数据呢?我们了解了数据整理的方法,那就是去重(删除重复数据),勘误(纠正非标准化数据、错误数据),补漏(补全缺失数据)。5、课后作业5、课后作业教师:最后,请大家完成课后作业。上节课我们已经通过调查问卷形式采集到了身边同学们在课余时间安排的数据。那
20、么这些数据是否存在问题?请将采集到的数据进行整理,去除无效、错误、重复的数据,将数据标准化处理。请大家参考本节课的代码以及学习资料中的示例,通过 python 编程完成课后作业。学生:参考学习资料,完成课后作业的数据处理。数据整理数据整理(第二十三课时)(第二十三课时)高中信息技术回顾 数据处理一般过程数据采集数据采集数据整理数据整理数据分析数据分析数据呈现数据呈现高中信息技术数据保存数据采集到的数据,是怎样保存的呢?常见的数据保存形式是云存储、数据库、文件云存储、数据库、文件。高中信息技术文件格式文件格式保存,最常见的是txt、csv格式。csv文件也是一种保存了数据的文本文件,其中的数据通
21、常以英文逗号分隔开。excel、wps等表格软件可以兼容打开该格式的文件。高中信息技术观察数据上图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。高中信息技术原始数据可能存在的问题缺失缺失数据为空数据为空错误错误数据不准确数据不准确重复重复重复的数据重复的数据非标准非标准数据单位数据单位格式不一致格式不一致“脏数据脏数据”高中信息技术1、数据整理的目的问题数据问题数据清洁数据清洁数据有效数据完整性完整性准确性准确性统一性统一性提取价值高中信息技术2、数据整理的方法补漏补漏避免缺失避免缺失勘误勘误标准化、异标准化、异常值修正常值修正去重去重删除重复删除重复删除重复删除重复高中信息技术3
22、、数据整理 金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着环境改善,你家乡的空气质量情况是否有所改善?我们需要数据来帮助判断。每小时采集的空气质量原始数据每小时采集的空气质量原始数据 金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着环境改善,你家乡的空气质量情况是否有所改善?我们需要数据来帮助判断。每小时采集的空气质量原始数据每小时采集的空气质量原始数据 金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着环境改善,你家乡的空气质量情况是否有所改善?我们需要数据来帮助判断。高中信息技术活动1:观察数据
23、 请暂停视频,下载资源包中的文件。打开 原始数据原始数据.csv.csv。观察数据表观察数据表中的数据,思考是否存在什么问题。原始数据原始数据.csv.csv高中信息技术观察数据重复存在重复值存在重复值需要去重需要去重高中信息技术观察数据筛选存在太多数据存在太多数据需要筛选需要筛选高中信息技术观察数据非标准化日期格式不正确日期格式不正确需要数据标准化需要数据标准化高中信息技术观察数据缺失存在数据缺失存在数据缺失需要尽可能补缺需要尽可能补缺高中信息技术空气质量数据整理需求1、存在重复数据!去重去重2、数据太多了,我们只需要某个城市数据!筛选筛选3、日期格式不正确!标准化标准化4、现有缺失数据!尽
24、可能补缺尽可能补缺高中信息技术Pandas库介绍Pandas库是数据分析和整理常用的一个第三方库。包含现成方法读写多种文件格式数据。能够高效操作大型数据集。非常擅长处理类似于表格类型的数据。高中信息技术Pandas库介绍Pandas库有两个常用的主要数据结构Series这是一串数据组成的集合DataFrame这是一个表格型的数据结构高中信息技术Pandas库DataFrame结构行行索索引引号号列索引号列索引号列列数数据据从从0开始开始高中信息技术活动2:空气质量数据去重暂停视频暂停视频请下载 课堂活动(去重)课堂活动(去重).py.py 文件 和 原始数据原始数据.csv.csv 放在同目录
25、下。高中信息技术活动2:空气质量数据去重目标目标删除重复数据删除重复数据打开下载的程序文件打开下载的程序文件高中信息技术活动2:空气质量数据去重删除重复数据用三句代码实现删除重复数据用三句代码实现A.dataA.data.to_csv(savename,index=False).to_csv(savename,index=False)保存文件保存文件B.B.df=pd.read_csv(file,encoding=utf-8,header=0)df=pd.read_csv(file,encoding=utf-8,header=0)读取文件读取文件C.data=C.data=df.drop_du
26、plicates(keep=df.drop_duplicates(keep=firstfirst)删除重复数据删除重复数据正确的顺序是正确的顺序是 B C AB C A高中信息技术活动2:空气质量数据去重df=pd.read_csv(file,encoding=utf-8,header=0)df=pd.read_csv(file,encoding=utf-8,header=0)data=data=df.drop_duplicates(keep=df.drop_duplicates(keep=firstfirst)datadata.to_csv(savename,index=False).to_
27、csv(savename,index=False)请大家参考老师提供的代码,将缺失的代码补全,然后运行,请大家参考老师提供的代码,将缺失的代码补全,然后运行,看看去重后的效果吧!看看去重后的效果吧!读取文件删除另文件高中信息技术活动2:空气质量数据去重高中信息技术活动3:空气质量数据筛选目标目标筛选数据筛选数据现在数据太多了,我需要筛选某个城市的数据!例如 筛选北京的数据。高中信息技术DataFrame筛选用法DataFrameDataFrame筛选数据筛选数据dfdf列索引列索引 筛选某列的数据筛选某列的数据df北京筛选红色区域数据高中信息技术DataFrame筛选用法DataFrameDa
28、taFrame筛选数据筛选数据dfdf列索引列表列索引列表 筛选多列数据筛选多列数据df date,date,北京北京 筛选两列数据高中信息技术DataFrame筛选用法DataFrameDataFrame筛选数据筛选数据更多筛选、定位数据的方法请参考学习资料包中的阅读材料DataFrameDataFrame筛选数据筛选数据更多筛选、定位数据的方法请参考学习资料包中的阅读材料高中信息技术活动3:空气质量数据筛选暂停视频暂停视频请下载 课堂活动(筛选)课堂活动(筛选).py.py 文件 和 STEP1_STEP1_删除重复数据删除重复数据.csv.csv 放在同目录下。高中信息技术活动3:空气质
29、量数据筛选筛选出筛选出datedate、hourhour、typetype、北京、北京 这四列数据这四列数据 高中信息技术活动3:空气质量数据筛选读取文件另文件高中信息技术活动3:空气质量数据筛选df=pd.read_csv(file,encoding=utf-8,header=0)df=pd.read_csv(file,encoding=utf-8,header=0)data=df date,hour,type,city data=df date,hour,type,city data.to_csv(savename,index=False)data.to_csv(savename,inde
30、x=False)请大家参考老师提供的代码,将缺失的代码补全,然后运行。请大家参考老师提供的代码,将缺失的代码补全,然后运行。看看筛选后的效果吧!看看筛选后的效果吧!读取文件另文件高中信息技术运行效果高中信息技术活动4:空气质量数据标准化处理暂停视频暂停视频请下载 课堂活动(标准化)课堂活动(标准化).py.py 文件 和 STEPSTEP2 2_ _筛选后数据筛选后数据.csv.csv 放在同目录下。高中信息技术活动4:空气质量数据标准化处理目标目标数据标准化(日期标准化)数据标准化(日期标准化)日期格式应该是2020-10-01的形式。我们需要对这一列数据处理。高中信息技术活动4:空气质量数
31、据标准化处理201505212015 0521用用-拼接拼接2015-05-21datestrdatestr0:4datestr4:6datestr6:8datestr0:4+-+datestr4:6+-+datestr6:8高中信息技术课堂活动:STEP3 标准化读取文件循环拼接另文件读取文件读取文件循环拼接循环拼接另存文件另存文件高中信息技术活动4:空气质量数据标准化处理暂停视频暂停视频请运行请运行 课堂活动课堂活动(标准化)标准化).py.py 文件文件运行结束,观察新生成的数据文件运行结束,观察新生成的数据文件 高中信息技术运行效果高中信息技术活动5:空气质量数据补缺暂停视频暂停视频请
32、下载 课堂活动(补缺)课堂活动(补缺).py.py 文件 和 STEPSTEP3 3_ _日期标准化后数据日期标准化后数据.csv.csv 放在同目录下。高中信息技术活动5:空气质量数据补缺目标目标补全缺失数据补全缺失数据对于未发布数据,无法补全。对于偶发性缺失数据,可以补全。方法很多,比如线性插值法、均值插值、临近值补缺线性插值法、均值插值、临近值补缺。这些属于高等数学、线性代数的内容,请课下了解。高中信息技术活动5:空气质量数据补缺目标目标数据补缺数据补缺打开 课堂活动(补缺)课堂活动(补缺).py.py 自定义函数supplyData实现了补缺。修改city为指定的城市名称。(注意一定和
33、csv文件中的城市名一致)。运行程序,体验下补缺过程。高中信息技术运行效果高中信息技术数据整理活动小结我们通过课堂体验活动,体验了删除重复数据、筛选数据、标准化数据、补全缺失值的整理过程。其实数据整理除了编程工具还有多种工具可以使用,如表格软件、在线数据分析平台表格软件、在线数据分析平台等。选择Python编程工具来做数据整理有哪些优势呢?编程可灵活实现使用者的需求编程可灵活实现使用者的需求高中信息技术4、课堂小结理理目理方法勘误补漏非错误高中信息技术5、课后作业上节课同学们通过调查问卷的形式采集了身边同学们的课余时间安排数据,这些数据是否是存在问题?请将采集到的数据进行数据整理,去除无效、错
34、误、重复数据,并对数据进行标准化处理。请参考学习资料中的示例了解Python编程实现筛选数据、去重、删除数据的基本方法。课程基本信息课题数据整理教科书书名:信息技术必修 1 数据与计算 出版社:人民教育出版社&中国地图出版社 出版日期:2019 年 6 月学生信息姓名学校班级学号课后练习上节课同学们通过调查问卷的形式采集了身边同学们的课余时间安排数据,这些数据是否是存在问题?请将采集到的数据进行数据整理,去除无效、错误、重复数据,并对数据进行标准化处理。(请参考学习资料中的示例,了解 Python 编程实现筛选数据、去重、删除数据的基本方法。) 自主学习任务单学习指南1.课题名称:数据整理2.
35、学习目标:掌握数据整理的基本方法,能够根据需求选择适当的工具整理数据。3.本节知识点思维导图:学习任务任务 1:请暂停视频,下载资源包中的文件。打开 原始数据.csv。观察数据表中的数据,思考是否存在什么问题。【思考】表中数据存在的问题有 任务 2:【删除重复数据】请下载 课堂活动(去重).py 文件,和 原始数据.csv 放在同目录下。观察自己所在城市或地区在 原始数据.csv 中的名称。使用编辑器打开程序,按照自己所在城市名称修改变量 city 的值。(注意一定和 原始数据.csv 中的名称一致。)参考以下代码补全 课堂活动(去重).py 文件中缺失的部分,然后运行程序,观察生成的结果文件
36、 STEP1_删除重复数据.csv。df=pd.read_csv(file,encoding=utf-8,header=0)#读取文件data=df.drop_duplicates(keep=first)#删除重复data.to_csv(savename,index=False)#保存文件【思考】本任务,我们实现了对数据的整理是 。任务 3:【筛选数据】我们的需求是从几百个城市的数据中找到自己所在城市的数据,所以我们需要筛选数据出来。例如,筛选北京的数据。下载 课堂活动(筛选).py 文件,和 STEP1_删除重复数据.csv 放在同一目录下。请大家参考以下代码,将缺失的代码补全,然后运行。看
37、看筛选后的数据文件 STEP2_筛选后数据.csv。df=pd.read_csv(file,encoding=utf-8,header=0)data=df date,hour,type,city data.to_csv(savename,index=False)【思考】本任务,我们实现了对数据的整理是 。任务 4:【数据标准化】原始数据的第一列日期,不是标准 yyyy-mm-dd 格式。这一步我们完成数据标准化的操作。请下载 课堂活动(标准化).py 这个文件。注意,要和STEP2_筛选后数据.csv 放在同目录。运行程序,观察整理后生成的数据文件 STEP3_日期标准化后数据.csv。【思考
38、】本任务,我们实现了对数据的整理是 。任务 5:【数据补全】数据存在缺失,这一步我们采用一定方法进行数据补全。(请感兴趣的同学课下通过网络了解线性插值法、均值插值、临近值补缺的补缺思路。)下载 课堂活动(补缺).py 文件,注意和 STEP3_日期标准化后数据.csv 放在同目录下。运行程序,观察整理后生成的数据文件 STEP4_数据补缺.csv。【思考】本任务,我们实现了对数据的整理操作是 。评测反思1.知识小测:结合微课资源,完成以下题目:通常采集的数据存在 、和 的问题。数据整理的过程就是通过 删除重复数据、通过 纠正非标准化或错误数据、通过 补全缺失数据的过程。2.学习评价:评价指标评价等级及分值优秀9-10 分良好5-8 分一般3-4 分自评老师评任务1(10%)任务2(20%)任务3(20%)任务4(20%)任务5(20%)任务单(10%)3.学习反思:(1)通过本节课的学习,你最大的收获是什么?(2)在实践操作环节,遇到了哪些困难?你是如何解决的?(3)关于本节课的学习内容,列出你最想进一步研究的内容。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。