1、数据采集数据采集(第二十二课时)(第二十二课时)年级年级:高一:高一 学学科科:信息技术(人教:信息技术(人教/中中图版)图版)回顾 数据处理一般过程数据采集数据采集数据整理数据整理数据分析数据分析数据呈现数据呈现什么是数据采集数据获取的过程数据获取的过程数据采集数据采集数据采集指根据需求采用适当的方法和工具获取所需要的数据。课堂活动1:体验采集你知道自己现在的精确位置吗?思考:思考:需要采集什么数据?需要采集什么数据?经纬度经纬度课堂活动1:体验采集你知道自己现在位置的精确位置吗?思考:思考:去哪儿找到当前经纬度?去哪儿找到当前经纬度?手机导航、手机手机导航、手机APPAPP课堂活动1:体验
2、采集你知道自己现在位置的精确位置吗?思考:思考:APPAPP怎么获取到经纬度数据怎么获取到经纬度数据?手机定位传感器手机定位传感器课堂活动1:体验采集活动内容:活动内容:下载一个定位下载一个定位APPAPP,确定自己的经纬度。,确定自己的经纬度。例如:豆豆指南针例如:豆豆指南针暂停视频,填写任务单暂停视频,填写任务单-任务任务1 1 中的表格中的表格活动回顾手机是怎样实现定位我们的精确位置的?找什么找什么明确明确数据需求数据需求经纬度经纬度去哪儿找去哪儿找确定数据来源确定数据来源手机手机APPAPP怎么找怎么找选择选择采集方法采集方法手机定位传感器手机定位传感器传感器采集 传感器传感器是能检测
3、、采集物理世界的各种信息,并将信息转换为电信号形式表示的数据采集设备。课堂活动2:寻找传感器 我们生活中还有哪些通过传感器采集数据的物品呢?(任务单-任务2)课堂活动2:寻找传感器手机中的传感器手机中的传感器1.陀螺仪陀螺仪2.2.重力传感器重力传感器3.3.加速度传感器加速度传感器4.4.指纹传感器指纹传感器5.5.摄像头摄像头6.6.电磁传感器电磁传感器7.7.距离传感器距离传感器8.8.光线传感器光线传感器暂停视频暂停视频请阅读任务单中阅读材料,了解手机中的传感器的功能。请阅读任务单中阅读材料,了解手机中的传感器的功能。9.9.GPSGPS传感器传感器10.10.温度传感器温度传感器11
4、.11.麦克风麦克风12.12.气压传感器气压传感器课堂活动3:手机中的传感器打开手机,观察思考,你手机中的游戏或应用app,思考:1、APP中有哪些功能?2、该功能运用了什么传感器?3、该传感器采集什么数据实现了该功能?试一试:你能举出试一试:你能举出3 3个例子吗?填在表格中个例子吗?填在表格中(任务单-任务3)新问题 传感器帮助手机实现了很多功能。如果我想了解北京今天的天气情况来确定出行,手机能帮到我吗?通过通过搜索引擎、搜索引擎、天气类天气类APPAPP查找天气情况。查找天气情况。网络采集方法搜索引擎网络采集方法搜索引擎网络采集方法搜索引擎搜索引擎spider通用爬虫爬取数据检索查询缓
5、存数据呈现结果STEP1STEP3STEP2STEP4网络采集方法搜索引擎搜索引擎给出的数据检索结果非常多。怎样选择才能获取最有权威、最准确的数据呢?需求:分析北京市空气污染指数2015-2020年的变化情况这些空气质量数据在这这些空气质量数据在这2 2个网站都可以找到?如何选择?个网站都可以找到?如何选择?网络采集方法爬虫手机手机APPAPP里的天气数据从哪来来的?里的天气数据从哪来来的?一般网站、手机APP中的天气信息,都是从气象网站爬取的聚焦爬虫聚焦爬虫网络采集方法爬虫聚焦爬虫采集的数据过程0404020201010303分析网页分析网页抓取网页抓取网页过滤数据过滤数据保存数据保存数据课
6、堂活动4:体验爬虫 在中国天气网爬取本地最近的天气预报,将抓取的最近7天天气数据存入一个csv文件。课堂活动4:体验爬虫活动说明:1 1、下载下载 抓取天气抓取天气.py.py 2 2、运行代码、运行代码在程序所在目录会生成抓取到的数据文件在程序所在目录会生成抓取到的数据文件 weather.csvweather.csv默认城市是北京市。默认城市是北京市。SETP1:分析网页SETP1:分析网页STEP2:抓取网页抓取网页htmlget_content函数STEP3:过滤数据过滤html中的目标数据get_data函数SETP4:保存数据将过滤后的数据保存为csv文件write_data函数S
7、TEP5:实施采集直接运行程序,在指定的url抓取网页、过滤数据、保存数据提示:提示:修改爬取的修改爬取的urlurl,尝试抓取,尝试抓取中国中国天气网上其他城市天气网上其他城市的的7 7天天气情况天天气情况。知识补充函数函数函数是逻辑相对独立、功能相对单一的代码块。需要时直接调用,不必重写,提高代码可重用性。(参考教材P60 关于函数的定义)通常函数有0-N个参数,返回0-N个结果爬虫软件可视化爬虫软件可视化爬虫软件集搜客八爪鱼后羿采集器课堂任务5:体验爬虫软件这部国产科幻片反响如何?这部国产科幻片反响如何?下载安装软件后羿采集器在豆瓣电影找到流浪地球电影参考学习资料中的操作流程,实现采集1
8、00条影评数据爬虫使用规范爬虫使用起来很方便爬虫使用起来很方便可以快速从互联网上获取到大量数据可以快速从互联网上获取到大量数据是否我们可以随意爬取想要的数据呢?是否我们可以随意爬取想要的数据呢?爬虫使用规范遵守遵守robots.txtrobots.txt协议协议禁止:禁止:恶意爬取恶意爬取 侵犯个人隐私侵犯个人隐私 爬取信息用于不正当竞争爬取信息用于不正当竞争 侵犯商业秘密侵犯商业秘密遵守相关法律法规 根据中华人民共和国网络安全法中华人民共和国网络安全法以及最新刑事司法解释规定“非法提供”和“非法获取”公民个人信息构成犯罪的都可以入刑。网络爬虫功能强大便捷,但是我们使用时,一定要遵守一定要遵守
9、相关法律法规相关法律法规。网络采集方法:调查问卷网上有的数据,我们可以通过搜索引擎查找、爬虫爬取。如果网上没有的数据呢?如果网上没有的数据呢?例如:你所在你所在学校同学们的课外时间分配情况,课外娱乐时长和课外学业学校同学们的课外时间分配情况,课外娱乐时长和课外学业负担如何?负担如何?这种数据我们可以通过调查问卷调查问卷形式采集。网络采集方法:调查问卷在线调查问卷工具在线调查问卷工具问卷星、问卷网、腾讯问卷、问卷小程序等。课后作业 你身边的高中生课余时间是怎样规划安排的?学业负担重吗?都有哪些娱乐?请参考资源包关于在线调查问卷的说明,设计一个在线调查,了解身边同学课余时间安排,可参考下表,也可自行规划调查内容。课后时间调查表课后时间调查表 (单位:分钟)(单位:分钟)序号姓名写作业户外活动玩手机/上网看电视1小明60120150302课堂小结找什么去哪儿找怎么找明确数据需求明确数据需求确定数据来源确定数据来源选择采集方法选择采集方法数据采集步骤数据采集步骤课堂小结数据采集方法传感器采集网络采集搜索引擎爬虫调查问卷采集已有网页数据精确抓取网络数据需要人提供的数据采集物理世界的数据