(2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx

上传人(卖家):大布丁 文档编号:1690256 上传时间:2021-08-28 格式:PPTX 页数:23 大小:2.13MB
下载 相关 举报
(2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx_第1页
第1页 / 共23页
(2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx_第2页
第2页 / 共23页
(2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx_第3页
第3页 / 共23页
(2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx_第4页
第4页 / 共23页
(2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx_第5页
第5页 / 共23页
点击查看更多>>
资源描述

1、5.2数据的采集 l数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。 采集数据首先要明确数据应用项目的需求,围绕选定的项目主题,采集数据首先要明确数据应用项目的需求,围绕选定的项目主题, 制订数据采集的需求清单和内容大纲,再采用适当的方法和工具进制订数据采集的需求清单和内容大纲,再采用适当的方法和工具进 行采集。行采集。 5.2.1 数据采集的方法和工具 l数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据 采集法。采集法。 l1.1.系统日志采集法

2、系统日志采集法 l在信息系统中,系统日志是记录系统中硬件,软件和系统问题的信息文在信息系统中,系统日志是记录系统中硬件,软件和系统问题的信息文 件。系统日志包括操作系统日志,应用程序日志和安全日志。系统日志件。系统日志包括操作系统日志,应用程序日志和安全日志。系统日志 采集数据的采集数据的 方法通常是在目标主机上安装个小程序,将目标主机的文本,方法通常是在目标主机上安装个小程序,将目标主机的文本, 应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、 监控和管理。监控和管理。 l通过日志服务器可以监视系统中发生的事件,

3、可以检查错误发生的原因,通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因, 或者寻找受到攻击时攻击者留下的痕迹。例如,安全管理信息系统就是或者寻找受到攻击时攻击者留下的痕迹。例如,安全管理信息系统就是 以系统日志服务器采集原始目志数据,以目志记录文本文件实现日志数以系统日志服务器采集原始目志数据,以目志记录文本文件实现日志数 据的监控和保存,以数据库操作进行日志有效信息的管理工作。据的监控和保存,以数据库操作进行日志有效信息的管理工作。 l2.2.网络数据采集法网络数据采集法 l网络数据采集是指通过网络爬虫或网站公网络数据采集是指通过网络爬虫或网站公 开开API ( Aplica

4、tion Pregramming API ( Aplication Pregramming Interface,Interface,应用程序楼口应用程序楼口) )等方式从网站等方式从网站 上获取数据信息。网络爬虫从一个或若上获取数据信息。网络爬虫从一个或若f f 初始网页的初始网页的URL ( Uniform Resouree URL ( Uniform Resouree Locator.Locator.统一资源定位符统一资源定位符) )开始,获得初开始,获得初 始网页上的始网页上的URL.URL.在抓取网页的过程中,不在抓取网页的过程中,不 断从当前页面上抽取新的断从当前页面上抽取新的URL

5、URL放入队列,放入队列, 直到满足系统的一定停止条件直到满足系统的一定停止条件( (图图5-4)5-4)。 该方法可以将非结构化数据从网页中抽取该方法可以将非结构化数据从网页中抽取 出来,将其存储为统一的本地数据文件,出来,将其存储为统一的本地数据文件, 并以结构化的方式存储。它支持图片、音并以结构化的方式存储。它支持图片、音 额、视颖等文件或附件的采集,附件与正额、视颖等文件或附件的采集,附件与正 文可以自动关联。文可以自动关联。 l拓展:拓展:PythonPython网络数据采集程序使用的扩展库网络数据采集程序使用的扩展库 在众多的数据采集工具中,Python以其简洁、开源和包容的特性在

6、教据采集和分析领域独树一帜。由于Python可以安装第三方扩展库模块来扩展功能, 因此使用Python进 行网络数据采集和分析显得简单易用。以下是使用Python进行网络数据采集和分析所需要的一些第三方扩展库。 l(1) NumPy(1) NumPy Numly ( Numerical Pyhon)是构建科学计算最基础的软件库,为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库还提供了NumPy数组类型的数学运算向量化, 可以提升性能,加快执行速度。 l(2)SciPy(2)SciPy SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。Saily库的主要功能

7、建立在NumPy的基础之上,因此它的数组大量使用了NumPy。它通过其特定的 子模块提供高效的数值例程操作,如数值积分等。SciPy的所有子模块中的函数都有详细的介绍文档。 l(3) Pandas(3) Pandas Pands是一个Python包,旨在通过标记(labeled)和关系(relational) 数据进行工作,简单直观。Pandas主要用于快速简单的数据操作、聚合和可视化呈现。库中有两个主 要数教据结构,一维数组(Series)和二维数组(DataFrame )结构。 l(4) Maplotlih(4) Maplotlih Matplotlib是Python的一个2D绘图库,以各

8、种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在NumPy、 SciPy和Pandas的帮助下,通过Maplotib,开发者仅 需输入几行代码,便可以生成绘图、直方图、功率谱、条彩图、散点图等。 在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。使用import句导入模块的语法如下: from import语句也是导入模块的一种方法,是导入指定模块内的指定函教方法。使用from import语句导入模块内指定方法的语法如下: l体验体验 打开并运行配套学习资源包“第五 章课本素村程序5-1”文件,其 截图如图5-5所示,指出

9、程序中 import语句的作用。 l实践实践 利用配套学习资源包提供的装虚拟机文件,搭建“网络商城”网站,具体操作详见配套学习资源包的说明 文件。 打开并运行配套学习资源包“第五章课本素材程序5-2”。其中,语句import bs4和import requests用 于调用爬虫模块,import re用于调用正则表达式模块,import xlwt用于调用Excel模块,import datetime用于调用日期和时间模块。程序5-2的关键过程及语句如下: (1)爬取页面设置。 (2)爬取商品标题。 (3)爬取商品价格。 (4)爬取商品订单量。 (5)爬取出售商品的店铺名称。 l3.3.其他数据

10、采集法其他数据采集法 l对于企业生产经营或科学研究等保密性要求较高的数据,可通过与对于企业生产经营或科学研究等保密性要求较高的数据,可通过与 企业或研究机构合作,使用特定系统接口等相关方式收集数据。例企业或研究机构合作,使用特定系统接口等相关方式收集数据。例 如,科学研究的数据是通过科学实验的各种传感器采集,并传输到如,科学研究的数据是通过科学实验的各种传感器采集,并传输到 数据库管理系统中的。数据库管理系统中的。 5.2.2数据的存储和保护 l1. 1. 数据的存储数据的存储 l存储数据主要有两存储数据主要有两 种方式,一种是把种方式,一种是把 数据存在本地内部,数据存在本地内部, 另种是把

11、数据放在另种是把数据放在 第三方公共或私有第三方公共或私有 的的“云端云端”存储,存储, 如图如图5-65-6所示。所示。 l云存储已经成为存储发展的一种趋势,云存储已经成为存储发展的一种趋势, 其技术也日益成熟。云存储是把其技术也日益成熟。云存储是把 各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放 置的众多服务器中,为用户提供统一、灵活、安全的置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务云存储服务”。 云存储供应商拥有并管理这些服务器,云存储供应商拥有并管理这些服务器, 负责管理数据的使用和访同权限,

12、负责管理数据的使用和访同权限, 以及云存储环境的日常运营和维护。对于用户面言,无须关注云存储系以及云存储环境的日常运营和维护。对于用户面言,无须关注云存储系 统的具体运行,仅需获取存储空间,把自己的数据存储进去。统的具体运行,仅需获取存储空间,把自己的数据存储进去。 l数据的存储采用分布式文件存储或数据的存储采用分布式文件存储或NsSQLNsSQL数据库存储。分布式文件存储的数据库存储。分布式文件存储的 特点之是为了解决复杂问题而将大任务分解为多项小任务,通过让多个特点之是为了解决复杂问题而将大任务分解为多项小任务,通过让多个 处理器或多个计算机节点并行计算来提高解决问题的效率。分布式文件处理

13、器或多个计算机节点并行计算来提高解决问题的效率。分布式文件 存储系统能够支持多台主机通过网络同时访问共享文件和存储目录,大存储系统能够支持多台主机通过网络同时访问共享文件和存储目录,大 部分采用了关系数据模型并且支持部分采用了关系数据模型并且支持SQLSQL语句查询。语句查询。 l2.2.数据的保护数据的保护 l如今,无论是政府部门、企业还是个人,对数据的依赖性已越来越如今,无论是政府部门、企业还是个人,对数据的依赖性已越来越 强。然面,数据安全的隐患无处不在,一旦数据滑密或丢失,造成强。然面,数据安全的隐患无处不在,一旦数据滑密或丢失,造成 的损失和影响将是巨大的。因此,对数据安全的保护非常

14、重要。研的损失和影响将是巨大的。因此,对数据安全的保护非常重要。研 究表明,如果在发生数据灾难后的两个星期内无法恢复公司的业务究表明,如果在发生数据灾难后的两个星期内无法恢复公司的业务 系统,系统,75%75%的公司业务将会完全停顿,的公司业务将会完全停顿,43%43%的公司将再也无法开业。的公司将再也无法开业。 在信息化社会,对数据的保护到不容缓。在信息化社会,对数据的保护到不容缓。 l(1 1)数据安全保护技术。)数据安全保护技术。 数据安全保护指数据不被数据安全保护指数据不被 破坏、更改、泄露或丢失。破坏、更改、泄露或丢失。 安装杀毒软件和防火墙只安装杀毒软件和防火墙只 能防备数据安全隐

15、患,面能防备数据安全隐患,面 采用拷贝、备份、复制、采用拷贝、备份、复制、 镜像、持续备份等技术进镜像、持续备份等技术进 行数据保护才是更为彻底,行数据保护才是更为彻底, 有效的方法。有效的方法。- - 般的数据般的数据 安全保护技术的使用特点安全保护技术的使用特点 如表如表5-35-3所示。所示。 l为了防止他人对机密的数据、数据库进行非法访问、删除、修改、为了防止他人对机密的数据、数据库进行非法访问、删除、修改、 拷贝等操作。可以采用对数据进行加密等方法,保护数据在存储和拷贝等操作。可以采用对数据进行加密等方法,保护数据在存储和 传递过程中不被修改或泄露。选择何种加密算法、需要多高的安全传

16、递过程中不被修改或泄露。选择何种加密算法、需要多高的安全 级别、各算法之间如何协作等,都是进行数据加密要考虑的因素。级别、各算法之间如何协作等,都是进行数据加密要考虑的因素。 加密技术通常分为对称式加密和非对称式加密两大类。对称式加密加密技术通常分为对称式加密和非对称式加密两大类。对称式加密 指加密和解密用的是同个密钥。非对称式加密指加密和解密用的是指加密和解密用的是同个密钥。非对称式加密指加密和解密用的是 两个不同的密钥,必须配对使用,否则不能打开加密数据。两个不同的密钥,必须配对使用,否则不能打开加密数据。 l(2)(2)数据的隐私保护。任何事物都有两面性,数据正在变成生活的数据的隐私保护

17、。任何事物都有两面性,数据正在变成生活的 第三只眼,敏锐地洞察却也正监控着我们的生活。我们上网浏览、第三只眼,敏锐地洞察却也正监控着我们的生活。我们上网浏览、 出行、购物等数据,统统都被记录了,人人都成了数据的产生者和出行、购物等数据,统统都被记录了,人人都成了数据的产生者和 贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显 得越发严峻。得越发严峻。 l隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐 私泄露的问题。可是到了大数

18、据时代,数据发布多了,信息范围扩大了,信息传播和私泄露的问题。可是到了大数据时代,数据发布多了,信息范围扩大了,信息传播和 共享速度加快了,若不加以控制,其所含的商业信息或私密信息就可能泄露共享速度加快了,若不加以控制,其所含的商业信息或私密信息就可能泄露( (图图5-7)5-7)。 解决办法有三个解决办法有三个: : 一是技术手段,常用的隐私保护有一是技术手段,常用的隐私保护有: :数据收集时进行数据精度处数据收集时进行数据精度处 理理: :数据共享时进行访同控制数据共享时进行访同控制: :数据发布时进行人工加扰数据发布时进行人工加扰: :数据分析时进行数据数据分析时进行数据 置名处理等。二

19、是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约置名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约 束。束。 l数据作为一种资产,数据作为一种资产, 用在什么地方,掌握在谁手里都是次要的,用在什么地方,掌握在谁手里都是次要的, 关键是看怎样利用这个工具。在安全的前提下,实现数据共享,才关键是看怎样利用这个工具。在安全的前提下,实现数据共享,才 能真正创造数据价值,发挥数据真正的作用。能真正创造数据价值,发挥数据真正的作用。 l分析分析 某用户在电脑客户端打开了某电商的网站,随意搜索了一下“行李箱”的购物信息,浏览了几个店铺,使 关闭了该网站。热而,当他打开其

20、他网站时,却“惊喜”地发现几乎所有的网页上都闪烁着行李箱的图片 和价格,即使网页上没有出现广告,右下角也会弹出一个广告框,里面的内容依然是行李箱。 用户主动访问某些网站时,便产生了网络缓存(Cookie)。Cookies是指用户测览网页时,网络服务器以文 本格式存储在用户电脑硬盘上的少量数据。Cookies的主要目的是帮助网站记忆用户之前可能进行的操作。 网站通过获取并分析属于用户的Cookies,为用户提供设置或推送服务。这样使得网站更人性化,操作更方 便快捷。 l实践实践 1. 选择网页测览器,右键选 择“属性。 2. 在弹出的Interme选项” 窗口选择“设置”按钮,如图 5-8所示。

21、 3. 在弹出的新窗口“网站教 据设置”中,当前位置就是 Cookie所在的位置,可以选择 “查看文件”按钮找到文件所 在处,如图5-9所示。 l交流交流 很多网站利用Cookies跟踪用户行为。有人认为网站可能存在侵犯用户隐私的问题,也有人认为网站利用 Cookies给用户带来了根多便利,免去了用户重复登录网站的麻烦。在小组中讨论交流,谈谈如何有效阻 止Cookio跟踪成者跨站跟踪的行为。 l拓展:拓展:中华人民共和国网络安全法中华人民共和国网络安全法( (节录节录)(2016)(2016年年1111月月7 7日第十日第十 二届全国人民代表大会常务委员会第二十四次会议通过二届全国人民代表大会

22、常务委员会第二十四次会议通过) ) 第十八条国家鼓励开发网络数据安全保护和利用技术, 促进公共数据资源开放,推动技术创新和经济社 会发展。国家支持创新网络安全管理方式,送用网络新技术,提升网络安全保护水平。 第二十七条任何个人和组织不得从事非法侵入他人网络、平扰他人同络正常功能、窃取网络数据等危害网 络安全的活动:不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网 络安全活动的程序、工具:明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支 付结算等帮助。 第三十一条国家对公共通信和信息服务、 能源、交通、水利、金融、公共服务、电子政务等重要行业和 领域,以及其他一旦遭到破坏、丧失功能成者数据泄露,可能严重电害国家安全、国计民生、公共利益的 关键信息基础设施,在网络安全等级保护制度的基础上,实行重点保护。关键信息基础设施的具体范围和 安全保护办法山由国务院制定。国家鼓助关键信息基础设施以外的网络运营者自愿参与关键信息基础设施 保护体系。 l项目实施项目实施 各小组根据项目选题及权订的项目方案,并结合本节所学知识,开展以下活动。 1.完成相应的数据采集。 2.总结归纳数据采集的方法和步骤。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高中 > 信息 > 粤教版(2019) > 必修1 数据与计算
版权提示 | 免责声明

1,本文((2021新粤教版)高中信息技术必修一5.2 数据的采集ppt课件.pptx)为本站会员(大布丁)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|