1、1 第2章 数据采集数据采集统计与数据分析基础 & 022 第2章 数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据3 第2章 数据采集2.1.1 数据的类型图 数据的类型4 第2章 数据采集2.1.2 数据的来源一手数据也称原始数据,是指通过直接调查或科学实验等方式直接获取的数据。具体而言,采取实验观察、问卷调查、抽样调查等方法可以获取一手数据,如图2-2所示。1. 一手数据图 一手数据的获取方法5 第2章 数据采集2.1.2 数据的来源二手数据即他人通过调查或实验取得的数据,如从统计年鉴中获取的居民
2、消费价格指数、从房地产管理部门数据库获取的房价数据等。2. 二手数据根据渠道的不同,数据的来源还有内部数据和外部数据之分。内部数据主要包括组织或个人在生产或生活中形成的各种数据;外部数据则是非组织或个人直接产生的数据。专家点拨6 第2章 数据采集云计算和数据库数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的使用。在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。7 第2章 数据采
3、集云计算和数据库数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。这种数据集合具有如下特点:8 第2章 数据采集云计算和数据库(1)尽可能不重复;(2)以最优方式为某个特定组织的多种应用服务;(3)数据结构独立于使用它的应用程序;(4)对数据的增、删、改、查由统一软件进行管理和控制。9 第2章 数据采集云计算和数据库数据库的基本结构分三个层次,反映了观察数据库的三种不同角度。以内模式为框架所组成的数据库叫作物理数据库。以概念模式为框架所组成的数据叫概念数据库。以外模式为框架所组成的数据库叫用户数据库
4、。数据库不同层次之间的联系是通过映射进行转换的。10 第2章 数据采集云计算和数据库11 第2章 数据采集云计算和数据库(1)物理数据层:它是数据库的最内层,是物理存储设备上实际存储的数据的集合。这些数据是原始数据,是用户加工的对象,由内部模式描述的指令操作处理的位串、字符和字组成。(2)概念数据层:它是数据库的中间一层,是数据库的整体逻辑表示。指出了每个数据的逻辑定义及数据间的逻辑联系,是存贮记录的集合。它所涉及的是数据库所有对象的逻辑关系,而不是它们的物理情况,是数据库管理员概念下的数据库。(3)用户数据层:它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的
5、集合。12 第2章 数据采集关系型数据库在现代的计算系统上每天网络上都会产生庞大的数据量,这些数据有很大一部分是由关系数据库管理系统来处理的。1970年 E.F.Codd提出的关系模型数据库的论文 A relational model of data for large shared data banks,使得数据建模和应用程序编程更加简单。13 第2章 数据采集数据库准则关系数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。通过应
6、用实践证明,关系模型非常适合于用户服务器编程,是结构化数据存储在网络和商务应用的主导技术。14 第2章 数据采集数据库准则当前主流的关系型数据库有Oracle、DB2、PostgreSQL、Microsoft SQL Server、Microsoft Access、MySQL、K-DB等。关系模型是由埃德加科德(EdgarF.Codd)于1970年首先提出,由关系数据结构、关系操作集合、关系完整性约束三部分组成。埃德加科德(EdgarF.Codd)提出的“科德十二定律”是数据存储的传统标准。15 第2章 数据采集数据库准则准则0:一个关系形的关系数据库管理系统必须能完全通过它的关系能力来管理数
7、据库。准则1:信息准则,关系数据库管理系统的所有信息都应该在逻辑一级上用表中的值这一种方法显式的表示。准则2:保证访问准则,依靠表名、主码和列名的组合,保证能以逻辑方式访问关系数据库中的每个数据项。准则3:空值的系统化处理,全关系的关系数据库管理系统支持空值的概念,并用系统化的方法处理空值。16 第2章 数据采集数据库准则准则4:基于关系模型的动态的联机数据字典,数据库的描述在逻辑级上和普通数据采用同样的表述方式。准则5:统一的数据子语言,一个关系数据库管理系统可以具有几种语言和多种终端访问方式,但必须有一种语言,它的语句可以表示为严格语法规定的字符串,并能全面的支持各种规则。准则6:视图更新
8、准则,所有理论上可更新的视图也应该允许由系统更新。准则7:高级的插入、修改和删除操作,系统应该对各种操作进行查询优化。17 第2章 数据采集数据库准则准则8:数据的物理独立性,无论数据库的数据在存储表示或访问方法上作任何变化,应用程序和终端活动都保持逻辑上的不变性。准则9:数据逻辑独立性,当对基本关系进行理论上信息不受损害的任何改变时,应用程序和终端活动都保持逻辑上的不变性。准则10:数据完整的独立性,关系数据库的完整性约束条件必须是用数据库语言定义并存储在数据字典中的。准则11:分布独立性,关系数据库管理系统在引入分布数据或数据重新分布时保持逻辑不变。准则12:无破坏准则,如果一个关系数据库
9、管理系统具有一个低级语言,那么这个低级语言不能违背或绕过完整性准则。18 第2章 数据采集数据库准则实体关系模型是Peter P.S Chen在关系模型的基础上,于1976年提出的一套数据库的设计工具,他运用真实世界中事物与关系的观念,来解释数据库中的抽象的数据架构。实体关系模型利用图形的方式来表示数据库的概念设计,有助于设计过程中的构思及沟通讨论。19 第2章 数据采集ACID原则(1)原子性A(Atomicity):事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚。如银行转账,从A账户转100元至B账户,分为两个
10、步骤:从A账户取100元;存入100元至B账户。这两步要么一起完成,要么一起不完成,如果只完成第一步,第二步失败,钱会莫名其妙少了100元。20 第2章 数据采集ACID原则(2)一致性C(Consistency):数据库要一直处于一致的状态,事务的运行不会改变数据库原本的一致性约束。例如现有完整性约束a+b=10,如果一个事务改变了a,那么必须得改变b,使得事务结束后依然满足a+b=10,否则事务失败。21 第2章 数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据22 第2章 数据采集2.2.1 数据
11、采集的流程在采集数据之前,应该清楚需要采集什么样的数据和采集数据的目的,这样才能根据需求和分析对象开展数据采集工作,其基本流程如图2-3所示。图 数据采集的基本流程23 第2章 数据采集2.2.2 数据采集的方法1. 问卷调查(1)问卷内容不能过多,题目应当简洁明了,让受访对象感觉可以不用花费过多时间就能完成调查任务。(3)问题的答案选项不能过多,一般应以多项式或等级式的方式显示,方便受访对象填写。(2)问题设计应紧扣受访对象的行为、态度和基本信息等方面。一些敏感信息可以通过物质刺激的方式获取,如要求受访对象填写手机号码一栏,可以不用强制填写,但如果填写,会将优惠券以短信形式发送到手机上以供使
12、用。24 第2章 数据采集2.2.2 数据采集的方法u 就线上采集而言,首先应充分利用线上平台现有的下载功能直接下载数据;u 如果不具备该功能,则可考虑通过复制粘贴的方式采集到需要的数据对象;u 如果复制操作也无法实现,则考虑使用各种数据爬取工具爬取数据。u 就目前而言,由于互联网科技的不断发展,大数据应用越来越广泛,因此线上采集数据的方式显得更加可行和高效。2. 下载、复制与爬取25 第2章 数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据26 第2章 数据采集2.3.1 生意参谋登录到淘宝、天猫等阿
13、里巴巴电商平台后,单击上方导航栏中的“千牛卖家中心”超链接,然后在显示的页面左侧单击“数据中心”栏中的“生意参谋”超链接,如图2-5所示,即可进入生意参谋数据分析与采集平台,单击该平台导航栏中的不同功能选项卡,则可进入到对应的功能板块。1. 基本功能概述图 生意参谋入口27 第2章 数据采集2.3.1 生意参谋生意参谋中的数据可以通过复制粘贴的方式采集到Excel中,其操作非常简单,只需设置需要显示的数据内容,然后拖曳鼠标复制数据,然后在Excel中进行粘贴即可。2. 数据采集方法图 采集行业数据1TOP1:采集行业数据28 第2章 数据采集2.3.1 生意参谋图 采集行业数据229 第2章
14、数据采集2.3.1 生意参谋TOP2:粘贴数据30 第2章 数据采集2.3.2 京东商智京东商智可以对店铺的流量、商品、交易、服务、供应链和客户等数据进行全方位分析。1. 基本功能概述u 概览u 实时图 京东商智首页的核心指标区域31 第2章 数据采集2.3.2 京东商智u 实时u 流量u 商品1. 基本功能概述图 京东商智的搜索关键词分析界面32 第2章 数据采集2.3.2 京东商智u 交易u 服务u 供应链u 客户u 行业1. 基本功能概述图 京东商智的交易分析界面33 第2章 数据采集2.3.2 京东商智u 竞争1. 基本功能概述图 京东商智的行业分析界面34 第2章 数据采集2.3.2
15、 京东商智2. 数据采集方法图 通过下载方式采集数据与生意参谋相比,京东商智在采集数据方面更加人性化,当需要采集数据时,只需在相应的功能板块中设置需要采集的日期后,单击界面右上角的 按钮,即可根据向导提示将数据保存下来,如图2-16所示。35 第2章 数据采集2.3.3 店侦探1. 基本功能概述监控中心关键词分析监控店铺分析此功能主要用于添加并管理监控的店铺和商品。例如,要添加监控店铺时,首先需要注册并登录店侦探网站,单击左侧导航栏中的“监控中心”功能下的“店铺管理”超链接,然后单击右侧的”添加监控店铺” 按钮,此时将打开添加监控店铺的对话框,在其中的文本框中输入或复制竞争店铺的某一款商品的网
16、址,然后依次单击“预览店铺”和 “添加监控”按钮即可添加该竞店单击店侦探顶部导航栏中的“全网展示词”超链接,在显示的页面中输入需要分析的关键词,如“新款”,单击“搜索”按钮即可显示淘宝和天猫的关键词综合搜索排名情况单击店侦探左侧导航栏中的“监控店铺分析”功能,在展开的目录中即可分析竞店的各种数据,包括竞店整体状况分析、销售分析、流量来源分析、活动分析、宝贝分析等。使用方法为:单击某个分析超链接,展开其下的子目录,然后单击对应的超链接即可。36 第2章 数据采集2.3.3 店侦探2. 数据采集方法在店侦探中,可以利用“导出数据”按钮或“导出” 按钮将当前界面中的数据采集到计算机中,方法为:单击“
17、导出数据”按钮或“导出”按钮,自动启动已有的下载软件,设置文件下载后的保存名称和保存位置即可。采集到的数据将保存在Excel表格中,需要时便可打开该表格进行处理和分析。37 第2章 数据采集2.3.4 八爪鱼采集器八爪鱼采集器内置了大量的采集模板,模板中已经设置好采集任务和采集内容,启用模板就能快速完成数据采集工作。1. 模板采集【实验室】采集京东商品搜索数据TOP1:登录八爪鱼采集器TOP2:新建模板任务38 第2章 数据采集2.3.4 八爪鱼采集器TOP4:选择采集模板TOP3:选择网站模板39 第2章 数据采集2.3.4 八爪鱼采集器TOP5:所选模板详情40 第2章 数据采集2.3.4
18、 八爪鱼采集器TOP6:设置任务的基本信息和配置参数TOP7:选择采集方式41 第2章 数据采集2.3.4 八爪鱼采集器TOP8:显示采集过程TOP9:数据采集完成42 第2章 数据采集2.3.4 八爪鱼采集器TOP10:选择导出方式TOP11:设置保存位置和名称43 第2章 数据采集2.3.4 八爪鱼采集器TOP12:导出数据TOP13:采集到的数据44 第2章 数据采集2.3.4 八爪鱼采集器2. 自动识别【实验室】通过自动识别采集租房数据TOP1:自定义采集任务45 第2章 数据采集2.3.4 八爪鱼采集器TOP2:新建任务TOP3:自动识别网页数据46 第2章 数据采集2.3.4 八爪
19、鱼采集器TOP4:完成识别TOP5:页面滚动设置47 第2章 数据采集2.3.4 八爪鱼采集器TOP6:设置翻页采集数据TOP7:删除字段48 第2章 数据采集2.3.4 八爪鱼采集器TOP8:修改字段名称TOP9:删除数据49 第2章 数据采集2.3.4 八爪鱼采集器TOP10:调整字段排列顺序TOP11:生成采集设置50 第2章 数据采集2.3.4 八爪鱼采集器TOP12:开始采集数据TOP13:本地采集51 第2章 数据采集2.3.4 八爪鱼采集器TOP14:停止采集TOP15:确认停止采集数据52 第2章 数据采集2.3.4 八爪鱼采集器TOP16:导出数据TOP17:去掉重复数据TO
20、P18:选择导出方式TOP19:设置保存位置和名称53 第2章 数据采集2.3.4 八爪鱼采集器TOP20:采集到的数据54 第2章 数据采集2.3.4 八爪鱼采集器3. 手动采集如果需要采集数据的网页既没有模板,也无法识别,则可以通过手动采集的方式采集数据。其方法为:新建采集任务,取消自动识别数据的状态,手动采集需要的各个字段,设置字段名称和位置,然后采集数据并导出到Excel中即可,其流程如图2-53所示。图 手动采集数据的流程55 第2章 数据采集2.3.5 火车采集器1. 普通网址采集【实验室】采集豆瓣图书数据TOP1:登录火车采集器TOP2:新建采集任务TOP3:复制网址56 第2章
21、 数据采集2.3.5 火车采集器TOP4:审查元素TOP5:查看代码TOP6:继续查看代码TOP7:设置过滤条件TOP8:采集测试57 第2章 数据采集2.3.5 火车采集器TOP9:继续设置过滤条件TOP10:再次测试TOP11:修改字段名称TOP12:继续修改字段名称58 第2章 数据采集2.3.5 火车采集器TOP13:添加字段TOP14:复制代码TOP15:粘贴代码59 第2章 数据采集2.3.5 火车采集器TOP16:设置前后字符串TOP17:设置代码TOP18:继续设置代码60 第2章 数据采集2.3.5 火车采集器TOP19:测试成功 TOP20:设置保存参数TOP21:打开文本
22、文件模板 TOP22:设置模板内容61 第2章 数据采集2.3.5 火车采集器TOP23:设置文件保存位置TOP24:保存采集任务TOP26:查看采集到的数据TOP25:开始采集数据62 第2章 数据采集2.3.5 火车采集器2. 批量网址采集TOP1:批量网址设置向导TOP3:设置参数变化规则 TOP2:复制网址TOP4:保存任务63 第2章 数据采集目录/Contents2.12.22.32.4数据的类型与来源数据采集的流程与方法常用数据采集工具推荐课堂实训使用八爪鱼采集招聘数据64 第2章 数据采集2.4.1 实训目标及思路本次实训将在BOSS直聘网站中采集与“室内设计师”相关的招聘信息
23、,需要采集到公司名称、成立时间、法人代表、招聘职位、月薪等数据。采集时将涉及到详情页内容的采集,具体操作思路如图2-84所示。65 第2章 数据采集2.4.2 操作方法TOP1:复制网址TOP2:新建任务66 第2章 数据采集2.4.2 操作方法TOP3:建立任务TOP4:取消自动识别67 第2章 数据采集2.4.2 操作方法TOP5:选择网页元素TOP6:创建循环采集规则68 第2章 数据采集2.4.2 操作方法TOP7:采集网页元素TOP8:设置字段69 第2章 数据采集2.4.2 操作方法TOP9:修改字段名称TOP10:启动本地采集功能70 第2章 数据采集2.4.2 操作方法TOP11:采集完成TOP12:设置导出方式TOP13:设置保存位置和名称71 第2章 数据采集2.4.2 操作方法TOP14:数据导出完成TOP15:采集到的招聘数据72 第2章 数据采集谢谢观看统计与数据分析基础 & 人民邮电出版社