电子商务数据运营与管理-第2章电子商务数据采集课件.pptx

上传人(卖家):晟晟文业 文档编号:4781128 上传时间:2023-01-09 格式:PPTX 页数:105 大小:5.51MB
下载 相关 举报
电子商务数据运营与管理-第2章电子商务数据采集课件.pptx_第1页
第1页 / 共105页
电子商务数据运营与管理-第2章电子商务数据采集课件.pptx_第2页
第2页 / 共105页
电子商务数据运营与管理-第2章电子商务数据采集课件.pptx_第3页
第3页 / 共105页
电子商务数据运营与管理-第2章电子商务数据采集课件.pptx_第4页
第4页 / 共105页
电子商务数据运营与管理-第2章电子商务数据采集课件.pptx_第5页
第5页 / 共105页
点击查看更多>>
资源描述

1、第2章 电子商务数据采集电子商务数据化运营管理概述/电子商务数据化运营管理实训教学概述主讲人:XXX学习任务书任务编号任务编号分项任务分项任务职业能力目标职业能力目标知识要求知识要求参考课时参考课时2.1电子商务数据采集了解电子商务数据采集1.数据采集2.常用的电子商务数据分析方法常用的数据分析工具22.2电子商务数据采集实训进行电子商务数据采集实训1.HTML 源码解析及网络抓包2.采集并统计形成行业数据4数据采集01学习重点02HTML 源码解析及网络抓包常用的电子商务数据分析方法0103学习难点02常用的数据分析工具采集并统计形成行业数据2.1 电子商务数据采集一、数据采集1.采集店铺排

2、名数据采集店铺排名数据处理数据的首选工具就是 Excel。采集店铺排名数据主要涉及的操作包括创建 Excel 工作簿、重命名工作表、输入数据和保存文档。下面就以 Excel 2016 为例,介绍采集店铺排名数据的方法。启动启动 Excel 2016,在右侧的列表框中选择,在右侧的列表框中选择“空白工作簿空白工作簿”选项,即可创建一个选项,即可创建一个全新的全新的 Excel 工作簿工作簿1.采集店铺排名数据在创建的在创建的 Excel 工作簿左上角单击工作簿左上角单击“保存保存”按钮按钮1.采集店铺排名数据打开打开“另存为另存为”界面,在其中可选择保存界面,在其中可选择保存 Excel 工作簿

3、的方式和位置,在右侧工作簿的方式和位置,在右侧的的“另存为另存为”栏中单击栏中单击“浏览浏览”按钮按钮1.采集店铺排名数据打开打开“另存为另存为”对话框,在对话框,在“文件名文件名”右侧的文本框中输入右侧的文本框中输入“商业规划商业规划”,单击单击“保存保存”按钮,重命名并保存按钮,重命名并保存 Excel 工作簿工作簿1.采集店铺排名数据在在“商业规划商业规划”工作簿左下角的工作簿左下角的“Sheet1”工作表标签上单击鼠标右键,在弹工作表标签上单击鼠标右键,在弹出的快捷菜单中选择出的快捷菜单中选择“重命名重命名”命令,此时选择的工作表标签将呈可编辑状命令,此时选择的工作表标签将呈可编辑状态

4、,然后在其中输入态,然后在其中输入“店铺排名店铺排名”1.采集店铺排名数据选择选择 A1、B1 和和 C1 单元格,并在其中分别输入单元格,并在其中分别输入“排行排行”“”“店铺名称店铺名称”“”“店铺店铺平台平台”,然后打开网页中需要采集数据的店铺排名,将相关数据分别输入到,然后打开网页中需要采集数据的店铺排名,将相关数据分别输入到对应的单元格中,其输入后的效果如图所示对应的单元格中,其输入后的效果如图所示1.采集店铺排名数据Excel 工作表通常是按列和行进行划分的,列标以英文字母标记,行号以数字标记。这里的工作表通常是按列和行进行划分的,列标以英文字母标记,行号以数字标记。这里的 A1

5、表示第表示第 A 列的第列的第 1 行所在的区域,行所在的区域,Excel 也把这个区域称为单元格。另外,在输入店铺名称的过程中,若发现也把这个区域称为单元格。另外,在输入店铺名称的过程中,若发现 C 列列的宽度不够,可以将鼠标光标移动到的宽度不够,可以将鼠标光标移动到 C 列和列和 D 列的中间,按住鼠标左键不放,向右拖动到合适位置,释列的中间,按住鼠标左键不放,向右拖动到合适位置,释放鼠标左键后即可调整放鼠标左键后即可调整 C 列的宽度。列的宽度。再次在工作簿左上角单击再次在工作簿左上角单击“保存保存”按钮,保存输入的数据,完成采按钮,保存输入的数据,完成采集店铺排名数据的操作集店铺排名数

6、据的操作1.采集店铺排名数据一、数据采集2.采集商品类目销售数据采集商品类目销售数据采集商品类目销售数据的操作步骤与采集店铺排名数据的相似,只需要在前面创建的“商业规划”工作簿中新建一张工作表,然后在其中输入数据即可,其具体操作步骤如下。(1)打开“商业规划”工作簿,单击“店铺排名”工作表标签右侧的“新工作表”按钮,增加“Sheet2”工作表标签,将其命名为“类目”。(2)打开网页查看需要采集数据的类目,并在工作表中输入采集数据的类目数据,并根据文字的多少适当调整列宽。一、数据采集3.采集商品品牌销售数据采集商品品牌销售数据(1)打开“商业规划”工作簿,单击“类目”工作表标签右侧的“新工作表”

7、按钮,新建“Sheet3”工作表标签,将其命名为“品牌”。(2)打开网页中需要釆集数据的品牌,在工作表中输入对应的品牌数据,并适当调整列宽。二、常用的电子商务数据分析方法1.流量来源分析流量来源分析(1)流量来源:主要来源于关键词、来访域名、来访地区和人群。(2)流量来源分析方法:网站流量来源排名、搜索引擎关键词分析、网站流量趋势分析、网站流量核对、推介网站与直接访问的比例。到达率:到达率:到达率是指广告从点击到网站登录页的比例。一般来说,到达率达到 80%是比较理想的,其与网站的速度有关,可以综合分析。二跳率:二跳率:二跳率用于分析流量的有效性。如果是有效流量,一般会有合理的二跳;如果是虚假

8、点击,一般是没有二跳的,但是也不排除有部分作假很厉害的网站能做出二跳。PV/IP PV/IP 比:比:访问量(Page View,PV),即页面浏览量或点击量,用户每次刷新即被计算一次。IP(独立 IP):指独立 IP 数。00:0024:00 内相同 IP 地址只被计算一次。二、常用的电子商务数据分析方法2.流量效率分析流量效率是指到达网站的流量是不是真实流量,主要分析指标如下。订订单转化率:单转化率:订单转化率是最核心的数据,没有订单转化率,其他一切免谈。页面流量排名:页面流量排名:主要用于查看产品详情页的流量,特别是首页陈列的产品详情页参照最终的销售比例,优胜劣汰,用以调整销售结构。场景

9、转化分析:场景转化分析:即首页列表页详情页购物车订单提交页订单成功页的数据流分析。频道流量排名:频道流量排名:主要用来分析产品组织的问题。二、常用的电子商务数据分析方法3.站内数据流分析站内数据流分析主要用来分析购物流程是否顺畅和产品分布是否合理,主要分析指标如下。站内搜索分析:站内搜索分析:这个指标反映的是用户关心的产品有哪些,是产品调整的最直接数据。用户离开页面分析:用户离开页面分析:分析用户在哪些页面最容易离开,是首页还是频道页?是购物车还是订单提交页?若用户突然大比例地离开网站,往往预示着有问题产生。二、常用的电子商务数据分析方法4.网购用户行为特征分析网购用户行为特征分析用户在电子商

10、务网站上有了购买行为之后,就从潜在客户变成了网站的价值客户。电子商务网站一般都会将用户的交易信息保存在自己的数据库中,所以对于这些用户,我们可以基于网站的运营数据对他们的交易行为进行分析,以估计每个用户的价值,及针对每个用户进行扩展营销(Lead Generation)的可能性。行业产品分布:行业产品分布:行业产品分布的数据主要从以下几个方面分析:找到什么样的产品,实现了多少销量产品的特性和卖点的分析寻找合适的推广方式。淘宝销售分析:淘宝销售分析:对淘宝销售分布的数据分析主要从以下几个方面进行:对产品关键词搜索量(日搜索量、优化、提升)的分析对淘宝销售类目分布的分析对主要目标的分析。客户分析:

11、客户分析:对客户的数据分析主要从以下几个方面进行:客户数据分析的主要目的是为店铺装修、市场营销活动等提供参考客户分析的因素主要有性别、年龄、地域、职业、消费习惯、兴趣等。二、常用的电子商务数据分析方法5.网店经营数据分析网店经营数据分析产品分析:产品分析:对产品数据的分析主要有以下几个方面:产品数据分析的主要目标预测热销产品。店铺店铺/页面分析:页面分析:店铺/页面分析的主要目标 店铺/页面分析的目的 店铺/页面分析的内容。三、常用的数据分析工具1.查看内部数据查看内部数据(1)Google AnalyticsGoogle Analytics 是著名互联网公司 Google 为网站提供的数据统

12、计服务。该工具可用于对目标网站的访问数据进行统计和分析,并提供多种参数供网站拥有者使用。其使用方法非常简单,只需在网站的页面上加入一段代码或者输入某网站地址,就可以得到所需并且详尽的图表式报告。Google Analytics 的主要功能是可以帮助用户衡量销售与转化情况,而且能为其提供最新的数据信息,帮助用户了解访问者如何使用网站,如何到达网站,以及如何吸引他们不断回访等。Google Analytics 的主要功能包括以下 6 个。实时报告:实时报告:实时报告的内容包括用户网站上的实时访问人数、访问者所在地及浏览内容等。自定义报告:自定义报告:用户能过自定义报告可以迅速定义专属的指标信息中心

13、,与同事共享关键数据信息。自定义变量:自定义变量:自定义变量可以帮助用户了解客户所属的细分群体以及与客户的互动情况。分析工具分析工具主要帮助用户深入剖析访问者的数据,通过标准报告来衡量和理解网站上的访问和互动情况;另外,运用分析工具还可以迅速创建自定义报告和访问者细分,并以此作为用户团队分享的重要数据。Google Analytics 的分析工具包括以下 6 种。高级细分高级细分:高级细分用来轻松分析流量的特定部分,用户还可以自行创建细分系列。信息中心信息中心:信息中心用于组织、监控和分享关键效果指标,用户可以同时监控多种指标,从而快速了解账户的运行状态。可视化可视化:可视化包括用户流可视化和

14、网页内分析两种。用户流可视化报告可用于分析访问者在用户网站上访问的路径,网页内分析可以直观地评估客户如何与用户的网页进行互动。Google Analytics 的实时报告的实时报告 分析工具网站搜索:网站搜索:利用网站搜索报告。网页内分析:网页内分析:用户可以直观地评估客户与网页的互动情况。网站速度分析:网站速度分析:网站速度分析结果可以显示客户需要多长时间才能看到网站内容并与内容互动。内容分析内容分析主要是指通过 Google Analytics 中的内容报告,找出网站上的热门内容以及隐藏的价值。用户可以了解客户访问网站上的各个网页的频率、停留的时间和转化频率。Google Analytic

15、s 的内容分析主要包括以下 4 种。事件跟踪事件跟踪:根据事件跟踪,用户可以查看与 Flash 和 AJAX 元素进行互动或者单击链接下载产品手册的频率,甚至还可以设置事件跟踪功能来详细了解客户的行为方式。Google Analytics 的网页内分析的网页内分析 内容分析社交转化:社交转化:社交转化报告可显示来自各个社交网络的访问所带来的转化率和转化的货币价值。社交来源:社交来源:社交来源报告可以帮助用户优化互动地点,将企业社交策略从直觉式转变为以数据为中心。社交分享:社交分享:通过结合流量与分享,用户可以将社交与内容关联在一起,帮助决策者做出明智的决策,并通过在站内和站外构建社区,让更多客

16、户主动分享网站内容。社交分析社交分析主要是指通过社交报告帮助用户评估社交媒体对自己的业务目标和转化次数施加的影响。整合的网络和社交数据可帮助用户全面了解企业的内容和受众群体。Google Analytics 的社交分析包括以下 3 种。移动应用分析:移动应用分析:该功能可针对客户与应用接触的整个过程(从发现、下载到互动)进行评估。此类报告专为移动应用开发人员和营销人员设计,所提供的内容常为他们所关注的焦点。移动网站报告:移动网站报告:在 Google Analytics 的“地理分布图”标签上按照位置查看统计信息,用户可以了解目前的移动流量的来源,并预测哪些位置的流量可能会增加。移动广告衡量:

17、移动广告衡量:Google 移动广告会在移动设备上的 Google 搜索结果、内容网站和应用中展示。移动分析移动分析主要利用 Google Analytics 来衡量移动网站、应用以及具有网络访问功能的移动设备(包括智能手机和平板电脑)所带来的访问次数。用户可以向营销人员提供与客户相关的分析数据,以帮助营销人员抓住重点吸引客户,使其在不同类型的设备与屏幕上都能取得良好的广告效果。Google Analytics 的移动分析又包括以下 3 种。Google Analytics 的移动分析的移动分析 移动分析探查访问者行为认识如何促成销售和转化:探查访问者行为认识如何促成销售和转化:用户可以跟踪销

18、售量、下载次数、视频播放次数、转化次数、网站上的用户参与度或自定义指标来实现业务目标。利用电子商务报告提高在线销售量:利用电子商务报告提高在线销售量:电子商务报告用于确定最畅销的产品和最有价值的促销活动,帮助用户了解客户购买的原因和类型。通过多渠道路径报告全面掌握广告系列效果:通过多渠道路径报告全面掌握广告系列效果:用户可以查看自己的所有数字营销活 动的效果,包括搜索广告、展示广告、社交营销、联署网络营销、电子邮件营销等。转化分析转化分析主要是指利用 Google Analytics 转化套件扩大用户的分析范围,了解用户的所有数字营销渠道如何共同发挥作用,为企业网站带来访问者。通过衡量销售量、

19、下载次数和视频播放次数等有价值的操作指标,了解访问者购买产品的意愿,从而调整网站和营销计划以达到企业的业务目标。Google Analytics 的转化分析包括以下 4 种。跟踪访问者在网站上的不同路径跟踪访问者在网站上的不同路径:利用 Google Analytics 用户流可视化功能和目标渠道,用户可以跟踪访问者的转化路径,找出网站导航中的优缺点,分析企业在网站和营销计划中的调整方向。广告分析广告分析指通过了解用户的社交广告、移动广告、搜索广告和展示广告的效果,以最大限度地发挥广告的作用。Google Analytics 的广告分析包括提升搜索引擎营销的效果、使用再营销功能覆盖有需求的客户

20、、了解展示广告对用户的广告计划的贡献度、了解用户的广告与多渠道路径的配合效果、通过广告系列衡量报告分辨有效的营销活动和无效的营销活动。广告分析Google Analytics 的基本使用方法如下。a.登录 Google Analytics(分析)网站,单击右上角的“登录”超链接或者“创建账户”按钮。b.打开登录页面,在文本框中输入注册好的电子邮件地址,单击“下一步”按钮,进入Google Analytics 管理页面。如果没有注册,则需要单击“创建账号”超链接,打开创建账户的页面,填写相关内容创建一个 Google 账户,然后再登录 Google Analytics 管理页面。c.在页面中单击

21、“管理”选项卡,在右侧的“媒体资源”栏中单击“google-blog”右侧的下拉按钮,在打开的下拉列表中,选择“创建新媒体资源”选项。d.在打开的页面中,设置数据跟踪的站点,在“设置媒体资源”栏的“网站名称”和“网站网址”文本框中输入企业的网站内容,完成后单击“获取跟踪 ID”超链接。e.重新登录后,在管理页面中,单击“报告”选项卡,在左侧的任务窗格中选择对应的选项,即可查看到网站各种数据的分析结果(通常是 24 小时后可以看到效果)。三、常用的数据分析工具1.查看内部数据查看内部数据(1)生意参谋生意参谋是淘宝官方的数据产品。生意参谋不但秉承数据让生意更简单的使命,而且致力于为电商、淘宝商家

22、提供精准、实时的数据统计、多维的数据分析和权威的数据解决方案。提高销量。生意参谋的数据内容包括 8 个方面:访客分布、流量地图、产品诊断、产品效果、产品概览、经营报告、产品排名、标题优化。三、常用的数据分析工具1.查看内部数据查看内部数据(2)CRM客户关系管理(Customer Relationship Management,CRM)是一种基于互联网的应用系统,通过对企业业务流程的重组来整合用户信息资源,以更有效的方法管理客户关系,在企业内部实现信息和资源的共享,从而降低企业运营成本,为客户提供更经济、快捷、周到的服务,以保持和吸引更多的客户,最终达到企业利润最大化的目的。客户联系的提醒:客

23、户联系的提醒:提醒今天或明天应联系的客户、逾期未及时联系的客户、逾期未及时下单或长期没有业务往来的客户。客户资料的查询和分析统计:客户资料的查询和分析统计:按客户名称关键词模糊查询,防止撞单;每天客户联系拜访情况的查询和分析。业务员数据查询与提醒:业务员数据查询与提醒:包括业绩查询和统计,应收款的提醒,以及工资、提成及费用的查询。销售数据查询与分析统计:销售数据查询与分析统计:包括订单查询及交货提醒、统计销售部门业绩和打印出货单。应收款提醒:应收款提醒:提示周六、周日有哪些应收款,逾期未收的应收款。应收款统计分析:应收款统计分析:分析哪些客户应收款比例较大、哪些客户逾期款累计金额超限、哪些客户

24、账龄过长。收收/付款查询和统计:付款查询和统计:对于任一时期的收/付款进账/出账明细,按收/付款方式、按业务员、按年、月等进行分类统计,显示各种统计图表,反映企业资金流入、流出情况。费用查询和统计:费用查询和统计:查看企业各类费用和明细的支出情况,并可按费用多少、费用项目、年/月、业务员进行统计,显示统计图表。CRM 的运用范围由于 CRM 主要是针对客户的数据管理软件,所以 CRM 数据对于各种业务人员和财务人员的作用更大,其运用范围主要如下:客户概况分析(客户概况分析(ProfilingProfiling):):包括客户消费的层次、风险、爱好、习惯等。客户忠诚度分析(客户忠诚度分析(Per

25、sistencyPersistency):):指客户对某个产品或商业机构的信用程度、持久性、变动情况等。客户利润分析(客户利润分析(ProfitabilityProfitability):):指不同客户所消费的产品的边缘利润、总利润额和净利润等。客户性能分析(客户性能分析(PerformancePerformance):):指不同客户所消费的产品按种类、渠道、销售地点等指标划分的销售额。客户未来分析(客户未来分析(ProspectingProspecting):):客户未来分析包括客户数量和类别等情况的未来发展趋势、争取客户的手段等。客户产品分析(客户产品分析(ProductProduct):

26、):包括产品设计、关联性、供应链等。客户促销分析(客户促销分析(PromotionPromotion):):包括广告和宣传等促销活动的管理。CRM 的运营指标CRM 的运营指标被称为“TP”指标,包括以下 7 个方面的内容。按软件关注的重点分类:按软件关注的重点分类:CRM 软件分为操作型和分析型两大类,也有两者并重的。操作型软件更加关注业务流程和信息记录,提供便捷的操作和人性化的界面;而分析型软件往往基于大量的企业日常数据,对数据进行挖掘分析,找出客户、产品、服务的特征,从而修正企业的产品策略、市场策略。从软件的技术层面分类:从软件的技术层面分类:CRM 软件分为预置型和托管型两类,托管型

27、CRM 面临的最大难题是如何解决数据安全方面的问题;预置型 CRM 的重点功能则是如何说服一个成熟企业将核心数据放置在企业可控制范围之外。CRM 软件的类型CRM 软件有很多种,主要有以下两种分类方法。综合排名。综合排名指特定网站在所有网站中的名次,Alexa 每 3 个月公布一次新的网站综合排名。此排名的依据是用户链接数 UR、页面浏览数 PV、3 个月累积的几何平均值。分类排名。分类排名主要分为两种形式。一种是按主题分类排名,如新闻、娱乐和购物等,Alexa 给出某个特定网站在同一类网站中的名次。另一种是按语言分类排名,通过语言的不同,给出特定站点在所有此类语言网站中的名次。三、常用的数据

28、分析工具2.查看外部数据查看外部数据(1)AlexaAlexa 是首屈一指的免费提供网站流量信息的公司,致力于开发网页抓取和网站流量计算。通常 Alexa 的网站排名主要分为综合排名和分类排名两种。(1)Alexa登录 Alexa 网站,并免费查询淘宝网的排名数据,其具体操作如下。登录 Alexa 网站,在 http:/www 右侧的文本框中输入需要查询的网站网址,这里输入“”,按【Enter】键。在下方将显示该网站的备案信息、服务器信息、站点的全球网站排名(包括当日、1 周平均、1 月平均、3 月平均的排名和排名变化趋势)、P 和 PV 值(包括日均、月平均、3 月平均。在下面还显示了该网站

29、下属子站点的访问比例、页面访问比例、人均页面流览量,以及网站的日平均排名走势图。市场趋势:市场趋势:淘宝指数默认打开“市场趋势”选项卡,在“搜索指数”栏中显示最近 6 个月与关键词相关产品的搜索指数的变化趋势,在右侧的任务窗格中将显示搜索趋势简报,卖家可以根据这部分数据进行市场预测。另外,卖家还可以在“关键词”文本框中输入其他产品名称,进行搜索对比,以及拖动数据表格下方的时间滑块,显示其他时间的搜索数据。人群特征:人群特征:人群特征则主要有地域细分和人群定位两大功能板块。地域细分主要显示近 6 个月与搜索关键词相关的搜索和成交的地域分布情况。它又分为喜好度和人群占比两个板块。人群定位主要显示近

30、 6 个月的人群性别、年龄、星座、爱好、买家等级和消费层级 6个层面的信息。市场细分:市场细分:单击“市场细分”选项卡,淘宝指数就会显示与关键词相关的市场细分情况。(2)淘宝指数淘宝指数是淘宝官方免费的数据分享平台,不同人群利用淘宝指数可以获得不同的便利。淘宝指数的主要数据来源就是淘宝网中的各项交易数据。通过淘宝指数,卖家可以对数据的市场趋势、人群特征、市场细分、成交排行进行分析,这 4 项也是淘宝指数的主要功能模块。成交排行成交排行:在淘宝指数页面的顶部单击“成交排行”超链接,即可显示近 1 周各类产品的搜索排行和成交排行。趋势研究:趋势研究:趋势研究是百度指数的默认显示模块,将显示 30

31、天内全国范围内搜索该关键词的指数概况和指数趋势。需求图谱:需求图谱:需求图谱能够显示网民对搜索关键词的关注内容和关注点舆情洞察:舆情洞察:舆情洞察分为新闻监测和百度知道两个板块。新闻监测主要显示全国各大媒体与搜索关键词相关的新闻的媒体指数。百度知道则显示与搜索关键词相关的提问的浏览热度。(3)百度指数百度指数是以百度网民的行为数据为基础的数据分享平台。百度指数的主要功能模块包括基于单个词的趋势研究(包含整体趋势、PC 趋势和移动趋势)、需求图谱、舆情洞察、人群画像;基于行业的整体趋势、地域分布、人群属性和搜索时间特征。人群画像人群画像:人群画像分为地域分布和人群属性两个板块。地域分布主要显示该

32、搜索关键词在全国各省份和城市的排名情况。人群属性则显示该搜索关键词在各年龄段和不同性别人群中的搜索分布情况。2.2.1 HTML源码解析及网络抓包掌握从HTML源码中寻找目标数据的方法0102实验目的掌握网络抓包的方法HTML是什么?HTML(超文本标记语言)是用于在Internet上显示Web页面的主要标记语言。网页由HTML组成,用于通过Web浏览器显示文本,图像或其他资源。HTML是制作网页的基础,我们在网络营销中讲的静态网页,就是以HTML为基础制作的网页。HTML网页结构通常包括头部(head)、主体(body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。HTML

33、文件是带有格式标识符和超文本链接的内嵌代码的ASCII文本文件HTML结构,可以被多种网页浏览器读取,产生网页传递各类资讯。一、关于HTML由三部分组成:由三部分组成:资源类型、存放资源类型、存放资源的主机域名、资源的主机域名、资源文件名资源文件名。也可认为由也可认为由4部分部分组成:协议、主组成:协议、主机、端口、路径机、端口、路径。URL的一般语法格式为:的一般语法格式为:(带方括号带方括号的为可选项的为可选项):scheme:/host:port#/path/?query-string#anchor,其中:,其中:scheme:协议:协议(例如:例如:http,https,ftp)hos

34、t:服务器的:服务器的IP地址或者域名地址或者域名port#:服务器的端口(如果是走协议默认端口,缺省端口:服务器的端口(如果是走协议默认端口,缺省端口80)path:访问资源的路径:访问资源的路径query-string:参数,发送给:参数,发送给http服务器的数据服务器的数据anchor:锚(跳转到网页的指定锚点位置):锚(跳转到网页的指定锚点位置)例如:例如:http:/http:/192.168.0.116:8080/index.jsphttp:/ 采集并统计形成行业数据了解行业数据的统计方法0102实验目的实操数据采集方法03实操行业数据统计方法第三方公司统计行业数据的方法通常是基

35、于统计学原理,根据某个行业的销量排序,从高到低采集固定数量的样本,统计样本的销量或者销售额来代表整个行业的数据。采集工具选用采集工具选用Power BIPower BI(个人免费版)。(个人免费版)。Power BIPower BI是微软旗下的一款(是微软旗下的一款(BIBI)商业)商业智能软件,它包含桌面版(智能软件,它包含桌面版(Power BI Power BI DesktopDesktop)、网页版和移动版。)、网页版和移动版。一、行业数据的统计方法总体总体个体个体样本样本样本容量样本容量总体与样本总体与样本总体包含所研究的全部个体(数据)的集合。个体总体中每一个考察对象称为个体。样本

36、研究中实际观测或调查的一部分个体称为样本。样本容量样本中个体的数目称为样本容量。二、总体与样本为了研究某中学九年级学生的身高情况,从为了研究某中学九年级学生的身高情况,从全部九年级学生中抽取了全部九年级学生中抽取了6060名学生的身高。名学生的身高。在这个案例中,总体、个体、样本、样本容在这个案例中,总体、个体、样本、样本容量各指什么?量各指什么?总体是一个确定的数字集合,而样本可以有许多。总体是一个确定的数字集合,而样本可以有许多。“在总体中取出的一部分个体叫作总体的一个样本在总体中取出的一部分个体叫作总体的一个样本”,如果,如果取出另一部分个体那就构成另一个样本,即使每次抽取身高作为样本的

37、学生都是取出另一部分个体那就构成另一个样本,即使每次抽取身高作为样本的学生都是60人,每次抽取的情况也不会人,每次抽取的情况也不会相同。所以样本里面的数都是一些变量,这些变量的特点只有在一次具体的抽取完成之后才能知道它们的值。相同。所以样本里面的数都是一些变量,这些变量的特点只有在一次具体的抽取完成之后才能知道它们的值。从上述的分析可以得出结论:样本一般不等于总体,但样本来源于总体,因而用样本估计总体才有一定的依据,从上述的分析可以得出结论:样本一般不等于总体,但样本来源于总体,因而用样本估计总体才有一定的依据,这是统计的基本思想。这是统计的基本思想。研究电商行业大数据的基本思想也是如此,行业

38、里面有庞大的数据量,就商品数据来说,每个商品又有多种不研究电商行业大数据的基本思想也是如此,行业里面有庞大的数据量,就商品数据来说,每个商品又有多种不同的属性。我们通常对数据整体进行抽样采集,获取具有代表性的、能够尽可能地代表整体趋势的数据,数据同的属性。我们通常对数据整体进行抽样采集,获取具有代表性的、能够尽可能地代表整体趋势的数据,数据拿到手之后,再抽取不同的属性特点作为研究对象,以分析不同的趋势特征。拿到手之后,再抽取不同的属性特点作为研究对象,以分析不同的趋势特征。二、总体与样本三、采集数据流程将整个将整个HTML或者或者JS文件文件下载到本地,此时数据在下载到本地,此时数据在文件中,

39、文件可转换成文文件中,文件可转换成文本这种可读的类型。本这种可读的类型。采集采集存储数据一般将下载存储数据一般将下载的文件或者文本整个的文件或者文本整个存入数据库。存入数据库。储存储存从文件或者文本中提取从文件或者文本中提取目标资料,并组织成表目标资料,并组织成表格形式,形成可供分析格形式,形成可供分析的原始资料。的原始资料。清洗清洗1、IP限制:最基础的反爬限制:最基础的反爬虫方式,也比较好破解,虫方式,也比较好破解,通过变换网络通过变换网络IP即可破解。即可破解。四、反爬虫2、账号权限限制:必须登录账号账号权限限制:必须登录账号才可以访问,且可能账号有访问的才可以访问,且可能账号有访问的权

40、限限制,如限制页面或者限制访权限限制,如限制页面或者限制访问次数,破解的方法是上传身份信问次数,破解的方法是上传身份信息给服务器,一般使用息给服务器,一般使用cookie字段。字段。对于限制访问权限的,需要使用具对于限制访问权限的,需要使用具备对应权限的账号,如果暴力破解备对应权限的账号,如果暴力破解则是黑客范畴。对于访问次数的限则是黑客范畴。对于访问次数的限制,只要频繁变换账号即可。制,只要频繁变换账号即可。3、密钥匹配:密钥匹配密钥匹配:密钥匹配是目前比较难破解的,需是目前比较难破解的,需要具备密码学的知识,破要具备密码学的知识,破解密钥的算法,然后自行解密钥的算法,然后自行生成密钥和服务

41、器匹配。生成密钥和服务器匹配。业务背景:分析数据之前需要先有数据,数据一般可以通过数据产品和页面收集,收集数据时如果使用手动的方式将耗费大量的时间和精力,因此使用软件构建采集脚本可极大节约时间成本。下面我们将带领大家体验通过传统的源码采集方式实现数据采集。实验内容https:/ BI主页,依次单击主页,依次单击“获取数据获取数据”、从、从“Web”获取选项,将上步复制的京东搜获取选项,将上步复制的京东搜索页链接粘贴到弹出的索页链接粘贴到弹出的“从从Web”对话框中,单击对话框中,单击“确定确定”按钮按钮。1)使用web引入示例的方法进行京东连衣裙数据的单页采集在弹出的在弹出的“导航器导航器”页

42、面单击页面单击“使用示例添加表使用示例添加表”,等待数据的加载,如图所示。这里选,等待数据的加载,如图所示。这里选择择“使用示例添加表使用示例添加表”的操作是为了学习数据的路径,通过两到三个数据实现定位,进的操作是为了学习数据的路径,通过两到三个数据实现定位,进而完成整个数据表的填充(下一步操作中将体现)。而完成整个数据表的填充(下一步操作中将体现)。1)使用web引入示例的方法进行京东连衣裙数据的单页采集在弹出的在弹出的“从从Web”对话框中进行数据填充。首先在左下角的对话框中进行数据填充。首先在左下角的“列列1”的空白行输入上方的空白行输入上方对应宝贝的标题,这里会有关键词提示,输入前几个

43、关键字后会出现包含相应字段的对应宝贝的标题,这里会有关键词提示,输入前几个关键字后会出现包含相应字段的标题,双击选中即可自动填入。可先在前两行输入前两个宝贝的标题,在其它空白单标题,双击选中即可自动填入。可先在前两行输入前两个宝贝的标题,在其它空白单元格上双击(或者按住鼠标左键划过整列),即可进行整列填充,如图所示,并将该元格上双击(或者按住鼠标左键划过整列),即可进行整列填充,如图所示,并将该列重命名为列重命名为“标题标题”。1)使用web引入示例的方法进行京东连衣裙数据的单页采集同以上步骤,再分别添加同以上步骤,再分别添加“价格价格”和和“评价数评价数”列(这里可根据需要,添加想要采集的内

44、列(这里可根据需要,添加想要采集的内容列),单击容列),单击“确定确定”按钮按钮。1)使用web引入示例的方法进行京东连衣裙数据的单页采集待出现如待出现如左左图所示的图所示的“导航器导航器”页面时,单击页面时,单击“转换数据转换数据”(有的版本是(有的版本是“编辑编辑”),将进),将进入入“Power Query编辑器编辑器”页面页面,如右图所示。,如右图所示。1)使用web引入示例的方法进行京东连衣裙数据的单页采集依次单击依次单击“主页主页”、“高级编辑器高级编辑器”选项,可验证选项,可验证M语言中的公式为:语言中的公式为:=Web.BrowserContents(URL)2)使用自定义函数

45、进行京东羽绒服数据的单页采集单页采集连衣裙数据之后进入单页采集连衣裙数据之后进入Power Query编辑器页面,得到编辑器页面,得到“表表1”如如左左图所示;右键图所示;右键单击单击“表表1”,在弹出的菜单里单击第二个,在弹出的菜单里单击第二个“复制复制”选项,它的功能是复制并粘贴表;也选项,它的功能是复制并粘贴表;也可单击第一个可单击第一个“复制复制”,它的功能是复制表,复制完之后需要再次右键单击,它的功能是复制表,复制完之后需要再次右键单击“粘贴粘贴”,如,如右图所示。右图所示。打开复制得到的表打开复制得到的表1(2),依次单击),依次单击“主页主页”、“高级编辑器高级编辑器”,进行自定

46、义函数设置,进行自定义函数设置,引入变量引入变量“x”,编辑如图所示,此步操作的含义是将,编辑如图所示,此步操作的含义是将x设置为设置为Web.BrowserContents函数函数的自变量。的自变量。2)使用自定义函数进行京东羽绒服数据的单页采集将将Html.Table()函数中的函数中的“源源”替换为替换为Web.BrowserContents(x),并将两行之间多余的内,并将两行之间多余的内容删掉,得到:源容删掉,得到:源=(x)=Html.Table(.),这时,这时x又间接成了又间接成了Html.Table函数的变量,如函数的变量,如图所示。图所示。2)使用自定义函数进行京东羽绒服数

47、据的单页采集编辑编辑let和和in语句模块如图所示,删除多余行的内容,注意将语句模块如图所示,删除多余行的内容,注意将let语句末尾的逗号删除,语句末尾的逗号删除,否则将出现语句错误,编辑完成后单击否则将出现语句错误,编辑完成后单击“完成完成”按钮。按钮。2)使用自定义函数进行京东羽绒服数据的单页采集单击单击“输入数据输入数据”选项,在弹出的选项,在弹出的“创建表创建表”对话框中将京东搜索对话框中将京东搜索“羽绒服羽绒服”的链接粘贴至的链接粘贴至单元格,如图所示,这里实质上是相当于我们所输入的链接为变量单元格,如图所示,这里实质上是相当于我们所输入的链接为变量x赋值的过程,输赋值的过程,输入完

48、成后单击入完成后单击“确定确定”按钮。按钮。2)使用自定义函数进行京东羽绒服数据的单页采集依次单击依次单击“添加列添加列”、“调用自定义函数调用自定义函数”选项,函数调用如图所示,设置完成后单击选项,函数调用如图所示,设置完成后单击“确定确定”按钮。按钮。2)使用自定义函数进行京东羽绒服数据的单页采集如如左左图所示,对得到的表格进行展开,即可得到所采集的搜索页羽绒服数据,如图所示,对得到的表格进行展开,即可得到所采集的搜索页羽绒服数据,如右右图图所示。由于是在采集到的连衣裙数据基础上,通过引入自定义函数的方法来采集羽绒所示。由于是在采集到的连衣裙数据基础上,通过引入自定义函数的方法来采集羽绒服

49、的数据,相当于学习了采集连衣裙数据时的路径与方法,因此,得到的羽绒服数据服的数据,相当于学习了采集连衣裙数据时的路径与方法,因此,得到的羽绒服数据所包含的商品属性与单页采集连衣裙数据时所包含的商品属性是一致的,都包括所包含的商品属性与单页采集连衣裙数据时所包含的商品属性是一致的,都包括“标标题题”、“价格价格”、“评价数评价数”等字段。等字段。2)使用自定义函数进行京东羽绒服数据的单页采集(1)使用自定义函数方法进行数据的批量采集使用自定义函数方法进行数据的批量采集前面我们讲到在单页采集连衣裙数据的基础上,通过自定义函数引入变量前面我们讲到在单页采集连衣裙数据的基础上,通过自定义函数引入变量x

50、,用,用“羽绒服羽绒服”的搜的搜索链接为索链接为x赋值,再调用自定义函数实现羽绒服数据的单页采集。批量采集与单页采集的原理赋值,再调用自定义函数实现羽绒服数据的单页采集。批量采集与单页采集的原理相同,需要修改的步骤是在高级编辑器语句修改完成之后,相同,需要修改的步骤是在高级编辑器语句修改完成之后,“输入数据输入数据”时,增加单元格行数,时,增加单元格行数,并分别粘贴京东搜索页各页链接至单元格,这里我们选择以并分别粘贴京东搜索页各页链接至单元格,这里我们选择以5页作为示例,如图所示。页作为示例,如图所示。一、实操数据采集方法测试批量采集数据接下来的步骤与单页采集相似,操作完成将得到所搜索的接下来

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(电子商务数据运营与管理-第2章电子商务数据采集课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|