1、电商数据分析导论1.4统计学基础&1.5运筹学基础1统计学来源及特点23CONTENTS统计的基本概念统计的工作过程4统计的研究方法567博弈论和运筹学运筹学的模型规划求解的经典问题统计学来源及特点PART ONE统 计 学 来 源 统计学是数据分析领域十分重要的理论基础,数据分析的主要思想和方法论便是来源于统计学。统计学是关于认识客观现象总体数量特征和数量关系的科学,是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。由于统计学的定量研究具有客观、准确和可检验的特点,所以统计方法就成为实证研究的最重要的方法,广泛适用于自然、社会、经济、科学技术各个领域的分析研究 统计学是一门
2、很古老的科学,起源于研究社会经济问题。一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。统计学Statistics最早是由Gottfried Achenwall于1749年使用的,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。十九世纪,统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进英语世界。统 计 学 特 点 统计的研究对象是客观现象的总体数量特征和数量关系。统计研究不同于其他学科的研究,是因为它有着以下独特的研究特点。统计离不开数据,一切用数据说话。统计的最终目的是研究总体,而不是研究个体,通过寻找事物的共性从而掌握事物的规律
3、。统计以显示客观事物独立存在的实际情况为目的,数据反映的是事物的真相,统计学则是揭开真相的工具。统计的基本概念PART TWO统计总体统 计 总 体 与 总 体 单 位总体单位统计总体就是根据一定的目的和要求所确定的研究事物的全体,它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。总体单位是指构成统计总体的各个个别单位。但总体单位必须是现实生活中存在的个体,不能是虚构的或意念中的事物。总体单位统计总体的存在,必须同时具有同质性、大量性和差异性三大特征。同质性大量性 变异性 同质性是指构成总体的每一个个别单位虽然在许多方面存在差异,但至少在一个方面必须保持相同的性质。同质性是统计总体形
4、成的基础,构成总体的各个单位在某一性质上必须是相同的。大量性是指总体由足够多的单位构成的,只有个别或少数的事物不足以构成总体,这是由统计的研究对象决定的。统计的研究对象是客观现象的数量特征和数量关系,少量事物所表现出来的特征往往带有偶然性,客观现象数量方面的规律性只有在大量事物个别特征的汇总中才能显示出来,表现出共同性的倾向,从中认识到事物的必然性。变异性是指同一总体的各个单位除了具有某种或某些共同的性质外,在很多方面是存在差异的,这种差异称为变异。如果总体中的每个个体在各个方面都一样,就没有了统计的必要,正是因为变异的普遍存在,才有必要进行统计调查和分析,以寻求总体的一般规律性。统 计 总
5、体 与 总 体 单 位总体的分类按照总体单位是否可数,总体分为有限总体和无限总体。有限总体规模和范围相对较小,是由有限的个别事物构成的总体。无限总体是指总体所包括的个别事物很多,以致无法计量。总体与总体单位的关系总体和总体单位不是固定不变的,它们会随着统计研究的目的不同而变化。一个事物在一种情况下是总体,但在另一种情况下有可能变成了总体单位。标 志 和 标 志 表 现标志标志表现 标志表现是指标志特征在各单位的具体表现。统计标志是统计所要调查的项目,标志表现是调查所得结果,是标志的实际体现。标志是说明总体单位的特征或属性的名称。每个总体单位从不同方面考察,都有许多属性和特征。标志与总体单位的关
6、系是十分明确的,如果没有标志就无法表现总体单位的特征,如果没有总体单位,标志也就失去了意义。指 标 的 概 念、构 成 及 性 质指标是指同类社会经济现象总体在一定的时间、地点条件下的综合数量表现。例如:2017年淘宝“双十一”,截止到2017年11月11日23时59分59秒,淘宝当天总销售额为1682亿元。构成要素 由对上例的分析,引出指标的6个构成要素:指标名称、指标数值、时间范围、空间范围、计算方法和计量单位。性质具体性综合性数量性 总体在具体时间、地点、条件下的数量特征,即统计指标质的规定性。对总体数量特征的综合说明是由个体数量综合而来的。如:平均价格=每个商品的价格/全部商品数。统计
7、指标是数量范畴,没有无数量的指标。指 标 分 类按性质指标可分为以下2种。按数值表现形式指标可分为以下3种。数量指标质量指标 反映社会经济现象的总规模和总水平的指标,表现形式为绝对数。如商品销售额、店铺转化率、消费者好评率等。总量指标相对指标平均指标 反映总体规模,通常以绝对数的形式表现,如人口总数、国内生产总值等。反映总体在某一时间或空间上的平均数量状况,如人均消费水平、某店铺一周的平均客单价、平均转化率等。是两个绝对数之比,亦称为相对数,如计划完成程度、男女生的比例。说明社会经济现象的相对水平或平均水平的指标,表现形式为相对数或平均数。通常是由两个总量指标对比派生出来的,反映现象之间内在联
8、系和对比关系。如行业平均转化率、流量价值等。指 标 和 标 志 的 关 系 指标是说明总体数量特征的概念,而标志是说明总体特征的概念;指标都是用数值表示的,而标志有的是用数字表示的,有的是用文字表示的。a许多统计指标是由各单位的数量标志值汇总而来的,如一个县的粮食总产量是所属各乡村粮食产量的合计数。b指标和标志之间存在转化关系。在一定的条件下(研究目的的调整),指标和标志之间可以相互转化。当研究目的发生转化后,原来的总体转化为总体单位,统计指标也就变为数量标志了,反之亦然。统计的工作过程PART THREE统 计 的 工 作 过 程统计设计统计调查统计整理 开展统计工作的初期需要根据统计的研究
9、对象的性质以及统计的任务、目的,对统计工作的各方面和各环节进行通盘考虑和全面安排,通过制订切实可行的方案来指导实际工作。换句话讲就是要先把问题想清楚,围绕着如何解决问题设计统计的工作。在这个过程中可以把所需的数据种类及要求梳理清楚。根据设计方案的要求,有计划有组织地搜索客观现象的第一手资料。统计整理是统计调查的继续,它是运用科学的方法对调查资料进行汇总、整理,使之条理化、系统化的工作过程。统计分析 统计分析在统计工作中必不可少,它是在统计整理的基础上,借助统计分析工具对统计资料进行综合分析,通过统计分析可以揭示所研究的客观现象的数量特征、内在联系和客观现象发展变化的本质规律,必要时还可以对客观
10、现象进行预测。统计的研究方法PART FOUR统 计 的 研 究 方 法 产品分析是指对企业产品结构和销售情况进行的分析,通过对这些指标的分析来指导企业产品结构和运营策略的调整,加强产品的竞争能力和合理配置。统计分组法大量观察法综合指标法归纳推断法 大量观察法是统计研究的特有方法,只有在大量观察的基础上,才能消除偶然的数值差异所产生的影响。也只有在大量观察的基础上形成的总体平均数,才能显示总体的一般水平和发展变化规律。而少数资料或短时间的数值变化,是难以得到正确的分析结论的。一般情况下,数据量越大,统计分析的结果就越接近事物的真实规律。统计分组法在统计研究中占有重要地位,也是分析电商数据时最常
11、用的统计方法,它不仅是统计资料整理的重要组成部分,而且在整个统计工作阶段都能发挥特有的作用。综合指标法就是利用多项综合指标,对相互联系的客观现象进行综合概括的方法。归纳法是从个别到一般的推理方法,是统计研究中常用的方法。推断法主要应用于所研究的总体单位数很多甚至是无限总体的情况,通过观察部分单位进行计算和分析,据以推断总体的数量特征。统 计 分 组 法 从统计设计阶段开始,要根据研究对象的特点,制订分类标准,确定反映总体不同性质特征的分类指标体系。在统计调查阶段,要根据具体的分组规定和分组方法,分门别类地收集有关数据。在统计整理阶段,需对搜集来的原始资料,按统计分析的要求进行分析或再分组。到统
12、计分析阶段,则可以用类型分组、结构分组、水平分组、依存关系分组、时间阶段分组等各种分组方法进行统计分析,以反映总体内部不同分组条件下事物的相互联系。类型分组结构分组水平分组 类型分组是按不同类型进行分组,比如按店铺类型分为天猫店和集市店,分组后可观察各自店铺数量或销售额的差异。结构分组是根据研究对象的内部结构进行分组,比如研究淘宝类目,可以根据淘宝的类目树,一级类目分为服饰、数码等,服饰又可以分为服装、饰品,服装又可进一步分为T恤、衬衫等。依存关系分组时间阶段分组 水平分组是基于研究对象的不同水平进行分组,比如分为不同的价格区间、销量区间进行研究。依存关系分组是把性质上有关的不同社会经济现象联
13、系起来进行分组。通过依存关系分组,可以观察不同社会经济现象总体之间在数量上的依存关系,认识不同现象之间在数量上影响的作用、程度和规律性。比如研究商品定价和销量之间的关系,可以把商品分别按照销售额和价格进行分组,然后观察各组的销售额和商品数量分布,将两者联系起来进行分析。时间阶段分组是根据时间粒度进行分组,如年、季度、月、周、天、小时、分钟、秒钟。在分析店铺销售额时可以把销售额按照不同的时间阶段进行分组分析,根据天及以上的粒度作为分组是研究销售额的趋势,根据小时的粒度作为分组是研究消费者的行为特征(消费者集中在几点钟进行网购消费)。博弈论和运筹学PART FIVE什 么 是 博 弈 论 博弈论(
14、Game Theory)又被称为对弈论,是现代数据的一个新分支,也是运筹学的一个重要学科。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的的一种理论。在西汉时期,时逢匈奴入侵上郡,骑郎将李广奉命前去整训军队,抗击匈奴。一次,李广与匈奴数千骑兵遭遇,而且互相都看到了对方,当时情况十分危急,匈奴骑兵团开始布阵,而李广身边仅有百骑,双方兵力悬殊,毫无胜算。汉军非常惊慌,想原地掉转马头撤退,都等着将领李广发号施令。李广说,距离大军几十里,现在一百骑兵这样逃跑,匈奴一旦追赶射击马上就全军覆没了,相反,如果留下来,匈奴没有攻击,就得以保全性命。此时,设定杀掉对方一人为+1,被
15、对方杀掉一人为-1,对弈推演如表1所示。只要匈奴进军,汉军必然损失100人,收益是-100,只有匈奴撤退,汉军的收益为0,就算赢得这场博弈。因为匈奴不知道李广军队与大军的距离,误以为眼前的汉军是一支诱敌队伍,所以不会贸然进军,而汉军也不会贸然攻击兵力比自己多数十倍的敌人,此时对弈推演如表2所示。通过表2可以知道进军的收益最大,此时应该进军。于是,李广下令进军,到距离敌军两公里的地方下马解鞍。这样匈奴将领就更加坚决地认为眼前的这支汉军是一支诱敌的部队,他们只要一出击就会被埋伏好的汉军偷袭。于是两军对峙到天黑,匈奴担心汉军会半夜偷袭,于是悄悄撤走,李广的百骑在第二天一早安全回到大营。在这个凶险万分
16、的故事中,关键点在于匈奴不知道李广已经远离大部队,而且不知道汉军将领李广在这支队伍中,属于不完全信息的博弈。在我国的历史长河中,不乏这样的精彩故事,这些故事都是博弈论的应用,只是在中国古代没有“博弈论”这个名词。汉军 匈奴进军撤退进军100,-100100,-100撤退0,00,0汉军 匈奴进军撤退进军0,0100,-100撤退0,00,0表1表2什 么 是 运 筹 学 运筹学(Operational Research,OR)中的运筹二字,出自史记高祖本纪中的“夫运筹策帷帐之中,决胜于千里之外,吾不如子房”。运筹学是一种应用数学,主要研究最优化决策的问题,在研究过程中使用了许多数学工具(包括概
17、率统计、数理分析、线性代数等)和逻辑判断方法。运筹学的应用一般有3个步骤:提出问题、建立模型、制订解法。运筹学最早应用于军事活动,运筹学解决了许多重要的作战问题,现在广泛应用在各行各业,应用最多的行业如下。军事工程优化城市管理电商/零售解决多兵种联合火力打击的协同作战问题,兵力驻防问题,训练方案问题,攻防对策问题。解决工程进度控制问题,工程施工方案问题,材料采购问题。解决城市供水和污水处理问题,警车的配置问题。解决推广方案问题,活动定价问题,客服排班问题,价格战问题,运营方案问题。运筹学的模型PART SIX运 筹 学 的 模 型 除了应用在行业上,在日常学习、工作和生活中运筹学也随处可见,比
18、如时间管理,如何才能争取更多的时间?假设小李是一名电商运营人员,每天八点半准时上班,在上班过程有以下9个事务。打开电脑,电脑开机需要1分钟。泡一杯咖啡,需要5分钟。查看昨天的工作日志,需要15分钟。打开店铺后台查看昨日数据,需要5分钟。下载昨日数据,需要10分钟。制作日报表,需要10分钟。撰写工作汇报邮件,需要10分钟。跟上下级沟通,需要30分钟。阅读行业信息,需要20分钟。已知条件是,昨日数据更新可被查看或下载是在上午9:10后,工作汇报邮件必须在10点之前发出,跟上下级沟通必须在10点之后,在下载数据时不能同步操作电脑。这时应该如何合理安排工作流程?最早可以在几点结束工作?运 筹 学 的
19、模 型这就是一个求最优解的问题,需要运用运筹学来解这个问题。第一步提出问题。如何让时间合理应用,让自己空出更多的时间?第二步建立模型。分析:小李的9个事务中,有些是可以并行的,比如开电脑等待的1分钟,可以用来同步执行第2个事务。模型的一般数学形式可以表示为:U=f(x,y,z)式中:x可控变量;y已知参数;z随机因素。根据已知条件,确定各个任务的关系根据任务之间的逻辑关系和特定条件,制订任务流程,小李最早可在10点45分完成9个事务。规划求解的经典问题PART SEVEN运 筹 学 的 模 型规划求解在电商领域中是非常经典的一个问题,可用于解决某项任务的合理分配问题。比如广告投放问题,假设有1
20、000万元的广告预算,应该如何合理安排投放到各个平台,让广告效益最大化?例1:淘宝投放广告的站内渠道有直通车和智钻,直通车是按单击付费,智钻是按展现付费。根据历史数据了解到直通车的CPC(平均单击单价)是0.36元,转化率是3.4%,智钻的CPC是0.65元,转化率是4.1%。已知有1000万元的广告预算,平均客单价是100元,由于协议原因各个渠道的投放都不能少于300万元,请问如何规划广告预算才能让广告效益最大化?收益率预估为多少?运 筹 学 的 模 型解:设直通车的投放预算为X1,钻展的投放预算为X2,则有:公式1:X1+X2=10000000公式2:X13000000公式3:X23000
21、000公式4:X10.360.034100+X20.650.041100=MAX即(1.224X1+2.665X2=MAX)根据公式4,可知要求得最大解,关键在X2,让X2最大就能达到最优解。即1.2243000000+2.6657000000=22327000收益率=2232700010000000=2.2327运 筹 学 的 模 型在Excel中求解本例的步骤(1)如图1所示,在【文件】选项卡中,选择【选项】-【加载项】-【Excel加载项】命令,打开规划求解加载项。(2)如图2所示,在Excel中键入参数X1和X2,X1和X2是待求解参数,留空即可。C1单元格的公式为:X1+X2=A2+B2,D1单元格的公式为:MAX=1.224*A2+2.665*B2(3)如图3所示,添加规划求解器后,在数据选项卡的最右侧会新增该功能的按键,单击【规划求解】按钮。(4)如图4所示,设置目标为MAX,可变单元格就是要求解的X1和X2,以及公式13的约束条件。设置完毕后,单击【求解】按钮。(5)如图5所示,规划求解找到一个解,可满足所有的约束及最优状况,单击【确定】按钮。(6)如图6所示,最优解会自动填充到Excel中。图1图2图3图4图5图6感谢观看