1、第二章 大数据背景下的抽样分析大数据时代是否需要抽样?数据越多信息越丰富,数据量尽多为好。大数据不是全样本,大数据也可能是有偏样本,怎么办?大数据分析和抽样并不矛盾。从效率和成本的角度考虑,适当和合理的抽样也是有必要的。就像两个极端,而我们总是要找到一个平衡点。“大样本=总体”的思想是错误的,理论上再大的局部抽样可能不如随机抽样有代表性。抽不抽样关键看你能不能实现全量运算或者接受实现它的代价。在分析阶段如果误差能够接受,占用空间小,速度快,完全可以抽样或近似。本章的主要内容 第1节 抽样调查的基础知识 第2节 数据集的相似性度量 第3节 概率抽样 第4节 非概率抽样 第5节 大数据抽样 第6节
2、 抽样分析的综合应用大数据抽样大数据时代是否需要抽样 正方观点:大数据时代仍然需要抽样 反方观点:大数据时代不需要抽样 中立观点:大数据时代是否需要抽样应该达权通变本书观点 由于受到计算资源和数据可获得性的限制,并非所有的研究都可以进行大数据分析,抽样调查仍是获取数据与分析数据的重要方式。使用大样本数据来代替总体还是使用抽样数据来推测总体特征取决于我们要解决的问题。以概括总体为目标,那么抽样往往是比较好的方式 以每个个体特征分析和应用为目的,这个时候使用大样本数据要好一些 在计算资源允许的情况下,抽样算法可以节约成本第1节 抽样调查的基础知识抽样调查的分类 按一定的概率依据随机原则抽取样本 每
3、个单元被抽中的概率是已知的或是可以计算出来的 利用样本对总体目标量进行估计时,要考虑到每个样本单元的入样概率概率抽样 抽取样本时不依据随机原则 条件不允许进行严格的随机抽样或需要快速的获得调查结果时,往往采用非概率抽样 存在选择偏差且没有抽样框,样本信息一般无法直接用于估计总体的数量特征非概率抽样抽样调查的作用 降低调查成本,节约调查费用。耗时较短,时效性强。可以承担全面调查无法胜任的调查项目。有助于提高调查数据的质量。第2节 数据集的相似性度量相似性度量 抽取的样本代表性越好,抽样数据与全部观测数据集的结构越相似,基于抽样数据分析的结果也越接近于基于全部观测数据分析的结果。样本质量和样本容量
4、是衡量抽样样本代表性的两个重要标准。样本质量样本质量 设S为按照特定的抽样方法从D中抽取的样本数据,其频率分布表为那么,我们定义样本质量关于样本质量样本容量 样本容量指样本数据中包含的观测值个数 平均意义而言,样本容量越大,其包含的整体数据信息就越多,样本质量也越高 在高位的样本容量上,其边际效用往往较低,当样本容量增加到一定程度时,其带来的样本质量的增长较为有限 达到一定样本质量要求最小样本容量,我们称之为在该精度要求下的最优样本容量 获得最优样本容量的近似值样本容量对平均样本质量曲线假设整体数据集 D包含N个观测:案例:简单随机抽样和分层抽样样本质量比较 简单随机抽样 分层抽样哪幅图样本质
5、量随样本容量上升更快?两幅图共性有哪些?哪幅图样本质量随样本容量上升更快?两幅图共性有哪些?第3节 概率抽样概率抽样基本概述 抽样的目的:通过对样本统计量的描述,推断总体的特征。概率抽样主要基于以下两点:-按一定概率以随机原则抽取样本,换言之,保证每一个总体中的个体是否入选样本是独立随机事件 -每个个体被抽中的概率是已知且可以被计算的 常用概率抽样:简单随机抽样分层抽样整群抽样系统抽样不等概抽样多阶段抽样二重抽样简单随机抽样简单随机抽样分层抽样分层抽样分层抽样整群抽样整群抽样系统抽样 定义:设总体中N个单元按某种顺序排列,编号为1,2,.,N。抽样时首先抽取一个或一组起始单元的编号,然后按照某
6、种和起始编号有关的规则确定其余入样单元编号,直到抽满n个为止。常见的为等距系统抽样,即按照简单随机抽样方式抽取一个起始编号,固定间隔k抽取其余编号,抽满n个为止。估计量对于等距系统抽样系统抽样多阶段抽样 多阶段抽样是指分多个阶段抽取到最终的样本。首先将总体分为若干个初级单元(PSU),再在抽取的初级单元中抽取若干个二级单元(SSU),以此类推。每一阶段都可以采用不同的抽样方法。整群抽样和系统抽样都可以看成多阶段抽样的特例。估计量初级单元规模相等:总体均值的估计初级单元规模不等 简单估计 比率估计不等概率抽样 当总体单元差异较大时,可以赋予每个单元与其规模或辅助变量成比例的入样概率,在估计时采用
7、权数来进行弥补。这种抽样方法称为不等概率抽样。PPS抽样:放回的与规模大小成比例的概率抽样 总体均值估计量:PS抽样:不放回的与规模大小成比例的概率抽样 总体均值估计量二重抽样二重抽样案例分析 R语言base包中自带的函数sample只能解决简单随机抽样的问题 安装加载sampling包,其中的函数可以解决绝大多数概率抽样的问题,包括不同抽样方法和估计量:help(package=sampling)R语言与概率抽样sampling包的简单操作 简单随机抽样 -srswor -srswrsrswor为不放回抽样,放回的简单随机抽样函数为srswr,但不加说明的情况下,简单随机抽样指不放回的抽样,
8、例如:srsp=srswor(n,N)#简单随机抽样 srs=getdata(wind,srsp)#得到样本另外,srswor1是sampling包中提供的另外一种不放回抽样的方法,使用选择排除(selection-rejection)的算法实现不放回抽样,被一些学者认为是实现不放回抽样的最佳算法。二重抽样即把简单抽样运用两遍,以获取分层信息或比率信息,很容易理解注意:注意:n指定样本容量,指定样本容量,N指定总体指定总体 getdata函数是一个索引的封装函数,函数是一个索引的封装函数,可以直接得到样本,左边是可以直接得到样本,左边是wind数数据集的样本据集的样本R语言与概率抽样sampl
9、ing包的简单操作 分层抽样 -stratasrp=strata(data=windo,stratanames=year,size=wh,method=srswor)#分层抽样以上代码是一个分层抽样的具体stratanames是用于分层的变量,为类别变量size是每层的权重method是层内抽样的方法关键点:构建层的抽样框,即确定分层变量抽取的顺序,数据须以分层变量升序排列,保证,分层变量与每层的相应权重对应。上面的例子,层的抽样框构建如下:分层抽样attach(wind)for(i in 1:N)if(windi,2201000&windi,2201100&windi,2201200&win
10、di,2201300&windi,2201400&windi,2201500&windi,2eps,pik1-eps。i=rep(1,N)pik1=inclusionprobabilities(i,n)#采用等概率的系统抽样,共抽取采用等概率的系统抽样,共抽取n个样本点个样本点ssp=UPsystematic(pik1,eps=1e-6)#系统抽样的函数系统抽样的函数ss=getdata(wind,ssp)#入选样本入选样本inclusion probability抽样问题关键R语言与概率抽样sampling包的简单操作R语言与概率抽样sampling包的简单操作第4节 非概率抽样 简单高效快
11、捷的抽样方法,不需要完整的抽样框 使用非概率抽样从总体中抽选单元可能会导致较大的偏差 在社会调查中经常使用以代替概率抽样,降低抽样的成本便利抽样 优点是操作简单,可及时获得调查者所需要的信息,进而降低调查成本。最主要的局限性体现在样本信息无法说明总体的状况,无法通过获取的样本信息对总体进行数量特征的推断,因而便利抽样获得的样本不适合描述性研究和因果关系研究。“拦截式”滚雪球抽样 即是在调查某一特定的总体时,先找到该总体的若干个体,再通过这些个体去识别其他的符合要求的个体,然后再请新找到的个体去识别更多的个体,以此类推,直至获得足够的样本量。针对特殊稀有总体 调查的初期能帮助掌握稀有总体信息,如
12、果总体较小,则抽样易达到饱和。判断抽样判断抽样是指在抽取样本时,调查者根据调查目的,以及对调查对象情况的了解,人为地确定样本单元。通常有以下三种情况:选择“平均型”的样本单元,即选出的样本可以代表要调查的变量的平均水平,因而有助于了解总体的平均水平所处的大致位置;选择“众数型”的样本单元,选定的样本单元能够代表大多数样本单元的情况;选择“特殊型”的样本单元,调查者根据主观判断选出具有某种特性的单元,如选择很好或者很差的典型单元作为样本,分析造成这种异常的原因。判断抽样简便易行,操作成本较低,方便快捷,但是该抽样方法受调查人员的主观影响,一旦调查者主观判断产生偏差,极易引起抽样偏差,同时对利用判
13、断抽样所的样本的调查结果不能直接用于总体推断。配额抽样 配额抽样又称定额抽样,是将总体中的各单元按照一定的标准划分为若干类型,将样本数额分配到各个类型中。从各类型抽取样本的方法没有严格的限制,一般采用便利抽样的方法在各个类型中抽取样本单元,最终得到所需样本。划分总体的类型所依据的属性、特征被称为“控制特征”独立配额抽样 交叉控制配额抽样 思考:配额抽样和分层抽样本质的区别是什么?分层抽样是根据概率知识,客观地,等概率地在各层进行抽样,其目的是提高同层之间的同质性,层间的异质性;配额抽样是样本和总体表面上的结构比例一致,是按事先规定的条件,主管有目的地寻找样本第5节 大数据抽样 当你有足够的数据
14、时,是不是就不需要抽样了呢?毕竟有抽样就意味着有抽样误差,若是没有了抽样,整个统计学的次序将被改写。大数据抽样 大数据“是指利用常用软件工具捕获、管理和处理数据所耗费时间超过可容忍时间的数据集”4V特征数量(Volume)多样性(Variety)速度(Velocity)真实性(Veracity)大数据时代是否需要抽样 正方观点:大数据时代仍然需要抽样 反方观点:大数据时代不需要抽样 中立观点:大数据时代是否需要抽样应该达权通变 所以,你的观点是?思考的方向:计算资源和数据可获得性的限制是否抽样取决于我们要解决的问题考虑处理数据的成本大数据抽样应用案例(一)流数据分析(二)网络流量测量(三)不均
15、衡样本分类问题(四)基于抽样的海量数据挖掘大数据抽样应用举例 流数据分析 流数据特点 数据实时到达 数据到达次序独立,不受应用系统所控制 数据规模巨大且不能预知其最大值 数据一经处理后存储,一般不能修改,或者是数据修改再存储的代价巨大 几种流数据抽样方法 水库抽样 精确抽样 计数抽样网络流量测量抽样 为了解决高速网络被动测量问题,将抽样技术应用于高速网络流量测量,可在满足问题统计精度的条件下,减少用于测量、存储和处理的数据量 抽样采集使得系统的处理负荷大为减轻,具备较好的可扩展性,而且还能从样本特征参数反映出原始流量特征参数,具有一定的测量精度 抽样技术除了可以对流量特征进行分析外,还在流量计
16、费、性能特征测量、异常检测等领域广泛应用 从分组和流的层次,抽样方法主要分为分组抽样和流抽样。网络流量测量抽样 分组抽样是指对构成网络流量的分组进行抽样,每个分组都是独立的,不考虑分组之间的相关性。常用的分组抽样方法包括系统抽样、简单随机抽样和分层随机抽样。流抽样是指在测量时间内对网络流进行抽样,构成网络流量的分组并不是孤立的,它们是为了完成具体的应用而产生的,它们之间存在着一定的关联,流是体现这种关联的一种方式。抽样与分类器算法 不均衡样本分类问题 分类问题是数据挖掘领域主要任务之一,也是机器学习领域重要的研究方向。分类算法从训练集中学习得到分类函数,利用该函数预测未知样本的类别。一般的分类
17、算法都是以数据类分布大致平衡为前提的,但是在实际应用中有很多问题都是不平衡分类问题,采用传统的分类方法,难以得到满意的分类效果。从训练集入手or从算法入手?训练集重抽样 重采样方法是通过增加稀有类训练样本数的上采样(up-sampling)和减少大类样本数的下采样(down-sampling)使不平衡的样本分布变得比较平衡,从而提高分类器对稀有类的识别率。包括随机向上采样、随机向下采样、SMOTE、BalanceCascade 算法、基于聚合的采样方法等多种方法基于抽样的海量数据挖掘 困难与挑战 大数据的背景分布缺乏先验信息 就资料收集目的而言,大数据收集的目的也是不同的,其收集过程和目的并非
18、统计分析的目的 数据的“稀疏性”均匀抽样的思路 李 毅、米子川提出均匀抽样在大数据挖掘中应用的基本策略,即通过均匀设计的基本原理进行均匀抽样,利用机器学习中监督式学习的概念,把被抽中的样本点作为机器学习中的训练集,使其尽量充满原始大数据集的全部空间 结论 均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法大数据抽样未来发展 传统抽样技术不可偏废 寻找样本量、计算效率和误差之间的平衡 无论是现在还是将来,抽样技术在大数据环境下仍具有应用场景和应用价值原始数据抽样设计方法选择样本质量样本容量方法确定抽取样本第6节 抽样分析的综合应用 在loandata的2013至2014年数据集中,对变量loan_amnt,使用简单随机抽样分别抽取样本容量为100,1000,5000,10000的样本,给出相应的样本质量,并且计算最优样本容量。首先,对数据进行预处理。因贷款额度是连续型变量,应对其进行离散化处理,根据经验将贷款额度分为20组 求样本质量。利用Kullback-Laible信息量来衡量数据集的差异性 进一步,选取最优样本。规则如下:设定阈值为0.99,选取样本质量超过0.99的最小样本容量作为最优样本容量。进行简单随机抽样,根据b中选取的样本容量进行抽样。求样本质量,利用Kullback-Laible信息量来衡量数据集的差异性,
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。