1、第二节大数据处理一、选择题(共16题)1大数据的特征可以用被总结为4V特征,以下哪个不属于大数据的4V特征( )A种类多(Variety)B体量大(Volume)C风险大(Venture)D速度快(Velocity)2下列关于大数据(Big data)特点的叙述,错误的是A数据体量巨大B数据类型繁多C商业价值高D处理速度慢3在教科书中利用Python探究电流和电压、电阻的关系实验里,除了可以通过书中的Jupyter Notebook外,处理数据还可以通过下列( )工具实现。APython IDLEBXmindC网络画板D几何画板4对于大数据特征的描述,不正确的是( )。A海量的数据规模(巨量性
2、)B快速的数据流转(迅变性)C单一的数据类型(单一性)D高质量的数据要求(真实性)5随着时代的发展,各行各业需要处理的的数据量快速增长,人工处理大量数据的效率与用计算机处理大量数据相比较,人工处理效率正变得( )。A更高B更低C一样D无法比较6居民身份证号码可以反映出常住户口所在地的行政区划、出生日期和性别等信息,这主要体现了数据是( )。A计算工具识别、存储和加工的对象B信息的载体C可处理的D可加工的7大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是()A特征探索B关联分析C聚类与分类D建模分析8
3、下列关于大数据处理的说法,错误的是 ( )A处理大数据一般采用分治思想B数据采集只能收集结构化数据C图计算主要针对图数据D并行处理能节省复杂问题的处理时间9以下关于数据的说法,正确的是( )A数据处理的速度主要取决于计算机硬件设备,软件影响不大B大数据中,每个数据的价值都非常大,不能随意处理C在计算机中,所有的数据都是结构化的D数据安全不仅是保障数据不损坏,也要考虑数据被入侵偷窃的情况10大数据不是要教机器像人一样思考。相反,它是( )A把数学算法运用到海量的数据上来预测事情发生的可能性。B被视为人工智能的一部分。C被视为一种机器学习。D预测与惩罚。11下列对大数据的理解错误的是( )。A从互
4、联网产生大数据的角度来看,大数据具有“4V”特征,分别是大量(Volume),多样(Variety),低价值密度(Value),高速(Velocity)。B从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。C从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。D以上都不对12某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的()A聚类分析B关联分析C分类分析D回归分析13以下选项中,不属于大数据对人才能力的要求是( )A业务能力B数学统计能力CIT技术能力D逻辑思维能力14数据处理的一般过程是( )。
5、A采集分析整理可视化表达B采集整理可视化表达分析C采集整理分析可视化表达D采集可视化表达整理分析15我们正处于一个大数据时代,大数据使人们的生活、工作与思维方式等都产生了巨大的变革。那么,从互联网思维的角度来看,大数据具有特征是( )A“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)B样本渐趋于总体,精确让位于模糊,相关性重于因果C分布式存储,分布式并行计算D没有特征16大数据( )能从规模巨大的数据中,分析并提取出有潜在价值的信息。A采集技术B分析与挖掘技术C预处理技术D可视化与应用技术二、综合题(共4题)17大数据由于数据量大,
6、服务器一般采用分布式文件存储或数据库存储。(_)18贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类算法,利用朴素贝叶斯算法可以实现新闻敏感词的屏蔽功能。贝叶斯分类属于大数据分析技术中的数据分类技术。(_)19疫情期间,国家有关部门可以通过大数据筛选、查找到和感染者有过密切接触的人,大数据一方面方便人们看病问诊,另一方面也存在个人信息泄露的风险。 (_)20数据处理的一般过程是明确目标、数据采集、数据加工、数据分析及数据可视化。(_)参考答案1C【详解】本题主要考查大数据特征。大数据的4V特征分别是Volume(大量性)、Velocity(高速性)、Variety(多样性
7、)、Value(价值性),故本题选C选项。2D【详解】本题主要考查大数据的叙述。大数据具有数据体量巨大、数据类型繁多、商业价值高、处理速度快,故本题选D选项。3A【详解】本题Python相关知识点IDLE 是 Python 所内置的开发与学习环境,故除了可以通过书中的Jupyter Notebook外,处理数据还可以通过Python IDLE工具实现。故本题选A选项4C【详解】本题考查大数据。大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息
8、资产。大数据具有海量的数据规模,快速的数据流转,高质量的数据要求。本题说法不正确的是选项C。5B【详解】本题考查大数据的相关知识点相比计算机处理大量数据,人工处理效率正变得越来越低。故本题选B选项6C【详解】本题主要考查数据处理。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取出相对有价值、有意义的数据,故居民身份证号码可以反映出常住户口所在地的行政区划、出生日期和性别等信息,这主要体现了数据是可处理的,故本题选C选项。7D【详解】本题考查大数据分析的相关知识点大数据分析的方法主要有特征探索、关联分析、聚类与分类。故本题选D选项8B【详解】本题主要考查大数据处理。处理大数据一般采
9、用分治思想;大数据采集的是规模巨大的数据,不局限于结构化数据;图计算主要针对图数据;并行处理能节省复杂问题的处理时间,故本题选B选项。9D【详解】本题主要考查数据相关知识点。数据处理的速度取决于计算机硬件设备和软件;大数据中,并非每个数据的价值都非常大;在计算机中,并非所有的数据都是结构化的;数据安全不仅是保障数据不损坏,也要考虑数据被入侵偷窃的情况,故本题选D选项。10A【详解】本题考查的是大数据。数据或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。把数学算法运用到海量的数据上来预测事情发生的可能性,选项A正确;大数据不是人工智
10、能的一部分,故选项B错误;不是一种机器学习,故选项C错误;大数据不能惩罚,故选项D错误。11D【详解】本题主要考查大数据的相关知识。大数据具有“4V”特征,分别是大量(Volume),多样(Variety),高速(Velocity)、低价值密度(Value),因此A选项正确;从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。因此B选项正确;从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。因此C选项正确;由上可知D选项不符合题意。12B【详解】本题考查的是数据分析。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出
11、一个分类的标准,聚类分析能够从样本数据出发、自动进行分类。关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将分类数据项映射到某一特点类别的功能。 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。某超市曾经研究销售数据,发现买商品A的人购买商品B的概率很大,这种属于数据的关联分析。故选项B正确。13C【详解】本题考查大数据相关知识点大数据对人才能力的要求有业务能力、数学统计能力、逻辑思
12、维能力。故本题选C选项14A【详解】本题主要考查数据处理。数据处理的一般过程是采集分析整理可视化表达,故本题选A选项。15A【详解】本题主要考查大数据的特征。从互联网思维的角度来看,大数据具有特征是:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity),故本题选A选项。16B【详解】本题主要考查大数据分析知识点。大数据分析与挖掘技术能从规模巨大的数据中,分析并提取出有潜在价值的信息,故本题选B选项。17【详解】本题考查大数据存储相关知识点大数据由于数据量大,服务器一般采用分布式文件存储或数据库存储。表述正确18正确【详解】本题主要考查大数据分析。贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类算法,利用朴素贝叶斯算法可以实现新闻敏感词的屏蔽功能。贝叶斯分类属于大数据分析技术中的数据分类技术,表述正确。19对【详解】本题考查大数据相关知识。大数据一方面方便数据筛选,方便人们的生活,另一方面也存在个人信息泄露的风险。题干说法正确。20错误【详解】本题主要考查数据处理的过程。数据处理的基本过程是采集、分析、整理、可视化表达,故表述错误。