1、大数据导论20春期末考核-00001试卷总分:100 得分:70一、单选题 (共 10 道试题,共 20 分)1.大数据的特点不包含A.数据体量大B.价值密度高C.处理速度快D.数据不统一答案:D2.PaaS是()的简称A.软件即服务B.平台即服务C.基础设施即服务D.硬件即服务答案:B3.IaaS是()的简称A.软件即服务B.平台即服务C.基础设施即服务D.硬件即服务答案:C4.购物篮问题是#的典型案例A.数据变换B.关联规则挖掘C.数据分类答案:B5.基础设施即服务的英文简称是A.IaaSB.PaaSC.SaaS答案:A6.数据清洗的方法不包括A.缺失值处理B.噪声数据清除C.一致性检查D
2、.重复数据记录处理答案:D7.以下哪项不是数据可视化工具的特性()A.实时性B.简单操作C.更丰富的展现D.仅需一种数据支持方式即可答案:D8.下列哪个工具常用来开发移动友好地交互地图()A.LeafletB.Visual.lyC.BPizza Pie ChartsD.Gephi答案:A9.SAN是一种()A.存储设备B.专为数据存储而设计构建的网络C.光纤交换机D.HBA答案:B10.GFS中的文件切分成()的块进行存储A.32MBB.64MBC.128MBD.1G答案:B二、多选题 (共 10 道试题,共 20 分)11.数据预处理的过程主要是A.数据清洗B.数据集成C.数据变换D.数据规
3、约答案:ABCD12.大数据时代预测人类移动行为的数据特点是A.多样化B.数据量大C.维数高D.变化快答案:BCD13.下列属于传统统计学展示方法的是()A.柱状图B.饼状图C.曲线图D.网络图答案:ABC14.百度大数据引擎主要包含三大组件()A.开放云B.数据工厂C.百度大脑。答案:ABC15.去除噪声使得数据光滑的技术主要有:A.分箱B.回归C.离群点分析答案:ABC16.大数据存储的特点与挑战有()A.容量问题B.延迟问题C.安全问题D.成本问题答案:ABCD17.大数据在医疗中的应用有()A.流行性疾病预防B.慢性病健康管理C.临床决策支持D.医疗器械研发答案:ABCD18.医疗大数
4、据的来源主要包括()A.制药企业/生命科学B.临床医疗/实验室数据C.费用报销/利用率D.健康管理/社交网络答案:ABCD19.数据分析的类型根据数据分析深度可以分为()A.描述性分析B.预测性分析sC.规则性分析答案:ABC20.数据处理的两种方法是#,#A.批处理B.流处理C.单个处理D.交叉处理答案:AB三、判断题 (共 15 道试题,共 30 分)21.所有关系型数据中的数据全部为结构化数据。半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。答案:正确22.关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。答案:
5、正确23.数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。答案:正确24.数据隐私和安全是大数据发展面临的挑战答案:正确25.用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣的案例。分析人员可以交互式地逐步优化设置以改进结果。答案:正确26.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。答案:正确27.频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。答案:正确28.Twitter作
6、为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。答案:正确29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。答案:正确30.Apriori算法扫描数据库的次数等于最大频繁项集的项数。答案:正确31.高质量的数据是能够满足应用需求的数据。答案:正确32.离群点检测的任务是识别特征显著不同于其他数据的观测值答案:正确33.数据分析是大数据发展面临的挑战答案:正确34.百度地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节前后人口大迁徙的轨迹
7、与特征。答案:正确35.用一个函数拟合数据来光滑数据称为回归。答案:正确四、简答题 (共 2 道试题,共 12 分)36.简述云计算的体系架构分层及每层的含义。答案:云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。结合当前云计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。1)核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、可用性高、规模可伸缩等特点,满足多样化的应用需求。2)服务管理层为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全性。3)用户访问接口层实现端到云的访问。37.简述数据可视化的流程和步骤。答案:数
8、据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。1)数据获取数据获取的形式多种多样,大致可以分为主动式和被动式两种。主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。2)数据处理数据处理是指对原始的数据进行分析、预处理和计算等步骤。数据处理的目标是保证数据的准确性、可用性等。3)可视化模式可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。可视化模式的选取决定了可视化方案的雏形。
9、4)可视化应用可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。五、名词解释 (共 3 道试题,共 18 分)38.聚类分析答案:聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。39.云存储答案:云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术。它是云计算的重要组成部分,也是云计算的重要应用之一。云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。40.NoSQL答案:NoSQL是泛指非关系型、分布式和不提供ACID的数据库,它不是单纯地反对关系型数据库,而是强调键值存储和文档数据库的优点。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。