ImageVerifierCode 换一换
格式:DOCX , 页数:40 ,大小:29.90KB ,
文档编号:1760899      下载积分:10 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-1760899.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(haaijie1005)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(超星尔雅学习通《大数据算法(哈尔滨工业大学)》章节测试答案.docx)为本站会员(haaijie1005)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

超星尔雅学习通《大数据算法(哈尔滨工业大学)》章节测试答案.docx

1、超星尔雅学习通大数据算法(哈尔滨工业大学) 章 节测试答案 1.1 大数据的定义与特点 1、以下关于大数据的特点,叙述错误的是() 。 A、速度慢 B、多元、异构 C、数据规模大 D、基于高度分析的新价值 正确答案:A 2、在法华经中,“那由他”描写的“大”的数量级是() 。 A、107 B、1014 C、1028 D、1056 正确答案:C 3、以下选项中,大数据涉及的领域中包括() 。 A、社交网络 B、医疗数据 C、计算机艺术 D、医疗数据 正确答案:ABC(D) 4、大数据的应用包括() 。 A、预测 B、推荐 C、商业情报分析 D、科学研究 正确答案:ABCD 5、目前,关于大数据已

2、有公认的确定定义。 正确答案:X 6、大数据种类繁多,在编码方式、数据格式、应用特征等方面都 存在差异。 () 正确答案: 1.2 大数据算法(1) 1、大数据求解计算问题过程的第三步一般是() 。 A、判断可计算否 B、判断能行可计算否 C、算法设计与分析 D、用计算机语言实现算法 正确答案:C 2、 在大数据求解计算问题中,判断是否为能行可计算的因素包括 () 。 A、数据量 B、资源约束 C、速度约束 D、时间约束 正确答案:ABD 3、 大数据求解计算问题过程的第一步是确定该问题是否可计算。 正确答案: 4、 大数据计算模型与一般小规模计算模型一样,都使用的是图灵 机模型。 正确答案:

3、 1.3 大数据算法(2) 1、资源约束包括() 。 A、CPU B、网络带宽 C、内存 D、外存 正确答案:ABCD 2、大数据算法可以不是() 。 A、云计算 B、精确算法 C、内存算法 D、串行算法 正确答案:BCD 3、大数据算法是在给定的时间约束下,以大数据为输入,在给定 资源约束内可以生成满足给定约束结果的算法。 正确答案:X 4、MapReduce 是一种比较好实现大数据算法的编程架构,在生产 中得到广泛应用。 正确答案: 5、大数据算法是仅在电子计算机上运行的算法。 正确答案:X 1.4 大数据的特点与大数据算法 1、众包算法是用来解决() 。 A、访问全部数据时间过长 B、数

4、据难于放入内存计算 C、单个计算机难以保存全部数据,计算需要整体数据 D、计算机计算能力不足或知识不足,需要人来帮忙 正确答案:D 2、 大数据算法存在很多难题,对于访问全部数据时间过长的问题, 采用的解决方案是() 。 A、将数据存储到磁盘上 B、仅基于少量数据进行计算 C、读取部分数据 D、并行处理 正确答案:C 3、大数据算法的()特点,使其与大数据算法密切相关的。 A、数据量大 B、基于高度分析的新价值 C、速度快 D、多样性、复杂性 正确答案:AC 4、 为解决单个计算机难以保存全部数据的问题,通常会采用并行 处理的技术,此技术会涉及到时间亚线性算法。 正确答案:X 1.5 大数据算

5、法设计与分析 1、大数据算法涉及到外存的时候,通常要分析() 。 A、时间空间复杂性 B、IO 复杂性 C、结果质量 D、通讯复杂性 正确答案:B 2、下列选项中,属于智能仿生算法的是() 。 A、遗传算法 B、近似算法 C、模拟退火算法 D、数据流算法 正确答案:AC 3、在线算法/数据流算法是面向大数据速度快的特点提出的。 () 正确答案: 4、对于数据流算法或在线算法,经常要分析结果的近似比。 () 正确答案:X 5、 随机算法是利用随机化的方法来进行大数据处理,是大数据算 法设计技术之一。 () 正确答案: 2.1 亚线性算法的定义 1、 计算在一个给定社交网络中平均每人的朋友个数,在

6、不访问所 有顶点的情况下,进行精确计算最少需要访问()个顶点。 A、n B、n+1 C、2n D、n-1 正确答案:D 2、亚线性是指()等的消耗是输入规模 o。 () A、时间 B、空间 C、IO D、通讯 正确答案:ABCD 3、性质检测算法属于亚线性空间算法的一类。 () 正确答案:X 2.2 水库抽样空间亚线性算法 1、在经典的水库抽样中,要求空间复杂性为 O(k),是指与抽样大 小有关,而与整个数据的数据量无关。 正确答案: 2、水库抽样算法的采样是均匀的。 正确答案: 2.3 平面图直径时间亚线性计算算法 1、以下()不是衡量分析近似解代价与优化解代价差距的方法。 A、RatioB

7、ound B、相对误差 C、绝对误差 D、(1-)-近似 正确答案:C 2、利用平面图的直径近似算法得到的解,在最坏情况下,也不会 小于最优解的() 。 A、二分之一 B、三分之一 C、四分之一 D、十分之一 正确答案:A 3、采用平面图的直径近似算法的动机是无法在要求的时间内得 到() 。 A、相似解 B、完整解 C、精确解 D、近似解 正确答案:C 4、 在平面图的直径近似算法中,要求点之间的距离满足三角不等 式是指在 i、j、k 三个点中,i 到 j 的距离加上 j 到 k 的距离小于 i 到 k 的距离。 正确答案:X 5、近似算法能给出一个优化问题的优化解。 正确答案:X 6、Rat

8、ioBound 越大,则近似解越坏。 () 正确答案: 2.4 全 0 数组判定时间亚线性判定算法 1、在判定问题的近似中,对于近似解需要区分的是() 。 A、是 B、否 C、差不离 D、差得很远 正确答案:AD 2、 全 0 数组判定的近似算法的证据引理是:如果一次测试以大于 等于 p 的概率获得一个证据,那么 s=2/p 轮测试得到证据的概率大于 等于 1/2。 正确答案:X 3、 判定问题的近似解是指:输入满足某种性质或近似满足某种性 质。 正确答案:X 3.1 数据流中频繁元素 1、Zipf 原则是指典型的频率分布是高度偏斜的,存在很多频繁 元素。 () 正确答案:X 2、 在数据流模

9、型中,从数据流中可以计算简单的函数,如最大值、 最小值、求和等,且处理这些函数时通常使用单个寄存器 s。 () 正确答案: 3、数据流模型中,数据流是指来自某个域中的元素序列。 () 正确答案: 4、在数据流模型中,内存远远大于数据的规模。 () 正确答案:X 3.2 频繁元素计算算法 1、频繁元素计算算法又称为()算法。 A、MM B、MG C、GM D、MP 正确答案:B 2、频繁元素计算算法有效的原因是源于() 。 A、取近似解 B、证据引理 C、错误界限和 k 成反比 D、Zipf 原则 正确答案:D 3、 在频繁元素计算算法中,计数器 x 减少的次数依赖于有几个减 少计数器的步骤。

10、() 正确答案: 4、 在频繁元素计算算法中,当数据流中元素的总个数远大于估计 值与真实值相差的最多值时,可以得到频繁项一个好的估计。 正确答案: 3.3 最小生成树 1、 时间亚线性算法的思想是:利用特定子图联通分量的数量估计 最小生成树的() 。 A、近似值 B、精确值 C、权重 D、界限 正确答案:C 2、求最小生成树是一个贪心法,可以用()算法来解决。 A、Prime B、并行 C、MG D、内存 正确答案:A 3、对联通分量个数的估计可以利用随机化方法。 正确答案: 3.4 序列有序的判定 1、对于输入 n 个数的数组(x1,x2,x3,xn),输出:这个数组 是否有序。远离意味着必

11、须删除大于()个元素才能保证剩下的元 素有序。 A、-n B、n C、/n D、n/ 正确答案:B 2、如果一次测试以大于等于 p 的概率获得一个证据,那么 s=2/p 轮测试得到证据的概率大于等于 3/4。 正确答案:X 3、关于证明如果输入远离有序,则存在大于n 个“坏索引”的 问题,可以采用证明其逆否命题的方法。 正确答案: 4.1 外存存储结构与外存算法 1、下列选项中叙述正确的是() 。 A、磁盘的访问可以随机读、随机取 B、磁盘系统传输大规模连续的数据块的范围是 18-32k C、磁盘访问比主存访问的速度快 D、大多数程序在 RAM 模型上运行 正确答案:D 2、 对于大数据而言,

12、标准计算理论模型失效的原因之一是内存是 有限的,无法存储所有的内存。 () 正确答案: 3、 当内存不够或者算法设计不好时,如果数据量达到一定规模以 上,运行时间会急剧增加。 正确答案: 4、 现代计算机有复杂的存储层次,存储单元的访问是以块为单位 的数据移动。 () 正确答案: 4.2.1 外存算法示例:外存排序算法(1) 1、外存归并排序,以()为单位进行调度。 A、比特 B、兆 C、块 D、层 正确答案:C 2、 排序分为内部排序和外部排序,外部排序是因排序的数据很大, 一次不能容纳全部的排序内容,在排序过程中需要访问外存。 () 正确答案: 4.2.2 外存算法示例:外存排序算法(2)

13、 1、在外排序的快速排序中,分割元素的选择非常重要。 正确答案: 4.3 外存数据结构示例:外存查找树 1、在内存中的二分搜索树中,通常使用()来维护树的平衡。 () A、置换 B、分裂 C、旋转 D、合并 正确答案:C 2、 二叉搜索树是在 n 个元素之间搜索的标准方法,一般把元素保 存在根处。 () 正确答案:X 3、为更快地保存外部搜索树,可采取按 BFS 的顺序将其分割。 () 正确答案: 5.1B 树(1) 1、 如果 T 是一个(a,b)-树(a2 且 b2a-1),其根结点的度在 () 之间。 A、2 到 a B、2 到 b C、a 到 b D、2 到 4 正确答案:B 2、在(

14、a,b)-树中,a 和 b 表示的是每个节点当中键值的上限和下 限。 () 正确答案:X 3、B-树中右边的指针指向的是键值小于最右键值的子数。 () 正确答案:X 5.2B 树(2) 1、元素都在叶子中的 B-树有时被称为() 。 A、B+树 B、B-+树 C、B+-树 D、B+-数 正确答案:C 2、 关于(a,b)树的删除操作,删除操作出现问题的情形是:从叶 子 v 删除元素后,v 的儿子小于 a-1 个。 () 正确答案: 3、关于(a,b)-树的插入,插入涉及到的结点最多到树高+1。 () 正确答案: 5.3KD 树 1、KD 树在()层使用水平线。 A、偶数层 B、奇数层 C、最底

15、层 D、最高层 正确答案:A 2、KdB-树的插入可以使用()的方法。 A、近似 B、置换 C、对数 D、重构 正确答案:C 3、 构建KDB-树时,完成网格建立之后,计算每个网格中点的个数, 并且存储在()中。 A、外存 B、数据库 C、寄存器 D、内存 正确答案:D 4、基于位置的查找实际上是一种三维空间的查找。 () 正确答案:X 5、KD 树可以看成是两个二叉树的交叠。 () 正确答案: 6.1 表排序及其应用 1、为数 T 的每个结点标上子树大小的 I/O 复杂度为() 。 A、IO(sort(N) B、O(sort(N) C、IO(scan(N) D、O(scan(N) 正确答案:

16、B 2、前序计数的 I/O 复杂度为() 。 A、IO(sort(N) B、O(sort(N) C、IO(scan(N) D、O(scan(N) 正确答案:B 3、对给定顶点邻接链表 T,其一个欧拉回路可以以()IO 复杂性 求得。 A、O(sort(N) B、O(scan(N) C、O(scan(N)IO D、IO(scan(N) 正确答案:C 4、外存算法最坏情况的 I/O 数位(N)。 () 正确答案:X 5、 图中的独立集是指图当中点的集合,其任意两点之间不存在边。 () 正确答案: 6.2 时间前向处理方法 1、查找规模为 N 的表 L 中,每个独立集(MIS)的大小至少为() 。

17、A、n+1 B、2n C、n/2 D、n/3 正确答案:D 2、时间前向的处理方法是按照()来访问边。 A、欧拉回路 B、表排序 C、拓扑序 D、结点序 正确答案:C 3、求最大独立集的基本思想是使用贪心法。 () 正确答案: 6.3 缩图法 1、 图算法包含三种计数,其中将图问题表示为有向无环图的估值 问题的是() 。 A、自举 B、缩图法 C、时间前向处理 D、连通分量 正确答案:C 2、半外存算法是假设() 。 A、边放在内存中,顶点在外面 B、顶点放在内存中,边在外面 C、顶点和边都放在内存当中 D、顶点和边都不在内存当中 正确答案:B 3、图的连通性算法可扩增为求图 G 最小生成树(

18、MST)的算法。 () 正确答案: 4、 在求最小生成树时,压缩后图中某条边的权值等于该边代表的 所有边的权值最大值。 () 正确答案:X 7.1MapReduce 概述 1、MapReduce 是由()开发的分布式编程模型。 A、Microsoft B、Google C、Tencent D、AlibabaGroup 正确答案:B 2、在实现 MapReduce 程序时,需要注意的事项不包括() 。 A、避免创建对象 B、避免缓冲 C、避免通信 D、避免 Mapper 和 Reducer 间的全局变量传递 正确答案:C 3、MapReduce 的执行框架处理的内容包括() 。 A、调度 B、数

19、据分布 C、将中间数据进行聚集、排序或洗牌 D、进行错误处理 正确答案:ABCD 4、理想的可扩展性有() 。 A、数据加倍,运行时间减半 B、数据加倍,运行时间加倍 C、资源加倍,运行时间减半 D、资源加倍,运行时间加倍 正确答案:BC 5、Map()和 Reduce()两个函数不能够并行运行。 () 正确答案:X 7.2 字数统计 1、在版本 1 的字数统计中,在 Map 里使用了一个数组 H,其作 用是为每一个出现的单词作() 。 A、序列 B、基数 C、集合 正确答案:B 7.3 平均数计算 1、大部分时候 reducer 不能用作 combiner。 () 正确答案: 2、combi

20、ner 的运行次数可能有多次。 正确答案: 7.4 单词共现矩阵的计算 1、关于单词共现矩阵的计算,说法正确的是() 。 A、计算文本集合中词的共现矩阵 B、词的个数如果为 N,输出为 M*N 的矩阵 C、是一种测量语义距离的方法 D、语义距离可用于许多语言处理任务 正确答案:ACD 2、用单词共现矩阵解决大规模计数问题的基本方法是() 。 A、Mapper 生成部分计数 B、Reducer 生成部分计数 C、Reducer 聚合部分计数 D、Mapper 聚合部分计数 正确答案:AC 3、 “条纹法”的优点有() 。 A、易于实现 B、对 key-value 对的排序和洗牌少得多 C、潜在对

21、象更大 D、能更好地利用 combiner 正确答案:BD 4、在“词对法”中,每个 mapper 处理一个句子。 () 正确答案: 5、 “词对法”的缺点是不易实现,排序和洗牌代价高。 () 正确答案:X 6、f(B|A)词对法必须确定所有 a 被传递到同一个 combiner。 () 正确答案:X 8.1 连接(join)算法 1、在 repartitionjoin 的改进中,说法错误的是() 。 A、Map 函数的输出键作为连接键 B、Map 函数的输出键变化为连接键和表名的组合。 C、Partition 函数中 Hashcode 仅从组合键的连接键计算 D、Grouping 函数仅根据

22、连接键分组纪录 正确答案:A 2、用 MR 进行多重集相似连接算法的常见计算包括() 。 A、三角函数 B、单元函数 C、合取函数 D、析取函数 正确答案:BCD 3、自然连接是从两个关系的笛卡尔积中选取给定属性间满足一 定条件的元组。 () 正确答案:X 4、等值连接不必在结果中去掉重复的属性。 () 正确答案: 8.2 图算法 1、在迭代 MapReduce 中,reduce 的输出必须和 map 的输入兼容。 () 正确答案: 2、 “推荐好友”是图算法在社交网络中的一种实际用例。 () 正确答案: 8.3 基于路径的算法 1、找到一个稠密图的最小生成树的算法易于并行化的原因是每 个子图

23、的()可以被并行计算。 A、边 B、顶点 C、结点 D、最小生成树 正确答案:D 2、基于路径的算法的例子不包括() 。 A、单源最短路径 B、最小生成树 C、分布式不动点运算 D、拓扑排序 正确答案:C 3、在基于路径的算法中,边的标记包括() 。 A、代价 B、距离 C、相似性 D、属性 正确答案:ABC 4、Dijkstra 算法需要并行化。 () 正确答案:X 9.1 基于迭代处理平台的并行算法 1、缓存迭代的方法是() 。 A、在 Mapper 前加入输入缓存 B、在 Mapper 后加入输出缓存 C、在 Reducer 前加入输入缓存 D、在 Reducer 后加入输出缓存 正确答

24、案:ACD 2、MapReduce 是一种非递归描述性语言的通用运行平台。 () 正确答案: 3、Reducer 输入缓存的条件是使用静态划分方法,即意味着没有 新的结点。 () 正确答案: 9.2 基于图处理平台的并行算法 1、关于并行节点计算,下列选项中关于节点叙述不准确的是() 。 A、每一个节点接受上一个 superstep 发出的消息 B、执行相同的用户定义函数 C、所有节点根据用户定义函数修改它的值 D、没有额外工作要做时继续迭代 正确答案:D 2、Pregel 系统中 Master 的作用不包括() 。 A、维护 worker B、恢复 workers 产生的错误 C、提供 We

25、b-UI 监督工作进程工具 D、与 worker 交流 正确答案:D 3、并行结点计算的终止条件是() 。 A、消息传送到其他点后 B、所有顶点同时变为非活跃状态 C、迭代结束 D、没有信息传递 正确答案:BD 4、用 Pregel 计算子图同构问题,其三个步骤是() 。 A、查询分解 B、搜索 C、迭代 D、Join 正确答案:ABD 5、Pregel 的编程形式,在执行计算的机器上每一阶段都利用整 个图的全部状态。 () 正确答案:X 10.1 众包的定义 1、众包通过一系列的机制和方法来指导和协调()的行为,从而 达到目的。 A、个人 B、计算机 C、群体 D、软件 正确答案:C 2、外

26、包与众包的区别在于众包的参与者数量大且不固定的。 () 正确答案: 3、Wikipedia 是众包案例的一种最成功的应用之一。 () 正确答案: 4、 众包极大程度地使用了人本计算,因此它基本上等同于人本计 算。 () 正确答案:X 10.2 众包的实例 1、人脸识别是利用众包改进图像()的例子。 A、分类 B、区分 C、确认 D、搜索 正确答案:D 2、下列属于众包应用的例子有() 。 A、验证码 B、机器翻译 C、图像搜索 D、数据库查询 正确答案:ABCD 3、众包技术应用于广告中的情形之一是区分关键词与广告的相 关程度。 () 正确答案: 4、目前众包技术已经可以判断两幅画在艺术风格上

27、是否一致。 () 正确答案:X 10.3 众包的要素 1、众包中质量控制/数据质量要考虑的问题不包括() 。 A、可靠性 B、垃圾结果检测 C、标签共识 D、界面和交互设计 正确答案:D 2、众包中的参与者包括() 。 A、请求者 B、平台 C、工人 D、评估者 正确答案:ABC 3、在人机交互中从用户获取输入的方式有() 。 A、调查 B、快速原型 C、可用性测试 D、认知走查 正确答案:ABCD 4、众包中工人的回报是多样的。 () 正确答案: 5、难以核实主观任务是资格测试的缺点之一。 () 正确答案: 6、任务分配的拉方法是指系统采取完全的控制将制定的任务分 配给工人。 () 正确答案:X 10.4 众包算法例析 1、采用把大连通分量划分成高度连接的小连通分量基本思路的 方法是() A、CrowdDB B、混合人机工作流程 C、双层法 D、分批策略 正确答案:C 2、用机器完成众包的优势有() 。 A、省钱 B、省时 C、数量大 D、质量高 正确答案:AB 3、目前众包技术完全由计算机来完成。 () 正确答案:X 4、基于簇的 HIT 生成问题的优化目标是生成最小数目基于簇的 HIT。 () 正确答案:

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|