1、 青春须早为,岂能长少年。大数据解析与应用导论(浙大)解忧书店 JieYouBookshop第一章单元测试1【多选题】 (2分)下列属于多元统计方法的为( ) A.决策树 B.神经网络 C.回归分析 D.主元分析2【多选题】 (2分)多元统计分析的图表示法有( ) A.轮廓图 B.雷达图 C.散布图矩阵 D.调和曲线图3【判断题】 (2分)完整的数据分析过程,包括数据采集、数据清洗和数据分析。( ) A.对 B.错4【单选题】 (2分)下列场景适用于回归分析的是 ( ) A.人脸识别 B.天气预报 C.水果分拣 D.信息浓缩5【单选题】 (2分)下面哪一句体现了主元分析的思想( ) A.物以类
2、聚,人以群分 B.笨鸟先飞 C.牵牛要牵牛鼻子 D.人不是一座孤岛第二章单元测试1【多选题】 (2分)一般常见的缺失值处理的方法有( ) A.插值填充 B.回归填充法 C.最近邻插补填充法 D.替换填充法2【多选题】 (2分)一般常见的数据归一化的方法有( ) A.回归填充法 B.最小最大规范化 C.零均值规范化 D.替换填充法3【判断题】 (2分)少量的异常值完全不会影响数据分析。( ) A.对 B.错4【单选题】 (2分)下列哪种方法不是数据填补的手段 ( ) A.替换填充法 B.回归填充法 C.插值填充法 D.均值标准化5【单选题】 (2分)主成分分析的英文名是( )。 A.Princi
3、pal Component Analysis B.Ordinary Least Squares C.Canonical Component Analysis D.Partial Least Squares第三章单元测试1【多选题】 (2分)下面哪个是SVM在实际生活中的应用( ) A.邮件分类 B.文本翻译 C.房价预测 D.图片分类2【多选题】 (2分)以下说法正确的有哪些( ) A.SVM是一种线性方法 B.软间隔的引入可以解决轻度线性不可分问题 C.SVM只能够解决回归问题 D.核方法不能解决非线性问题3【判断题】 (2分)拉格朗日乘子法可用于线性可分SVM的模型求解。( ) A.对 B
4、.错4【单选题】 (2分)SVM的中文全称叫什么?( ) A.最小向量分类器 B.支持向量机 C.支持向量回归器 D.最大向量分类器5【单选题】 (2分)SVM算法的最小时间复杂度是O(n),基于此,以下哪种规格的数据集并不适该算法?( ) A.小数据集 B.大数据集 C.中等数据集 D.不受数据集的大小影响第四章单元测试1【多选题】 (2分)一元线性回归有哪些基本假定?( ) A.随机误差项和解释变量X不相关; B.随机误差项服从零均值、同方差的正态分布。 C.解释变量X是确定性变量,Y是随机变量; D.随机误差项具有零均值、同方差和序列不相关的性质;2【多选题】 (2分)最典型的两种拟合不
5、佳的情况是( )。 A.弱拟合 B.过拟合 C.强拟合 D.欠拟合3【判断题】 (2分)岭回归适用于样本很少,但变量很多的回归问题。( ) A.错 B.对4【单选题】 (2分)最小二乘方法的拟合程度衡量指标是( )。 A.残差和 B.残差平方和 C.均值差 D.拟合残差5【单选题】 (2分)关于最小二乘法,下列说法正确的是。( ) A.最小二乘法要求样本点到拟合直线的垂直距离的平方和最小 B.最小二乘法要求样本点到拟合直线的竖直距离的和最小 C.最小二乘法要求样本点到拟合直线的竖直距离的平方和最小 D.最小二乘法要求样本点到拟合直线的垂直距离的和最小第五章单元测试1【判断题】 (2分)在区分某
6、个算法是否是聚类算法时,往往可以通过该算法是否需要预先设定明确的类中心来判断( )。 A.对 B.错2【多选题】 (2分)闵可夫斯基距离是一组距离的定义,下列距离中属于闵可夫斯基距离的有( ) A.欧式距离 B.马氏距离 C.切比雪夫距离 D.曼哈顿距离3【多选题】 (2分)在利用EM算法估计高斯混合模型参数的时候,需要预先设定的参数有( )。 A.类别个数 B.高斯元的权重系数 C.高斯元的方差 D.高斯元的均值4【单选题】 (2分)聚类算法是一种( )的学习方式。 A.Q型 B.无监督 C.自上而下 D.有监督5【单选题】 (2分)理想情况下,K均值算法中确定类别个数的最佳方式为( )。
7、A.结合先验知识确定 B.随机确定 C.无需提前确定,可以在训练中得到 D.根据比较不同类别个数时的聚类效果来确定第六章单元测试1【判断题】 (2分)随机森林只能选择决策树作为基分类器。( ) A.错 B.对2【单选题】 (2分)在Bootstrap自助采样法中,真实的情况是( )。 A.在每一次采样中,样本之间不重复;在完成n次采样之后,所有样本都会被采集到 B.在每一次采样中,样本之间可能有重复;在完成n次采样之后,有些样本可能没有被采集到 C.在每一次采样中,样本之间不重复;在完成n次采样之后,有些样本可能没有被采集到 D.在每一次采样中,样本之间可能有重复;在完成n次采样之后,所有样本
8、都会被采集到3【单选题】 (2分)对于离散型随机变量X,它的熵取决于( )。 A.X取每个值的概率 B.X的取值范围 C.X的期望 D.X的分布函数4【多选题】 (2分)随机森林有哪些优点( )。 A.训练速度快 B.减弱单决策树的过拟合情况 C.可以给出特征的重要性大小 D.可以处理高维度数据5【多选题】 (2分)随机森林的随机性体现在哪里( ) A.每棵树的结点采用随机属性搜索 B.随机采用随机抽取的样本来训练整个随机森林 C.随机删除一些树内结点 D.每棵树采用随机取样训练第七章单元测试1【判断题】 (2分)典型相关分析适用于分析两组变量之间的关系( ) A.对 B.错2【单选题】 (2
9、分)CCA算法在求解时,分别在两组变量中选取具有代表性的综合变量Ui,Vi,每个综合变量是原变量的线性组合,选择综合变量时的目标是( ) A.最小化两者的相关系数 B.最小化两者的距离 C.最大化两者的距离 D.最大化两者的相关系数3【单选题】 (2分)相比于普通CCA算法,Kernel CCA( ) A.只考虑临近点的影响 B.能分析两组随机变量之间的非线性关系 C.将标签信息融入到CCA框架中 D.使用了自编码器4【多选题】 (2分)关于典型相关分析CCA与主成分分析PCA,下面说法错误的是( ) A.PCA可以视为一种降维技术,CCA不可以视为一种降维技术 B.是否进行归一化,都不影响分
10、析结果 C.都基于变量的线性变换 D.考虑了变量的相关性信息5【多选题】 (2分)传统典型相关分析的基本假设包括( ) A.变量间的关系是线性关系:每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系; B.样本的同质性高,但各组内变量间不能有高度的复共线性。 C.变量具有正态性; D.两组变量的地位是相等的。第八章单元测试1【判断题】 (2分)为了提高预测结果的精度,网络结构设置得越复杂越好,不必考虑训练网络时所花费的时间。( ) A.错 B.对2【单选题】 (2分)下面哪个函数不是神经元的激活函数( ) A. B. C. D. 3【单选题】 (2分)关于卷积神经网络CNN,以
11、下说法错误的是:( ) A.由于卷积核的大小一般是3*3或更大,因此卷积层得到的特征图像一定比原图像小。 B.CNN由卷积层、池化层和全连接层组成,常用于处理与图像有关的问题。 C.CNN中的全连接层常用softmax作为激活函数。 D.CNN中的池化层用于降低特征图维数,以避免过拟合。4【多选题】 (2分)相较于传统RNN,LSTM引入了独特的门控机制。以下哪些是LSTM中包含的门结构:( ) A.输出门 B.更新门 C.遗忘门 D.输入门5【多选题】 (2分)关于卷积神经网络CNN与循环神经网络RNN,下面说法正确的有:( ) A.CNN和RNN都采用了权值共享机制以减少网络中的参数量。
12、B.CNN适用于图像处理,而RNN适用于序列数据处理。 C.在同一个网络中,CNN结构和RNN结构不能同时使用。 D.CNN和RNN都属于神经网络,因此二者的训练方式完全一致,均采用BP算法。第九章单元测试1【判断题】 (2分)自编码器的训练属于半监督学习。( ) A.对 B.错2【单选题】 (2分)下面哪一种算法属于生成式模型( )。 A.决策树 B.变分自编码器 C.支持向量机 D.线性回归模型3【单选题】 (2分)关于去噪自编码器DAE,以下说法错误的是:( ) A.DAE中假设所有含噪样本的损坏过程一致。 B.DAE一般以含噪声数据作为输入,并输出重构的去噪数据。 C.DAE训练时需要
13、保证训练数据的完整性。 D.DAE的Loss函数用于最小化预测结果 与噪声数据 间的误差。4【多选题】 (2分)在稀疏自编码器中,假设神经元采用tanh作为激活函数,则:( ) A.当神经元的输出接近-1的时候,认为它被抑制。 B.当神经元的输出接近1的时候,认为它被激活。 C.当神经元的输出接近0的时候,认为它被激活。 D.当神经元的输出接近0的时候,认为它被抑制。5【多选题】 (2分)关于变分自编码器VAE,以下说法正确的有:( ) A.VAE广泛用于生成图像。 B.VAE的变分下界由KL散度项和模型重建误差项组成。 C.VAE是一类生成模型,可用于训练出一个样本的生成器。 D.VAE的变
14、分下界中,KL散度项可以为负值。第十章单元测试1【判断题】 (2分)一般情况下我们在模型训练及调参前要先进行数据分析预处理以及特征工程,这是十分必要的一环( )。 A.对 B.错2【多选题】 (2分)对于糖尿病的血糖预测,我们可以考虑使用( )方法。 A.LSTM B.SVM C.DNN D.SVR3【单选题】 (2分)工业蒸汽量预测是一个( )问题。 A.多元回归 B.聚类 C.自回归 D.二分类4【单选题】 (2分)DBDAE降噪,训练过程中停止训练是因为( )。 A.PCA的重构误差已经最小 B.训练的Loss已经达到最小值 C.防止进一步学习噪声的信息 D.节省训练时间5【多选题】 (2分)双盲降噪自编码器中的“双盲”是指( )。 A.无需训练至Loss最小 B.无需得知噪声的特征信息 C.无需了解信号的纯净版本 D.无需训练中加入范数约束解忧书店,严禁转载,违者必究! 12 / 12
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。