1、第一章 机器学习概述1.机器学习研究什么问题,构建一个完整的机器学习算法需要哪些要素?机器学习主要研究如何选择统计学习模型,从大量已有数据中学习特定经验。构建一个完整的机器学习算法需要三个方面的要素,分别是数据,模型,性能度量准则。2.可以生成新数据的模型是什么,请举出几个例子可以生成新数据的模型是生成模型,典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。3.监督学习、半监督学习和无监督学习是什么,降维和聚类属于哪一种?监督学习是指样本集合中包含标签的机器学习,无监督学习是无标签的机器学习,而半监督学习介于二者之间。降维和聚类是无监督学习。4.过拟合和欠拟合会导
2、致什么后果,应该怎样避免?过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方式来缓解。而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行改进,设计新的模型重新训练,增加训练过程的迭代次数。5.什么是正则化,L1正则化与L2正则化有什么区别?正则化是一种抑制模型复杂度的方法。L1正则化能够以较大概率获得稀疏解,起到特征选择的作用,并且可能得到不止一个最优解。L2正则化相比前者获得稀疏解的概率小的多,但得到的解更加平滑。第二章 逻辑回归与最大熵
3、模型1.逻辑回归模型解决( B )A.回归问题B.分类问题C.聚类问题D.推理问题2.逻辑回归属于( B )回归A.概率性线性B.概率性非线性C.非概率性线性D.非概率性非线性3.逻辑回归不能实现( D )A.二分类B.多分类C.分类预测D.非线性回归4.下列关于最大熵模型的表述错误的是( B )A.最大熵模型是基于熵值越大模型越稳定的假设B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用D.最大熵模型是一种分类算法5.下列关于模型评价指标的表述错误的是( C )A.准确率、精确率、召回率以及AUC均是建立在混淆矩
4、阵的基础上B.在样本不平衡的条件下准确率并不能作为很好的指标来衡量结果C.准确率表示所有被预测为正的样本中实际为正的样本的概率D.一般来说,置信度阈值越高,召回率越低,而精确率越高6.简述逻辑回归的原理。7.最大熵模型的优点和缺点是什么?第三章 k-近邻算法1.k-近邻算法的基本要素不包括( C )A.距离度量B.k值的选择C.样本大小D.分类决策规则2.关于k-近邻算法说法错误的是( D )A.k-近邻算法是机器学习B.k-近邻算法是无监督学习C.k代表分类个数D.k的选择对分类结果没有影响3.以下关于k-近邻算法的说法中正确的是( B )A.k-近邻算法不可以用来解决回归问题B.随着k值的
5、增大,决策边界会越来越光滑C.k-近邻算法适合解决高维稀疏数据上的问题D.相对3近邻模型而言,1近邻模型的bias更大,variance更小4.( B )不可以通过无监督学习方式进行训练A.k-近邻算法B.决策树C.RBMD.GAN5.以下关于k-近邻算法的说法中,错误的是( C )A.一般使用投票法进行分类任务B.k-近邻算法属于懒惰学习C.k-近邻算法训练时间普遍偏长D.距离计算方法不同,效果也可能有显著差别6.简述k-近邻算法的步骤。7.k-近邻算法有哪些优缺点?第四章 决策树1.关于机器学习中的决策树学习,说法错误的是( A )A.受生物进化启发B.属于归纳推理C.用于分类和预测D.自
6、顶向下递推2.在构建决策树时,需要计算每个用来划分数据特征的得分,选择分数最高的特征,以下可以作为得分的是( D )A.熵B.基尼系数C.训练误差D.以上都是3.在决策树学习过程中,( D )可能会导致问题数据(特征相同但是标签不同)A.数据噪音B.现有特征不足以区分或决策C.数据错误D.以上都是4.根据信息增益来构造决策树的算法是( A )A.ID3决策树B.递归C.归约D.FIFO5.决策树构成顺序是( A )A.特征选择、决策树生成、决策树剪枝B.决策树剪枝、特征选择、决策树生成C.决策树生成、决策树剪枝、特征选择D.特征选择、决策树剪枝、决策树生成6.决策树适用于解决什么样的问题?7.
7、ID3和CART算法有什么区别?第五章 朴素贝叶斯分类器1.朴素贝叶斯分类器的特征不包括( C )A.孤立的噪声点对该分类器影响不大B.数据的缺失值影响不大C.要求数据的属性相互独立D.条件独立的假设可能不成立2.朴素贝叶斯分类器基于( B )假设A.样本分布独立性B.属性条件独立性C.后验概率已知D.先验概率已知3.下列关于朴素贝叶斯分类器错误的是( D )A.朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率B.对小规模的数据表现很好,能个处理多分类任务,适合增量式训练C.对缺失数据不太敏感,算法也比较简单,常用于文本分类D.对输入数据的表达形式不敏感4.朴素贝叶斯分类器为( A )A.生
8、成模型B.判别模型C.统计模型D.预算模型5.下列关于朴素贝叶斯分类器正确的是( D )A.朴素贝叶斯分类器的变量必须是非连续型变量B.朴素贝叶斯模型中的特征和类别变量之间也要相互独立C.朴素贝叶斯分类器对于小样本数据集效果不如决策树好D.朴素贝叶斯模型分类时需要计算各种类别的概率,取其中概率最大者为分类预测值6.如何理解朴素贝叶斯分类器中的拉普拉斯平滑?7.简述朴素贝叶斯算法的原理。第六章 支持向量机1.支持向量指的是( B )A.对原始数据进行采样得到的样本点B.决定分类面可以平移的范围的数据点C.位于分类面上的点D.能够被正确分类的数据点2.下面关于支持向量机(SVM)的描述错误的是(
9、D )A.是一种监督式学习的方法B.可用于多分类的问题C.支持非线性的核函数D.是一种生成式模型3.下面关于支持向量机(SVM)的描述错误的是( D )A.对于分类问题,支持向量机需要找到与边缘点距离最大的分界线,从而确定支持向量B.支持向量机的核函数负责输入变量与分类变量之间的映射C.支持向量机可根据主题对新闻进行分类D.支持向量机不能处理分界线为曲线的多分类问题4.支持向量机中margin指( C )A.盈利率B.损失误差C.间隔D.保证金5.选择margin最大的分类器的原因是( D )A.所需的支持向量个数最少B.计算复杂度最低C.训练误差最低D.有望获得较低的测试误差6.支持向量机的
10、基本思想是什么?7.支持向量机如何实现多分类?第七章 集成学习1.下列哪个集成学习器的个体学习器存在强依赖关系( A )A.BoostingB.BaggingC.Random ForestD.随机森林2.下列哪个集成学习器的个体学习器不存在强依赖关系( C )A.BoostingB.AdaBoostC.随机森林D.EM3.下列( D )不是Boosting的特点A.串行训练的算法B.基分类器彼此关联C.串行算法不断减小分类器训练偏差D.组合算法可以减小分类输出方差4.下列( C )不是Bagging的特点A.各基础分类器并行生成B.各基础分类器权重相同C.只需要较少的基础分类器D.基于Boot
11、strap采样生成训练集5.集成学习的主要思想是( D )A.将多个数据集合集成在一起进行训练B.将多源数据进行融合学习C.通过聚类算法使数据集分为多个簇D.将多个机器学习模型组合起来解决问题6.集成学习的基本原理是什么?举例说明三种集成学习的应用。7.集成学习中生成多样性大的个体学习器的方法有哪些?第八章 EM算法及其应用1.EM算法是( B )学习算法A.有监督B.无监督C.半监督D.都不是2.EM算法的E和M指( A )A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max3.EM算法可以应用于( D )A.学习贝叶
12、斯网络的概率B.EM-聚类C.训练HMMD.以上均可4.EM算法的核心思想是( A )A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。B.列出优化目标函数,通过方法计算出最优值C.列出优化目标函数,通过数值优化方法计算出最优值D.列出优化目标函数,通过坐标下降方法计算出最优值5.聚类算法包括( D )A.K-meansB.single-linkageC.Expectation-MaximumD.以上都有6.简述EM算法的基本流程。7.EM算法是如何应用于GMM的?第九章 降维1.下列可以用于降维的机器学习方法是( C )A.决策树B.KNNC.PCAD.K-means2.下列是
13、机器学习中降维任务的准确描述的为( B )A.依据某个准则对项目进行排序B.将其映射到低维空间来简化输入C.预测每个项目的实际值D.对数据对象进行分组3.下列可以可以通过机器学习解决的任务为( A )A.聚类、降维B.回归、迭代C.分类、抽象D.派生、推荐4.下列关于主成分分析的表述错误的是( D )A.主成分分析方法一种数据降维的方法B.通过主成分分析,可以将多个变量缩减为少数几个新的变量,而信息并没有损失,或者说信息损失很少C.通过主成分分析,可以用较少的新的指标来代替原来较多的指标反映的信息,并且新的指标之间是相互独立的D.主成分分析是数据增维的方法5.下列关于奇异值分解的表述正确的是(
14、 C )A.只有方阵能进行奇异值分解B.只有非奇异矩阵能进行奇异值分解C.任意矩阵都能进行奇异值分解D.对称矩阵的奇异值就是其特征值6.简述主成分分析的基本原理。7.简述奇异值分解的基本原理。第十章 聚类1.欧氏距离是闵可夫斯基距离阶为( C )的特殊情况A.0.5B.1C.2D.2.在层次聚类中( C )A.需要用户预先设定聚类的个数B.需要用户预先设定聚类个数的范围C.对于N个数据点,可形成1到N个簇D.对于N个数据点,可形成1到N/2个簇3.关于K-Means算法的表述不正确的是( B )A.算法开始时,K-Means算法需要指定质心B.K-Means算法的效果不受初始质心选择的影响C.
15、K-Means算法需要计算样本与质心之间的距离D.K-means属于无监督学习4.K-Medoids聚类与K-Means聚类最大的区别在于( A )A.中心点的选取规则B.距离的计算方法C.聚类效果D.应用层面5.DBSCAN算法属于( D )A.划分聚类B.层次聚类C.完全聚类D.不完全聚类6.不同的聚类方法分别适用于什么样的场合,请简要分析。7.试分析K-Means聚类算法收敛的原因。第十一章 神经网络与深度学习1.下列关于标准神经元模型的说法错误的是( A )A.具有多个输入端,每个输入端具有相同的权重B.神经元具有Sigmoid或类似的可导激活函数C.神经元能够根据误差信号通过梯度下降
16、法调整权重,实现学习D.具有一个或多个输出端,且输出端信号一致2.下列关于多层感知机的描述正确的是( D )A.由于激活函数的非线性特点,导致反向传播过程中梯度消失的问题B.激活函数不必可导C.没有前馈计算也可以进行反向传播计算D.ReLU激活函数导致的神经元死亡指的是该节点以后都不可能被激活3.误差反向传播算法属于( B )学习规则A.无导师B.有导C.死记忆D.混合4.下列关于卷积神经网络说法错误的是( A )A.是目前网络深度最深、应用最成功的深度学习模型B.卷积神经网络模拟了人类视觉信息处理的过程C.图像的卷积,很类似视觉皮层对图像进行某种特定功能的处理D.模拟大脑的视觉处理过程就是卷积神经网络的思路5.下列关于生成对抗网络的描述错误的是( D )A.生成对抗网络包括两部分,即生成器和判别器B.生成对抗网络的判别器进行训练时,其输入为生成器生成的图像和来自训练集中的真实图像,并对其进行判别C.生成对抗网络的生成器从随机噪声中生成图像(随机噪声通常从均匀分布或高斯分布中获取)D.既然生成对抗网络是无监督模型,则不需要任何训练数据6.前馈式神经元网络与反馈式神经元网络有何不同?7.简述误差反向传播算法。