机器学习基础复习提纲（信息填充）.docx_163文库

资源描述

1、机器学习基础复习提纲目录翻译31 Python 语法：32 Numpy 语法：33 matplotlib 画图：34 机器学习模型31、选择题（16 分）和 2、是非题（14 分）41.1 Python 语言的特点：动态类型，交互式，解释型，面向对象，多继承，函数返回值，函数作为参数，变长参数，缺省参数，命名参数41.2 三种for，for 和while 中的 break, continue, else51.3 List, Tuple, Dictionary, set51.4 range()函数产生List71.5 numpy.min, max, sort, argmin, argmax, a

2、rgsort, flipud, :-171.6 scatter, plot, bar, box，绘制多轴图，subplot(numRows, numCols, plotNum) 81.7 机器学习的一般慨念，比如：有监督的机器学习、无监督的机器学习、强化学习等91.8 机器学习模型评价方法和评价性能指标及其在 sklearn 中相关的函数 101.9 属性的类型，数据预处理技术（如 sklearn.preprocessing.StandardScaler， preprocessing.scale ， preprocessing.MinMaxScaler() ， preprocessing.no

3、rmalize ， processing.Normalizer()），过拟合和欠拟合，过拟合处理技术，参数和超参数 131.10 各个机器学习算法的基本性质153、简答题（8 题 40 分）（录音 08.25-） 183.1 学过的机器学习算法相关类的作用及其构造函数主要参数的意义； 183.2 与超参数调整相关类的使用193.3 数据预处理的方法，如独热编码 preprocessing.OneHotEncoder() ， sklearn.feature_extraction.DictVectorizer ，线性回归特征扩展方法preprocessing.Polynomi

4、alFeatures，文本处理sklearn.feature_extraction.text.CountVectorizer193.4 各种性能指标的计算，如二类分类问题的混淆矩阵、accuracy、precision、recall、f1、P-R 曲线和ROC 曲线，回归问题的 R-squared，聚类问题的关联矩阵、Rand index 和Jaccard Index203.5 多类分类（Multi-class classification）问题的各种处理策略（PPT05-2 P17） 223.6 多标签分类（Multi-label classification）问题的各种处理策略（P

5、PT05-2 P32） 223.7 学习过的主要集成机器学习算法的基本原理223.8 主要机器学习算法的具体实现，如决策树如何选择属性，朴素贝叶斯方法如何预测，k-means 算法的 2 个主要步骤，层次聚类如何选择合并的簇233.9 Python 语言lambda 表达式、filter、map 和reduce 的具体设计244、算法设计题264.1 用伪代码描述学习过的机器学习算法，如决策树、k-means、层次聚类、DBSCAN、强化学习算法（如 K-摇臂赌博机 -贪心法和Softmax 算法，Q-learning）、集成学习算法等264.2 用 python 语言实现上述算法294.3

6、用给定的机器学习方法解决问题，通常会要求根据性能指标重复多次寻找最优的超参数，将结果用曲线、柱状或者箱线图表示出来（主要类会给出）30翻译1 Python 语法：1.1 List（列表）, Tuple（元组）, Dictionary（字典）, set（集合） 2 Numpy 语法：2.1 arg 基于下表 2.2 flipud（上下翻转） 3 matplotlib 画图：3.1 scatter（散点图），plot（二维线画图），bar（直方图） 3.2 box（箱线图），subplot（绘制多轴图） 3.3 label（标签） 4 机器学习模型4.1 评价方法（Evaluation Meth

7、ods） 4.1.1 Holdout Method（留出法） 4.1.2 K-fold Cross-validation（K 折交叉验证法） 4.1.3 Bootstrapping（自助法） 4.2 性能指标（Metrics for Binary Classification） 4.2.1 二类分类问题 4.2.1.1 Accuracy（准确率） 4.2.1.2 Precision（查准率） 4.2.1.3 Recall（查全率，召回率） 4.2.2 聚类分类 4.3 算法 4.3.1 LinearRegression（线性回归） 4.3.2 Decision Tree（决策树） 4.3.3

8、SVM（Support Vector Machine 支持向量机） 4.3.4 KNN（K-Nearest Neighbor K 近邻） 4.3.5 MLP（multilayer perceptron 多层感知器） 4.3.6 SOM（Self-Organizing Map 自组织映射） 4.3.7 K-means（K 均值） 4.3.8 DBSACN（基于密度的聚类算法） 4.3.9 LogisticRegression（逻辑回归） 1、选择题（16 分）和 2、是非题（14 分）1.1 Python 语言的特点：动态类型，交互式，解释型，面向对象，多继承，函数返回值，函数作为参数，变长参

9、数，缺省参数，命名参数1.1.1 动态类型同一个对象名可以赋值不同的类型。 1.1.2 交互式 1.1.3 解释型 1.1.4 面向对象 1.1.5 多继承 class a(b,c)，a 继承了b，c。 1.1.6 函数返回值与 java 等语言不同，Python 可以返回多个值。 1.1.7 函数作为参数 def run(func)，在函数中可以使用 func()调用原来的函数。 1.1.8 变长参数 def func(a,*args)，在形参前加*可以把多个参数当成元组的形式传入，也就是传入的多个参数值可以在函数内部进行元祖遍历。 1.1.9 缺省参数 def func(a=1)，在参

10、数后使用赋值语句可以指定参数的缺省值（默认值）。 1.1.10 命名参数在调用函数时按照形参的名称传递参数，可以不受位置影响def func(a,b,c) pass func(b=2,c=3,a=1) 1.2 三种 for，for 和while 中的 break, continue, else1.2.1 1.2 三种for array = a,b,c for item in array:print(item)for index in range(len(array): print(str(index)+.+arrayindex)for index,val in enumerate(array

11、): print(str(index)+-+val);打印结果 a b c0.a1.b2.c0-a1-b2-c1.2.2 for 和while 中的 break, continue, else 1.2.2.1 break：中断循环 1.2.2.2 continue：跳过其下语句继续循环 1.2.2.3 else：退出循环时执行其中语句 1.3 List, Tuple, Dictionary, set1.3.1 List（列表）：可变的序列，可以增加或删除项，拥有迭代器 1.3.1.1 L=1,2,3，L1=#列表的定义 1.3.1.2 len(L)#列表的长度 1.3.1.3 item = L

12、index #列表中下标为 index 的项，下标从0 开始 1.3.1.4 seq = Lstart:stop #返回一个新的 list，包括从start 到stop 的项，start/stop 不指定时表示从头/到结尾，为负数时表示从头/到末尾第 n 个（从 1 开始） 1.3.1.5 M=L #指向对象 1.3.1.6M=L:克隆 1.3.1.7 L.append(obj)#在末尾添加单个元素 1.3.1.8 L.extend(sequence)#在末尾连接另一个序列（sequence） 1.3.1.9 L.insert(index,obj)#在 index 处插入 obj，原先的内容依

13、次向后移动 1 位，index 大于 Len 则在末尾插入 1.3.1.10 del Li #移除 i 位置上的元素，后续内容向前移动del Li:j #移除 i 到 J 位置上的元素，后续内容向前移动 1.3.1.11 item = L.pop() #弹出最后一个元素item = L.pop(0) #弹出第一个元素 item = L.pop(index) #弹出 index 上的元素 1.3.1.12 L.remove(item)#移除 L 中第一个匹配 item 的项 1.3.1.13 L.reverse()#将列表反向 1.3.1.14 L.sort()#将列表排序 1.3.2 Tupl

14、e（元组）：与列表类似，但不可变（无法修改） 1.3.2.1T1=(1,2,3)，T2=()，T3=(1，)#元组的定义，当元组仅含有单个元素时，必须在第一个项目后跟一个逗号 1.3.2.2 元组没有方法 1.3.2.3 元组可用于打印语句 print (%s is %d years old % (name, age) print (Why is %s playing with that python? % name) 1.3.3 Dictionary（字典）：键（key）与值（value）一一对应的列表 1.3.3.1 D= key1:value1,key2:value2#字典的定义，键/值

15、对用冒号分割，而各个对用逗号分割 1.3.3.2 字典的键大小写敏感 1.3.3.3 字典中键、值的类型可以不同 1.3.3.4 Dkey#字典的访问，例如 d = server:mpilgrim, database:master dserver mpilgrim 1.3.3.5 Dkey=new_value#字典的添加/修改 1.3.3.6 del Dkey#删除某个项 1.3.3.7 d.clear()#清空字典 1.3.4 set（集合）：无序集合 1.3.4.1 a. issuperset(b) # a 的所有元素是否都包含在b 中 1.3.4.2 a.intersection(b,c

16、,d)#返回多个集合都包含的元素 1.3.4.3 集合的使用案例 bri = set(brazil, russia, india) india in bri True usa in bri False bric = bri.copy() bric.add(china) bric.issuperset(bri)#判断True bri.remove(russia) bri & bric # OR bri.intersection(bric) brazil, india 1.4 range()函数产生 List1.4.1 range range(start, stop, step)函数可创建一个整数

17、列表，一般用在 for 循环中。 1.4.2 参数： 1.4.2.1 start: 计数从 start 开始。默认是从 0 开始。例如range（5）等价于 range（0， 5）; 1.4.2.2 stop: 计数到 stop 结束，但不包括 stop。例如： range（0， 5）是0, 1, 2, 3, 4没有 5 1.4.2.3 step：步长，默认为 1。例如：range（0， 5）等价于 range(0, 5, 1) 1.5 numpy.min, max, sort, argmin, argmax, argsort, flipud, :-11.5.1 numpy.min 返回最

18、小值。 1.5.2 numpy.max 返回最大值。 1.5.3 numpy.sort 返回排序过的数组。 1.5.4 numpy.argmin 返回最小值所在下标。 1.5.5 numpy.argmax 返回最大值所在下标。 1.5.6 numpy.argsort 返回数组值从小到大的索引值。 1.5.7 numpy.flipud 返回上下翻转的矩阵。1.5.8 :-1 数组倒序 1.6 scatter, plot, bar, box ，绘制多轴图， subplot(numRows, numCols, plotNum)1.6.1 scatter（散点图） 1.6.1.1 plt.scatt

19、er(x, y, s=area, c=colors1, alpha=0.4, label=类别 A)#例子 1.6.1.2 参数： 1.6.1.2.1 x,y设置点的位置 1.6.1.2.2 s点的大小 1.6.1.2.3 c点的颜色 1.6.1.2.4 marker点的形状 1.6.1.2.5 alpha点的透明度 1.6.2 plot（二维线画图） 1.6.2.1 plt.plot(x, y, ls=-, lw=2, label=“plot figure”)#例子 1.6.2.2 参数： 1.6.2.2.1 x: x 轴上的数值 1.6.2.2.2 y: y 轴上的数值 1.6.2.2.3

20、 ls：折线图的线条风格 1.6.2.2.4 lw：折线图的线条宽度 1.6.2.2.5 label：标记图内容的标签文本 1.6.3 bar（直方图） 1.6.3.1 bar(x, height, width=0.8, bottom=None, *, align=center, data=None, *kwargs)#标准函数 1.6.3.2 ax.bar(ind - width/2, men_means, width, color=SkyBlue, label=Men)#例子 1.6.3.3 参数： 1.6.3.3.1 x x 坐标 1.6.3.3.2 height 条形的高度 1.6.3

21、.3.3 width 宽度 1.6.4 box（箱线图） 1.6.4.1 plt.boxplot(x) 1.6.4.2 优点： 1.6.4.2.1 可以直观明了地识别数据中的异常值。 1.6.4.2.2 利用箱体图可以判断数据的偏态和尾重。 1.6.4.2.3 利用箱体图可以比较不同批次的数据形状。 1.6.5 绘制多轴图 1.6.5.1 函数：subplot(numRows, numCols, plotNum) 1.6.5.2 subplot 将整个绘图区域等分为numRows 行 * numCols 列个子区域，然后按照从左到右，从上到下的顺序对每个子区域进行编号，左上的子区域的编号为 1

22、。 1.6.5.3 如果 numRows，numCols 和 plotNum 这三个数都小于 10 的话，可以把它们缩写为一个整数，例如 subplot(323)和subplot(3,2,3)是相同的。 1.7 机器学习的一般慨念，比如：有监督的机器学习、无监督的机器学习、强化学习等1.7.1 有监督的机器学习 1.7.1.1 通过有标签的数据进行训练 1.7.1.2 核心：分类 1.7.1.3 同维 1.7.1.4 分类同时定性 1.7.1.5 独立分布数据更适合有监督 1.7.1.6 不透明 1.7.2 无监督的机器学习 1.7.2.1 通过无标签的数据进行训练 1.7.2.2 核心：聚类

23、 1.7.2.3 降维 1.7.2.4 先聚类后定性 1.7.2.5 非独立数据更适合无监督 1.7.2.6 可解释性 1.7.3 强化学习 1.7.3.1 没有数据，通过奖励和惩罚进行训练 1.7.3.2 基本内涵是将问题用代理（Agent，有的地方也将其翻译为智能体）和环境进行建模。 1.8 机器学习模型评价方法和评价性能指标及其在 sklearn 中相关的函数1.8.1 评价方法（Evaluation Methods）（Lab04-LR） 1.8.1.1 Holdout Method（留出法） 1.8.1.1.1 将数据集分为两个不相交的部分：训练集和测试集。 1.8.1.1.2 取约

24、2/34/5 数据集作为训练数据。 1.8.1.1.3 sklearn.model_selection.train_test_split(tra in_data,train_target, test_size=0.4, random_state=0,stratify=y_train) 1.8.1.1.4 参数： 1.8.1.1.4.1 train_data：所要划分的样本特征集。 1.8.1.1.4.2 train_target：所要划分的样本结果。 1.8.1.1.4.3 test_size：样本占比，如果是整数的话就是样本的数量。 1.8.1.1.4.4 random_state：是随机数

25、的种子。1.8.1.1.4.5stratify 是为了保持 split 前类的分布。比如有 100 个数据，80 个属于 A 类，20 个属于B 类。 1.8.1.2 K-fold Cross-validation（K 折交叉验证法） 1.8.1.2.1 可能是最常见但计算量更大的方法。 1.8.1.2.2 将数据集拆分为 k 个不相交的部分，称为折叠 1.8.1.2.3 K 折交叉验证是交叉验证的一种特殊情况，其中我们遍历数据集 k 次。在每一轮中，一个部分用于验证，其余的 k-1 个部分合并到训练子集中以进行模型评估。 1.8.1.2.4 k 的典型选择是 5、10 或 20。 1.8.1

26、.2.5 cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=warn, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=2*n_jobs, error_score=raise- deprecating)Bootstrapping（自助法） 1.8.1.2.6 参数： 1.8.1.2.6.1 estimator：需要使用交叉验证的算法。 1.8.1.2.6.2 X：输入样本数据。 1.8.1.2.6.3 y：样本标签。 1.8.1.2.6.4 s

27、coring：交叉验证最重要的就是他的验证方式，选择不同的评价方法，会产生不同的评价结果。 1.8.1.2.6.5 cv：交叉验证折数或可迭代的次数。 1.8.1.3 Bootstrapping（自助法） 1.8.1.3.1 通过对原始数据集进行重复采样并替换来从总体中生成新数据 1.8.1.3.2 大约选择 0.632n 个样本作为自举训练集，并保留 0.368n 个袋装样本用于每次迭代测试。 1.8.2 性能指标（Metrics for Binary Classification） 1.8.2.1 Accuracy（准确率） 1.8.2.1.1 含义：正确分类的样本的分数。 1.8.2

28、.1.2 实际上，仅当每个类别中的观察数相等时才是合适的（这种情况很少发生），并且所有预测和预测误差都同等重要，而通常情况并非如此。 1.8.2.1.3 并非总是有用的指标，可能会产生误导。 1.8.2.1.4 准确率计算公式Acc =TP + TNFP + FN + TP + TN 。 1.8.2.2 Precision（查准率） 1.8.2.2.1 含义：预测为正确，并且实际为正确的样本占所有预测为正确的比率。 1.8.2.2.2 当目标是限制误报的数量时，将查准率用作性能指标。 1.8.2.2.3 通过提高阈值来提高查准率。 1.8.2.2.4 阈值：可以理解为样本被判断为正类的严厉度

29、，当阈值较高时，负类被识别正类的机会降低，同时一些正类会被误认为是负类；当阈值取较小值时，很多正类就不会被误分为负类，同样，较小的阈值使得负类被误分为正类的概率增加。 1.8.2.2.5 查准率计算公式： P =TPTP + FP 。 1.8.2.3 Recall（查全率，召回率） 1.8.2.3.1 含义：预测为正确，并且实际为正确的样本占所有实际正确的比率。 1.8.2.3.2 当需要识别所有阳性样本时，将精度用作性能指标。 1.8.2.3.3 通过降低阈值来提高召回率。 1.8.2.3.4 查全率计算公式 R =1.8.2.4 F-score TPTP + FN 。 1.8.2.4

30、.1 含义：具有精度和召回率的调和平均数。 1.8.2.4.2 可以综合查准率与查全率的评估指标，用于综合反映整体的指标。 1.8.2.4.3 F1 计算公式： F1 = 2 P R 。 P + R1.8.2.4.4 特殊比率1.8.2.4.4.1计算公式： Fb =(1+ b 2 ) P Rb 2 P + R=(1+ b 2 ) TP(1+ b 2 ) TP + b 2 FN + FP1.8.2.4.4.2=1,退化为 F1, 1.8.2.4.4.3 1 时查全率有更大影响,逃犯信息检索 1.8.2.4.4.4 1 时查准率有更大影响，用户兴趣推荐 1.8.2.5pr 曲线（PPT05-1，

31、P28） 1.8.2.5.1 以查准率为纵轴、查全率为横轴。 1.8.2.5.2 若一个学习器的 P-R 曲线被另一个学习器的曲线完全“包”住，则可断言后者的性能优于前者，例如，A 优于 C，B 优于 C。 1.8.2.5.3 完整介绍：在很多情形下，我们可根据学习器的预测结果对样例进行排序，排在前面的是学习器认为最可能是正例的样本?排在最后的则是学习器认为最不可能是正例的样本.按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率以查准率为纵轴、查全率为横轴作图，就得到了查准率- 查全率曲线，简称 P-R 曲线显示该曲线的图称为 P-R 图。 1.8.2.6ROC-AU

32、C 曲线（PPT05-1 P31-32） 1.8.2.6.1 ROC（受试者工作特征） 1.8.2.6.2 AUC（ROC 曲线下面积） 1.8.2.6.3 ROC 图的绘制：给定 m+个正例和m-个负例，根据学习器预测结果对样例进行排序，将分类阈值设为每个样例的预测值，当前标记点坐标为(x,y),当前若为真正例，则对应标记点的坐标为(x,y+1/(m+);当前若为假正例，则对应标记点的坐标为(x+1/(m-),y),然后用线段连接相邻点. 1.8.2.7 gini 系数 1.8.2.7.1 尽量让分出来的子节点拥有尽量低的不纯度（越纯则类标越明确）。 1.8.2.7.2 如果将数据集 D

33、在 A 上分为两个子集D1 和 D2，则基尼系数 gini（D）定义为杂质减少。 1.9 属性的类型，数据预处理技术（如 sklearn.preprocessing.StandardScaler， preprocessing.scale，preprocessing.MinMaxScaler()， preprocessing.normalize，processing.Normalizer()），过拟合和欠拟合，过拟合处理技术，参数和超参数1.9.1 属性的类型 1.9.1.1 离散型 1.9.1.2 连续型 1.9.1.3 Binary 1.9.2 数据预处理技术（Preprocessing

34、） 1.9.2.1 sklearn.preprocessing.StandardScaler 1.9.2.1.1 标准化（去除均值和方差缩放）。 1.9.2.1.2 使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。 1.9.2.2 preprocessing.scale() 1.9.2.2.1 标准化（去除均值和方差缩放）。 1.9.2.2.2 可以直接将给定数据进行标准化。 1.9.2.3 preprocessing.MinMaxScaler() 1.9.2.3.1 将属性缩放到一个指定范围。 1.9.2.3.2 将属性缩放到一个指定的最大和最小值（通常是

35、 1- 0）之间。 1.9.2.3.3 min_max_scaler.fit(训练集) 进行训练 1.9.2.3.4 min_max_scaler.fit_transform(训练集) 进行训练并转换 1.9.2.3.5 t=min_max_scaler.fit(数据集) 进行转换 1.9.2.4 preprocessing.normalize() 1.9.2.4.1 正则化。 1.9.2.4.2 将每个样本缩放到单位范数（每个样本的范数为1），Normalization 主要思想是对每个样本计算其p- 范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的 p-范数（

36、l1- norm,l2-norm）等于 1。 1.9.2.5 processing.Normalizer() 1.9.2.5.1 正则化。 1.9.2.5.2 实现对训练集和测试集的拟合和转换。 1.9.3 过拟合和欠拟合 1.9.3.1 过拟合（over-fitting） 1.9.3.1.1 过度符合训练集导致在测试集上表现不佳。 1.9.3.2 欠拟合（underfitting） 1.9.3.2.1 指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。 1.9.4 过拟合处理技术 1.9.4.1 正则化是可以用来防止过度拟合的技术的集合。正则

37、化通常以对复杂性的惩罚的形式将信息添加到问题中。 1.9.4.2 L1 产生稀疏模型 1.9.4.3 L2 防止过拟合 1.9.5 参数和超参数 1.9.5.1 参数 1.9.5.1.1 模型内部的配置变量，可以用数据估计它的值。 1.9.5.1.2 一般不由实践者手动设置。 1.9.5.1.3 例子： 1.9.5.1.3.1 人造神经网络中的权重。 1.9.5.1.3.2 支持向量机中的支持向量。 1.9.5.1.3.3 线性回归或逻辑回归中的系数。 1.9.5.2 超参数 1.9.5.2.1 模型外部的配置，其值不能从数据估计得到。 1.9.5.2.2 由实践者直接指定。 1.9.5.2.

38、3 例子： 1.9.5.2.3.1 训练神经网络的学习速率。 1.9.5.2.3.2 支持向量机的 C 和 sigma 超参数。 1.9.5.2.3.3 k 邻域中的 k。 1.10 各个机器学习算法的基本性质1.10.1 LinearRegression（线性回归） 1.10.1.1 模拟因变量和自变量之间的线性关系 1.10.1.2 预测的是连续值 1.10.2 Decision Tree（决策树） 1.10.2.1 优点： 1.10.2.1.1 易于理解和实现。 1.10.2.1.2 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 1.10.2.1.3 易于通过静态测试来对模

39、型进行评测，可以测定模型可信度；如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。 1.10.2.2 缺点： 1.10.2.2.1 对连续性的字段比较难预测。 1.10.2.2.2 对有时间顺序的数据，需要很多预处理的工作。 1.10.2.2.3 当类别太多时，错误可能就会增加的比较快。 1.10.2.2.4 一般的算法分类的时候，只是根据一个字段来分类。 1.10.3 SVM（Support Vector Machine 支持向量机）（PPT08-1） 1.10.3.1 是一种二分类模型。 1.10.3.2 定义在特征空间上的间隔最大的线性分类器。 1.10.3.3

40、学习策略：间隔最大化。 1.10.4 KNN（K-Nearest Neighbor K 近邻）（PPT07-1 P2-） 1.10.4.1 对每个距离进行排序，然后选择出距离最小的 K 个点。对 K 个点所属的类别进行比较，根据少数服从多数的原则，将测试样本点归入在 K 个点中占比最高的那一类。 1.10.4.2 优点： 1.10.4.2.1 方法思路简单，易于理解，易于实现，无需估计参数，无需训练。 1.10.4.2.2 它没有明确建立模型（懒惰的分类器）。 1.10.4.3 缺点： 1.10.4.3.1 当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一

41、个新样本时，该样本的 K 个邻居中大容量类的样本占多数。 1.10.4.3.2 计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的 K 个最近邻点。 1.10.5 MLP（multilayer perceptron 多层感知器）（PPT10-2 P15-） 1.10.5.1 要解决非线性可分问题，需考虑使用多层功能神经元，比如对异或问题。 1.10.5.2 学习的目标是均方误差。 1.10.5.3 输入层神经元仅是接受输入，不进行函数处理，隐层与输出层包含功能神经元。 1.10.6 SOM（Self-Organizing Map 自组织映射）（PPT10-2

42、P25-） 1.10.6.1 SOM 网络是一种竞争学习型的无监督神经网络，将高维空间中相似的样本点映射到网络输出层中的邻近神经元。 1.10.6.2 典型 SOM 网络共有两层，输入层模拟感知外界输入信息的视网膜，输出层模拟做出响应的大脑皮层。 1.10.7 K-means（K 均值）（PPT09-2 P3-） 1.10.7.1 每个点都分配给具有最接近质心的聚类。 1.10.7.2 优化目标：误差平方和。 1.10.7.3 优点： 1.10.7.3.1 高效。 1.10.7.3.2 易于实施。 1.10.7.4 缺点： 1.10.7.4.1 需要指定 K，集群数 1.10.7.4.2 局部

43、最小值 1.10.7.4.3 可能出现空簇 1.10.7.4.4 无法处理不规则形状 1.10.8 DBSACN（基于密度的聚类算法）（PPT09-2 P26-） 1.10.8.1 密度聚类算法。它基于一组“邻域” (neighborhood) 参数（, MinPts）来刻画样本分布的紧密程度。 1.10.8.2 最少数目 MinPts。 3、简答题（8 题 40 分）（录音 08.25-）3.1 学过的机器学习算法相关类的作用及其构造函数主要参数的意义；3.1.1 LinearRegression（PPT03-2 P5-） 3.1.1.1 作用：进行简单线性回归。 3.1.1.2 说明 Li

44、nearRegression 的构造函数中参数fit_intercept、normalize、 copy_X 和n_jobs 的意义； 3.1.1.2.1 fit_intercept 3.1.1.2.2 normalize 3.1.1.2.3 copy_X 3.1.1.2.4 n_jobs 3.1.1.3 说明方法 fit、predict 和 score 的作用。 3.1.1.3.1 fit 3.1.1.3.2 predict 3.1.1.3.3 score 3.1.2 PolynomialFeatures 3.1.2.1 作用：进行特征的构造。 3.1.2.2 假设输入样本包含 2 个特征

45、a 和 b，用例子说明构造函数中参数 degree、interaction_only 和 include_bias 的意义 3.1.2.2.1 degree 3.1.2.2.2 interaction_only 3.1.2.2.3 include_bias 3.1.2.3 说明方法 fit、fit_transform 和 transform 作用，注意他们之间的区别。 3.1.2.3.1 fit 3.1.2.3.2 fit_transform 3.1.2.3.3 transform 3.1.3 linear_model 3.1.3.1 作用：进行线性回归。 3.1.3.2 linear_model 中有哪些Classical linear regressors； 3.1.3.3 linear_model 中有哪些模型实现了特征选择（Regressors with variable selection）。 3.1.4 LogisticRegression 3.1.4.1 作用：进行逻辑回归。 3.1.4.2 说明 LogisticRegression 类中参数 penalty 和 solver 的意义及他们之间的关系 3.1.4.2.1 penalty 3.1.4.2.2

展开阅读全文