1、机器学习基础复习提纲目录翻译31 Python 语法:32 Numpy 语法:33 matplotlib 画图:34 机器学习模型31、选择题(16 分)和 2、是非题(14 分)41.1 Python 语言的特点:动态类型,交互式,解释型,面向对象,多继承,函数返回值,函数作为参数,变长参数,缺省参数,命名参数41.2 三种for,for 和while 中的 break, continue, else51.3 List, Tuple, Dictionary, set51.4 range()函数产生List71.5 numpy.min, max, sort, argmin, argmax, a
2、rgsort, flipud, :-171.6 scatter, plot, bar, box,绘制多轴图,subplot(numRows, numCols, plotNum) 81.7 机器学习的一般慨念,比如:有监督的机器学习、无监督的机器学习、强化学习等91.8 机器学习模型评价方法和评价性能指标及其在 sklearn 中相关的函数 101.9 属性的类型,数据预处理技术(如 sklearn.preprocessing.StandardScaler, preprocessing.scale , preprocessing.MinMaxScaler() , preprocessing.no
3、rmalize , processing.Normalizer()),过拟合和欠拟合,过拟合处理技术,参数和超参数 131.10 各个机器学习算法的基本性质153、简答题(8 题 40 分)(录音 08.25-) 183.1 学过的机器学习算法相关类的作用及其构造函数主要参数的意义; 183.2 与超参数调整相关类的使用193.3 数据预处理的方法, 如独热编码 preprocessing.OneHotEncoder() , sklearn.feature_extraction.DictVectorizer , 线 性 回 归 特 征 扩 展 方 法preprocessing.Polynomi
4、alFeatures, 文 本 处 理sklearn.feature_extraction.text.CountVectorizer193.4 各种性能指标的计算,如二类分类问题的混淆矩阵、accuracy、precision、recall、f1、P-R 曲线和ROC 曲线,回归问题的 R-squared,聚类问题的关联矩阵、Rand index 和Jaccard Index203.5 多类分类(Multi-class classification)问题的各种处理策略(PPT05-2 P17) 223.6 多标签分类(Multi-label classification)问题的各种处理策略(P
5、PT05-2 P32) 223.7 学习过的主要集成机器学习算法的基本原理223.8 主要机器学习算法的具体实现,如决策树如何选择属性,朴素贝叶斯方法如何预测,k-means 算法的 2 个主要步骤,层次聚类如何选择合并的簇233.9 Python 语言lambda 表达式、filter、map 和reduce 的具体设计244、算法设计题264.1 用伪代码描述学习过的机器学习算法,如决策树、k-means、层次聚类、DBSCAN、强化学习算法(如 K-摇臂赌博机 -贪心法和Softmax 算法,Q-learning)、集成学习算法等264.2 用 python 语言实现上述算法294.3
6、用给定的机器学习方法解决问题,通常会要求根据性能指标重复多次寻找最 优的超参数,将结果用曲线、柱状或者箱线图表示出来(主要类会给出)30翻译1 Python 语法:1.1 List(列表), Tuple(元组), Dictionary(字典), set(集合) 2 Numpy 语法:2.1 arg 基于下表 2.2 flipud(上下翻转) 3 matplotlib 画图:3.1 scatter(散点图),plot(二维线画图),bar(直方图) 3.2 box(箱线图),subplot(绘制多轴图) 3.3 label(标签) 4 机器学习模型4.1 评价方法(Evaluation Meth
7、ods) 4.1.1 Holdout Method(留出法) 4.1.2 K-fold Cross-validation(K 折交叉验证法) 4.1.3 Bootstrapping(自助法) 4.2 性能指标(Metrics for Binary Classification) 4.2.1 二类分类问题 4.2.1.1 Accuracy(准确率) 4.2.1.2 Precision(查准率) 4.2.1.3 Recall(查全率,召回率) 4.2.2 聚类分类 4.3 算法 4.3.1 LinearRegression(线性回归) 4.3.2 Decision Tree(决策树) 4.3.3
8、SVM(Support Vector Machine 支持向量机) 4.3.4 KNN(K-Nearest Neighbor K 近邻) 4.3.5 MLP(multilayer perceptron 多层感知器) 4.3.6 SOM(Self-Organizing Map 自组织映射) 4.3.7 K-means(K 均值) 4.3.8 DBSACN(基于密度的聚类算法) 4.3.9 LogisticRegression(逻辑回归) 1、选择题(16 分)和 2、是非题(14 分)1.1 Python 语言的特点:动态类型,交互式,解释型,面向对象,多继承, 函数返回值,函数作为参数,变长参
9、数,缺省参数,命名参数1.1.1 动态类型 同一个对象名可以赋值不同的类型。 1.1.2 交互式 1.1.3 解释型 1.1.4 面向对象 1.1.5 多继承 class a(b,c),a 继承了b,c。 1.1.6 函数返回值 与 java 等语言不同,Python 可以返回多个值。 1.1.7 函数作为参数 def run(func),在函数中可以使用 func()调用原来的函数。 1.1.8 变长参数 def func(a,*args),在形参前加*可以把多个参数当成元组的形式传入,也就是传入的多个参数值可以在函数内部进行元祖遍历。 1.1.9 缺省参数 def func(a=1),在参
10、数后使用赋值语句可以指定参数的缺省值(默认值)。 1.1.10 命名参数 在调用函数时按照形参的名称传递参数,可以不受位置影响def func(a,b,c) pass func(b=2,c=3,a=1) 1.2 三种 for,for 和while 中的 break, continue, else1.2.1 1.2 三种for array = a,b,c for item in array:print(item)for index in range(len(array): print(str(index)+.+arrayindex)for index,val in enumerate(array
11、): print(str(index)+-+val);打印结果 a b c0.a1.b2.c0-a1-b2-c1.2.2 for 和while 中的 break, continue, else 1.2.2.1 break:中断循环 1.2.2.2 continue:跳过其下语句继续循环 1.2.2.3 else:退出循环时执行其中语句 1.3 List, Tuple, Dictionary, set1.3.1 List(列表):可变的序列,可以增加或删除项,拥有迭代器 1.3.1.1 L=1,2,3,L1=#列表的定义 1.3.1.2 len(L)#列表的长度 1.3.1.3 item = L
12、index #列表中下标为 index 的项,下标从0 开始 1.3.1.4 seq = Lstart:stop #返回一个新的 list,包括从start 到stop 的项,start/stop 不指定时表示从头/到结尾,为负数时表示从头/到末尾第 n 个(从 1 开始) 1.3.1.5 M=L #指向对象 1.3.1.6M=L:克隆 1.3.1.7 L.append(obj)#在末尾添加单个元素 1.3.1.8 L.extend(sequence)#在末尾连接另一个序列(sequence) 1.3.1.9 L.insert(index,obj)#在 index 处插入 obj,原先的内容依
13、次向后移动 1 位,index 大于 Len 则在末尾插入 1.3.1.10 del Li #移除 i 位置上的元素,后续内容向前移动del Li:j #移除 i 到 J 位置上的元素,后续内容向前移动 1.3.1.11 item = L.pop() #弹出最后一个元素item = L.pop(0) #弹出第一个元素 item = L.pop(index) #弹出 index 上的元素 1.3.1.12 L.remove(item)#移除 L 中第一个匹配 item 的项 1.3.1.13 L.reverse()#将列表反向 1.3.1.14 L.sort()#将列表排序 1.3.2 Tupl
14、e(元组):与列表类似,但不可变(无法修改) 1.3.2.1T1=(1,2,3),T2=(),T3=(1,)#元组的定义,当元组仅含有单个元素时,必须在第一个项目后跟一个逗号 1.3.2.2 元组没有方法 1.3.2.3 元组可用于打印语句 print (%s is %d years old % (name, age) print (Why is %s playing with that python? % name) 1.3.3 Dictionary(字典):键(key)与值(value)一一对应的列表 1.3.3.1 D= key1:value1,key2:value2#字典的定义,键/值
15、对用冒号分割,而各个对用逗号分割 1.3.3.2 字典的键大小写敏感 1.3.3.3 字典中键、值的类型可以不同 1.3.3.4 Dkey#字典的访问,例如 d = server:mpilgrim, database:master dserver mpilgrim 1.3.3.5 Dkey=new_value#字典的添加/修改 1.3.3.6 del Dkey#删除某个项 1.3.3.7 d.clear()#清空字典 1.3.4 set(集合):无序集合 1.3.4.1 a. issuperset(b) # a 的所有元素是否都包含在b 中 1.3.4.2 a.intersection(b,c
16、,d)#返回多个集合都包含的元素 1.3.4.3 集合的使用案例 bri = set(brazil, russia, india) india in bri True usa in bri False bric = bri.copy() bric.add(china) bric.issuperset(bri)#判断True bri.remove(russia) bri & bric # OR bri.intersection(bric) brazil, india 1.4 range()函数产生 List1.4.1 range range(start, stop, step)函数可创建一个整数
17、列表,一般用在 for 循环中。 1.4.2 参数: 1.4.2.1 start: 计数从 start 开始。默认是从 0 开始。例如range(5)等价于 range(0, 5); 1.4.2.2 stop: 计数到 stop 结束,但不包括 stop。例如: range(0, 5) 是0, 1, 2, 3, 4没有 5 1.4.2.3 step:步长,默认为 1。例如:range(0, 5) 等价于 range(0, 5, 1) 1.5 numpy.min, max, sort, argmin, argmax, argsort, flipud, :-11.5.1 numpy.min 返回最
18、小值。 1.5.2 numpy.max 返回最大值。 1.5.3 numpy.sort 返回排序过的数组。 1.5.4 numpy.argmin 返回最小值所在下标。 1.5.5 numpy.argmax 返回最大值所在下标。 1.5.6 numpy.argsort 返回数组值从小到大的索引值。 1.5.7 numpy.flipud 返回上下翻转的矩阵。1.5.8 :-1 数组倒序 1.6 scatter, plot, bar, box , 绘制多轴图, subplot(numRows, numCols, plotNum)1.6.1 scatter(散点图) 1.6.1.1 plt.scatt
19、er(x, y, s=area, c=colors1, alpha=0.4, label=类别 A)#例子 1.6.1.2 参数: 1.6.1.2.1 x,y设置点的位置 1.6.1.2.2 s点的大小 1.6.1.2.3 c点的颜色 1.6.1.2.4 marker点的形状 1.6.1.2.5 alpha点的透明度 1.6.2 plot(二维线画图) 1.6.2.1 plt.plot(x, y, ls=-, lw=2, label=“plot figure”)#例子 1.6.2.2 参数: 1.6.2.2.1 x: x 轴上的数值 1.6.2.2.2 y: y 轴上的数值 1.6.2.2.3
20、 ls:折线图的线条风格 1.6.2.2.4 lw:折线图的线条宽度 1.6.2.2.5 label:标记图内容的标签文本 1.6.3 bar(直方图) 1.6.3.1 bar(x, height, width=0.8, bottom=None, *, align=center, data=None, *kwargs)#标准函数 1.6.3.2 ax.bar(ind - width/2, men_means, width, color=SkyBlue, label=Men)#例子 1.6.3.3 参数: 1.6.3.3.1 x x 坐标 1.6.3.3.2 height 条形的高度 1.6.3
21、.3.3 width 宽度 1.6.4 box(箱线图) 1.6.4.1 plt.boxplot(x) 1.6.4.2 优点: 1.6.4.2.1 可以直观明了地识别数据中的异常值。 1.6.4.2.2 利用箱体图可以判断数据的偏态和尾重。 1.6.4.2.3 利用箱体图可以比较不同批次的数据形状。 1.6.5 绘制多轴图 1.6.5.1 函数:subplot(numRows, numCols, plotNum) 1.6.5.2 subplot 将整个绘图区域等分为numRows 行 * numCols 列个子区域,然后按照从左到右,从上到下的顺序对每个子区域进行编号,左上的子区域的编号为 1
22、。 1.6.5.3 如果 numRows,numCols 和 plotNum 这三个数都小于 10 的话,可以把它们缩写为一个整数,例如 subplot(323)和subplot(3,2,3)是相同的。 1.7 机器学习的一般慨念,比如:有监督的机器学习、无监督的机器学习、强化学习等1.7.1 有监督的机器学习 1.7.1.1 通过有标签的数据进行训练 1.7.1.2 核心:分类 1.7.1.3 同维 1.7.1.4 分类同时定性 1.7.1.5 独立分布数据更适合有监督 1.7.1.6 不透明 1.7.2 无监督的机器学习 1.7.2.1 通过无标签的数据进行训练 1.7.2.2 核心:聚类
23、 1.7.2.3 降维 1.7.2.4 先聚类后定性 1.7.2.5 非独立数据更适合无监督 1.7.2.6 可解释性 1.7.3 强化学习 1.7.3.1 没有数据,通过奖励和惩罚进行训练 1.7.3.2 基本内涵是将问题用代理(Agent,有的地方也将其翻译为智能体)和环境进行建模。 1.8 机器学习模型评价方法和评价性能指标及其在 sklearn 中相关的函数1.8.1 评价方法(Evaluation Methods)(Lab04-LR) 1.8.1.1 Holdout Method(留出法) 1.8.1.1.1 将数据集分为两个不相交的部分:训练集和测试集。 1.8.1.1.2 取约
24、2/34/5 数据集作为训练数据。 1.8.1.1.3 sklearn.model_selection.train_test_split(tra in_data,train_target, test_size=0.4, random_state=0,stratify=y_train) 1.8.1.1.4 参数: 1.8.1.1.4.1 train_data:所要划分的样本特征集。 1.8.1.1.4.2 train_target:所要划分的样本结果。 1.8.1.1.4.3 test_size:样本占比,如果是整数的话就是样本的数量。 1.8.1.1.4.4 random_state:是随机数
25、的种子。1.8.1.1.4.5stratify 是为了保持 split 前类的分布。比如有 100 个数据,80 个属于 A 类,20 个属于B 类。 1.8.1.2 K-fold Cross-validation(K 折交叉验证法) 1.8.1.2.1 可能是最常见但计算量更大的方法。 1.8.1.2.2 将数据集拆分为 k 个不相交的部分,称为折叠 1.8.1.2.3 K 折交叉验证是交叉验证的一种特殊情况,其中我们遍历数据集 k 次。在每一轮中,一个部分用于验证,其余的 k-1 个部分合并到训练子集中以进行模型评估。 1.8.1.2.4 k 的典型选择是 5、10 或 20。 1.8.1
26、.2.5 cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=warn, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=2*n_jobs, error_score=raise- deprecating)Bootstrapping(自助法) 1.8.1.2.6 参数: 1.8.1.2.6.1 estimator: 需要使用交叉验证的算法。 1.8.1.2.6.2 X: 输入样本数据。 1.8.1.2.6.3 y: 样本标签。 1.8.1.2.6.4 s
27、coring: 交叉验证最重要的就是他的验证方式,选择不同的评价方法,会产生不同的评价结果。 1.8.1.2.6.5 cv: 交叉验证折数或可迭代的次数。 1.8.1.3 Bootstrapping(自助法) 1.8.1.3.1 通过对原始数据集进行重复采样并替换来从总体中生成新数据 1.8.1.3.2 大约选择 0.632n 个样本作为自举训练集,并保留 0.368n 个袋装样本用于每次迭代测试。 1.8.2 性能指标(Metrics for Binary Classification) 1.8.2.1 Accuracy(准确率) 1.8.2.1.1 含义:正确分类的样本的分数。 1.8.2
28、.1.2 实际上,仅当每个类别中的观察数相等时才是合适的(这种情况很少发生),并且所有预测和预测误差 都同等重要,而通常情况并非如此。 1.8.2.1.3 并非总是有用的指标,可能会产生误导。 1.8.2.1.4 准确率计算公式Acc =TP + TNFP + FN + TP + TN 。 1.8.2.2 Precision(查准率) 1.8.2.2.1 含义:预测为正确,并且实际为正确的样本占所有预测为正确的比率。 1.8.2.2.2 当目标是限制误报的数量时,将查准率用作性能指标。 1.8.2.2.3 通过提高阈值来提高查准率。 1.8.2.2.4 阈值:可以理解为样本被判断为正类的严厉度
29、,当阈值较高时,负类被识别正类的机会降低,同时一些 正类会被误认为是负类;当阈值取较小值时,很多正 类就不会被误分为负类,同样,较小的阈值使得负类 被误分为正类的概率增加。 1.8.2.2.5 查准率计算公式: P =TPTP + FP 。 1.8.2.3 Recall(查全率,召回率) 1.8.2.3.1 含义:预测为正确,并且实际为正确的样本占所有实际正确的比率。 1.8.2.3.2 当需要识别所有阳性样本时,将精度用作性能指标。 1.8.2.3.3 通过降低阈值来提高召回率。 1.8.2.3.4 查全率计算公式 R =1.8.2.4 F-score TPTP + FN 。 1.8.2.4
30、.1 含义:具有精度和召回率的调和平均数。 1.8.2.4.2 可以综合查准率与查全率的评估指标,用于综合反映整体的指标。 1.8.2.4.3 F1 计算公式: F1 = 2 P R 。 P + R1.8.2.4.4 特殊比率1.8.2.4.4.1计算公式: Fb =(1+ b 2 ) P Rb 2 P + R=(1+ b 2 ) TP(1+ b 2 ) TP + b 2 FN + FP1.8.2.4.4.2=1,退化为 F1, 1.8.2.4.4.3 1 时查全率有更大影响,逃犯信息检索 1.8.2.4.4.4 1 时查准率有更大影响,用户兴趣推荐 1.8.2.5pr 曲线(PPT05-1,
31、P28) 1.8.2.5.1 以查准率为纵轴、查全率为横轴。 1.8.2.5.2 若一个学习器的 P-R 曲线被另一个学习器的曲线完全“包”住,则可断言后者的性能优于前者,例如,A 优于 C,B 优于 C。 1.8.2.5.3 完整介绍:在很多情形下,我们可根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最可能是正例的样本?排在最后的则是学习器认为最不可能是正例的样本.按此顺序逐个把样本作为正例进 行预测,则每次可以计算出当前的查全率、查准率以 查准率为纵轴、查全率为横轴作图,就得到了查准率- 查全率曲线,简称 P-R 曲线显示该曲线的图称为 P-R 图。 1.8.2.6ROC-AU
32、C 曲线(PPT05-1 P31-32) 1.8.2.6.1 ROC(受试者工作特征) 1.8.2.6.2 AUC(ROC 曲线下面积) 1.8.2.6.3 ROC 图的绘制:给定 m+个正例和m-个负例,根据学习器预测结果对样例进行排序,将分类阈值设为每个 样例的预测值,当前标记点坐标为(x,y),当前若为真 正例,则对应标记点的坐标为(x,y+1/(m+);当前若为假正例,则对应标记点的坐标为(x+1/(m-),y),然后用线段连接相邻点. 1.8.2.7 gini 系数 1.8.2.7.1 尽量让分出来的子节点拥有尽量低的不纯度(越纯则类标越明确)。 1.8.2.7.2 如果将数据集 D
33、 在 A 上分为两个子集D1 和 D2,则基尼系数 gini(D)定义为杂质减少。 1.9 属性的类型,数据预处理技术(如 sklearn.preprocessing.StandardScaler, preprocessing.scale,preprocessing.MinMaxScaler(), preprocessing.normalize,processing.Normalizer()),过拟合和欠拟合, 过拟合处理技术,参数和超参数1.9.1 属性的类型 1.9.1.1 离散型 1.9.1.2 连续型 1.9.1.3 Binary 1.9.2 数据预处理技术(Preprocessing
34、) 1.9.2.1 sklearn.preprocessing.StandardScaler 1.9.2.1.1 标准化(去除均值和方差缩放)。 1.9.2.1.2 使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。 1.9.2.2 preprocessing.scale() 1.9.2.2.1 标准化(去除均值和方差缩放)。 1.9.2.2.2 可以直接将给定数据进行标准化。 1.9.2.3 preprocessing.MinMaxScaler() 1.9.2.3.1 将属性缩放到一个指定范围。 1.9.2.3.2 将属性缩放到一个指定的最大和最小值(通常是
35、 1- 0)之间。 1.9.2.3.3 min_max_scaler.fit(训练集) 进行训练 1.9.2.3.4 min_max_scaler.fit_transform(训练集) 进行训练并转换 1.9.2.3.5 t=min_max_scaler.fit(数据集) 进行转换 1.9.2.4 preprocessing.normalize() 1.9.2.4.1 正则化。 1.9.2.4.2 将每个样本缩放到单位范数(每个样本的范数为1),Normalization 主要思想是对每个样本计算其p- 范数,然后对该样本中每个元素除以该范数,这样处 理的结果是使得每个处理后样本的 p-范数(
36、l1- norm,l2-norm)等于 1。 1.9.2.5 processing.Normalizer() 1.9.2.5.1 正则化。 1.9.2.5.2 实现对训练集和测试集的拟合和转换。 1.9.3 过拟合和欠拟合 1.9.3.1 过拟合(over-fitting) 1.9.3.1.1 过度符合训练集导致在测试集上表现不佳。 1.9.3.2 欠拟合(underfitting) 1.9.3.2.1 指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟 合数据。 1.9.4 过拟合处理技术 1.9.4.1 正则化是可以用来防止过度拟合的技术的集合。正则
37、化通常以对复杂性的惩罚的形式将信息添加到问题中。 1.9.4.2 L1 产生稀疏模型 1.9.4.3 L2 防止过拟合 1.9.5 参数和超参数 1.9.5.1 参数 1.9.5.1.1 模型内部的配置变量,可以用数据估计它的值。 1.9.5.1.2 一般不由实践者手动设置。 1.9.5.1.3 例子: 1.9.5.1.3.1 人造神经网络中的权重。 1.9.5.1.3.2 支持向量机中的支持向量。 1.9.5.1.3.3 线性回归或逻辑回归中的系数。 1.9.5.2 超参数 1.9.5.2.1 模型外部的配置,其值不能从数据估计得到。 1.9.5.2.2 由实践者直接指定。 1.9.5.2.
38、3 例子: 1.9.5.2.3.1 训练神经网络的学习速率。 1.9.5.2.3.2 支持向量机的 C 和 sigma 超参数。 1.9.5.2.3.3 k 邻域中的 k。 1.10 各个机器学习算法的基本性质1.10.1 LinearRegression(线性回归) 1.10.1.1 模拟因变量和自变量之间的线性关系 1.10.1.2 预测的是连续值 1.10.2 Decision Tree(决策树) 1.10.2.1 优点: 1.10.2.1.1 易于理解和实现。 1.10.2.1.2 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 1.10.2.1.3 易于通过静态测试来对模
39、型进行评测,可以测定模型可信度;如果给定一个观察的模型,那么根据所产 生的决策树很容易推出相应的逻辑表达式。 1.10.2.2 缺点: 1.10.2.2.1 对连续性的字段比较难预测。 1.10.2.2.2 对有时间顺序的数据,需要很多预处理的工作。 1.10.2.2.3 当类别太多时,错误可能就会增加的比较快。 1.10.2.2.4 一般的算法分类的时候,只是根据一个字段来分类。 1.10.3 SVM(Support Vector Machine 支持向量机)(PPT08-1) 1.10.3.1 是一种二分类模型。 1.10.3.2 定义在特征空间上的间隔最大的线性分类器。 1.10.3.3
40、 学习策略:间隔最大化。 1.10.4 KNN(K-Nearest Neighbor K 近邻)(PPT07-1 P2-) 1.10.4.1 对每个距离进行排序,然后选择出距离最小的 K 个点 。对 K 个点所属的类别进行比较,根据少数服从多数的原则,将测试样本点归入在 K 个点中占比最高的那一类。 1.10.4.2 优点: 1.10.4.2.1 方法思路简单,易于理解,易于实现,无需估计参数,无需训练。 1.10.4.2.2 它没有明确建立模型(懒惰的分类器)。 1.10.4.3 缺点: 1.10.4.3.1 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一
41、个新样本 时,该样本的 K 个邻居中大容量类的样本占多数。 1.10.4.3.2 计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的 K 个最近邻点。 1.10.5 MLP(multilayer perceptron 多层感知器)(PPT10-2 P15-) 1.10.5.1 要解决非线性可分问题,需考虑使用多层功能神经元, 比如对异或问题。 1.10.5.2 学习的目标是均方误差。 1.10.5.3 输入层神经元仅是接受输入,不进行函数处理,隐层与输出层包含功能神经元。 1.10.6 SOM(Self-Organizing Map 自组织映射)(PPT10-2
42、P25-) 1.10.6.1 SOM 网络是一种竞争学习型的无监督神经网络,将高维空间中相似的样本点映射到网络输出层中的邻近神经元。 1.10.6.2 典型 SOM 网络共有两层,输入层模拟感知外界输入信息的视网膜,输出层模拟做出响应的大脑皮层。 1.10.7 K-means(K 均值)(PPT09-2 P3-) 1.10.7.1 每个点都分配给具有最接近质心的聚类。 1.10.7.2 优化目标:误差平方和。 1.10.7.3 优点: 1.10.7.3.1 高效。 1.10.7.3.2 易于实施。 1.10.7.4 缺点: 1.10.7.4.1 需要指定 K,集群数 1.10.7.4.2 局部
43、最小值 1.10.7.4.3 可能出现空簇 1.10.7.4.4 无法处理不规则形状 1.10.8 DBSACN(基于密度的聚类算法)(PPT09-2 P26-) 1.10.8.1 密度聚类算法。它基于一组“邻域” (neighborhood) 参数(, MinPts)来刻画样本分布的紧密程度。 1.10.8.2 最少数目 MinPts。 3、简答题(8 题 40 分)(录音 08.25-)3.1 学过的机器学习算法相关类的作用及其构造函数主要参数的意义;3.1.1 LinearRegression(PPT03-2 P5-) 3.1.1.1 作用:进行简单线性回归。 3.1.1.2 说明 Li
44、nearRegression 的构造函数中参数fit_intercept、normalize、 copy_X 和n_jobs 的意义; 3.1.1.2.1 fit_intercept 3.1.1.2.2 normalize 3.1.1.2.3 copy_X 3.1.1.2.4 n_jobs 3.1.1.3 说明方法 fit、predict 和 score 的作用。 3.1.1.3.1 fit 3.1.1.3.2 predict 3.1.1.3.3 score 3.1.2 PolynomialFeatures 3.1.2.1 作用:进行特征的构造。 3.1.2.2 假设输入样本包含 2 个特征
45、a 和 b,用例子说明构造函数中参数 degree、interaction_only 和 include_bias 的意义 3.1.2.2.1 degree 3.1.2.2.2 interaction_only 3.1.2.2.3 include_bias 3.1.2.3 说明方法 fit、fit_transform 和 transform 作用,注意他们之间的区别。 3.1.2.3.1 fit 3.1.2.3.2 fit_transform 3.1.2.3.3 transform 3.1.3 linear_model 3.1.3.1 作用:进行线性回归。 3.1.3.2 linear_model 中有哪些Classical linear regressors; 3.1.3.3 linear_model 中有哪些模型实现了特征选择(Regressors with variable selection)。 3.1.4 LogisticRegression 3.1.4.1 作用:进行逻辑回归。 3.1.4.2 说明 LogisticRegression 类中参数 penalty 和 solver 的意义及他们之间的关系 3.1.4.2.1 penalty 3.1.4.2.2
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。