机器学习基础复习提纲.docx

上传人(卖家):最好的沉淀 文档编号:7260485 上传时间:2023-11-05 格式:DOCX 页数:26 大小:1.80MB
下载 相关 举报
机器学习基础复习提纲.docx_第1页
第1页 / 共26页
机器学习基础复习提纲.docx_第2页
第2页 / 共26页
机器学习基础复习提纲.docx_第3页
第3页 / 共26页
机器学习基础复习提纲.docx_第4页
第4页 / 共26页
机器学习基础复习提纲.docx_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、机器学习基础复习提纲1、选择题(16分)和2、是非题(14分)Python语言的特点:Simple (简单)Easy to Learn (易学)Free and Open Source (免费、开源)High-level Language (高级语言)Portable (可移植性)Interpreted (解释型)Object Oriented (面向对象)Extensible (可扩展性)Embeddable (可嵌入性)Extensive Libraries (丰富的库)动态类型,交互式,多继承,函数返回值,函数作为参数,变长参数,缺省参数,命名参数,三种for for i in list

2、: print(序号:%s 值:%s % (list.index(i) + 1, i) for i in range(len(list): print(序号:%s 值:%s % (i + 1, listi) for i,val in enumerate(list): print(序号:%s 值:%s % (i + 1, val)for和while中的break, continue, elsefor.else可以在无法循环或者程序执行完的时候执行,while.else同理break跟continue和c一样List, Tuple, Dictionary, setList是可变有序的列表,可以随意

3、添加和删除其中的元素Tuple和list结构相似,但是tuple一旦初始化就不能修改字典具有极快的查找速度,且dictionary的key是不可变对象(字符串和整数都可作为key)Set与dictionary类似,它是一组储存key的无序的集合,且key不能重复range()函数产生Listlist = range(1,100)产生1到99的一个数组numpy.min, max, sort, argmin, argmax, argsort, flipud, :-1min,max计算矩阵或者数组中的最小值,最大值argmin,argmax分别计算矩阵或数组最大值,最小值所在位置的索引sort(a

4、xis=-1, kind=quicksort, order=None)axis中0代表行,1代表列,kind代表算法,order指排序的字段名argsort返回按小到大数值的索引值flipud用于翻转矩阵 :-1表示将数组倒序scatter, plot, bar, box,绘制多轴图,subplot(numRows, numCols, plotNum)scatter画散点图plot画折线图bar画柱状图box画箱图多轴图调用subplot(numR,numC,plotNum)因此构造RxC的矩阵plotNum指矩阵中的位置机器学习的一般慨念,比如:有监督的机器学习、无监督的机器学习、强化学习等

5、机器学习模型评价方法和评价性能指标及其在sklearn中相关的函数属性的类型,数据预处理技术(如sklearn.preprocessing.StandardScaler,preprocessing.scale,preprocessing.MinMaxScaler(),preprocessing.normalize,processing.Normalizer()),过拟合和欠拟合,过拟合处理技术,参数和超参数,sklearn.preprocessing.StandardScaler标准化处理preprocessing.scale与上面的StandardScaler类似,但是标准化处理可以将处理好

6、的数组保存preprocessing.MinMaxScaler()归一化preprocessing.normalize,processing.Normalizer()正则化,每一个向量内所有元素的平方和等于1过拟合产生的原因:数据过少+模型过于复杂+有噪音解决方案:1数据处理2辅助分类节点3正则化欠拟合产生的原因:训练模型太简单,没有学习到通用的特征解决方案:1添加更多的特征项2减少正则化参数3使用更深的模型4使用集成方法寻求最优的模型f(x,)中的成为参数,而通过一类参数来定义结构模型或者优化策略这类参数称为超参数支持向量机的核函数,神经网络中的层数,梯度下降的步长,聚类算法的类别个数,正则

7、化的系数都是最常见的超参数各个机器学习算法的基本性质比如LinearRegression, Decision Tree, SVM, KNN, MLP, SOM, K-means, DBSACNLinearRegression线性回归即y = w x + bDecision Tree决策树SVM支持向量机假设在空间中有一个能正确划分数据集并且集合间距最大的分离超平面正常来说空间中存在无数个超平面,因此我们需要让margin(间隔)最大,当所需要的超平面是非线性的情况下,可以引入核函数,从低维空间映射到高维空间,常用的核函数有多项式核函数,高斯径向基核函数,S型核函数KNN(K Near Neig

8、hbor最近邻算法)其中最重要的是超参数k值的选择,k代表选出k个于所需要预测的目标最近的k个单位,一般来说距离选用欧氏距离(也可以选用曼哈顿距离,切比雪夫距离)KNN有着非常明显的优点和缺点:优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高(因为每个数都需要进行计算)MLP多层感知器分为inputlayer,hiddenlayer,outputlayer还可以通过mlp的反向传播来更新hiddenlayer里面的weight,从而达到更精准的预测值SOM算法因此,总结来说,竞争学习的步骤是: (1)向量归一化 (2)寻找获胜神经元 (3)网络输出与权值调整 步骤(

9、3)完成后回到步骤1继续训练,直到学习率衰减到0。学习率处于(0,1,一般随着学习的进展而减小,即调整的程度越来越小,神经元(权重)趋于聚类中心。K-meansk-means初始随机选择k个质心点,然后通过欧氏距离计算后分成k类别,分类结束之后,通过各类的平均点重新计算质心点,然后进行第二轮的分类,最终当质心点不再发生改变的时候分类结束DBSCAN。(形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销

10、一样,继续去发展下线。等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如A,停下来的那个点为边界点,如B、C,没得滚的那个点为离群点,如N)。3、简答题(40分)l 学过的机器学习算法相关类的作用及其构造函数主要参数的意义;l 与超参数调整相关类的使用l 数据预处理的方法,如独热编码preprocessing.OneHotEncoder(),sklearn.feature_extraction.DictVectorizer,线性回归特征扩展方法preprocessing.PolynomialFeatures,文本处理sklearn.feat

11、ure_extraction.text.CountVectorizer独热编码preprocessing.OneHotEncoder() 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。sklearn.feature_extraction.DictVectorizer()特征抽取将特征与值的映射字典组成的列表转换成向量,DictVectorizer通过使用scikit-learn的estimators,将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.

12、sparse矩阵。线性回归特征扩展方法preprocessing.PolynomialFeatures:用来产生交叉特征,并且多项式包含相互影响的特征集文本处理sklearn.feature_extraction.text.CountVectorizer函数只考虑每个单词出现的频率;然后构成一个特征矩阵,每一行表示一个训练文本的词频统计结果。其思想是,先根据所有训练文本,不考虑其出现顺序,只将训练文本中每个出现过的词汇单独视为一列特征,构成一个词汇表l 各种性能指标的计算,如二类分类问题的混淆矩阵、accuracy、precision、recall、f1、P-R曲线和ROC曲线,回归问题的R-

13、squared,聚类问题的关联矩阵、Rand index和Jaccard Index 回归问题的R-squaredl 多类分类问题的各种处理策略三种策略 一对一,一对多,多对多l 多标签分类问题的各种处理策略问题转换 改编算法 集成方法l 学习过的主要集成机器学习算法的基本原理l 主要机器学习算法的具体实现,如决策树如何选择属性,朴素贝叶斯方法如何预测,k-means算法的2个主要步骤,层次聚类如何选择合并的簇l Python语言lambda表达式、filter、map和reduce的具体设计 4、算法设计题l 用伪代码描述学习过的机器学习算法,如决策树、k-means、层次聚类、DBSCAN、强化学习算法(如K-摇臂赌博机-贪心法和Softmax 算法,Q-learning)、集成学习算法等l 用python语言实现上述算法l 用给定的机器学习方法解决问题,通常会要求根据性能指标重复多次寻找最优的超参数,将结果用曲线、柱状或者箱线图表示出来(主要类会给出)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 常用办公文档
版权提示 | 免责声明

1,本文(机器学习基础复习提纲.docx)为本站会员(最好的沉淀)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|