1、机器学习与深度学习入门黄海广2019年6月xx研究院长相能帅不帅家庭背景好能不好人品好上进心能不能有无不能不好机器学习基础-决策树机器学习基础-决策树粗垂直线表示根节点的决策边界(深度0):花瓣长度=2.45厘米。由于左侧区域是纯净的(仅Iris-Setosa),因此无法进一步拆分。然而,右侧区域是不纯的,因此深度为1的右侧节点将其分割成花瓣宽度=1.75厘米(由虚线表示)。由于max_depth设置为2,因此决策树会在那里停止。但是,如果将max_depth设置为3,那么两个深度为2的节点将各自添加另一个决策边界(由点虚线表示)。150个鸢尾花样本进行分类,特征为花萼的长度和宽度信息熵条件熵
2、信息增益信息增益率基尼指数ID3C45CARTA是特征,i是特征取值机器学习基础-决策树基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。房子是否工作是有无4,8,9,10,11,121,2,3,5,6,7,13,14,153,13,141,2,5,6,7,15机器学习基础-CART机器学习基础-集成学习Bagging从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:机器学习基础-集成学习Boosting训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型
3、预测的结果进行线性综合产生最终的预测结果:机器学习基础-集成学习Stacking将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过所有基模型的预测形成新的测试集,最后再对测试集进行预测。C为常数,J为叶子节点机器学习基础-Boosting Tree前向分步算法:机器学习基础-Boosting Tree机器学习基础-Boosting Trees1.52.53.54.55.56.57.58.59.5m(s)15.7212.078.365.783.911.938.0111.731
4、5.74机器学习基础-Boosting Treex6.56.248.91x6.5x3.58.915.726.46x3.5-0.520.22机器学习基础-Boosting Treex6.50.15-0.22x4.5-0.160.11x6.50.07-0.11x2.5-0.150.04x6.5x4.58.95x3.5x2.55.636.836.565.82机器学习基础-Boosting Tree损失函数的负梯度在当前模型的值作为提升树的残差的近似值来拟合回归树机器学习基础-Gradient boosting Tree机器学习基础-Gradient boosting Tree机器学习基础-XGBoost机器学习基础-XGBoost1,2,34,5,67,8,9机器学习基础-XGBoost机器学习基础-XGBoost分数越小,代表这个树的结构越好机器学习基础-XGBoost为什么要推导?为什么要二阶泰勒展开?特征重要性评估线性特征生成model.get_fscore()特征作为分裂节点的次数new_feature=model.apply(X_train)XGBOOST 与特征特征增益的均值特征分裂时的平均覆盖样本数机器学习基础-XGBoost谢谢!大学