1、Security Level: 机器学习算法机器学习算法机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习l机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。l计算器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。
2、l机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。l机器学习是计算机科学家想让计算机像人一样思考,所研发出来的计算机理论。l诞生于上个世纪60年代,在最近的十几年发展非常迅速。机器学习最常见应用机器学习的学习方式监督学习非监督学习强化学习遗传算法监督学习非监督学习监督学习 vs 非监督学习9分类标记label监督学习 vs 非监督学习l监督学习能实现,为什么还要研究无监督学习?p缺乏足够的先验知识的领域,难以人工标注类别p进行人工类别标注的成本太高l监督学习解决的问题:p回归,分类l非监督学习解决的问题:p降维,聚类,关联规
3、则2022-5-1710强化学习命中未命中遗传算法 优胜劣汰 适者生存如何选择合适算法解决问题l影响算法选择的因素:p数据的大小、质量和性质p可用计算时间p任务的紧迫性p你想用数据做什么l算法选择的基本思路:1.数据是否足够多、数据维度是否过高、数据是否存在大量冗余,是则考虑步骤2,否则考虑步骤32.数据维度降低、数据采样去重3.明确问题:预测结果?二分类?多分类?聚类?强化训练?回顾:实现人工智能开发的流程l获得已有样本数据(经验)l对已有数据进行分析和预处理l根据需要实现的智能化目标,选择方法或者模型l不断调整方法和模型参数,使其从已有数据中学习规律、获得经验,直到期望值与实际值无限接近,
4、从而使计算机的软硬件来模拟人类某些智能行为关键技术p智能行为:数据分类、数据规律预测、语音识别、自动检索、图像识别等等。2022-5-17机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456明确概念数据样本属性(特征)标签变量标签数组矩阵向量明确概念l挑西瓜的学问序号/属性色泽根蒂敲声西瓜质量1青绿蜷缩浊响微甜2乌黑蜷缩沉闷很甜3浅白硬挺清脆很甜4青绿硬挺沉闷不甜1.1 回归分析回归分析l回归分析(regression analysis)p是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法l为什么使
5、用回归分析:从实际应用上来看p更好地了解:更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。例:了解某些特定濒危鸟类的主要栖息地特征(例如:降水、食物源、植被、天敌),以协助通过立法来保护该物种。2022-5-17181.1 回归分析回归分析l为什么使用回归分析:从实际应用上来看(续)p建模预测:对某种现象建模以预测其他地点或其他时间的数值,例:如果已知人口增长情况和典型的天气状况,预计明年的用电量将会是多少。p探索检验:假设根据以往数据探索即将发生事件,例:公安部门对城市各个住宅区的犯罪活动进行建模,以更好地了解犯罪活动并希望实施可能阻止犯罪活动的策略。 2
6、022-5-17191.1 回归分析回归分析l为什么使用回归分析:从算法功能上来看p确定因变量Y与自变量X间的定量关系表达式,这种表达式称为回归方程;p判断自变量X对因变量Y影响程度;p利用所求得的回归方程进行预测和控制目标值。l回归分析的前提:p回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。2022-5-17201.1 回归分析回归分析l回归分析分类p按照自变量的个数:一元回归和多元回归分析;p按照自变量和因变量之间的关系类型:线性回归分析和非线性回归分析;p按照回归线形状:线性回归和非
7、线性回归等。l常见回归的模型p线性回归p逻辑回归psoftmax回归2022-5-17211.2 线性回归线性回归l回归分析常用于分析自变量X和因变量Y之间的关系。比如X房子大小和Y房价之间的关系、X=(公园人流量,公园门票票价)与 Y=(公园收入) 之间的关系等。1.2 线性回归线性回归l线性回归的特点p因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。p线性回归使用最佳的拟合直线(回归线/回归模型),建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。即:Y=a+b*X + e注:a 表示截距,b 表示直线的倾斜率,e 是误差项。2022-5-1
8、7231.2 线性回归线性回归l回归过程p已知N组数据,数据的特征描述为X,用X1,X2, . ,Xj 去描述特征值里面分量,假设这些数据分布特点成线性:估计值:Yi = a+b*X真实值:Yi = a+b*X + e误差项:e = Yi - Yi = Y-(a+b*X)求得最优a、b值,即:使误差项 e 的平方和最小(最小二乘法) 2022-5-17241.2 线性回归线性回归误差误差平方误差平方和1.2 线性回归线性回归l最小二乘法 确定回归系数p误差平方和 = 2022-5-1726明确了:明确了:uYi= a+b*X实现了:实现了:u可以根据可以根据Xi预测预测Yiu可以根据可以根据Y
9、i控制控制Xi1.2 线性回归线性回归l确定相关系数 rp当|r|=1时,表示两变量为完全线性相关p当r=0时,表示两变量间无线性相关关系 p当0|r|1时,|r|越接近1,两变量间线性关系越密切;|r|越接近于0,两变量的线性相关越弱2022-5-17271.2 线性回归线性回归回归分析步骤:判断并构造预测函数/回归模型(Y) 构造损失函数(误差e) 使损失函数最小,最小二乘法获得回归系数(a,b)分析相关参数及结果(r/分类结果)利用模型进行预测2022-5-17281.2 线性回归线性回归Liner_ regression.example 2022-5-17291.2 线性回归线性回归多
10、元线性回归多元线性回归1.2 线性回归线性回归多元线性回归多元线性回归1.2 线性回归线性回归多元线性回归多元线性回归扩展扩展非线性回归非线性回归1.3 逻辑回归逻辑回归l逻辑回归的特点p用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,则使用逻辑回归。l逻辑回归适用的问题p事件发生的概率预测、二分类问题l思考:p多分类问题是否能采用逻辑回归? 2022-5-17341.3 逻辑回归逻辑回归l逻辑回归实现过程:p构造预测函数/回归模型 2022-5-17351.3 逻辑回归逻辑回归l逻辑回归实现过程:p构造预测函数/回
11、归模型 边界函数 输入x分类结果为类别1和类别0的概率 2022-5-17361.3 逻辑回归逻辑回归l逻辑回归实现过程:p构造损失函数 2022-5-17371.3 逻辑回归逻辑回归2022-5-17381.3 逻辑回归逻辑回归l逻辑回归实现过程:p使损失函数最小,获得回归系数(按照最小二乘法直接求导思想)2022-5-17391.3 逻辑回归逻辑回归l逻辑回归实现过程:p使损失函数最小,获得回归系数(梯度下降法)梯度:在微积分里面,对多元函数的参数求偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。2022-5-17401.3 逻辑回归逻辑回归2022-5-17411.3 逻辑
12、回归逻辑回归l逻辑回归实现过程:p使损失函数最小,获得回归系数(梯度下降法)2022-5-17421.3 逻辑回归逻辑回归实现二分类目标实现事件发生概率预测1.3 逻辑回归逻辑回归 关键问题导读关键问题导读 p/y的取值可能在0-1之间,不一定恰好等于0或者1,那怎么划分类?决策边界如何进行设置?解决方案: 如果分类器用的是回归模型,并且已经训练好了一个模型,可以设置一个阈值0.5:p如果h(x)0.5,则预测y=1,既y属于正例;p如果h(x)0.5,则预测y=0,既y属于负例;2022-5-17441.3 逻辑回归逻辑回归 - - 思考思考逻辑回归实现多分类:2022-5-1745关键:阈
13、值的设置1.4 softmax回归回归l softmax回归的特点:p该模型是逻辑回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值,在逻辑回归中,样本数据的y值为0,1,而在softmax回归中,样本的y值为1,k。lsoftmax回归适用的问题p多分类问题、神经网络和深度学习的激活函数 2022-5-17461.4 softmax回归回归lsoftmax回归实现过程:p构造预测函数/回归模型2022-5-17471.4 softmax回归回归lsoftmax回归实现过程:p构造损失函数l注:2022-5-17481.4 softmax回归回归lsoftmax回归实现过
14、程:p使损失函数最小,获得回归系数(梯度下降法)2022-5-1749Softmax回归回归 vs k个个二元分类器二元分类器 当做一个k分类的应用时,选用Softmax分类还是k个独立的二元分类器?解决方案: 取决于类别之间是否互斥 例如:对人声音乐、舞曲、影视原声和流行歌曲分类,这些类别之间并不是互斥的,一首歌曲可以来源于影视原声,同时也包含人声。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。2022-5-1750机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS01234562.1 分类分类分类
15、:监督学习,将一些新的数据项映射到给定类别中的某个类别中 。 2022-5-1752动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类动物A大02是无?动物B中22否是?2.1 分类分类l分类问题也是一类很常见的问题。 比如说,怎么判定一个人是高富帅还是吊丝? 2.1 分类分类l实现分类步骤p将样本转化为等维的数据特征(特征转化)p选择与类别相关的特征(特征选择/提取)p建立分类模型或分类器进行分类(分类)2022-5-1754iiniiiyxxxxf),.,(321特征转化2022
16、-5-1755特征转化特征转化转化为机器识别的数据1.Categorical Integer编码(二进制,十进制)概率密度2.数据转化为无纲量数据数据归一化:x0,12022-5-1756特征选择特征选择/提取提取l选择与分类相关的特征,提升分类效果,提高分类效率:p初步观察法p计算相关系数a、b、r值的计算p计算互信息决策树中使用p降维2022-5-1757分类分类训练集训练集测试测试集集测试结果衡量测试结果衡量2.2 KNNlKNN( k近邻分类)建模思想p已知样本集中每一数据与所属分类的对应关系,输入没有标签的新数据后,将新数据的每个特征与样本集中的数据对应的特征进行比较,提取样本集中特
17、征最相似的数据(最近邻)的分类标签。一般来说,只选择样本集中前k个最相似的数据,再选择k个最相似的数据中出现次数最多的分类,作为新数据的分类。l建模关键p训练集、距离或相似性的衡量、k的大小2022-5-17592.2 KNNl计算未知样本点(想要分类的点)到已知的每个样本点的距离(相似度)2.2 KNNl筛选距离最近的k个邻居点(假设k=5)5个最近邻居点:4个属于w11个属于w3 xu属于w1类2.2 KNN分类步骤:给定一个要分类的查询实例 xqp算距离:给定测试对象,计算它与训练集中的每个对象的距离:p找邻居:圈定距离最近的k个训练对象 作为测试对象的近邻p做分类: 根据这k个近邻归属
18、的主要类别,来对测试对象分类2022-5-176221(,)dijikjkkD XXXX2.2 KNN 如何选择K值,对最终的归类结果有很大的影响,根据实践经验,k的取值通常不大于20。2022-5-17642.2 KNNlKNN算法优点:p1.简单,易于理解,易于实现,无需估计参数,无需训练;p2. 适合对稀有事件进行分类;p3.特别适合于多分类问题lKNN算法优点:p当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数p计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离p没有具体规则2.3 Ba
19、yeslBayes(贝叶斯)建模思想:p贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯定理计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。l贝叶斯定理:p由于P(X)对于所有类为常数,只需要P(X|H)P(H)最大即可 2022-5-1766)()()|()()()|(XPHPHXPXPXHPXHP2.3 Bayes2.3 Bayes分类步骤: 2022-5-1769贝叶斯分类实例-检测SNS社区中不真实账号 对于SNS社区来说,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题,作为SNS社区的运营商,希望可以检测出这些不真实账号,从
20、而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管。 2022-5-1770贝叶斯分类实例-检测SNS社区中不真实账号1、确定特征属性及划分p三个特征属性:a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像p类别标记:H = 0表示真实账号,H = 1表示不真实账号p在SNS社区中这三项都是可以直接从数据库里得到或计算出来的,下面给出划分: a1:a1=0.05, 0.05a1=0.2 a2:a2=0.1, 0.1a2=0.8 a3:a3=0(不是),a3=1(是)2022-5-1771贝叶斯分类实例-检测SNS社区中不真实账号 2、获取训练样
21、本p使用运维人员曾经人工检测过的10000个账号作为训练样本,8900条为真实账号,1100条为不真实账号。 3、计算训练样本中每个类别的频率pP(H = 0) = 8900/10000 = 0.89pP(H = 1) = 1100/10000 = 0.112022-5-1772贝叶斯分类实例-检测SNS社区中不真实账号4、计算每个类别条件下各个特征属性划分的频率(P(x|H))pP(a1=0.05| H = 0) = 0.3 P(a1=0.05| H = 1) = 0.8 p P(0.05a10.2|H = 0) = 0.5 P(0.05a10.2| H = 0) = 0.2 P(a10.2
22、| H = 1) = 0.1pP(a2=0.1| H = 0) = 0.1 P(a2=0.1| H = 1) = 0.7pP(0.1a20.8 | H=0) = 0.7 P(0.1a20.8| H = 0) = 0.2 P(a20.8| H = 0) = 0.1pP(a3 = 0|H = 0) = 0.2 P(a3 = 1|H = 0) = 0.8 pP(a3 = 0|H = 1) = 0.9 P(a3 = 1|H = 1) = 0.1 2022-5-1773贝叶斯分类实例-检测SNS社区中不真实账号 5、使用分类器进行鉴别p待鉴别账号属性如下 a1:日志数量与注册天数的比率为0.1 a2:好
23、友数与注册天数的比率为 0.2 a3:不使用真实头像 (a = 0)p P(H = 0)P( x|H = 0) = P(H = 0) P(0.05a10.2|H = 0)P(0.1a20.8|H = 0)P(a3=0|H = 0) = 0.89*0.5*0.7*0.2 = 0.0623p P(H = 1)P( x|H = 1) = P(H = 1) P(0.05a10.2|H = 1)P(0.1a2P(不真实账号):该属性取值下的账号为真实账号2022-5-17742.4 Decision Treel分类过程:p模型建立(Model Building)p模型评估(Model Evaluatio
24、n)p使用模型(Use Model)性别性别年龄年龄婚姻婚姻否否是是否否是是FemaleFemaleMaleMale35353535未婚未婚已婚已婚分类规则分类规则IF IF 性别性别=Female AND =Female AND 年龄年龄35 THEN 35 THEN 购买购买RVRV房车房车= =否否IF IF 性别性别=Female AND =Female AND 年龄年龄35 THEN 35 THEN 购买购买RVRV房车房车= =是是IF IF 性别性别=Male AND =Male AND 婚姻婚姻= =未婚未婚 THEN THEN 购买购买RVRV房车房车= =否否IF IF 性
25、别性别=Male AND =Male AND 婚姻婚姻= =已婚已婚 THEN THEN 购买购买RVRV房车房车= =是是数据库数据库训练样本训练样本(training samples)(training samples)建立模型建立模型测试样本测试样本(testing samples)(testing samples)评估模型评估模型样本样本实例训练样本训练样本婚姻婚姻年龄年龄家庭家庭 所得所得否否是是否否是是未婚未婚已婚已婚3535低低高高否否小康小康1.建立模型建立模型测试样本测试样本2. 模型评估模型评估X错误率为错误率为 66.67%66.67%修改模型修改模型3.使用模型使用模型
26、2.4 Decision Tree根部节点(root node)中间节点(non-leaf node)(代表属性)分支(branches)(代表属性值/特征值)叶节点(leaf node)(代表分类后所获得的分类标记)(2 2) 决决 策策 树树 结结 构构2.4 Decision Treel决策树结构:p节点特征属性p分支属性值p根结点信息量最大的属性p中间结点该结点为根的子树所包含的样本子集中信息量最大的属性p叶结点样本的类别标签 782.4 Decision Treel决策树建树规则ID3p对当前例子集合,计算各特征的互信息;p选择互信息最大的特征Ak作为根节点;p把在Ak处取值相同的例
27、子归于同一子集,Ak取几个值就得几个子集;p对既含正例又含反例的子集,递归调用建树算法;p若子集仅含正例或反例,对应分枝标上类别。 7980NO.属性属性类别类别天气天气A1气温气温A2湿度湿度A3风风A41晴晴热热高高无风无风N2晴晴热热高高有风有风N3多云多云热热高高无风无风P4雨雨适中适中高高无风无风P5雨雨冷冷正常正常无风无风P6雨雨冷冷正常正常有风有风N7多云多云冷冷正常正常有风有风P8晴晴适中适中高高无风无风N9晴晴冷冷正常正常无风无风P10雨雨适中适中正常正常无风无风P11晴晴适中适中正常正常有风有风P12多云多云适中适中高高有风有风P13多云多云热热正常正常无风无风P14雨雨适
28、中适中高高有风有风N4个属性:天气可取值:晴,多云,雨气温可取值:冷 ,适中,热湿度可取值:高 ,正常风 可取值:有风, 无风类别:类别可取值:N,PDecision Tree(1)信息熵:p每一类别发生的概率:p|S|表示例子集S的总数,|ui|表示类别ui的例子数,对9个正例和5个反例有:pP(u1)=9/14 pP(u2)=5/14pH(U)= -(9/14)log(9/14)-(5/14)log( 5/14 )= 0.94bit 81)(log)()(iiiuPuPUH|)(SuuPiiDecision Tree案例案例(2)条件熵:属性A1取值vj时,类别ui的条件概率:A1=天气
29、取值 v1=晴,v2=多云,v3=雨在A1处取值晴的例子5个,多云的例子4个,雨的例子5 个,则:P(v1)=5/14 P(v2)=4/14 P(v3)=5/14取值为晴的5个例子中有2个P类、3个N类,则:P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4 ,P(u2/v2)=0 ,P(u1/v3)=2/5, P(u2/v3)=3/5H(U/V)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4+0)+(5/14)(2/5)log(5/2)+(3/5)log(5/3) = 0.694bit82jjiiji
30、jvuPvuPvPVUH)/(log)/()()/(|)/(jijivuvuPDecision Tree案例案例(3)互信息:信息熵-条件熵对 A1=天气 处有:I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit类似可得:I(气温)=0.029 bit I(湿度)=0.151 bit I(风)=0.048 bit(4)建决策树的树根和分枝ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是:F1=1,2,8,9,11,F2=3,7,12,13,F3=4,5,6,10,14其中F2中的例子全属
31、于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。83天 气湿 度风晴雨多云高正常有风无风PNNPP2.4 Decision Tree(4)决策树模型特点:p优点:n不需要任何领域知识或参数假设。n适合高维数据。n短时间内处理大量数据,得到可行且效果较好的结果。p缺点:n对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。n忽略属性之间的相关性。n不支持在线学习。2022-5-17852.4 Decision Tree2.5 SVM线线性分性分类类分类线分类平面2.5 SVM2.5 SVM(1)支持向量机(SVM)基本思想:p是二值分类算法:计
32、算机随机产生一个分类线/分类面并移动它,直到训练集中属于不同类别的样本点正好位于该超平面的两侧。显然,这种机理能够解决线性分类问题,但不能够保证产生分类线/分类面是最优的分类模型。p支持向量机建立最优分类线/分类面能够在保证分类精度的同时,使超平面两侧的空白区域最大化,从而实现对线性可分问题的最优分类。672.5 SVM(2)支持向量机(SVM)关键问题:pSVM(支持向量机)主要针对小样本数据进行学习、分类的一种方法。p“支持向量”:则是指训练集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点 672.5 SVMl分类面:把一个空间按照类别切分两部分的平面,在二维空间中,分类面相当
33、于一条直线,三维空间中相当于一个平面,高维空间为超平面。l线性分类面函数形式为: wT,b是分类面函数参数,是分类面函数参数,x是输入的样本是输入的样本, wT权向量,权向量,b是偏移量是偏移量2022-5-1792( )Tfwbxx ( )0 for 1sgn( )0 for 1TiTif xwbyyf xf xwby xx( )0Tif xwbxf xyest表示 +1表示 -1f(x,w,b) = sign(w x + b)如何分类这些数据?w x + b=0w x + b02.5 SVMa af xyest表示 +1表示 -1f(x,w,b) = sign(w x + b)任何一个分类
34、器(一条线)都有效,但是哪一个是最好的?a2.5 SVMf xa ayest表示 +1表示 -1f(x,w,b) = sign(w x + b)假设你的测试数据可能出现在这里2.5 SVMf xyestMax-marginf xayest表示 +1表示 -1f(x,w,b) = sign(w x + b)定义分类器的边界以改善分类性能.2.5 SVM表示 +1表示 -1Support Vectors 是边界上的一些样本点1.这种理论说明只有Margin上的样本点是重要的,其他样本都不重要2.实践证明这种假设效果非常好.Max-margin2.5 SVMlw . x+ + b = +1 lw .
35、 x- + b = -1 lw . (x+-x-) = 2 ()2Marginwxxww“类标号 = +1” 的区域“类标号 = -1” 的区域wx+b=1wx+b=0wx+b=-1X-x+M=Margin WidthMax-margin2.5 SVMl假定训练数据l线性分类面函数lMax-margin转化成优化问题(. )0,TdwbwR bRx1( , ),.,( ,), 1, 1dnyyR y 1lxxx22maxminww2.5 SVM最优分类面求解问题表示成约束优化问题最小化目标函数约束条件拉格朗日函数2121( , , )() 1)nTiiiiL wbwywbaax2.5 SVMl
36、Lagrange函数l成立条件2121( , , )() 1)nTiiiiL w bwywbaax( , , )0;( , , )0L w bL w bbwaa110 ;nniiiiiiia ywy xa121,11()()0 ,1, .,0()1)0nniijijijiijniiiiTiiiWy yina n dyywbaaa aaaaxxx2.5 SVM121,1( )()nniijijijii jWy yaaa axx3x2x1x2221234223341( ) ()(444)2Waaaaaaaaaax1 =(0, 0)T, y1 = +1x2 =(1, 0)T, y2 = +1x3 =
37、(2, 0)T, y3 = -1x4 =(0, 2)T, y4 = -1代入代入x,y值值4x线性SVM求解实例求得a1, a2, a3, a4的值,进而求得w和b的值。 1234013 / 41/ 41120312002144231113,02224132( )142TTwbf xW xbxaaaa 代入代入(3/2,0),(0,3/2)点可以知道点可以知道3x2x1x4x2.6 Ensemble learning(1) 集成学习( Ensemble learning )基本思想p在机器学习中,直接建立一个高性能的分类器是很困难的。p如果能找到一系列性能相对较差的个体分类器(弱分类器),并把
38、它们集成起来的话,也许就能得到更好的分类器,从而提高整体分类器的泛化能力。n所有个体学习器均为决策树时,称为“决策树集成”n所有个体学习器均为神经网络时,称为“神经网络集成”n所有个体学习器不全是一个种类的,.2022-5-17104Classifier ensembleihi(x)hn(x)h2(x)h1(x)Input vectorClassifier 1Classifier 2Classifier NCombine ClassifiersOutputx2.6 Ensemble learning(2) 集成学习关键内容p如何构建具有差异性的个体分类器 ?n通过改变训练集来构造不同的个体分类
39、器,且个体学习器越精确、差异越大,集成越好;n构建方法:Bagging;Boosting;Random Forest;p如何将这些分类器的结果进行整合(集合策略)?n多数投票法;加权平均;2022-5-171062.6 Ensemble learning(3)构建个体分类器方法 -Baggingp从大小为n的原始数据集D中独立随机地抽取n个数据(n=n),形成一个自助数据集;p重复上述过程,产生出多个独立的自助数据集;p利用每个自助数据集训练出一个“个体分类器”;pBagging个体分类器整合策略:n最终的分类结果由这些“个体分类器”各自的判别结果投票决定(投票法)2022-5-171072.
40、6 Ensemble learning(4)构建个体分类器方法-BoostingpStep1: 原始训练集输入pStep2: 计算训练集中各样本的权重pStep3: 采用已知算法训练个体分类器,并对每个样本进行判别pStep4: 计算对此次的个体分类器的权重pStep5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求pBoosting个体分类器集成策略:n将弱学习机按其相应的权重加权组合形成强学习机(加权平均)2022-5-171082.6 Ensemble learningBoosting方法中各样本的分配权重:提高分错样本的权重p没有先验知识的情况下,初始的分布应为等概分布
41、,也就是训练集如果有N个样本,每个样本的分布概率为1/N;p每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够加强对这些错误样本的训练;p反映了strong learner对样本的假设是否正确2022-5-171092.6 Ensemble learning(5)构建个体分类器方法-Random Forestp一种新型分类和预测模型,它具有需要调整的参数少,不容易过度拟合,分类速度快,能高效处理大样本数据等特点。pBagging和AdaBoost等方法只是通过改变样本的权重来获得不同的弱分类器。随机森林(RF)则通过同时改变样本和特征子集来获得不
42、同的弱分类器。p采用随机的方式建立一个森林,个体分类器由决策树组成,且之间没有关联。对于新的测试样本,让森林中的每一棵决策树分别进行一下判断,依据多数者投票方法决定样本的类别。2022-5-171102.6 Ensemble learning2022-5-171112.6 Ensemble learning2022-5-171122.6 Ensemble learning2022-5-171132.6 Ensemble learning 关键问题导读关键问题导读(6)既然多个个体的集成比单个个体更好,那么是不是个体越多越好?p在预测时需要更大的计算开销,因为要计算更多的个体预测p更大的存储开销
43、,因为有更多的个体需要保存p个体的增加将使得个体间的差异越来越难以获得2022-5-17114机器学习监督学习-回归监督学习-分类非监督学习-聚类非监督学习-降维神经网络与深度学习关于模型评价标准目录CONTENTS01234563.1 聚类分析聚类分析l聚类:根据数据的“相似性”将数据归纳为多类的过程l良好的聚类效果需满足:p同一类中,样本之间保证高相似性p类与类之间,样本之间要高差异性或不相似l相似性衡量标准的选择,对于聚类(clustering)十分重要l如何评估样本之间相似性?相似性的衡量标准? 2022-5-17116(1)相似性)相似性117(2)相似性衡量方法)相似性衡量方法 (
44、1)欧氏距离 (2)曼哈顿距离 (3)余弦相似度 2022-5-17118(3)典型聚类算法)典型聚类算法lK-means:建立数据的不同分割,并用欧氏距离等评价聚类结果lGMM:对于每个类假定一个分布模型,试图找到每个类最好的模型lAprior:从数据背后发现事物之间可能存在的关联或者联系2022-5-171193.2 K-meanslk-means算法也就是k均值算法lk-means算法以k为参数,把n个对象分成k个簇(类)l处理过程1:p选择k个点作为初始的聚类中心; 2022-5-171203.2 K-meanslk-means算法也就是k均值算法lk-means算法以k为参数,把n个
45、对象分成k个簇(类)l处理过程2:p剩下的点,根据其与聚类中心的欧式距离, 将其归入最近的簇 2022-5-171213.2 K-meansk-means算法也就是k均值算法k-means算法以k为参数,把n个对象分成k个簇(类)处理过程3:p对每个簇,计算所有点的均值 作为新的聚类中心 2022-5-171223.2 K-meanslk-means算法也就是k均值算法lk-means算法以k为参数,把n个对象分成k个簇(类)l处理过程4:p重复(2),(3)步骤, 直到聚类中心不再发生改变 2022-5-171233.2 K-means-关键问题导读关键问题导读(1)K值怎么确定?p解决方案
46、:根据实际的业务需求,人工来指定。(2)关于初始质心的选择,会对分类结果产生很大影响,可能偏离全局最优解或者增加计算量。p解决方案:随机多次选择不同的初始聚类中心,反复多次进行实验。(3)如何判断算法是否该停止?p解决方法:随机选择质心,迭代计算每个数据到新质心的距离,直到新质心和原质心相等,算法结束。2022-5-171243.2 K-means-实例实例Kmeans_user_age. clustering 2022-5-171253.2 K-means-局限性局限性l属于“硬聚类”,每个样本只能属于一个类别。lK-means对异常点的“免疫力”差,异常值对其聚类中心影响比较大(改进:中心
47、不直接取均值,而是找均值最近的样本点代替 - k-medoids算法)。l对于团状的数据点集区分度好,对于带状(环绕)等“非凸”形状不太好。2022-5-171263.3 GMM(高斯混合模型)(高斯混合模型)GMM的产生解决了K-means的局限性2022-5-171273.3 GMM(高斯混合模型)(高斯混合模型)(1)GMM是如何解决上述问题:p求解每个测试数据属于某个类别的概率(软指标)(2)GSM(高斯模型)p给定均值和方差,将一个事物分解为基于高斯概率密度函数(正态分布曲线)形成的模型,表示随机变量每个取值有多大的可能性2022-5-171283.3 GMM(高斯混合模型)(高斯混
48、合模型)(3)GMM(高斯混合模型)pK个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类。n求和式的各项的结果就分别代表样本y属于各个类的概率nak:样本y属于第k个类的概率2022-5-171293.3 GMM(高斯混合模型)高斯混合模型)l属于假设有K个类,样本数量分别为N1,N2,Nk且N1+N2+Nk=N,即有观测数据y1,y2,yk ,第k个分类的样本集合表示为S(k),上式中的三个参数可表示为:2022-5-17130 ak指的是第指的是第k个个component被选中的概率,被选中的概率,rjk需要对所有的数据需要对所有的数据 j 进行累加
49、进行累加 3.3 GMM(高斯混合模型)(高斯混合模型)2022-5-171313.3 GMMGMM与与K-means(4)GMM与K-means相同点p需要指定K值p需要指定初始值,K-means的中心点,GMM的参数p都是含有EM算法思想(5)GMM与K-means不同点p优化目标函数不同,K-means:最短距离(硬指标);GMM:最大化log似然估计,求解每个观测数据属于每个component的概率(软指标)2022-5-171323.4 Aprori算法算法l关联分析是一种在大规模数据集中寻找有趣关系的任务l这些任务有两种形式:频繁项集和关联规则p频繁项集:经常出现在一块的物品的集合
50、;p关联规则:两种物品之间可能存在很强的关系;l关联分析典型方法: Apriori算法2022-5-171333.4 Aprori算法算法(1)使用Apriori算法来发现频繁项集p两个输入参数分别是最小支持度和数据集,根据最小支持度确实频繁项集。(2)从频繁项集中挖掘关联规则p从一个频繁项集开始,创建一个规则列表,首先将规则的右边限定为一个元素,对这些规则进行测试,接下来合并剩下的规则来创建一个新的规则列表,规则的右边限定为两个元素,项集中挖掘关联规则。(3)Apriori原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。2022-5-17134支持度与可信度2022-5-17135