1、机器学习聚类汇报人:杨光1. 1. 聚类任务聚类任务有一天老板给你一堆数据,然后他说,你给我分类(聚类)出来21. 1. 聚类任务聚类任务聚类算法是一种无监督学习,我们区分监督学习和无监督学习的方法是看IN数据有无标签(Label)。31. 1. 聚类任务聚类任务4 在实际工作中,我们需要处理很多数据,标签获取需要极大的人工工作量。1. 1.聚类任务聚类任务引言聚类算法会将数据集中的样本划分成为若干个通常不相交的子集,每一个子集我们称之为“簇”。在聚类过程自动形成簇结构后,我们会发现每个簇里会存在一些潜在的概念,比如“黄种人”、“白种人”,“女性”、“男性”,这些是我们事先未知的,这些概念也是
2、由使用者来把握和命名的。51. 1.聚类任务聚类任务引言62. 2.性能度量性能度量引言目标:目标:尽量使聚类结果的“簇内相似度高” 且“簇间相似度低”两类指标:两类指标:7外部指标:与某个“参考模型”比较内部指标:直接考察聚类结果(不利用参考模型)2. 2.性能度量性能度量引言外部指标:外部指标: 82. 2.性能度量性能度量引言92. 2.性能度量性能度量引言10内部指标:内部指标: 2. 2.性能度量性能度量引言113. 3.距离计算距离计算引言距离度量dist(.,.)需要满足一些性质:12非负性: dist( xi, xj)0同一性: dist( xi, xj)=0当且仅当xi=xj
3、对称性: dist( xi, xj)= dist( xj, xi)直递性: dist( xi, xj) dist( xi, xk)+dist( xk, xj)3. 3.距离计算距离计算引言闵可夫斯基距离:闵可夫斯基距离:当给定样本我们最常用的是“闵可夫斯基距离” p1时,“闵可夫斯基距离”公式满足上述4个性质。p=1时,“闵可夫斯基距离”即“曼哈顿距离”。p=2时,“闵可夫斯基距离”即“欧氏距离”。133. 3.距离计算距离计算引言有序属性:1,2,3闵可夫斯基距离无序属性:飞机,火车,轮船 VDM143. 3.距离计算距离计算引言153. 3.距离计算距离计算引言164.4.原型聚类原型聚类
4、 k-meansk-means引言174.4.原型聚类原型聚类 k-meansk-means引言184.4.原型聚类原型聚类 k-meansk-means引言194.4.原型聚类原型聚类 k-meansk-means引言204.4.原型聚类原型聚类 LVQLVQ引言214.4.原型聚类原型聚类 LVQLVQ引言224.4.原型聚类原型聚类 LVQLVQ引言234.4.原型聚类原型聚类 LVQLVQ引言244.4.原型聚类原型聚类 LVQLVQ引言255. 5.密度聚类密度聚类引言265. 5.密度聚类密度聚类引言275. 5.密度聚类密度聚类引言285. 5.密度聚类密度聚类引言295. 5.密度聚类密度聚类引言305. 5.密度聚类密度聚类引言316. 6.层次聚类层次聚类引言32给定聚类簇Ci,Cj,可以通过下面的式子来计算距离:6. 6.层次聚类层次聚类引言336. 6.层次聚类层次聚类引言34以西瓜数据集4.0为例,令AGNES算法一直执行到所有样本出现在同一个簇中,即k=1,可以得到下面这个树状图9.126. 6.层次聚类层次聚类引言35THANK YOU2018.4.3参考资料:参考资料:周志华机器学习CSDN: https:/ https:/ https:/