机器学习-相似度度量页PPT课件.ppt

上传人(卖家):三亚风情 文档编号:3581360 上传时间:2022-09-20 格式:PPT 页数:41 大小:2.18MB
下载 相关 举报
机器学习-相似度度量页PPT课件.ppt_第1页
第1页 / 共41页
机器学习-相似度度量页PPT课件.ppt_第2页
第2页 / 共41页
机器学习-相似度度量页PPT课件.ppt_第3页
第3页 / 共41页
机器学习-相似度度量页PPT课件.ppt_第4页
第4页 / 共41页
机器学习-相似度度量页PPT课件.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

1、13计算机技术Xxx xxxxxxxx目录相似性度量主要相似度度量算法度量学习部分算法实践机器学习机器学习相似度概述相似度概述流形学习机器学习相似度概述机器学习相似度概述相似度度量相似度度量机器学习的目的就是让机器具有类似于人类的学习、认识、理解事物的能力。计算机对大量的数据记录进行归纳和总结,发现数据中潜在的规律,给人们的生活带来便利。对数据记录和总结中常用到聚类算法。聚类算法就是按照对象间的相似性进行分组,因此如何描述对象间相似性是聚类的重要问题。相似度度量相似度度量机器学习相似度概述机器学习相似度概述相似度度量相似度度量刻画数据样本点之间的亲疏远近程度主要有以下两类函数:(1)相似系数函

2、数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。(2)距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。相似度度量相似度度量机器学习相似度概述机器学习相似度概述机器学习相似度概述机器学习相似度概述主要相似度算法主要相似度算法欧氏距离 标准化欧氏距离闵可夫斯基距离 曼哈顿距离切比雪夫距离 马氏距离汉明距离 夹角余弦杰卡德距离&杰卡德相似系数主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述欧式距离欧式距

3、离欧氏距离(Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。也可以用表示成向量运算的形式:主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述标准欧式距离标准欧式距离由于特征向量的各分量的量纲不一致(比如说身高和体重),通常需要先对各分量进行标准化,使其与单位无关。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为:(160cm,60kg)(170cm,50kg)标准化后的值=(标准化前的值 分量的均值)/分量的标准差主要相似度算法主要相似度算

4、法机器学习相似度概述机器学习相似度概述加权欧式距离加权欧式距离加权欧式距离:在距离计算时,考虑各项具有不同的权重。公式如下:主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述曼哈顿距离曼哈顿距离曼哈顿距离,也称为城市街区距离,是一种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和:X(2,4),Y(1,6)dist(X,Y)=|2-1|+|4-6|=3主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述闵可夫斯基距离闵可夫斯基距离闵可夫斯基距离(闵氏距离)不是一种距离,而是一组距离的定义。闵氏距离是欧氏距离的推广,是对多个距离度量公式的概括性

5、的表述。公式如下:其中p是一个变参数。当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离;当p时,就是切比雪夫距离。根据变参数的不同,闵氏距离可以表示一类的距离主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述切比雪夫距离切比雪夫距离切比雪夫距离是由一致范数(或称为上确界范数)所衍生的度量,也是超凸度量的一种。在数学中,切比雪夫距离(L度量)是向量空间中的一种度量,二个点之间的距离定义是其各坐标数值差的最大值。X(2,4),Y(1,6)dist(X,Y)=max|2-1|,|4-6|=2主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述马氏距离马氏距离表示数据的协

6、方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧式距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的),即独立于测量尺度。C为X,Y的协方差矩阵,如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧式距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述汉明距离汉明距离两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。汉明距离就是表示X,Y取值不

7、同的分量数目。只适用分量只取-1或1的情况。主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述杰卡德相似系数杰卡德相似系数&杰卡德距离杰卡德距离卡德距离:是与杰卡德相似系数相反的概念,杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。杰卡德距离可用如下公式表示:杰卡德相似系数:两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的相似度一种指标。主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述杰卡德相似系数杰卡德相似系数&杰卡德距离杰卡德距离例如,A(0,1,1,

8、0)和B(1,0,1,1)。我们将样本看成一个集合,1表示集合包含该元素,0表示集合不包含该元素。p:样本A与B都是1的维度的个数q:样本A是1而B是0的维度的个数r:样本A是0而B是1的维度的个数s:样本A与B都是0的维度的个数那么样本A与B的杰卡德相似系数可以表示为:此处分母之所以不加s的原因在于:对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二元变量。非对称的意思是指状态的两个输出不是同等重要的。主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述余弦相似度余弦相似度余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注

9、重两个向量在方向上的差异,而非距离或长度上。主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述调整余弦相似度调整余弦相似度余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,因此没法衡量每个维度上数值的差异。需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值。用户对内容评分,按5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得到的结果是0.98,两者极为相似。但从评分上看X似乎不喜欢两个这个内容,而Y则比较喜欢。比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,

10、相似度为负值并且差异不小,但显然更加符合现实。主要相似度算法主要相似度算法机器学习相似度概述机器学习相似度概述皮尔森相似度皮尔森相似度|调整余弦相似度|X生成的,其中 ,于是流形学习的任务就是通过观测数据把未知映射f和隐变量Y重建出来。由于mn,故该问题是一个病态问题,不存在唯一解,因此研究人员提出了各种各样的流形学习算法,它们试图通过添加某些特定约束用以恢复流形的内在结构。流形学习流形学习机器学习相似度概述机器学习相似度概述流形学习流形学习总体来说,流形学习的兴起来源于2000年在科学杂志上的两篇关于流形学习的文章“其中一篇提出了一个叫ISOMAP的方法,该方法把传统的MDS算法扩展到非线性

11、流形上,通过对中心化的测地线距离矩阵进行特征值分解来保持流形上的整体拓扑结构。而另一篇文章提出厂局部线性嵌入(Local Linear Embedding(LLE)算法,该算法假设高维数据和低维数据的局部拓扑结构关系保持不变,即邻域关系不变,然后刊用这种关系从高维数据重构出低维的流形嵌入。流形学习流形学习机器学习相似度概述机器学习相似度概述PCAPCA该方法认为特征的方差越大提供的信息量越多,特征的方差越小提供的信息量越少。PCA 通过原分量的线性组合构造方差大、含信息量多的若干主分量,从而降低数据的维数。流形学习流形学习机器学习相似度概述机器学习相似度概述H.HotellingAnalys

12、is of a complex of statistical variables into principal componentsJ.Journal ofEducational Psychology,1933,24:417-441.MDSMDS其中(a)为真实数据集的流形结构图,(b)为从(a)随机采样 2000 个点后的数据分布图,(c)、(d)和(e)为经三次不同采样后,采样点经 MDS 算法降到二维空间后分布图。可以看出,(c)图在一定程度上保持了数据的连续性,但并没有发现嵌入在数据的本质,改变了采样点的拓扑结构;(d)和(e)图的效果更差,不同样本点均发生了不同程度的重叠,严重改变了

13、采样点的结构。流形学习流形学习机器学习相似度概述机器学习相似度概述C.K.I.WilliamsOn a connection between kernel PCA and metric multidimens ional scalingJ.Machine Learning,2019,46(1-3):11-19.ISOMAPISOMAP其中(a)为真实数据集的流形结构图,(b)为从。流形学习流形学习机器学习相似度概述机器学习相似度概述J.B.Tenenbaum,V.D.Silva,J.LangfordA global geometric framework for nonlinear dimen

14、sionalityreductionJ.Science,2000,290(5500):2319-2323 流形学习流形学习 Laplacian Eigenmap(LE)就是其中的一种,该算法首先构造一个邻域关系图,然后对该图的拉普拉斯矩阵进行特征值分解来得到流形的低维表示,这样的分解保持了数据的局部关系,注意到在LE中,我们要估计流形上的Laplacian算子。Hessian Eigenmap(HLLE)该算法通过估计流形上的Heosian算子,然后对该算子进行特征值分解来保持流形的局部拓扑性。SDE算法:为了得到一个等距嵌入,用半正定规划的方法估计流形上的点对间的角度和距离,从而学习图像数据

15、中的流形。流形学习流形学习机器学习相似度概述机器学习相似度概述(1)Mikhail Belkin and parthaNiyogi。Lapacian eigenmaps and spectral techniquesFor embedding and clusteringA.In NlPS,Pages 585一591/2019(2)David L.Donoho and Carrie Grimes.Hessian eigenmaps:New locallyl inear mbedding tecluliques for high一dimensional dataJ.proe.of National Academy 0fSeie,;ces,100(10)二5591一5596,2019M.Belkin,P.NiyogiLaplac ian Eigenmaps for Dimensionality Reduction and Data RepresentationJ.Neural Computation,2019,15(6):1373-1396.谢谢THANK YOU谢谢

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(机器学习-相似度度量页PPT课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|