1、度量简介度量简介 度量常用于衡量个体之间差异性大小。距离度量(Distance)衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。相似度度量(Similarity)计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,差异越大。广泛应用于数据分析中的相关分析、数据挖掘中的聚类和分类算法等。1二维:以(21,32)和(42,51)为例三维:以(10,20,30)和(25,35,45)为例2欧几里欧几里德德距离距离 欧几里德距离(Euclidean Distance),欧氏距离是最常见的距离度量,衡量多维空间中各个点之间的绝对距离。公式如下:(1)计算基于各维度特征的绝对数值,所
2、以欧氏度量需要保证各维度指标在相同的刻度级别.2i=1(X,Y)=(x-y)niidist3标准化欧氏距离标准化欧氏距离 标准化欧氏距离(Standardized Euclidean distance)标准化欧氏距离将各个分量进行标准化,标准化变量的数学期望为0,方差为1。那么,标准化欧氏距离的公式:(2)421-(X,Y)=()niiixydist明可夫斯基距离明可夫斯基距离 明可夫斯基距离明可夫斯基距离(Minkowski Distance),明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下:(3)这里的p值是一个变量,当p=2的时候就得到了上面的欧氏距离。51=1(
3、X,Y)=-ppniiidistx y曼哈顿距离曼哈顿距离 曼哈顿距离曼哈顿距离(Manhattan Distance)曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果,公式如下:(4)6=1(X,Y)=-niiidistx y切比雪夫距离切比雪夫距离 切比雪夫距离切比雪夫距离(Chebyshev Distance)切比雪夫距离起源于国际象棋中国王的走法。公式如下:(5)曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。71=1(X,Y)=lim-=max-ynppiiiipidistx yx马哈拉诺比斯距离马哈拉诺比斯距离 马哈拉诺比斯距离(Mahal
4、anobis Distance)印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,表示数据的协方差距离。与欧式距离不同的是它考虑到各种特性之间的联系。例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的。8练习 计算两点(15,25)和(37,56)的各种距离。计算两点(10,15,25)和(20,37,56)的各种距离。9Matlab实现10pdist函数函数调用格式:Y=pdist(X,metric)说明:用metric指定的方法计算X数据矩阵中对象之间的距离。X:一个mn的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。metric取值如下:eucl
5、idean:欧氏距离(默认);seuclidean:标准化欧氏距离;mahalanobis:马氏距离;cityblock:布洛克距离;minkowski:明可夫斯基距离;cosine:夹角余弦correlation:相关距离spearmanhamming:汉明距离jaccard:杰卡德距离&杰卡德相似系数chebychev:Chebychev距离D=pdist2(X,Y)D=pdist2(X,Y,distance)D=pdist2(X,Y,minkowski,P)D=pdist2(X,Y,mahalanobis,C)D=pdist2(X,Y,distance,Smallest,K)D=pdis
6、t2(X,Y,distance,Largest,K)D,I=pdist2(X,Y,distance,Smallest,K)D,I=pdist2(X,Y,distance,Largest,K)11clc;clear;x=rand(4,3)y=rand(1,3)md1=pdist2(x,y,Euclidean);md2=pdist2(x,y,seuclidean);md3=pdist2(x,y,mahalanobis);md4=pdist2(x,y,cityblock);md5=pdist2(x,y,minkowski,p);md6=pdist2(x,y,chebychev);md7=pdist2
7、(x,y,cosine);md8=pdist2(x,y,correlation);md9=pdist2(x,y,hamming);md10=pdist2(x,y,jaccard);md11=pdist2(x,y,spearman);D1=d1,md1,D2=d2,md2,D3=d3,md3D4=d4,md4,D5=d5,md5,D6=d6,md6D7=d7,md7,D8=d8,md8md9,md10,md1112运行结果如下:x=0.5225 0.6382 0.6837 0.3972 0.5454 0.2888 0.8135 0.0440 0.0690 0.6608 0.5943 0.8384
8、y=0.5898 0.7848 0.4977D1=0.2462 0.2462 0.3716 0.3716 0.8848 0.8848 0.3967 0.3967D2=0.8355 0.8355 1.5003 1.5003 3.1915 3.1915 1.2483 1.2483D3=439.5074 439.5074 437.5606 437.5606 438.3339 438.3339 437.2702 437.2702D4=0.3999 0.3999 0.6410 0.6410 1.3934 1.3934 0.6021 0.6021D5=0.2147 0.2147 0.3107 0.3107 0.7919 0.7919 0.3603 0.360313D6=0.1860 0.1860 0.2395 0.2395 0.7409 0.7409 0.3406 0.3406D7=0.0253 0.0253 0.0022 0.0022 0.3904 0.3904 0.0531 0.0531D8=1.0731 1.0731 0.0066 0.0066 1.2308 1.2308 1.8954 1.8954md9=1 1 1 1md10=1 1 1 1md11=1.5000 0.0000 1.5000 2.0000The End!14