1、对外经济贸易大学国际商学院统计与技术经济系许晓娟引言距离的测定 距离公式 类间距离两个聚类方法 系统聚类 K均值聚类市场分析人员想要对消费者进行分类,从而有针对性地投放广告生物学家想要为昆虫、哺乳动物和爬行动物等建立生物分类政府管理人员想要对不同的国家或地区进行分级,从而提供不同模式的援助1.他们事先并不敢确定有哪些类别2.可供分类的指标可能较多将个体或对象进行分类,使得同一类中的对象之间的相似性比与其它类的对象的相似性更强以多变量的样本数据为依据,在确保同类对象的同质性最大化,类间对象的异质性最大化的前提下,进行分类通常适用于分析截面数据,是一门静态数据分析技术系统聚类K-均值聚类(快速聚类
2、)模糊聚类有序样品的聚类分解法加入法需要大家掌握前两种方法点间距离类间距离对样品的分类:Q型聚类对变量的分类:R型聚类这两种聚类在数学上是对称的,没有什么不同。如表9.2所示,每个样品有p个指标,共有n个样品每个样品就构成p维空间中的一个点 :第i个样品的第k个指标对应的取值 i=1n;k=1p :第i个样品和第j个样品之间的距离 i=1n;j=1nl样品间距离与指标间距离l间隔尺度、有序尺度与名义尺度l数学距离与统计距离l相似性与距离:一个硬币的两面间隔尺度 数学距离 明氏距离 绝对值距离 欧氏距离 切比雪夫距离 兰氏距离 统计距离:马氏距离有序或名义尺度 匹配指标数绝对值距离欧氏距离明氏距
3、离切比雪夫距离1(1)pijikjkkdXX21/21(2)()pijikjkkdXX1()maxijikjkkpdXX 例如,横轴X1代表重量(以kg为单位),纵轴X2代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示2022-8-16中国人民大学六西格玛质量管理研究中心15 目录 上页 下页 返回 结束 1011101251052222CDAB这时显然AB比CD要长。现在,如果 用mm作单位,单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则2X1X100011100260010502222CDAB结果CD反而比AB长!这显然是不够合理的。
4、对数据进行标准化处理 减均值,除以标准差再计算距离 兰氏距离 适用于x大于0的情况 只克服了量纲问题2022-8-16中国人民大学六西格玛质量管理研究中心17 目录 上页 下页 返回 结束 下面先用一个一维的例子说明欧氏距离与马氏距离的差异。设有两个一维正态总体 。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2),(:),(:22222111GG和图1-2从绝对值来看,A点距离G1更近,这是欧式距离从标准差来看,A点与G1的距离是4个标准差,距离G2则是3个标准差,也就是距离G2更近,这是马氏距离马氏距离马氏距离从概率上定义距离,因而也被称为统计距离2022-8-16中国人民大学
5、六西格玛质量管理研究中心21 目录 上页 下页 返回 结束 以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。例3.3:欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,10的拼法,希望计算这11种语言之间的距离。定义距离的较灵活的思想方法夹角余弦相关系数 数据标准化后的夹角余弦定义9.1:距离小于给定阀值的点的集合类的特征 重心:均值 样本散布阵和协差阵 直径最短距离法最长距离法重心法
6、类平均法离差平方和法等等极小异常值在实际中不多出现,避免极大值的影响 可能被极大值扭曲,删除这些值之后再聚类类间所有样本点的平均距离该法利用了所有样本的信息,被认为是较好的系统聚类法类的重心之间的距离类的重心之间的距离对异常值不敏感,结果更稳定对异常值不敏感,结果更稳定 W代表直径,D2=WMWKWL即 对异常值很敏感;对较大的类倾向产生较大的距离,从而不易合并,较符合实际需要。LKLKMkLKLXXXXnnnD2Cluster KCluster LCluster Mn个样品自成一类计算两两类间距离距离最近的两类定义为一个新类类的个数是否为1生成聚类图是否系统聚类不必事先确定分类数最佳分类数的
7、确定方法尚未形成根据研究目的确定根据聚合系数确定根据树状图确定类重心之间距离必须大各类所包含的元素都不要过分多分类数应该符合使用的目的采用几种不同的聚类方法处理时,应在各自的聚类图上发现相同的类16种饮料的热量、咖啡因、钠及价格四种变量 选择AnalyzeClassifyHierarchical Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables,在Cluster选Cases(这是Q型聚类:对观测值聚类),如果要对变量聚类(R型聚类)则选Variables,为 了 画 出 树 状 图,选 P l o t s,再
8、 点Dendrogram等。可以在Method中定义点间距离和类间距离有水平型和垂直型跟树形图的功能类似分别分成1到n组,看分组情况适用于数据量较小时如果事先指定分类数可以在SAVE中实现把样品初略分成k个初始类根据样品与类的距离进行归类重新计算新的类重心各类有样品进出将样本分为类否是迭代次数达到最高限制是否事先确定分类数计算过程无须存储数据,因此能处理更大的数据量,也称快速聚类样品的最终聚类在某种程度上依赖于最初的划分或种子点K-均值聚类选择AnalyzeClassifyK-Menas Cluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(
9、价格)选入Variables,在Number of Clusters处选择3(想要分的类数),如果想要知道哪种饮料分到哪类,则选Save,再选Cluster Membership等。注意k-均值聚类只能做Q型聚类,如要做R型聚类,需要把数据阵进行转置。假定要把这假定要把这1616种饮料分成种饮料分成3 3类。利用类。利用SPSSSPSS,只,只叠代了三次就达到目标了(计算机选的种子还叠代了三次就达到目标了(计算机选的种子还可以)。这样就可以得到最后的三类的中心以可以)。这样就可以得到最后的三类的中心以及每类有多少点及每类有多少点 Final Cluster CentersFinal Clust
10、er Centers203.1033.71107.341.654.163.4913.0510.068.763.152.692.94CALORIECAFFEINESODIUMPRICE123ClusterNumber of Cases in each ClusterNumber of Cases in each Cluster2.0007.0007.00016.000.000123ClusterValidMissing根据需要,可以输出哪些根据需要,可以输出哪些点分在一起。结果是:第点分在一起。结果是:第一类为饮料一类为饮料1、10;第二;第二类为饮料类为饮料2、4、8、11、12、13、14;
11、第三类为剩下的;第三类为剩下的饮料饮料3、5、6、7、9、15、16。聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。另外就分成多少类来说,也要有道理。只要你高兴,从系统聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。SPSS自带文件car_sales.sav.This data file contains hypothetical sales estimates,l
12、ist prices,and physical specifications for various makes and models of vehicles.The list prices and physical specifications were obtained alternately from and manufacturer sites.Manufacturer生产商Model型号Sales in Thousands销售数量(千台)4-year resale value4年转售价Vehicle type车型Price in thousands价格(千元)Engine size发
13、动机尺码Horsepower马力Wheelbase轴距Width车宽Length车长Curb weight汽车净重Fuel capacity能源能力Fuel efficiency能源效率适用于样本量不大的情况,一般处理小于100个样本计算结果取决于点间距、类间距、数据是否标准化 点间距的计算方法要根据数据的测量尺度不同而进行定义,间隔尺度的计算方法包括欧式距离、马氏距离等,名义尺度和顺序尺度的计算方法不同于间隔尺度。点间距的计算方法包括最远距离法、最近距离法等 数据标准化是针对间隔尺度的数据而言,目的在于消除量纲,使各变量对等地影响计算结果。根据树形图和聚合系数确定类别数量 树形图 聚合过程S
14、PSS自带文件telco_extra.savtelco.sav.This is a hypothetical data file that concerns a telecommunications companys efforts to reduce churn in their customer base.Each case corresponds to a separate customer and records various demographic and service usage information.telco_extra.sav.This data file is sim
15、ilar to the telco.sav data file,but the tenure and log-transformed customer spending variables have been removed and replaced by standardized log-transformed customer spending variables.Standardized log-long distance长途通话时长Standardized log-toll free免服务费时长Standardized log-equipment设备消费Standardized log
16、-calling card电话卡通话时长Standardized log-wireless无线使用时长Standardized multiple lines是否使用多线程Standardized voice mail是否使用语音信箱Standardized paging是否使用调页Standardized internet是否使用网络Standardized caller id是否使用来电显示Standardized call waiting是否使用呼叫等待Standardized call forwarding是否使用呼叫转移Standardized 3-way calling是否使用3路电话Standardized electronic billing是否使用电子账单学习SPSS帮助中的电信服务案例 数据文件在SPSS程序文件夹中的Samples文件中 telco.sav.telco_extra.sav.并应用系统聚类和快速聚类对电信消费者进行分类选用什么方法聚类,原因是什么.选择哪些样本;选择哪些变量 快速聚类还是系统聚类?点间距如何定义?类间距如何定义?选择哪些输出结果?是否保存分类结果?聚类结果是什么?有何启示?分析是否有局限,有改进的思路吗?