1、第六章 遥感专题信息提取 第一节 遥感图像解译概述一、遥感图像解译(Imagery Interpretation)的概念遥感图像是地物电磁波特性的实时记录。遥感图像能够提供给解译者的信息有:目标的光谱特征信息 主要由地物的类别、性质的差异决定目标的空间位置特征 目标随时间的动态信息不同的目标,在上述性质和特征上是不同的所以,遥感图像解译定义为:根据遥感图像所提供的影像特征及其对应目标的特点进行推理和判断将目标识别出来,并进行定性、定量分析的工作就称为遥感图像解译(判读)遥感图像解译(判读)的本质就是:利用遥感图像提供的各种数据,再结合解译者的学识和经验,确定空间什么位置(Where-Posit
2、ion)有什么目标(What-Qualitative)有多少(How-Quantitative)但是,遥感图像上的信息并非直接呈现出来,而是通过图像上复杂形式的色调、结构及它们的变化表现出来,因此要正确的认识它们必须具备相应的知识 二、图像解译的背景知识1专业知识 指需要熟悉所解译的学科及相关学科的知识。包括对地物成因联系、空间分布规律、时相变化以及地物与其他环境要素间的联系等知识。比如遥感地质探矿,首先需具备地层、构造、蚀变带等与找矿直接相关的地质知识和经验,还需要了解植物分布、土壤等相关知识。2地理区域知识 指区域特点、人文自然景观等。每个区域有其独特的区域特征,即地域性,它影响到图像的图
3、型结构等,它能直接帮助识别地物和现象3遥感系统知识 解译者必须了解每一图像是怎样生成的;不同遥感器是如何描述景观特征的,它使用的何种电磁波段,空间分辨率是多少等等,怎样从图像中获得有用的信息等遥感图像解译与日常目视观察有3点不同:A 遥感图像通常为“顶视-鸟瞰”,而不同于日常生活中的透视B 遥感图像常用可见光以外的电磁波段,而大多数我们熟悉的特征是在可见光谱段, 可以表现得十分不同C 遥感图像常用一种不熟悉或变化的比例和分辨率描述地球表面因此,对于初学者需要多对照地形图、实地或熟悉地物观测,以增强立体感和和景深印象,纠正视觉误差,积累图像判读经验遥感图像的解译过程是地面目标成像过程的逆过程,即
4、从地面实况的模拟影像中提取遥感信息、反演地面原型的过程三、遥感图像解译的两种方式1目视解译(Visual Interpretation) 借助人眼的观察和人的智能,结合一些量测工具(测微尺、放大镜、立体镜等)来识别图像中的目标。特点:解译者的学识和经验在判读中起主要作用,精度高,但难以对海量空间信息的定量化分析2 计算机图像理解(Computer Imagery Understanding)以计算机软硬件为支撑,利用模式识别技术(Pattern Recognition)和人工智能(Artificial Intelligence)技术,建立图像解译专家系统(Experts System)从而让计
5、算机模拟人工解译过程,“读取遥感图像上的特征”,进而确定图像上的目标。 特点:速度快,处理方式灵活多样,整个处理过程通常是以人机交互方式进行, 对计算机技术和算法要求较高,识别的精度通常不及目视解译第二节 遥感图像目视解译标志一、解译标志的概念解译标志(Interpretation Mark):遥感图像上能帮助人们识别不同目标的那些影像特征;直接解译标志:能在遥感影像上直接看到可供判读的影像特征称为直接判读标志,如形状、大小、阴影、纹理、色调等;间接解译标志:指运用某些直接解译标志,根据地物的相关属性等地学知识,间接推断出的影像标志,如根据道路与河流相交处的特殊影像特征,可以判断渡口;根据植被
6、、地貌与土壤的关系,来识别土壤类型和分布(如温带针叶林区多为灰化土)二、常用的解译标志1色调(Tone) 指地物反射、辐射电磁波的性质和能量强弱在影像上的表现说明两点:a 解译者必须了解该解译图像中影像色调的支配因素 如可见光和近红外图像均反映地物“反射”波谱特征的差异,涉及地物的物质组成、水分含量等;而热红外图像则反映地物“发射”波谱特征的差异,是地物温度差异的记录;雷达图像反映地物后向散射能量的差异,涉及到地物介电常数、表面粗糙程度等物理性质 b 影像色调受到多种因素的影响 除了受目标本身的波谱特征因时因地、因环境变化而变化外,还受到成像高度、成像时间(光照角度、强度)、遥感器观察角度、成
7、像后处理等多种因素的影响,因此使用色调标志时要特别小心影响影像色调变化的因素:(1)地物本身的颜色(2)地物表面的结构 表面结构不一致,其光滑程度有差异,反光能力就不同,反映 在影像上的色调就不相同 a 光滑表面(镜面反射 Specular Reflection)若传感器照射方向与太阳入射 方向一致,此时影像呈暗色调;若传感器照射方向逆着镜面反射的方向,则 影像呈亮色调 b 无光泽表面(粗糙表面,漫反射Diffuse Reflection) 各方向上光线被均匀 散射开来,因此无论哪个方向得到的影像色调均一 c 起伏不平的表面 阳坡( Adret-Sunny Slope)影像色调亮 阴坡(Uba
8、c-Shady Slope)影像色调暗(3)地物本身的反光能力(4)湿度的大小 通常湿度越大则影像色调越暗 利用此特征可以监测土壤湿度(5)摄影季节的不同 春季植物色调浅,夏季色调深2阴影(Shadow) 指因倾斜照射,地物自身遮挡光源而造成影像上的暗色调阴影分为本影和投落阴影,前者是地物背光面在影像上呈现的暗色调构像,有助于获得目标的立体感;后者是地物背光方向地物投射到地面的暗斑在影像上的构像,它反映地物的侧面形态,可以根据侧影的长度及照射角度反算地物的高度 但是,因为阴影的遮盖会掩盖一些信息,给解译工作带来不便3大小(Size)指地物长、宽、高、面积、体积等在影像上的记录 地物影像的大小不
9、仅能求得地物的数量特征,而且对判读地物的性质也有帮助。例如,单轨铁路和双轨铁路从形状上往往不易区分,但通过量算其宽度则很容易区分地物影像的大小取决于影像的比例尺大小。因此,解译前要获得影像的比例尺4形状(Shape)是目标物的外形、轮廓 a 遥感图像记录的是目标物的顶面形状,不同于地面看的侧面形状 b 自然形成物往往形状复杂,不规则,轮廓边界呈现较圆滑自然的曲线 如河曲 冲击扇、火山锥等;人为活动的产物一般具有规则的几何形状,拐角明显呈 一定角度,如田块、果园、城镇建筑物等 c 影像的比例尺和分辨率对形状影响较大,小比例尺时,往往呈现的是综合体的形状5纹理(Texture)是指具有不同色调和形
10、状的细微影像按某种规则排列组合的集合,这种细微影像称为纹理基元。它往往是指图像上地物表面质感(平滑、粗糙、细腻等)如“花格子衬衫”(强调单个事物的重复规则排列,如果园果树的株行距、集约化程度高的田块排列,贵州山区梯田的排列)6图案(Pattern),即图型结构,是指多个人工目标重复排列的空间形式,它反映地物目标的空间分布特征。如建筑物、道路、绿化带形成的住宅区的图案7位置(Site)即地理位置,它反映地物所处的地点与环境,地物与周边的关系 如菜地多分布于居民点周围与河流两侧;机场多在大城市郊区的平坦地;堤坝与道路(形色难分),堤在河流两侧并与之平行,道路与居民点相连;有的植物生长于高地,有些只
11、能生长在湿地8组合(Association)指某些目标的特殊表现和空间组合关系,它不同于那种严格按图型结构显示的空间排列,而指物体间一定的位置关系和排列方式,即空间配置和布局如砖场由高烟囱、取土坑、堆砖场等组合而成;军事目标可能有雷达站、军车、军营及周围的配套的军事设施等第三节 遥感图像的目视解译一、目视解译的原则1从应用的目的出发,总体观察,全面分析图像特征。坚持先易后难,由粗入细,由 整体到局部的原则2应充分利用各种解译标志,包括直接标志和间接标志,相互补充,彼此验证3随着多光谱和多平台遥感技术的发展,应尽可能创造条件开展多波段、多时相、 多类型遥感图像的对比分析二、目视解译的基本过程1准
12、备阶段 根据解译的目的和经费的支撑选择适当空间分辨率、时相、光谱分辨率的遥感数据并进行波段组合进行彩色增强;尽量收集到质量好、现势性较强的地形图及有关专业图件和文字资料;编写解译标志表及说明草稿(这是一编检索表的过程,工作量大);野外选择典型地区进行粗查,为建立合理的解译标志表打好基础。2室内图像解译阶段 按解译的基本原则进行,对无法解译或把握不大的区域应记录下来,有待野外验证3野外验证与补充解译阶段4成果整理与制图总结阶段三、遥感解译过程的复杂性(Complexity)1 遥感图像显示的是某一特定地理环境的综合体,这种综合表现在两个方面: a 地理要素的综合 它反映的是地质、地貌、水文、土壤
13、、植被、社会生态等 多种自然、人为要素的综合,这些因子是密切相关、交织在一起,往往难以区分 b 遥感信息本身的综合 遥感图像可以是不同时间、空间、光谱、辐射分辨率的综合遥感数据对应的地理环境又是一个复杂的、多要素的、多层次的、具有动态结构和 明显地域差异的开放巨系统,它在时间和空间上是不断变化的,因而遥感信息中的诸要素是相互关联、复杂变化的因此,遥感解译过程是复杂的,主要体现在:1 地物波谱特征是复杂的,它受多种因素控制,本身也因时因地而变化2 自然界存在着大量的“同物异谱”和“同谱异物”现象3 地物的时空属性和地学规律是错综复杂的,各要素、各类别之间的关系是多种类型的地带性规律:由于太阳辐射
14、随纬度分布的规律性,造成沿纬度的水平地带性现象,由于温度、湿度等随地形高度分布的规律性造成沿高度的垂直地带性现象,植物从播种到成熟的季节性变化规律等;有的具有随机性、不确定性,如自然灾害;有的具有模糊性存在过渡渐变关系,如气候带、草场类型的变化等为了提高解译过程的正确性、可靠性,必须补充必要的辅助数据(Ancillary)和先验知识(Priori Knowledge)-指地学、生物学、物理学、数学等专业知识,在GIS的支持下,发展一系列相关的、多层次的、综合的应用分析方法,进行遥感与地学综合分析第四节 模式识别(Pattern Recognition)概述遥感图像的计算机分类是模式识别技术在遥
15、感领域的具体应用,是遥感图像应用处理的重要内容和关键技术之一。首先提及关于模式识别的基本概念一、基本概念1类别(Category)是与概念(Concepts)或原型(Prototype)相关的“自然”状态或 对象种类。假定有c个类别, ,也称为解释空间(Interpretation Space)。解释空间有概念驱动(Concept-Driven)的属性,如类别的联合、交叉等2 模式(Pattern)是对象的“物理”描述 。通常是信号、图像或简单的数值表。也常把模式称为对象、案例或样本。3特征(Feature) 是从模式得到的对分类有用的度量、属性或基元(Primitive)所以特征选取是门艺术
16、。是所有类别的集合其中), 1( ,cii二、模式识别的方法1数据聚类(Clustering) 是用某种相似性度量的方法将数据组织成有意义的和有用的各组数据。数据聚类不需要利用已知类的信息,它是一种非监督学习的方法,解决方案是数据驱动的2统计分类 (Statistical Classification) 最为经典的模式识别方法,在选取训练区的基础上,估计出每类型的统计特征参数(均值向量和协方差矩阵),从而确定每类型的概率分布密度函数,进而建立判别函数,实现对待分像元进行分类。这种分类方法是建立在多元变量的多元正态分布的假设基础上的。这是一种监督学习方法。3神经元网络 (Artificial N
17、eural Network)是以数学算法结合计算机程序来模拟人的物理神经元之间的联系方式和思维过程,通过反馈控制的方式来调整神经元之间的联系权重,进而使神经元的实际输出无限的逼近期望输出,这一过程通过迭代方式来训练神经元网络。这是一种非线性的数学方法,并且是与“模型无关”,也就是它无须对数据的分布作出假设。 存在的不足(1)关于神经网络的数学解释很复杂(2)对于一些重要的决策,设计者常常没有理论依据,因此必须进行大量的试验,并从试验的失败中得到启发从而不断改进神经网络(3)从神经网络得不到任何的语义的信息 4 结构模式识别 其基本思想是:任何一个具有意义的物理模式都具有良好的结构性,它是由许多
18、已知类别和性质的子模式或源模式(也称模式基元),按照一定的规则构成的组合件,所以一旦知道生成规则和子模式、源模式,便可由“模式描述”语句的文法推理出一个用字符串来表示的模式集合。若所研究的模式被包含在此集合内,就认为该模式被识别出来了。此法至今在遥感图像识别分类中尚未得到实际应用,有待进一步开发 5 模糊模式识别 人在进行识别时可以根据一些模糊的印象就能做到比较准确的判断。然而,计算机是建立在0、1二值逻辑基础上的,它对事物的分析的结论是“非假”即“真”。这种二值逻辑不适宜处理模糊事物。根据人辨识事物的思维逻辑,吸取人脑的识别特点,模糊集合论(Fuzzy Set Theory)把数学从二值逻辑
19、转向连续逻辑这就更接近人类大脑的识别活动了。由此产生了一种相当独特的识别方法:模糊识别第五节 遥感图像计算机分类概述一、遥感图像计算机分类的概念就是将遥感图像中每个像元根据其在不同波段的光谱亮度、空间结构特征或其他信息按照某种规则或算法划分为不同的土地覆盖类型专题的技术过程。二、遥感图像计算机分类(模式识别)的种类1光谱模式识别(Spectral PR)是指根据像元到像元的光谱信息来自动划分土地覆盖类型的分类过程的总称。它只考虑了地物在光谱辐射方面的差异。2空间(结构)模式识别(Spatial or Structural PR)是指图像像元根据和它周围像元的空间关系来进行图像分类。空间关系主要
20、是指:图像的结构、像元的近似度特征的大小、形状、方向性、分形维、扁率、重复度和上下关系等空间特征。这种方法比光谱模式识别过程更复杂,而且计算算法上更精深。3时间模式识别(Temporal PR)是指在特征鉴别中将时间作为一种辅助信息,利用多时相的遥感数据动态的进行土地覆盖类型的分类说明:遥感图像分类没有唯一“正确”的方法,因此可以将它们结合在一起运用,形成混合模式(Hybrid Pattern)三、遥感图像计算机分类的方式按照在分类过程中分类者的参与程度,将分类分为两种方式:1监督分类(Supervised Classification)2非监督分类(Unsupervised Classifi
21、cation)四、遥感图像计算机分类的原理这样,图像中的任何一个像元就可以用一n维的光谱值向量来描述:nijiiiixxxxX21式中:xji代表第j个波段上第i号 像元的亮度值 i=1,2,N,N代表每个 波段图像中像元的个数这样,任何一像元点的光谱向量对应着n维欧氏空间的一个点若某两个像元属于同一地物类型,则它们在欧氏空间中就应该集结在一起;相反,若两个像元分别属于不同的地物类型,则它们在欧氏空间中就应该彼此分离。分类图像(类码标记图像)假设分割A、B两个点集的曲面(图中是两维变量因此是直线)表达式为:则方程 称为A、B两类的判别边界(Decision Boundary) )(XfAB0)
22、(XfAB在 已经确定以后,特征空间中任意一点是属于A类?还是属于B类?根据几何学知识可知:当 时 当 时 )(XfAB0)(XfABAX0)(XfABBX上述的确定样本点所属类别的规则称为判别准则(Decision Criteria),称为判别函数(Decision Function))(XfAB遥感图像分类算法的核心就是确定判别函数 和相应的判别准则,为了保证所确定的判别函数能够将各类地面目标在特征空间中的点分割开来,通常是在一定的准则(如Bayes分类器中误分概率最小准则等)下求判别函数和相应的判别准则。)(XfAB五、特征选择与特征变换在遥感图像分类之前,为了压缩参与分类多光谱图像数据
23、的维度和找到那些对识别感兴趣的地物类型最为有效的“特征图像”,通常需要进行特征选择(Feature Selection)和特征提取(Feature Extraction)。在分类时我们总是希望用最少的影像数据取得最好的分类结果,这样就需要从多光谱图像中选择最佳的特征影像组合进行分类,这就称为特征选择。将原始多光谱图像通过一定的数学变换(如主成分、缨帽变换、植被指数变换等)生成一组进行了信息融合的新的特征图像,这种技术手段就称为特征变换。特征选择时,除了凭借研究者的定性判断进行特征选择外,通常可用一些定性的指标计算来帮助进行特征选择,这些指标主要有:1距离测度(Distance Measure)
24、距离是最基本的类别可分性的测度,如果所选择的特征图像能使感兴趣的目标类别的类内距离最小,而与其它类别的类间距离最大,则用这组特征图像设计的分类器分类效果一定很好的标准差和类别分别是类别、的均值和类别分别是类别、式中:212121212121normd如果将所有的特征图像都计算这一参数值,通过比较找到参数值最大的那个特征图像,即是最佳的分类特征图像2变换离散度(Transform Divergence)衡量遥感数据各地物类型可分性好坏的数量指标常采用变换离散度和JM距离。离散度(Divergence)是具有分布重叠度的两个类型之间可分性的数量测度。若遥感图像中各类型的光谱矢量遵从或近似遵从多元正
25、态分布,则图像中每两个类型之间的离散度定义为:式中: 表示求矩阵的迹, 和 分别是第i类型和第j类型的协方差矩阵 和 分别为第i类型和第j类型的光谱均值向量实际应用时,常采用变换离散度公式定义光谱类型间的可分性,变换离散度定义为:TjijijirijjirijTTd11112121rTijij8/12ijdijed当需要研究M个类型之间的可分性时,通常是考察M个类别间的平均离散度,它定义为: 式中:M是选定地物的类型数, 是第i类型的的先验概率。 MiMijijjiavedppd11)()()(ip3最优指数公式OIF(Optimum Index Formula)在前面假彩色合成时已介绍Cla
26、ssification Accuracy Assessment Another area that is continuing to receive increased attention by remote sensing specialists is that of classification accuracy assessment. Historically, the ability to produce digital land cover classifications far exceeded the ability to meaningfully quantify their
27、accuracy. In fact, this problem sometimes precluded the application of automated land cover classification techniques even when their cost compared favorably with more traditional means of data collection. The lesson to be learned here is embodied in the expression “ A classification is not complete
28、 until its accuracy is assessed”.Classification error matrixOne of the most common means of expressing classification accuracy is the preparation of a classification error matrix (sometimes called a confusion matrix or a contingency table). Error matrices compare, on a category-by-category basis, th
29、e relationship between known reference data (ground truth) and the corresponding results of an automated classification. Such matrices are square, with the number of rows and columns equal to the number of categories whose classification accuracy is being assessed.Table 7.3 is an error matrix that a
30、n image analyst has prepared to determine how well a classification has categorized a representative subset of pixels used in the training process of a supervised classification. This matrix stems from classifying the sampled training set pixels and listing the known cover types used for training (c
31、olumns) versus the pixels actually classified into each land cover category by the classifier (rows)Several characteristics about classification performance are expressed by an error matrix. For example, one can study the various classification errors of omission (inclusion). Note in the above table
32、 that the training set pixels that are classified into the proper land cover categories are located along the major diagonal of the error matrix (running from upper left to low right). All non-diagonal elements of the matrix represent errors of omission or commission. Omission errors correspond to n
33、on-diagonal column elements (e.g., 16 pixels that should have been classified as “sand” were omitted from that category). Commission errors are represented by non-diagonal row elements (e.g., 38 “urban” pixels plus 79 “hay” pixels were improperly included in the “corn” category).Several other descri
34、ptive measures can be obtained from the error matrix. For example, the overall accuracy is computed by dividing the total number of correctly classified pixels (i.e., the sum of the elements along the major diagonal) by the total number of reference pixels. Likewise, the accuracies of individual cat
35、egories can be calculated by dividing the number of pixels in the corresponding row or column.What are often termed producers accuracies result from dividing the number of correctly classified pixels in each category (on the major diagonal) by the number of training set pixels used for that category
36、 (the column total). This figure indicates how well training set pixels of the given cover type are classified.Users accuracies are computed by dividing the number of correctly classified pixels in each category by the total number of pixels that were classified in that category (the row total). Thi
37、s figure is a measure of commission error and indicates the probability that a pixel classified into a given category actually represents that category on the ground.Note that the error matrix indicates an overall accuracy of 84%. However, producers accuracies range from just 51% to 100% and users a
38、ccuracies vary from 72% to 99%. Furthermore, this error matrix is based on training data. It should be remembered that such procedures only indicate how well the statistics extracted from these areas can be used to categorize the same areas.If the results are good, it means nothing more than that th
39、e training areas are homogeneous, the training classes are spectrally separable, and the classification strategy being employed works well in the training areas. This aids in the training set refinement process, but it indicates little about how the classifier performs elsewhere in a scene. One shou
40、ld expect training area accuracies to be overly optimistic, especially if they are derived from limited data sets.A further point to be made about interpreting classification accuracies is the fact that ever a completely random assignment of pixels to classes will produce percentage correct values i
41、n the error matrix. In fact, such a random assignment statistic is a measure of the difference between the actual agreement between reference data and an automated classifier and the chance agreement between the reference data and a random classifier. Conceptually, K=(observed accuracy chance agreem
42、ent)/(1-chance agreement)This statistic serves as an indicator of the extent to which the percentage correct values of an error matrix are due to “true” agreement versus “chance” agreement. As true agreement (observed) approaches 1 and chance agreement between 0 and 1. For example, a k value of 0.67
43、 can be thought of as an indication that an observed classification is 67 percentage better than one resulting from chance. A k value of 0 suggests that a given classification is no better than a random assignment of pixels. In cases where chance agreement is large enough, K can take on negative val
44、ues-an indication of very poor classification performance. (Because the possible range of negative values depends on the specific matrix, the magnitude of negative values should not be interpreted as an indication of relative classification performance)像元数表示用于参加评价的总列元素之和,行和第表示第、数类中被正确分类的像元表示第表示总类别数,
45、式中:Niiin)()(1211iiiiniiininiiiiihatmmmmmNmmmNK六、分类结果的质量评价在遥感图像的分类问题中常以混淆矩阵(Confusion Matrix)来表示分类结果的精度混淆矩阵定义如下:(Usually, this matrix was derived from the validation dataset(ground truth )the user specified.)nnnnnnmmmmmmmmmM212222111211式中:mij表示本应属于第i类结果被分入 第j类中去的像元总数 n表示总的类别数所以,该矩阵的主对角线上的元素值越大则说明分类的效
46、果越好若通过分类获取了上述混淆矩阵,可以计算基本的精度估计量:1 总体分类精度 正确分类的总像元数(主对角线上元素的和)与参加分类评价的 总像元数(矩阵中所有元素之和)之比,表示为2用户精度 每一类别被正确分类的像元数量除以被分作该类的总像元数 (列元素之和),表示为3 生产者精度 每一类别被正确分类的像元数量除以该类用作分类训练的总像元 (行元素之和),表示为 ninjijniiicmmP111iuPcP), 2 , 1(1nimmPnjijiiuijAP), 2 , 1(1njmmPniijjjAj一、无监分类的概念在对研究区不了解的情况下,只是依据每一类型地物所具有的相似性(Simila
47、rity,类似度 ),把反映各类型地物特征值的分布按相似分割和概率统计理论将各像元归并成不同的空间集群,然后结合地面实地调查来确定各集群的地物类型从而达到识别分类目的的分类方法。其数学基础是:多元统计的聚类分析(Clustering Analysis)第六节 遥感图像计算机无监分类4Kappa分析像元数表示用于参加评价的总列元素之和,行和第表示第、数类中被正确分类的像元表示第表示总类别数,式中:Niiin)()(1211iiiiniiininiiiiihatmmmmmNmmmNK二、非监督分类的特点1分类者不需要对研究区有广泛的了解和熟悉,但分类结束后仍需要一定的知识或 地面调查来确定各集群的
48、地物覆盖类型2人为误差的机会减少,因为分类者参与的程度低,只需要事先设定几个参数即可3非监督分类产生的光谱集群组并不一定对应于分析者想要的类别4分析者较难对产生的类别进行控制三、非监督分类的算法1K-Mean算法 其基本思想是通过迭代,逐次移动各类别的中心,直到后一次获得的各类的中心与前一次聚类获得的中心不再发生移动为止。具体步骤:假设图像上的目标要分成m类,m事先由分类者指定(1)适当地选取m个类的初始中心 ,初始中心的选择对聚类的 结果有一定的影响,初始中心的选择一般有以下方法: )1(m)1(2)1(1zzz, 1)根据问题的性质,根据经验确定类别数m,从数据中找出从直观上看来比较合适
49、的m个类的初始中心 2)将全部数据随机地分成m个类别,计算每个类别的重心,将这些重心作为m个类的 初始聚类中心(2)在第K次迭代中,对任一样本X按如下方法把它调整到m个类别中的某一类别中去。对于所有的 ,如果: m21,,iji能含有任意多个像元为中心的类,该类中可表示以其中),则表示求距离运算(范数(k)j(k)j(k)j(k)i(k)jzX,z-Xz-Xss(3)由第(2)步得到 类新的中心(k)js)1( kjz个数是该类中所包含的样本jsXjkjNXNzkj,1)()1( mjsXkjkjkjzXz12)1()1()(JJJ写为:最小的原则确定的,是按照使(4)对于所有的 则迭代结束,
50、否则转到第二步继续进行迭代(k)j1)(kjm,21zzj如果,YN开始选择m个聚类中心z1,z2,zm所有像元分到m个聚类中心计算新的聚类中心聚类中心不变结束K均值算法框图说明:这种方法的聚类结果受所选聚类中心的数目及其初始位置以及模式分布的几何性质和读入次序等因素影响,并且在迭代过程中没有调整类别数的措施2ISODATA算法 ISODATA( Iterative Self-Organizing Data Analysis Techniques Algorithm, 迭代自组织数据分析技术算法),它与K-Mean算法有两点不同:第一,它不是每调整一个样本的类别就重新计算一次各类样本的均值,而