1金属矿产遥感找矿原理
遥感的理论基础是电磁波辐射,地物的光谱辐射特性则是遥感技术赖以鉴别和区分的主要基础。航空航天遥感传感器接收的是地表各种地物的反射光谱信息,这些地物反射光谱实际上是电磁波谱的一部分,分析这些岩石电磁波谱信息,可使我们有效地识别地质体和地质现象。在遥感地质应用中,主要利用可见光和近红外区(038~250μm)地物光谱,只要我们掌握了岩石光谱特征,就可利用遥感数据有效地提取和识别地质体和地质现象。在可见光和近红外区地物光谱主要是电子跃迁和原子团振动的结果,下面对电子跃迁和原子团震荡等作一简要介绍。
(1)电子跃迁
组成矿物的原子一旦接收一定的电磁辐射能量,原子中的电子就可在不同的能量级之间进行跃迁,形成一定的吸收带。在遥感应用中主要研究晶体场效应、电荷转移、共轭键等对光谱特征的影响。
A晶体场效应
在分子及许多固定原子中,邻近原子的价电子配对形成化学键,将原子束缚在一起,这一配对导致价电子的吸收带常常在紫外区和可见光区。对于铁、铬、铜、镍等过渡金属元素,其原子的内壳层只是部分填充,在这些未满的内壳层中保留有未配对的电子,它们的激发态多处在可见光区。这些激发态易受周围静电场的影响,而这一静电场则取决于周围的晶体结构。对于同样的离子,不同晶体场能级的组合不同,导致出现不同的光谱。“选择定则”给出特定的跃迁能否发生的信息其中关系最大的是与能级中的电子自旋有关的选择定则。该选择定则指出:具有相同自旋的能级之间的跃迁是允许的,而自旋不同的能态间的跃迁是禁戒的。由该选择定则可推断,允许跃迁在光谱中产生强谱带,而禁戒跃迁不产生谱带,如果产生谱带也极弱。
B电荷转移
电荷转移,或元素之间的电子跃迁,即吸收的能量使电子在相邻离子之间或离子与配位基之间发生迁移。在可见光和近红外波段,分子轨道产生光谱特征的一个机制是离子间的电荷转移。这个机制的一个例子是那些既有二价铁离子又有三价铁离子的物质,在这两种铁离子间电荷的转移导致深蓝到黑色的颜色变化,例如磁铁矿(黑色的铁矿石)。电荷转移产生的光谱特征一般较强,比晶体场效应的光谱特征强儿百倍或上千倍。
C共轭键
分子轨道跃迁对许多有机物的光谱响应虚主要作用。这些物质中的碳(有时是氢)原子由重及键交替相连,称为共轭键。因为每个键代表一对其享的电子,将每个双键上的一对电子移到相邻的单键上,得到的是一个等价物,只是键的序列逆转了。这类结构的最佳表述应是:所有原子以单键相连,多余的电子对分布在整个分子轨道体系中,这样的分子轨道称为π轨道。π轨道在共巍键体系中的延展性要降低电子对的激发能,导致可见光区的吸收。很多生物色素的光谱性质来源于π轨道的延展性,植物中的叶绿素和血液中的血红蛋白即是如此。
(2)原子团振动
在原子团振动能量级之间,电子的转移产生吸收特征,通常电子的振动跃迁产生3种类型的吸收波谱特征,即基本波、谐波和组合波。基本波的吸收特征最强,是由电子从基本状态跃迁到第一级激发态产生的。当电子从基本能级跃迁到某一能级(正好这一能级是两个基本能级的能量之和)时产生组合波,组合波的波长可通过将2个基本波的频率相加计算出来。事实上,20~25μm波段是非常重要的遥感地质波段,含氢氧根类矿物中的氢氧根拉伸键及其组合键都在这一波段产生组合波段吸收特征。谐波是由2个或多个量子激发出一个基本波时产生的,谐波的频率是基本波的2倍或3倍。
吸收特征的精确位置和形状取决于原子团的作用力、原子结构、质量和量子数量。当氢氧根原子团和铝元素结合时便在22μm处产生组合波吸收特征。当氢氧根原子团和镁元素结合时,23μm处会出现组合波吸收特征。某些矿物(像高岭石在22μm附近)具有双吸收特征(其中一个强吸收、一个弱吸收组合成吸收肩),这是由于氢氧根原子团在晶格中占据非等效的位置,从而产生强弱不同的吸收谱带。含碳酸根和碳酸根原子团的矿物的基本波和谐波都在短波近红外范围内,13-25μm。
(3)岩石矿物的波谱特征
各种岩石矿物在矿物成分、结构构造等方面的差异,使得它们在可见光、近红外波长范围的反射光谱和在中、远红外波段的发射光谱是各不相同的。在多光谱遥感图像上,它们呈现出不同的电磁波辐射特性(简称波谱特性),04~13μm波长范围内岩石矿物的光谱特征,主要是由它们的表面色泽、粗糙度和所含的过渡金属离子元素所决定的,铁是引起岩石矿物在小于10μm的近红外光段产生吸收带的主要因素。13~25μm的近红外波段的反射光谱,是由羟基、水、碳酸根离子等阴离子团的分子振动引起的。一般含OH-的黏土类蚀变矿物反射光谱在217~221μm处存在显著的光谱吸收带。岩矿的热红外波段(8~14μm)吸收谱则主要是矿物中硅氧分子团的分子振动引起的。
在04~25μm波长范围内,热液蚀变岩与非蚀变岩类岩石的反射光谱有明显差别。在整个波长内蚀变岩石的反射率值高于非蚀变岩,并且蚀变岩在16μm附近具有很高的反射值,而在22μm附近则出现特征吸收带。非蚀变岩无此特点,并且其反射值在整个波段范围内变化幅度不大,从而可应用遥感图像处理方法识别蚀变岩提供了物理前提。
(4)三大岩类光谱特征
遥感影像能真实地记录地球表面三种岩类的光谱与纹理特征,我们现在主要介绍三大岩类的光谱特征,它是岩石遥感图像处理识别的最重要信息。三大岩类在地球表面,由于它们所处的大地构造位置、区域构造背景、地貌单元和海拔、气候带和地理位置的不同,其岩石成分、结构、构造、风化类型与覆盖程度均有较大差异。此外,遥感影像获取时的气候、光照条件等因素的不同对三大岩类岩石的波谱特征和纹理也可能产生较大影响。气候干燥,地表植被少,岩石裸露好时,三大岩类的光谱与纹理特征在遥感图像上都会有明显的差异。
A沉积岩类光谱特征
不同颜色、不同成分、不同结构构造的沉积岩,它们的光谱特征具有很大差别。同一岩性在不同物理化学条件下,遭受风化情况不同,它们的波谱特征也有一定的变化。一般情况下,以浅色矿物为主,岩石风化面较浅的岩石,反射率偏高,影像色调也较浅;以暗色矿物和杂色矿物成分为主,二价铁胶结物较多,岩石风化面颜色较深的岩石,反射率偏低,影像色调也较深。岩石矿物颗粒越粗反射率越低,影像色调越暗。反之,岩石矿物颗粒越细,反射率越高,影像色调越亮。图61是沉积岩类一些典型岩石光谱反射率曲线,从400~1100nm曲线分布规律分析,细砂岩反射率最高,板岩发射率最低,并且,所有沉积岩反射波谱曲线吸收与反射平稳,没有特殊变化。
B岩浆岩类光谱特征
超基性岩、基性岩、中性和酸性岩浆岩的光谱特征有明显的规律,即超基性岩、基性岩光谱反射率低,在遥感影像上多呈深灰至黑色;中性岩浆岩反射率中等,图像上呈灰色;酸性岩浆岩反射率偏高,图像上呈灰白色。图62所示的一些岩浆岩反射光谱曲线很好的反映了这一特征。
C变质岩类光谱特征
变质岩一般由岩浆岩和沉积岩或变质岩经变质作用形成。岩浆岩变质形成的变质岩光谱特性与着浆岩相近;含沉积岩变质形成的变质岩光谱特性与相应的沉积岩相近。决定变质岩光谱特性主要是矿物成分。含有无色和浅色矿物,如石英、碳酸盐、透闪石、透辉石等矿物组成的石英岩、大理岩、钙镁硅酸盐岩石等,它们的风化面颜色一般较浅,光谱反射率较高,影像色调也较浅;黑云母、角闪石、辉石、石榴子石、磁铁矿等黑色矿物含量较高的岩石,它们的反射率一般低于10%,在遥感图像上呈深灰色至黑色调。其他矿物成分组成的岩石则介于二者之间,其光谱反射率变化也比较大。图63反映了上述规律性。
上述岩石典型光谱特征对我们在遥感图像上识别这些岩类起到了重要作用。在识别这些岩类中,同时,还要考虑不同岩类形成的大地构造环境,地貌特征、组合关系的差别,如变质岩区一般褶皱断裂构造极为发育,由褶皱、断裂组成的岩石地层构造形态特征明显,侵入岩一般表现为明显的块状圆形、不规则形的影像特征。喷出岩则以环状地貌、放射状水系、区域性团块状或层理不明显的影像特征反映出来。以上三大岩类的特征纹理和色调为识别这些岩石起到了重要作用。
2遥感金属矿产找矿常用影像处理方法
(1)主成分分析法
主成分分析也称特征向量分析或K-L变换分析,它是以图像统计性质为基础的。经这种变换后生成一组新的组分图像(数目等于或小于原波段数),是输入的若干原图像的线性组合。现有的主成分分析法有直接主成分法、特征主成分法、多重主成分法和与其他算法组合的主成分法。其核心原理是统计特征的正交线性变换,是进行特征抽取的重要方法。多波段图像的波段间存在着很高的相关性,有相当多的数据信息冗余。主成分变换的目的是将原来各波段的有用信息压缩到尽可能少的主成分中,各主成分间具有独立性,信息不重复。
(2)比值分析
比值算法是对遥感所获取的多光谱或高光谱数据的各波段进行比值运算,目前较常用的方法有:基本比值、和差组合比值、交叉组合比值、标准化比值。上述4种比值中以基本比值和标准化比值更为常用,比值处理简便易行,而且对提取与矿化蚀变关系密切的信息更为有效,目前已成为广为采用的主要处理方法。另外,某些情况下运用双比值、复合比值和均衡比值处理提取专题岩性矿化信息也取得了较好的效果。
(3)去相关拉伸法
去相关拉伸法是一种基于主成分变换的技术,它将原始图像该段变换为它们的主成分、外别反差拉伸变换后的主成外,进行主成外反变换,在原始彩色空间显示。经过第二阶段反差拉伸正规化方差后,得到方差为单位方差的互不相关的变量,产生增强显示图像方法的效果主要依赖于该方法产生的特殊反差对比。去相关拉伸变换是原始光谱波段的一种线性变换,这种变换通常是原始光谱波段的加权总和与差。研究表明,该方法对一些遥感数据图像处理有效,能产生好的图像处理效果。
(4)卷积增强算法
遥感图像上的线性特征,特别是对与地质构造和成矿环境有关的断裂构造的增强处理。它是金属矿产找矿逼够图像处理的一种重要方法。线性体信息提取目前主要有梯度网值法,模板卷积法、超曲面拟合法、曲线追踪和区域生长等。遥感线性体信息提取采用模板卷积滤波算法效果较好,它是一种邻域处理技术,是通过一定尺寸的模板(矩阵)对原图像进行卷积运算来实现的。为突出不同方向的线性信息,设计不同方向的卷积模板,经过这种处理,遥感影像上的某一方向线性构造会被突出出来。
(5)图像融合处理技术
各种类型的卫星遥感数据,在时间、空间、光谱分辨率等方面各不相同。它们反映了同一地区地物波谱的不同方面或不同分辨率的遇感信息,但怎样有效利用这些宝贵的遥感数据,通过融合对多源遥感数据处理,以发挥遥感数据的互补效应,提高遥感数据的利用效果。目前,融合方法有基于像元、特征、正交变换、小波变换、神经网络等多种融合方法。
(6)分类处理算法
图像上不同像元的亮度值,反映了不同地质体的波谱特征。计算机用统计的方法,将相似亮度范围的像元值划为同一类,归并到同类地质休中去。这种信息处理主要用于依据已知区的地物亮度等信息推断和预测未知区。目前,简单实用的分类算法有监督分类与非监督分类。监督分类是将训练场地中得到的对比结果采用外推法对未知区进行分类,监督分类常用的有最小距离分类和最大似然率分类。非监督分类是利用同一特征的多通道波谱特征数据,将集群于该空间里某一确定位置附近,构成一个“点群”。同一“点群”中的像元,他们彼此是相似的。代表了某一类别,即属于同一类,而不同的“点群”代表不同的类别。将这些不同的点群与有关资料对比,进而确定研究区地质体的类别。非监督分类主要有图形识别和集群分析两种方法。
在机器学习中,数据通常需要被表示为向量形式以输入模型进行训练。但众所周知,对高维向量进行处理和分析时,会极大地消耗系统资源,甚至产生维度灾难(相关笔记记录于 这里 )。因此,用一个低维度的向量表示原始高维度的特征就显得尤为重要。
在机器学习领域中,我们对原始数据进行特征提取,有时会得到比较高维的特征向量。在这些向量所处的高维空间中,包含很多的冗余和噪声。我们希望通过降维的方式来寻找数据内部的特性,从而提升特征表达能力,降低训练复杂度。主成分分析(PCA)作为降维中最经典的方法,属于一种 线性、非监督、全局的降维算法 。
1、所谓主成分,就是把原特征进行线性组合后得到新的特征,此特征尽可能多地保留了原特征的方差。
2、设一组参数 ,记原特征为 ,新特征为 ,根据定义,我们要让 的方差尽可能大,即 这就是我们的目标函数。
3、具体的求解过程要借助特征值分解。
(a)是二维空间中经过中心化的一组数据,我们很容易看出主成分所在的轴(以下称为主轴)的大致方向,即(b)中黄线所处的轴。因为在黄线所处的轴上,数据分布得更为分散,这也意味着数据在这个方向上方差更大。
我们不难引出 PCA的目标,即最大化投影方差,也就是让数据在主轴上投影的方差最大 。对于给定的一组数据点 ,其中所有向量均为列向量,中心化后的表示为 ,其中 。我们知道,向量内积在几何上表示为第一个向量投影到第二个向量上的长度,因此向量 在 (单位方向向量)上的投影坐标可以表示为 。所以目标是找到一个投影方向 ,使得 在 上的投影方差尽可能大。易知,投影之后均值为0( ),因此投影后方差可以表示为:
其中 其实就是协方差矩阵,我们将其写为 ,另外,由于 是单位向量,因此 ,因此我们要求解一个最大化问题:
引入拉格朗日乘子并对 求导令其等于0,便可以推出 ,此时:
不难看出, 投影后的方差就是协方差矩阵的特征值。我们要找到最大的方差也就是协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量。次佳投影方向位于最佳投影方向的正交空间中,是第二大特征值对应的特征向量,以此类推。至此,我们得到了PCA的求解方法:
1)对样本数据进行中心化处理。
2)求样本协方差矩阵。
3)对协方差矩阵进行特征值分解,将特征值从大到小排列。
4)取特征值前 大对应的特征向量 通过以下映射将 维样本映射到 维:
定义降维后的信息占比为:
可以。从线性回归的角度切入,最佳投影方向对应的直线应该使得各点到此直线的距离的平方和最小。关于这个目标和最大方差目标的等价性,我在 这里 已经说明过了。
从求解直线的思路出发,很容易联想到数学中的线性回归问题,其目标也是求解一个线性函数使得对应直线能够更好地拟合样本点集合。如果我们从这个角度定义PCA的目标,那么问题就会转化为一个回归问题。
数据集中每个点 到 维超平面 的距离为:
其中 表示 在超平面 上的投影向量。若该超平面 由 个标准正交基 构成,则有线代知识可知, 可由这组基线性表示:
其中 表示 在 方向上投影的长度。因此 实际上就是 在 这组标准正交基下的坐标。而PCA要优化的目标是:
将上式中每个距离展开:
可以看到,第一项与选取的 无关,是一个常数,将 代入第二项第三项得到:
因为当 时, ,因此上式可写为:
于是:
这等价于求解带约束的优化问题:
如果我们对 中的 个基 依次求解,就会发现 和最大方差理论的方法完全等价 。
线性判别分析(Linear Discriminant Analysis, LDA)是一种 有监督学习算法 ,同时经常被用来对数据进行降维。
相比于PCA,LDA可以作为一种有监督的降维算法。在PCA中没有考虑数据的标签(类别),只是把原数据映射到一些方差比较大的方向上而已。
假设用不同的颜色标注 两个不同类别的数据,如图所示。根据PCA算法,数据应该映射到方差最大的那个方向,亦即 轴方向。但是, 两个不同类别的数据就会完全混合在一起,很难区分开。所以,使用PCA算法进行降维后再进行分类的效果会非常差。但是如果使用LDA算法,数据会映射到 轴方向。
1、要想降维过程中不损失类别信息,一个简单的想法就是降维后两类样本点之间的距离越远越好,这样才能将两类样本区分开来。
2、在这样的目标下,假设样本在目标超平面上的投影,并考察两类样本投影的均值点,求解一个超平面,使得这两个均值点之间的距离最大。
LDA首先是为了分类服务的,因此只要找到一个投影方向 ,使得投影后的样本尽可能按照原始类别分开 。 我仍不妨从一个简单的二分类问题出发,有 两个类别的样本,两类的均值分别为 ,我们希望投影之后两类之间的距离尽可能大,距离表示为:
和 表示两类中心在 方向上的投影向量,即 ,因此需要优化的问题为:
容易发现当 方向与 一致的时候,该距离达到最大值,例如对图(a)的黄棕两种类别的样本点进行降维时, 若按照最大化两类投影中心距离的准则,会将样本点投影到下方的黑线上。但是原本可以被线性划分的两类样本经过投影后有了一定程度的重叠,这显然不能使我们满意。我们希望得到的投影结果如图(b)所示,虽然两类的中心在投影之后的距离有所减小,但确使投影之后样本的可区分性提高了。
仔细观察两种投影方式的区别,可以发现,在图(b)中,投影后的样本点似乎在每一类中分布得更为集中了,用数学化的语言描述就是每类内部的方差比(a)中更小。这就引出了 LDA的中心思想一一最大化类间距离和最小化类内距离 。
在前文中我们已经找到了使得类间距离尽可能大的投影方式,现在只需要同时优化类内方差,使其尽可能小。我们将整个数据集的类内方差定义为各个类分别的方差之和,将目标函数定义为类间距离和类内距离的比值,于是引出我们需要最大化的目标:
真中 为单位向量, 分别表示两类投影后的方差:
因此 可以写成:
定义类间散度矩阵为:
类内散度矩阵为:
则有:
我们要最大化 ,只需对 求偏导,并令导数等于零:
于是得出:
在二分类中 和 是两个数,令 ,于是:
即:
从这里我们可以看出,我们最大化的目标对应了一个矩阵的特征值。 于是LDA降维变成了一个求矩阵特征向量的问题。 就对应矩阵 最大的特征值,而投影方向就是这个特征值对应的特征向量 。
对于二分类这一问题,由于 ,因此 的方向始终与 一致,若只考虑 的方向而不考虑长度,可得 。
1、LDA和PCA最显著的区别就是前者是有监督方法而后者是无监督方法,因此在应用中,对于数据中有标签的应该使用LDA,对于数据中无标签的则使用PCA。
2、数学推导上,两者的区别在于,PCA并未考虑类之间的距离(因为PCA并未用到标签信息),而是仅仅考虑了降维后数据的方差,从这个角度来说,PCA相当于在LDA中将所有数据当成一类去处理的特殊情形。因此我们可以看到两者的数学推导也十分相似,最终目标都归为求解一个矩阵的特征值分解。
首先将LDA拓展到多类高维的情况以和问题PCA的求解对应。假设有 个类别,并需要最终将特征降维至 维。我们要找到一个 维投影超平面 使得投影后的样本点满足LDA的目标一一最大化类间距菌和最小化类内距离。
回顾两个散度矩阵,类内散度矩阵 在类别数增加时仍满足定义。而之前两类问题的类间散度矩阵 在类别增加后就无法按照原始定义。
考虑三类样本的情况, 分别表示棕绿黄三类样本的中心, 表示这三个中心的均值(也即全部样本的中心), 表示第 类的类内散度。我们可以定义一个新的矩阵 表示全局整体的散度,称为全局散度矩阵:
如果把全局散度定义为类内散度与类间散度之和,即 ,那么类间散度矩阵可表示为:
其中 是第 个类别中的样本个数, 是总的类别个数。根据LDA的原理,可以将最大化的目标定义为:
剩下的求解过程与之前二分类LDA相同。
至此我们得到了与PCA步骤类似,但具有多个类别标签高维数据的LDA求解方法:
1)计算数据集中每个类别样本的均值向量 ,及总体均值向量 。
2)计算类内散度矩阵 和全局散度矩阵 ,得到类间散度矩阵 。
3)对矩阵 进行特征值分解,将特征值从大到小排列。
4)取特征值前 大的特征值对应的特征向量 ,通过以下映
射将 维样本映射到 维:
从PCA和LDA两种降维方法的求解过程来看,它们确实有着很大的相似性,但对应的原理却有所区别。首先从目标出发, PCA选择的是投影后数据方差最大的方向。由于它是无监督的,因此PCA假设方差越大,信息量越多,用主成分来表示原始数据可以去除冗余的维度,达到降维。而LDA选择的是投影后类内方差小、类间方差大的方向,其用到了类别标签信息。为了找到数据中具有判别性的维度,使得原始数据在这些方向上投影后,不同类别尽可能区分开 。
举一个简单的例子,在语音识别中,我们想从一段音频中提取出人的语音信号,这时可以使用PCA先进行降维,过滤掉一些固定频率(方差较小)的背景噪声。但如果我们的需求是从这段音频中区分出声音属于哪个人,那么我们应该使用LDA对数据进行降维,使每个人的语音信号具有区分性。
从应用的角度,我们可以掌握一个基本的原则一一 对无监督的任务使用PCA进行降维,对有监督的则应用LDA 。
地质信息遥感图像增强处理目的是通过选择合理的图像处理方法,改善图像的视觉效果,突出遥感地质调查所需要的有用信息。
431 常用的图像增强处理方法
在遥感地质应用方面,图像增强处理方法按照主要增强的信息内容可分为波(光)谱特征增强和空间特征增强两大类。
4311 图像波(光)谱特征增强处理
图像波(光)谱特征增强处理是基于多波段数据,对每个像元的灰度进行变换达到图像增强的目的。其图像增强结果便于识别不同性质的地质体、岩石类型、地质异常(如蚀变带、热异常等)、规模较大的线性和圆形构造。
(1)灰度变换方法
当原始图像的直方图比较窄,灰度分布较集中,图像层次较少时,进行灰度变换是最基本的要求。对于灰度接近正态分布的图像通常进行线性拉伸就可达到改善图像视觉效果的目的。对于直方图呈多峰状、部分地物过亮或过暗的图像,应针对图像的特点采用不同的灰度变换方法,包括分段线性拉伸、直方图调整和高斯变换等非线性拉伸等。
分段线性拉伸是为了有效利用有限个灰度级,将整个灰度范围划分为几个区间,分区间进行线性扩展,达到最大限度增强图像中有用信息的目的。常用的非线性变换有指数变换法(增强原始图像的高亮度值部分)、对数变换法(增强图像的低亮度值部分)、高斯变换(增强图像中间灰度范围)及正切变换(可对图像的暗、亮区进行增强)。
直方图调整是通过改善图像的直方图形态来达到图像增强的目的。其原理是用一种变换函数作用于原始图像的直方图,使之变成具有某种特定亮度分布形态的直方图。这种方法着重于扩展高频数亮度值之间的间隔,使直方图中部所包含的地物反差得到增强,有利于地质体的区分。常用的直方图调整方法有直方图均衡化和直方图正态化等。
(2)比值增强
比值增强是通过不同波段的同名像元亮度值之间的除法运算,生成新的比值图像来实现的。比值处理对地质信息尤为敏感,成为遥感地质图像处理中广为应用的方法之一。其基本作用为:
1)可以扩大岩石和土壤的波谱差异,有利于这些地物的区分。
2)消除或减弱地形等环境因素对同类岩性的影响。
3)提取与矿化蚀变有关的信息。
4)比值彩色合成图像能够增强岩性和蚀变岩信息。
(3)主成分变换
主成分变换是多波段遥感图像增强常用的一种方法。它是一种基于图像统计特征的多维正交线性变换,变换后的新组分图像反映了地物总的辐射差异和某些波谱特征,同时还具有分离信息、减少相关、突出不同地物的作用。利用不同新组分图像进行彩色合成,可显著提高彩色增强效果,有助于岩性的区分。在实际应用中,也常用比值或差值图像与原始图像一起进行主成分变换,会有利于某些专题信息的提取。
(4)IHS变换
在色度学中,把彩色图像的RGB变换成亮度(I)、色度(H)、饱和度(S)称为IHS变换,而IHS变换成RGB称为反变换。利用IHS变换和反变换,可以进行多源遥感图像之间的信息融合、高度相关图像数据的色彩增强、图像的特征增强,以及改善图像空间分辨率等融合处理。如图41所示,对研究区内的环形构造、岩体和地层都起到了一定的增强作用。
图41 新疆瓦石峡地区图像增强处理对比
4312 图像空间增强
图像空间增强处理是利用像元自身及其周围像元的灰度值进行运算,达到增强整个图像之目的。其图像增强结果主要突出地质体的空间形态、边缘、线条及结构特征等。如地质构造、线性体及地貌形态等。常用的图像增强方法有数据融合和卷积增强等。
(1)数据融合
主要有IHS融合法、Brovey法和三维反差增强融合法。IHS融合法的关键是根据输入图像的光谱情况和地面的覆盖情况来选择正变换和反变换公式;Brovey法是通过选择三个归一化后的低分辨率波段图像与高分辨率图像乘积来增强图像信息,该方法优点在于锐化图像的同时能够保持原多光谱信息,对于山地、水体、植被等地物增强效果好;基于三维反差增强的融合法是扩大同名点像元在三个低分辨率合成波段上的灰度差异,同时要求增强后的图像同名点像元在三个波段的灰度值相对大小关系不变,三个波段的灰度值之和不变。对高分辨率图像要进行灰度线性拉伸、纹理能量增强和细化处理。该方法扩大了地物间的色彩差异,减少了相关性,可以对融合图像的锐度、灰度、色彩等空间信息分离并进行动态跟踪处理,直到取得满意效果为止。如图42所示,图42(a)为SPOT原始图像,图42(b)为SPOT数据与TM多光谱数据的融合结果,提高了遥感解译的可靠性。
图42 SPOT图像融合处理
(2)卷积增强
地物的边界及各种线性形迹,通常都表现有一定的空间分布频率,可以通过空间域或频率域的滤波对它们进行增强。卷积处理就是比较简单有效而最常用的空间滤波方法之一。卷积增强是一种邻域处理技术,它是通过一定尺寸的模板对原图像进行卷积运算来实现的。增强不同方向的边界(或线性体),可按一定的排列方向来分配模板中各元素的权系数,改变模板尺寸和板内元的差值可产生不同的效果。一般模板越大,差值越大,对低频的粗大构造形迹增强越明显,而高频信息(小断层、节理裂隙)增强的幅度越小。卷积增强对于突出某一方向的地质体边界和线性断裂构造或形迹具有明显的效果,对一些环形构造或线迹也会起到增强作用,因此,在遥感地质图像处理中被广泛使用。
上述处理方法在岩性地层、构造信息提取中具有广泛的应用。在实际应用中,可根据不同的地质地理条件与图像特点,采取组合多样,手段灵活的方式进行图像增强处理。
432 特征信息增强处理方法
4321 岩性信息增强处理
岩性信息增强处理的目的是通过特征图像处理方法的选择来实现岩石类型或类型组合的提取。其应用原理主要依据不同性质的岩石因其矿物成分、结构构造、岩石表面结构、覆盖物成分、含水性,以及地域环境上的差异等,通过多波段遥感数据上所反映的波谱和纹理信息规律来实现的。
(1)波段组合变换方法
对于遥感多波段图像和经过空间配准的同一地区的不同传感器获取的多幅单波段遥感图像,通过进行一系列的组合代数运算,从而达到增强岩性信息的目的。以TM图像数据举例说明:
1)用TM3、2、1,TM4、3、1,TM5、4、3和TM7、4、1等彩色合成图像可识别花岗岩带、接触变质带和区域变质岩之间的岩性界线。如图43所示,其中,图43(a)的TM5、4、3彩色合成图像,对区内的地层岩性的分布特征起到明显的增强作用;图43(b)的TM7、4、1彩色合成图像,突出了白云岩岩性特征信息。
2)用TM5/TM1、TM4/TM2、TM5/TM7波段组合进行彩色合成,可增强和识别碳酸盐岩和黏土矿化信息。如图43(c)所示,增强了白云岩地质界线。
3)用TM4×TM4/(TM4+TM5+TM7)、TM4×TM5/(TM4+TM5+TM7)、TM4×TM7/(TM4+TM5+TM7)进行彩色合成,可增强不同岩性之间的影纹变化、消减地形起伏引起的阴阳坡亮度值差异,提高岩性的细部反差。图44(a)和图44(b)均增强了某一岩性段的分布特征信息。
4)用TM5/TM1、(TM5×TM7)/(TM1×TM2)、(TM7-TM1)/(TM3+TM4)彩色合成图像可增强第四纪地层、地表铁离子的变化信息,突出岩石的纹理结构。如图45所示,与图45(a)相比,图45(b)对提取区内地层、岩体的变化信息,以及区分主要岩石类型、突出环形构造方面起到明显的应用效果。
(2)光谱剖面法
当研究区岩石、地层与背景之间在光谱上是可分的,即与背景之间存在着较少的同谱现象,可以借助于光谱剖面知识进行岩性专题信息提取,主要步骤为:
1)对典型地物如裸露岩石、地层、雪、阴影等进行光谱采样,提取光谱剖面曲线,从中发现不同岩性类型的光谱差异。
2)通过波谱间变化关系,分别对特征岩性建立基于光谱知识的提取模型。
3)按照建立的模型提取裸露岩石、地层信息。
4)当不同岩石、地层内部成分的光谱与背景之间存在着较多同谱现象时,需借助于地物的其他知识进行提取。
图43 新疆瓦石峡地区不同波段彩色合成图像对比
图44 多波段相关性比值增强处理对比
图45 图像增强处理对比
(3)基于地物纹理的岩性识别
当岩性组成复杂,且分布尺度大于传感器的空间分辨率时,遥感图像就可能记录到地物的结构组成信息,其影像就存在着明显的纹理特征。当存在着有别于背景地物的纹理结构特征时,就可利用地物的光谱特征与纹理特征提取岩性信息。利用纹理识别岩性的方法步骤如下。
1)选择一定大小的移动窗口,计算不同地物的纹理特征,对待研究岩石类型的纹理特征与周围地物的纹理特征进行比较分析。主要纹理特征计算有:对数变差函数、平均欧式距法(一阶)、方差法(二阶)、斜度(三阶)、峰度(四阶)和共生矩阵法。从灰度共生矩阵中可以产生8种纹理测度,它们分别是局部平稳、对比度、相异性测度、均值测度、标准差、熵、角二阶矩及相关等。
2)分析研究岩石裸露区和背景地物之间的纹理指数和图像,寻找岩石类型与纹理特征的关联规律,采用合适的阈值,识别和提取岩石信息。
(4)基于形状知识识别岩性信息
1)增强地物之间的边界,提取出边界信息。进行形状指数的计算。主要测定基于周长和面积的指数、基于面积的指数以及基于面积和区域长度的指数。
2)根据岩石的形状知识指数值,对不同形状指数的岩性进行定性定位识别和提取,结合不同岩性的形状特征赋予一定的地质属性信息。
(5)主成分变换多层次信息分析识别岩性信息
基于主成分分析的多层次信息分解技术是增强地质岩性弱信息的一种常用方法,在岩性增强和识别中的实施过程如下。
1)多波段图像的统计特征分析。对多波段图像数据进行统计特征分析,计算波谱图像的灰度动态范围、均值与中值、波段图像的相关系数矩阵、波段图像的协方差阵。
2)求出多波段图像的协方差阵的特征值与特征向量,用特征向量构成KL变换的系数矩阵A。
3)主成分变换后处理。根据岩性识别目的和各主分量与矩阵向量间的关系分析,选择包含特定岩性信息的组分图像、包含专题信息组分图像的增强处理、组分图像的彩色合成处理以及组分图像与其他处理结果或波段图像的信息复合分析。
4)根据各主分量的分析结果,对主分量图像的各种后处理结果与单元结果对照进行影像目视解译,确定能够较好反映工作区岩性信息的主分量图像,选取它们做彩色合成或信息复合,增强影像上的地质岩性弱信息。
(6)IHS变换法增强岩性信息
对多波段图像选择适当的代数运算后所产生的新图像进行IHS变换,可起到突出岩性的目的。例如,利用TM波段比值进行IHS变换,可以识别火山岩地区的岩性和与矿化有关的蚀变特征。
1)用TM5/TM7,TM3/TM4,TM3/TM2比值分别赋红、绿、蓝进行IHS变换。
2)在变换处理后的图像上,Fe2O3含量高的玄武岩分布区呈醒目的褐色或红色色调,不同岩性的火山岩类有不同的色调,可以相互区分;含黏土类矿物和三价铁氧化物的矿化蚀变岩石分布区呈独特的**。
(7)对遥感图像进行最优多级密度分割提取岩性信息
目的是在植被稀少、基岩广泛裸露的干旱地区通过选择最佳遥感识别图像,通过最优多级密度分割,提取和识别岩石信息。
1)利用费歇尔准则对图像进行密度分割,通过直方图统计,找到使各分割段的段内离差总和最小、段间离差总和最大的分割法,称为图像的最优多级密度分割法。
2)对分割图像按灰度级由高到低分别赋以不同的颜色,对照区域地质图确定不同颜色的地质岩性属性信息。
(8)岩性的自动分类识别
在干旱、半干旱地区,利用遥感图像的光谱信息,使用非监督分类方法,可起到岩性自动识别和填图的目的。
以TM或ETM+数据为例,说明非监督分类方法主要实施过程:
1)从TM或ETM+多波段图像中选择3个三波段组合,使波段间相关性小且重复利用的波段最少。
2)对所有波段组图像用均衡反差增强技术进行反差增强,以优化每个波段的反差,消除彩色合成中可能出现的色彩偏差。
3)对每个三波段组合用RGB-IHS变换产生一个色度图像,然后分别进行合成,产生色度合成图像。
4)用三维特征空间交互集群技术对色度合成图像进行非监督集群分类。
5)用模板直方图匹配分类技术对分类图像进行空间再分类,以检测感兴趣类的结构和模式。
6)对分类图像用空间滤波法和小类别合并技术进行平滑处理和空间简化处理。
7)根据野外检查与类别的波谱曲线形态,参照地质图,将类别赋以岩性或按其他地物类型术语进行识别和描述。
8)进行交互式类别编辑。用类别区域编辑法将代表不同地带的不同岩性按位置进行分解,用类别分组法将相同岩性或地物类型一致的类别归入一组。
9)用边缘检测技术,检测地物类别边缘。
10)对调整后的分类图像进行交互式着色,并将反映地形背景的强度图像叠加到岩性分类图中,形成岩性影像图。
(9)基于岩块分类的岩石类型识别
适用于干旱、半干旱基岩裸露区岩石类的识别。以TM数据为例具体说明主要实施过程:
1)对TM图像进行地形校正,生成数字视反射率图像R1、R2、R3、R4、R5、R7。
2)用TM6与R1~R7进行空间集群法非监督分类,编制平面分类图。
3)用TM6与R1~R7数据进行监督分类,首先用已知样本作为训练区,训练区样本为厚层单岩性岩块、简单岩性组合岩块,复杂岩性组合岩块和标志性薄层岩块,然后逐个像元提取同类目标并编制平面图。
4)对分类图像中的各类别进行均值、最小、最大值,标准差、协方差等参量统计。
5)进行纹理分析及分类,编制纹理类型平面图。
6)对非监督分类、监督分类及纹理分类平面图进行叠合,通过人机交互目视解译归并整理,编制岩石遥感类型平面图。
7)岩石填图。将已知岩石属性信息填绘于同类的空白区域中,未知空白区域待野外检查确定岩性属性后填入。
(10)用高光谱资料来识别岩性
利用成像光谱资料,定量检测岩石和单种或多种矿物的波谱特征,提取和识别岩性和矿物信息,编制专题岩性和矿物图件。主要实施方法是:
1)确定工作区岩性和矿物的一些标志性波谱特征。
2)利用高光谱成像数据提取地物的波谱曲线,与岩石的野外光谱曲线和某些标志性矿物的实验室实测典型曲线对比,半定量地确定岩性和标志性矿物的存在。
3)通过岩性和标志性矿物的检测,达到找矿和编制岩性分布图的目的。
4322 断裂构造及地质界线图像增强处理
主要利用空间滤波、自动线性提取等方法增强或提取断裂构造信息。
(1)空间方向滤波方法
对原始图像进行方向滤波,突出某一方向的纹理信息,增强地质体的空间结构。
1)按其所需要的方向信息确定滤波算子见表41。
2)对多波段图像进行主成分变换,利用定向滤波法对第一主分量图像进行边缘梯度增强。
3)增强图像的局部边缘梯度,压制整个图像的反差,再结合一些平滑处理方法对构造蚀变带和环形构造进行增强。
4)图像反差扩展。采用拉伸、直方图变换、比值、滤波等,突出图像中的线、边缘、纹理结构特征,增强岩性、线形构造和环形构造影像特征。
5)高通滤波增强空间频率高的地表形迹,提取几十到几百米的线性体(如节理、裂隙和断裂等一些地质构造形迹);低通滤波增强空间频率低的地表形迹,提取延伸长、规模大的断裂带和蚀变带等地质形迹。
6)用高斯卷积滤波突出地质体边界轮廓细节,区分纹理差异大的岩体。
(2)傅里叶功率谱纹理增强法
1)取一定大小的窗口图像,分别作行、列傅氏变换。
2)求功率谱矩阵,作对数变换。
3)计算纹理测度,形成纹理图像。
4)纹理图像解译,提取线性体信息和岩性地质界线。
(3)图像纹理统计法
通过纹理特征变化推测断裂活动的差异、岩石成分的变化等,圈定活动断裂带范围,解释断裂活动方式。
(4)线、环状影像特征法
1)对图像进行高通滤波和线状影像增强
2)从225°~675°、675°~1125°、2925°~3375°及3375°~225°四个方向进行方向滤波。
3)计算单位面积(25km×25km)线状影像密度及等密度图。
4)对线、环状影像平面图进行目视分析,筛除非地质边缘点,并进行叠合与归并,划分线状影像区、带和等级,环状影像之间的空间结构及其组合关系。
5)进行线、环状影像地质属性解译。
(5)线性体自动提取法
1)采用定向滤波法对多波段图像的KL变换第一分量进行边缘梯度增强。
2)对梯度图像进行二值化处理,提取边缘点图像。
3)人机交互去掉干扰和孤立的边缘点。
4)利用Hough变换进行线性体的连接和统计,输出线性体分布图和密度图。
5)线性构造提取与地质分析。
(6)图像亮温法
选择适当季节和时间的热红外遥感图像,以热红外波段图像的亮温分布的极值线为标志,提取构造信息。
(7)多重主成分分析方法
首先应用各种方法,包括一般主成分分析、选择主成分分析(特征主成分选择)、波段比值等,尽可能提取图像中较弱的地质构造信息,然后提取显示最好或较好的专题信息,进行二次处理。处理方法包括两种:一是进行不同的彩色组合或叠加,以突出专题信息;二是选取对专题信息提取最有利的结果和原始波段再次进行主成分分析,进行地质信息的二次提取和增强。
(8)基于融合处理的构造信息提取方法
不同传感器获取同一地区的图像,由于其波长范围不同、几何特性不同、分辨率不同等因素而具有不同的应用特点,基于不同传感器图像的融合处理,可以综合不同传感器图像的优点,提高对构造信息的识别能力。下面以TM和SAR图像融合处理为例进行说明。
1)首先,对SAR图像滤波,进行噪声消除。
2)其次,把单波段SAR图像和多光谱TM图像进行几何配准和融合,TM3、4、5进行IHS变换,用滤波后的SAR图像代替I分量,做IHS反变换,再用TM3、4、5与SAR图像作主成分变换,最后将IHS反变换得到的G分量、TM4波段和主成分变换的第一主分量图像进行彩色合成,作为地质解译图像。
3)融合后的图像可以直观地提取断裂构造信息,利用SAR图像一定的穿透性,可以提取隐伏断裂构造信息。
4323 区域地质稳定性的综合处理与遥感信息的辅助提取
1)获取多时相多平台遥感卫星数据,收集地面控制点数据和区域地质环境资料。
2)进行图像几何精校正和配准处理。首先,对地形图进行高精度扫描,形成数字图像;然后,对数字地形图进行投影变换、配准和镶嵌,进行区域图像的合成与镶嵌;最后,建立地质活动区域的DEM和三维地形地貌可视化影像。
进行人机交互解译。以精校正的数字卫星图像为基础,一方面进行增强构造活动带、滑坡及其发育环境信息的各种图像处理;一方面进行目视解译,确定区域地质稳定性信息,在计算机上定位,划分边界、制作图形。获取遥感解译信息,综合其他环境资料和综合处理进行分析、比较和修改。
4324 隐伏地质信息提取与增强
利用重磁资料与不同类型的遥感图像复合处理技术提取隐伏地质信息。
1)利用重磁网格数据和三维欧拉反褶积方法确定地下构造位置(边界)和深度。
2)利用遥感图像解译地表的构造特征,将重磁数据提取的相应位置的构造信息叠加到遥感构造图像上,把不同深度的构造在图像上分别表现出来,利用图像上构造的不同深度信息,辅助进行隐伏地质体和构造带信息提取。
433 遥感地质信息自动提取方法
计算机自动信息提取的目的是把地质专家用于目视解译的知识定量化表达,从根本上实现知识参与的自动提取。现有的计算机自动信息提取方法主要包括:光谱特征模型法、计算机自动分类法和基于空间数据挖掘与知识发现信息提取方法。
4331 光谱特征模型法
一般利用统计回归建立一个遥感信息模型,根据具体图像的实际情况不断对模型参数进行调整,最终使模型适用于该影像。遥感信息模型是在现有地面实验基础上提炼出来的地物的反演模型,由于图像数据影响因素很多,因此地物在卫星图像上的反映并非与地面实测数据一一对应,把遥感信息理论和实际图幅影像有效结合在一起来进行专题信息自动提取,应用范围和精度都很有限。岩石地层单元建模技术就是一种光谱特征模型法。具体步骤如下。
1)把一些具有特殊影像特征的矿源层、赋矿地层以及诸如含多元素黑色炭质页岩、蛇绿岩带、混杂岩带和超基性岩体等岩石地层作为一种基本单元,它们的多波段遥感像元灰度值是波段的函数,不同单元具有不同的函数曲线。
2)对有一定地质意义的单元进行光谱特征统计,确定特定单元在各波段的亮度范围和同一单元类别在多维空间的聚集性。
3)根据单元类别的变差参数(均值和标准差),建立基于遥感图像亮度值区间的岩石地层单元模型,输入的阈值参数和多波段遥感数据,自动提取岩石地层单元信息。
4332 分类方法
在遥感信息自动提取方面,分类方法占有重要地位。其核心是对遥感图像进行自动分割。现有的计算机自动分类方法,主要利用的是遥感图像数据,虽然有时可以自动加入其他方面的地学知识,但远没有充分利用人脑在分析图像时所应用的知识,因此很难达到很高的精度。利用分类方法进行岩性自动填图是遥感图像处理中最复杂、最难的一个问题,而对于像植被、水体、土地和冰雪等一些大面积分布均匀的特定目标信息的提取,自动分类可起到良好的应用目的。
4333 基于数据挖掘和知识发现技术
基于数据挖掘和知识发现技术理论的遥感专题信息自动提取,其基本内容包括知识的发现、应用知识建立提取模型,利用遥感数据和模型提取遥感专题信息。在知识发现方面包括从单一遥感图像上发现有关地物的光谱特征知识、空间结构与形态知识、地物之间的空间关系知识;从多时相遥感图像中,除了可发现以上知识外,还可以进一步发现地物的动态变化过程知识;从GIS数据库中发现各种相关知识。利用所发现的某种知识、某些知识或所有知识建立相应的遥感专题信息提取模型,利用遥感数据实现从单知识、单模型的应用到多知识、多模型的集成应用,从单数据的使用到多数据的综合使用的自动信息提取。
图像分类是与图像信息提取和增强不同的遥感图像处理中另一重要的方面,与图像增强后仍需人为解译不同,它企图用计算机做出定量的决定来代替人为视觉判译步骤。因此,分类处理后输出的是一幅专题图像。在此图像中,原来图像中的每一个象元依据不同的统计决定准则被划归为不同的地表覆盖类,由于是一种统计决定,必然伴随着某种错误的概率。因此,在逻辑上的合理要求是,对每一个象元所做的决定,应是使整个被分类面积即对大量单个象元的分类的某个错误判据为最小。
以下是几种常用的遥感图像分类方法:
1最大似然分类(maximum likelihood classification)
最大似然分类是一种基于贝叶斯判别准则的非线性监督分类方法,需要知道已知的或确定的训练样区典型标准的先验概率P(wi)和条件概率密度函数P(wi,x)。P(wi)通常根据各种先验知识给出或假定它们相等:P(wix)则是首先确定其分布形式,然后利用训练样本估计其参数。一般假设为正态分布,或通过数学方法化为正态分布。其判别函数集为:
Di(x)=P(wix),i=1,2,…,m (2-2)
如果Di(x)≥ Dj(x),则x属于wi类。其中,j≠i,j=1,2,…,m。m为类别数。
从上述最大似然分类的说明看,其关键就在于已知类别的定义,先验概率的确定,参与分类的变量的好坏和结果误差评价。直到现在,最大似然分类至少还有两个缺点:一是事先大量人力已知光谱类的选择和定义:二是需要长时间的计算机分类计算时间。实际上这也使得最大似然分类法遥感应用受到了限制,因此许多人专门研究改进算法以便解决和缩减图像分类的时间,提高分类的精度。Solst和Lillesand(1991)为了解决已知类别定义消耗大量人力的缺点,发展了半自动训练法进行已知光谱类的定义。Fabio Maselli等(1992)利用Skidmore和Tumer提出的非参数分类器计算出各已知类训练集的先验概率,然后将它们插入常规的最大似然分类过程中进行分类。该方法融合了非参数和参数分类过程的优点,提高了分类的精度。
通常情况下,地形会影响到训练集数据,这样训练集光谱数据就偏离了最大似然分类的假设条件正态分布,从而常规的最大似然分类法在地形起伏较大的地区效果并不太好。为了解决这一问题,CConese和GMaracchi和FMaselli(1993)提出了一种改进的最大似然分类算法,即去掉每一类数据集中与第一主成分相关的信息(地形信息)然后再进行分类。通过试验,这种方法是有效的,分类精度得到了提高。
KArai(1993)用光谱和空间信息进行分类改进了最大似然分类方法。该方法简单易行,大大提高了正确分类的概率。CConese和Fabio Maselli(1992)用误差矩阵提高最大似然分类面积估计的精度。Irina Kerl(1996)加最大似然分类精度的一种方法,即多概率比较法。他对同一遥感数据的原始波段、主成分和植被指数的22种组合进行了最大似然分类,发现没有一种波段组合的分类能给出图像中所有土地利用类型的精确分类,每一波段组合仅对图像中的一两类土地利用类型分类有效。因此他提出将能有效区分出所要决定的土地利用类型的几个波段组合的分类结果进行组合来进行图像分类,并称这种方法为多概率比较法,这种方法的基础就是图像数据不同波段组合的分类结果之间分类概率大小的比较。应用这种方法提高了分类的精度。
2最小距离分类(minimum distance classification)
最小距离分类是一种线性判别监督分类方法,也需要对训练区模式样本进行统计分析,是大似然分类法中的一种极为重要的特殊情况。最小距离分类在算法上比较简单,首先需选出要区分类别的训练样区,并且从图像数据中求出各类训练样区各个波段的均值和标准差,然后再计算图像中其他各个象元的灰度值向量到各已知类训练样区均值向量之间的距离。如果距离小于指定的阈值(一般取标准差的倍数),且与某一类的距离最近,就将该象元划归为某类。因此称为最小距离分类。该方法的精度主要取决于已知类训练样区的多少和样本区的统计精度。另外,距离度量的方法不同,分类的结果也不相同,常见的有:
(1)明氏距离(minkowski distance)
中亚地区高光谱遥感地物蚀变信息识别与提取
当q=2时,即为欧氏距离,而当q趋于无穷时,得到切比雪夫距离。明氏距离,特别是其中的欧氏距离,在实际中用得较多,但它存在着两方面的缺点:一是它与各指标的量纲有关;为克服这一缺点,常常采用先将数据规格化的方法。二是它没有考虑变量之间的相关性。一种改进的距离就是马氏距离。
(2)马氏距离(mahalanobis distance)
中亚地区高光谱遥感地物蚀变信息识别与提取
当 中各特征间完全不相关,这时的马氏距离即为欧氏距离。
总之,最小距离分类是一个能在程序上经济有效实现的简单方法,与最大似然方法不同,它在理论上并不使平均分类错误为最小,所得到的精度与最大似然分类法可相比拟,而计算时间却只有后者的一半。
3平行管道分类(parallelepiped classification)
平行管道分类是一种最简单的分类方法,是通过研究训练样区数据的各个光谱成分的直方图来进行分类的图像直方图中灰度值的上下限描述了图像中每个波段中类别的灰度值范围。某一光谱类在所有波段的灰度值范围定义了一个多维的平行管道。通过分类计算,图像中的未知象元被划分到属于已知一光谱类的平行管道内,因此称该方法为平行管道分类。这种方法简单易行,但也有几个缺点:①各已知光谱类的平行管道之间必定具有一定的间隔,如果图像中的象元落在这些间隔内,则这些象元不被分类。②对于图像中相关性强的光谱类,它们所定义的平行管道之间必定具有某些重叠,结果落在重叠区的这些象元不能被很好地分离。③没有考虑已知光谱类的先验概率。④根据直方图定义的已知光谱类的平行管道仅仅是通常用来定义光谱类特征的椭圆平面的粗略表示。
TWKellenberger和KIIten(1996)提出改进方法。改进过的平行管道方法基于每个图像波段内两类之间累积百分比直方图的最大差值自动分离已知目标类,这种分离值和图像波段都是自动选择的。他利用改进过的平行管道分类对TM遥感数据进行了森林覆盖分类,结果取得了较好的效果,提高了分类的精度。
4模糊分类(fuzzy classification)
模糊理论(fuzzy theory)是处理模糊性的理论的总称,它是以1965年由Zadeh提出的模糊集合论为基础的。模糊分类即是建立在模糊理论之上的分类方法。在常规遥感图像分类中,图像中的每个象元都被划归为某一种地物类型,象元和类别之间一一对应,并没有考虑遥感图像中实际存在的混合象元问题,即某一象元中同时存在有几种地物类型,所以这种分类方法的结果必然存在有误差,这也是常规遥感图像分类方法的局限性。模糊分类法正好克服了这一不足,它利用象元隶属度表示象元的归属问题。当一象元对某一类地物的隶属度为0时,表示该象元不属于该类;当一象元对某一类地物的隶属度为1时,表示该象元属于该类;当一象元对某一类地物的隶属度为0和1之间的数时,表示该象元以该隶属度属于该类,也即表明该象元为混合象元。模糊分类的方法有很多,大多是常规分类方法的扩展。FWang(1990)详细讨论了遥感图像模糊监督分类的意义,他认为模糊监督分类与常规分类方法相比,在3个方面有所改进:①用模糊集合表示地学信息更合理;②光谱空间的模糊划分;③分类参数的模糊估计。
Paolo Gamba等(1996)利用完全模糊分类链对多光谱遥感图像进行了分类,他们不仅考虑了图像中象元的光谱特征,而且还考虑了图像中邻近象元之间空间上的相互关系,结果图像的分类精度得到了提高。
5神经元网络分类(neural network classification)
神经元网络的结构包含一个输入层、一个输出层以及一个或多个隐层。输入层结点数与参加分类的特征数相同,输出层结点数与最终类别数相同,而中间隐含层结点数则由实验来确定。神经元网络分类主要就是网络的训练迭代,要达到一定的精度,往往需要很多次的迭代,这是非常费时的,然而网络训练一经完成,则可较快地应用于分类识别。
FAmar等(1995)基于分类误差百分比和用户CPU时间比较了4 种神经元网络的遥感应用,他发现后向传播神经元网络算法(back-propagation neural network algorithm)需要最多的迭代次数,是其中最慢获得88%分类精度的算法。动态学习神经元网络算法(dynamic-learning neural network algorithm)只需迭代两次,占用591 s的CPU时间就可获得85%的分类精度,达到86%的分类精度需要迭代5次,占用CPU时间16137 s;功能连接神经元网络算(functional link neural network algorithm)分类精度比快速学习神经元网络算(fast-learning neural network algorithm)算法低,但占用了较少的CPU时间;快速学习神经元网络算法提供了最高的分类精度,但两次迭代运算后比功能连接神经元网络算法和动态学习神经元网络算法需要更长的CPU时间。另外,许多研究者利用神经元网络算法对遥感图像数据进行了分类(Mcclellan et al,1989;Benediktsson et al,1990;Kanellopoulos et al,1991;Heermann and Khazenie,1992;Bischof et al,1992),这些研究表明神经元网络分类能够给出好的分类结果,该结果与常规最大似然分类算法取得的分类精度大致相当,如神经元网络分类算法应用恰当,则分类精度更高。KSanjo(1996)研究了神经元网络技术的遥感图像分类,发现监督分类中训练样本数据的排列影响着分类的精度,因此必须注意由于简单地神经元网络算法学习阶段训练样本数据的重新排列所造成的分类结果的改变。另外,他还研究了混合象元问题,结果表明通过学习混合数据,神经元网络算法能有效地减少分类的误差。
6N维概率密度函数(N-dimensional probability density functions)
Haluk Cetin和Donald WLevandowski(1991)利用N维概率密度函数对多维遥感数据进行了分类和填图。N维概率密度函数是一种用来显示、分析和分类数据的算法,源于常称的频率透视图,但又克服了早先方法的内在限制。利用N维概率密度函数算法进行的交互式分类过程是一种新的多维数据的分类方法,它提供了遥感数据分布的清晰透视和监督分类中被选择的训练区分布的清晰透视。经过多维数据和训练区分布的N维概率密度函数的制图后,N维概率密度函数空间根据训练区数据的分布被划分,然后将N维概率密度函数的这种划分当作查询表(look-up table)分类遥感图像数据。对非监督分类,N维概率密度函数图可以提供数据分布的一种有价值的代表,数据分布可直接用来选择类别数和数据初始聚类时类均值的位置。与传统的统计分类方法,例如最大似然分类和最小距离分类,需要大量计算机内存、计算缓慢、对显示重叠类能力有限相比,N维概率密度函数分类速度极快,可利用无限制的波段数,图形地显示数据和类别的分布。Haluk Cetin和Timothy AWarner和Donald WLevandowski(1993)利用N维概率密度函数对TM等多种遥感数据源数据进行了分类、可视化和增强,结果取得了良好的效果,取得了比传统分类方法较高的分类精度。
7其他分类方法
NBVenkateswarlu和PSVSKRaju(1993)提出了一种新的遥感图像快速分类器该分类器是一种非参数分类器,叫做整体平均分类(ensemble-average classifier),利用了最小距离的概念,算法步骤如下:
①计算每一组的整体平均值(一般为均值)Mi,i=1,2,,C
②如果满足下列两式,那么任一随机象元X将被划归wi组。
XT(Mi-Mj)< Tij,j≠ I (2-5)
中亚地区高光谱遥感地物蚀变信息识别与提取
式中Tij=-Tij。
③经过①②步后,随机象元X被划归为正确的类。
另外,通过对参与计算变量的排序和部分一总和逻辑的考虑,可大大降低该算法计算的时间。与最小距离(欧氏距离)和最大似然分类器相比,整体平均分类器所用时间最少,分类精度与最小距离大致相同,对像农田面积和森林这样的名义类型的分类十分有效。
Haluk Cetin(1996)提出了一种分类方法:类间距离频率分布法(interclass distance frequency dis-tribution),这是多光谱数据非参数分类方法的一种。类间距离频率分布过程简单,是一种有力的可视化技术,它图形地显示多光谱数据和类分布。首先选择感兴趣的类,这些类的统计信息从典型的训练样区可获得。利用类的平均测量矢量计算多光谱数据中每个象元的距离,并存放在一个两维数据分布数组中。选择其他类的训练区,训练区数据的分布通过距离计算可获得。通过可视化地检查结果,建立分类查询表(look-up table),然后利用分类查询表进行多光谱图像数据的分类,具体细节请参见原文。
HNSrikanta Prakash等(1996)改进了遥感数据凝聚聚类分析,这是一种基于相互近邻概念,用来进行多光谱数据分类的非参数、层次、凝聚聚类分析算法。该方法定义了围绕象元的感兴趣区域(area of interest around each pixel),然后在它内部寻找分类时初始合并操作需要的k最近邻,将象元的特征值、波段值和象元的相对位置值一起考虑,提出了改进的距离量度,这样,大大减少了计算的时间和内存的需求,降低了分类的误差概率。
Steven EFranklin和Bradley AWilson(1992)设计了3阶段分类器进行遥感图像的分类,它由一个基于四叉树的分割算子、一个高斯最小距离均值测试和一个包括辅助地理网数据和光谱曲线测量的最终测试构成。与最大似然分类技术相比,3阶段分类器的总体分类精度得到了提高,减少计算时间,另外仅需最少的训练样区数据(它们在复杂地形区很难获得)。
主成分分析(PCA)在统计学领域应用非常广泛,同时也是很重要的 非监督机器学习算法 ,PCA主要用于数据的降维。在机器学习中,降维是很重要的一步预处理操作,通过降维,可以发现便于人类理解的特征和提取数据集主要特征。这样一来可以减少要处理的数据量,同时又不破坏数据整体特征,提高了算法的效率。PCA广泛应用于可视化和去噪过程。
以一个简单的数据降维例子介绍PCA:
如图所示是某个数据集的两个特征,现在思考一个问题:能不能将两个特征压缩为一个特征呢?一个简单的处理方法是只取特征1或者特征2,这样就达到了降维的目的:
而且显然取特征1会比特征2有更好的区分度(样本间距更大)。不过,还有没有更好的降维办法呢?考虑这样一条直线:
此时将特征投影到红色直线上进行降维,显然和原始的特征更加接近,同时也更符合特征原始分布。那么如何找到这样一条让样本间距最大的轴呢?
首先给出样本间距定义,考虑到统计学中方差Variance是衡量样本分布离散程度的量,使用方差作为样本间距:
于是问题转化为找到一个轴,使得样本空间所有点映射到这个轴后,方差最大。
注:这里的 是映射到新轴后的。
在更高维空间,可以类似推广为寻找超平面,PCA具体步骤如下:
对上式进行向量运算,于是即求方向向量w,使得
达到最大值。
至此,问题已转化为求一个目标函数的最优化问题,将使用梯度上升法解决此问题。
推导过程和线性回归的梯度下降推导过程类似,不再给出过程,这里直接给出向量化后的梯度表达式:
接下来用梯度上升法在模拟的二维特征数据集上求解主成分:
该有两个特征数据集的图示如下:
按照求解步骤,首先是demean:
demean之后的图示:
demean之后的数据分布没有改变,只是坐标轴的位置移动了。
梯度上升法:
这里为了验证梯度向量化是否正确,同样进行了梯度调试函数的编写。另外,在用梯度上升法求解PCA问题时需要注意以下问题:
首先初始化w的值,然后对梯度进行调试,接着用向量化的梯度表达式求解,由结果看出调试求解和向量化后的梯度上升求解结果是一样的,这说明我们的梯度表达式是正确的。
然后将求解结果直线绘制出来:
上述求解的就是第一主成分的图示。为了检验求解结果是否正确,使用无噪音的极端数据集:
这个结果和实际数据集的斜率075对应的(4,3)单位向量是一致的。
对于PCA的目标函数,和线性回归一样也是有数学解的,当然可以用数学解直接求解。也可以用随机梯度法,小批量梯度法。
在上面的PCA求解例子中,使用的是二维特征。二维的映射到1维,求得的一个主成分也叫第一主成分,但是如果是1000维总不太可能只映射到1维,可能要10个或更多维度。所以除了第一主成分,还要求第二第三主成分。这在下篇会讲解。
通过多元统计分析可以探查许多不同类型的属性之间的关系。
有两种可用的多元分析:分类(监督分类与非监督分类/Supervised&Unsupervised))和主成分分析/Principal Component Analysis (PCA)。
一、波段集统计工具(Band Collection Statistics)
栅格波段必须具有一个公共交集。如果不存在公共交集,则会出现错误,且不会创建任何输出。
如果栅格波段的范围不同,统计数据将以所有输入栅格波段的共同的空间范围来计算。默认情况下,像元大小为输入栅格的最大像元的大小;否则,将取决于栅格分析环境设置。
此工具计算每个图层的基本统计测量值(最小值、最大值、平均值和标准差),如果勾选协方差和相关矩阵,还可以得到这两个值。
二、创建特征(Create Signature)
创建由输入样本数据和一组栅格波段定义的类的 ASCII 特征文件。该工具可创建将用作其他多元分析工具的输入参数的文件。
该文件由两部分组成:
1) 所有类的常规信息,例如图层数、输入栅格名称和类别数。 2) 每个类别的特征文件,由样本数、平均值和协方差矩阵组成。
三、编辑特征(Edit Signature)
通过合并、重新编号和删除类特征来编辑和更新特征文件。
输入特征重映射文件是 ASCII 文件,其每一行有两列值与之对应,以冒号分隔。第一列是原始类 ID 值。第二列包含用于在特征文件中更新的新类 ID。文件中的所有条目必须基于第一列以升序进行排序。
编辑特征文件的写法是固定的,如下:
只有需要编辑的类才必须被放入特征重映射文件;任何在重映射文件中不存在的类将保持不变。
要合并一组类,原类 ID:新类 ID。
要删除类特征,使用 -9999 作为该类第二列的值。
要重新编号,将类 ID 重新编号为某个不存在于输入特征文件中的值。
示例:
2 : 3
4 : 11
5 : -9999
9 : 3
上例将使用 3 合并类 2 和 类 9,使用 11 合并类 4,并将删除类 5。
四、树状图(Dendrogram)
构造可显示特征文件中连续合并类之间的属性距离的树状图。
有关其工作原理,详见:http://helparcgiscom/zh-cn/arcgisdesktop/100/help/indexhtml#/na/009z000000q6000000/
五、最大似然法分类(Maximum Likelihood Classification)
最大似然法分类工具所用的算法基于两条原则:
1) 每个类样本中的像元在多维空间中呈正态分布 2) 贝叶斯决策理论
TIPS:工具中有几个参数需要注意:
reject_fraction:将因最低正确分配概率而得不到分类的像元部分。
默认值为 00;将对每个像元进行分类。共有 14 个有效输入:00、0005、001、0025、005、01、025、05、075、09、095、0975、099 和 0995。
a_priori_probabilities:指定将如何确定先验概率。
EQUAL — 所有类将具有相同的先验概率。 SAMPLE — 先验概率将与特征文件内所有类中采样像元总数的相关的各类的像元数成比例。 FILE —先验概率将会分配给输入 ASCII 先验概率文件中的各个类。
无监督算法有哪些如下:
线性回归(Linear Regression)
逻辑回归(Logistic Regression)
决策树(Decision Tree)
支持向量机(Support Vector Machine,SVM)
K近邻(K-Nearest Neighbors,KNN)
神经网络(Neural Networks)
随机森林(Random Forest)
梯度提升树(Gradient Boosting Tree)
贝叶斯分类器(Naive Bayes)
集成学习(Ensemble Learning)
无监督学习算法:
聚类分析(Cluster Analysis)
关联规则挖掘(Association Rule Mining)
主成分分析(Principal Component Analysis,PCA)
独立成分分析(Independent Component Analysis,ICA)
降维(Dimensionality Reduction)
奇异值分解(Singular Value Decomposition,SVD)
非负矩阵分解(Non-negative Matrix Factorization,NMF)
概率图模型(Probabilistic Graphical Models)
欢迎分享,转载请注明来源:品搜搜测评网