西瓜书第10章-降维PCA(主成分分析)_美容护肤

西瓜书第10章讲解的是降维和度量学习的相关内容

对于数组和 Series 而言，维度就是 shape 返回的数值。 shape 中返回了几个数字，就是几维。

索引以外的数据，不分行列的称之为一维，有行列之分的称之为二维，也称之为表。一张表最多是二维的。

数组中的每张表可以是一个特征矩阵或者一个 DataFrame 。 行是样本，列是特征。

对于图像而言，维度就是图像中特征向量的数量。特征向量可以理解成坐标轴。

降维算法中降维指的是：降低特征矩阵中特征的数量。

sklearn 中的降维算法在 decomposition 中。 模块的本质是矩阵分解模块。 代表是 SVD 奇异值分解。

主成分分析中的常见的模块：

高级矩阵分解

在降维的过程中，会减少特征的数量，则意味着需要删除数据： 减少特征数量、保留大部分有效信息

如果一个特征的方差

为了得到样本方差的无偏估计。 为什么样本方差的分母是n-1

通过一个 二维降低到一维 的栗子来说明降维的实现过程

上面原始数据中，两个特征的均值都是 2 ，方差都是；总方差都是 2

逆时针旋转 45 度之后变成了

的均值和方差都是 0 ；的均值是；方差是 2 。总方差也是 2

将二维矩阵和 n 维矩阵进行类比，掌握降维算法的基本过程：

参考文章 PCA数学原理

两个 维度相同 向量（机器学习中一般是指列向量）的内积被定义成

内积将两个向量映射成为一个实数

，为它们之前的夹角， 投影的矢量长度 是表示模，也就是A线段的标量长度。内积的另一种表示形式为

也就是A到B的投影长度乘以B的模。 特殊情况下，如果B的模是1 ，那么内积结果就是 A到B的投影长度 。

一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一个有向线段。代数中常用线段的终点坐标表示向量，例如下面的(3,2)。

实际上向量(3,2)表示的是在X轴上的投影是3，Y轴上的投影是2。

在二维坐标系中，向量(x,y)实际上表示为线性组合：

那么，(1,0)和(0,1)可以看做是二维空间中的 一组基 。

例如，(1,1)和(-1,1)也可以成为一组基。一般来说，我们希望基的模是1，因为从内积的意义可以看到，如果基的模是1，那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了。上面的基变成了，即除以了各自的模。

那么(3,2)在这组基下的新坐标为

矩阵的两行表示两个基，乘以原来的向量，得到新基下的坐标。

一般的，如果我们有 M 个 N 维向量，想将其变换为由 R 个 N 维向量表示的新空间中

两个矩阵相乘的意义是：将 右边矩阵中的每列列向量 变换到 左边矩阵中的每一行行向量作为基 所表示的空间中去。

将所有的字段减去字段均值 ，结果变成了每个字段都变成了均值为 0

一个字段的方差 可以看做是每个元素与字段均值的差的平方和的均值

由于每个字段的 均值变成了0 ，那么 总的方差 可以简写成

数学上可以用两个字段的协方差表示其 相关性

当均值为0，上面的协方差公式可以表示为

当样本数较大时，不必在意其是 m 还是 m-1，为了方便计算，我们分母取 m。

当协方差为0，表示两个字段完全独立；为了让协方差为0，第二个基应当在和第一个基正交的方向上（ 垂直方向 ）

协方差矩阵是

原始的协方差矩阵是C，P是一组基按行组成的矩阵，设Y=PX，Y对应的协方差矩阵是D

由于 C是一个对称矩阵 ，满足：

e 代表的是单位向量，对于协方差矩阵 C 的结论如下：

那么P是协方差矩阵的特征向量单位化后按行排列出的矩阵，

解决方法：希望投影后的投影值尽量地分散。满足的条件是：

比较大，所以使用作为基

重要的参数是 n_components ，降维之后需要保留的特征数量，取值在 [0, min(Xshape)] 。如果不填写，默认是 min(Xshape)

如何取出每种鸢尾花的两个特征中的数据

主要是两个属性

当 n_components 中不填写任何值，默认是min(Xshape)个特征。通过累计可解释性方差贡献率曲线来选择最好的 n_components 。曲线横纵坐标分别是：

n_components 中不仅可以填写数字，还可以通过极大似然估计 MLE 来自选超参数

输入 0-1 之间的浮点数，并且配合参数 svd_solver="full" ，表示希望降维后的可解释方差占原始数据的信息比例。

在进行遥感图像的增强处理前，应先经行预处理：几何校正和辐射校正（当然，如果你拿到的图像已被预处理过了，就没有必要了）

遥感图像的增强处理方法有光学增强处理和数字图像增强处理（就是大部分要和电脑打交道的），现在由于电脑的普及，多是用电脑处理数字图像。

数字图像的处理方法有很多种，这要取决于你的目的。

数字图像增强和变换：对比度增强（在erdas等数字图像处理软件中很容易就能实现的）；图像波段间的比值（包含各波段间的加减运算，可以消除地形和大气的部分影响）及各种指标提取（比如NDVI等用于植被的计算）；主成分分析（在原图像的基础上通过坐标空间的变换，消除冗余信息）；缨帽变换（多用于农业上）；

数字图像分类：监督分类；非监督分类；

http://wenkubaiducom/view/bc726a6f58fafab069dc0268html

利用制作好的TM基础影像图目视解译后，仍有某些难以确定的重要地质要素、地质特征需进行相应的数字图像增强处理，以有效地突出有用信息，抑制植被、冰雪等其他干扰因素，改善图像的视觉效果，提高重现图像的逼真度，增强信息提取与识别能力。

为了突出岩石地层、控煤构造和含煤区小构造、含煤地层及煤层等信息，增加图像的可解译程度，提高解译效果，针对地质条件复杂和重点含煤区，利用ENVI遥感图像处理软件作进一步的数字图像增强处理，以达到有效提取相关信息的目的。处理方法主要有主成分分析、直方图均衡化、定向滤波、比值处理和锐化增强等十余种方法，达到了对地质体、煤层分类和识别的目的，完善了解译效果。

图像增强处理虽然不能增加图像数据中的相关信息，但它能够增加所选特征的动态范围，从而使这些特征的检测和识别更加容易。在芒棒区、中甸区和永胜区共选取20个子区进行处理（表2-1），目的有三：①对影像中的模糊区进行处理，增强其可解译程度；②对与煤田地质关系密切的研究对象进行处理，提高可解译程度；③对直接和间接地反映煤及其他矿产异常的影像特征进行处理，增强目视解译的识别能力。使用的主要方法有：主成分分析、去相关拉伸、比值运算、芒塞尔彩色空间变换、非监督分类等。具体操作时，为了获取理想的效果，往往以其中一种方法为主，叠加其他方法进行运算，最后选择效果较好的处理结果进行输出。现将所使用主要处理方法及各子区特征分述如下：

表2-1 子区编号、位置及提取信息内容

（一）KL变换（主成分分析）

KL（Karhunen-LoeveTransform，卡洛南—洛伊变换）变换是遥感图像增强和信息提取中常用的波谱信息线性投影变换，在尽可能不减少信息量的前提下，将原图像的高维多光谱空间像元亮度值投影到新的低维空间，减少特征空间维数，达到数据压缩、提高信噪比、降维处理和提取图像特征信息的目的。它可使原来多波段图像经变换后提供出一组不相关的图像变量，最前面的主分量具有较大的方差，包含了原始影像的主要信息，此方法对于原始图像上那些信息微弱、模糊、离散度大的地质信息的增强处理，能够起到聚集和归并的作用，同时也能够压制阴影、云雾和雪盖的显示强度。所以要集中表达信息，突出图像的某些细部特征，可采用KL变换处理（图2-2）。芒棒全区经过KL变换后的图像，影纹结构细腻，水系、地貌等特征反映更加明显；对永胜金沙江背斜采用主成分分析＋直方图均衡化的方法进行处理，褶皱和断裂特征非常明显，玄武岩组各段的分界清晰。

（二）去相关拉伸变换

对相关性高的波段进行去相关拉伸处理，减弱它们之间的相关性，从而使深色区域的地物差异界线反映得更加清楚。勐连盆地子区经过去相关拉伸变换后盆地边界与周围岩层差异明显，盆地边界清晰，隐伏断裂也更容易识别（图2-3）；永胜全区经去相关拉伸变换后，有效地突出了各岩石地层及构造的影像特征。

图2-2 芒棒区KL变换图像

（三）纹理特征提取变换

纹理特征提取方法是用一个活动的窗口在图像上连续滑动，分别计算出窗口中的方差、均值、最大值、最小值及二者之差和信息熵等，形成相应的纹理图像，当目标的光谱特性比较接近时，纹理特征对于区分目标可以起到积极的作用。选取适当的数据动态变化范围，进行纹理特征提取后，使影像的纹理特征得到突出，有利于提取构造信息。对中甸幅的小中甸东子区进行纹理特征提取变换后，子区的信息丰富，线性特征明显；永胜子区采用纹理特征提取变换后，松桂组含煤地层与其上覆、下伏地层的纹理特征差异明显，提高了图像的可解译程度（图2-4）。

（四）锐化增强

调整图像的锐化程度使地物在图像上的差别便于人眼识别，可达到信息增强的目的。对图像进行锐化增强实际上是利用变换函数把原图像进行灰度级转换，增大相邻像元的灰度值之差，从而达到突出图像细节的目的，对中甸幅尼西盆地子区进行锐化增强后，盆地边界清晰，影纹细腻（图2-5）。

图2-3 勐连盆地子区去相关拉伸图像

（五）定向滤波

利用定向滤波对TM图像频率特征进行筛选，将图像中的线与边缘特征信息增强，突出给定方向的线性影像信息，抑制其他方向的无用信息。对芒棒盆地子区采用45°方向滤波后，突出了断裂的线性影像，断裂两侧的影像色调、花纹明显不同，断裂造成的山脊错断等特征在影像上非常明显；采用该方法处理后，程海逆冲断裂的位置、走向及其展布特征非常明显，外来系统与原地系统的岩石组合和构造发育特征截然不同（图2-6）。

（六）缨帽变换

采用缨帽变换可将TM图像除热红外波段的6个波段压缩成3个分量，其中的土壤亮度指数分量是6个波段的加权和，反映了总体的反射值；绿色植被指数分量反映了绿色生物量的特征；土壤特征分量反映了可见光和近红外与较长红外光的差值，它对土壤湿度和植物湿度最为敏感。这样的3个分量就是TM数据进行缨帽变换后形成的新空间，它可以对植被、土壤等地物做更为细致、准确的分析，应用这种处理方法可增强影像上深色区域的信息。对腾冲火山机构子区进行缨帽变换后，再进行对比度增强处理，图像中火山岩岩体边界、火山口形态、纹理以及色调都得到了有效的突出（图2-7）；金棉逆冲断裂经缨帽变换后信息丰富，特征明显。

图2-4 永胜子区纹理特征提取变换图像

图2-5 中甸子区锐化增强图像

图2-6 程海逆冲断裂135°定向滤波图像

图2-7 腾冲火山机构子区缨帽变换图像

（七）芒塞尔彩色空间变换

在计算机内定量处理色彩时通常采用红、绿、蓝三原色组成的彩色空间RGB表色系统，但在视觉上定性的描述色彩时，采用HSV（Hue〈色度〉、Saturation〈饱和度〉、Value〈纯度〉）显色系统更直观些。Munsell HSV变换就是对彩色合成图像在红、绿、蓝编码赋色方面的一种彩色图像增强方法，它是借助于改变彩色合成过程中光学参数的变化来扩展图像色调差异，将图像彩色坐标中的RGB（Red Green Blue）空间变换为HSV色彩模型。其目的是为了更有效地抑制地形效应和增强岩石单元的波段差异，并通过彩色编码增强处理达到最佳的图像显示效果。对中甸幅雪盖区进行处理后可以看出，雪盖区可识别程度比原来大大提高，被雪覆盖的山脊清晰可辨；对永胜区竹山、药山的阴影区进行芒塞尔彩色空间变换处理，有效突出了阴影区的微地貌及其纹理特征，地质体边界更加清晰，可解译程度大大提高（图2-8）。

图2-8 永胜区竹山阴影区芒塞尔彩色空间变换

（八）非监督分类

由于遥感图像上的同类地物在相同的表面结构、植被覆盖、光照等条件下有相同或相近的光谱特征，而相似波谱的像元点必然在光谱空间的相应部位集结成群。因此可按这些自然集群划分类别，然后与野外实际调查的地面情况进行对比，确定各类地物属性。这种方法能把样本区分为若干类别，却不能给出样本的描述。对中甸区的小中甸盆地子区采用非监督分类中的K-均值算法，其基本思想是通过迭代，逐次移动各类的中心，直至得到最好的聚类结果为止，这种算法是一个迭代算法，迭代过程中类别中心按最小二乘误差的原则进行移动，因此类别中心的移动是合理的。其缺点是要事先已知类别数，在实际中类别数通常根据试验的方法来确定，本次工作经过多次试验最后采用类别数为15的算法。小中甸盆地子区的分类结果与野外情况基本相符，不足之处是对相同或相近波谱特征的不同地物容易产生分类误差（图2-9）。

（九）波段彩色合成

对两个波段的图像进行波段合成，可突出类别或目标信息，消除山影、云影等的影响，区分易混淆的地物，从芒棒区蒲川盆地子区处理的结果可以看出，盆地的边界和植被信息得到了增强，从而使盆地边界的圈定更加直观；对永胜宁利子区采用该方法处理后，黑泥哨组和松桂组含煤地层的影像特征更加明显，走向及边界更为清晰（图2-10）。

图2-9 中甸子区K-均值算法非监督分类图像

图2-10 芒棒区蒲川盆地子区波段彩色合成图像

（十）对数变换

对数变换的主要作用是压缩图像亮区的灰阶值，拉伸暗区的灰阶值，从而突出暗区的构造形迹。对中甸北老地层子区进行对数变换后可以看出，子区的色彩丰富，影纹清晰，有利于岩性的识别（图2-11）。

（十一）比值处理

比值处理采用高质量比值功能，使图像得到拉伸，有效消除地形影响，使阴影区的结构得到显示。处理出来的图像既保留了原有地貌特征，又突出了线环构造，为盆地的研究提供了更为直观可靠的资料，中甸盆地子区经过比值处理后，立体感得到增强，阴影区结构清楚，盆地边界一目了然；采用7/4、5/2、5/3比值运算增强处理方法对宝坪铜矿区及米厘宝坪铜矿远景区的围岩蚀变信息进行增强处理，其蚀变信息丰富，特征非常明显（图2-12）。

图2-11 中甸北老地层子区对数变换图像

图2-12 永胜区宝坪铜矿区围岩蚀变信息比值运算图像

（十二）对比度扩展

对图像统一采用一种灰度标尺的变换，使影像反差扩展到整个动态范围，这种反差处理根据一个固定的变换关系，逐个像素地改变灰度值，提高地物反差，以达到反差增强的目的，本次工作选取的变换关系有线性扩展、非线性函数变换和直方图均衡化处理。

（十三）波段运算

即对各相关波段进行数学运算，通过运算有效地消除或减弱对主题目标干扰严重的无用信息，使得处理后的图像既保留原有总体特征，又突出了个别有用信息。

另外，本次工作还进行了拉普拉斯卷积滤波、罗伯特卷积滤波、中值滤波、低通滤波、高通滤波及图像融合等多种图像处理方法，也取得了较好的效果，在此不再赘述。

遥感图像处理是指对遥感探测所获取的图像或资料进行的各种技术处理。处理的目的是使遥感图像或资料更加适用于实际应用。图像处理中，输入的是质量较低的图像，输出的是改善质量后的图像。主要是对原始图像复原的恢复处理和为使图像更加清晰，目标地物更为突出明显，便于信息提取和识别的图像增强处理以及进行自动识别和信息提取的分类处理。从处理方法上，主要有光学处理和计算机数字图像处理。原始图像复原的恢复处理一般由卫星地面站完成，而在现有的条件下自动识别往往并不十分理想，所以这里的遥感图像处理主要是指图像增强处理和信息提取处理。

遥感图像处理的首要任务是对遥感数据的选择及其时相选择，因为遥感数据及其时相往往对影像的判别产生直接的影响；其次是根据任务和目标进行波段组合的优化选择；最后是确定遥感图像处理和信息提取方法，方法选择得当，就可以少走弯路或不走弯路，方法选择不当，信息提取就如同大海捞针一样难。

本次遥感图像处理的软件主要运用了加拿大PCI公司开发的用于图像处理、几何制图、GIS、雷达数据分析以及资源管理和环境监测的多功能软件系统PCI和自主开发的TM找矿弱信息提取系统等软件。

本节主要针对项目工作区范围的遥感影像的计算机数字图像增强处理的基本原理和方法作简要介绍，不对遥感图像预处理（系统误差校正、大气校正、几何图像校正）进行说明。

711 TM遥感图像的选取

由于陆地资源卫星TM信息源在资源综合调查中，具有明显的技术与经济优势。表现在进行各种处理（数字、光学）潜力大，波段组合能力强，成图几何精度和分类几何精度高，地学综合信息丰富，价格适中，所以就性能价格比而言，以TM遥感信息源为优。同时也对部分区域的SPOT（10 m、5 m）图像进行了处理分析。

本地区的气候是属于暖温带大陆性季风型，一年中四季变化比较明显，夏季植被覆盖率较高，不利于对矿产地质综合信息的研究，同时植被覆盖率高也不利于对遥感图像的计算机处理和信息提取。因此，对本研究工作来说，首先要避开夏季，其次要考虑地面裸露程度及与遥感图像时相的一致性，一般应选择在4月或10月，因为这时植被刚刚出露或者已经枯萎，4月份山区作物种类较单调，甚至还没有作物萌芽，而10月份秋季作物已经收割，植被多已枯萎，地面覆盖相对较低，为此我们选择了1998年4月和2000年10月的影像资料作为本次图像处理的重点。

712 遥感（RS）图像处理的过程分析

遥感数字图像处理的过程就是几何、辐射校正、信息定量化、信息复合、图像增强、信息特征提取、图像分类等一系列图像处理和分析技术研究，为各类型区的遥感综合调查提供优质图像的过程。

数字遥感图像处理的一般过程为：

创新思维与找矿实践

遥感图像预处理包括了遥感图像辐射校正和几何校正两大部分。鉴于预处理是遥感图像处理的公共部分，基于篇幅所限不再赘述。

713 遥感图像增强处理方法研究和选择

图像增强是改善图像视觉效果的处理。当分析遥感图像时，为了使分析者能容易确切地识别图像内容，必须按照分析目的对图像数据进行加工，目的是提高图像的可判读性。图像增强不考虑图像降质的原因，突出图像中所感兴趣的部分。如强化图像高频分量，可使图像中物体轮廓清晰，细节明显；如强化低频分量可减少图像中噪声影响。

遥感图像增强的实质就是把图像灰度的微小差异，人为地予以扩大（或者赋予不同的色彩），目的在于提高人们对图像的分析判断能力。由于对其增强效果缺乏一个统一的评价标准，因此，须结合具体增强要求，选择图像增强的方法，并通过反复试验、调整和观察，达到满意的增强效果。

虽然遥感图像处理方法多种多样，我们在工作中也试验了多种方法，经过筛选和分析研究，结合本次工作实际情况，主要应用了以下几种方法：

7131 比值处理

比值处理采用高质量比值功能，使比值图像得到拉伸，有效地消除了地形影响，使阴影区的结构得到显示。处理出来的图像色彩丰富，既保留了原有地貌特征，又突出了线环构造，为隐伏岩体和半隐伏岩体的研究提供了更为直观可靠的资料，立体感得到增强，阴影区结构清楚。

同一地区不同波段（两个波段或几个波段组合）对应像元亮度值相除，用所得新值构成一幅比值增强图像。目的是扩大相邻两个像元的差别，框图如下：

创新思维与找矿实践

在一张比值图像上，灰阶中最黑和最白的色调代表两个多光谱波段间光谱反射率的最大差异值。最黑的色调代表比值的分母大于分子。反之，最白的色调代表分子大于分母。

基本比值：两个波段的数值相比

公式中：a、b为调节参数；

设a=1，b=0

则每一条斜线的斜率就是一个亮度值。一个点的比值相当于该点和原点的连线与水平轴夹角的正切（比值法的涵义如图7-1）。

图7-1 比值法涵义

作用：① 扩大不同地物亮度值的微小差别；② 消除地形影响（比如阴坡和阳坡的影响）；③ 识别和区分蚀变矿物。

下面是本次工作中主要运用的比值和目的：

TM3/1识别褐铁矿化，在图像上呈亮色调；赤铁矿化，在图像上呈暗色调。

TM5/4区分植被与无植被覆盖的土壤和岩石，植被发育区呈暗色调。

区分不同种类的特征矿物：

TM5/4≥10云母和黄铁矿；

TM5/4≤10明矾石和石膏；

TM5/4≈10方解石和粘土矿；

TM7/4≥10云母；

TM7/4≤10明矾石和石膏；

TM4/3，识别植被和褐铁矿化岩石，植被发育区呈亮色调，褐铁矿化岩石呈暗色调；

TM5/7，识别含羟基矿物、硫酸盐和碳酸盐岩的含水化合物，由于这些矿物在22（TM7）处的吸收谷，其TM5/7值很大，在图像上呈亮色调。但植被的TM5/7值也很大，需要用其他方法加以区分。

比值可分为大于1和小于1两大部分，反映波谱特征差别的强弱是不一致的，即在大于1的部分反差较大，在小于1的部分反差很小，实际上是被压缩了。在比值处理过程中，通过自主研发的TM弱信息提取系统的处理，在该系统中增加了一个拟合放大的功能，可以根据需要进行不同比例的放大。基本上解决了比值结果有可能被压缩这一问题。

7132 主成分分析处理

主成分分析（或称为主组分变换，数学上称之为K-L变换）是遥感图像增强和信息提取中用得最多的线性变换，它是在统计基础上的多维正交线性变换，是对原波段图像进行波谱信息的线性投影变换。在尽可能不减少信息量的前提下，将原图像的高维多光谱空间的像元亮度值投影到新的低维空间，减少特征空间维数，达到数据压缩、提高信噪比、提取相关信息、降维处理和提取原图像特征信息的目的，并能有效地提取影像信息。它可使原来多波段图像经变换后提供出一组不相关的图像变量，最前面的主分量具有较大的方差，包含了原始影像的主要信息，所以要集中表达信息，突出图像的某些细部特征，可采用主分量变换来完成。

对工作区的遥感图像的6个波段TM1、TM2、TM3、TM4、TM5、TM7进行了主成分分析，以主成分分析后的第一分量为基础解译图像，参考其他分量图像进行遥感解译。

7133 反差扩展（主要是线性拉伸）

反差扩展是一种通过拉伸或扩展图像的亮度数据分布，使之占满整个动态范围（0～255），以达到扩大地物之间亮度差异，分出更多亮度等级的一种处理技术。

例如：原始的一幅TM图像，亮度范围集中在10～100范围内，我们可以将其扩展到0～255，扩大了相邻亮度值之间的差别，提高了分辨能力（但不能增加亮度等级）（图7-2）。

图7-2 线性增强前后对比

反差扩展的原理是：在反差扩展中，输出的像元值y，是输入的像元值x的函数：y=f（x）0＜y＜255

这个函数可以是线性的，也可是非线性的。本次主要应用的是普通线性扩展。如果用直线方程来扩展图像，就是y=f（x）

斜率=45°，即y=x，无变化；

斜率＜45°，如 y=1/2x，压缩；

斜率>45°，如 y=2x，扩展。

创新思维与找矿实践

dmin，dmax分别代表输入的最小和最大值。

①原来图像的最小和最大值。

②人为规定最小和最大值。

此时，

这就是说把区间〔a，b〕以外的像元值分别压缩为0及255。

③给定要舍掉的像元数百分比，小于此百分数的值均舍去，由程序来确定dmax和dmin。

反差处理贯穿于整个图像处理过程。根据实际情况对不同的处理结果均进行了反差处理（主要是普通线性拉伸处理）。

7134 反色（又称为反相）处理

反色就是形成底片效果。反色有时是很有用的。反色的实际含义是将R、G、B值反转。若颜色的量化级别是256，则新图中的R、G、B值为255减去原图的R、G、B值。这里针对的是所有图，包括真彩图、带调色板的彩色图（又称为伪彩色图）和灰度图。

本次反色处理主要是针对主成分分析的几个分量进行的。主成分分析结果仍然是灰度图，而灰度图又是一种特殊的伪彩色图，只不过调色板中的R、G、B值都是一样的。由于位图中的数据只是对应调色板中的一个索引值，所以只需要将调色板中的颜色反转，形成新调色板，而位图数据不用动，就能够实现反转。由于主成分分析结果的6个分量中，每个分量图像如果不进行反差处理（主要是线性拉伸），图像均较暗，根据处理后的结果显示，水体为黑色，其灰度值大约在0～20，而山体的灰度值多在50～100之间，尽管对其进行了拉伸处理，仍不理想。为了比较准确地区分图像，提高判读解译的准确性，降低解译时间消耗，所以对反差处理后的结果又进行了反色处理。

714 信息提取处理

信息提取主要是针对影像的光谱特征、空间（几何）特征和纹理特征的提取，它是图像增强处理后的对图像的继续处理。

（1）光谱特征：可提取颜色或灰度或波段间的亮度比等目标物的光谱特征，例如Landsat7有7个波段，根据某类地物的光谱特征，采用特定的比值可将其突出出来。

（2）空间（几何）特征：把目标物的形状、大小、或者边缘，线性构造等几何性特征提取出来，例如把区域断层明显突出出来。

（3）纹理特征：是指周期性图案及区域均匀性等有关纹理的特征。根据构成图案的要素形状、分布密度、方向性等纹理进行图像特征提取的处理叫做纹理分析。

本次工作区的遥感影像信息特征提取主要是在PCI软件、TM弱信息提取系统（自主开发）等软件中进行初步工作，最后通过目视解译和计算机自动解译相结合来完成的。

1可视化分析

大数据分析的使用者有大数据分析专家，同时还有普通用户，但是他们二者对于大数据分析最基本的要求就是可视化分析，因为可视化分析能够直观的呈现大数据特点，同时能够非常容易被读者所接受，就如同看图说话一样简单明了。

2 数据挖掘算法

大数据分析的理论核心就是数据挖掘算法，各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点，也正是因为这些被全世界统计学家所公认的各种统计方法（可以称之为真理）才能深入数据内部，挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据，如果一个算法得花上好几年才能得出结论，那大数据的价值也就无从说起了。

3 预测性分析

大数据分析最终要的应用领域之一就是预测性分析，从大数据中挖掘出特点，通过科学的建立模型，之后便可以通过模型带入新的数据，从而预测未来的数据。

4 语义引擎

非结构化数据的多元化给数据分析带来新的挑战，我们需要一套工具系统的去分析，提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5数据质量和数据管理。大数据分析离不开数据质量和数据管理，高质量的数据和有效的数据管理，无论是在学术研究还是在商业应用领域，都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面，当然更加深入大数据分析的话，还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集： ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言，所以自然语言处理又叫做自然语言理解也称为计算语言学。一方面它是语言信息处理的一个分支，另一方面它是人工智能的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

大数据的处理

1 大数据处理之一：采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2 大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3 大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于 MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

4 大数据处理之四：挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

多波段遥感数据找矿信息提取的一个重要内容是提取蚀变信息，因为矿化蚀变信息是最重要的找矿标志。围岩蚀变是热液与原岩相互作用的产物，最常见的蚀变有硅化、绢云母化、绿泥石化、褐铁矿化、黄铁矿化、云英岩化、矽卡岩化、白云岩化及碳酸盐化等，蚀变类型与相关矿种的关系见表 9-2。由于蚀变岩和非蚀变岩在矿物成分和结构上的差异，形成了遥感影像上的光谱差异 ( 图版 13) 。以下将主要介绍 TM/ETM + 影像矿化蚀变信息的提取方法。

表 9-2 主要围岩蚀变类型与矿化种类的关系

( 一) TM/ETM + 影像中可识别的蚀变矿物

20 世纪 70 年代，Hunt 和他领导的实验室成员对 300 个粒状矿物的测定结果显示，在可见光—近红外光谱区 ( 0 325 ～ 2 15 μm) ，主要造岩矿物中各主要化学成分 ( Si，Al，Mg 和 O) 并不产生具有鉴定意义的反射谱带。在岩石反射谱带中占据主导地位的是岩石中为数不多的次要矿物 ( 含铁矿物及蚀变矿物) 中的 Fe2 +，Fe3 +，OH－，CO2 －等离子或离子基团，它们形成了反射谱的特征吸收谷。蚀变岩石因含有这些离子 ( 或离子基团) 而在 TM/ETM +相应波段产生特征光谱。遥感影像上矿化蚀变信息的提取就是利用这些典型地物 ( 矿物) 的光谱特征( 曲线) ，根据地物在不同波段上的反射、吸收特征，在已有地质资料的基础上，通过遥感影像的信息增强技术，反复比较试验而总结出来的一种找矿方法。

在 TM/ETM + 影像上可识别的蚀变矿物有三类:①铁的氧化物、氢氧化物和硫酸盐，包括褐铁矿、赤铁矿、针铁矿和黄钾铁矾等。其中黄铁矿化经风化作用往往形成褐铁矿化，即 “铁帽”，而 Fe3 +在0 76 ～ 0 90 μm 波段上 ( 即 TM4) 具明显的吸收谷( 图 9-4) 。②羟基矿物，包括黏土矿物和云母，它们在 TM7 存在强烈吸收谷。③水合硫酸盐矿物 ( 石膏和明矾石) 和碳酸盐矿物 ( 方解石和白云石等) 。

图 9-4 含 Fe3 +矿物波谱曲线图

( 二) 对矿化蚀变信息提取的影像处理方法

1 彩色合成法

彩色合成法是最常用的提取矿化蚀变信息图像处理方法。铁的氧化物、氢氧化物和硫酸盐蚀变矿物的岩石在真彩合成 ( TM3，2，1) 图像上呈暗红色或暗紫红色; 褐铁矿在TM5，4，2 或 TM5，4，3 合成图像上为褐红色; 含羟基、水合硫酸盐、碳酸盐类蚀变矿物的岩石在 TM4，3，2 合成图像上为**，TM5，7，1 合成图像上为红色或青色。

2 波段比值法

波段比值处理是将一个光谱波段中的灰度值与另一个波段图像中对应像元灰度值相除，比值的结果反映了地物波谱曲线变化的斜率，从而增强了地物波谱特征的微小差异。波段比值法是一种较常用的提取矿化蚀变信息的图像处理技术。

识别热液蚀变常用的波段比值有: TM3/TM1 用于识别褐铁矿; TM5/TM4 用于区分有植被和无植被覆盖的土壤和岩石，区分云母及黄钾铁矾、明矾石及石膏、方解石及黏土这三类矿物，识别褐铁矿化; TM5/TM7 识别含羟基矿物、水合硫酸盐和碳酸盐; TM7/TM4区分云母、石膏与明矾石; TM3/TM4 识别植被和区分褐铁矿化岩石。

3 主成分分析法

主成分分析也称为 K-L 变换，它是在对多波段图像进行特征统计基础上的多维正交线性变换。其本质是对多光谱空间的坐标系按一定规律进行旋转，从而达到去除相关、进行特征提取和数据压缩的目的。主成分分析法也是遥感蚀变信息提取中应用较早的方法之一，且到目前为止其应用也比较广泛，并日渐成熟。通常进行主成分分析是把一幅图像的所有波段一起处理，但也可以基于地物的光谱特征把所有波段先进行分组，然后进行主成分分析，这样可将特定的蚀变信息聚集到单一的主成分中。

4 综合提取法

蚀变信息相对于遥感影像丰富的信息而言是一种弱信息，且常被背景信息所掩盖，通常在蚀变信息的提取过程中，单纯用一种或几种方法很难取得满意的效果。综合提取法就是各种蚀变信息提取方法的综合应用，一般是在 TM 原始波段、比值波段和主成分分析后的主分量中进行的二次波段比值或二次主成分分析。这种方法有机地综合了原始波段、比值波段和主分量波段的信息，可以定向提取感兴趣的信息，同时压抑或去除掉干扰信息。在实践中，这种方法应用较多，国内许多学者也取得了一些值得借鉴的经验。如张玉君等( 1998) 利用 TM1 + TM2，TM4 /TM3，TM5，TM7 波段组合代替 TM1，TM4，TM5，TM7组合进行主成分分析，提取羟基蚀变信息; 赵元洪 ( 1991) 和刘志杰 ( 1998) 利用 TM5/TM7 和 TM4 / TM3 进行主成分分析，在提取羟基蚀变的同时压抑了植被信息，均取得了良好的效果。

本文主要针对检测影像中的地物变化情况，常用的变化检测方法主要分为以下几类。

包括差值法、比值法、图像回归方法、植被指数差分法等。

差值法 即将配准后的两时相影像按波段逐像元相减得到差值影像，理想情况下两时相的影像具有相同的辐射特征，则相减结果中有辐射变化的区域为正值或负值，没有变化的区域为零。

比值法 与之类似，通过计算两时相的波段比值判断是否发生变化。

插值法和比值法简单易实现，但当两时相影像的成像条件不同时，会造成光谱值得差异，使得检测结果不够准确，而一般很难保证两时相影像的成像条件完全一致。

图像回归方法 基于两时相影像同一波段的像元值满足线性关系的假设实现，通过计算回归方差得到两时相的回归残差影像并提取变化信息，一般情况下这种假设可以近似认为是成立的。该方法可以在一定程度上减少大气、入射角等的影响，但需要保证回归方程的准确性。

植被指数差分法 通过计算两时相的归一化植被指数并将其相减确定变化区域，主要应用于检测植被的变化，也可利用其它类型的指数信息实现检测。这种方法可以减少地形和光照等的影响，但在处理的同时对噪声有一定增强。

分类后比较方法对不同时相的影像单独分类，并比较分类信息得到变化情况，可以使用不同的分类或聚类算法实现对不同区域的区分。这种方法适用于类别明确的地物变化检测。

包括点特征检测法、边缘特征检测法、基于纹理特征的变化检测、基于矩特征的变化检测和基于目标的变化检测等。这些方法对具有一定特征的地物有较好的应用价值。

包括主成分分析、缨帽变换、独立成分分析法等方法。

主成分分析法 通过构造线性变换实现信息的集中提取。基于主成分分析的变化检测方法有： 差异主成分法 ，对两时相多波段影像的差值影像做PCA变换，得到的前几个主成分集中了影像的主要差异信息，可认为是变化信息； 主成分差异法 ，将两时相影像分别做PCA，计算前几个主成分的差值作为变化信息； 多时相影像主成分分析 ，将两时相的多波段影像合并进行PCA变换，变换后前几个主成分表示了两时相中的不便信息，后几个主成分则包含了变化信息。此外，PCA还可以作为数据预处理方法，与其他变化检测方法一同使用。

缨帽变换 ，又称K-T差分变换，是多光谱影像的一种线性变换，可以通过亮度、绿都、湿度反映地表的土壤植被等变化信息。

独立成分分析法 可以看做是主成分分析的一种拓展。由于各种地物的光谱信息在遥感影像上不完全复合高斯分布，基于二阶统计特向的PCA等方法难以实现有效的分析，而ICA方法不仅能够消除多变量数据中的二阶相关信息，而且能够消除数据间的高洁相关。ICA分解后的个独立成分中包含了不同地物及变化情况的信息，但对特定变化信息的提取通常需要结合人工判读进行。

提取的典型技术特征包括：特征选择、特征提取、特征变换等。

特征选择：

特征选择是从原始数据中选择最相关的特征，以提高模型的泛化能力和效果。常用的特征选择方法包括过滤式、包裹式和嵌入式方法。过滤式方法通过计算特征与目标变量之间的相关性或统计指标来选择特征；

特征提取：

特征提取是将原始数据转换为更具代表性的特征表示形式。常用的特征提取方法有主成分分析（PCA）、线性判别分析（LDA）、局部敏感哈希（LSH）等。PCA通过线性变换将原始数据映射到低维空间，保留最主要的特征信息；LDA则通过最大化类间距离和最小化类内距离来选择最佳的特征投影方向；

特征变换：

特征变换是对原始特征进行数学变换，以改变特征的表示形式。常用的特征变换方法包括多项式变换、指数变换、对数变换等。多项式变换通过添加或删除特征的高次项来增加特征的表达能力；指数变换和对数变换可以将非线性关系转化为线性关系，使得模型更容易拟合。

文本特征提取：

文本特征提取是将文本数据转化为机器学习模型可用的特征表示形式。常用的文本特征提取方法有词袋模型、TF-IDF、Word2Vec等。词袋模型将文本转化为固定长度的向量表示，统计每个词在文本中的出现次数；TF-IDF用于衡量一个词对于一个文档集合的重要性，常用于文本分类、聚类等任务；

图像特征提取：

图像特征提取是将图像数据转化为机器学习模型可用的特征表示形式。常用的图像特征提取方法有颜色直方图、边缘检测、SIFT、CNN等。颜色直方图统计图像中每个颜色出现的频率，用于表示图像的颜色分布；

边缘检测用于检测图像中的边缘和轮廓信息；SIFT是一种局部特征描述算法，可以提取图像中的关键点和其对应的特征向量；CNN是一种深度学习模型，可以通过卷积层、池化层等操作来提取图像的高级特征。