地质信息遥感图像增强处理目的是通过选择合理的图像处理方法,改善图像的视觉效果,突出遥感地质调查所需要的有用信息。
431 常用的图像增强处理方法
在遥感地质应用方面,图像增强处理方法按照主要增强的信息内容可分为波(光)谱特征增强和空间特征增强两大类。
4311 图像波(光)谱特征增强处理
图像波(光)谱特征增强处理是基于多波段数据,对每个像元的灰度进行变换达到图像增强的目的。其图像增强结果便于识别不同性质的地质体、岩石类型、地质异常(如蚀变带、热异常等)、规模较大的线性和圆形构造。
(1)灰度变换方法
当原始图像的直方图比较窄,灰度分布较集中,图像层次较少时,进行灰度变换是最基本的要求。对于灰度接近正态分布的图像通常进行线性拉伸就可达到改善图像视觉效果的目的。对于直方图呈多峰状、部分地物过亮或过暗的图像,应针对图像的特点采用不同的灰度变换方法,包括分段线性拉伸、直方图调整和高斯变换等非线性拉伸等。
分段线性拉伸是为了有效利用有限个灰度级,将整个灰度范围划分为几个区间,分区间进行线性扩展,达到最大限度增强图像中有用信息的目的。常用的非线性变换有指数变换法(增强原始图像的高亮度值部分)、对数变换法(增强图像的低亮度值部分)、高斯变换(增强图像中间灰度范围)及正切变换(可对图像的暗、亮区进行增强)。
直方图调整是通过改善图像的直方图形态来达到图像增强的目的。其原理是用一种变换函数作用于原始图像的直方图,使之变成具有某种特定亮度分布形态的直方图。这种方法着重于扩展高频数亮度值之间的间隔,使直方图中部所包含的地物反差得到增强,有利于地质体的区分。常用的直方图调整方法有直方图均衡化和直方图正态化等。
(2)比值增强
比值增强是通过不同波段的同名像元亮度值之间的除法运算,生成新的比值图像来实现的。比值处理对地质信息尤为敏感,成为遥感地质图像处理中广为应用的方法之一。其基本作用为:
1)可以扩大岩石和土壤的波谱差异,有利于这些地物的区分。
2)消除或减弱地形等环境因素对同类岩性的影响。
3)提取与矿化蚀变有关的信息。
4)比值彩色合成图像能够增强岩性和蚀变岩信息。
(3)主成分变换
主成分变换是多波段遥感图像增强常用的一种方法。它是一种基于图像统计特征的多维正交线性变换,变换后的新组分图像反映了地物总的辐射差异和某些波谱特征,同时还具有分离信息、减少相关、突出不同地物的作用。利用不同新组分图像进行彩色合成,可显著提高彩色增强效果,有助于岩性的区分。在实际应用中,也常用比值或差值图像与原始图像一起进行主成分变换,会有利于某些专题信息的提取。
(4)IHS变换
在色度学中,把彩色图像的RGB变换成亮度(I)、色度(H)、饱和度(S)称为IHS变换,而IHS变换成RGB称为反变换。利用IHS变换和反变换,可以进行多源遥感图像之间的信息融合、高度相关图像数据的色彩增强、图像的特征增强,以及改善图像空间分辨率等融合处理。如图41所示,对研究区内的环形构造、岩体和地层都起到了一定的增强作用。
图41 新疆瓦石峡地区图像增强处理对比
4312 图像空间增强
图像空间增强处理是利用像元自身及其周围像元的灰度值进行运算,达到增强整个图像之目的。其图像增强结果主要突出地质体的空间形态、边缘、线条及结构特征等。如地质构造、线性体及地貌形态等。常用的图像增强方法有数据融合和卷积增强等。
(1)数据融合
主要有IHS融合法、Brovey法和三维反差增强融合法。IHS融合法的关键是根据输入图像的光谱情况和地面的覆盖情况来选择正变换和反变换公式;Brovey法是通过选择三个归一化后的低分辨率波段图像与高分辨率图像乘积来增强图像信息,该方法优点在于锐化图像的同时能够保持原多光谱信息,对于山地、水体、植被等地物增强效果好;基于三维反差增强的融合法是扩大同名点像元在三个低分辨率合成波段上的灰度差异,同时要求增强后的图像同名点像元在三个波段的灰度值相对大小关系不变,三个波段的灰度值之和不变。对高分辨率图像要进行灰度线性拉伸、纹理能量增强和细化处理。该方法扩大了地物间的色彩差异,减少了相关性,可以对融合图像的锐度、灰度、色彩等空间信息分离并进行动态跟踪处理,直到取得满意效果为止。如图42所示,图42(a)为SPOT原始图像,图42(b)为SPOT数据与TM多光谱数据的融合结果,提高了遥感解译的可靠性。
图42 SPOT图像融合处理
(2)卷积增强
地物的边界及各种线性形迹,通常都表现有一定的空间分布频率,可以通过空间域或频率域的滤波对它们进行增强。卷积处理就是比较简单有效而最常用的空间滤波方法之一。卷积增强是一种邻域处理技术,它是通过一定尺寸的模板对原图像进行卷积运算来实现的。增强不同方向的边界(或线性体),可按一定的排列方向来分配模板中各元素的权系数,改变模板尺寸和板内元的差值可产生不同的效果。一般模板越大,差值越大,对低频的粗大构造形迹增强越明显,而高频信息(小断层、节理裂隙)增强的幅度越小。卷积增强对于突出某一方向的地质体边界和线性断裂构造或形迹具有明显的效果,对一些环形构造或线迹也会起到增强作用,因此,在遥感地质图像处理中被广泛使用。
上述处理方法在岩性地层、构造信息提取中具有广泛的应用。在实际应用中,可根据不同的地质地理条件与图像特点,采取组合多样,手段灵活的方式进行图像增强处理。
432 特征信息增强处理方法
4321 岩性信息增强处理
岩性信息增强处理的目的是通过特征图像处理方法的选择来实现岩石类型或类型组合的提取。其应用原理主要依据不同性质的岩石因其矿物成分、结构构造、岩石表面结构、覆盖物成分、含水性,以及地域环境上的差异等,通过多波段遥感数据上所反映的波谱和纹理信息规律来实现的。
(1)波段组合变换方法
对于遥感多波段图像和经过空间配准的同一地区的不同传感器获取的多幅单波段遥感图像,通过进行一系列的组合代数运算,从而达到增强岩性信息的目的。以TM图像数据举例说明:
1)用TM3、2、1,TM4、3、1,TM5、4、3和TM7、4、1等彩色合成图像可识别花岗岩带、接触变质带和区域变质岩之间的岩性界线。如图43所示,其中,图43(a)的TM5、4、3彩色合成图像,对区内的地层岩性的分布特征起到明显的增强作用;图43(b)的TM7、4、1彩色合成图像,突出了白云岩岩性特征信息。
2)用TM5/TM1、TM4/TM2、TM5/TM7波段组合进行彩色合成,可增强和识别碳酸盐岩和黏土矿化信息。如图43(c)所示,增强了白云岩地质界线。
3)用TM4×TM4/(TM4+TM5+TM7)、TM4×TM5/(TM4+TM5+TM7)、TM4×TM7/(TM4+TM5+TM7)进行彩色合成,可增强不同岩性之间的影纹变化、消减地形起伏引起的阴阳坡亮度值差异,提高岩性的细部反差。图44(a)和图44(b)均增强了某一岩性段的分布特征信息。
4)用TM5/TM1、(TM5×TM7)/(TM1×TM2)、(TM7-TM1)/(TM3+TM4)彩色合成图像可增强第四纪地层、地表铁离子的变化信息,突出岩石的纹理结构。如图45所示,与图45(a)相比,图45(b)对提取区内地层、岩体的变化信息,以及区分主要岩石类型、突出环形构造方面起到明显的应用效果。
(2)光谱剖面法
当研究区岩石、地层与背景之间在光谱上是可分的,即与背景之间存在着较少的同谱现象,可以借助于光谱剖面知识进行岩性专题信息提取,主要步骤为:
1)对典型地物如裸露岩石、地层、雪、阴影等进行光谱采样,提取光谱剖面曲线,从中发现不同岩性类型的光谱差异。
2)通过波谱间变化关系,分别对特征岩性建立基于光谱知识的提取模型。
3)按照建立的模型提取裸露岩石、地层信息。
4)当不同岩石、地层内部成分的光谱与背景之间存在着较多同谱现象时,需借助于地物的其他知识进行提取。
图43 新疆瓦石峡地区不同波段彩色合成图像对比
图44 多波段相关性比值增强处理对比
图45 图像增强处理对比
(3)基于地物纹理的岩性识别
当岩性组成复杂,且分布尺度大于传感器的空间分辨率时,遥感图像就可能记录到地物的结构组成信息,其影像就存在着明显的纹理特征。当存在着有别于背景地物的纹理结构特征时,就可利用地物的光谱特征与纹理特征提取岩性信息。利用纹理识别岩性的方法步骤如下。
1)选择一定大小的移动窗口,计算不同地物的纹理特征,对待研究岩石类型的纹理特征与周围地物的纹理特征进行比较分析。主要纹理特征计算有:对数变差函数、平均欧式距法(一阶)、方差法(二阶)、斜度(三阶)、峰度(四阶)和共生矩阵法。从灰度共生矩阵中可以产生8种纹理测度,它们分别是局部平稳、对比度、相异性测度、均值测度、标准差、熵、角二阶矩及相关等。
2)分析研究岩石裸露区和背景地物之间的纹理指数和图像,寻找岩石类型与纹理特征的关联规律,采用合适的阈值,识别和提取岩石信息。
(4)基于形状知识识别岩性信息
1)增强地物之间的边界,提取出边界信息。进行形状指数的计算。主要测定基于周长和面积的指数、基于面积的指数以及基于面积和区域长度的指数。
2)根据岩石的形状知识指数值,对不同形状指数的岩性进行定性定位识别和提取,结合不同岩性的形状特征赋予一定的地质属性信息。
(5)主成分变换多层次信息分析识别岩性信息
基于主成分分析的多层次信息分解技术是增强地质岩性弱信息的一种常用方法,在岩性增强和识别中的实施过程如下。
1)多波段图像的统计特征分析。对多波段图像数据进行统计特征分析,计算波谱图像的灰度动态范围、均值与中值、波段图像的相关系数矩阵、波段图像的协方差阵。
2)求出多波段图像的协方差阵的特征值与特征向量,用特征向量构成KL变换的系数矩阵A。
3)主成分变换后处理。根据岩性识别目的和各主分量与矩阵向量间的关系分析,选择包含特定岩性信息的组分图像、包含专题信息组分图像的增强处理、组分图像的彩色合成处理以及组分图像与其他处理结果或波段图像的信息复合分析。
4)根据各主分量的分析结果,对主分量图像的各种后处理结果与单元结果对照进行影像目视解译,确定能够较好反映工作区岩性信息的主分量图像,选取它们做彩色合成或信息复合,增强影像上的地质岩性弱信息。
(6)IHS变换法增强岩性信息
对多波段图像选择适当的代数运算后所产生的新图像进行IHS变换,可起到突出岩性的目的。例如,利用TM波段比值进行IHS变换,可以识别火山岩地区的岩性和与矿化有关的蚀变特征。
1)用TM5/TM7,TM3/TM4,TM3/TM2比值分别赋红、绿、蓝进行IHS变换。
2)在变换处理后的图像上,Fe2O3含量高的玄武岩分布区呈醒目的褐色或红色色调,不同岩性的火山岩类有不同的色调,可以相互区分;含黏土类矿物和三价铁氧化物的矿化蚀变岩石分布区呈独特的**。
(7)对遥感图像进行最优多级密度分割提取岩性信息
目的是在植被稀少、基岩广泛裸露的干旱地区通过选择最佳遥感识别图像,通过最优多级密度分割,提取和识别岩石信息。
1)利用费歇尔准则对图像进行密度分割,通过直方图统计,找到使各分割段的段内离差总和最小、段间离差总和最大的分割法,称为图像的最优多级密度分割法。
2)对分割图像按灰度级由高到低分别赋以不同的颜色,对照区域地质图确定不同颜色的地质岩性属性信息。
(8)岩性的自动分类识别
在干旱、半干旱地区,利用遥感图像的光谱信息,使用非监督分类方法,可起到岩性自动识别和填图的目的。
以TM或ETM+数据为例,说明非监督分类方法主要实施过程:
1)从TM或ETM+多波段图像中选择3个三波段组合,使波段间相关性小且重复利用的波段最少。
2)对所有波段组图像用均衡反差增强技术进行反差增强,以优化每个波段的反差,消除彩色合成中可能出现的色彩偏差。
3)对每个三波段组合用RGB-IHS变换产生一个色度图像,然后分别进行合成,产生色度合成图像。
4)用三维特征空间交互集群技术对色度合成图像进行非监督集群分类。
5)用模板直方图匹配分类技术对分类图像进行空间再分类,以检测感兴趣类的结构和模式。
6)对分类图像用空间滤波法和小类别合并技术进行平滑处理和空间简化处理。
7)根据野外检查与类别的波谱曲线形态,参照地质图,将类别赋以岩性或按其他地物类型术语进行识别和描述。
8)进行交互式类别编辑。用类别区域编辑法将代表不同地带的不同岩性按位置进行分解,用类别分组法将相同岩性或地物类型一致的类别归入一组。
9)用边缘检测技术,检测地物类别边缘。
10)对调整后的分类图像进行交互式着色,并将反映地形背景的强度图像叠加到岩性分类图中,形成岩性影像图。
(9)基于岩块分类的岩石类型识别
适用于干旱、半干旱基岩裸露区岩石类的识别。以TM数据为例具体说明主要实施过程:
1)对TM图像进行地形校正,生成数字视反射率图像R1、R2、R3、R4、R5、R7。
2)用TM6与R1~R7进行空间集群法非监督分类,编制平面分类图。
3)用TM6与R1~R7数据进行监督分类,首先用已知样本作为训练区,训练区样本为厚层单岩性岩块、简单岩性组合岩块,复杂岩性组合岩块和标志性薄层岩块,然后逐个像元提取同类目标并编制平面图。
4)对分类图像中的各类别进行均值、最小、最大值,标准差、协方差等参量统计。
5)进行纹理分析及分类,编制纹理类型平面图。
6)对非监督分类、监督分类及纹理分类平面图进行叠合,通过人机交互目视解译归并整理,编制岩石遥感类型平面图。
7)岩石填图。将已知岩石属性信息填绘于同类的空白区域中,未知空白区域待野外检查确定岩性属性后填入。
(10)用高光谱资料来识别岩性
利用成像光谱资料,定量检测岩石和单种或多种矿物的波谱特征,提取和识别岩性和矿物信息,编制专题岩性和矿物图件。主要实施方法是:
1)确定工作区岩性和矿物的一些标志性波谱特征。
2)利用高光谱成像数据提取地物的波谱曲线,与岩石的野外光谱曲线和某些标志性矿物的实验室实测典型曲线对比,半定量地确定岩性和标志性矿物的存在。
3)通过岩性和标志性矿物的检测,达到找矿和编制岩性分布图的目的。
4322 断裂构造及地质界线图像增强处理
主要利用空间滤波、自动线性提取等方法增强或提取断裂构造信息。
(1)空间方向滤波方法
对原始图像进行方向滤波,突出某一方向的纹理信息,增强地质体的空间结构。
1)按其所需要的方向信息确定滤波算子见表41。
2)对多波段图像进行主成分变换,利用定向滤波法对第一主分量图像进行边缘梯度增强。
3)增强图像的局部边缘梯度,压制整个图像的反差,再结合一些平滑处理方法对构造蚀变带和环形构造进行增强。
4)图像反差扩展。采用拉伸、直方图变换、比值、滤波等,突出图像中的线、边缘、纹理结构特征,增强岩性、线形构造和环形构造影像特征。
5)高通滤波增强空间频率高的地表形迹,提取几十到几百米的线性体(如节理、裂隙和断裂等一些地质构造形迹);低通滤波增强空间频率低的地表形迹,提取延伸长、规模大的断裂带和蚀变带等地质形迹。
6)用高斯卷积滤波突出地质体边界轮廓细节,区分纹理差异大的岩体。
(2)傅里叶功率谱纹理增强法
1)取一定大小的窗口图像,分别作行、列傅氏变换。
2)求功率谱矩阵,作对数变换。
3)计算纹理测度,形成纹理图像。
4)纹理图像解译,提取线性体信息和岩性地质界线。
(3)图像纹理统计法
通过纹理特征变化推测断裂活动的差异、岩石成分的变化等,圈定活动断裂带范围,解释断裂活动方式。
(4)线、环状影像特征法
1)对图像进行高通滤波和线状影像增强
2)从225°~675°、675°~1125°、2925°~3375°及3375°~225°四个方向进行方向滤波。
3)计算单位面积(25km×25km)线状影像密度及等密度图。
4)对线、环状影像平面图进行目视分析,筛除非地质边缘点,并进行叠合与归并,划分线状影像区、带和等级,环状影像之间的空间结构及其组合关系。
5)进行线、环状影像地质属性解译。
(5)线性体自动提取法
1)采用定向滤波法对多波段图像的KL变换第一分量进行边缘梯度增强。
2)对梯度图像进行二值化处理,提取边缘点图像。
3)人机交互去掉干扰和孤立的边缘点。
4)利用Hough变换进行线性体的连接和统计,输出线性体分布图和密度图。
5)线性构造提取与地质分析。
(6)图像亮温法
选择适当季节和时间的热红外遥感图像,以热红外波段图像的亮温分布的极值线为标志,提取构造信息。
(7)多重主成分分析方法
首先应用各种方法,包括一般主成分分析、选择主成分分析(特征主成分选择)、波段比值等,尽可能提取图像中较弱的地质构造信息,然后提取显示最好或较好的专题信息,进行二次处理。处理方法包括两种:一是进行不同的彩色组合或叠加,以突出专题信息;二是选取对专题信息提取最有利的结果和原始波段再次进行主成分分析,进行地质信息的二次提取和增强。
(8)基于融合处理的构造信息提取方法
不同传感器获取同一地区的图像,由于其波长范围不同、几何特性不同、分辨率不同等因素而具有不同的应用特点,基于不同传感器图像的融合处理,可以综合不同传感器图像的优点,提高对构造信息的识别能力。下面以TM和SAR图像融合处理为例进行说明。
1)首先,对SAR图像滤波,进行噪声消除。
2)其次,把单波段SAR图像和多光谱TM图像进行几何配准和融合,TM3、4、5进行IHS变换,用滤波后的SAR图像代替I分量,做IHS反变换,再用TM3、4、5与SAR图像作主成分变换,最后将IHS反变换得到的G分量、TM4波段和主成分变换的第一主分量图像进行彩色合成,作为地质解译图像。
3)融合后的图像可以直观地提取断裂构造信息,利用SAR图像一定的穿透性,可以提取隐伏断裂构造信息。
4323 区域地质稳定性的综合处理与遥感信息的辅助提取
1)获取多时相多平台遥感卫星数据,收集地面控制点数据和区域地质环境资料。
2)进行图像几何精校正和配准处理。首先,对地形图进行高精度扫描,形成数字图像;然后,对数字地形图进行投影变换、配准和镶嵌,进行区域图像的合成与镶嵌;最后,建立地质活动区域的DEM和三维地形地貌可视化影像。
进行人机交互解译。以精校正的数字卫星图像为基础,一方面进行增强构造活动带、滑坡及其发育环境信息的各种图像处理;一方面进行目视解译,确定区域地质稳定性信息,在计算机上定位,划分边界、制作图形。获取遥感解译信息,综合其他环境资料和综合处理进行分析、比较和修改。
4324 隐伏地质信息提取与增强
利用重磁资料与不同类型的遥感图像复合处理技术提取隐伏地质信息。
1)利用重磁网格数据和三维欧拉反褶积方法确定地下构造位置(边界)和深度。
2)利用遥感图像解译地表的构造特征,将重磁数据提取的相应位置的构造信息叠加到遥感构造图像上,把不同深度的构造在图像上分别表现出来,利用图像上构造的不同深度信息,辅助进行隐伏地质体和构造带信息提取。
433 遥感地质信息自动提取方法
计算机自动信息提取的目的是把地质专家用于目视解译的知识定量化表达,从根本上实现知识参与的自动提取。现有的计算机自动信息提取方法主要包括:光谱特征模型法、计算机自动分类法和基于空间数据挖掘与知识发现信息提取方法。
4331 光谱特征模型法
一般利用统计回归建立一个遥感信息模型,根据具体图像的实际情况不断对模型参数进行调整,最终使模型适用于该影像。遥感信息模型是在现有地面实验基础上提炼出来的地物的反演模型,由于图像数据影响因素很多,因此地物在卫星图像上的反映并非与地面实测数据一一对应,把遥感信息理论和实际图幅影像有效结合在一起来进行专题信息自动提取,应用范围和精度都很有限。岩石地层单元建模技术就是一种光谱特征模型法。具体步骤如下。
1)把一些具有特殊影像特征的矿源层、赋矿地层以及诸如含多元素黑色炭质页岩、蛇绿岩带、混杂岩带和超基性岩体等岩石地层作为一种基本单元,它们的多波段遥感像元灰度值是波段的函数,不同单元具有不同的函数曲线。
2)对有一定地质意义的单元进行光谱特征统计,确定特定单元在各波段的亮度范围和同一单元类别在多维空间的聚集性。
3)根据单元类别的变差参数(均值和标准差),建立基于遥感图像亮度值区间的岩石地层单元模型,输入的阈值参数和多波段遥感数据,自动提取岩石地层单元信息。
4332 分类方法
在遥感信息自动提取方面,分类方法占有重要地位。其核心是对遥感图像进行自动分割。现有的计算机自动分类方法,主要利用的是遥感图像数据,虽然有时可以自动加入其他方面的地学知识,但远没有充分利用人脑在分析图像时所应用的知识,因此很难达到很高的精度。利用分类方法进行岩性自动填图是遥感图像处理中最复杂、最难的一个问题,而对于像植被、水体、土地和冰雪等一些大面积分布均匀的特定目标信息的提取,自动分类可起到良好的应用目的。
4333 基于数据挖掘和知识发现技术
基于数据挖掘和知识发现技术理论的遥感专题信息自动提取,其基本内容包括知识的发现、应用知识建立提取模型,利用遥感数据和模型提取遥感专题信息。在知识发现方面包括从单一遥感图像上发现有关地物的光谱特征知识、空间结构与形态知识、地物之间的空间关系知识;从多时相遥感图像中,除了可发现以上知识外,还可以进一步发现地物的动态变化过程知识;从GIS数据库中发现各种相关知识。利用所发现的某种知识、某些知识或所有知识建立相应的遥感专题信息提取模型,利用遥感数据实现从单知识、单模型的应用到多知识、多模型的集成应用,从单数据的使用到多数据的综合使用的自动信息提取。
去除口香糖残胶的妙招有:
1、将粘着口香糖的衣服放进冰箱冷冻柜里,冷藏两个小时。冷藏能让口香糖的胶基变脆,就这样能轻而易举地把口香糖从衣服上揭下来了。用冰块压在口香糖上,同样能降低其黏性,降低清楚的难度。
2、对衣物上的口香糖胶迹,可先用小刀刮去,取鸡蛋清抹在遗迹上使其松散,再逐一擦净,最后在肥皂水中清洗,清水洗净。
3、在有口香糖的地方均匀涂上风油精,几分钟后一擦就掉。
4、用一张白纸铺在粘着口香糖的部位然后有电熨斗熨个两三分钟,粘在衣服上的口香糖就转移到白纸上了。
5、将粘有口香糖的这面翻过来,在背面先抹上少许白酒,浸泡2到3分钟。将正面翻过来,用棉签再蘸上白酒,慢慢一刮,口香糖就渐渐被去除了。
口香糖的成分
口香糖的酯胶基质是利用糖胶树胶的特性而制成的,糖胶树胶是取自红松科的树液。全世界糖胶树胶的总产量中,大部分是产自墨西哥和洪都拉斯。糖胶树脂的主成分是杜仲胶(聚异戊二烯)和树脂(由三萜和甾醇构成的)。
加工糖胶树胶是指把糖胶树胶加上其它的天然树胶或加上醋酸乙烯树脂、可塑剂、碳酸钙等以及混有其它各种成分的基质。作为糖胶树胶代用品的天然树胶,以爪哇、苏门答腊、婆罗洲产的节路顿胶最负盛名。至于其它的树胶类产量少,工业用价值也小。
活性炭是黑色粉末状或颗粒状的无定形碳。活性炭主成分除了碳以外还有氧、氢等元素。活性炭在结构上由于微晶碳是不规则排列,在交叉连接之间有细孔,是吸附甲醛和苯这些有害气体的。适当的加热被吸附的溶液可以增大色素的吸附速度,吸附作用加强,由于温度高有利于分子间的布朗运动,加速色素的去除效果。活性炭可以去除甲醛,效果挺好,但是活性炭吸收到一定程度就会饱和,需要拿回原厂进行激活,在阳光下暴晒也没用,弄不好还会把吸收的有害气体释放出来造成二次污染。
去掉数据集中关联性不大和冗余的数据,确保不出现过度适应的前提下降低计算的成本,需要对特征进行无损规约,数学上叫降维。广泛用于模式识别、文本检索以及机器学习领域,主要分为两类,特征提取和特征筛选,前者是高维数据投影到低维空间,后者是特征子集代替原始特征集,包括特征分级和特征筛选,分级是找到优化后的特征子集。
特征提取可以分成线性抽取和非线性抽取两种方法,前者是试图找到一个仿射空间能够最好的说明数据分布的变化,后者对高维非线性曲线平面分布的数据非常有效。
线性特征的抽取方法:
首先设定一些标准,然后挑选出满足标准的特征。
算法首先调用一个权重函数得到每个特征的权重值,权重评价指标是平均精确度下降 importancetype = 1 ,除了上面用的随机森林,还可以使用 chisquared, informationgain 。
然后获取优化的特征子集,首先5折交叉验证评估特征子集的重要性,爬山搜索算法从原始特征集中选出优化的特征子集,也可以选择其他算法,比如 forwardsearch 。还可以使用caret包进行特征筛选,据说这个包是个宝呀,包罗万象。
主成分分析是一种应用非常广泛的线性降维方法,适合数据集包含非常多的特征,并且特征间彼此冗余(相关的情况)。通过将特征集缩减成一小部分能代表原始特征集最主要变化的主要特征分量,实现高维数据到低维数据空间的映射。
特征选择过程中会去掉一些彼此关联但有价值的特征,需要在特征制取过程中考虑将这些特征综合到单特征中,PCA采用正交变换将彼此有关联的特征转化为主成分,以便我们确定方差趋势。
算法主要包括以下步骤:1)找到平均向量的数据点;2)计算
协方差矩阵;3)计算特征向量;4)对特征向量排序并选择前k个特征向量;5)构建特征向量矩阵;最后,将数据样本转换成新的子集。
拓展
princomp 是另一个高不成分分析函数,与上面的 prcomp 采用奇异值分解不同,采用相关矩阵或协方差矩阵的特征值计算方法,一般更习惯用后者。
以上两个函数均来自stats包,还可以使用psych包中的principal函数进行:
Kaiser方法、scree(碎石测试)和依据挑选规则使用解释变量比例都可以。碎石测试的主要目的是将主成分结果以碎石图方式表达,从图中找到引起曲线斜率变化最快的因素。
主成分为2时,斜率变化最快。也可以使用nfactors以并行分析非图形方式作Cattell碎石来测试。
biplot绘制数据与原始特征在前两个主成分上的投影图
biplot绘制数据及原始特征在前两个主成分上的投影,农业高,教育和检查低的省份在PC1上得分高;婴儿死亡率高,农业低的省份在主成分PC2上得分较高。
多维尺度分析通过图形方式展示多个对象之间的相似或相异程度距离),多维是指映射到一维、二维或多维空间表达CF全家人相对距离,一般使用一或二维空间。
分成计量和非计量两类,前者是主要考虑如何保证降维后各对象之间的距离尽可能接近它们在原始空间的距离,后者则假设两个空间中对象的距离排名已知,而且变换后排名不变。
可以通过将投影维度绘制在一个散点图中比较MDS和PCA的差异,如果MDS采用欧氏距离,投影维度将与PCA完全一致。
奇异值分解是矩阵分解的一种形式,可以将一个矩阵分解为两个正交矩阵和一个对角矩阵,原始矩阵可由这三个矩阵相乘得到。可以帮助去掉那些从线性代数角度观察存在线性相关冗余的矩阵,可以应用在特征筛选,图像处理和聚类等。
SVD是一类分解实数或复数矩阵的常见方法,PCA可以被看成SVD的一种特例:
两个矩阵基本相同。
[上传失败(image-be0ae8-1639570485003)]
图像压缩领域应用最为广泛的标准测试图像,花花公子当年的模特图呀!
不知为啥,读什么都是负片呢?先继续:
ISOMAP属于流形学习方法,支持线性空间到非线性数据结构的转换,与MDS类似,它也能够以图形方式展现对象之间的相似性或相异性(距离),不过,由于数据采用非线性结构表示,以几何距离代替MDS中有欧氏距离。
ISOMAP是一种等距映射非线性降维方法,如果将计量MDS方法中数据点间成对的欧氏距离替换成邻接图间的测地距离,就可以将ISOMAP当做计量MDS方法的扩展。
算法分为4步:确定邻近点,构建邻接图,计算最短路径和MDS分析找到数据间的低维嵌入。
扩展
可以将RnavGraph包将图形作为数据浏览的基础方式来实现高维数据的可视化。
LLE算法是PCA算法的扩展,通过嵌入高维空间内的流形映射到低维空间来实现数据压缩。ISOMAP是全局性非线性降维,LLE主要是局部母性降维算法,假设每个数据点可以由k个邻近点的母性组合构成,映射后能保持原来的数据性质。
LLE是一种非线性降维算法,基于它我们可以得到高维数据在低维空间保持原有数据邻近嵌入关系的映射。算法主要分成三步:计算每个点的k个邻近,然后计算每个邻近点的权值,使得每个点都能最优地由其邻近点组合重构,即残差和最小。
扩展
还可以选择RDRTollbox包实现非线性降维,支持ISOMAP和LLE算法。
数据本身的问题。
可以用主成分分析法来做一下就会发现没有“旋转成分矩阵”了,所以两者是没有关系的,因为“成分矩阵”是主成分分析法得到的,“旋转成分矩阵”是因子分析得到的。
因子载荷的意思是左边的和因子的相关系数。因子载荷在“成分矩阵”里分别是0778、0453、0553、0785,这是左边的那些TB对上面的因子的载荷。
可以说是因子1=0778TB3+0453TB4+0553TB1+0785TB2,因子载荷在旋转成分矩阵里也是一样的这种纵向的公式。
SPSS的因子分析过程本身只自带了计算各因子得分的功能
Analyze——Data Reduction——Factor analyze
放入变量之后,其中有一项scores选项菜单,选上。
SPSS会在数据窗口中生成FAC1_1 之类的新数据。
欢迎分享,转载请注明来源:品搜搜测评网