3541 指标选取及数据预处理
选取反映地下水水化学类型的11项指标(Cl-、 、 、 、Mg2+、Ca2+、Na+、EC、TDS、T-Hard、NH4—N)进行因子分析(表311)。为提高数据集质量,首先对数据缺失值进行处理,采用均值插补法作为组内缺失值的替补值,检测限代替未检出项;多元统计法是基于数据正态或近似正态分布条件下的分析方法,因此采用适用于小样本正态性检验的Shapiro-Wilk法对数据进行分析,分析结果显示大多数指标符合正态性分布,非正态分布数据采用Box-Cox变换转换为正态性数据进行分析,表为所选指标标准化后数据相关性。
表311 水化学成分间相关系数表
3542 正定矩阵因子分解解析常规项来源
正定矩阵因子分析(PMF)是一种新的因子分析方法,是受体模型的一种,和因子分析、主成分分析过程一致,不同的是PMF法对因子得分进行了非负、非正交限制,保证了每个因子都具有其实际意义,同时考虑了数据由于采样测试方法等原因造成的不确定性。该方法的基本原理为X=GF+E,其中X为n×m的浓度矩阵,m表示变量的数量,n表示样品数;G是一个n×p的源贡献矩阵,p即是主要污染源的数目;F是p×m源廓线矩阵;E为残差矩阵。源廓线体现不同化学成分在各因子中的重要性。正定矩阵因子分解允许同时计算源廓线和源贡献,而不需要事先知道各排放源的源成分谱信息。正定矩阵因子分析对各因子施加非负限制,从而使得G和F矩阵中所有项为非负值。
PMF法将取样数据进行正定矩阵因子分解,选取指标为Cl-、 、
Mg2+、 、Ca2+、电导率、TDS、总硬度、Na+、 、 ,预处理对缺失数据采用均值代替,考虑浓度值15%的数据误差,s为误差百分数;c为指标浓度值;l为因子数据检出限。计算数据不确定性U= 。
本书所用数据在放入模型前以信噪比S/N(Signal to Noise)作为标准进行筛选,信噪比公式为:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:xij——表示第i采样点第j个样品的浓度,sij——表示第i采样点第j个样品的标准偏差;信噪比小,说明样品的噪声大,信噪比越大则表示样品检出的可能性越大,越适合模型。
根据PMF运行结果显示如下(表312):用PMF法将数据分析结果归为3个因子,计算结果残差值均在-30~30之间,可作为迭代收敛与否的参考。图320、图321、图322为因子1上各离子的分布情况,从图中可以看出因子1上氨氮贡献率最大,将该因子归结为污染因子;因子2上各指标分布情况,其中 、Mg2+、Ca2+、Cl-、 相对百分比较高;因子3以电导率、TDS、总硬度、Na+、 为主。不同因子各离子贡献率见表:
表312 各离子百分比贡献率
图320 各离子在因子1上的浓度及载荷值
图321 各离子在因子2上的浓度及载荷值
图322 各离子在因子3上的浓度及载荷值
因子F1以氨氮为主, —N是三氮转化过程中的还原态物质,进入土中的 —N在氧化环境中,首先被大量地吸附于土壤,然后在适宜的温度、土壤pH及含水量、包气带岩性的影响下经硝化作用而转化为 ,并进入地下水,能进入地下水的 —N, —N是较少的。当污染物排放强度过大,超过了包气带的自净能力,或者是污水直接进入含水层中时,地下水中以 —N污染为特征,因此,F1反映地下水受到工业或农业污染。
主因子F2中以Cl-、 、Mg2+、 、Ca2+为主,研究区地处银川冲洪积平原南部青铜峡黄河冲积扇粗粒相单一潜水含水层,岩性以细砂,粉砂,卵砾石为主,含水层具有颗粒松散、粒度粗、径流条件好的特征,地下水沿天然坡降向下游径流,由于径流条件好,交替作用强烈,溶滤作用使地下水中阳离子以难溶的Mg2+、Ca2+为主,Cl-、 在区域内广泛分布。
因子F3以电导率、TDS、总硬度、Na+、 为主,由于此处地下水水位埋藏较浅,又属中温干旱带,少雨、蒸发量大,潜水大量以蒸发的形式排泄,随着水分的蒸发,地下水溶液浓缩,矿化度不断增高,溶解性较好的Na+占据统治地位,研究区地下水丰水季节水位埋深为087~573m,枯水季节埋深195~752m,地下水潜水受蒸发浓缩作用影响,矿化度为05~10mg/L时,土壤多呈轻、中度盐渍化,苏打含量增加。
综上所述,根据以上基于多元统计分析的方法进行水质指标及因子的分类,分别受溶滤作用、蒸发浓缩作用以及人为活动影响。
3543 利用多元统计法验证
利用因子分析法对PMF法选取的11项指标(Cl-、 、 、 、Mg2+、Ca2+、Na+、EC、TDS、T-Hard、NH4—N)进行分析。数据预处理和成分相关性同PMF法。对数据进行KMO(Kaiser—Meyer—Olkin)检验和Bartlett 球形检验(Bartlett Test of Sphericity),KMO检验值为064,Bartlett球形检验在显著性水平为0情况下取值42843,表明数据具有一定的相关性,适合进行因子分析。因子载荷矩阵估计方法主要有主成分法、主轴因子分析和极大似然法等,本书采用主成分法提取特征值大于1的因子共3个,累计方差贡献率为8401%,表明三因子集中反映了影响水质总因素的8401%的信息量,因子载荷矩阵见表313。为使各公共因子的典型代表变量更加突出,便于解释其实际意义,将因子荷载矩阵进行旋转,旋转后各主因子载荷向1或0两极化转换,旋转因子载荷矩阵见表313。
表313 因子载荷矩阵表
表314 旋转因子载荷矩阵表
经分析提取主因子F1,以Cl-、 、Mg2+、 、Ca2+为主要代表变量;主因子F2,以EC、TDS、T-Hard、Na+、 为主,主因子F3,以NH4—N为主要载荷变量,因子分析法应用结果与PMF法应用结果相一致,说明PMF法解析结果合理,在主因子提取基础上通过多元线性回归计算各主因子贡献,其中F1综合主成分贡献率4840%,F2为3966%;F3综合主成分贡献率1194%。对各因子得分进行插值研究各因子在空间分布变化。
图323反映了F1在各采样点得分插值情况,研究区根据因子得分主要分为两个分区,区内个别采样点得分相对较高或较低,整体趋势沿黄河向南干沟因子得分逐渐增大,说明该区东部地下水受溶滤作用影响更明显。结合该区流场及水化学类型分析,因子得分大于-02的区域界线基本与区域中部地下水流线重合,且地下水化学类型以HCO3-Ca·Mg型水为主,表明该因子判断符合该地区水文地质条件。
吴忠市全年引水灌溉期长达6个月,因此,上游引水渠汉渠、黄河边界以及南干沟入黄口地下水位均较高,受到蒸发浓缩作用也相对强烈,F2得分也相对较高(图324)。
分析图325可看出,因子得分高的区域与调查中企业分布以及污水排放区相对一致,将该因子定义为人类活动影响因子。
图326为各因子在采样点总体得分情况,对比F1与F2、F3得分较高区域,可以看出黄河沿岸蒸发浓缩作用相对较强,部分地区受人类活动影响NH4—N得分较高;南部汉渠以北,主要受溶滤作用及地下水蒸发浓缩共同影响,受到氨氮影响较小;南干沟及南干沟入黄口附近氨氮污染较明显,其他区域氨氮含量不高,因子得分多为负值;位于区域上游的采样点GW-12、水源地附近的WZ-8以及南干沟中游WZ-5三点反映溶滤作用及蒸发浓缩作用的F1、F2因子得分较高,单个点得分与周围采样点得分存在较大差异,在此初步判断为受其他因素影响导致水中离子含量存在较高背景值。
图323 F1在各采样点因子得分图
图324 F2在各采样点因子得分图
图325 F3在各采样点因子得分图
图326 F1、F2、F3对各采样点贡献率图
麦克风阵列是什么?
麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。
麦克风阵列能干什么?
1语音增强(Speech Enhancement)
语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下,也能准确识别语音指令。
通过麦克风阵列波束形成进行语音增强示意图
从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。
但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。
目前基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,效果均达到业界一流水平。
2013年科大讯飞车载降噪产品和国际竞争对手效果对比
2声源定位(Source Localization)
现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动,不需要移动位置以改变其接收方向,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中捕捉说话人语音的重要手段。
混响产生原因示意图
3去混响(Dereverberation)
一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。
但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。
影响语音识别的部分一般是晚期混响部分,所以去混响的主要工作重点是放在如何去除晚期混响上面,多年来,去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种:
(1)基于盲语音增强的方法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
(2)基于波束形成的方法(Beamforming based approach),通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
(3)基于逆滤波的方法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
现在科大讯飞实现的基于麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果,在测试对比中,多种混响时间下识别效果接近手机近讲水平。
混响语音信号频谱
经过去混响后的语音信号频谱
4声源信号提取(分离)
家里人说话太多,DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。而麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。
通过麦克风阵列波束形成做语音提取和分离
利用麦克风阵列做信号的提取和分离主要有以下几种方式:
(1)基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离;
(2)基于传统的盲源信号分离(Blind Source Separation)的方法进行,主要包括主成分分析(Principal Component Analysis,PCA)和基于独立成分分析(Independent Component Analysis,ICA)的方法。
TGMZ天歌魅尊
数据科学家需要掌握的10个基本统计技术
无论您在数据的科学性问题上持哪种看法,都无法忽视数据的持续重要性,也不能轻视分析、组织和情境化数据的能力。 根据大量的就业数据和员工反馈信息统计,在“25个最佳美国就业机会”排行榜中,数据科学家排名第一。毫无疑问,数据科学家所做的具体工作内容将会进一步拓展。随着机器学习等技术变得越来越普遍,深度学习等新兴领域对研究人员和工程师的需求得到了巨大的推动,数据科学家们在创新和技术进步的浪潮中再次崭露头角。
编码能力强大是很重要的,但数据科学并不专职于软件工程(事实上,对Python很熟悉就足够了)。数据科学家生活在编码、统计学和批判性思维的交叉点上。正如乔希·威尔斯(JoshWills)所说的那样:“数据科学家是一个比任何程序员都要好的统计学家,而且比任何统计学家都更擅长编程。”笔者个人知道有太多的软件工程师希望转向数据科学家,并盲目利用机器学习框架TensorFlow或Apache Spark,而不透彻理解背后的统计理论。因此出现了“统计学习”,一个与机器学习有关的理论框架,包含统计到功能分析的一系列专业领域。
为什么学习统计学习了解各种技术背后的想法是非常重要的,可以让你知道如何以及何时使用它们。由简入繁,首先要理解更简单的方法,才好把握更复杂的方法。准确地评估一种方法的性能,了解它的工作效果多好或者多糟,这一点很重要。此外,这是一个令人兴奋的研究领域,在科学,工业和金融领域有着重要的应用。最终,统计学习是培养现代数据科学家的基本要素。统计学习问题的例子有:
确定前列腺癌的危险因素。
根据记录周期图对录制的音素进行分类。
根据人口统计、饮食和临床测量,预测是否有人会发生心脏病。
自定义垃圾邮件检测系统。
识别手写邮政编码中的数字。
将组织样本分为几个癌症类别之一。
建立人口调查数据中工资与人口变量之间的关系。
统计学习和机器学习之间的差异在于:
机器学习是人工智能的一个子领域。
统计学习是统计学的一个分支。
机器学习更强调大规模应用和预测的准确性。
统计学习强调模型及其可解释性,精确性和不确定性。
1 - 线性回归:
在统计学中,线性回归是一种通过拟合自变量与自变量之间最佳线性关系来预测目标变量的方法。最好的做法是确保每个点的形状和实际观测之间的所有距离之和尽可能小。形状的适合性是“最好的”,因为在形状的选择上没有其他位置会产生较少的误差。线性回归的2种主要类型是简单线性回归和多元线性回归。简单线性回归使用一个独立变量来通过拟合最佳线性关系来预测因变量。多重线性回归使用多个独立变量来通过拟合最佳线性关系来预测因变量。
选择你在日常生活中使用的任何两件相关的东西。如每月支出,月收入和过去三年每月的旅行次数的数据。就需要回答以下问题:
我明年的每月开支是多少
哪个因素(每月收入或每月旅行次数)在决定我的每月支出时更重要
月收入和每月旅行如何与每月支出相关联
2 - 分类:
分类是一种数据挖掘技术,它将类别分配给数据集合,以助进行更准确的预测和分析。有时也称为决策树,分类是用于对非常大的数据集进行分析的几种方法之一。眼下有2大分类技术脱颖而出:Logistic回归和判别分析。
Logistic回归分析是当因变量是二分(二元)时进行的适当的回归分析。像所有回归分析一样,Logistic回归是预测分析。 Logistic回归用于描述数据并解释一个相关二元变量与一个或多个标称、序数、区间或比例级别的独立变量之间的关系。逻辑回归可以检查的问题类型:
每增加一磅的超重和每天吸一包香烟,肺癌的可能性(是vs否)会发生怎样的变化
体重卡路里摄入量,脂肪摄入量和参与者年龄对心脏病发作是否有影响(有vs无)
在判别分析中,先验已知2个或更多个组或群或群,并基于所测量的特征将1个或更多个新观察分类到1个已知群中。判别分析在每个响应类别中分别对预测因子X的分布进行建模,然后使用贝叶斯定理将它们翻转为给定X的值的响应类别概率的估计。这样的模型可以是线性的或二次的。
线性判别分析为每个观测值计算“判别分数”,以便对它所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每个类别内的观察值都来自多变量高斯分布,预测因子的协方差在响应变量Y的所有k水平上是共同的。
二次判别分析提供了一种替代方法。和LDA一样,QDA假定每个Y类的观测值都是从高斯分布中得到的。但是,与LDA不同的是,QDA假定每个类都有其自己的协方差矩阵。换句话说,预测因子不被假定在Y中的每个k水平上具有共同的方差。
3 - 重采样方法:
重采样是从原始数据样本中绘制重复样本的方法。这是统计推断的非参数方法。换句话说,重采样方法不涉及使用通用分布表来计算近似p概率值。
重采样根据实际数据生成唯一的采样分布。它使用实验方法而不是分析方法来生成独特的抽样分布。它产生无偏估计,因为它是基于研究者所研究数据的所有可能结果的无偏样本。为了理解重采样的概念,您应该理解术语Bootstrapping和交叉验证:
Bootstrapping是一种技术,可以帮助您在很多情况下验证预测模型的性能、集成方法、估计模型的偏差和方差。它通过对原始数据进行替换来进行采样,并将“未选择”的数据点作为测试用例。我们可以做这几次,并计算平均分作为我们的模型性能的估计。
另一方面,交叉验证是验证模型性能的一种技术,它是通过将训练数据分成k个部分来完成的。我们以k - 1部分作为训练集,并使用“伸出部分”作为我们的测试集。我们重复k次不同的方式。最后,我们将k分数的平均值作为我们的业绩估计。
通常对于线性模型,普通最小二乘法是考虑将它们适合于数据的主要标准。接下来的3种方法是可以为线性模型的拟合提供更好的预测精度和模型可解释性的替代方法。
4 - 子集选择:
这种方法确定了我们认为与响应相关的p预测因子的一个子集。然后,我们使用子集特征的最小二乘拟合模型。
最佳子集选择:这里我们对每个可能的p预测因子组合进行单独的OLS回归,然后查看最终的模型拟合。算法分为2个阶段:(1)拟合所有包含k预测因子的模型,其中k是模型的最大长度;(2)使用交叉验证的预测误差选择单个模型。使用测试或验证错误非常重要,而不是训练错误来评估模型拟合,因为RSS和R 2单调增加更多的变量。最好的方法是在测试误差估计值上交叉验证并选择具有最高R 2和最低RSS的模型。
向前逐步选择考虑预测因子的一个小得多的子集。它从不含预测因子的模型开始,然后在模型中添加预测因子,直到所有预测因子都在模型中。被添加变量的顺序是变量,其给出对拟合的最大的加法改进,直到没有更多的变量使用交叉验证的预测误差来改进模型拟合。
向后逐步选择开始将模型中的所有预测因子,然后迭代去除最不有用的预测因子。
混合方法遵循向前逐步回归方法,但是,在添加每个新变量之后,该方法还可以去除对模型拟合没有贡献的变量。
5 - 收缩:
这种方法适合一个涉及所有p预测因子的模型,然而,估计系数相对于最小二乘估计向零收缩。这种缩水,又称正规化,具有减少方差的作用。取决于执行什么类型的收缩,其中一些系数可能恰好被估计为零。因此这个方法也执行变量选择。将系数估计收缩为零的两个最著名的技术是岭回归和Lasso。
岭回归类似于最小二乘,通过最小化一个稍微不同的数量估计系数。像OLS一样,岭回归寻求降低RSS的系数估计值,但是当系数接近于零时,它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。不用进入数学计算,知道岭回归缩小列空间方差最小的特征是有用的。像在主成分分析中一样,岭回归将数据投影到双向空间,然后比高方差分量收缩低方差分量的系数,这相当于最大和最小主分量。
岭回归至少有一个缺点:它包括最终模型中的所有p预测值。犯规条款将使它们中的许多接近于零,但不完全为零。这对于预测准确性来说通常不是问题,但它可能使模型更难以解释结果。 Lasso克服了这个缺点,并且能够迫使一些系数归零,只要s足够小。由于s = 1导致有规律的OLS回归,当s接近0时,系数收缩为零。因此,Lasso回归也执行变量选择。
6 - 维度降低:
维数减少将估计p + 1个系数的问题简化为M + 1个系数的简单问题,其中M
可以将主成分回归描述为从大量变量中导出低维特征集合的方法。数据的第一个主要组成方向是观测值变化最大的。换句话说,第一台PC是尽可能接近数据的一条线。人们可以适应不同的主要组成部分。第二个PC是与第一个PC不相关的变量的线性组合,并且受这个约束的变化最大。这个想法是主要的组成部分使用随后正交方向的数据的线性组合捕获数据中最大的变化。通过这种方式,我们也可以结合相关变量的效果,从可用数据中获取更多信息,而在正则最小二乘中,我们将不得不放弃其中一个相关变量。
我们上面描述的PCR方法包括确定最能代表预测因子的X的线性组合。这些组合(方向)以无监督的方式被识别,因为响应Y不用于帮助确定主要组件方向。也就是说,响应Y不监督主成分的识别,因此不能保证最能解释预测因子的方向对于预测响应(即使经常假设)也是最好的。偏最小二乘法(PLS)是一个监督的替代PCR。与PCR一样,PLS是一种降维方法,它首先识别一组新的较小的特征,这些特征是原始特征的线性组合,然后通过最小二乘法拟合一个线性模型到新的M特征。然而,与PCR不同的是,PLS利用响应变量来识别新的特征。
7 - 非线性模型:
在统计学中,非线性回归是回归分析的一种形式,其中观测数据是由一个函数建模的,该函数是模型参数的非线性组合,并取决于一个或多个自变量。数据通过逐次逼近的方法进行拟合。以下是一些处理非线性模型的重要技巧:
如果实数的函数可以写成区间指示函数的有限线性组合,则称实数为函数。非正式地说,一个阶梯函数是一个只有很多片段的分段常量函数。
分段函数是由多个子函数定义的函数,每个子函数应用于主函数域的一定间隔。分段实际上是表达函数的一种方式,而不是函数本身的一个特征,但是具有额外的限定,可以描述函数的性质。例如,分段多项式函数是在其每个子域上是多项式的函数,但是每个子域上可能是不同的。
样条函数是由多项式分段定义的特殊函数。在计算机图形学中,样条是指分段多项式参数曲线。由于其结构简单,评估方便和准确,以及通过曲线拟合和交互式曲线设计逼近复杂形状的能力,样条曲线是流行的曲线。
广义加性模型是一种线性预测模型,其中线性预测变量线性依赖于某些预测变量的未知光滑函数,兴趣集中在对这些光滑函数的推理上。
8 - 基于树的方法:
基于树的方法可以用于回归和分类问题。这些涉及将预测空间分层或分割成若干简单区域。由于用于分割预测变量空间的分裂规则集合可以在树中进行概括,所以这些类型的方法被称为决策树方法。下面的方法生成多个树,然后结合在一起产生一个单一的共识预测。
套袋(Bagging)是减少预测方差的方法,通过使用重复组合来生成原始数据集中的训练数据,从而生成与原始数据相同的多样性。通过增加你的训练集的大小,你不能提高模型的预测力,只是减少方差,勉强把预测调整到预期的结果。
提升(Boosting)是一种使用几种不同的模型计算产出的方法,然后使用加权平均方法对结果进行平均。通过改变你的加权公式,结合这些方法的优点和缺陷,你可以使用不同的狭义调整模型,为更广泛的输入数据提供一个很好的预测力。
随机森林(random forest )算法实际上非常类似于套袋。你也可以绘制训练集的随机bootstrap样本。但是,除了自举样本之外,还可以绘制随机子集来训练单个树;在套袋中,你给每个树一套完整功能。由于随机特征选择,与常规套袋相比,树木之间的相互独立性更高,这通常会带来更好的预测性能(由于更好的方差偏差权衡),而且速度更快,因为每棵树只能从功能的一个子集。
9 - 支持向量机:
SVM是机器学习中监督学习模型中的一种分类技术。通俗地说,它涉及于找到超平面(2D中的线,3D中的平面和更高维中的超平面,更正式地说,超平面是n维空间中的n维空间)最大保证金从本质上讲,它是一个约束优化问题,其边界被最大化,受限于它对数据进行了完美的分类(硬边缘)。
这种“支持”这个超平面的数据点被称为“支持向量”。对于两类数据不能线性分离的情况,这些点被投影到可能线性分离的分解(高维)空间。涉及多个类的问题可以分解为多个一对一或者一对二的分类问题。
10 - 无监督学习:
到目前为止,我们只讨论了监督学习技术,其中组是已知的,提供给算法的经验是实际实体和它们所属的组之间的关系。当数据的组(类别)未知时,可以使用另一组技术。它们被称为无监督的,因为它会留在学习算法中以找出所提供的数据中的模式。聚类是无监督学习的一个例子,其中不同的数据集被聚类为密切相关的项目组。下面是最广泛使用的无监督学习算法的列表:
主成分分析通过识别一组具有最大方差和相互不相关的特征的线性组合来帮助产生数据集的低维表示。这种线性维度技术有助于理解变量在无监督环境下的潜在相互作用。
k-Means聚类:根据到群集质心的距离将数据分为k个不同的集群。
分层集群:通过创建集群树来构建集群的多级分层结构。
以上是一些基本的统计技术的简单解释与说明,可以帮助数据科学项目经理和主管人员更好地理解他们的数据科学小组背后隐藏的内容。实际上,一些数据科学小组纯粹通过python和R库运行算法。他们中的大多数甚至不必考虑潜在的数学问题。但是,能够理解统计分析的基础知识可以为您的团队提供更好的方法。
吴能友1 叶瑛2 邬黛黛2 刘坚1 张平萍2 蒋宏晨3 董海良3 张欣1 张学华1 雷知生1
(1广州海洋地质调查局 广州 510075 2浙江大学地球科学系 杭州 310027 3美国迈阿密大学地质系 俄亥俄 45056 美国)
第一作者简介:吴能友,男,1965年生,博士,现任广州海洋地质调查局副总工程师,教授级高工,主要从事海洋构造地质、第四纪地质与环境、水合物调查研究。
摘要 研究所用样品由“海洋四号”船于2005年8月在三亚市SEE 方向约150km处采取。XRD和扫描电镜观察表明样品普遍存在自生碳酸盐、硫酸盐和草莓状(framboidal)黄铁矿。自生矿物组合和显微结构特征与冷泉沉积物类似,属微生物成因。孔隙水中Mg2+、Ca2+和硫酸根的浓度均有随深度增加而降低的趋势,说明这些组分在成因过程中被消耗。成岩反应过程中的溶解二氧化碳可能来自甲烷的厌氧氧化。样品中硫酸根的消耗主要和硫酸盐矿物沉淀有关,而非硫酸根还原。这意味着造成沉积物中黄铁矿大量沉淀的还原态硫并非来自采样深度,它和甲烷及Ba2+一样,均来自地层更深处。
关键词 自生矿物 甲烷渗漏 早期成岩作用 琼东南盆地
海底甲烷渗漏是一种重要的地质现象。在大陆架和大陆坡,甲烷是冷泉流体的主成分之一[1~2]。富甲烷的冷泉可以看作是石油、天然气、天然气水合物在海底的露头,是勘查海底油气资源的重要线索。此外,甲烷所引起的温室气体效应是二氧化碳的十几倍,在自然环境中经由地质作用排放的甲烷所引起的环境增温效应,可能远远超过了人为排放的二氧化碳[3]。因此,以冷泉为主要形式的甲烷渗漏近年来引起了学术界的广泛关注。
冷泉一般和断裂、底辟、泥火山等构造现象有关,是一种大规模流体排放。除这种形式的甲烷渗漏外,地层中承压流体的扩散作用、有机质生物分解和热解等作用都会引起甲烷朝沉积物~海水界面运移,与此有关的甲烷微渗漏目前尚未引起注意,但它对海底资源勘查和海气相互作用研究同样具有重要意义。为此我们研究了采自琼东南盆地的柱状沉积物样品,从中发现了和甲烷渗漏区类似的矿物学、地球化学和地质微生物学记录。
1 地质背景与样品来源
样品由海洋四号于2005年8月执行HY4-2005-5 航次时采集。采样点的地理坐标为:111°371′E,18°173′N,水深1508m,位于海南岛三亚市SEE方向约150km处。地质构造单元属琼东南盆地的松西坳陷带,海底地形为平坦陆坡。样品用重力活塞式取芯器采集,样品总长度49m,为半流动性粉砂质软泥、粉砂质粘土,含少量有孔虫。
琼东南盆地位于南海西北部,发育在海南岛隆起和西沙隆起之间(图1)。钻井资料显示,琼东南盆地前新生代基底可以和海南岛的同期地层对比,由古生代变质岩、白云岩,白垩纪中酸性花岗岩、闪长岩和火山碎屑岩组成,属于华南地块的组成部分[4]。琼东南盆地的发育始于30~24Ma前,盆地主要为广阔陆表海和陆架陆坡沉积体系,最大沉积厚度为12000余米[5]。
图1 采样站位与地质背景示意图
Fig1 Map of site and geological background of sample
琼东南盆地第四纪泥沙质沉积厚度巨大,并富含有机质,为烃类气体提供了丰富来源[6]。盆地内普遍具有高地温梯度[7]和异常高压[11],有利于烃类气体的形成及扩散运移。自20世纪80年代在琼东南盆地进行油气勘探以来,先后发现了一批天然气田和含油气显示的构造圈闭,何家雄等[8]把琼东南盆地的富甲烷气体划分为生物—低熟过渡带气、正常成熟热成因油气、和热成因过成熟油气三种类型。盆地内天然气水合物的聚集条件亦得到充分肯定[9]。盆地内部分地区已发现了泥火山、泥底辟、气烟囱等与甲烷渗漏流有关的构造[6,10],但在采样区附近尚未有这些现象的报道。
2 实验与测试方法
样品到达甲板后即连同样品衬筒锯成约80cm的长度,两端用塑料盖与胶带密封,并置于温度为4℃的甲板冷库保存。海洋四号靠岸后在广州地质调查局化学分析实验室对样品进行分割,每隔10cm在柱状样的中部提取一个子样。全部操作在氮气保护下进行,避免接触空气。分割后的子样密封在玻璃培养瓶中,4℃冷藏保存。进一步实验在美国Miami大学完成。
对柱状沉积物样品作了如下分析:
1)XRD(X射线衍射)分析:取适量样品在60℃烘箱中干燥,研磨至小于200目,用美国Scintag公司的XGEN-4000型X-ray衍射仪获取样品的衍射曲线,扫描范围5°~70°,扫描速度2°/min。
2)SEM(扫描电镜)观察:取少许样品在液氮中冷冻后抽真空直至脱水干燥,将块状样品轻轻压碎,用碳胶固定在样品托上,喷金后在扫描电镜下观察沉积物的显微结构。
3)孔隙水的提取与分析:样品置于离心管中,高速离心后分离上清液,用HPLC(High Performance Liquid Chromatography,即高性能液相色谱仪)and DCP(Direct Current plasma emission spectrometry,即等离子光谱仪)分别测定提取液中的阴离子和阳离子含量。
3 结果与讨论
31 沉积物中的自生矿物及其显微结构
XRD分析结果显示,所研究的沉积物样品中主要矿物为石英、钠长石、伊利石、高岭石,其次为磁绿泥石、白云母、钾长石、方英石等。除这些典型的陆源碎屑矿物外,XRD在样品中还发现有碳酸盐、硫酸盐、黄铁矿和水镁石(表1)。在扫描电镜下这些矿物具有完整的晶型,面、角、棱等结晶要素保存完好,显然没有经历过搬运和磨蚀,除方解石外,它们都是原地形成的自生矿物。
表1 琼东南盆地采样站位沉积物中的自生矿物组合 Table1 Complicated authigenic mineralS in the Sediment from Qiongdongnan BaSin
XRD检出的碳酸盐类矿物有:
方解石(Calcite,卡片号86-174),代表性衍射峰为:33,249,228,230Å;
高镁方解石(Mg-calcite,卡片号71-1663),代表性衍射峰为:300,226,189,185Å;
三水菱镁矿(Nesquehonite,卡片号20-669),代表性衍射峰为:648,385,262,303Å;
菱镁矿(Magnesite,卡片号 80-101),代表性衍射峰为:2746,2099,1708,1702Å;
菱铁矿(Siderite,卡片号83-1764),代表性衍射峰为:359,279,173Å。
方解石是沉积物的主要成分之一,大部分为有孔虫壳体,属生物成因。高镁方解石和三水菱镁矿在XRD衍射图谱上较常见,菱镁矿和菱铁矿仅在个别样品中的XRD图谱可以识别。部分方解石具有文石假象,在扫描电镜下这种方解石呈针状、纤维状碳酸盐集合体产出,能谱显示为碳酸钙,从晶型和结晶习性上看为文石,但在XRD衍射图谱上未见文石衍射峰,可以认为它们在形成时是文石,但在早期成岩作用转变成了方解石,并保留了文石假象。一般认为这种针状、纤维状文石在成因上和嗜甲烷微生物的代谢作用有关。Sassen等[12]在冷泉碳酸盐中发现针状文石、球状黄铁矿与菌丝、沥青共生;细菌触发并促进自生碳酸盐沉淀业已被培养实验所证实[13~14]。Ehr1ich[15]通过实验室细菌培养,得到了针状文石的半球状、哑铃状集合体。在扫描电镜下还见有碳酸盐微晶被菌丝粘结所形成的球状体,进一步说明碳酸盐集合体和微生物之间存在某种成因联系。高镁方解石和三水菱镁矿在扫描电镜下为自形菱面体晶型,通常包覆在颗石藻、硅藻等生物壳体表面。
在活动和被动大陆边缘的甲烷渗漏区周围,自生碳酸盐是普遍存在的沉淀物[12~22]。此类碳酸盐沉积因具有特殊的显微结构特征,被认为和地质历史上的甲烷渗漏或水合物分解有关[2,16]。尽管在采样站位尚未发现有冷泉等大型甲烷渗漏,但沉积物中复杂的碳酸盐类自生矿物组合说明孔隙水中含有丰富的重碳酸根,甲烷微渗漏及其氧化是重碳酸根的可能来源。
XRD检出的硫酸盐类矿物有:
重晶石(Barite,卡片号78-1224),代表性衍射峰为:428,371,262,224Å;
硬石膏(Anhydrte,卡片号 37-1496),代表性衍射峰为:350,285,233,221Å;
石膏(gypsum,卡片号21-816),代表性衍射峰为:761,428,287,268Å。
在扫描电镜下重晶石呈短柱状,全自形结构。在ODP秘鲁陆缘684站位和日本海799站位钻孔中含有自生重晶石微晶,它们比海水更富含34S(δ34S比值高达+84%o)。Torres等人[23]在解释这类重晶石的成因时认为,Ba的来源和海洋生物成因的重晶石在硫酸盐还原带被活化有关,所形成的Ba2+离子随流体迁移,随后在成岩过程沉淀在流体扩散的前锋带。在秘鲁和俄罗斯Okhotsk海冷泉区,重晶石是冷泉沉淀物的主矿物相。自生重晶石与碳酸盐的相对丰度,在一定程度上反映出孔隙流体中甲烷与Ba2+离子的相对含量。A1oisi等人[21]通过理论模式计算认为,甲烷流量大时,沉淀物以碳酸盐为主;甲烷通量小、而Ba含量高时,则有大量重晶石沉淀。采样站位普遍存在的重晶石一方面说明流体扩散作用的存在,此外也说明孔隙水中甲烷含量不高。石膏和硬石膏在扫描电镜下呈板条状,全自形结构。自生石膏和硬石膏的存在说明孔隙水中仍有较高的硫酸根含量。
XRD在大多数样品中都发现有黄铁矿(Pyrite,卡片号71-2219),代表性衍射峰为:2709和2423°A。在扫描电镜中,黄铁矿呈单颗粒散布在沉积物中,或者呈草莓状集合体产出。对草莓状黄铁矿的成因尚有不同认识。一方面沉积物中的草莓状黄铁矿常与微生物化石和细菌群体伴生,但在热液、火山热液矿石中也常见有类似的结构,使微生物成因说受到怀疑[17]。但从最近报道的草莓状黄铁矿硫同位素组成来看,沉积物和低温热液沉淀物中草莓状黄铁矿的δS34均为很大的负值,说明这类黄铁矿中的硫来源于细菌还原的海水硫酸盐[17~19]。
32 孔隙水的化学成分与成岩反应
琼东南采样站位孔隙水的化学成分列于表2。其中氨离子浓度随深度增加而明显升高,可能和微生物代谢作用有关。镁离子随深度增加略有降低的趋势,而钙离子随深度增加而降低的趋势更加明显。反应在Mg/Ca比值上,该比值与深度有明显的正相关关系(图2)。其可能原因是,由于重碳酸根的带入,孔隙水中 Ca2+离子的沉淀速率要高于Mg2+离子。从矿物的溶解~沉淀平衡角度上看,碳酸钙的容度积远小于碳酸镁,前者更易于从溶液中沉淀。孔隙水中Ca、Mg的消耗,以及自生矿物组合中普遍存在方解石(具文石假象)、高镁方解石、三水菱镁矿等碳酸盐,说明在成岩反应过程中的有溶解二氧化碳的补充,而溶解二氧化碳可能来自甲烷的厌氧氧化。
表2 琼东南盆地采样站位沉积物中孔隙水的化学成分(mg/L) Table2 Chemical compoSitionS in pore Water of the Sediment from Qiongdongnan BaSin(mg/L)
图2 孔隙水中Mg/Ca比值与深度关系
Fig2 Relation between Mg/Ca and depth in pore Water
孔隙水中硫酸根浓度与深度关系
Relation between concentration and depth
在阴离子含量上,采样站位的硫酸根含量随深度增加呈现出递减趋势(图2),反映出硫酸根在成岩作用中被消耗。和甲烷渗漏区相比,研究区沉积物中的硫酸根梯度十分平缓,硫酸根/甲烷界面(即SMI)远在采样深度之下。孔隙水中硫酸根的消耗有两种可能的方式:被硫酸根还原菌还原为H2S,或者是呈硫酸盐沉淀。鉴于微生物基因测试在样品中未发现硫酸根还原菌的基因序列[20],因此图2反映的硫酸根消耗最大可能是呈硫酸盐沉淀,XRD和扫描电镜观察到的自生重晶石、石膏和硬石膏为此提供了直接证据。这同时意味着,造成沉积物中黄铁矿大量沉淀的还原态硫并非来自采样深度,硫化氢和甲烷一样,可能来自地层更深处。
4 结论
综合自生矿物组合以及孔隙水化学成分及其代表的成岩反应,对研究区甲烷微渗漏的地质和地质微生物记录作如下总结:
1)XRD和扫描电镜在样品中观察到了多种自生碳酸盐矿物,如:具文石假象的方解石、高镁方解石、三水菱镁矿、菱镁矿、菱铁矿等。其中文石~方解石的显微结构特征与冷泉碳酸盐类似,属微生物成因。沉积物中复杂的碳酸盐类自生矿物组合说明孔隙水中含有丰富的重碳酸根,重碳酸根的来源以及碳酸盐的沉淀和嗜甲烷微生物有成因联系。
2)样品中普遍存在重晶石、硬石膏、石膏等硫酸盐矿物。自生重晶石的形成和来自深部硫酸根还原带的Ba2+离子随流体迁移,并沉淀在流体扩散的前锋带有关,自生矿物中重晶石与碳酸盐的相对丰度,在一定程度上反映出孔隙流体中甲烷与Ba2+离子的相对含量,从这一意义上说,研究区孔隙水中甲烷浓度不高。
3)孔隙水中Mg2+、Ca2+浓度均有随深度增加而降低的趋势,后者更为明显。这一趋势反映了Ca、Mg在成因过程中被消耗,与XRD和SEM观察到的自生碳酸盐沉淀相一致,说明在成岩反应过程中的有溶解二氧化碳的补充,而溶解二氧化碳可能来自甲烷的厌氧氧化。
4)孔隙水中的硫酸根含量亦具有随深度增加而降低的趋势。和甲烷渗漏区相比,研究区沉积物中的硫酸根梯度十分平缓,硫酸根/甲烷界面(即SMI)远在采样深度之下。样品中硫酸根的消耗主要和硫酸盐矿物沉淀有关。这意味着造成沉积物中黄铁矿大量沉淀的还原态硫并非来自采样深度,它和甲烷及Ba2+一样,可能来自地层更深处。
参考文献
[1]Peckmann,J,Reimer,A,Luth,U,et alMethane-derived carbonatesand authigenic pyrite from the northWestern Black SeaMarine Geology,2001,177:129~150
[2]Pierrea,C,Rouchy,J MIsotopic compositions of diagenetic dolomites in the Tortonian marls of the Western Mediterranean margins:evidence of past gas hydrate formation and dissociationChemical Geology,2004,205:469~484
[3]Etiope,GNew Directions:GEM—Geologic Emissionsof Methane,the missing source in the atmospheric methane budgetAtmospheric Environment,2004,38:3099~3100
[4]钟志洪,王良书,李绪宣等琼东南盆地古近纪沉积充填演化及其区域构造意义海洋地质与第四纪地质,2004,24(1):29~36
[5]黄保家琼东南盆地天然气潜力及有利勘探方向天然气工业,1999,19(1):34~40
[6]吴必豪,张光学,祝有海等中国近海天然气水合物的研究进展地学前缘,2003,10(1):177~188
[7]刘建章,王存武莺-琼盆地热流体及油气地质意义天然气勘探与开发,2004,27(1):12~15
[8]何家雄,夏斌,孙东山等琼东南盆地油气成藏组合、运聚规律与勘探方向分析石油勘探与开发,2006,33(1):53~58
[9]何家雄天然气水合物研究进展和南海北部勘探前景初探海洋石油,2003,23(1):57-64
[10]陈多福,李绪宣,夏斌南海琼东南盆地天然气水合物稳定域分布特征及资源预测地球物理学报,2004,47:483~489
[11]王敏芳琼东南盆地超压特征及超压体与油气分布的关系海洋石油,2003,23(1):15~21
[12]Sassen,R,Roberts,H H,Carney,R,et alFree hydrocarbon gas,gas hydrate,and authigenic minerals in chemosynthetic communities of the northern Gu1f of MeXico continental slope:relation to microbial processesChemical Geology,2004,205:195~217
[13]Van Lith,Y,Warthmann,R,Vansconcelos,C,et alMicrobial fossilization in carbonate sediments:a result of the bacterial surface involvement in dolomite precipitationSedimentology,2003,50:237~245
[14]Wright,D T,Wacey,Dprecipitation of dolomite using sulphate-reducing bacteria from the Coorong Region,South Australia:significance and imp1icationsSedimentology,2005,52:987~1008
[15]Ehr1ich,H LMicrobial formation and degrafation of carbonatesGeomicrobiology,4thedition,Marcel Dekker,Inc,New York,2002,PP 183~228
[16]Cavagna,S,Clari,p,Martire,LThe role of bacteria in the formation of cold seep carbonates:geological evidence from Monferrato(Tertiary,NW Italy)Sedimentary Geology,1999,126:253~270
[17]Butler,I B,Rickard,DFramboidal pyrite formation via the oXidation of iron(II)monosulfide by hydrogen su1phideGeochimica et Cosmochimica Acta,2000,64(15):2665~2672
[18]Wilkin,R T,Arthur,M AVariations in pyrite teXture,sulfur isotope composition,and iron systematics in the Black Sea:Evidence for Late pleistocene to Holocene eXcursions of the O2-H2S redoX transitionGeochimica et Cosmochimica Acta,2001,65(9):1399~1416
[19]A1fonso,P,prol-Ledesma,R M,Canet,C,et alSulfur isotope geochemistry of the submarine hydrothermal coastal vents of punta Mita,MeXicoJournal of Geochemical E”ploration,2003,78-79:301~304
[20]Jiang,H C,Ye,Y,Dong H L,Wu,N Y,Zhang,C L,Microbial Diversity in the Deep Marine Sediments from the Qiongdongnan Basin in South China SeaWestern pacific Geophysics Meeting,24-27 July 2006,Beijing
[21]Aloisi,G,Wallmann,K,Bollwerk,S M,et alThe effect of dissolved barium on biogeochemical processes at cold seepsGeochimica et Cosmochimica Acta,2004,68(8):1735~1748
[22]Teichert,B M A,Bohrmann,G,Suess,EChemohermson Hydrate Ridge-Unique microbially-mediated carbonate build-ups groWing into the Water columnpalaeogeography,palaeoclimatology,palaeoecology,2005,227:67~85
[23]Torres,M E,Brumsack,H J,Bohrmann,G,et alBarite fronts in continental margin sediments:A neW look at barium remobilization in the zone of sulfate reduction and formation of heavy barites in diagenetic frontsChemical Geology,1996,127:125~139
Geochemical CharacteriSticS of SedimentS from SoutheaSt Hainan BaSin,South China Sea andMicro-Methane-Seep Activity
Wu Nengyou1 Ye Ying2 Wu Daidai2 Liu Jian1 Zhang PingPing2 Jiang Hongchen3 Dong Hai1iang3 Zhang Xin1 Zhang Xuehua1 Lei Zhisheng1
(1Guangzhou Marine Geology Survey,Guangzhou 510075;2Department of Earth Sciences,Zhejiang University,Hangzhou 310027;3Department of Geology,Miami University,OXford,Ohio 45056,USA)
AbStract:The researched samples Were taken from Qiongdongnan Basin,some 150kmin the SEE of SanyaComplicated authigenic minerals Were identified by XRD and SEM,such as miscellaneous carbonates,sulphates and frambiodal pyriteThe assemblage and fabric characters are similar to what being found in cold-seep sediments,Which is thought to be related With microorganisms fueled by dissolved methaneThere is a tendency that Mg2+,Ca2+ and content in pore water decreased with depthThe cations are consumed in diagenesis ascarbonates,With the dissolved CO2be supplied by anaerobic methane oxidationThe anion Was precipitated as sulphate,instead of being reducedThis means that H2S to form frambiodal pyrite is from depth,the same as methane and Ba2+
Key WordS:Authigenic minerals Methane seep Early diagenesis Qiongdongnan Basin
欢迎分享,转载请注明来源:品搜搜测评网