翻译模型:
处理:知识表示与推理
将实体向量表示(Embedding)在低维稠密向量空间中,然后进行计算和推理。
TransE: 多元关系数据嵌入
通过将实体与关系 嵌入到同一低维向量空间
建立简单且易拓展的模型把知识库中的实体和关系映射到低维向量空间中,从而计算出隐含的关系
TransH: 将知识嵌入到超平面
将实体和关系嵌入到同一的向量空间,但实体在不同关系中有不同的表示。
对知识库中的实体关系建模,特别是一对多,多对一,多对多的关系,设计更好的建立 负类的办法 用于训练。
TransR: 实体和关系分开嵌入
将实体和关系嵌入到不同的空间中,在对应的关系空间中实现翻译。
一个实体是多种属性的综合体,不同关系关注实体的不同属性。
直觉上一些相似的实体在实体空间中应该彼此靠近,但是同样地,在一些特定的不同的方面在对应的关系空间中应该彼此远离。
TransD: 通过动态映射矩阵嵌入
实体和关系映射到不同的空间中,用两个向量表示实体或关系,一个(h,r,t)表征实体或关系,另一个(hp,rp,tp)用来构造动态映射矩阵。
在TransR的基础上减少参数
TransA: 自适应的度量函数
更换度量函数,区别对待向量表示中的各个维度,增加模型表示能力。
解决了translation-based 知识表示方法存在的过于简化损失度量,没有足够能力去度量/表示知识库中实体/关系的多样性和复杂性的问题。
TranSpare: 自适应稀疏转换矩阵
针对不同难度的实体间关系,使用 不同稀疏程度的矩阵(不同数量的参数)来进行表征 ,从而 防止对复杂关系欠拟合或者对简单关系过拟合 ;
对头尾两种实体采用不同的投影矩阵,解决头尾实体数目不对等的问题。
解决问题:
1异质性:有的实体关系十分复杂,连接许多不同的实体,而有些关系又非常简单
2不均衡性:很多关系连接的head和tail数目很不对等。
TransG: 高斯混合模型
利用 贝叶斯非参数高斯混合模型 对一个关系生成多个翻译部分,根据三元组的特定语义得到当中的最佳部分。
解决多关系语义的问题,同一种关系在语义上是不同的
KG2E: 高斯分步表示实体和关系
使用Gaussian Distribution 来表示实体和关系
提出用Gaussian Distribution的 协方差来表示实体和关系的不确定度 ,提升了已有模型在link prediction和triplet classification问题上的 准确率 。
参考: https://blogcsdnnet/wp_csdn/article/details/79607727
加大油气勘探开发力度、保障国家能源安全是当前面临的迫切任务。但随着优质资源的不断开发,剩余资源开采难度越来越大,成本越来越高,迫切需要创新技术提升油气勘探开发效率和效益。在大数据、人工智能( artificial intelligence,AI)、5G、云计算、物联网等技术推动下,油气田的智能化水平将会越来越高,这既是油田降本提质增效的有效途径,也是油气技术发展规律的必然趋势。
1、大数据技术定义
2012年兴起的“大数据”潮流,让“Big Data”这个IT圈子里的名词一下风靡了各个行业。虽然大数据的重要性得到了大家的一致认同,但是对大数据的理解却众说纷纭。大数据是一个抽象的概念,除去数据量庞大这一特征,大数据还有一些其他的特征,这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。
高德纳分析员Doug Laney曾于2001年在一次演讲中指出,数据增长有3个方向的挑战:数量(volume),即数据多少;速度(velocity),即资料输入、输出的速度;种类(variety),即多样性,这3方面的特征即大数据最先提出的3V模型。2011年,在国际数据公司(IDC)发布的报告中,大数据被定义为:“大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。”大数据的特点可以总结为4个V,即volume(体量浩大)、variety(模态繁多)、velocity(生成快速)和value(价值巨大但密度很低)。这种4V定义得到了更广泛的认同,指出了大数据最为核心的问题,就是如何从规模巨大、种类繁多、生成快速的数据集中挖掘价值。
2、大数据技术的发展
大数据是人工智能的血液,当前大数据、云计算、人工智能以及区块链技术之间的关系密不可分,也被称作数据智能。比如,先进的工业互联网,其中既有区块链技术也有大数据技术,还有云计算技术,三者合成一体,又衍生出了人工智能和物联网的概念。
在大数据基础上的人工智能,目前已进入数据智能的深度学习时代,其快速发展引起了 社会 和产业的颠覆性变化。从大数据和人工智能技术全行业的发展来看,目前美国仍处于领先地位,中国紧随其后,且具有赶超趋势。中国在人工智能相关的论文发表总数和高引论文数量实现对美国的超越,但在人工智能理论发展和技术方向的引领方面美国还占据支配地位。
3、大数据技术流程
大数据处理的关键技术流程主要包括:数据采集、数据预处理(数据清理、数据集成、数据变换等)、海量数据存储、数据分析及挖掘、数据的呈现与应用(数据可视化、数据安全与隐私等)。
4、大数据的核心算法
大数据的核心算法可以分为监督学习(有标签)和无监督学习(无标签)两大类,其中:
监督学习分为回归和分类:即给定一个样本特征,希望预测其对应的属性值,如果是离散的,那么这就是一个分类问题,反之,如果是连续的实数,这就是一个回归问题。无论是分类还是回归,都是想建立一个预测模型,给定一个输入,可以得到一个输出。不同的只是在分类问题中,是离散的;而在回归问题中是连续的。
无监督学习分为聚类和降维:即如果给定一组样本特征,我们没有对应的属性值,而是想发掘这组样本在维空间的分布,比如分析哪些样本靠的更近,哪些样本之间离得很远,这就是属于聚类问题。如果我们想用维数更低的子空间来表示原来高维的特征空间,那么这就是降维问题。聚类也是分析样本的属性,事先不知道样本的属性范围,只能凭借样本在特征空间的分布来分析样本的属性。这种问题一般更复杂。而常用的算法包括 k-means (K-均值),GMM(高斯混合模型)等。
5、大数据在油气勘探开发领域的应用
目前大数据技术在地质分析、测井解释、地震解释、甜点预测、地质建模、油藏模拟、钻井、压裂、采油、产能预测等方面均开展了大量 探索 性研究,收到了良好的效果。但是目前,大数据与油气行业相关领域的融合还处于起步阶段,面临来自数据、算法和地下未知因素的诸多挑战。未来在大数据、人工智能、5G、云计算、物联网等技术推动下,油气田的智能化水平将会快速发展,这既是油气技术发展规律的必然趋势,也是油田降本提质增效的有效途径。在发展的过程中,智能油气田建设需要油气勘探开发与大数据、人工智能、云计算以及区块链等技术的深度融合,进而催生一批油气田领域的颠覆性技术,解决油气勘探开发的技术需求,提升油气田勘探开发的经济和 社会 效益。
( 下期将向您详细解读大数据在油气行业的具体应用 )。
注:本文部分参考资料来源如下:
李阳,廉培庆,薛兆杰,等.大数据及人工智能在油气田开发中的应用现状及展望[J].中国石油大学学报(自然科学版),2020,44(4):1-11
Gantz J,Reinsel DExtracting Value from Chaos IDC iView Report,2011
Team O R Big Data Now:Current Perspectives from O’Reilly RadarSebastopol:O’Reilly Media,2014
Grobelnik M Big data tutorial http://videolecturesnet/eswc2015grobelnik big data/,2012
Walters, R J, Zoback, M D, Baker, J W 2015 Characterizing and Responding to Seismic Risk Associated With Earthquakes Potentially Triggered by Fluid Disposal and Hydraulic Fracturing Seismol Res Lett 86 (4): 1–9 https:// doiorg/101785/0220150048
周松兰.中美欧日韩人工智能技术差距测度与比较研究[J].华南理工大学学报 ( 社会 科学版),2020,22(2):10-22.
HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2016,18: 1527-1554.
LECUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of IEEE,1988,86( 11) : 2278-2324.
BENGIO Y, SIMARD P,FRASCONI P.Learning longterm dependencies with gradient descent is difficult[J].IEEE Transactions on Neural Networks,1994,5(2) :157-166
k均值和kmeans的区别,聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。 聚类是一种无监督学习的方法 ,是许多领域中常用的统计数据分析技术。
常用的算法包括 K-MEANS、高斯混合模型(Gaussian Mixed Model,GMM)、自组织映射神经网络(Self-Organizing Map,SOM)
2 k-means(k均值)算法
21 算法过程
K-均值是普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。
K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为:
首先选择个随机的点,称为聚类中心(cluster centroids);
对于数据集中的每一个数据,按照距离个中心点的距离,将其与距离近的中心点关联起来,与同一个中心点关联的所有点聚成一类。
计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
重复步骤,直至中心点不再变化。
用

来表示聚类中心,用(1),(2),…,()来存储与第个实例数据近的聚类中心的索引,K-均值算法的伪代码如下:
Repeat {
for i = 1 to m
c(i) := index (form 1 to K) of cluster centroid closest to x(i)
for k = 1 to K
μk := average (mean) of points assigned to cluster k
}
算法分为两个步骤,个 for 循环是赋值步骤,即:对于每一个样例,计算其应该属于的类。第二个 for 循环是聚类中心的移动,即:对于每一个类,重新计算该类的质心。
K-均值算法也可以很便利地用于将数据分为许多不同组,即使在没有非常明显区分的组群的情况下也可以。下图所示的数据集包含身高和体重两项特征构成的,利用 K-均值算法将数据分为三类,用于帮助确定将要生产的 T-恤衫的三种尺寸。

22 损失函数
K-均值小化问题,是要小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为:

其中

}})代表与

})近的聚类中心点。 我们的的优化目标便是找出使得代价函数小的

},c^{(2)},…,c^{(m)})和

。
23 k值的选择
在运行 K-均值算法的之前,我们首先要随机初始化所有的聚类中心点,下面介绍怎样做:
我们应该选择 < ,即聚类中心点的个数要小于所有训练集实例的数量。
随机选择个训练实例,然后令个聚类中心分别与这个训练实例相等K-均值的一个问题在于,它有可能会停留在一个局部小值处,而这取决于初始化的情况。
为了解决这个问题,我们通常需要多次运行 K-均值算法,每一次都重新进行随机初始化,后再比较多次运行 K-均值的结果,选择代价函数小的结果。这种方法在较小的时候(2—10)还是可行的, 但是如果较大,这么做也可能不会有明显地改善。
没有所谓好的选择聚类数的方法,通常是需要根据不同的问题,人工进行选择的。选择的时候思考我们运用 K-均值算法聚类的动机是什么。有一个可能会谈及的方法叫作 “肘部法则” 。关 于“肘部法则”,我们所需要做的是改变值,也就是聚类类别数目的总数。我们用一个聚类来运行 K 均值聚类方法。这就意味着,所有的数据都会分到一个聚类里,然后计算成本函数或者计算畸变函数。代表聚类数字。

我们可能会得到一条类似于这样的曲线。像一个人的肘部。这就是“肘部法则”所做的,让我们来看这样一个图,看起来就好像有一个很清楚的肘在那儿。你会发现这种模式,它的畸变值会迅速下降,从 1 到 2,从 2 到 3 之后,你会在 3 的时候达到一个肘点。在此之后,畸变值就下降的非常慢,看起来就像使用 3 个聚类来进行聚类是正确的, 这是因为那个点是曲线的肘点,畸变值下降得很快, = 3之后就下降得很慢,那么我们就选 = 3。 当你应用“肘部法则”的时候,如果你得到了一个像上面这样的图,那么这将是一种用来选择聚类个数的合理方法。
24 KNN与K-means区别?
K近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是简单的机器学习算法之一。
KNNK-Means
Normalization 是为了样本之间可以比较,用来矫正系统误差。例如上样量A样本是B样本的两倍,最后得出A样本里所有蛋白都是B样本蛋白的两倍,显然是不对的。这种现象在基因测序中也存在,例如测序深度差异等,常用的R包 edgeR 等也有不同的 Normalization 方法。
最简单最粗暴的方法是假设是大部分蛋白是没有发生变化的,只有少数改变了,只要每个样本除以自身所有蛋白丰度和,就可以矫正误差。但显然也有明显的弊端,如果某些蛋白丰度极高,凭一己之力改变了丰度之和,就无法正确矫正。如下
因此,将丰度总和作为Normalization是不太可取的。因此也有其他的一些方法,取出样本中一部分代表总体来进行矫正。例如取中位数,取四分之一和四分之三分位数之间的样本来剔除极端值等。
下面文章来自 Nature -- Proteogenomics connects somatic mutations to signalling in breast cancer
首先作者对样本进行了过滤。reference 是混合样本,因为无论是 TMT 还是 iTRAQ 标记都只能标记有限样本,需要一个混合样本做参照,使在不同批次间可以比较。我们看下图每个样本与 reference的比值取对数结果大部分是符合预期的单峰分布(右),以0(1倍)为中心高斯(正太)分布,也有一些样本是明显的双峰分布(左)。
作者使用 R 包 mclust 双重高斯混合模型进行聚类,较小均值的77个样本通过QC。
其实用的就是 z-score 方法的变种,(x-均值)/标准差 。区别是,这里并不是用的总样本的标准差。
首先假设样本中只有一部分蛋白发生了改变,另一部分没有发生改变,双峰原因是因为污染等,而没有发生上下调的蛋白拥有较小的标准差。
为了归一化前面讲的进样样和系统误差,采用了下面方式,使用 mixtools 包。
以单峰模型估计出均值
双峰模型估计两个标准差
使用最小的标准差标准化
矫正前
如有错误,欢迎指正
其他方法参考文献 A systematic evaluation of normalization methods in quantitative label-free proteomics
fitgmdist是高斯混合模型拟合函数。其基本使用格式:
GM = fitgmdist(X,K)
式中:X——n阶矩阵; K——组件的个数
例如:
mu1 = [1 2];
Sigma1 = [2 0; 0 05];
mu2 = [-3 -5];
Sigma2 = [1 0;0 1];
X = [mvnrnd(mu1,Sigma1,1000);mvnrnd(mu2,Sigma2,1000)];
GMModel = fitgmdist(X,2)
欢迎分享,转载请注明来源:品搜搜测评网