脱氧核糖核酸(DNA,为英文Deoxyribonucleic acid的缩写),又称去氧核糖核酸,是染色体的主要化学成分,同时也是组成基因的材料有时被称为“遗传微粒”,因为在繁殖过程中,父代把它们自己DNA的一部分复制传递到子代中,从而完成性状的传播aDNA是由核酸的单体聚合而成的聚合体b每一种核酸由三个部分所组成:一分子含氮盐基+一分子五碳糖(脱氧核糖)+一分子磷酸根c核酸的含氮盐基又可分为四类:鸟嘌呤(G)、胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C) dDNA的四种含氮盐基组成具有物种特异性即四种含氮盐基的比例在同物种不同个体间是一致的,但再不同物种间则有差异
在演化生物学里面,我们有研究的点是物种的分化时间和演化关系
所以,在比较基因组学里面,对该类问题的研究主要分为物种层次,基因组层次,基因家族分析以及基因层次分析
一般在物种层次,我们重点关注的是物种间的演化关系,以及物种间的分化时间,并且构建系统发生树
在全基因组范围内,我们就可以构建两个物种染色体间,或者全基因组内的共线性关系
比方说,物种A的某段区域,对应物种B的另外一段区域,诸如这样的称为共线性分析。或者是去分析基因组倍增事件
这里简单介绍下基因组倍增事件,在生物演化中,全基因组加倍会带来基因库的加倍,这样一来就给生物演化带来了很多原材料。
那么基因组倍增以后形成的多倍体是很不稳定的,染色体之间会重排,缺失等,从而导致一些基因缺失。当发生再二倍体化后,倍增的基因组又恢复成原来的倍数,但是,有的基因丢失了,另外有些基因任然保持着原来加倍前的同源基因,那么受不同的选择压力,这些基因发挥着不同功能(Whole-genome duplication in teleost fishes and its
evolutionary consequences,2014)
系统发生数描述的是物种间,基因间或者个体以及群体间谱系关系的的一种图
那么构建系统发生树数据来源有两种,一种是特征数据,即基因,个体和种群的信息,另外一种是根据相似性进行构建,即两两序列,物种之间的相似性,可以用距离来表示
这是一种无根树(没有指定外群)
那么无根树指的是没有指出共同祖先的节点,只能看出中间节点间的距离关系;而有根树则反映了树上的各个基因和物种的时间关系,通常定根采用的是外群定根,即定根时引入亲缘关系较远的物种作为外群定根
对于构建系统发生树,我们有两大类方法提供选择,一种是基于距离,另外一种是基于特征(性状)的
该方法通过定义类间距离为两个类内的成员所有成对距离的平均值,什么意思呢?
我们考虑上述物种DNA序列的数据,采用Jukes-Cantor距离来表示,而该距离取决于每对序列间核苷酸替换率
由此就可以计算出物种间的距离K(这里采用的是K距离)
而Jukes-Cantor距离是指在单参数演化模型,即每一种碱基具有同等概率突变为另外3种碱基,其频率常数为μ/3,其中μ是碱基替换频率,当然这个频率可以不同,比如说双参数演化模型,比方说嘌呤突变成嘌呤或者嘧啶突变成嘧啶的频率为α,嘧啶突变成嘌呤或者嘌呤突变成嘧啶的频率为β
所以对于单参数模型来说,K为:
其中q为对于相比较的DNA序列具有相同碱基的概率
这个q值受世代的影响,随着代数的增加,突变越来越多,这种DNA序列的相似性可能性越低,q:
那么对于UPGMA,我们计算两两物种的K距离
首先,人类与黑猩猩距离最小,那么把它们合并成个新类(hu-ch),然后计算其他物种到这个新类的距离,比方说大猩猩(go)到这个新类的距离(hu-ch)我们用人类到大猩猩的距离与黑猩猩到大猩猩的距离的平均值来代替为:
然后我们发现新类(hu-ch)与大猩猩(go)的距离最短,那么再把他们合并成个新类,一次类推达到聚类的效果,那么
该方法比较适用于趋异进化的模型
临接法与UPGMA方法类似,该方法利用的是利用距离最近的成对分类单位来使系统树的总距离和最小
该方法与UPGMA的距离定义不同:
比方说,我定义个新节点1,那么
我们计算or到节点1的距离为:
由于or和gi距离M(or,gi)相近,故把它们划分到新节点1
简约法利用的是序列的拓扑结构来进行聚类的。什么意思呢?就是多个物种的相同区段上的序列,它们之间的碱基相似性来聚类,相同位置上碱基是否相同
当两条序列在某位置上有相同碱基,当他们的共同祖先也具有相同碱基时,就产生最小变更数
使用该方法的核心是寻找信息位点,然后计算所有碱基相对于共同祖先所有情况组合的似然值,当似然值最大的时候计算相似性
比方说
对于4号位点,显然四条序列都不相同,那么我们仅通过4号位点是无法进行聚类的,因此4号位点不能算作信息位点;又比如5号位点,第一,二条序列是相同的,三,四条序列是相同的,所以仅通过5号位点可以进行聚类
似然法采用了统计学原理进行计算
假设说祖先在某个位置的碱基为T,经过演化后到下一个世代演化成了C和A,而这两个经过演化分别演化为C,A和A,G。反过来,我们已知子代为C和A,那么我们需要求解的是它们共同祖先在该位置上的所有碱基可能组合
我们设单位时间(世代)碱基替换率为u,πi为A,T,C,G四种碱基选其中之一的概率(一般为1/4),则经过T世代后,某位点不发生突变的概率:
发生突变的概率为:
对于两条序列来说,
以v1和v2分别作为序列1和序列2分别到它们的共同祖先的距离
所谓的基因家族就是指由某几个物种的基因,是由他们的共同祖先复制而来的,在功能上具有相似的作用
那么基因家族的收缩扩张指的是在演化的过程中有哪些基因在扩大,哪些在减少(这里的增减指的是这些相似的基因数量是增大还是减少),这里的收缩和扩张一定是相对于节点来说的
共线性主要研究的是两个物中在演化过程中,对于整个基因组来说,A物种1号染色体的某个序列和B物种的2号染色体某个序列比较相似,那么这个就叫共线性
类似于这样的图
还有一种是点图
这种图表述了两个物种的共线性关系,假设我们设横着的为A物种,竖着的为B物种。
比方说B物种的17号染色体与A物种的17号染色体以及9奥染色体有极强的共线性(主要看点图是否连成线,连成线代表共线性较强)
参考:部分参考樊龙江《生物信息学》
https://msohucom/a/278875424_278730
欢迎分享,转载请注明来源:品搜搜测评网