这个问题从外显子和内含子的定义上很好理解,外显子是参与蛋白表达的基因序列,内含子则是基因上的非编码序列,都是在DNA上的序列,翻译蛋白质的是mRNA,基因DNA序列在转录成核内不均一RNA后内含子会被剪切掉,最终信使RNA上只保留外显子序列。
单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA 测序所得不到的信息,对于研究发育生物学,肿瘤生物学,免疫等有着极其重要的价值。
单细胞测序的核心就是t-SNE降维,以及聚类。那么在做这些工作之前的质控,关乎到整个分析的成败。这篇文章我就继续给大家讲讲单细胞质控的那些事儿。
整个单细胞分析的核心其实就是确定cell types/ lineages。而在此之前的一步就是数据质控(QC, quanlity control)。我们在得到表达矩阵之后,会做Data normalization , 基因集筛选,批次效应的去除等工作;之后用PCA, t-SNE进行降维。如果在这一过程中发现了一些问题,我们会移除掉一些细胞,然后重新质控,降维分析。
一般而言,检查点有如下一些:
比对率比较低或者reads数较少有可能是建库原因。reads数较少可能与形成较多的primer dimer有关,而比对率低通常是建库的原因。
如果spike-in RNA序列很少,那么就可以直接说明是建库失败。如果spike-in 正常,但细胞RNA序列较少,可能是因为这个细胞本身就非常小,或者细胞在建库前出现了破损。
检测出基因的数量与细胞大小直接相关。如果检测出的基因(UMI)过多,很有可能是这个droplet里面有多个细胞,但是也不能排除是这个细胞就是非常的大。如下图,基因数目过多或者过少,都是不正常的情况。
通常而言,细胞大小、spike-in RNA比例与检测出的基因数往往是正相关的,如下图。
如果线粒体RNA过高,也同样预示着细胞有破损。因为当细胞破损时,细胞质RNA会跑出来,但是线粒体RNA由于有线粒体膜的包裹,不会溢出。因此,当细胞膜有破损时,线粒体RNA所占比例会很高。注意:当细胞出现apoptosis, necrosis的时候,也会有这种现象。
核糖体RNA占比较高时,可能是因为细胞内出现了较多的RNA降解。在全长单细胞转录组中,3’ 偏好性可用于检测细胞内是否存在大量RNA降解。
在上图中,我们对细胞中基因的数量、唯一比对率、基因body比对率、spike_detection等绘制分布图,然后剔除不合格细胞,将能够通过上述所有质控标准的细胞保留下来、用于后续分析。
基于PCA这一算法也可以进行质控,找到明显没有与其他细胞聚到一起的细胞。这些细胞被认为是质控不达标的细胞,如下图所示。
我们已经有了这么多方法和指标去过滤细胞,那么我们需要注意一些什么呢?
接下来就是要讨论如何过滤基因,对于绝大多数情况,我们不会用所有的基因去进行降维分析,所以需要进行基因集合的选取。
基因集的设定是基于:
(1)表达量高于一定阈值的基因
(2)在整个细胞样本中存在差异变化的基因
(3)用先验的知识去挑选基因
(4)bulk RNA测序中已经鉴定出来的差异基因。
(5)t-SNE降维时只选取前几个PC
有些时候,有些基因的表达异常高,这对后续数据的Normalization带来影响,有时也会考虑过滤掉。比如nulcear lncRNA ,、actin,、hemoglobin,、线粒体RNA和核糖体RNA。
有一些基因要根据情况需要进行移除,以下三点要根据课题情况来决定是否保留或者去除。
单细胞RNA测序最棘手的就是批次效应(batch effect)。 batch effects 可以发生在:
不同批次的样品或许采用的质控标准也应该不一样,通过PCA的结果,可以查看结果中是否有明显的批次效应。
STAR 软件由于其敏感的比对特性,因此在转录组 SNP Calling 过程中使用较多。
对于 Ubuntu 系统:
对于Red Hat, CentOS, Fedora 系统:
一般使用 2-pass 模式进行比对,获得更准确的剪切信息。步骤如下:
生成的 SJouttab 文件为 Tab 分隔符,每一列意义如下:
第二步完成后的 bam 文件仍然无法直接用于 GATK 的变异检测,还需要增加一些操作步骤,请参考 GTAK Call SNP/Indel 流程。
欢迎分享,转载请注明来源:品搜搜测评网