用R语言对vcf文件进行数据挖掘.3 从vcf文件里提取有用信息

用R语言对vcf文件进行数据挖掘.3 从vcf文件里提取有用信息,第1张

目录

一般的VCF文件都很大,用手动提取里面的信息肯定不大现实。用 vcfR 就可以轻松实现。

vcfR 自带测试文件 vcfR_test 。就用这个文件来操作一下吧。

在分区 Genotype 里,通过观察 FORMAT 列可以看到一共有四种类型的数据 GT:GQ:DP:HQ ,至于这四种类型的数据个各自代表什么意思大家可以查阅知乎百度谷歌。我们可以提取出我们想要的数据类型。比方说最重要的 GT (genotype)。

同样,我们也可以提取例如 DP (测序深度Read Depth)的数字矩阵。

值的注意的是这里用到了参数 asnumeric = TRUE 使得数据自动转换成了数字。但是并不是对所有类型的数据都有效,比方说我们重复一下提取 gt 。

在没有任何报错的情况下 gt 变成了一堆毫无意义的数字,很明显不合理,不要用这些经过错误转换的数据进行下一步分析,比方说喜闻乐见的主成分分析。

在一些类型的数据里可能会出现一个以上的结果,比方说上面的 HQ 数据。

一般情况下我们只需要每一列的第一个数字

不需要samtools之类的软件我们也可以实现vcf数据读取自由,关键是可以直接写入内存进行下一步的统计分析和数据可视化,个人感觉是很有效的提高了生产力。值得花时间学习一下这个工具。

多样性指数是用来评估生物多样性的指标,常用于生态学和环境科学领域。计算多样性指数的方法有很多种,可以使用多种软件进行计算。以下是常用的几种软件及其特点:

1 R语言:R是一种免费的开源软件,具有强大的数据分析和统计功能。R语言中有许多用于计算多样性指数的包,如vegan、BiodiversityR等,可以对各种多样性指数进行计算和可视化。

2 PRIMER:PRIMER是一种商业化软件,主要用于海洋生态学和生物多样性领域的统计分析和可视化。PRIMER可以计算多种多样性指数,如Shannon指数、Simpson指数、Bray-Curtis相似性指数等。

3 PAST:PAST是一款免费的软件,主要用于生态学和生物多样性领域的数据分析和可视化。PAST可以计算多种多样性指数,如Shannon指数、Simpson指数、Jaccard相似性指数等。

4 Excel:Excel是一种常用的电子表格软件,也可以用于计算多样性指数。Excel中可以使用各种公式和函数,如SUM、LN、SQRT等,来计算各种多样性指数。

需要注意的是,计算多样性指数需要具备一定的生态学和统计学知识,并且需要根据具体问题选择合适的指数计算方法和软件。在使用软件进行计算时,也需要注意数据的准确性和合理性,避免出现误差和偏差。

本来是好奇心作祟,偶然搜了下,竟然还真有,不过只有英文版,纸质书还很贵(54$)!发现了电子版,可以在线看,主要内容如下:

Copyright 2021 Manning Publications - R in Action, Third Edition MEAP v10

https://livebookmanningcom/book/r-in-action-third-edition/copyright-2021-manning-publications/v-9/4

R in Action, Third Edition

Chapters

1 R 简介

2 创建数据集

3 基础数据管理

4 图表入门

5 高级数据管理

6 基本图形

7 基本统计

8 回归

9 方差分析

10 功率分析

11 图形可视化

12 重采样统计和引导

13 广义线性模型

14 主成分和因子分析

15 时间序列

16 聚类分析

17 分类

18 处理缺失数据的高级方法

R语言实战 第三版 (qqcom)

欢迎分享,转载请注明来源:品搜搜测评网

原文地址:https://pinsoso.cn/meirong/1958491.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-10-30
下一篇2023-10-30

随机推荐

发表评论

登录后才能评论
保存