tabix中怎么操作VCF文件
tabix中怎么操作VCF文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
创新互联公司主营万载网站建设的网络公司,主营网站建设方案,成都App定制开发,万载h5成都小程序开发搭建,万载网站营销推广欢迎万载等地区企业咨询
安装过程如下
wget https://sourceforge.net/projects/samtools/files/tabix/tabix-0.2.6.tar.bz2 tar xjvf tabix-0.2.6.tar.bz2 cd tabix-0.2.6/ make
下载源代码,解压缩之后,编译即可。编译成功之后,会有两个可执行文件tabix
和bgzip
。
由于SNP位点数量巨大,对应VCF文件也非常的大,为例节省存储空间,最常见的做法就是压缩。bgzip
可以压缩VCF文件,用法如下
bgzip view.vcf
压缩之后,原本的view.vcf
文件就变成了view.vcf.gz
文件。压缩后缀为.gz
, 如果想要解压缩,有以下两种用法
bgzip -d view.vcf.gz gunzip view.vcf.gz
bgzip的压缩算法和gzip压缩算法有着相似之处,所以对于bgzip压缩的文件,解压缩时除了可以使用bgzip软件本身,还可以使用gunzip进行解压缩。
需要注意的是,两种算法虽然有相似之处,但是还是有本质区别的,在对VCF文件压缩时,不可以使用gzip来代替bgzip。
对于大型的VCF文件而言,如何快速访问其中的记录也是个难点。tabix
可以对VCF文件构建索引,索引构建好之后,访问速度会快很多。tabix
对VCF文件建立索引的用法如下
tabix -p vcf view.vcf.gz
注意输入的VCF文件必须是使用bgzip
压缩之后的VCF文件,生成的索引文件为view.vcf.gz.tbi
, 后缀为.tbi
。
构建好索引之后,可以快速的获取指定区域的记录,示例如下
1. 获取位于11号染色体的SNP位点
tabix view.vcf.gz 11
2. 获取位于11号染色体上突变位置大于或者等于2343545的SNP位点
tabix view.vcf.gz 11:2343545
3. 获取位于11号染色体上突变位置介于2343540到2343596的SNP位点
tabix view.vcf.gz 11:2343540-2343596
关于tabix中怎么操作VCF文件问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注创新互联行业资讯频道了解更多相关知识。
文章名称:tabix中怎么操作VCF文件
分享路径:http://scjbc.cn/article/ijspgs.html