用HiFiAdapterFilt去除hifi reads的接头序列

最近在处理PacBio的HiFi数据,记录一下分析的过程。

背景介绍

今天介绍的这个软件叫做HiFiAdapterFilt,是一个用于从PacBio的原始数据中去除掉HiFi的接头序列的软件。
下面是它的github地址和发表的文章地址:

github:
https://github.com/sheinasim/HiFiAdapterFilt.git

文章:
https://bmcgenomics.biomedcentral.com/track/pdf/10.1186/s12864-022-08375-1.pdf

软件安装

conda create -n hifiada
conda activate hifiada
mamba install bamtools blast -y
cd /xxx/16_hifiAdapterFilt/HiFiAdapterFilt

数据处理

把数据用软链接链接过来一份

# 下面的路径记得修改成自己的数据的存储路径哦
ln -s /path/to/rawData/*hifi_reads.bam .

运行hifiadapterfiler

写一个for循环直接默认参数运行。

for i in `ls *.hifi_reads.bam`; 
do 
  bash pbadapterfilt.sh -p ${i%%.*} -t 20 ;
done

官方说,不用指定文件格式,直接使用-p去指定文件,软件会自动检测工作目录下的所有 .bam, .fastq, .fastq.gz, .fq, .fq.gz 格式的文件。
因为当前服务器任务有点满,所以就先用默认的8个核慢慢跑吧。

结果展示

结果会生成四个文件:

  • 一个过滤后的*.fastq.gz文件
  • 一个*.blastout文件
  • 一个*.blocklist文件
  • 还有一个*.stats文件

下面是stats文件里的内容:

Started on Mon Jul  4 02:45:01 CDT 2022
For the xxxxx.hifi_reads dataset:
Removing reads containing adapters a minimum of 44 bp in length and 97% match.

Number of ccs reads: 1133284
Number of adapter contaminated ccs reads: 546 (0.0481786% of total)
Number of ccs reads retained: 1132738 (99.9518% of total)

Finished on Mon Jul  4 03:42:47 CDT 2022

大概就是检测到了有多少的reads,检测到多少的adapter contaminated和百分比,过滤后的结果等等。可以看出能够检测到的接头序列是不多的。过滤后的结果就可以直接用于组装了。

私货时间

这个软件。。怎么说呢,过滤后的组装效果比过滤前是否有提升不是很好说。比如文章里的table 1


table 1

(如果太小看不清可以直接打开原文查看)
Vespa mandarinia这个物种的HiFiAsm的组装结果的N50就从2.59 MB 降低到了2.507 MB
我自己实测组装某脊椎动物的时候也出现了N50降低的情况。
我的建议是可以过滤前和过滤后的都组装一下试一试,如果有提升再好不过,如果没有提升就当无事发生过吧。
最近重拾分享的热情,希望每天都能给大家带来点科研方面的干货。
我们将会看。

推荐阅读更多精彩内容