GATK 模块 CombineVariants 合并多样本 VCF 时 AD 字段缺失问题

tags: gatk bug


问题发现

我用 GATK 模块 CombineVariants 合并了 12 个样本的 VCF 文件,之后发现部分位点 FORMAT 字段缺少了 AD 信息。仔细看了一下,这样的位点都是有多个 ALT 的位点。

正常情况下 FORMAT 字段:

GT:AD:DP:GQ:PL

缺失 AD 的 FORMAT 字段:

GT:DP:GQ

GATK 论坛关于此 bug 的记录

有用户发现合并的 VCF 中有 AD 字段无法更新 ,管理员回复原因是多个样本的变异在此位点的 ALT 不一致,合并之后位点的 ALT 由之前的一种变成两种(或更多种),原本 VCF 文件中的 AD 值无法正确表示合并之后的 REF,ALT 测序深度, GATK 也无法计算新的 AD 值,因此就会缺失 AD 字段。

解决办法

用 GATK 模块 CombineVariants 合并多个样本的 VCF 之后,DP 字段是会自动更新的,但是 AD 字段需要重新运行 VariantAnnotator , 根据合并的 GT 和 DP 重新生成新的 AD。

所以多个样本分别 call 变异然后进行合并需要注意这个问题。

推荐阅读更多精彩内容