关于人参考基因组fasta文件的组成部分说明

在做有参测序分析的时候,选择准确合适的基因组是极其关键的,今天来看下人的参考基因组fasta文件包含哪几个部分.

  以GRCh38版本的基因组fasta文件为例,我们先看看这个基因组文件里包含哪些序列:

# 查看GRCh38包含哪些序列:
awk '{if($0~">")print $1}' ./Homo_38.fasta> ./tmp.txt

部分结果如下:

GRCh38部分序列

  上图只显示了部分结果,其实远远不止上图这几条,上面这个GRCh38文件中一共有3366条序列,前25条还好理解,就是22常染色体+X+Y+线粒体.但后面的chr1_.*_random又是什么呢.


人基因组fasta注释文件可以分为以下几部分序列:
  1. Primary assembly,包含以下三部分:
  • Assembled chromosomes:chr1-chr22,chrX,chrYchrM的序列.
  • Unlocalized sequence:以_random结尾的序列,表示知道在哪条染色体上,但不知道方向和顺序.
_random结尾的序列
  • Unplaced sequence:以chrU_为前缀的序列,不知道在哪个染色体上.
chrU_开头的序列
  1. Alternate contigs, alternate scaffolds或 alternate loci,以alt结尾的序列.用来表征单倍体序列的多样性,这是由于基因组是用单倍体类型表现的,比如1号染色体有两条,但fasta文件里只有一条的序列,由于基因的多样性(如等位基因)无法通过一条序列表示,所以就有了alt序列来补充说明. 但这样的alt序列在测序分析map的的过程中容易产生multiple-mapping低质量的 reads.而GATK的ZeroMappingQuality 会将这样的reads过滤掉.
alt结尾的序列
  1. PAR 区域: 伪染色体序列(pseudoautosomal region),PAR区域的基因在XY染色体上都存在.但在map序列时会造成multiple-mapping reads,所以需要其中一条染色体(如y染色体)上的PAR区域mask掉.
PAR区域
  1. decoy基因组:包含人疱疹病毒(EBV)基因组的序列.
decoy序列
关于基因组版本

  在下载基因组文件的时候,可以发现即使是GRCh38版本,也有:GRCh38.p6,GRCh38.p11等小版本.这里的p是Patchs指定期对基因组的修补,并且每次修补并没有扰乱染色体位置信息.有两种patch:

  • Fix patches是表示下次主版本发布时将要替换的序列.
  • Novel patches表示上面提到的alternate loci.也就是将新的patches看做变异序列.
关于analysis set

在下载基因组文件时,常会看到analysis set的基因组文件:

  常用基因组文件只包含上面提到的Primary assembly,而analysis set还包含alt序列,PAR序列,decoy基因组.这些对于做基因组变异分析是必须的.可以看出笔者上面用来示范的那个GRCh38文件是analysis set.

(更多信息请参考GATK论坛: https://gatkforums.broadinstitute.org/gatk/discussion/7857/reference-genome-components)


更多原创精彩视频敬请关注生信杂谈:

推荐阅读更多精彩内容