2019-06-11 解读vcf格式文件

https://blog.csdn.net/genome_denovo/article/details/78697679


第二章:生物信息分析

第一节:解读vcf格式文件

1,vcf格式说明

VCF格式:Variant Call Format,用于记录variants (SNP / InDel)的文件格式,关于其说明,详见:http://gatkforums.broadinstitute.org/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk

VCF是用于描述SNP,InDel和SV结果的文本文件。VCF格式在GATK软件中得到很好的支持。

2,vcf文件结构

VCF文件分为两部分内容:以“#”开头的注释部分和没有“#”开头的主体部分。(注释部分和主题部分);注释部分有很多对VCF的介绍信息;主体部分包含10列数据。主题部分每一行代表一个variant的信息。

主体部分10列的范例:

chrM 150 . T C 7766.77 PASS AC=2;AF=1.00;AN=2;DP=199;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=49.78;QD=32.91;SOR=0.904 GT:AD:DP:GQ:PL 1/1:0,175:175:99:7795,531,0

3,主体部分的10列分别代表的意义

CHROM : 参考序列名称

POS : variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置)

ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用‘.’

REF : 参考序列的Allele,(等位碱基,即参考序列该位置的碱基类型及碱基数量)

ALT : variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化

QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大。(表示变异碱基的可能性)

FILTER : 次位点是否要被过滤掉。如果是PASS,则表示此位点可以考虑为variant。

INFO : variant的相关信息

FORMAT : variants的格式,例如GT:AD:DP:GQ:PL

SAMPLES : 各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。

4,vcf文件的基因型信息

VCF文件的主体部分的第9列是基因型信息的多个标签,这些标签之间以冒号分割,其对应的值位于第10列,同样以冒号分割,表示第一个样品的基因型结果。若有多个样品,则VCF文件超过10列,且第10列后的每一列表示一个样品的基因型结果。第9列各个标签的意义展示如下:

GT : genotype

样品的基因型(genotype),两个数字中间用‘/’分开,这两个数字表示双倍体的sample的基因型。0表示样品中有ref的allele(可初步理解为和ref的碱基相同,即和REF相同);1表示样品中的variant的allele(可以理解为和variant变异后的碱基相同,即和ALT相同);2表示有第二个variant的allele(和ALT的第二种碱基相同)对于SNP是指单个碱基类型相同而对于Indel是指碱基类型及个数均相同

因此根据GT的结果得出以下结论:

0/0表示sample中该位点为纯合位点,和REF的碱基类型一致

0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)

1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致

1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

AD和DP

AD(Allele Depth)为sample中每一种allele(等位碱基)的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型;

DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加和;例如:

1/1:0,175:175—GT:AD(REF),AD(ALT):DP

0/1:79,96:175

1/2:0,20,56:76

这里的三种类型对应的DP值均是其对应的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

GQ(基因型存在的概率)

基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值=-10*log(1-P),P为基因型存在的概率。(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)

PL(likelihood genotypes)

指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10*log(P),P为基因型存在的概率。最有可能的genotype的值为0。

例如:

0/1:889,0,216

0/1:94,0,940

1/1:269,18,0

1/1:580,54,0

1/2:3365,1522,1357,1842,0,1706

1/2:307,190,178,117,0,104

(0/0型3个数字,第一个为0

0/1型3个数字,中间为0

1/1型3个数字,最后一个为0

1/2型6个数字,倒数第二个为0)

5,vcf文件第8列信息

第8列的信息包括18种,都是以“TAG=Value”,并使用分号分隔的形式,其中很多的注释信息在VCF文件的头部注释中给出,下面对常用的TAG进行解释:

AC,AF和AN

AC(Allele Count)表示基因型为与variant一致的Allele(等位碱基)的数目;AF(Allele Frequency)表示Allele的频率,AF值=AC值/AN值;AN(Allele Number)表示Allele的总数目。比如:对2个sample的双倍体进行测序,则AN值为4。若REF上位点碱基为A,而2个sample在该位点分别为A/T和T/G,则AC值为2,1;AF值为0.50,0.25。AC:variant数目,AF:频率,AN:总数目

DP(reads覆盖度)

表示reads被过滤后的覆盖度

FS

FisherStrand的缩写,表示使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值,该值越小越好;如果该值较大,表示strand bias(正负链偏移)越严重,即所检测到的variants位点上,reads比对到正负义链上的比例不均衡。一般进行filter的时候,推荐保留FS<10~20的variants位点。GATK可设定FS参数。

ReadPosRandSum

Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.当variants出现在reads尾部的时候,其结果可能不准确。该值用于衡量alternative allele(变异的等位基因)相比于reference allele(参考基因组等位基因),其variant位点是否匹配到reads更靠中部的位置。因此只有基因型是杂合且有一个allele和参考基因组一致的时候,才能计算该值。若该值为正值,表明和alternative allele相当于reference allele,落来reads更靠中部的位置;若该值是负值,则表示alternative allele相比于reference allele落在reads更靠尾部的位置。

进行filter的之后,推荐保留ReadPosRankSum>-1.65~-3.0的variant位点

MQRankSum

该值用于衡量alternative allele上reads的mapping quality与reference allele上reads的mapping quality的差异。若该值是负数值,则表明alternative allele比reference allele的reads mapping quality差。进行filter的时候,推荐保留MQRankSum>-1.65~-3.0的variant位点。

---------------------

作者:genome_denovo

来源:CSDN

原文:https://blog.csdn.net/genome_denovo/article/details/78697679

版权声明:本文为博主原创文章,转载请附上博文链接!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,475评论 4 372
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,744评论 2 307
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,101评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,732评论 0 221
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,141评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,049评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,188评论 2 320
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,965评论 0 213
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,716评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,867评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,341评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,663评论 3 263
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,376评论 3 244
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,200评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,990评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,179评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,979评论 2 279

推荐阅读更多精彩内容