生信小工具:Plink之下载安装与其基本格式(1)

谈起Plink相信熟悉的人更定都会知道,这是一个全面的基因组分析工具集,具有很多的小功能,在SNP数据统计,过滤,GWAS分析中都可以用得上,而且速度非常的快,堪称是生物信息分析软件中神器之一。但是在网上逛了一圈发现,好像关于该工具的比较系统的中文教程暂时还找不到。那没办法了,只能自己来总结了。首先,咱们从简单入手先谈谈其下载安装和对应的基本格式。

Plink介绍

PLINK是一个免费的开源全基因组关联分析工具集,旨在以计算有效的方式执行一系列基本的大规模分析,由Shaun Purcell在马萨诸塞州综合医院(MGH)的人类基因研究中心(CHGR)和哈佛大学和麻省理工学院的Broad研究所共同开发的。它最初是为人类数据,但新的PLINK 1.9以上的版本也可用于非模式生物的基因组数据。

其功能非常强大,简单列举一下相对应的功能:

  1. 数据管理: SNP数据格式的转换,合并两个或多个文件,提取SNP子集,以二进制文件格式压缩数据等。
  2. 质量控制的SNP数据统计: 计算丢失基因型率,等位基因,基因型频率,HWE测试,个体和个体对的近亲繁殖,IBS和IBD统计,LD区域计算等。
  3. GWAS关联分析
  4. Meta分析

Plink下载与安装

PLink最新版是2.0,由于我个人觉得1.9比较稳定好用,下面教程分析都是基于1.9版本的。

Plink的下载安装非常方便,由于已经编码的版本是可以直接下载的,所以只要找到相应的系统的版本就可以进行下载了,下载链接地址为:http://www.cog-genomics.org/plink2/

Linux 64-bit下载地址:

http://s3.amazonaws.com/plink1-assets/plink_linux_x86_64_20190617.zip

苹果OS X 系统下载地址:

http://s3.amazonaws.com/plink1-assets/plink_mac_20190617.zip

Windows 64-bit 系统下载地址:

http://s3.amazonaws.com/plink1-assets/plink_win64_20190617.zip

下载完解压就能直接使用了:

Plink输入格式介绍

Plink常见格式包括:ped,map,bed,fam,bim
PLINK接受VCF文件作为输入,但在PLINK中使用的首选格式是带有结尾.ped(和.map)的文件,以及带有结尾.bed(+ .bim + .fam)的较小二进制PLINK文件。这样处理起来速度会更加快。一般我们call完SNP给出的文件都是vcf文件,这里需要使用vcftool或者Plink先进行格式的转换:

使用vcftools来转换:

#vcf转ped和map
vcftools --vcf my.vcf --plink --out plink

使用plink来转换:

# vcf转ped和map
plink --vcf file.vcf --recode --out file

ped格式文件

ped文件包含每列有一个等位基因的变体信息(意味着一个变体的两个等位基因需要2列)。

看看其中一个例子:

less -S data.noIND04.miss0.5.noMT.thin10.ped 

IND01 IND01 0 0 0 0 CC 0 0 
IND02 IND02 0 0 0 0 0 0 0 0 
IND03 IND03 0 0 0 0 0 0 AG 
IND05 IND05 0 0 0 0 CCAA 
AFR01 AFR01 0 0 0 0 CTAG 
AFR02 AFR02 0 0 0 0 CCAG 
AFR03 AFR03 0 0 0 0 0 0 AG 
AFR04 AFR04 0 0 0 0 0 0 0 
AFR05 AFR05 0 0 0 0 CCAG ...

每个样本有一行,前六列为:

  1. 第一列: Family ID表示家族,同一个家族用同一个family ID表示
  2. 第二列: Individual ID用来表示个体,family ID和Individual ID连起来唯一表示一个样本。
  3. 第三列: Paternal ID表示父本ID(如果缺少该信息则为'0')
  4. 第四列: Maternal ID表示父本ID(如果缺少该信息则为'0')
  5. 第五列: 性别代码('1'=男性,'2'=女性,'0'=未知)
  6. 第六列: Phenotype(表型),Plink会自己判断表型的类型,如果缺少该表型数据,可以使用-9/0/非数字来表示。
  7. 第七列第八列: 分别为第一个变体,第二个变体等的等位基因。缺失的数据被编码为0(或-9)。
    对于上面的例子,由于都没有关于父本,母本,性别或表型的信息,因此这些列都设置为缺失数据(0或-9)。

map格式文件

map格式文件包含变体位置,用来记录每个maker(一般为SNP)的位置信息。每行一个maker。它有4列:

less data.noIND04.miss0.5.noMT.thin10.map 

scf7180003948298 scf7180003948298:263 0 263 
scf7180003948298 scf7180003948298:313 0 313 
scf7180003948298 scf7180003948298:1268 0 1268 
  1. 第一列: 染色体名称
  2. 第二列: SNP的表示符/ID
  3. 第三列:基因摩尔根距离,不知道就写0
  4. 第四列:marker在染色体上的坐标位置

常染色体应编码为1至22。以下其他染色体用于指定其他染色体类型。右边的数字代表PLINK对这些染色体的内部数字编码:这些将出现在所有输出而不是原始染色体编码中。

bed格式,fam格式和bim格式文件

map文件可以进一步转换成二进制文件(* .bed)。将家族信息,表型信息存储在单独的文件(* .fam)中并创建扩展的MAP文件(* .bim)(其中包含有关等位基因名称的信息,否则将丢失在BED文件中)

文件转化方法:

plink --file mydata --make-bed

bed格式

该格式的文件主要包含了基因型的双等位基因变异。必须附带.bim和.fam文件。用--bfile加载;可以使用--make-bed命令生成。注意的是该格式和我们平时接触含有基因组位置的bed格式文件不同。在基因型信息中,每一行是一个个体,每一列就是一个变异。其中0、1、2分别对应了aa、Aa或aA和AA。不考虑碱基型,因为我们不关注ATGC的变化。

fam格式

该格式文件是bed格式文件附属的基因型的样本信息文件,每一行就是一个样本。

bim格式

该格式文件是bed格式文件附属的基因型扩展信息的文件,每一行是一个变异,及其注释信息。

参考资料:

  1. https://www.jianshu.com/p/1cb89afe8ac2
  2. https://www.cnblogs.com/leezx/p/9013615.html
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,829评论 1 331
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,603评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,846评论 0 226
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,600评论 0 191
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,780评论 3 272
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,695评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,136评论 2 293
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,862评论 0 182
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,453评论 0 229
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,942评论 2 233
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,347评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,790评论 2 236
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,293评论 3 221
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,839评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,448评论 0 181
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,564评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,623评论 2 249

推荐阅读更多精彩内容