常见的数据格式及数据库The learning notes of the biostar handbook(4)

常见的数据格式

genbank

genbank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续、带有注释的DNA或RNA片段。

identifier 含义
LOCUS 序列名称
DEFINITION 序列简要说明
ACCESSION 序列编号
VERSION 序列版本号
KEYWORDS 与序列相关的关键字
SOURCE 序列来源的物种名
ORGANISM 序列来源的物种学名和分类学位置
REFERENCE 相关文献编号,或递交序列的注册信息
AUTHORS 相关文献作者,或递交序列的作者
TITLE 相关文献题目
JOURNAL 相关文献刊物杂志名,或递交序列的作者单位
MEDLINE 相关文献 Medline引文代码
REMARK 相关文献注释
COMMENT 相关序列的注释信息
FEATURES 序列特征表的起始
BASE COUNT 碱基种类统计数
ORIGIN 序列

文中关于埃博拉病毒的例子


genbank.png

特点:

易读性,便于信息交换
不利于计算机进行数据分析
可通过RefSeq进行格式转化

FASTA格式

在生物信息学中,FASTA格式是一种用于记录核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以单个字母编码呈现。该格式同时还允许在序列之前定义名称和编写注释。这一格式最初由FASTA软件包定义,但现今已是生物信息学领域的一项标准。(来源维基)

格式

FASTA格式中的一条完整序列,包含开头的单行描述行和多行序列数据。描述行行首前置半角大于号(“>”)以和数据行区分。“>”后紧接的内容为该序列的标识符,该行剩余部分则为序列的描述(标识符与描述均非必须)。“>”和标识符之间不应有空格,且建议将单行内容限制在80字符以内。序列的结束以下一条序列的“>”出现为标识。如下为FASTA格式一条序列的示例:

例子

>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

FASTQ格式

FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据集成在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。(维基百科)

格式

FASTQ文件中,一个序列通常由四行组成:
-第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
-第二行为序列信息
-第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
-第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

第四行质量分数目前有两种版本,为phred33以及phred64
phred33


33.png

phred64


64.png

常用的数据库

UniProt: Universal Protein Resource is the most authoritative repository of protein sequence data.

Protein Data Bank (PDB) is the major repository of 3D structural information about biological macromolecules (proteins and nucleic acids). PDB contains structures for a spectrum of biomolecules - from small bits of proteins/nucleic acids all the way to complex molecular structures like ribosomes.

数据的获取

Entrez Direct简介

Entrez Direct (EDirect) provides access to the NCBI's suite of interconnected databases (publication, sequence, structure, gene, variation, expression, etc.) from a UNIX terminal window. Functions take search terms from command-line arguments. Individual operations are combined to build multi-step queries. Record retrieval and formatting normally complete the process.
EDirect also includes an argument-driven function that simplifies the extraction of data from document summaries or other results that are returned in structured XML format. This can eliminate the need for writing custom software to answer ad hoc questions. Queries can move seamlessly between EDirect commands and UNIX utilities or scripts to perform actions that cannot be accomplished entirely within Entrez.(from NCBI)

EDirect工具介绍

名称 用途 参数
esearch 搜索命令,将所要检索的内容提交到 Entrez 中,返回相应的结果记录 -db、-query
efetch 下载 NCBI 数据库中的记录和报告并以相应格式打印输出 -db、-id、-format、-mode
einfo 获取目标结果在数据库中的信息 -db、-dbs、-fields、-links
elink 对目标结果在其他数据库中比配结果 -db、-id、-related、-target、-name
epost 上传 UIDs 或者 序列登记号 -db、-id、-format、-input、-label
efilter 对之前的检索结果进行过滤或限制 -query、-sort、-field
xtract 将esearch获得的 XML 格式结果转换成表格格式 -pattern、-if、-block、-element、-sep、-filter
esummary 获得 XML 格式的建立 -db、-id、-format、-mode
ecitmatch 统计引用数据 -journal、-year、-volume、-page、-author

例子:
efetch -db=nuccore -format=gb -id=AF086833 |head

LOCUS AF086833 18959 bp cRNA linear VRL 13-FEB-2012
DEFINITION Ebola virus - Mayinga, Zaire, 1976, complete genome.
ACCESSION AF086833
VERSION AF086833.2
KEYWORDS .
SOURCE Ebola virus - Mayinga, Zaire, 1976 (EBOV-May)
ORGANISM Ebola virus - Mayinga, Zaire, 1976
Viruses; ssRNA viruses; ssRNA negative-strand viruses;
Mononegavirales; Filoviridae; Ebolavirus.
REFERENCE 1 (bases 1 to 18959)

将相同序列存储为genbank格式
efetch -db=nuccore -format=gb -id=AF086833 > AF083833.gb
head AF083833.gb

LOCUS AF086833 18959 bp cRNA linear VRL 13-FEB-2012
DEFINITION Ebola virus - Mayinga, Zaire, 1976, complete genome.
ACCESSION AF086833
VERSION AF086833.2
KEYWORDS .
SOURCE Ebola virus - Mayinga, Zaire, 1976 (EBOV-May)
ORGANISM Ebola virus - Mayinga, Zaire, 1976
Viruses; ssRNA viruses; ssRNA negative-strand viruses;
Mononegavirales; Filoviridae; Ebolavirus.
REFERENCE 1 (bases 1 to 18959)

将相同序列存储为FASTA格式
efetch -db=nuccore -format=fasta -id=AF086833 > AF083833.fa
head AF083833.fa

>AF086833.2 Ebola virus - Mayinga, Zaire, 1976, complete genome
CGGACACACAAAAAGAAAGAAGAATTTTTAGGATCTTTTGTGTGCGAATAACTATGAGGAAGATTAATAA
TTTTCCTCTCATTGAAATTTATATCGGAATTTAAATTGAAATTGTTACTGTAATCACACCTGGTTTGTTT
CAGAGCCACATCACAAAGATAGAGAACAACCTAGGTCTCCGAAGGGAGCAAGGGCATCAGTGTGCTCAGT
TGAAAATCCCTTGTCAACACCTAGGTCTTATCACATCACAAGTTCCACCTCAGACTCTGCAGGGTGATCC
AACAACCTTAATAGAAACATTATTGTTAAAGGACAGCATTAGTTCACAGTCAAACAAGCAAGATTGAGAA
TTAACCTTGGTTTTGAACTTGAACACTTAGGGGATTGAAGATTCAACAACCCTAAAGCTTGGGGTAAAAC
ATTGGAAATAGTTAAAAGACAAATTGCTCGGAATCACAAAATTCCGAGTATGGATTCTCGTCCTCAGAAA
ATCTGGATGGCGCCGAGTCTCACTGAATCTGACATGGATTACCACAAGATCTTGACAGCAGGTCTGTCCG
TTCAACAGGGGATTGTTCGGCAAAGAGTCATCCCAGTGTATCAAGTAAACAATCTTGAAGAAATTTGCCA
其余例子不一一搬运

Aspera工具介绍

Aspera提供了大文件高速传输方案,适合于大数据的传输。客服端的使用是免费的。

来源http://www.chenlianfu.com/?p=2319
安装

wget https://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
bash aspera-connect-3.7.4.147727-linux-64.sh

Aspera的用法:
$ ascp [参数] 目标文件 目的地址
Aspera的常用参数:
-T 不进行加密。若不添加此参数,可能会下载不了。
-i string
输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
--host=string
ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。
--user=string
用户名,NCBI的为anonftp,EBI的为era-fasp。
--mode=string
选择模式,上传为 send,下载为 recv。
-l string
设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

命令行下载SRA数据(SRR3589956)
ascp -T -i /home/.aspera/connect/etc/asperaweb_id_dsa.openssh anonftp@ftp-private.ncbi.nlm.nih.gov:sra/sra-instant/reads/ByRun/sra/SRR/SRR358/SRR3589956/SRR3589956.sra ./
浏览器插件下载SRA数据

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容