windows 下的blast+安装以及使用

blast+的安装

1.程序下载:访问blast本地软件包链接 blast_latest
下载适合自己系统的blast版本。
2.安装流程:下载完毕后,双击安装到C:\Blast,生成bin和doc两个子目录,其中bin是程序目录, doc是文档目录,这样就安装完成。
3.用户环境变量设置:右键点击“我的电脑”-属性,然后“高级系统设置”选项-“环境变量”,在用户变量下方点击“新建”-变量名:BLASTDB,变量值:C:\Blast\db(即数据库路径)。在系统变量下方“Path”添加变量值:C:\Blast\bin。
4.查看程序版本信息:点击window的"开始"菜单,在运行中输入cmd,调出MS-DOS命令行,输入命令cd C:\Program Files\NCBI\blast-2.6.0+\bin转到blast安装目录,输入命令 blastn -version即可查看版本。

blast+的使用

参考生信人收藏|本地BLAST用法

blast的类型,共五种:

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;

blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;

blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;

tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;

tblastx:�先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。

使用方法:
1.数据库数据的获取与创建
直接从NCBI、Ensemble或者其他数据库网站下载用作database的fasta序列,此处用小鼠基因组全部序列当做库(下载地址,解压后使用)。使用makeblastdb构建数据库(与BLAST的区别)。
要知道此程序用法首先就要Help一下,具体命令就是:
makeblastdb -help
具体构建数据库的示例命令:

makeblastdb -in  Mus_musculus.GRCm38.dna.toplevel.fa  -dbtype nucl -out Mus_musculus.GRCm38.dna.toplevel.fa.blastdb

会产生如下文件,则运行成功:
Mus_musculus.GRCm38.dna.toplevel.fa.blastdb.pin
Mus_musculus.GRCm38.dna.toplevel.fa.blastdb.phr
Mus_musculus.GRCm38.dna.toplevel.fa.blastdb.psq

其主要参数介绍:
-dbtype <String, nucl',prot'>: 数据库类型,核酸或者蛋白,选择其一。
-in <File_In>: 输入文件
-out <String>: 创建的数据库名字
注意:此处以核酸为例阐述,若数据库为蛋白序列 -dbtype选择prot

2. 比对。
比对需要一个Query序列,Query序列就是已知的基因(或者说序列),小编此处以一个人里面的决定智商的基因HMGA2(下载地址,将序列存储为HMGA2.fasta的文件)为例阐述。使用程序是blastn,具体帮助信息可以使用blastn -help查看。
具体比对示例命令:

blastn -query HMGA2.fasta -db Mus_musculus.GRCm38.dna.toplevel.fa.blastdb -out  results.txt -evalue  1e-5 -outfmt 8 -perc_identity 90   -max_target_seqs  5  -num_threads 2

主要参数介绍:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:数据库路径及数据库名
-task: 共五个程序选择'blastn' 'blastn-short' 'dcmegablast' 'megablast' 'rmblastn' ,默认megablast。
具体区别如下:
blastn 完全匹配的传统blastn
blastn-short 优化查询:短于50个碱基
megablast 查找十分相似的序列(如物种内部或相关的物种间)
dc-megablast 查找亲缘关系比较远的序列(如物种间)
rmblastn 兼容了RepeatMasker

-evalue:设置输出结果的e-value值,一般1e-5

-num_threads:线程数,笔记本不要设大了,2就够了。
-num_alignments:输出数据库中能与Query比对上的的序列数目,与max_target_seqs不能同时使用。
-max_target_seqs:最多允许比对到数据库中的序列数目,参数仅适用于outfmt >4。
-perc_identity :比对的最低相似度
-max_hsps:由于不对时一条序列比对成多段,如果只想输出其中的几段,就设定相应的数目,与-num_alignments不能同时使用。
-outfmt:输出文件格式,总共有15种格式,一般设置为6。6是tabular格式对应BLAST的m8格式,具体每种格式是什么样子,大伙可以自己试一试查看一下。
0 = pairwise,
1 = query-anchored showing identities,
2 = query-anchored no identities,
3 = flat query-anchored, show identities,
4 = flat query-anchored, no identities,
5 = XML Blast output,
6 = tabular,
7 = tabular with comment lines,
8 = Text ASN.1,9 = Binary ASN.1,
10 = Comma-separated values,
11 = BLAST archive format (ASN.1),
12 = JSON Seqalign output,
13 = JSON Blast output,
14 = XML2 Blast output
此外还能自定义输出格式主要针对上述的 6, 7, and 10三种格式,示例如下针对6格式的输出单引号内的信息信息:
-outfmt ‘6 qseqid qlen sseqid slen ength pident mismatch qcovs qstart qend sstart send evalue ’这样最终输出结果的的每一列信息会按照上述信息输出,具体每个单词的意思如下:
qseqid means Query Seq-id
qgi means Query GI
qacc means Query accesion
qaccver means Query accesion.version
qlen means Query sequence length
sseqid means Subject Seq-id
sallseqid means All subject Seq-id(s), separated by a ';'
sgi means Subject GI
sallgi means All subject GIs
sacc means Subject accession
saccver means Subject accession.version
sallacc means All subject accessions
slen means Subject sequence length
qstart means Start of alignment in query
qend means End of alignment in query
sstart means Start of alignment in subject
send means End of alignment in subject
qseq means Aligned part of query sequence
sseq means Aligned part of subject sequence
evalue means Expect value
bitscore means Bit score
score means Raw score
length means Alignment length
pident means Percentage of identical matches
nident means Number of identical matches
mismatch means Number of mismatches
positive means Number of positive-scoring matches
gapopen means Number of gap openings
gaps means Total number of gaps
ppos means Percentage of positive-scoring matches
frames means Query and subject frames separated by a '/'
qframe means Query frame
sframe means Subject frame
btop means Blast traceback operations (BTOP)
staxids means unique Subject Taxonomy ID(s), separated by a ';'(in numerical order)
sscinames means unique Subject Scientific Name(s), separated by a ';'
scomnames means unique Subject Common Name(s), separated by a ';'
sblastnames means unique Subject Blast Name(s), separated by a ';' (in alphabetical order)
sskingdoms means unique Subject Super Kingdom(s), separated by a ';'(in alphabetical order)
stitle means Subject Title
salltitles means All Subject Title(s), separated by a '<>'
sstrand means Subject Strand
qcovs means Query Coverage Per Subject
qcovhsp means Query Coverage Per HSP
此外其他类型的比对示例命令如下
核酸序列比对蛋白数据库:
blastx -query test.fasta -out test.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 2
蛋白序列比对蛋白数据库:
blastp -query test.fasta -out test.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 2

四、结果解读(示例)

上图中每一列的含义:
[1] Query id:已知的序列ID
[2] Subject id:比对到数据库中的序列ID
[3] % identity :相似度
[4] alignment length:比对长度
[5] mismatches :错配数目
[6] gap openings:gap的数目
[7] q. Start:已知的序列比对起始位置
[8] q. End:已知的序列比对终止位置
[9] s. Start:数据库中序列比对起始位置
[10] s. End;数据库中序列比对终止位置
[11] E value;比对的E值
[12] score;比对的得分
注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上比对长度的话,就有四个标准了。
E值(Expect):表示随机匹配的可能性,例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值小于10-5 就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值比现在这个要高的话,那么不E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性:
1)当目标序列过小时,E值会偏大,因为无法得到较高的S值。
2)当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
3)有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。
E值总结:
E值适合于有一定长度,而且复杂度不能太低的序列。当E值小于10-5
时,表明两序列有较高的同源性,而不是因为计算错误。当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认。
一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。
Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1299个碱基中只有35个不配,其他97%相同;
Gaps是指多出或少的碱基或缺失的碱基数;缺失或插入(Gaps):插入或缺失。用"—"来表示。
此外比对的Strand则通 s. Start:和s. End判断,如上述结果的第三行. Star值大于s. End,则表示负链。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容