盘点宏转录组分析方法

导读

1. 宏转录组概念:

  • 宏转录组测序是对某一特定时期、特定环境样品中的全部微生物的RNA进行高通量测序,直接获得该环境中所有微生物转录组信息的一种测序技术的新应用。宏转录组中不仅包含有微生物的物种信息,还有微生物的基因表达信息。如果说宏基因组能告诉我们微生物群\color{blue}{“能做什么”},那么宏转录组则能告诉我们这些微生物\color{blue}{“想做什么”},这有助于挖掘微生物功能基因和探索微生物与环境、疾病、动植物等关系的机制。

2. 宏转录组分析

  • 从以G为单位的高通量测序数据中获取研究所需的微生物种类、基因、通路等信息是进行宏转录组研究必须经历的一步。现在网络上分析组学数据的工具五花八门。能否从众多组学工具中选择出适合分析宏转录组数据的软件,能否搭建一套完整、快速、高效、灵敏、高精确的宏转录组分析pipline,直接关乎到后期数据分析的进行。

  • 2018年发表在Briefings in Bioinformatics [PMID: 28481971] 上的一篇综述介绍了常见的四款宏转录组分析pipline:\color{blue}{Leimena-2013}\color{blue}{HUMAnN2}\color{blue}{MetaTrans}\color{blue}{SAMSA}。下面介绍一下这四款pipline中所采用的核心算法/工具、数据库和核心步骤。

一、Leimena-2013

1. 文章:
A comprehensive metatranscriptome analysis pipeline and its validation using human small intestine microbiota datasets.
BMC Genomics. 2013

2. 核心算法/工具:

  • SortMeRNA:去除16S,23S,18S,28S rRNAs序列的常用工具。

  • BLASTN:用于核酸序列比对的一个模块,速度慢于 MegaBlast,但是功能更强。

  • MegaBLAST:经典比对软件BlAST的子模块,速度快,能找出相似度比较高的序列,一般用于同一物种内部或者分歧不太远的物种之间。

  • KAAS:KEGG自动注释服务器。
    链接:http://www.genome.jp/tools/kaas/

3. 数据库:

  • SILVA:细菌、古菌、真菌等微生物分类数据库,包含maker序列和注释信息。

  • COG:Cluster of Orthologous Groups of Proteins,蛋白相邻类的聚簇数据库。

  • MetaHIT:人类肠道宏基因组数据库 [Nature 2010]。

  • 人类小肠宏基因组数据库 [ISME J 2012]。

  • KEGG:京都基因与基因组百科全书,包含生物代谢、通路等功能信息的数据库。

4. 核心步骤:

  1. 用SortMeRNA和默认的rRNA数据库去除16S,23S,18S,28S的rRNAs序列。
  2. 用BLASTN和SILVA、NCBI数据库去除剩下序列中的细菌、古菌、真核生物的tRNA/rRNA序列。
  3. 去除Illumina Phix control序列和adaptor序列。
  4. 用MegaBLAST 和BLASTN进行mRNA与NCBI数据库(含3979个细菌和古细菌的全基因组或基因组草图)的比对确定mRNA序列的物种发生起源(科/属水平)。
  5. 将至少50%比对到基因ORF的序列定义为“基因/编码序列”,少于50%的序列定义为“非编码/基因间序列”,然后用BLAST 、KEGG自动注释服务器KAAS、COG数据库、KEGG数据库进行编码序列的功能注释和代谢分析。
  6. 调整BLASTN的参数,用NCBI蛋白数据库、MetaHIT蛋白序列数据库、人类小肠宏基因组数据库、KEGG、COG进一步挖掘4)中“Unassigned mRNA序列”的功能。

二、HUMAnN2

1. 文章:
Species-level functional profiling of metagenomes and metatranscriptomes.
Nat Methods 2018

2. 核心算法/工具:

  • Bowtie2:是将测序reads与长参考序列比对工具 (适用于将长度大约为50到100或1000字符的reads与相对较长的基因组)。

  • MetaPhlAn2:可以基于宏基因组数据,获得微生物群体中种水平精度的组成,包括细菌、古菌、真核生物和病毒。如果有株水平基因组的物种,也可以追踪和研究。

  • MinPath:是一种使用蛋白质家族预测进行生物通路重建的节俭方法,为查询数据集实现更保守、更可靠的生物通路估计。

  • DIAMOND:一种新的高通量程序,可将DNA序列或蛋白质序列与NR等蛋白质参考数据库进行比对,速度可达BLAST的2万倍,具有很高的灵敏度。

3. 数据库:

  • UniRef:UniProt Reference Clusters(UniRef),是蛋白参考数据库。UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能收录更多数据,同时也保证没有冗余数据。

  • MetaCyc:是一个代谢通路数据库,包含来自3009个不同生物体的2722条通路。

  • ChocoPhlAn pangenome:泛基因组数据库,含细菌、古菌、真核生物、病毒的注释信息。

4. 核心步骤:

  1. 用KneadData、Bowtie2、Trimmomatic和hg38 mRNA数据进行序列过滤,去除低质量碱基、序列和宿主序列。
  2. 用MetaPhlAn2和ChocoPhlAn泛基因组数据库进行物种分类鉴定。
  3. 用MinPath、DIAMOND和UniRef、MetaCyc数据库进行基因家族、功能和通路的注释。

三、MetaTrans

1. 文章:
MetaTrans: an open-source pipeline for metatranscriptomics.
Sci Rep. 2016

2. 核心算法/工具:

  • Kraken:能利用基于k-mer的精确比对方法和庞大的微生物基因组参考数据库(>8500种微生物)超高速、高正确性和精确性地将微生物注释到属及更低的水平。

  • SortMeRNA:去除16S,23S,18S,28S rRNAs序列的常用工具。

  • UCLUST:能以USEARCH作为序列比对引擎进行序列聚类。

  • SOAP2:是SOAP(Short Oligonuclotide Analysis package)的一个主要成员,能进行高速短核酸序列比对。

  • FragGeneScan:是在短序列中找到基因的一种基因注释程序,也可用于在完整或非完整基因组中的预测原核生物的基因。

3. 数据库:

  • SILVA-115:SIVLA微生物分类注释数据库(2013年版)。

  • Greengenes-13.5:Greengenes微生物分类注释数据库(2013年版)。

  • Rfam-11:用来鉴定non-coding RNAs的数据库。

  • tRNA-all:用来鉴定tRNA数据库。

  • MetaHIT:包含1250人的,由EggNOG数据库注释好的的宏基因组数据库。

  • M5nr:包含MG-RAST服务器提供的、1590万个独特的蛋白质和580万个来自IMG、Genbank、InterPro、KEGG、PATRIC、Phantome)、RefSeq、SEED、UniProt的功能注释。。

4. 核心步骤:

  1. 用SortMeRNA和SILVA v11527、Rfam28、Genomic tRNA database数据库进行rRNA/tRNA清除。
  2. 用Fastq-Join将有overlap的双端序列merge成更长的序列。用FragGeneScan进行基因预测,丢弃非编码基因的序列,降低计算成本。
  3. 使用SOAP2和MetaHIT、M5nr数据库进行功能注释。
  4. 使用UCLUST对1)中舍弃的rRNA序列进行聚类,使用SOAP2、QIIME和Greengenes数据库进行微生物分类学分析。

四、SAMSA

1. 文章:
SAMSA: a comprehensive metatranscriptome analysis pipeline.
BMC Bioinformatics. 2016

2. 核心算法/工具:

  • Trimmomatic:去除测序数据中接头、引物、低质量碱基和序列的质控工具。

  • FLASH:一种快速、准确的能通过序列重叠区将双端测序得到的上、下游序列合并到一起以增加读长的软件。

  • MG-RAST:Metagenomic Rapid Annotations using Subsystems Technology物种分类和功能分析服务器 链接:http://www.mg-rast.org/

3. 数据库:

  • NCBI RefSeq:NCBI基因组数据库。

  • SEED Subsystems reference database:是能将FIGfam(蛋白质数据库)中定义的基因家族分成多个功能级别的一种基因分层方法。

4. 核心步骤:

  1. 使用Trimmomatic去除原始测序数据中的低质量碱基、序列和测序接头。
  2. 使用FLASH对齐(align)的功能将质控后的双端序列拼接成一条更长的序列(文章中提到约32-54%的双端序列能成功对齐)。
  3. 使用NCBI RefSeq和MG-RAST进行序列注释。MG-RAST包括几个步骤,包括通过SolexaQA进行初始序列质量控制检查,通过FragGeneScan进行基因注释,通过QIIME的uclust进行90%一致性的氨基酸序列聚类,然后在每个蛋白质序列聚类上使用sBLAT找到最佳匹配的参考信息。

\color{green}{😀😀原创文章,码字不易,转载请注明出处😀😀}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容

  • 随着测序成本的不断下降,转录组测序分析已然成为生物学及医学研究不可或缺的技术手段。 但是,对于大多数初学者来说,会...
    组学大讲堂阅读 25,026评论 0 85
  • 1、什么是转录组测序? 转录组广义上指在某一生理条件下,细胞内所有转录组产物的集合,包括:mRNA、ncRNA、r...
    张志勇_zzy阅读 5,993评论 2 41
  • 转载 :https://www.plob.org/article/3856.html 生物信息数据库与查询 近年来...
    oddxix阅读 10,295评论 0 37
  • 2016-pediy-ctf-04 发现主程序很简单,主要过程在窗口回调 通过GetDlgItemText得到输入...
    ZERO_47ce阅读 663评论 0 0
  • 我叫辛燕华,一个远嫁的女人,现在后悔了。 我已买好春节往返娘家的动车票,只有我和儿子回去。 一个月前,我还犹豫要不...
    辛燕华阅读 338评论 0 0