16S测序分析(一)菌属丰度表获取

导读

Miseq 16S amplicon V3V4 PE300测序是目前菌群结构谱研究最为常用的测序手段。本文将以此类测序的下机数据为例展示“如何从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”的工作流程。该丰度表是做菌群研究最为基本的数据,要想发文章还必须做大量的统计分析。以后推出更多方法。

一、软件准备

Linux环境:

1. FastQC
用途:质检下机数据
软件地址:https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

2. Cutadapt
用途:切除测序引物
软件地址:https://cutadapt.readthedocs.io/en/stable/

3. QIIME2
序列拼接、质控、比对、注释
软件地址:https://qiime2.org/

Windows环境:

1. Filezilla
用途:下载Linux环境中的数据或上传数据到Linux环境
软件地址:https://filezilla-project.org/

2. Excel
用途:数据处理

3. QIIME2 view
用途查看QIIME2输出的以.qzv为后缀的文件
网页地址:https://view.qiime2.org/

二、数据准备

1. Miseq 16S amplicon V3V4测序下机数据
R1.fastq,R2.fastq

2. 测序引物
p1 -> CCTACGGGNGGCWGCAG
p2 -> GACTACHVGGGTATCTAATCC

3. 表型文件metadata.txt
准备存放样本信息的表型文件,以tab键为分隔符。可以先在Excel中做表,然后保存为tsv文件。
格式如下:

图片.png

4. Greengenes细菌16S全长序列数据库
下载地址:https://docs.qiime2.org/2019.1/data-resources/
下载得到gg_13_8_otus.tar.gz(最新版,大小为305M)后将其解压得到99_otus.fasta(序列)和99_otu_taxonomy.txt(分类)两个文件,文件获取如下:

图片.png

三、流程概览

图片.png

四、工作流程

  1. FastQC质检
1.1. 合并R1、R2

cat *R1.fastq > merge.R1.fastq
cat *R2.fastq > merge.R2.fastq

1.2. FastQC质检

可以使用-t:指定线程数和-o:指定输出位置

fastq -t 8 merge.R1.fastq
fastq -t 8 merge.R2.fastq

1.3. 使用Filezilla下载结果文件并打开,如下:

图片.png
  1. Cutadapt切引物
2.1. 检查引物的位置和序列

位置:5’端
序列:p1 -> CCTACGGGNGGCWGCAG; p2 -> GACTACHVGGGTATCTAATCC

图片.png
2.2. 切引物

cutadapt -g CCTACGGGNGGCWGCAG -G GACTACHVGGGTATCTAATCC -o *R1.fastq -p *R2.fastq *r1.fastq *r2.fastq --core=2
由下图可见99%以上的Reads都包含引物

图片.png
2.3.质检

Reads起始端质量明显提高,末端的低质量碱基可利用下面的DADA2来处理
图片.png
  1. QIIME2数据导入
3.1. 制作manifest.txt列表文件,存放每一个样本的信息,格式如下:

sample-id,absolute-filepath,direction
sample-1,/filepath/sample1_r1.fastq,forward
sample-1,/filepath/sample1_r2.fastq,reverse
sample-2,/filepath/sample2_r1.fastq,forward
sample-2,/filepath/sample2_r2.fastq,reverse
注意不能有空格、换行符、制表符等

3.2. 格式转换

qiime tools import \
  --type 'SampleData[PairedEndSequencesWithQuality]' \
  --input-path manifest.txt \
  --output-path manifest.qza \
  --source-format PairedEndFastqManifestPhred33

3.3. 可视化检查

qiime demux summarize \
  --i-data manifest.qza \
  --o-visualization manifest.qzv

manifest.qzv文件需要从Linux中下载后再拖拽到qiime2 view网页中才能打开。此处可以得到质检矢量图,通过放大观察可以清楚的判断碱基质量明显下降的位置,从而辅助确定下一步中的reads1_cutpoint和reads2_cutpoint。

图片.png
  1. 用DADA2进行切割、去嵌合体、拼接等
4.1. 使用10个线程运行DADA2

为保证碱基质量这里再次要对Reads进行切割。Reads起始端质量很高时N1 N2设为0即可;观察manifest.qzv确定reads1_cutpoint和reads2_cutpoint,这里我将其分别设为275和250。

qiime dada2 denoise-paired \
  --i-demultiplexed-seqs manifest.qza \
  --p-trim-left-f N1 \ 
  --p-trim-left-r N2 \
  --p-trunc-len-f reads1_cutpoint \
  --p-trunc-len-r reads2_cutpoint \
  --o-table table.qza \
  --o-representative-sequences rep-seqs.qza \
  --o-denoising-stats denoising-stats.qza \  
  --p-n-threads 10

此步骤会生成三个新文件:
denoising-stats.qza是质检统计,如下表;
table.qza是细菌特征丰度表;
rep-seqs.qza是细菌特征代表性序列

4.2. DADA2统计结果可视化

qiime metadata tabulate \
  --m-input-file denoising-stats.qza \
  --o-visualization denoising-stats.qzv

最后一列是Clean data,它将被用于下游分析。

图片.png
  1. 引物特异性菌群比对数据库
5.1. 转换格式

将99_otus.fasta(序列)和99_otu_taxonomy.txt(分类)两个文件的格式转换QIIME2能识别和利用的格式

qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path 99_otus.fasta \
  --output-path 99_otus.qza

qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path 99_otu_taxonomy.txt \
  --output-path 99-taxonomy.qza

5.2. 抽提V3V4模板序列

用测序引物序列从Greengenes数据库中的16S全长序列99_otus.qza中抽提出引物特异性的细菌参考序列,就会得到本研究特异性的参考序列

qiime feature-classifier extract-reads \
  --i-sequences 99_otus.qza \
  --p-f-primer CCTACGGGNGGCWGCAG \
  --p-r-primer GACTACHVGGGTATCTAATCC \
  --o-reads 99-v3v4-seqs.qza

5.3. 训练V3V4分类器

qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads 99-v3v4-seqs.qza \
  --i-reference-taxonomy 99-taxonomy.qza \
  --o-classifier gg-13-8-99-v3v4-classifier.qza

  1. 细菌分类学注释
6.1. 比对

把DADA2分析得到的细菌特征代表性序列rep-seqs.qza和训练好的分类器gg-13-8-99-v3v4-classifier.qza进行比对,获得具体的细菌分类信息taxonomy.qza

qiime feature-classifier classify-sklearn \
  --i-classifier gg-13-8-99-v3v4-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

6.2. 丰度统计

将细菌特征丰度表table.qza和细菌分类信息taxonomy.qza进行整合获得完整的细菌分类丰度表,包含界、门、纲、目、科、属、种多水平的细菌丰度信息

qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file metadata.tsv \
  --o-visualization taxa-bar-plots.qzv

  1. 数据处理
7.1. 获取属水平菌丰度表

QIIME2 view网页中打开taxa-bar-plots.qzv,下载level6的CSV文件,如下:

图片.png
7.2. 标准化菌属丰度表

把CSV文件导入到Excel中进行标准化,即每个菌属的原始丰度除以该菌所在样本的总菌属丰度得到标准相对菌属相对丰度
处理方法如下:

图片.png

以上就是我个人总结的“从Miseq测序数据中快速提取出可以用来统计分析的菌属相对丰度表”全部工作流程,如有问题可以留言交流,以后会继续推出“如何利用该菌属相对丰度表进行统计分析”的文章,如有兴趣可以关注。

相关阅读:
16S测序分析(一)菌属丰度表获取
16S测序分析(二)菌群多样性分析
16S测序分析(三)用LEfSe寻找组间差异细菌
16S测序分析(四)用MaAsLin寻找组间差异细菌
16S测序分析(五)用RandomForest寻找关键细菌
16S测序分析(六)用PICRUSt预测菌群KEGG代谢通路

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容