RNA-seq 详细教程:分析流程介绍(1)

学习目标

了解从 RNA 提取到获取基因表达矩阵, 既RNA-seq 分析的整个流程。

1. workflow

进行差异表达基因分析的前提是,获取代表基因表达水平的矩阵。因此在进行分析前,必须知道基因表达矩阵是如何产生的。

在本教程中,将会简要的介绍从原始测序读数到基因表达计数矩阵过程中,所采取的不同步骤。下图是整个分析过程的流程图。

RNA-seq workflow

2. RNA提取与文库制备

在对 RNA 进行测序前,必须从细胞环境中提取和分离出 RNA 制备成 cDNA 文库。下面将介绍涉及的许多步骤,其中还包括了质量检查,以确保获取高质量的 RNA

2.1. RNA富集

一旦使用 DNAse 处理(去除 DNA 序列)后,样本就会经历 mRNA 的富集(polyA 富集)或 rRNA 的去除。

通常,核糖体 RNA代表细胞中存在的大部分 RNA,而 mRNA (信使RNA)代表一小部分,在人类中约为 2%。因此,如果我们想要研究蛋白编码基因,就必须富集 mRNA 或 去除 rRNA。对于差异基因表达分析,最好对 Poly(A)+ 进行富集,除非目标是获取有关长链非编码 RNA 的信息,在这种情况下建议去除核糖体 RNA

  • RNA 质量检查

在开始 cDNA 文库制备之前,必须检查提取的 RNA 的完整性。传统上,通过查看核糖体 RNA 条带,通过凝胶电泳评估 RNA 的完整性;但这种方法既费时又不精确。已有的生物分析仪系统可以快速评估 RNA 完整性并计算 RNA 完整性值 (RIN),这有助于 RNA 质量的解释和重复。从本质上讲,RIN 提供了一种方法,可以以标准化的方式相互比较来自不同样本的 RNA 质量。

2.2. 碎片化

将剩余的 RNA 分子片段化(打断)。这是通过化学、酶促(例如 RNA 酶)或物理过程(例如机械剪切)完成的。然后对这些片段进行大小选择,仅保留 Illumina 测序仪最佳处理范围内的那些片段,即 150 到 300 bp 之间。

  • 片段质量检查

在进行片段选择后,应评估片段大小分布,确保它的分布是单峰的。

2.3. 反转录

可以通过创建 strand library 来保存有关片段源自哪条链的信息。最常用的方法是在第二条 cDNA 链的合成过程中加入 deoxy-UTP。一旦生成双链 cDNA 片段,序列接头就会连接到末端。(也可以在此步后进行片段大小选择)

2.4. PCR扩增

如果起始材料的量很低或要将 cDNA 分子的数量增加到足以进行测序的量,通常会对文库进行 PCR 扩增。尽可能少的进行扩增循环以,避免 PCR 扩展产生的技术影响。

[Zeng and Mortavi, 2012](https://pubmed.ncbi.nlm.nih.gov/22910383/)

3. 测序

cDNA 文库的测序将生成 reads (读数)。读数对应于文库中每个 cDNA 片段末端的核苷酸序列。可以选择对 cDNA 片段的单端(单端读取)或片段的两端(双端读取)进行测序。

Sequencing
  • SE :单端数据 > 只有 Read1
  • PE:双端数据 > Read1 + Read2
    • 结果可以是2个单独的 Fastq 文件,或者一个文件(包含两者)。

通常,单端测序就足够了,除非预期读数将匹配基因组上的多个位置(例如具有许多旁系同源基因的生物)、正在执行组装或用于可变剪切分析。请注意,双端通常要贵 2 倍。

3.1. 边合成边测序

Illumina 测序技术采用边合成边测序的方法。要更深入地探索边合成边测序,请观看Youtube channel

Sequencing-by-synthesis

下面对此步骤进行了简要说明:

  • Cluster growth(成簇扩增)

cDNA 文库中的 DNA 片段变性并与流通池杂交。然后每个片段被克隆扩增,形成一个双链 DNA 簇。此步骤以确保测序信号足够强,能明确检测每个片段的每个碱基。

Number of clusters ~= Number of reads

  • Sequencing(测序)

片段末端的测序是基于带有可逆终止子元素的荧光团标记的 dNTP。在每个测序循环中,一个碱基被整合到每个簇中并激发荧光。

  • Image acquisition(图像采集)

每个 dNTP 都有一个独特的信号,由相机捕获。

  • Base calling

然后,Base calling 程序将通过评估在许多测序周期中捕获的图像,为每个片段生成碱基序列,即读数。还将记录它的质量信息。

Number of sequencing cycles = Length of reads

4. 质控

从测序仪获得的原始读数存储为 FASTQ 文件。FASTQ 文件格式是下一代测序技术生成的序列读取的文件格式。

每个 FASTQ 文件都是一个文本文件,表示样本的序列读数。每个读取由 4 行表示,如下所示:

@HWI-ST330:304:H045HADXX:1:1101:1111:61397
CACTTGTAAGGGCAGGCCCCCTTCACCCTCCCGCTCCTGGGGGANNNNNNNNNNANNNCGAGGCCCTGGGGTAGAGGGNNNNNNNNNNNNNNGATCTTGG
+
@?@DDDDDDHHH?GH:?FCBGGB@C?DBEGIIIIAEF;FCGGI#########################################################
意义
1 始终以“@”开头,是有关读取的信息
2 实际的DNA序列
3 始终以“+”开头,有时与第 1 行中的信息相同
4 有一串代表质量分数的字符;必须具有与第 2 行相同的字符长度

FastQC 是常用的软件,它提供了一种对原始序列数据进行质量控制检查的简单方法。

主要功能包括:

  1. 提供快速概览,告诉您哪些区域可能存在问题
  2. 汇总图形和表格以快速评估您的数据
  3. 将结果导出为基于 HTML 的报告

5. 定量

一旦我们探索了原始读数的质量,就可以继续在转录水平上量化表达。此步骤的目标是确定每个读数来自哪个转录本以及与每个转录本相关的读数总数。

已发现对于分析中的此步骤最准确的工具称为轻量级比对工具,其中包括:

以上工具的工作方式都略有不同。然而,共同点是它们避免了读取的碱基到碱基基因组比对(base-to-base genomic alignment of the reads)。基因组比对是由旧的比对工具(如 STARHISAT2)执行的一个步骤。与这些工具相比,轻量级比对工具不仅可以更快地提供量化估计(通常快 20 倍以上),而且还有了准确性的提高。

本教程将使用从 Salmon 获得的表达估计值(通常称为“伪计数”)作为差异基因表达分析的起点。

Salmon

6. 比对后质控

如上所述,差异基因表达分析将使用 Salmon 生成的转录本/基因伪计数。然而,要对测序数据进行一些基本的质量检查,将读数与整个基因组进行比对非常重要。STARHiSAT2 都能够执行此步骤并生成可用于 QC 的 BAM 文件。

Qualimap 工具在它们映射到的基因组区域的上下文中探索对齐读取的特征,从而提供数据质量的整体视图(作为 HTML 文件)。 Qualimap 评估的各种质量指标包括:

  • DNArRNA 污染
  • 5’-3’ 偏差
  • 覆盖偏差

7. 质控整合

在整个工作流程中,我们对数据执行了各种质量检查步骤。您需要对数据集中的每个样本执行此操作,确保这些指标在给定实验的样本中保持一致。应标记离群样本以供进一步调查或移除。

手动跟踪这些指标并浏览每个样本的多个 HTML 报告(FastQCQualimap)和日志文件(SalmonSTAR)既乏味又容易出错。MultiQC ,可聚合来自多个工具的结果并生成带有图表的单个 HTML 报告,以可视化和比较样品之间的各种 QC 指标。如有必要,对 QC指标的评估可能会导致在继续下一步之前移除样本。


一旦对所有样本执行了 QC,就可以开始使用 DESeq2 进行差异基因表达分析。

count_data

欢迎Star -> 学习目录

国内链接 -> 学习目录


本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容