02 生成单细胞测序表达矩阵

本文来源于哈佛大学的单细胞课程系列，在此做一些学习，不当之处请指正。

scRNA-seq/02_SC_generation_of_count_matrix.md at master · hbctraining/scRNA-seq · GitHub

https://github.com/hbctraining/scRNA-seq/blob/master/lessons/02_SC_generation_of_count_matrix.md

单细胞RNA序列数据-计数矩阵的原始数据

根据所用文库制备方法的不同，RNA序列（也称为读段或标签）将从（10X基因组学，CEL-seq2，Drop-seq）的3'端（或5'端）获得转录本片段或全长转录本（Smart-seq）。

image

图片来源：**** Papalexi E和Satija R.单细胞RNA测序探索免疫细胞异质性，《自然评论免疫学》（Nature Reviews Immunology）2018（https://doi.org/10.1038/nri.2017.76）

方法的选择涉及感兴趣的生物学问题。下面列出了这些方法的优点：

3'（或5'）端测序：
通过使用独特的分子标识符进行更准确的定量，从而将生物学复制品与扩增复制品（PCR）复制品区分开
测序的细胞数量更多，可以更好地鉴定细胞类型群体
单位成本便宜
10,000个以上的细胞可获得最佳结果
全长测序：
检测表达的同工型水平差异
鉴定表达中的等位基因特异性差异
更深层次的测序，数量更少的细胞
最适合细胞数少的样品

3'末端测序需要进行与全长相同的许多分析步骤，但是3'方案越来越流行，并且在分析中还包含一些其他步骤。因此，我们的材料将详细介绍这3'方案的数据分析，重点是基于液滴的方法（inDrops，Drop-seq，10X Genomics）。

个人备注：5'末端测序可以同时检测VDJ, 分析BCR/TCR的变化，对于免疫细胞分化具有重要帮助。

3'末端读取（包括所有基于液滴的方法）

对于scRNA-seq数据的分析，有助于了解每个读数中都包含哪些信息，以及我们如何在整个分析过程中使用它。

对于3'端测序方法，源自同一转录本的不同分子的读段仅会源自转录本的3'端，因此具有相同序列的可能性很高。但是，文库制备过程中的PCR步骤也可能会产生重复读物。为了确定读数是生物学的还是技术的重复，这些方法使用唯一的分子标识符或UMI。

具有映射到相同转录本的不同UMI的读段来自不同的分子，并且是生物学上的重复-每个读段均应计数。
具有相同UMI的读数来自同一分子，并且是技术重复品-UMI应该合并起来才能计为一次读数。
在下图中，应合并ACTB的读取并将其计为单个读取，而应将ARL1的读取各计数。

image

图片来源：****由Macosko EZ等人修改。使用纳升微滴对细胞进行高度并行的全基因组表达谱分析，Cell 2015（https://doi.org/10.1016/j.cell.2015.05.002）

因此，我们知道我们需要跟踪UMI，但是还需要什么其他信息来正确量化样本中每个细胞中每个基因的表达？无论采用液滴法，在细胞水平进行正确定量都需要以下条件：

样本索引：确定读取来自哪个样本
库准备过程中添加-需要记录
细胞条形码：确定读取来自哪个细胞
每种文库制备方法都有在文库制备过程中使用的细胞条形码库存
唯一分子识别符（UMI）：确定读取的是哪个转录物分子
UMI将用于合并PCR重复项
读取1序列：读取1序列
读取2序列：读取2序列

例如，当使用inDrops v3库准备方法时，以下内容表示如何通过四次读取来获取所有信息：

image

图片来源：**** HMS单细胞测序核心主管Sarah Boswell

R1（61 bp读1）：引物序列（红色顶部箭头）

R2（8 bp索引读取1（i7））：细胞条形码-读取细胞的来源（紫色顶部箭头）
R3（8 bp索引读取2（i5））：样本/库索引-所读取的样本源自（红色底部箭头）
R4（14 bp读取2）：读取2和剩余的细胞条形码和UMI-读取的转录本源自（紫色底部箭头）

对于不同的基于液滴的scRNA-seq方法，scRNA-seq的分析工作流程相似，但是UMI，细胞ID和样品索引的解析在它们之间将有所不同。例如，以下是10X序列读取的示意图，其中索引，UMI和条形码的放置位置不同：

image

图片来源：**** HMS单细胞测序核心主管Sarah Boswell

单细胞RNA-seq工作流程

scRNA-seq方法将确定如何从测序读数中解析条形码和UMI。因此，尽管一些特定步骤会稍有不同，但无论采用哪种方法，总体工作流程通常都将遵循相同的步骤。常规工作流程如下所示：

image

图片来源：****医学博士Luecken和FJ Theis。单细胞RNA序列分析中的当前最佳实践：教程，Mol Syst Biol 2019（doi：https* : //doi.org/10.15252/msb.20188746）*

工作流程的步骤是：

计数矩阵的生成（特定于方法的步骤）：格式化读取，对样本进行校正，映射和量化
原始计数的质量控制：劣质细胞的过滤
筛选细胞聚类：基于转录活性的相似性对细胞进行聚类（细胞类型=不同聚类）
标记鉴定：鉴定每个簇的基因标记
可选的下游步骤

无论进行何种分析，基于每种条件的单个样本得出的种群结论都是不可信的。仍然需要生物替代品！也就是说，如果您要得出与总体相对应的结论，而不仅仅是单个样本。

计数矩阵的生成

我们将从讨论此工作流程的第一部分开始，该部分将根据原始测序数据生成计数矩阵。我们将重点介绍基于液滴的方法（如inDrops，10X Genomics和Drop-seq）使用的3'末端测序。

image

测序后，测序设备将以BCL或FASTQ格式输出原始测序数据，或生成计数矩阵。如果读取的是BCL格式，则我们将需要转换为FASTQ格式。有一个有用的命令行工具bcl2fastq，可以轻松地执行此转换。

注意：在工作流程的此步骤中，我们不进行多路分解。您可能已对6个样本进行了测序，但所有样本的读数可能全部存在于同一BCL或FASTQ文件中。

对于许多scRNA-seq方法，从原始测序数据中生成计数矩阵都将经历相似的步骤。

image

umis和zUMIs是命令行工具，用于估计已对转录本的3'端进行了测序scRNA-seq数据的表达。两种工具都合并了UMI的合并，以校正放大偏差。此过程中的步骤包括：

格式化读取并过滤的细胞条形码
校正样本
映射/伪映射到转录组
UMI和读数量化

如果使用10X Genomics库制备方法，则Cell Ranger流程将用于上述所有步骤。

1.格式化读取并过滤嘈杂的细胞条形码

然后，FASTQ文件可用于解析细胞格条形码，UMI和样本条形码。对于基于液滴的方法，由于以下原因，许多细胞条形码将匹配少量读取（<1000个读取）：

垂死细胞中游离浮动RNA的包封
表达少量基因的简单细胞（RBC等）
由于某种原因而失败的细胞格

在读取比对之前，需要从序列数据中过滤掉这些多余的条形码。为了进行这种过滤，提取并保存每个细胞的“细胞条形码”和“分子条形码”。例如，如果使用“ umis”工具，则信息将以以下格式添加到每次读取的标题行中：

<pre style="margin: 0px; padding: 0px; max-width: 100%; overflow-wrap: break-word !important; box-sizing: border-box !important; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN + @@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#</pre>

文库制备方法中使用的已知细胞条形码应该是已知的，未知的条形码将被丢弃，同时允许与已知细胞条形码的可接受的不匹配数。

2.校正样本读取

如果测序多于一个样品，则该过程的下一步是对样品进行多路分解。这是该过程的第一步，不是由“ umis”工具处理，而是由“ zUMIs”完成。我们将需要解析读取以确定与每个细胞相关的样本条形码。

3.映射/伪映射到cDNA

为了确定读段源自哪个基因，使用传统的（STAR）或轻量级方法（Kallisto / RapMap）对读段进行比对。

4.合并的UMI和读数的量化

重复的UMI被合并，并且使用Kallisto或featureCounts之类的工具仅量化唯一的UMI。产生的输出是按基因矩阵计数的细胞：

image

图片来源：****摘自Lafzi等。教程：《单细胞RNA测序研究实验设计指南》，《自然协议》 2018（https://doi.org/10.1038/s41596-018-0073-y）

矩阵中的每个值代表源自相应基因的细胞中的读取次数。使用计数矩阵，我们可以探索和过滤数据，仅保留更高质量的细胞。

本课程由哈佛大学生物信息学核心（HBC）的教学团队成员开发。这些是根据知识共享署名许可（CC BY 4.0）的条款分发的开放获取材料，只要注明原始作者和出处，就可以在任何介质中进行不受限制的使用，分发和复制。

02 生成单细胞测序表达矩阵

单细胞RNA序列数据-计数矩阵的原始数据

3'末端读取（包括所有基于液滴的方法）

单细胞RNA-seq工作流程

计数矩阵的生成

1.格式化读取并过滤嘈杂的细胞条形码

2.校正样本读取

3.映射/伪映射到cDNA

4.合并的UMI和读数的量化

推荐阅读更多精彩内容