UMI-tools

image

首先来看一下这款软件的功能概况:

Step Inputs Output
Find Cell barcode whitelist Read 1 fastq whitelist.txt
Extract CB/UMIs and filter CBs R1 + R2 fastqs + whitelist.txt extracted fastqs
Map reads extracted fastqs BAM
Assign reads to genes BAM + transcriptome GTF BAM
Count unique reads per genes per cell BAM Counts.txt

软件安装有以下三种方式:

#第一种
$ conda install -c bioconda -c conda-forge umi_tools

#第二种
$ pip install umi_tools

#第三种
$ unzip 1.0.0.zip
$ cd UMI-tools-1.0.0
$ python setup.py install --user

具体使用步骤:

1、提取cell barcode白名单

whitelist 命令会从原始数据种提取去可能的cell barcode。通常情况下,10X的barcode长度为16nt,umi长度为12nt;Drop-seq的barcode长度为12nt,umi长度为8nt。示例代码如下:

#10X
umi_tools whitelist --stdin hgmm_100_R1.fastq.gz \  
                    --bc-pattern=CCCCCCCCCCCCCCCCNNNNNNNNNNNN \ 
                    --set-cell-number=100 \    
                    --log2stderr > whitelist.txt

#BD
umi_tools whitelist --stdin ${fastq} \
        --extract-method=regex \
        --bc-pattern="(?P<cell_1>.{9})(?P<discard_1>.{12})(?P<cell_2>.{9})(?P<discard_2>.{13})(?P<cell_3>.{9})(?P<umi_1>.{8})(?<plotT>TTTTTTTT){s<=2}.*" \
        --expect-cells=10000  --plot-prefix=true2 --log2stderr --subset-reads=100000000 \
        --knee-method=density --allow-threshold-error > whitelist.txt

常用参数解释
--stdin:指定输入文件或者标准输入。
--plot-prefix:指定QC统计图的前缀,可用于判断细胞数阈值设置是否合理。
--bc-pattern:指定cell barcode和umi的位置,默认情况下,他们位于序列的5'端,否则可用--3prime参数改变。cell barcode用同等数量的字符"C"表示;umi用同等数量的字符"N"表示。
--set-cell-number:设置检测到的cell barcode数量,若事先知道数量可设定,否则省略软件会自动判断(结合QC图判读阈值是否合理,若不合理可人为设定阈值重新分析)。
--expect-cells=200:设置检测到的cell barcode数据上限,该值是根据捕获效率预估得到(一般10X捕获效率不低于10%),结合QC图判断阈值是否合理,若不合理可人为设定阈值重新分析。
--stdout/-S:指定输出barcode结果到文件,log信息到还是标准输出。
--stdlog/-L:指定log信息到文件,barcode结果还是到标准输出。
--log2stderr:指定log信息到标准错误输出,barcode结果还是到标准输出。
-v 0:关闭log信息的输出。

结果文件解释:
whitelist生成的结果文件包含四列:1、可接受的cell barcode;2、与可接受的barcode距离相差1的barcode;3、第一列barcode的umi数;4、第2列barcode的umi数

结果文件格式如下:

AAAGATGAGAAACGAG AAAAATGAGAAACGAG,AAACATGAGAAACGAG,... 53122 4,6,...
AAAGCAAGTACCTACA AAAACAAGTACCTACA,AAACCAAGTACCTACA,... 36255 2,3,...
AACACGTCAGCGTAAG AAAACGTCAGCGTAAG,AACAAGTCAGCGTAAG,... 53133 4,11,...

2、提取barcode和过滤reads

extract命令会从fastq文件中提取包含可接受barcode的reads,默认情况下extract命令会忽略umi的reads质量情况而不做处理。示例代码如下:

umi_tools extract --bc-pattern=CCCCCCCCCCCCCCCCNNNNNNNNNN \
                  --stdin hgmm_100_R1.fastq.gz \
                  --stdout hgmm_100_R1_extracted.fastq.gz \
                  --read2-in hgmm_100_R2.fastq.gz \
                  --read2-out=hgmm_100_R2_extracted.fastq.gz \
                  --filter-cell-barcode \
                  --whitelist=whitelist.txt

常用参数解释:
--bc-pattern:指定cell barcode和umi的位置,同whilelist。
--stdin:指定输入文件或者标准输入,同whilelist。
--stdout:指定read1的输出文件。
--read2-in:指定read2的输入文件,即基因表达的原始reads文件。
--read2-out:指定read2的输出文件。
--read2-stdout:设置read2的输出到标准输出,同时不会生成提取后read1文件。
--filter-cell-barcode:指定只提取包含可接受barcoded的reads。
--error-correct-cell:指定提取包含与可接受barcode汉明距离相差1的barcode的reads。
--whitelist:barcode白名单文件。
--quality-filter-threshold=[FILTER]:设定通过阈值来过滤umi的read,低于阈值的umi会被丢弃。
--quality-filter-mask=[FILTER]:设置一个阈值来把umi reads中低于阈值的碱基替换为"N"。

3、比对
使用STAR软件来将reads比对到参考基因组。示例代码如下:

$ STAR --runThreadN 4 \
       --genomeDir hg38_noalt_junc85_99.dir \
       --readFilesIn hgmm_100_R2_extracted.fastq.gz \
       --readFilesCommand zcat \
       --outFilterMultimapNmax 1 \
       --outSAMtype BAM SortedByCoordinate

4、比对到基因
使用软件featureCounts确定每一条read比对到基因的位置,会生成一个新的包含每条read回帖到基因位置的bam文件,该软件来自于Subread软件包,下载时应选择版本大于1.5.3的,subread链接:https://sourceforge.net/projects/subread/files/subread-2.0.1/。示例代码如下:

$ featureCounts -a geneset.gtf -o gene_assigned -R BAM Aligned.sortedByCoord.out.bam -T 4

featureCounts生成的bam文件没有排序,需要用samtools排序并建索引方便后续使用。示例代码如下:

$ samtools sort Aligned.sortedByCoord.out.bam.featureCounts.bam -o assigned_sorted.bam
$ samtools index assigned_sorted.bam

5、分子计数
count命令来完成给每个细胞中的每个基因计数原始分子数。示例代码如下:

$ umi_tools count --per-gene --gene-tag=XT --assigned-status-tag=XS --per-cell -I assigned_sorted.bam -S counts.tsv.gz

常用参数解释:
--per-gene:指定给每个基因统计umi数。
--gene-tag=XT:指定基因标记。
--assigned-status-tag=XS:指定基因标记 。
--per-cell:指定给每个细胞统计umi数。
--skip-tags-regex:指定跳过的标记,默认值为^[__|Unassigned]。
--wide-format-cell-counts:设置输出结果的格式为宽矩阵,即行为基因,列为细胞。

默认结果格式如下:

$ zcat counts.tsv.gz | head
gene cell count
ENSG00000000003 AAAGATGAGAAACGAG 3
ENSG00000000003 AACTCTTGTTCTGAAC 4
ENSG00000000003 ACACCGGGTACGACCC 2
ENSG00000000003 ACACTGAGTCGGGTCT 5
ENSG00000000003 ACTATCTCAAGGTGTG 2

最后

官网链接:https://umi-tools.readthedocs.io/en/latest/index.html

转载来自:
作者:生信店小二
链接:https://www.jianshu.com/p/d4d7d0fab004
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容