Cufflinks的使用详解之--cuffdiff

Cufflinks下主要包含cufflinks,cuffmerge,cuffcompare和cuffdiff等几支主要的程序。主要用于转录组的组装和差异表达分析。

The Cufflinks RNA-Seq workflow

一、Cuffdiff简介

用于寻找转录子表达的显著性差异。

二、Cuffdiff使用方法

(默认Linux操作,此处省略安装步骤)

cuffdiff主要是发现转录本表达,剪接,启动子使用的明显变化。

Usage:   cuffdiff [options] <transcripts.gtf> <sample1_hits.sam> <sample2_hits.sam> [... sampleN_hits.sam]
   Supply replicate SAMs as comma separated lists for each condition: sample1_rep1.sam,sample1_rep2.sam,...sample1_repM.sam

其中transcripts.gtf是由cufflinks,cuffcompare,cuffmerge所生成的文件,或是由其它程序生成的。一个样本有多个replicate,用逗号隔开。sample多于一个时,cuffdiff将比较samples间的基因表达的差异性。

cuffdiff接受bam/sam或cuffquant的CXB文件,同时也可以接受bam与sam的混合文件,不能接受bam/sam和CXB的混合文件。

三、Cuffdiff参数说明

General Options:
  -o/--output-dir              write all output files to this directory              [ default:     ./ ]    #输出的文件夹目录
  -L/--labels                  comma-separated list of condition labels    #给每个sample一个样品名或者一个环境条件一个lable
  --FDR                        False discovery rate used in testing                  [ default:   0.05 ]    #允许的false discovery rate
  -M/--mask-file               ignore all alignment within transcripts in this file  [ default:   NULL ]    #提供GFF文件。Cufflinks将忽略比对到该GTF文件的transcripts中的reads。该文件中常常是rRNA的注释,也可以包含线立体和其它希望忽略的transcripts的注释。将这些不需要的RNA去除后,对计算mRNA的表达量是有利的。
  -C/--contrast-file           Perform the constrasts specified in this file         [ default:   NULL ]    #比对指定文件
  -b/--frag-bias-correct       use bias correction - reference fasta required        [ default:   NULL ]    #提供一个fasta文件来指导Cufflinks运行新的bias detection and correction algorithm。这样能明显提高转录子丰度计算的精确性。
  -u/--multi-read-correct      use 'rescue method' for multi-reads                   [ default:  FALSE ]    #让Cufflinks来做initial estimation步骤,从而更精确衡量比对到genome多个位点的reads。
  -p/--num-threads             number of threads used during quantification          [ default:      1 ]    #使用的CPU线程数
  --no-diff                    Don't generate differential analysis files            [ default:  FALSE ]    #不需要生成差异分析文件
  --no-js-tests                Don't perform isoform switching tests                 [ default:  FALSE ]    #不需要进行isoform转换测试
  -T/--time-series             treat samples as a time-series                        [ default:  FALSE ]    #让Cuffdiff来按样品顺序来比对样品,而不是对所有的samples都进行两两比对。即第二个SAM和第一个SAM比;第三个SAM和第二个SAM比;第四个SAM和第三个SAM比...
  --library-type               Library prep used for input reads                     [ default:  below ]    #处理的reads具有链特异性。比对结果中将会有个XS标签。一般Illumina数据的library-type为 fr-unstranded。
  --dispersion-method          Method used to estimate dispersion models             [ default:  below ]    #用于估计分散模型的方法
  --library-norm-method        Method used to normalize library sizes                [ default:  below ]    #用于标准化库大小的方法

四、Cuffdiff输出

1. FPKM tracking files

cuffdiff计算每个样本中的转录本,初始转录本和基因的FPKM。其中,基因和初始转录本的FPKM的计算是在每个转录本group和基因group中的转录本的FPKM的求和。

1|isoforms.fpkm_tracking             Transcript FPKMs
2|genes.fpkm_tracking                Gene FPKMs. Tracks the summed FPKM of transcripts sharing each gene_id
3|cds.fpkm_tracking                  Coding sequence FPKMs. Tracks the summed FPKM of transcripts sharing each p_id, independent of tss_id
4|tss_groups.fpkm_tracking           Primary transcript FPKMs. Tracks the summed FPKM of transcripts sharing each tss_id

文件格式:

1|tracking_id class_code  nearest_ref_id  gene_id gene_short_name tss_id  locus   length  coverage    P1_FPKM P1_conf_lo  P1_conf_hi  P1_status   P2_FPKM P2_conf_lo  P2_conf_hi  P2_status   P3_FPKM P3_conf_lo  P3_conf_hi  P3_status
2|ENST00000000233 -   -   ENSG00000004059 ARF5    -   7:127220671-127242198   1103    -   58.3768 0   139.888 OK  47.3478 0   113.046 OK  78.9705 0   184.419 OK

注:P1、P2、P3为样本名

2. Count tracking files

评估每个样本中来自每个 transcript, primary transcript, and gene的fragment数目。其中primary transcript, and gene的fragment数目是每个primary transcript group或gene group中trancript的数目之和。

1|isoforms.count_tracking             Transcript counts
2|genes.count_tracking                Gene counts. Tracks the summed counts of transcripts sharing each gene_id
3|cds.count_tracking                  Coding sequence counts. Tracks the summed counts of transcripts sharing each p_id, independent of tss_id
4|tss_groups.count_tracking           Primary transcript counts. Tracks the summed counts of transcripts sharing each tss_id

文件格式:

1|tracking_id P1_count    P1_count_variance   P1_count_uncertainty_var    P1_count_dispersion_var P1_status   P2_count    P2_count_variance   P2_count_uncertainty_var    P2_count_dispersion_var P2_status   P3_count    P3_count_variance   P3_count_uncertainty_var    P3_count_dispersion_var P3_status
2|ENST00000000233 1226.79 733396  0   591186  OK  992.56  474498  0   376391  OK  1661.82 1.22994e+06 0   1.22994e+06 OK
3. Read group tracking files

计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目。

1|isoforms.read_group_tracking      Transcript read group tracking
2|genes.read_group_tracking         Gene read group tracking. Tracks the summed expression and counts of transcripts sharing each gene_id in each replicate
3|cds.read_group_tracking           Coding sequence FPKMs. Tracks the summed expression and counts of transcripts sharing each p_id, independent of tss_id in each replicate
4|tss_groups.read_group_tracking    Primary transcript FPKMs. Tracks the summed expression and counts of transcripts sharing each tss_id in each replicate

文件格式:

1|tracking_id condition   replicate   raw_frags   internal_scaled_frags   external_scaled_frags   FPKM    effective_length    status   
2|ENST00000000233 MofRCC  1   1307.38 1182.81 1182.81 56.4898 -   OK
4. Differential expression test files

对于splicing transcript,primary transcripts, genes, and coding sequences.样本之间的表达差异检验。对于每一对样本x和y,都会有以下四个文件:

1|isoform_exp.diff                  Transcript differential FPKM.
2|gene_exp.diff                     Gene differential FPKM. Tests difference sin the summed FPKM of transcripts sharing each gene_id
3|tss_group_exp.diff                Primary transcript differential FPKM. Tests differences in the summed FPKM of transcripts sharing each tss_id
4|cds_exp.diff                      Coding sequence differential FPKM. Tests differences in the summed FPKM of transcripts sharing each p_id independent of tss_id

文件格式:

1|test_id gene_id gene    locus   sample_1    sample_2    status  value_1 value_2 log2(fold_change)   test_stat   p_value q_value significant
2|ENST00000000233 ENSG00000004059 ARF5    7:127220671-127242198   MofRCC  NofRCC  OK  58.3768 47.3478 -0.302097   -0.212748   0.7584  0.992833    no
5. Differential splicing tests – splicing.diff

对于每个primary transcript,鉴定的不同的isoform的差异性。只有2个或2个以上的isoforms的primary transcript存在。
文件格式:

1|test_id gene_id gene    locus   sample_1    sample_2    status  value_1 value_2 sqrt(JS)    test_stat   p_value q_value significant
6. Differential coding output – cds.diff

对于每个基因,它的cds的鉴定。样本间的输出cds的差异性。只有2个或2个以上的cds(multi-protein genes)列举在文件中。
文件格式:

1|test_id gene_id gene    locus   sample_1    sample_2    status  value_1 value_2 sqrt(JS)    test_stat   p_value q_value significant
7. Differential promoter use – promoters.diff

样本间启动子使用的差异性。只有表达2个或2个以上isoform的基因列举在这里。
文件格式:

1|test_id gene_id gene    locus   sample_1    sample_2    status  value_1 value_2 sqrt(JS)    test_stat   p_value q_value significant
8. Read group info – read_groups.info

每个repulate,在进行定量分析时,cuffdiff的关键属性会列出。
文件格式:

1|file    condition   replicate_num   total_mass  norm_mass   internal_scale  external_scale
2|/PROJ/*/Quantification/P1/abundances.cxb    MofRCC  0   2.8904e+07  2.44127e+07 1.20839 1
9. Run info – run.info

运行信息。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,050评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,538评论 1 306
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,673评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,622评论 0 218
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,047评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,974评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,129评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,893评论 0 209
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,654评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,828评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,297评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,619评论 3 262
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,326评论 3 243
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,176评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,975评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,118评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,909评论 2 278