每周文献-190330-DTU分析及转录组de novo拼接解析等

1字数 1377阅读 233

文献题目 Relative Abundance of Transcripts (RATs): Identifying differential isoform abundance from RNA-seq

DOI(url): https://doi.org/10.12688/f1000research.17916.1

发表日期:24 Feb 2019

关键点

差异表达中比较少见的一种方式

参考意义

在 F1000Research 发表的这篇文章介绍了一个利用 alignment-free RNA-seq quantifications 结果进行差异分析的工具,主要是用来对转录本进行差异定量分析。在日常的分析中我们进行差异分析最常见的是对差异基因进行定量分析,这里没有考虑到每个基因内部转录本的情况。

在这篇文章中提到了一个三种差异分析的方法,分别是:

  • differential gene expression (DGE)
  • differential transcript expression (DTE)
  • differential transcript usage (DTU)

根据需求的不同,这三种方法会分析出非常不同的结果。在DTU中,即便是两个表达总量没有差异的基因其也可能发生isoform switching,及dominant isoform的改变。而文章中作者发表的R包即可进行DTU的分析,其输入数据可以是 Kallisto 或者 Salmon 的定量结果。

R包地址:https://github.com/bartongroup/Rats

相关内容

考察一个基因内不同转录本在不同情况下的表达丰度,这个需求在我的实际分析中还没有用到。不过把转录本定量的结果转为基因定量的结果,使用 R 包 tximport

文献题目 Error, noise and bias in de novo transcriptome assemblies

DOI(url): https://doi.org/10.1101/585745

发表日期:March 22, 2019

关键点

详细讨论转录组de novo 拼接的那点事。

参考意义

这篇发表在biorxiv的文章,从多个方面阐述了转录本拼接本身存在的问题。这其中包括作者评估的几个算法都没有拼出数百个真是表达的基因,一大部分拼接处的contigs 完全由内含子和UTR组成;对转录本有效长度的不准确给定量带来了很大的偏差等等。最后建议现在测序价格便宜了,能拼基因组就拼基因组吧。(这道理难道我不懂么,我只是没钱)。

这篇文章更值得参考的是他做的分析和采用的方法,50页的文本非常详细的记录了具体的分析过程以及参数。也提醒了我们在做类似的分析是有哪些角度可以思考。

主要分析流程

  • Short read processing:trimgalore
  • De novo transcriptome assembly
    • TRINITY
    • SHANNON
    • BINPACKER
    • BUSCO
  • Assembly and read functional composition
  • Coverage of reference transcripts and genes
    • RSEM
    • TRANSDECODER
  • Expression estimation
  • Analysis of missing genes
    • PANTHER
  • Evaluating assembly redundancy
  • SNP-based analysis of assembly composition

相关内容

敢把流程写的及其详细的文章自然就敢把代码全部show 给你,GitHub 地址TranscriptomeAssemblyEvaluation

文献题目 Predicting the effects of SNPs on transcription factor binding affinity

DOI(url): https://doi.org/10.1101/581306

发表日期:March 18, 2019

关键点

非编码区SNP可以研究的方向之一,对转录因子结合能力的影响。

参考意义

GWAS 显示88%的疾病相关 SNP 位于非编码区。然而,非编码 SNP 仍未得到充分研究,这其中一部分原因是它们难以确定实验验证的优先级。这篇文章作者提出一种确定非编码区SNP重要性的评判标准以及方法。通过观察全基因组功能性转录因子结合位点内SNP的ChIP-seq信号强度差异来估计转录因子结合亲和力
的变化。

目前用来分析转录因子结合位点的martix 叫做 position weight matrix (PWM),而文章中则提出了SNP effect matrices (SEM)。

SNP Effect Matrix pipeline

使用数据

  • ChIP-seq data: provides a transcription factor's endogenous binding in the genome
  • DNase I hypersensitive sites sequencing (DNaseseq) data: represents regions of open chromatin where transcription factors are known to function
  • position weight matrices (PWMs): denote previous knowledge of the binding pattern of transcription factors

流程

相关内容

GitHub https://github.com/Boyle-Lab/SEM_CPP

文献题目 LNISKS: Reference-free mutation identification for large and complex crop genomes

DOI(url): https://doi.org/10.1101/580829

发表日期:March 19, 2019

关键点

针对 Bulk segregant analysis (BSA) 设计的无参考基因组call snp 流程

参考意义

对于植物(作物)来说,通常手里拿到的材料并不是真正的测序品种。比如水稻就包括籼稻和粳稻,而且很可能手里的粳稻也不是真正的粳稻。面对这种情况,其实不少用到和参考基因组比对的工作都或多或少的存在一些问题,因为那个基因组在很多位置其实你都无法「参考」,而其中影响最大的一类工作就是call snp 相关的工作。当你的材料和参考基因组差别比较大的时候就会存在很多黑箱。如果能够不依赖基因组信息而直接call snp 一定程度上就可以规避这类问题。但是准确度如何需要进一步考证。

相关内容

相关的几篇文章:


扫码即刻交流