STEP8:鉴定全新的lncRNA

这个时候已经不是表达矩阵的事情了,要从新从fastq测序数据开始。
对测序后的fastq数据进行转录本的组装。基于组装后的转录本,通过数据库注释去掉编码蛋白质的mRNA以及数据库中收集的已知的lncRNA,对剩余的转录本进行生物信息学分析,最终鉴定出全新的lncRNA,作为后续研究的起点。

第一步 :重构转录本 --stringtie

STEP4: 得到表达矩阵的流程用比对软件hisat2将reads比对到参考基因组得到bam文件,如果要鉴定新的转录本,需要重新组装转录本,可以用的软件有cufflinks,stringtie,这里用stringtie。

REF=/pnas/fangxd_group/renyx/macaque/00ref
assemble_out=/pnas/fangxd_group/renyx/macaque/07assemble_out
align_out=/pnas/fangxd_group/renyx/macaque/03align_out/hisat2_mapping

stringtie -p 4 -G $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/OC_1yrF.stringtie.gtf -l $align_out/OC_1yrF SRR4042230_sorted.bam
stringtie -p 4 -G $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/OC_1yrM.stringtie.gtf -l $align_out/OC_1yrM SRR4042231_sorted.bam

第二步:预测新的转录本 --Cuffcompare

cuffcompare是cufflinks其中的一个软件,Cuffcompare提供了一种有效的分类和注释方法,即将重建转录组与现有基因注释进行比较,以获取重建转录组的分类,并用类别代码(class code)加以标示。

cuffcompare 用法及参数说明
cuffcompare [-r <reference_mrna.gtf>] [-R] [-T] [-V] [-s <seq_path>] [-o <outprefix>] [-p <cprefix>] {-i <input_gtf_list> | <input1.gtf> [<input2.gtf> .. <inputN.gtf>]}
-r 参考基因组的注释文件
-o 输出文件的前缀
-i 输入文件

cuffcompare -r $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/cufcompF $assemble_out/OC_1yrF.stringtie.gtf
cuffcompare -r $REF/Macaca_mulatta.Mmul_8.0.1.91.gtf -o $assemble_out/cufcompM $assemble_out/OC_1yrM.stringtie.gtf

输出文件包括6个:

  • cufcompF.combined.gtf
    *.combind.gtf结果包含很多信息,如exon的位置信息,gene_id和transcript_id(stringtie内部给的ID), gene_name(ensemble_ID), class_code等。
  • cufcompF.loci
    此文件中包含了stringtie给的gene_ID (XLOC_000001)与ensemble gene_id 和transcript_id,及exon序列位置的信息等。
  • cufcompF.OC_1yrF.stringtie.gtf.refmap
    这个文件包含四列信息,第一列ref_gene_id是gene symbol ,无symbol的给出的是ensemble的gene id; 第二列ref_id是指ensemble的transcript id; 第三列class_code 是“=”和“c”;第四列是cuff_id_list。这个文件指组装后与参考基因组几乎完全匹配的转录本。
  • cufcompF.OC_1yrF.stringtie.gtf.tmap
    这个文件很重要,包括很多有用的信息,如FPKM,coverage,length,gene id ,class code等,可用于lncRNA初步筛选。
  • cufcompF.stats
    一些基本的统计信息,可以看到novel exons和novel introns 的比例。
  • cufcompF.tracking
    这个文件的信息都包含在*gtf.tmap.

第三步:筛选coverage,length,FPKM

对于单个转录本的组装结果,按一下要求筛选转录本:
1)FPKM>=0.5
2)coverage >1
3)Length > 200

awk '{if($7>=0.5 && $10 > 1 && $11 >200) print $0}' cufcomp.OC_1yrF.stringtie.gtf.tmap > filter.OC_1yrF
awk '{if($7>=0.5 && $10 > 1 && $11 >200) print $0}' cufcomp.OC_1yrM.stringtie.gtf.tmap > filter.OC_1yrM

第四步 :class code分类

class_code分类的具体含义: “=”代码表示此预测转录本与注释基因的所有内含子完全吻合,但它们在第一外显子(first exon)的起始端或最后外显子(last exon)的末端可能有差别。然而,这并不影响将“=”类重建转录本判定为已注释转录本。又如,转录本标有“j”类别代码,表明此转录本至少有一个内含子与已注释基因的内含子相同,而其他位置可能不同,据此可推断此类转录本可能是注释基因的一个新异构体(novel isoform)。另外“i,o,u,x”的分类符合lncRNA的特征,可用于lncRNA的识别过程。因此,“i,j,o,u,x”这5类转录本表示可能是新的转录本,符合lncRNA的要求,保留作为后续分析。

1   =   Complete match of intron chain
2   c   Contained
3   j   Potentially novel isoform (fragment): at least one splice junction is shared with a reference transcript
4   e   Single exon transfrag overlapping a reference exon and at least 10 bp of a reference intron, indicating a possible pre-mRNA fragment.
5   i   A transfrag falling entirely within a reference intron
6   o   Generic exonic overlap with a reference transcript
7   p   Possible polymerase run-on fragment (within 2Kbases of a reference transcript)
8   r   Repeat. Currently determined by looking at the soft-masked reference sequence and applied to transcripts where at least 50% of the bases are lower case
9   u   Unknown, intergenic transcript
10  x   Exonic overlap with reference on the opposite strand
11  s   An intron of the transfrag overlaps a reference intron on the opposite strand (likely due to read mapping errors)
12  .   (.tracking file only, indicates multiple classifications)
awk '{if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o"){print $0}}' filter.OC_1yrF > class.OC_1yrF 
awk '{if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o"){print $0}}' filter.OC_1yrM > class.OC_1yrM

参考资料:

基于RNA-Seq的lncRNA预测流程介绍
cuffcompare介绍
转录组的组装STINGTIE和CUFFLINKS

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容

  • 前言 这次给大家带来的是16年发表在NATURE PROTOCOLS上面的一篇处理RNA-seq数据的文章:Tra...
    面面的徐爷阅读 63,045评论 52 195
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,099评论 18 139
  • 自从我看过皮克斯的预告与短片后我就迷上了玩具总动员. 我觉得这个片子很有趣. 当我看到玩具兵队长和士兵们偶然发现脚...
    单单单某阅读 344评论 0 2
  • 《美国,真的和你想的不一样》by王逅逅 “WorkHard,PartyHard”是美国人最爱说的一句话,翻译成“努...
    Sakura阅读 465评论 1 2
  • 木兰草原游记玩记 金色秋日里,阳光明媚中,天空一碧如洗,没有一片云彩。在这样的秋高气爽的季节,在这样晴空万里的日子...
    长江秋水阅读 991评论 0 2