融合基因学习笔记

概述

融合基因是指两个基因的全部或部分序列融合而成的嵌合基因,一般由染色体易位、缺失等原因所致。
融合基因首次发现于血液系统的恶性肿瘤中,其中以慢性粒细胞白血病中BCR-ABL的基因融合最为经典,治疗慢性粒细胞白血病的药物伊马替尼/格列卫,其作用靶点就是该融合基因。
基因组和转录组测序是获得染色体重排和融合转录本的重要方法。高通量RNA测序技术因其通量高、成本低、检测精度高和检测范围广等优点大大加快了融合基因的研究,常用的融合基因的检测软件有SOAPfuse或STAR-Fusion。

分析流程

软件选择

soapfuse只适合人(Homo_sapiens)的融合基因分析,starfusion应用更广,选择时可根据需要进行选择。
其他软件还有FusionSeq , deFuse , TopHat-Fusion , FusionHunter , SnowShoes-FTD, chimerascan, FusionMap 等

1. starfusion

starfuse.png

STAR-Fusion是利用STAR比对的融合输出结果来检测融合转录本的软件包,主要包括SATR比对,STAR-Fusion.predict,STAR-Fusion.filter三个步骤:

  • 先将reads通过star比对到参考基因组,筛选出split reads ( 含有两个基因融合断点的reads, 流程图中S=3即为Split reads的数目 )和discordant pair (比对到不同基因上的reads,图中J=2即为Discordant pair的数目)作为候选的融合基因序列。

  • 将候选融合基因与参考基因组注释文件比对,根据overlap预测融合基因。根据最少reads支持准则以及利用校验工具FusionInspector进行进一步的矫正分析的结果。

1)至少有一对含有剪切位点注释的JunctionReads,并且 JunctionReads与SpanningFrags(Discordant pair)的总数至少要大于等于二。
2)如果融合的基因的reads的支持只有JunctionReads,即 SpanningFrags=0的情况,那么对于双端测序的reads至少有25个碱基可以比 对到融合基因断点的两端。
3)如果融合基因的融合的断点位置与已经注释的外显子的剪位点不一致,则至少需要三对JunctionReads。

  • 过滤预测结果,去除假阳性。
    1) 如果融合基因的断点没有注释,软件根据占主导地位断点对比对窗口中reads支持最多且相差距离在+/-5个碱基内的主要断点合并成一个融合预测的结果。
    2)如果融合的基因的reads只支持split-read,那么对于双端测序的reads至少需要25 个碱基比对到融合基因断点的两端。对于单端的read是非必须的,因为不同的reads可以在任意一端比对上。
    3) 如果一对融合基因有多个融合的转录本,过滤掉低reads的isoforms。
    4)利用blast将两个序列相似的融合基因(sequence-similar fusion pairs)进行过滤(参数:E<=10-3)
    5)过滤掉配对混乱的融合基因对(promiscuous fusion partners)。即将在一个样品中一个基因和多个基因融合的结果过滤。

2. soapfuse

soapfuse.png

代码

1. starfusion[参考]

版本STAR-Fusion-v1.2.0

./STAR-Fusion/STAR-Fusion/STAR-Fusion --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./cleandata/P_1_1.clean.fq.gz --right_fq ./cleandata/P_1_2.clean.fq.gz --output_dir ./Fusion/P_1 --annotate --examine_coding_effect --extract_fusion_reads --FusionInspector inspect --denovo_reconstruct --CPU 4 --tmpdir ./Fusion/Y1/tmp --min_junction_reads 1 --min_sum_frags 2

# --genome_lib_dir 参数基因组注释文件,可在https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/下载
# --left_fq right_fq 输入双端的cleandata。如果是单端测序,只需要left_fq参数
# --output_dir 结果文件输出目录
# 可选参数
#   --annotate                            annotate fusions based on known cancer fusions and those found in normal tissues,可对预测的融合基因进行PFAM注释
#   --examine_coding_effect               explore impact of fusions on coding sequences,即预测融合基因编码功能影响
#    --extract_fusion_reads                retrieves the fusion supporting reads from the fastq files
#    --FusionInspector <inspect|validate>  include FusionInspector, options:(利用FusionInspector软件对预测的融合基因进行过滤)
# √                                             'inspect' - considers only StarFusion-identified fusion reads in context of identified fusions (fast)
#                                               'validate' - examines all reads, recovers evidence, computes fusion allele fractions (slow) 
#    --CPU <int>                           number of threads for running STAR (default: 4)
#    --min_junction_reads <int>            minimum number of junction-spanning reads required. Default: 1
#    --min_sum_frags <int>                 minimum fusion support = ( # junction_reads + # spanning_frags ) Default: 2
#    --tmpdir <string>                     file for temporary files (default: /tmp) (可设置为./Fusion/P_1/tmp)
## 其他参数参考help

  • 结果文件说明
    1)star-fusion.fusion_candidates.final.abridged
FusionName  JunctionReadCount   SpanningFragCount   LeftGene    LeftLocalBreakpoint LeftBreakpoint  RightGene   RightLocalBreakpoint    RightBreakpoint SpliceType
IGHGP--IGH-@    13  0   IGHGP   2574    chr14:105668270:-   IGH-@   24931   chr14:105741527:+   INCL_NON_REF_SPLICE
IGKV2-30--IGKJ1 11  0   IGKV2-30    1815    chr2:89244782:- IGKJ1   4817    chr2:88861923:- INCL_NON_REF_SPLICE
IGKV1-39--IGKJ4 8   0   IGKV1-39    1522    chr2:89319625:- IGKJ4   4523    chr2:88860922:- ONLY_REF_SPLICE
### 主要参数说明
#(1) FusionName:融合基因的名字
#(2)JunctionReadCount:转录组测序片段中包含的JunctionReads,JunctionReads可以比对到推断的融合断点的转录组测序片段的数目,即支持融合事件发生的JunctionReads数目
#(3)SpanningFragCount:转录组测序片段中包含的SpanningFrags,SpanningFrags可以比对到不同的两个基因的转录组测序片段的数目,即支持融合事件发生的SpanningFrags数目
#(4)LeftGene:融合事件的上游基因
#(5)LeftLocalBreakpoint: 上游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(6)LeftBreakpoint:上游基因断点所在的基因组位置和上游基因所在的正负链
#(7)RightGene:融合事件的下游基因
#(8)RightLocalBreakpoint: 下游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(9)RightBreakpoint:下游基因断点所在的基因组位置和下游基因所在的正负链
#(10)SpliceType:是否检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点。分两种情况:ONLY_REF_SPLICE;INCL_NON_REF_SPLICE。ONLY_REF_SPLICE:检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点;INCL_NON_REF_SPLICE:检测到的融合断点不是发生在与参考的转录本结构的注释信息中的外显子的剪切位点
...

2)注释文件STAR-Fusio会预测融合基因的CDS序列,并进行PFAM注释
(*fusion_annotion.xls)

FusionName  JunctionReadCount   SpanningFragCount   LeftGene    LeftLocalBreakpoint LeftBreakpoint  RightGene   RightLocalBreakpoint    RightBreakpoint SpliceType  annots  CDS_LEFT_ID CDS_LEFT_RANGE  CDS_RIGHT_ID    CDS_RIGHT_RANGE PROT_FUSION_TYPE    FUSION_MODEL    FUSION_CDS  FUSION_TRANSL   PFAM_LEFT   PFAM_RIGHT
IGHGP--IGH-@    13  0   IGHGP   2574    chr14:105668270:-   IGH-@   24931   chr14:105741527:+   INCL_NON_REF_SPLICE IGHGP->immunoglobulin_heavy_constant_gamma_P_(non-functional),INTRACHROMOSOMAL[chr14:0.01Mb],NEIGHBORS_OVERLAP:-:+:[5210]   .   .   .   .   .   .   .   .   .   .
IGKV2-30--IGKJ1 11  0   IGKV2-30    1815    chr2:89244782:- IGKJ1   4817    chr2:88861923:- INCL_NON_REF_SPLICIGKV2-30->immunoglobulin_kappa_variable_2-30,IGKJ1->immunoglobulin_kappa_joining_1,HGNC_GENEFAM,INTRACHROMOSOMAL[chr2:0.38Mb] ENST00000468494.1   1-360   ENST00000390242.2   1-38    FRAMESHIFT  chr2|-|[1]89244782-89245091[1]|[0]89245518-89245566[0]<==>chr2|-|[1]88861886-88861923[0]    atgaggctccctgctcagctcctggggctgctaatgctctgggtcccaggatccagtggggatgttgtgatgactcagtctccactctccctgcccgtcacccttggacagccggcctccatctcctgcaggtctagtcaaagcctcgtatacagtgatggaaacacctacttgaattggtttcagcagaggccaggccaatctccaaggcgcctaatttataaggtttctaaccgggactctggggtcccagacagattcagcggcagtgggtcaggcactgatttcacactgaaaatcagcagggtggaggctgaggatgttggggtttattactgcatgcaaggtacacactggcctGTGGACGTTCGGCCAAGGGACCAAGGTGGAAATCAAAC  MRLPAQLLGLLMLWVPGSSGDVVMTQSPLSLPVTLGQPASISCRSSQSLVYSDGNTYLNWFQQRPGQSPRRLIYKVSNRDSGVPDRFSGSGSGTDFTLKISRVEAEDVGVYYCMQGTHWPVDVRPRDQGGNQ    Ig_3|24-114|1.7e-08^I-set|24-113|1.6e-06^V-set|26-114|2.8e-20^Ig_2|26-114|2e-05^ig|31-114|1.4e-07^N6_N4_Mtase|55-92|7.2e-06 .
IGKV1-39--IGKJ4 8   0   IGKV1-39    1522    chr2:89319625:- IGKJ4   4523    chr2:88860922:- ONLY_REF_SPLICE IGKV1-39->immunoglobulin_kappa_variable_1-39_(gene/pseudogene),IGKJ4->immunoglobulin_kappa_joining_4,GTEx_Recurrent:{Blood_Vessel=[count:6=pct:1.6],Esophagus=[count:3=pct:0.7],Skin=[count:2=pct:0.6],Lung=[count:2=pct:1.2],Thyroid=[count:2=pct:1.1],Blood=[count:2=pct:1.1],Whole_Blood=[count:2=pct:1.5],Adipose_Tissue=[count:1=pct:0.3],Testis=[count:1=pct:1.0],Small_Intestine=[count:1=pct:1.8],Heart=[count:1=pct:0.4]},HGNC_GENEFAM,INTRACHROMOSOMAL[chr2:0.46Mb]   ENST00000498574.1   1-351   ENST00000390239.2   1-37    INFRAME chr2|-|[2]89319625-89319920[1]|[0]89320045-89320099[0]<==>chr2|-|[0]88860886-88860922[0]    atggacatgagggtccccgctcagctcctggggctcctgctactctggctccgaggtgccagatgtgacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcaccatcacttgccgggcaagtcagagcattagcagctatttaaattggtatcagcagaaaccagggaaagcccctaagctcctgatctatgctgcatccagtttgcaaagtggggtcccatcaaggttcagtggcagtggatctgggacagatttcactctcaccatcagcagtctgcaacctgaagattttgcaacttactactgtcaacagagttacagtacccctCTCACTTTCGGCGGAGGGACCAAGGTGGAGATCAAAC    MDMRVPAQLLGLLLLWLRGARCDIQMTQSPSSLSASVGDRVTITCRASQSISSYLNWYQQKPGKAPKLLIYAASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQSYSTPLTFGGGTKVEIK   I-set|25-111|7.6e-10^Ig_3|26-111|2.2e-12^V-set|28-111|5e-22^ig|29-112|2.3e-10^Ig_2|30-114|2.7e-07   .
### 主要参数说明
#(1)FusionName:融合基因的名字
#(2)JunctionReadCount:转录组测序片段中包含的JunctionReads,JunctionReads可以比对到推断的融合断点的转录组测序片段的数目,即支持融合事件发生的JunctionReads数目
#(3)SpanningFragCount:转录组测序片段中包含的SpanningFrags,SpanningFrags可以比对到不同的两个基因的转录组测序片段的数目,即支持融合事件发生的SpanningFrags数目
#(4)LeftGene:融合事件的上游基因
#(5)LeftLocalBreakpoint: 上游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(6)LeftBreakpoint:上游基因断点所在的基因组位置和上游基因所在的正负链
#(7)RightGene:融合事件的下游基因
#(8)RightLocalBreakpoint: 下游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(9)RightBreakpoint:下游基因断点所在的基因组位置和下游基因所在的正负链
#(10)SpliceType:是否检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点。分两种情况:ONLY_REF_SPLICE;INCL_NON_REF_SPLICE。ONLY_REF_SPLICE:检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点;INCL_NON_REF_SPLICE:检测到的融合断点不是发生在与参考的转录本结构的注释信息中的外显子的剪切位点
#(11)annots:主要有两种融合情况INTERCHROMOSOMA(染色体间的基因融合)和INTRACHROMOSOMAL(染色体内的基因融合)
#(12)CDS_LEFT_ID: 上游融合基因的具有CDS区域的转录本的id
#(13)CDS_LEFT_RANGE:上游融合基因的具有CDS区域的转录本的碱基长度范围(bp)
#(14)CDS_RIGHT_ID:下游融合基因的具有CDS区域的转录本的id
#(15)CDS_RIGHT_RANGE:下游融合基因的具有CDS区域的转录本的碱基长度范围(bp)
#(16)PROT_FUSION_TYPE: 蛋白融合的类型,有两种情况:FRAMESHIFT(翻译的阅读框发生移码,翻译出的多肽链氨基酸序列与原来相比同样发生了很大的变化),INFRAME(正常的ORF,即融合的两个蛋白可以正常的翻译)
#(17)FUSION_MODEL:融合的模型,通过0、1、2这三个数字(密码子的第一、第二、第三碱基)和箭头“-”来描述是否发生移码。[1]38627089-38627141[0]表示在exon:38627089位置的密码子的第二个碱基和exon:38627141位置的密码子的第一个碱基结合。
#(18)FUSION_CDS:融合基因的CDS序列,小写的碱基是上游融合基因的CDS序列,大写是碱基是下游融合基因的CDS序列
#(19)FUSION_TRANSL:翻译得到的融合基因的氨基酸序列
#(20)PFAM_LEFT:上游融合基因的PFAM注释结果。example:DUF1515|572-611|0.073。DUF1515:PFAM预测的得到的蛋白结构域;572-611:预测的结构域的碱基范;0.073:预测的和DUF15的相似度
#(21)PFAM_RIGHT:下游融合基因的PFAM注释结果。example:DUF1515|572-611|0.073。DUF1515:PFAM预测的得到的蛋白结构域;572-611:预测的结构域的碱基范;0.073:预测的和DUF15的相似度
  • [老版本]annotate,FusionInspector分开跑的结果文件处理,脚本如:
# step1
./STAR-Fusion/STAR-Fusion/STAR-Fusion --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./lncRNA_QC/cleandata/P_1_1.clean.fq.gz --right_fq ./lncRNA_QC/cleandata/P_1_2.clean.fq.gz --output_dir ./Fusion/starfusion/P_1

# step2 得到融合基因列表
cut -f 1 ./Fusion/P_1/star-fusion.fusion_candidates.final.abridged |grep -v "#" > ./Fusion/P_1/P_1.fusionlist

# step3 FusionInspector过滤
./FusionInspector/FusionInspector_v0.5.0_FULL/FusionInspector --fusions ./Fusion/P_1/P_1.fusionlist --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./cleandata/P_1_1.clean.fq.gz --right_fq ./cleandata/P_1_2.clean.fq.gz --out_dir ./Fusion/P_1 --out_prefix P_1
### 参数说明
# --fusions CHIM_SUMMARY_FILES
# --genome_lib_dir GENOME_LIB_DIR 
# --left_fq LEFT_FQ_FILENAME
# --right_fq RIGHT_FQ_FILENAME
# --out_dir OUT_DIRNAME
# --out_prefix OUT_PREFIX

得到*fusion_predictions.final.abridged *fusion_predictions.final.abridged.FFPM等结果文件

1)*fusion_predictions.final.abridged 文件

#fusion_name    JunctionReads   SpanningFrags   Splice_type LeftGene    LeftBreakpoint  RightGene   RightBreakpoint Annotations TrinityGG
Rps6kb1--Vmp1   260 21  ONLY_REF_SPLICE Rps6kb1 chr11:86532772:-    Vmp1    chr11:86611422:-    .
Klf3--Ppargc1a  209 24  ONLY_REF_SPLICE Klf3    chr5:64816830:+ Ppargc1a    chr5:51548691:- .
Nme1--Gm28901   189 12  INCL_NON_REF_SPLICE Nme1    chr11:93959491:-    Gm28901 chr1:97024631:- .

2)*fusion_predictions.final.abridged.FFPM

#fusion_name    JunctionReads   SpanningFrags   J_FFPM  S_FFPM  Splice_type LeftGene    LeftBreakpoint  RightGene   RightBreakpoint Annotations TrinityGG
Rps6kb1--Vmp1   260 21  64.8852 5.2407  ONLY_REF_SPLICE Rps6kb1 chr11:86532772:-    Vmp1    chr11:86611422:-    .
Klf3--Ppargc1a  209 24  52.1577 5.9894  ONLY_REF_SPLICE Klf3    chr5:64816830:+ Ppargc1a    chr5:51548691:- .
Nme1--Gm28901   189 12  47.1666 2.9947  INCL_NON_REF_SPLICE Nme1    chr11:93959491:-    Gm28901 chr1:97024631:- .

3)P_1.bed P_1.fa P_1.gtf P_1.junction_reads.bam P_1.junction_reads.bam.bai P_1.spanning_reads.bam P_1.spanning_reads.bam.bai
融合基因的序列注释等

一个结果例子:

## 可用P_1.fa序列直接进行注释
Sequence_Accession  Sequence_Length Analysis_Database   Signature_Accession Signature_Description   Start_location  Stop_location   Score
Alkbh5--Gid4_760    388 Coils   Coil        5   5   -
Pusl1--Nmrk1_29 95  PANTHER PTHR11142       40  93  2.1E-12
  • 数据可视化(IGV和circle图)
## IGV 所需文件
### P_1.bed  P_1.gtf  P_1.junction_reads.bam.bai  P_1.spanning_reads.bam.ba  P_1.fa   P_1.junction_reads.bam  P_1.spanning_reads.bam
## circle图
### 利用fusion_predictions.final.abridged画图

2. soapfuse[参考]

  • 准备工作

软件下载后解压缩,如下:

$ls SOAPfuse-v1.27/
config  SOAPfuse-RUN.pl  source  update_log.txt
## config对应配置文件的目录,需要修改Config/config.txt文件
## source是所有perl脚本目录

1) 修改Config/config.txt文件中的路径(参考)

DB_db_dir = 
PG_pg_dir = 
PS_ps_dir = 
PD_all_out =
PA_all_fq_postfix = 

2)数据库准备
需要下载文件,具体参考./SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl 脚本help

fa
gtf
cytoBand.txt
complete HGNC Gene Family dataset

准备好这些文件后运行脚本构建数据库。

perl ./SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl \
-wg ./GRCh38/GRCh38.fa \
-gtf ./GRCh38/Gene_annotation.gtf.gz  \
-cbd ./GRCh38/cytoBand.txt  \
-gf ./GRCh38/HGNC_Gene_Family_dataset \
-sd ./SOAPfuse-v1.27 \
-dd ./

3)添加环境变量

PERL5LIB=$PERL5LIB:/PATH_WHERE_YOU_PUT_THE_PACKAGE/source/bin/perl_module; export PERL5LIB

4)多样本配备sample.txt文件

C1      paired  150
C2      paired  150
Y3      paired  150
C3      paired  150
...
  • 主程序运行
perl ./SOAPfuse/SOAPfuse-v1.27//SOAPfuse-RUN.pl \
-c ./Config/config.txt \
-fd ./Fusion/Sample \
-l ./Fusion/Config/C1.config \
-o ./Fusion/C1 \
-fs 1 \
-es 9
## -c 配置文件
## -fd 储存fa文件的目录,如
├── C1
│   └── Lib-a
│       ├── Run-a_1.fq.gz -> ./lncRNA_QC/cleandata/C1_1.clean.fq.gz
│       └── Run-a_2.fq.gz -> ./lncRNA_QC/cleandata/C1_2.clean.fq.gz
├── C2
│   └── Lib-a
│       ├── Run-a_1.fq.gz -> ./lncRNA_QC/cleandata/C2_1.clean.fq.gz
│       └── Run-a_2.fq.gz -> ./lncRNA_QC/cleandata/C2_2.clean.fq.gz
├── C3
...

## -l  分别对应SampleID   Lib   Lane   readlength,如
C1      Lib-a   Run-a   150
## -o  输出目录
## -fs START_STEP,默认是1 
## -es END_STEP,默认是9
###其他参数参考help
$tree -N -L 1 .
.
├── align_trim_unmap_Tran
├── align_unmap_Tran
├── alignWG
├── candidate
├── change_SE
├── denovo_unmap
├── final_fusion_genes
├── junction_seq
└── TEMP

主要结果文件都在final_fusion_genes下,主要有下列几个

1)*final.Fusion.specific.for.genes 融合基因列表

up_gene up_chr  up_strand   up_Genome_pos   up_loc  dw_gene dw_chr  dw_strand   dw_Genome_pos   dw_loc  Span_reads_num  Junc_reads_num  Fusion_Type down_fusion_part_frame-shift_or_not
ACAD8   chr11   +   134263731   M   GLB1L3  chr11   +   134275184   M   4   9   INTRACHR-SS-OGO-0GAP    NA
ATP1B2  chr17   +   7656772 M   RN7SL4P chr3    +   15738545    M   8   7   INTERCHR-SS NA
ATP1B2  chr17   +   7656777 M   RN7SL4P chr3    +   15738542    M   15  2   INTERCHR-SS NA

##(1) up_gene:融合事件的上游基因名称
##(2) up_chr:上游基因所在的染色体
##(3) up_strand:上游基因所在的正负链
##(4) up_Genome_pos:上游基因断点所在的基因组位置
##(5) up_loc:上游基因断点所在的功能区域
##(6) dw_gene:融合事件的下游基因
##(7) dw_chr:下游基因所在的染色体
##(8) dw_strand:下游基因所在的正负链
##(9) dw_Genome_pos:下游基因断点所在的基因组位置
##(10) dw_loc:下游基因断点所在的功能区域
##(11) Span_reads_num:支持融合事件发生的span-reads数目
##(12) Junc_reads_num:支持融合事件发生的junc-reads数目
##(13) Fusion_Type:融合事件类型,融合时间主要分为5类,INTERCHR-DS、INTERCHR-SS、INTRACHR-DS、INTRACHR-SS-RGO和INTRACHR-SS-OGO-xxGAP;其具体含义如下:INTERCHR-DS(inter-chromosomal genes with different DNA strands):是指发生在不同DNA链上染色体间的融合事件。INTERCHR-SS(inter-chromosomal genes with same DNA strand):是指发生在相同DNA链上染色体间的融合时间。INTRACHR-DS(intra-chromosomal genes with different DNA strands):是指发生在不同DNA链上染色体内部的融合事件。INTRACHR-SS-RGO(intra-chromosomal genes with same DNA and the upstream and downstream genes in the events are reverse to their genomic coordinates):是指发生在相同DNA链上染色体内部的融合事件,且发生该事件的上游基因位于发生该事件下游基因的基因组下游位置。INTRACHR-SS-OGO-xxGAP(intra-chromosomal genes with same DNA strand and the upstream and downstream genes in the fusion events are consistent with their genomic coordinates):是指发生在相同DNA链上染色体内部的融合事件,且发生该事件的上游基因和下游基因的基因组位置始终保持一致。
##(14) down_fusion_part_frame-shift_or_not:融合的下游基因是否发生移码突变,frame-shift表示移码,NA表示未发生移码突变

2)final.Fusion.specific.for.trans 转录本信息

up_gene up_tran up_chr  up_strand   up_Tran_pos up_Genome_pos   up_loc  dw_gene dw_tran dw_chr  dw_strand   dw_Tran_pos dw_Genome_pos   dw_loc  Span_reads_num  Junc_reads_num  Fusion_Type down_fusion_part_frame-shift_or_not up_rna_type dw_rna_type up_Jpos_func_area   dw_Jpos_func_area   up_start_codon  up_stop_codon   down_start_codon    down_stop_codon fusion_stop_codon   protein_note
ACAD8   ACAD8-018   chr11   +   1157    134263731   3exon-M GLB1L3  GLB1L3-001  chr11   +   940 134275184   1exon-M 4   9   INTRACHR-SS-OGO-0GAP    NA  processed_transcript    protein_coding  exon    utr5    lacks   lacks   has has NA  both_must_be_mRNAs

3)*trans.fusion.peptide.chain融合基因蛋白序列预测

##final_fusion_genes/*/analysis/For_peptides_analysis/*trans.fusion.peptide.chain

BTBD8-002/1358/KIAA1107-001/1-5I94  gtcgtacctctgtgagacATGGCTCG...TCAGCATTAAgtgttaacattt  RNQEGQISGARPKVLTGNLNVQAKAKPLKKATGKVLETQH*

列表分三列,对应转录本ID,转录本序列,蛋白序列
注:上表只是展示,不代表任何意义

4)*trans.fused.seq.for.RT-PCR 融合转录本序列

#final_fusion_genes/*/analysis/For_RT-PCR_validation/*trans.fused.seq.for.RT-PCR

ACAD8/134263731/GLB1L3/134275184    ACAD8-018/1157/GLB1L3-001/940   GGGAATTTGTATCTGCAACAAGTCTGCACAAGCCCTAGAATACTTTAAACTTGACAAAGAAGAATAAAGTGTGTGGCTGtaaaa

供RT-PCR验证的融合转录本序列,表格分三列:基因及断点位置,转录本及断点位置,融合转录本序列

5)*fusions.landscape.3D.png 融合基因断点分布图

## final_fusion_genes/*/analysis/figures/landscape_of_fusions/
*fusions.landscape.3D.png

X轴表示不同的断点,Y轴表示融合事件对应的上下游基因,Z轴表示融合事件得分,该得分与支持融合事件的junc-reads及span-reads数目成正比。柱形颜色表示不同的融合事件类型,'*'表示下游基因为移码突变,'e'表示只有一个融合断点位于外显子边界,'E'表示两个融合断点均位于外显子边界。

6)融合基因断点展示

TTTY15_chrY_12686606_USP9Y_chrY_12702010.png
## final_fusion_genes/*/analysis/figures/SOAPfuse_Fusion_Figure/*/

整合了融合基因断点,融合事件上下游基因断点位置,支持融合事件发生的reads等信息,其中天蓝色和橙色分别对应发生融合事件的上下游基因,深蓝色表示比对到基因上的reads分布,中间部分表示支持该融合事件的序列信息

  • PS. svg转化png工具
    svg2png 一款依赖npm的小程序下载
/PUBLIC/software/RNA/svg2png/lib/svg2png *fusions.landscape.3D.svg 
  • interproscan注释
### 提取final_fusion_genes/*/analysis/For_peptides_analysis/*.trans.fusion.peptide.chain文件前两列作为ID和序列,进行interproscan注释

一个结果例子

Sequence_Accession  Sequence_Length Analysis_Database   Signature_Accession Signature_Description   Start_location  Stop_location   Score
PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       610 912 0.0
PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       1055    1672    0.0
PARG-007/2090/BMS1-001/700  1680    Pfam    PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal    1216    1502    6.1E-96
  • 数据可视化
### circle图
### final.Fusion.specific.for.genes文件绘制circle图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容