Chip-seq分析流程

Targeting super-enhancer-associated oncogenes
in oesophageal squamous cell carcinoma
为例,实现其Chip-seq分析。在Chip-seq过程中,我们需要寻找食管癌致癌基因的超级增强子区域以预测其在临床中有可能的应用。

步骤概览

  1. 下载Chip-seq原始数据
  2. fastqc质量检测
  3. 下载人类参考基因组并建立index
  4. 使用bowtie比对
  5. 使用MACS获得Chip-seq富集区
  6. 使用IGV工具可视化
  7. 使用ROSE筛选super-enhancer

下载Chip-seq原始数据

文献中提到,其原始数据上传在NCBI的GEO Dataset数据库中,编号GSE76861,在NCBI数据库中搜索到结果

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76861

Samples栏目下,可以看到其上传的所有数据(点击More…来展开),其中

GSM2039110  TE7_H3K27Ac
GSM2039111  TE7_Input
GSM2039112  KYSE510_H3K27Ac
GSM2039113  KYSE510_Input

为Chip-seq数据,我们使用aspera工具来下载,首先在ebi中找到相应的序列,获得4个数据的下载链接,我们去除前面的域名,处理得文本如下

/vol1/fastq/SRR310/001/SRR3101251/SRR3101251.fastq.gz
/vol1/fastq/SRR310/002/SRR3101252/SRR3101252.fastq.gz
/vol1/fastq/SRR310/003/SRR3101253/SRR3101253.fastq.gz
/vol1/fastq/SRR310/004/SRR3101254/SRR3101254.fastq.gz

以方便批量下载。
然后运行aspera来下载

> ascp -QT -k1 -l 100M -i ~/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list file-list  .

这里的-QT表示开启断点续传,-l表示最大限速带宽,-i参数输入密匙文件路径,--file-list参数即代表我们创建的下载链接文本。
下载完成后,进行解压

> gunzip SRR3101251.fastq.gz SRR3101252.fastq.gz SRR3101253.fastq.gz SRR3101254.fastq.gz

fastqc质量检测

运行命令

> fastqc -o ../fastqcresult/ -f fastq SRR3101251.fastq SRR3101252.fastq SRR3101253.fastq SRR3101254.fastq

来对序列质量进行检测,-o参数代表结果输出位置,-f参数表示输入文件的格式,我们是fastq。

下载人类参考基因组并建立index

原则上来讲,我们需要下载人类参考基因组,然后使用bowtie-build命令来建立index,但是bowtie的官网已经给出了index文件并且提供下载,直接在bowtie官网下载

> wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie_indexes/hg19.ebwt.zip
> gunzip hg19.ebwt.zip

这样,我们就能得到人类的index了。值得注意的是,bowtie的官网提供了bowtie2和bowtie的两种index,同时,又分为NCBI提供的基因组数据和UCSC提供的基因组数据,我们使用和文献一致的UCSC提供基因组数据。

使用bowtie比对

bowtie是整个分析的开始,bowtie会将所有的序列和基因组比对,以给出其在基因组所在的位置,整个过程会比较长,我们需要将其放在后台中运行,以免其中断

> nohup bowtie index/hg19 -q data/SRR3101251.fastq -v 2 -m 1 -3 1 -S 2>bowtieresult/SRR3101251.out>bowtieresult/SRR3101251.sam &
> nohup bowtie index/hg19 -q data/SRR3101252.fastq -v 2 -m 1 -3 1 -S 2>bowtieresult/SRR3101252.out>bowtieresult/SRR3101252.sam &
> nohup bowtie index/hg19 -q data/SRR3101253.fastq -v 2 -m 1 -3 1 -S 2>bowtieresult/SRR3101253.out>bowtieresult/SRR3101253.sam &
> nohup bowtie index/hg19 -q data/SRR3101254.fastq -v 2 -m 1 -3 1 -S 2>bowtieresult/SRR3101254.out>bowtieresult/SRR3101254.sam &

其中,nohup能够使命令成为无主进程,脱离ssh的进程,使得整个程序的运行能够在断开ssh连接之后仍然在进行。同时将其标准输出放入sam文件,错误输出放入out文件。

使用MACS获得Chip-seq富集区

由于bowtie仅给出了每个read的位置,为了统计其数量,我们需要使用,MACS进行富集

> nohup macs14 -t SRR3101251.sam  -c SRR3101252.sam --format SAM --name "TE7" --keep-dup 1 --wig --single-profile --space=50 --diag &
> nohup macs14 -t SRR3101253.sam  -c SRR3101254.sam --format SAM --name "KYSE510" --keep-dup 1 --wig --single-profile --space=50 --diag &

与上面相同,MACS同样需要运行比较长的时间,所以仍然需要其在后台运行。其次,这里的参数-t表示实验组,-c表示对照组,--format表示输入文件的格式,--name输出文件的附加前缀,--keep-dup对于重复序列的处理方式,1效果最好,--wig表示输出wig文件,--single-profile表示输出单文件,--space是文献中的要求。

使用IGV工具可视化

首先在IGV官网下载并安装软件,采用其windows版本,为了能够可视化.wig文件,我们需要将其转换为.bw文件,首先需要使用fetchChromSizes

> wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v287/fetchChromSizes
> chmod 777 fetchChromSizes

使用chmod命令来获得其执行权限,然后我们获取基因组长度信息

> fetchChromSizes hg19 >hg19.chrom.sizes

接下来下载wigToBigWig来转换格式

> wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/wigToBigWig
> chmod 777 wigToBigWig

使用wigToBigWig转换格式

> wigToBigWig TE7_control_afterfiting_all.wig   ../index/hg19.chrom.sizes TE7_control_afterfiting_all.bw
> wigToBigWig TE7_treat_afterfiting_all.wig   ../index/hg19.chrom.sizes TE7_treat_afterfiting_all.bw
> wigToBigWig  KYSE510_control_afterfiting_all.wig ../index/hg19.chrom.sizes KYSE510_control_afterfiting_all.bw
> wigToBigWig  KYSE510_treat_afterfiting_all.wig  ../index/hg19.chrom.sizes KYSE510_treat_afterfiting_all.bw

然后将得到的.bw文件导入IGV软件即可看到效果图

KYSE510效果图
TE7效果图

可以看到图中用方框标示的区域,在实验组中,峰值都超过了域值,而对照组依然在域值内,因此,我们认为这些基因就是peeks。

使用ROSE筛选super-enhancer

为了找到哪些是super-enhancer,我们需要使用ROSE进行筛选,首先需要将.sam文件转换为.bam,我们使用samtools进行转换

> samtools view -b -u bt/SRR3101251.sam >SRR3101251.bam
> samtools view -b -u bt/SRR3101252.sam >SRR3101252.bam
> samtools view -b -u bt/SRR3101253.sam >SRR3101253.bam
> samtools view -b -u bt/SRR3101254.sam >SRR3101254.bam

然后对其进行排序

> samtools sort SRR3101251.bam SRR3101251.sorted
> samtools sort SRR3101252.bam SRR3101252.sorted
> samtools sort SRR3101253.bam SRR3101253.sorted
> samtools sort SRR3101254.bam SRR3101254.sorted

再建立索引

> samtools index SRR3101251.sorted.bam
> samtools index SRR3101252.sorted.bam
> samtools index SRR3101253.sorted.bam
> samtools index SRR3101254.sorted.bam

安装ROSE,我们直接从其托管在Bitbucket仓库中克隆Python脚本

git clone https://bitbucket.org/young_computation/rose.git

最后进行筛选

> nohup python ROSE_main.py -g HG19 -i /macsresult/TE7_peaks.bed -r /bowtieresult/SRR3101251.sorted.bam -c /bowtieresult/SRR3101252.sorted.bam -o /roseresult -s 12500 -t 2000 &
> nohup python ROSE_main.py -g HG19 -i /macsresult/KYSE510_peaks.bed -r /bowtieresult/SRR3101253.sorted.bam -c /bowtieresult/SRR3101254.sorted.bam -o /roseresult -s 12500 -t 2000 &

其中-g为基因组名,-i为输入的文件,-r为实验组数据,-c为对照组数据,-o为输出文件夹,-s为相邻的峰合并,-t除去起始子的距离。
最后我们得到结果如下图

TE7组结果
KYSE510组结果

从图中,我们也可以清晰地分辨super-enhancer的分界同时,所有的super-enhancer也列举在*_peaks_SuperEnhancers.table.txt文件中,至此我们已经完成了所有的步骤,获得了结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容