HiCpro-HiCplotter

一、HiC-Pro 简介

HiC-Pro是目前比较流行的HiC数据标准化处理工具之一,其流程主要分为6个步骤,比对、过滤HiC比对结果、检测有效HiC序列、结果合并、构建HiC关联图谱以及关联图谱标准化。

HiC-Pro可以输出各个尺度的HiC标准化互作图谱,从每个窗口5Kb到1Mb,当然窗口越大,所生成的互作关系越少,计算时间就越少,反之则越多。同时HiC-Pro能与下游的可视化软件HiCPlotter等兼容,输出文件可以直接用于可视化分析。

二、HiC-Pro 原理

HiC-Pro的比对mapping的原理如下图所示,我们拿到了Hi-C的测序数据,HiC-Pro设置好配置文件自动进行批量化处理流程

image

HiC-Pro能够自动化的比对,标准化和构建相互作用矩阵,在处理多样化的测序数据时,HiC-Pro能够检测和自动过滤测序数量差的reads和无效的片段。

三、下载安装

(1)下载地址:

https://github.com/nservant/HiC-Pro

(2)安装:

依赖软件还是比较多,分别如下。

bowtie2、g++、sort、samtools(>1.1)Python2 (注释是2,3不支持version >=2.7)、4个Python模块(pysam (>=0.8.3), bx-python(>=0.5.0), numpy(>=1.8.2), scipy(>=0.15.1) )R、以及两个R包(RColorBrewer和ggplot2 (>2.2.1) )

(3)解压安装:

unzip HiC-Pro-master.zip && make configure && make install (安装成功如下所示)HiC-Prousage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]Use option -h|--help for more information[zhangsan@wei ~]$ HiC-Pro -husage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]Use option -h|--help for more informationOPTIONS   -i|--input INPUT : input data folder; Must contains a folder per sample with input files   -o|--output OUTPUT : output folder   -c|--conf CONFIG : configuration file for Hi-C processing   [-p|--parallel] : if specified run HiC-Pro on a cluster   [-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run  mapping: perform reads alignment - require fast files  proc_hic: perform Hi-C filtering - require BAM files  quality_checks: run Hi-C quality control plots  merge_persample: merge multiple inputs and remove duplicates if specified - require .validPairs files  build_contact_maps: Build raw inter/intrachromosomal contact maps - require_allValidPairs files  ice_norm : run ICE normalization on contact maps - require .matrix files  [-h|--help]: help  [-v|--version]: version

其实最重要的是三个参数,通过帮助文档我们可以发现HiC-Pro使用起来十分方便,但最重要的就是配置文件(configuration-file )的设置。

(4)注释文件

为了处理HiC-Pro的原始文件,我们需要3个注释文件

bed文件:包含限制性酶切位点的文件,其依赖于限制性内切酶和参考基因组

染色体大小文件:这个文件可以在UCSC基因组浏览器上下载

bowtie2 indexes :查看bowtie2说明文档建立基因组index文件

四、软件运行

将'config-hicpro.txt'文件复制粘贴到当前文件夹,然后进行编辑修改,具体如何详细修改参见config文件的说明文档

将输入文件按照如下形式放在有个rawdata文件夹中,如下所示

  • PATH_TO_MY_DATA

  • sample1
    ++ file1_R1.fastq.gz
    ++ file1_R2.fastq.gz
    ++ …

  • sample2
    ++ file1_R1.fastq.gz
    ++ file1_R2.fastq.gz

运行HiC-Pro程序

MY_INSTALL_PATH/bin/HiC-Pro -i FULL_PATH_TO_DATA_FOLDER -o FULL_PATH_TO_OUTPUTS -c MY_LOCAL_CONFIG_FILE

Hi-C数据测试

一个非常小的fastq 文件(2M reads)用于Hi-C测试,数据数据来源于Dixon et al 2012

wget https://zerkalo.curie.fr/partage/HiC-Pro/HiCPro_testdata.tar.gz && tar -zxvf HiCPro_testdata.tar.gz

编辑configuration 文件,设置bowtie2 indexes的路径
运行 HiC-Pro

HICPRO_INSTALL_DIR/bin/HiC-Pro -c config_test_latest.txt -i test_data -o hicpro_latest_test vendredi 13 juillet 2018, 14:55:21 (UTC+0200) Bowtie2 alignment step1 ... Logs: logs/dixon_2M_2/mapping_step1.log Logs: logs/dixon_2M/mapping_step1.log vendredi 13 juillet 2018, 14:56:06 (UTC+0200) Bowtie2 alignment step2 ... Logs: logs/dixon_2M_2/mapping_step2.log Logs: logs/dixon_2M/mapping_step2.log vendredi 13 juillet 2018, 14:56:15 (UTC+0200) Combine R1/R2 alignment files ... Logs: logs/dixon_2M_2/mapping_combine.log Logs: logs/dixon_2M/mapping_combine.log vendredi 13 juillet 2018, 14:56:20 (UTC+0200) Mapping statistics for R1 and R2 tags ... Logs: logs/dixon_2M_2/mapping_stats.log Logs: logs/dixon_2M/mapping_stats.log vendredi 13 juillet 2018, 14:56:21 (UTC+0200) Pairing of R1 and R2 tags ... Logs: logs/dixon_2M_2/mergeSAM.log Logs: logs/dixon_2M/mergeSAM.log vendredi 13 juillet 2018, 14:56:29 (UTC+0200) Assign alignments to restriction fragments ... Logs: logs/dixon_2M_2/mapped_2hic_fragments.log Logs: logs/dixon_2M/mapped_2hic_fragments.log vendredi 13 juillet 2018, 14:57:09 (UTC+0200) Merge chunks from the same sample ... Logs: logs/dixon_2M/merge_valid_interactions.log Logs: logs/dixon_2M_2/merge_valid_interactions.log vendredi 13 juillet 2018, 14:57:09 (UTC+0200) Merge stat files per sample ... Logs: logs/dixon_2M/merge_stats.log Logs: logs/dixon_2M_2/merge_stats.log vendredi 13 juillet 2018, 14:57:10 (UTC+0200) Run quality checks for all samples ... Logs: logs/dixon_2M/make_Rplots.log Logs: logs/dixon_2M_2/make_Rplots.log vendredi 13 juillet 2018, 14:57:22 (UTC+0200) Generate binned matrix files ... Logs: logs/dixon_2M/build_raw_maps.log Logs: logs/dixon_2M_2/build_raw_maps.log vendredi 13 juillet 2018, 14:57:23 (UTC+0200) Run ICE Normalization ... Logs: logs/dixon_2M/ice_500000.log Logs: logs/dixon_2M/ice_1000000.log Logs: logs/dixon_2M_2/ice_500000.log Logs: logs/dixon_2M_2/ice_1000000.log

五、结果查看

-o 输出文件夹中,共有bowtie_results和hic_results两个结果文件夹。

其中bowtie_results文件夹下共有三个文件夹:bwt2、bwt2_global和bwt2_local,分别是序列比对结果、染色体间关联比对结果和染色体内部关联比对结果。其中bwt2文件夹下有一些数据统计结果的输出文件,如mpairstat文件等。

Total_pairs_processed    23546961    100.0Unmapped_pairs    22197   0.094Low_qual_pairs    0   0.0Unique_paired_alignments    17744193    75.357Multiple_pairs_alignments    462162  1.963Pairs_with_singleton    5318409 22.586Low_qual_singleton    0   0.0Unique_singleton_alignments    0   0.0Multiple_singleton_alignments    0   0.0Reported_pairs    17744193    75.357

hic_results文件夹下共有data、matrix以及pic三个文件夹。data文件夹下是比对上的有效序列对,文件末尾为_allValidPairs;pic文件夹下是各类结果数据统计下图所示;matrix文件夹下分为 iced 和 raw 两个文件夹,分别标准化后的关联矩阵和初始的关联矩阵。

六、HiCPlotter可视化

1. HiCPlotter的介绍:

  • python 脚本,不需要安装

  • 与HiC-Pro 兼容,设置相对应的参数即可可视化HiC结果

  • HiCPlotter基本可以做出三维基因组分析的大部分结果,应用方便快捷,唯一的就是调色比较麻烦(相对于它的简单快捷可以忽略不计啦)

先展示一下HiCPlotter的便捷

##  Plot the genome-wide map at 1Mb resolutionpython HiCPlotter.py -f hic_results/matrix/sample1/iced/1000000/sample1_1000000_iced.matrix -o Examplegw -r 1000000 -tri 1 -bed hic_results/matrix/sample1/raw/1000000/sample1_1000000_ord.bed -n hES -wg 1 -chr chrX## Plot the chrX at 150Kb resolutionpython HiCPlotter.py -f hic_results/matrix/sample1/iced/150000/sample1_150000_iced.matrix -o Exemple -r 150000 -tri 1 -bed hic_results/matrix/sample1/raw/150000/sample1_150000_ord.bed -n Test -chr chrX -ptr 1

直接调用Python就可以运行啦,减少了繁琐的安装步骤。

2. HiCPlotter的可视化实战

使用方式
python HiCPlotter.py -f file1 file2 -n name1 name2 -chr chrX -o output

2.1 整条染色体的Hi-C关系互作图

注意:如果设置-fh为0的话,表明形成的hic-martrix是没有表头行

Hi-C和TADs的数据来源: Dixon et, al. Nature 2012

python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default1 -fh 0

人类ESC细胞21号染色体的互作图

image

2.2 染色体某一区域的Hi-C互作图谱

python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default2 -ptd 1 -pptd 1 -s 600 -e 900 -fh 0 -w 8 -tr 10 -pi 1
image

2.3 TAD 的可视化

python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default2 -ptd 1 -pptd 1 -s 600 -e 900 -fh 0 -w 8 -tr 10 -pi 1 -pdb 1
image

2.4 多个数据集的比较相互作用

Hi-C 数据来源:Zuin et, al. PNAS 2014

Tips : 加 -hmc 参数可以改变heatmap的颜色

python HiCPlotter.py -f data/HiC/Human/GSM1081526_TEV_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081528_HRV_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081530_CTRL_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081533_CTCF_r2_cis.index.chr6.txt_matrix.txt -n WT RAD21-Depleted siControl CTCF-Depleted -chr chr6 -r 40000 -fh 0 -pi 0 -sn 0.35 -o Rad21.CTCF -s 2800 -e 2950 -hmc 5

wild type, RAD21-depleted, CTCF-depleted 的细胞6号染色体局部区域的互作关系

image

2.5 基因之间的相互作用

Tips:相比较默认的jpeg格式的文件,pdf格式的文件则相对更好一些

python HiCPlotter.py -f data/HiC/Human/IMR90-chr10_25kb.RAWobserved_KRnormalizedMatrix.txt -o genes -n IMR90 -chr chr17 -g genes.sorted.bed -r 25000 -s 1800 -e 1850 -hist data/HiC/Human/IMR90.Rad21.bedGraph -hl Rad21 -hm 500 -ext pdf
image

备注来源:

染色质高级结构研究之Hi-C技术(下篇)——可视化实战

ZZQ&DIATRE [DIATRE表观遗传](javascript:void(0);) 2018-12-20

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266