ChromHMM: 染色体状态的分类

前言

  时间过的真快,一转眼距离上一次发帖已经过去两周的时间,不知道这两周时间自己都忙了些啥,时间就没有了。真的是越穷越忙,越忙越穷啊!

  上周测试了一个软件——ChromHMM,这是一款用来做染色体状态分类的软件,由于是用java写的软件,所以免于安装直接下载即可使用,用起来也是相当的简单。今天来跟大家分享一下它的用法。做染色体状态分类需要用到组蛋白修饰的信息,目前,已经有不少已知功能的组蛋白修饰,如H3k4me3修饰主要发生在基因组的启动子区,而H3k27me3修饰除了发生在启动区外也主要集中在基因富集区域,H3K4me3、H3k27me3修饰的主要生物学功能分别是活化和阻遏基因的表达,还有很多其他已知功能的组蛋白修饰这里就不介绍那么多了。在说软件的用法之前,先解释一下什么是染色体状态分类?所谓的染色体状态分类,也就是基于一些组蛋白修饰标记用机器学习的方法将染色体片段分成不同的状态,假定这些状态具有某些生物学的意义。

  下面来具体说一下如何使用ChromHMM做染色体状态的分类,分析之前需要准备好三种输入文件,一是染色体大小文件(chrlen.txt),二是组蛋白标记的样本表格(design_sheet.txt),三是样本比对生成的bam文件或者reads覆盖的bed文件。
先直观的看一下输入文件的格式,如下所示:
chrlen.txt格式类似如下,第一列是染色体名称,第二列是染色体长度:

chr1    248956422
chr2    242193529
chr3    198295559
chr4    190214555
chr5    181538259
chr6    170805979
chr7    159345973
chr8    145138636
chr9    138394717
chr10   133797422

design_sheet.txt格式类似如下,第一列是细胞系名称,第二列是组蛋白名称,第三列是bam文件的名字:

IMR90   H3K4me1 GSM521895_sort_uniq.bam
IMR90   H3K4me3 GSM521901_sort_uniq.bam
IMR90   H3K9me3 GSM469974_sort_uniq.bam
IMR90   H3K27ac GSM469966_sort_uniq.bam
IMR90   H3K27me3        GSM469968_sort_uniq.bam
IMR90   H3K36me3        GSM521890_sort_uniq.bam
IMR90   H3K9ac  GSM469973_sort_uniq.bam
IMR90   H3K4ac  GSM521893_sort_uniq.bam
IMR90   H3K14ac GSM521881_sort_uniq.bam
IMR90   H3K18ac GSM521884_sort_uniq.bam
IMR90   H3K23ac GSM521885_sort_uniq.bam
IMR90   H3K56ac GSM521902_sort_uniq.bam
IMR90   H4K5ac  GSM469975_sort_uniq.bam
IMR90   H2AK5ac GSM521866_sort_uniq.bam
IMR90   H2BK120ac       GSM521869_sort_uniq.bam
IMR90   H2BK12ac        GSM521871_sort_uniq.bam
IMR90   H2BK20ac        GSM521879_sort_uniq.bam
IMR90   H3K4me2 GSM521899_sort_uniq.bam
IMR90   H3K79me1        GSM521904_sort_uniq.bam

bam、bed格式这里就不展示了,准备好输入文件下面就可以开始分析了,首先是将比对文件转化为二进制的信号文件,bam、bed这两种格式的文件分别使用软件的BinarizeBam、BinarizeBed子命令,这里仅展示BinarizeBam的用法,BinarizeBed与此类似,命令如下:

java -mx4000M -jar ChromHMM.jar BinarizeBam -gzip -b 200 -f 0 -g 0 -p 0.0001 chrlen.txt bamfile design_sheet.txt  binarization

chrlen.txt:染色体大小文件,
bamfile:存放组蛋白bam文件的目录,所有用到的组蛋白bam文件都放在这个目录下面,
design_sheet.txt:组蛋白标记的样本表格,
binarization:输出目录,用来存放转换后的二进制的信号文件。
其他的参数大家可以看软件说明书。

  转换完成后,接着就是利用信号文件,使用LearnModel子命令来完成染色体的分类及富集分析,命令行代码如下:

java -mx4000M -jar ChromHMM.jar LearnModel -gzip -d 0.001 -color 0,0,255 -p 5 -i chrhmm binarization learnmodel 18 hg38

chrhmm:设置输出文件的前缀,
binarization:上一步得到的二进制信号文件的存放目录,
learnmodel:输出目录,用来存放分类结果,
18:状态数,
hg38:基因组版本。

分类完成后,结果目录如下:

state18/learnmodel
├── emissions_18_chrhmm.png                        #染色体状态的分类热图,png格式
├── emissions_18_chrhmm.svg                        #染色体状态的分类热图,svg格式
├── emissions_18_chrhmm.txt                        #染色体状态分类热图的作图数据
├── IMR90_18_chrhmm_dense.bed.gz                   #可在IGV浏览器中展示分类结果的bed文件,所有状态在同一个track里面
├── IMR90_18_chrhmm_expanded.bed.gz                #可在IGV浏览器中展示分类结果的bed文件,不同状态在不同的track里面
├── IMR90_18_chrhmm_overlap.png                    #染色体状态的富集热图,png格式
├── IMR90_18_chrhmm_overlap.svg                    #染色体状态的富集热图,svg格式
├── IMR90_18_chrhmm_overlap.txt                    #染色体状态富集热图的作图数据
├── IMR90_18_chrhmm_RefSeqTES_neighborhood.png     #染色体状态在TES区域的富集热图,png格式
├── IMR90_18_chrhmm_RefSeqTES_neighborhood.svg     #染色体状态在TES区域的富集热图,svg格式
├── IMR90_18_chrhmm_RefSeqTES_neighborhood.txt     #染色体状态在TES区域的富集热图的作图数据
├── IMR90_18_chrhmm_RefSeqTSS_neighborhood.png     #染色体状态在TSS区域的富集热图,png格式
├── IMR90_18_chrhmm_RefSeqTSS_neighborhood.svg     #染色体状态在TSS区域的富集热图,svg格式
├── IMR90_18_chrhmm_RefSeqTSS_neighborhood.txt     #染色体状态在TSS区域的富集热图的作图数据
├── IMR90_18_chrhmm_segments.bed.gz                #染色体状体的分类结果的bed文件
├── model_18_chrhmm.txt                            #包含learnmodel子命令使用参数的文件
├── transitions_18_chrhmm.png                      #状态转化的热图,png格式
├── transitions_18_chrhmm.svg                      #状态转化的热图,svg格式
├── transitions_18_chrhmm.txt                      #状态转化热图的作图数据
└── webpage_18_chrhmm.html                         #染色体状态分类的网页报告

染色体分类的热图:

  至此,染色体分类就完成了,分析还是挺很简单的吧!剩下的任务就是对结果的解读了,解读的过程可能相对来说不是那么容易,解读的过程需要依赖于对组蛋白的功能背景、注释及富集位置(也就是上面的三个热图),然后再结合自身所研究的目的来解读出具有生物学意义的结果。

最后

  今天就分享到这里吧,最后附上软件的下载链接,方便大家下载:http://compbio.mit.edu/ChromHMM/,更详细的参数解释大家也可以看软件的说明书。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270