转录组练习(4)

原文地址:https://www.jianshu.com/p/f101c9238fc5

                  https://www.jianshu.com/p/1b9426d0f9f4

下载参考基因组

登陆网站http://genome.ucsc.edu/index.html下载hg19参考基因组

image.png

image.png

image.png

image.png

hg下载前是900M 左右,解压后是3G大小


这里需要在终端解压一下,普通解压方法不好用

tar -zxvf chromFa.tar.gz

#解压后可以发现,参考序列是按照染色体号分开列出的,我们还需要把所有的序列写入到一个文件中。

cat *.fa > hg19.fa

#最后删除其他无用的文件

rm chr*.fa

下载注释文件

官网:http://www.gencodegenes.org

image.png

image.png

# GTF格式主要是用来描述基因的注释axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_27/GRCh37_mapping/gencode.v27lift37.annotation.gtf.gz# GFF文件是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版)(GFF3)axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_27/GRCh37_mapping/gencode.v27lift37.annotation.gff3.gz# 解压并删除原来的文件gzip -d gencode.v27lift37.annotation.gtf.gzgzip -d gencode.v27lift37.annotation.gff3.gz

image.png

IGV软件的下载和安装

IGV软件全称:Intergrative Genomics Viewer 是一个高效的查看基因数据的可视化软件。

官网:http://software.broadinstitute.org/software/igv/home

安装igv 之前需要先安装java 8 以上版本

官网:https://java.com/en/download/mac_download.jsp

IGV软件的使用

窗口

主窗口布局:

tool bar(工具栏),menu bar(菜单栏),pop-up menus(弹出式菜单)

染色体上的红色盒子表示显示这部分染色体,显示完整染色体是红框会消失

尺度显示了染色体的可见部分,刻度线显示了染色体的位置,跨度列表显示了当前显示的碱基的数量

IGV在水平行显示的数据称为tracks。通常,每个tracks代表一个样本或实验。这个例子展示了甲基化、基因表达、拷贝数,LOH和突变数据

IGV也显示某些特性,比如在tracks中的基因。默认情况下,IGV在一个面板显示数据,在另一个面板显示数据特性。拖放一个track名称,将一个track从一个面板移动到另一个地方

Track名称列在最左边面板。名字的易读性取决于 tracks的高度,例如,track越小,它的名字的可读性越小

属性名称被列在顶部的属性面板。彩色块代表属性值,每个独特的值被都有一个独特的颜色。鼠标放在一个颜色块的附近来查看其属性值

导入参考基因组及注释信息,查看感兴趣基因的结构

导入前面的 hg19.fa

接着导入gtf文件,需要先sort,才能导入

把count 改成 sort,在input里面输入gff3文件(先解压)

在output里面就会生成sorted文件然后在file-load from files-输入 sorted 的文件

-现在可以导入sort 后的gtf 文件了。

高通量测序图解见下章分析

参考文献

http://www.jianshu.com/p/48b5a0972301(GTF/GFF文件的差异及其相互转换)

http://www.jianshu.com/p/3e545b9a3c68(hoptop)

http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ1lZQRc2nKQhn2SthRW24I8CZ(greenhillman)

推荐阅读更多精彩内容