参考基因组和注释文件

参考基因组和注释文件

Posted on 2018-06-30 21:27 微凉charles 阅读(1240) 评论(0) 编辑 收藏

作业要求:
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。

一. 参考基因组--下载

地址:UCSC https://genome.ucsc.edu/

image
image
image
image

(1)、进入UCSC---选择Downloads---genomic data---human---GRCh37/hg19---Full data set,下拉,找到chromFa.tar.gz,右击chromFa.tar.gz,选择“复制链接地址”

点击 Full data set后,有各类文件的说明文档

(2)、终端命令行操作

[
复制代码

](javascript:void(0); "复制代码")

<pre style="margin: 0px 0px 0px 22px; white-space: pre-wrap; overflow-wrap: break-word; font-size: 12px !important; font-family: "Courier New" !important;"> 1 # 切换到要存放参考基因组的目录
2 cd data/GSE81916/reference/genome/hg19 3 4 # 用axel或wget下载参考基因组 5 nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz # wget后面跟的是参考基因组的下载地址
6
7 # 解压下载后的文件
8 tar -zxvf chromFa.tar.gz 9 10 # 解压后可以发现,参考序列是按照染色体号分开列出的,我们还需要把所有的序列写入到一个文件中。 11 cat .fa > hg19.fa 12
13 #最后删除其他无用的文件 14 $ rm chr
.fa</pre>

[
复制代码

](javascript:void(0); "复制代码")

** 二. 注释文件--下载**

image
image
image

(1)、进入Gencode数据库---Data---Human---GRCh37-mapped Release---选择2016年10月份发布的最新注释版本“gencode.v26lift37.annotation.gtf.gz”

鼠标右击,“复制链接地址”

(2)、命令行批量下载
<pre style="margin: 0px 0px 0px 22px; white-space: pre-wrap; overflow-wrap: break-word; font-size: 12px !important; font-family: "Courier New" !important;">1 # 用axel批量下载 2 axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz 3 # 下载后解压 4 gzip -d gencode.v26lift37.annotation.gtf.gz 5 # 与下载的hg19参考基因组放在一起 6 $ mv genconde.v26lift37.annotation.gtf ./Reference/Human/hg19</pre>

补充:GTF和GFF之间的区别

数据结构:都是由9列构成,分别是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同。

GFF第9列:都是以键值对的形式,键值之间用“=”连接,不同属性之间用“;”分隔,都是以ID这个属性开始。下图中有两个ID,说明是不同的序列。

image

GTF第9列:同样以键值对的形式,键值之间是以空格区分,值用双引号括起来;不同属性之间用“;”分隔;开头必须是geneid, transciptid两个属性。[图片上传失败...(image-9af276-1541836318580)]

三. 基因组浏览器:IGV

Integrative Genomics Viewer(IGV)是一种探索大型综合基因组数据的高性能交互式可视化工具。它支持各种各样的数据类型,包括基于芯片测序、二代测序数据和基因组注释数据等。

** IGV下载**

image.png

IGV使用

0、初始化窗口

image

1、载入基因组,选择Genome标签,load我们之前已经下载好的hg19.fa基因组。

2、载入基因组注释,但是在载入之前需要将gff3进行排序,选择Tools-Run igvtools,进入以下igvtools窗口:

image

3、获得sorted文件:command选择sort,再选择输入的注释文件,点击Run,就可以生成sorted.gff3文件。

4、通过file->load from file...选择sorted文件,打开。选择区域的大小,来看某些基因的信息,蓝色的粗线条就是代表基因。说到底,IGV就是一个将基因组及其注释信息可视化的工具。 (下图是载入基因组和注释信息后的窗口)
image

四. 理论知识

RNA-seq数据分析的通用套路是:

1、检测测序数据的质量,如果需要,对数据进行预处理,去掉接头,去掉质量差的数据等等

2、将所有数据回帖到genome,根据结果,进行新基因或转录本的鉴定,然后对转录数据进行定量,并进行差异表达分析。也可跳过对新基因和新转录本的分析,只对已知的基因和转录本进行定量。

3、如果没有参考genome数据,可以供transcritome数据代替。

4、如果参考转录组数据也没有,可以直接对RNA-seq数据进行从头组装,注释,作为参考转录组。

image

图片源于《RNA-seq Data Analysis》

把高通量测序得到的reads回帖到参考基因组上,既是进行后续基因表达定量差异表达分析的基础,同时也是可变剪接分析SNPInDel分析以及测试数据质量控制的一部分

回帖常用软件:HISAT2, STAR

参考基因组

参考基因组的实质:就是某一物种的基因组序列,因此是fasta格式。

三大网站:

1.NCBI (https://www.ncbi.nlm.nih.gov/grc

2.UCSC (http://hgdownload.soe.ucsc.edu/downloads.html)

3.Ensemble (http://asia.ensembl.org/index.html?redirect=no

三大网站的ftp地址:

ensembl : ftp://ftp.ensembl.org/pub

NCBI : ftp://ftp.ncbi.nih.gov/genomes/

UCSC:ftp://hgdownload.soe.ucsc.edu/goldenPath

推荐:去Ensemble下载参考序列,(UCSC很久没更新)

目前最常用的人的参考基因组版本如下(Jimmy总结):

|

NCBI

|

UCSC

|

Ensemble

|
|

GRCh36

|

hg18

|

ENSEMBL release_52

|
|

GRCh37

|

hg19

|

ENSEMBL release_59/61/64/68/69/75

|
|

GRCh38

|

hg38

|

ENSEMBL release_76/77/78/80/81/8

|

注释文件

就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以上三个提供参考基因组的网站中都有提供,比如Ensemble。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

IGV软件界面简介

image

主窗口布局:

1.工具栏tool bar

2.红色框显示当前显示的染色体的位置,当缩小显示范围到整个染色体范围时,红色框消失。

3.显示当前查看的染色体序列的长度

4.该窗口显示测序样品的测序情况。每一条track代表一个样品或者一次实验,显示的情况包括甲基化、表达水平、拷贝数,碱基突变等信息。

5.参考基因组信息

6.track名(即样品或者实验名)

7.Attribute names属性名,即序列信息,如indel、甲基化等。

更多的使用方法可查看IGV User Guide

参考资料

转录组入门(1)-作业-转录组-生信技能树 http://www.biotrainee.com/thread-1796-1-1.html

HOPTOP转录组入门(一)布置运行环境-转录组-生信技能树 http://www.biotrainee.com/thread-1800-1-1.html

RNA-seq基础入门传送门-转录组-生信技能树 http://www.biotrainee.com/thread-1750-1-1.html

浙大植物学小白的转录组笔记 http://www.360doc.com/content/17/0911/22/46164085_686360709.shtml

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容