生信 | 基因组组装实战(一):基础知识与基本思路

写在前面

  • 以下内容均来自菲沙基因(Frasergen)暑期生信培训班课堂笔记

1. Genome de nove 基础知识

➢ 基因组(Genome)

基因组就是物种所含有的一套遗传物质(单倍体细胞核、细胞器所含的全部DNA分子) , 包括全套基因和间隔序列。

  • 基因组

➢ 基因组测序(Genome Sequencing)

➢基因组测序

  • 利用测序技术对物种的体内的所有DNA分子进行测序,获取碱基组成,明确出基因的结构信息,外显子及内含子区域、启动子位置,以及基因的排列顺序及功能。

➢基因组测序技术

  • 二代测序: 基于BGI平台的边合成边测序;
  • 三代测序:基于PacBio平台的单分子实时测序。

➢基因组测序原理

  • 通过对基因组DNA序列进行打断处理 ,制作成可以识别或读取的DNA形式及大小,利用荧光标记对每个碱基信号进行读取,进而获得DNA序列信息。

➢ 基因组从头测序(Genome de nove)

  • 基因组de nove,又称为基因组从头测序,是指对基因组序列未知(或仅有基因组草图)的物种进行全基因组测序,然后进行拼装,从而得到该物种的全基因组序列,为后续功能基因挖掘、调控代谢网络构建、物种进化分析等奠定基础。
    Genome

➢ 构建参考基因组 pipeline

构建参考基因组 pipeline

2. pipeline的功能简介

➢ 基因组 Survey 分析

  • 基因组Survey基于小片段文库的低深度测序数据( 50X-100X ) ;

  • 通过K-mer分析 ,有效的评估基因组大小、GC含量、杂合度以及重复序列的含量等信息;

  • 是全面了解某一物种基因组特征的有效方法;

  • 为后续的全基因组 de novo 测序的组装策略的制定提供理论依据。

    Genome Survey

  • 补充知识(一): 基因组复杂程度预估
    基因组复杂程度预估
  • 补充知识(二):根据K-mer图确认物种倍型

二倍体:杂合峰:主峰:重复峰 = 1:2:4(比值为横坐标峰的比值)

二倍体K-mer图
三倍体:正常情况下杂合峰:主峰:重复峰 = 1:2:3(左图)。主峰和重复峰深度低则可能重叠在一起:杂合峰:主峰:重复峰 = 1:2(右图)]
三倍体K-mer图
异源四倍体:2个峰,呈现1:2的关系
异源四倍体K-mer图
同源四倍体:同源四倍体的峰就是1 : 2 : 3 : 4 ,其中3和4经常重叠在一起
同源四倍体K-mer图

  • 补充知识(三):Survery的优势
Survery的优势

➢ 基因组组装与注释

  • 基本概念与原理
  • Contig:使用短reads之间的overlap关系拼接所得的无GAP序列片段
  • Scaffold:通过大片段文库将Contig进-步连接所得的长序列片段,各个Contig之间用"N"填补
    关系图
  • 组装质量评价基本指标:ContigN50SeaffoldN50
    组装质量评价基本指标
  • 将组装所得序列从大到小排列,并依次相加,当累加长度达到总长度一半时,最后一条序列的长度即为N50;一般来说,N50越大,组装结果的连续性越好
  • 组装流程
组装流程
  • 组装
    常用软件有Canu, MECAT, FALCON。从项目周期、组装结果、资源消耗等方面综合来看,菲沙基因(Frasergen)他们首选Mecat 2进行基因组组装。

  • Hi-C辅助组装
    Hi-C数据的一般规律:
    ➢ 染色体内的互作高于染色体间的互作
    ➢ 染色体内互作强度随线性距离增加而减弱


    Hi-C辅助组装
  • 组装结果评估

    数据回比:为了评估组装的完整性和测序覆盖的均匀性,选择CLR (Continuous Long Reads) subreads ,使用比对工具Minimap2 ( v2.5默认参数)比对回组装好的基因组,统计reads的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性,结果如下表所示。
    数据回比结果

    BUSCO评估:基于OrthoDB中的单拷贝同源基因集,使用BUSCO ( V3.0.2 )预测这些基因并统计其完整度,碎片化程度及可能的丢失率。由此评估整个组装结果中基因区的完整性(大于90%较好)。BUSCO评估结果如下表所示。
    BUSCO评估
  • 基因结构注释
    基因结构预测包括预测基因组中的基因位点、开放性阅读框架(ORF)、翻译起始位点和终止位点、内含子和外显子区域、启动子和终止子、可变剪切位点以及蛋白编码序列(CDS)等


    真核基因结构
  • 基因功能注释
    全基因组测序将产生大量数据,此前普遍采用比对方法对对预测出来的编码基因进行功能注释,通过与各种功能数据库(NR、Swiss-Prot 、GO、KOG、KEGG)进行蛋白质比对,获取该基因的功能信息。其中GO和KEGG数据库分别在基因功能和代谢通路研究中占据重要地位。

    基因功能注释

  • 非编码RNA注释
    非编码RNA(ncRNA),指不翻译成蛋白质的RNA,如
    miRNA(MicroRNA),
    tRNA(转运RNA),
    rRNA(核糖体RNA),
    snRNA(小核RNA)等。
    利用tRNAscan-SE对全基因组进行tRNA预测;利用RNAmmer预测全基因的rRNA;利用Rfam数据库通过cmscan鉴定全基因组非编码RNA


    非编码RNA
  • 重复序列分析
    重复序列广泛存在于真核生物基因组中,这些重复序列或集中成簇,或分散在基因之间,根据分布把重复序列分为分散重复序列(Interpersed repeat)和串联重复序列(Tendam repeat)


    重复序列分析
  • 基因组圈图结果展示
    基因组圈图

➢ 比较基因组学

  • 比较基因组学是从基因组中解析生物学意义


    比较基因组学流程图
  • 基因家族聚类
    基因家族聚类
  • 系统进化树
    系统进化树
  • 物种分歧时间计算
    物种分歧时间
  • 基因家族扩展收缩分析
    基因家族扩展收缩分析
  • 正选择分析
    正选择分析
  • 共线性分析(需到染色体水平)
    共线性分析
  • 全基因组复制分析(WGD)
    全基因组复制分析(WGD)
  • 泛基因组分析(需要多份基因组de nove测序数据)
    泛基因组分析

写在最后

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249

推荐阅读更多精彩内容