pair end mate pair de novo

pair end

pair end是直接在DNA两端假设接头进行双向测序,插入片段长度较短
Paired-end方法是指在构建待测DNA文库时在“两端”的接头上都加上测序引物结合位点,在第一轮完成后,去除第一轮测序的模板链,用对读测序模块引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量

mate pair

mate pair测序的DNA文库是将很长的DNA进行环化,环化的接口处连接识别序列,然后打断,富集含有识别序列的DNA,再进行双向测序,那么双向测序的插入片段长度就会很长。
Mate-pair文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序(图3)。
一种测序时的大片段Library构建方法。就是先环化,然后再从特定位置切开,再做双端测序。这样可以跨过一些难以拼接的区域,比如重复序列

de novo测序

在不依赖于参考基因组的情况下进行组装,从而绘制该物种的全基因组序列图谱。de novo 是拉丁语从头开始。

DNA mate-pair

(1)定义:首先将基因组DNA随机打断到特定大小(2-20kb);
然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有链亲和霉素的磁珠将带有生物素标记的片段捕获。
这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina测序仪上进行测序。
通过大片段文库构建,从而获得基因组中较大跨度(2-20kb)片段两端的序列。
(2)用途:DNA Mate-pair文库制备的整个过程需要5天,这种从较大跨度两端所获得的序列对基因组de novo项目的组装和基因组结构变异发掘具有非常重要的作用。

Q&A

       HTML - http://www.novogene.com/index.php?m=content&c=index&a=lists&catid=46
       Powerpoint - http://wenku.baidu.com/link?url=JaMz6sFYcZCSMv4mRy7pO7WM2_GfoIT3TeRmp9vVgui52zUd_8hY2rzepXw5aLcrYbl_CEGGa7icrgYM9UYqCtkpHU3lYHMOb6duLMgXbNK

  • 什么是Read、Contig、Scaffold、Kmer?
    Read:测序读到的碱基序列片段,测序的最小单位;
    Contig:由reads通过对overlap区域拼接组装成的没有gap的序列段;
    Scaffold:通过pair ends信息确定出的contig排列,中间有gap;
    Kmer:长度为k的核苷酸序列,用于构建de brujin图。
  • 什么是N50,N70,N90?
    答:把组装出的contigs或scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度50%时,最后一个contig或scaffold的大小即为N50的大小,N50对评价基因测序的完整性有重要意义;N70和N90的计算方法与N50类似,只是百分数变为70%或90%。
  • 普通基因组的解决方案?
    SOAPdenovoII进行普通基因组组装。
    组装流程
    (1)构建不同长度的插入片段文库;
    (2)构建de Brujin图;
    (3)化简de Brujin图;
    (4)构建contigs;
    (5)构建scaffolds;
    (6)补gaps;
  • 复杂基因组(二倍体杂合)的解决方案?
    答:针对复杂基因组中二倍体杂合基因组,诺禾致源开发了NOVOheter软件,成功实现了二倍体杂合基因组组装。与SOAPdenovo相比,NOVOheter软件组装二倍体杂合基因组的技术创新主要体现在以下几个方面:
    (1)通过高深度测序(200-300X)将基因组上的杂合和纯合区域分开;
    (2)利用reads信息和PE关系连接杂合位点,延长原始contigs:在杂合部分间距离较短的情况下,利用reads信息将杂合位点连接起来,若杂合部分间距离较长时,利用Pair-End关系连接杂合位点(所以需要加入更多类型的小片段文库,以连接不同距离的杂合位点),从而提高了contigs的长度,为后续组装打下基础(图3);
    a:利用深度信息区分杂合部分(覆盖度为n)和纯合部分(覆盖度为2n);
    b:若杂合部分的距离较短(如60bp),则可利用reads信息将杂合位点连接起来;
    c:若杂合部分的距离较长(如400bp),则利用Pair-End关系,将杂合位点连接起来;
    d:得到杂合contigs。
    注:图中不同颜色的点表示杂合位点。
    (3)分区域构建scaffolds:同样利用contigs深度信息区分纯合contigs和杂合contigs;利用Pair-End关系将纯合contigs,杂合contigs分别组装成scaffolds;最后将相邻的纯合contigs和杂合contigs进行连接,构建更长的scaffolds。
  • 如何评价组装结果?
    答:常染色体区的覆盖度:评价基因组常染色体区的覆盖度,可以用BAC或者是Fosmid序列来评估;把已公布或者客户提供的BAC或fosmid克隆序列作为Refrence,将拼接完成的基因组序列map回已知的BAC或者fosmid序列上,检查拼接的序列对已知序列的覆盖度到什么水平。
    基因区的覆盖度:评价基因区的覆盖度,可以用EST序列或者是转录组序列来评估;把已公布或者客户提供的EST或转录组序列作为query序列map到拼接完成的基因组序列上,检查拼接序列对已知序列的覆盖度是达到什么水平。
  • 影响基因组组装的因素?
    答:基因组的重复序列和杂合度,是否污染以及基因组的倍性情况。
  • 基因组项目的标准生物信息分析的内容?
    答:基因组项目的标准生物信息分析的内容如下:
    (1)数据处理;
    (2)基因组组装:
    基因组评估:基因组大小、GC含量、复杂序列、杂合度评;
    组装:数据纠错;Contig、Scaffold组装;Gap填充;组装质量分析、评估和结果统计;
    (3)基因组注释:重复序列注释;基因预测;基因组功能注释;非编码RNA注释;
    (4)比较基因组学分析:
    基因家族鉴定;
    基因组共线性分析;
    全基因组复制分析(动物:WGAC;植物:WGD);
    正选择基因的鉴定及功能分析;
    基因家族的扩增收缩分析;
    系统发育分析;
    物种分化时间估计。
  • Kmer 分布
    简单基因组的Kmer覆盖深度呈现单峰形式,符合泊松分布
    高杂合二倍体基因组的杂合平均深度是n,纯合约是2n,因此会有两个峰。

Phrap 算法

建立所有overlap的信息,然后组成一个layout重叠片段互相连接,然后对这个图找Hamilton路(有向带权图)。

Euler 算法

构造de brujin图,然后对这个图找Euler路,其中图的路径是

Shotgun

Shotgun得到reads片段,然后组合而成contigs,连起来称为supercontigs,最后得到结果。

基因组大小

查询植物基因组大小的网站:http://data.kew.org/cvalues/CvalServlet?querytype=2
查询动物基因组大小的网站:http://www.genomesize.com/search.php

作者:Waste_Land
链接:https://www.jianshu.com/p/2f10e3c94161
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容

  • 8种特殊建库测序 8种特殊建库测序 1. RNA-seq 2. 外显子测序 3. small RNA-seq 4....
    wangchuang2017阅读 12,811评论 2 92
  • pair end pair end是直接在DNA两端假设接头进行双向测序,插入片段长度较短Paired-end方法...
    Waste_Land阅读 2,060评论 0 12
  • 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sang...
    翠湖心影阅读 20,102评论 2 81
  • 前些天看到一个新闻说河南郑州一高校女生跳楼自杀,看到评论有人猜测她跳楼的原因是失恋,有人说是贷款等等。 看到这个新...
    白杨mmm阅读 413评论 0 0
  • 总在想,有些遇见,是否只一眼,便能够触及彼此内心的柔软,妥帖那经久的情愫,修一段最美的良缘?倘若,时光恰好,你我相...
    颜如玉心诉阅读 308评论 0 0