序列比对其他相关问题

全局比对 Global Alignment

由芝加哥的Needleman和Wunsch两位于上个世纪70年代初提出,常被称之为Needleman-Wunsch算法。算法针对用户指定的打分函数,确定性地找出两条序列间的最优比对。

Needle-Wunsch 算法对两条序列所有残基进行全局比对的局限性。

  • 功能相关的蛋白之间虽然可能在整体序列上相差甚远, 却常常会具有相同的功能域
  • 序列片段能够独立发挥特定的生物学功能,却在不同蛋白之间相当保守
  • 仅靠全局比对的算法无法发现这样的片段
  • 内含子的发现使得在做核酸水平的序列比对时必须要正确处理内含子导致的大片段的差异

局部比对 Local Alignment

1981年,物理学家Temple Smith和数学家Michael Waterman在Journal of Molcular Biology上发表了一篇仅有四页的文章,提出Smith-Waterman局部比对算法

race back begins at the highest score inthe matrix and continues until you reach 0。And also the secondary best alignment

img

核心思想是给分数增加了下限0分

所有的回溯都是局部的,所有的最终比对也是局部的。引入止损下限,差异扩大之后重启比对,找到局部水平的相似性

空位罚分的改进

Affine gap penalty

  • opening a gap receives a score ofd
  • extending a gap receives a score of e
  • Penalty = d + (n-1)* e

有限向量机


alt

扩展公式

alt

全局比对的时间复杂性

O(mn) 正比于m*n

全基因组比对

同源homology的分类

  • 直系同源 ortholog 来自于不同的物种,演化过程中基因没有丢失,各物种中都有

    chaining

  • 旁系同源 paralog 来自于一个物种内部基因组的复制

    netting

NGS: Sequence alignment

Map the large numbers of short reads to a reference genome

  • In a broader sense: Identify similar sequences (DNA, RNA, or protein) inconsequence of functional, structural, or evolutionary relationships between the them
  • Applications: Genome assembly, SNP detection, homology search, etc

short: greater search sensitivity

large: faster search speed

In-exact alignment

BWA和bowtie的相关算法,大大减少了对服务器的要求

如何快速的知道某段序列大约在基因组的哪个位置

  1. 如何定义大约这个概念
  • Hamming Distance or Sequence Similarity
  • Ungapped vs Gapped Global vs Local
  • All positions or the single best
  1. Efficiency depends on the data characteristics & goals
  • Smith-Waterman: Exhaustive search for optimal alignments
  • BLAST: Hash-table based homology searches
  • Bowtie: BWT alignment for short read mapping

BWT算法

核心是绕最后一个序列转圈

alt
  • 先给每一个T做rotations,再进行sort,生成bw矩阵,最后一列从头到尾就是BWT

  • 回溯

    给每一个T的字母一个出现次数的排序,图示如下

    alt

Suffix(后缀) Arrays

类似于电话本中的索引结构

What if we need to check many queries

  • We don't need to check every page of the phone book to find 'Ma'

  • Sorting alphabetically lets us immediately skip 96% (25/26) of the book withoutany loss in accuracy

Sorting the genome: Suffix Array (Manber & Myers1991)

  • Sort every suffix of the genome
alt

所有具有相同prefix(前缀)的suffixes(后缀)会聚在一起,这样就可以进行类似于二分法的排除

全基因组建立index

alt
  • An array of integers giving the startingpositions of suffixes of a string inlexicographical order

  • 从中间的index开始找,过滤一半

alt

效率

Total Runtime: O(m log n)

  • More complicated, but much faster!
  • Looking up a query loops 32 times instead of 3B

Searching the array is very fast, but it takes time to construct

  • This time will be amortized over many, many searches
  • Run it once "overnight" and save it away for all future queries
  • 非常消耗内存

BLAST/Dot matrix

Indexing-based local alignment

alt

Basic Local Alignment Search Tool

围绕最优比对路径进行计算

BLAST Ideas 核心思想: Seeding‐and‐extending

  • Find matches (seed) between the query and subject 找到高度相似的小片段,种子

  • Extend seed into High Scoring Segment Pairs (HSPs) 向两端延伸并进行比对

    Run Smith‐Waterman algorithm on the specified region only

  • Assess the reliability of the alignment 打分评估

将序列切分,在数据库中定位候选序列和位置

alt

得到候选序列和查询序列的heatmap

去掉零散的hit,直留下对角线,形成hit cluster

以hit cluster为基础向左右进行延伸直到分数不符合要去

在扩展的区域进行局部比对

alt

blast加速

  • 标记低复杂度,易产生假阳性
  • 考虑与种子相似的邻居单字

分数评估,避免随机因素

E value

alt
  • n数据库大小
  • k和打分矩阵相关
  • m长度
  • s比对的分数

在随机情况下获得比当前分数高的可能比对条数,不是概率是个望值。p为0.05时,E也是0.05。

BLAST是一种启发式算法,不确定有最优解

alt

只在有效区域应用动态规划算法


加入靠谱熊基地,和大家一起交流
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,099评论 0 10
  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz阅读 5,378评论 0 5
  • 在使用element-ui的时候会发现一个问题:表格组件 el-table 自适应在父元素宽度缩小时,表格没有对应...
    蜡笔丶超人阅读 10,358评论 0 1
  • 紫凌薇家~ “滚!带着你的贱女儿离开!”紫暗夜(紫凌薇的爸爸)愤怒地说着,手搂着另一个女人的腰。 “会的,我会离开...
    某柔阅读 544评论 0 0
  • 斯里兰卡被称为印度洋上的眼泪,蓝得令人心碎。作为佛教国家北边是文化名城,中部是山地茶园,南部是超美海滩,总的来说是...
    i小魔女琦琦阅读 182评论 0 0