为什么uBAM迟迟无法流行起来

uBAM就是非比对的BAM文件,fastq可以通过picard这个工具将其转为这个格式。

它有不少优于fastq格式的地方,比如:同一个read的数据都在同一行;拓展性强,可以添加丰富的metadata;方便维护,同一个样本的测序数据甚至可以只通过一份uBAM来存储就行了等。

从我第一次知道uBAM的时候算起,已经过去4+年了。我也曾非常看好它,认为它必是以后存储下机数据的标准。然而时隔多年,很奇怪,uBAM这么好(GATK也都一直支持着这个格式),为什么还是迟迟不见它流行起来呢?

目前,使用uBAM格式的单位据我所知也仅仅只是一些比较大型的研究机构,比如美国的Broad Institute和英国的Sanger会采用它来存储下机数据。

这段时间思考下来觉得可能有以下几个原因,与诸位共享:

  1. BAM是“笨重”的,它并不是文本文件,你无法直接通过文本工具打开它查看具体内容。只能通过第三方工具或者专门的SAM/BAM程序包(或者API)来实现对它的操作。这对许多不熟悉这一处理方式的研究者来说,会带来很多麻烦。这等于是直接提高了操作这个文件的门槛,从这一点看使用体验确实远不如fastq;

  2. 主流工具还不完全支持,除了samtools和与它相关的少量工具,并没有太多其他的工具直接支持在命令行操作BAM;

  3. BAM文件的空间占比并不比压缩了的fastq小很多,优势有限;

  4. 底层IO效率方面,实际上也是文本格式的fastq(或者gzip压缩的fastq)要高于BAM。

从uBAM的这个现象,或许也侧面折射出了一些关于产品设计(或者方案设计)的问题。关于这个问题,我看到了三个地方,欢迎大家拍砖:

第一、体验。一个产品或者方案要流行起来,除了解决需求之外,对 使用体验的关注度要高于技术的先进性和产品本身的完备性;

第二、先发优势。时间一旦落后了(比如fastq早于uBAM很多年),用户习惯的更改需要有完备的技术解决工具来支持,降低切换成本,甚至实现无痛切换,从而最大程度的保留新产品的优势;

第三、看似简单的事物越是难以被取缔。fastq格式是一个存储测序数据极为简单、简明的数据格式,它只包含所有必须包含的内容,而且目标明确,就是序列ID、测序数据和质量值,它们都是必不可缺的信息,再多无用,似乎已是极致。


推荐阅读


这是知识星球:『解螺旋技术交流圈』,是一个我与读者朋友们的私人朋友圈。我有9年前沿而完整的生物信息学、NGS领域的工作经历,在该领域发有多篇Nature级别的科学文章,我也希望借助这个知识星球把自己的一些微薄经验分享给更多对组学感兴趣的伙伴们。

自从星球正式运行以来,已经过去了6个月,星球的成员也已经超过220人了。所分享的主题超过了500个,回答的问题超过了140个,精华70个。我在知识星球上留下的文字估计也已经超过10万字,加上大家的就更多了,相信接下来星球的内容一定还会不断丰富。另外,上周获得了知识星球官方评选的“最优质星球”优秀奖。

这是知识星球上 第一个真正与基因组学和生物信息学强相关的圈子。我希望能够借此营造一个高质量的组学知识圈和人脉圈,通过提问、彼此分享、交流经验、心得等,彼此更好地学习生信知识,提升基因组数据分析和解读的能力。

在这里你可以结识到全国优秀的基因组学和生物信息学专家,同时可以分享你的经验、见解和思考,有问题也可以向我提问和圈里的星友们提问。

知识星球邀请链接:「解螺旋技术交流圈」

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,646评论 4 366
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,979评论 1 301
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,391评论 0 250
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,356评论 0 215
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,740评论 3 293
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,836评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,022评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,764评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,487评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,728评论 2 252
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,200评论 1 263
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,548评论 3 260
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,217评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,134评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,921评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,919评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,766评论 2 274

推荐阅读更多精彩内容