读后|| Encyclopedia of Bioinformatics and Computational Biology ABC of Bioinformatics

最近生信圈子在传一本书:Encyclopedia of Bioinformatics and Computational Biology ABC of Bioinformatics。可以说这本书谈及了生物信息学的许多方面,我下载来翻了一下,大概三千多页吧,分三卷。这样大致的翻一翻,知道了一个大概,其实生物信息学主要的是围绕着中心法则展开的数学与计算机的学问。

第一个问题是如何在一个半小时内翻完一本三千多页的外文书?

当然你不能设置pdf自动翻页,然后自己去逛B站。目录是必须要看的,然后在不断的滑动鼠标的同时要看里每一章的标题以及一级标题和有趣的图表。这样,一遍下来,这本书的轮廓就了然了。对于这么一本庞然大物,这样的快速阅读是有必要的,接下来你可以确定哪部分是你比较感兴趣的,然后仔细的去读。

结合生物信息的数据结构,浅谈一下生物信息工程师的段位。首先,我们需要明确生物信息工程师处理的是什么数据?测序数据?临床数据?社会调查数据?也许是所有的数据。我们在看医学文献的时候,里面既有测序数据,又有临床数据,还是有病人的社会关系数据,甚至是病人的消费习惯的数据,这一切都是生物信息工程师要面对的数据吗?

如果是,那么生物信息工程师真的就是数据科学家了。其实就是的。但是我们还是不想把话题唠的那么大,围绕着中心法则来讲吧。

  • 序列数据

我们认为这是基本的,一个生物信息工程师如果没有亲自处理过fasta数据,那他和这个工种离得就有点远了。序列有顺序和结构两个方面,DNA和RNA的结构其实目前基本已经摸得差不多了,虽然氨基酸(蛋白质)的结构也建立了一些数据库,但是它的三维结构还有许多未开垦的领域。顺序的序列数据主要用来组装与比对,序列的结构数据的挑战一方面来自数据结构,一方面来自表示算法。其实很多大牛做的就是这部分的工作。

  • 矩阵数据

最常见的就是各种表达谱。主要见于RNA-seq的数据当中,比如最近比较火的单细胞转录组,它的数据分析基本就是基于这么一张cell X gene的表达谱:

所以,单细胞转录组的数据分析工作并不难:二维表是人类在念书的时候处理的最熟练的表。之前有处理过类似表达谱、丰度表的同学做单细胞转录组,很多情况下就是换个概念。这时候 的挑战不是技术方面的,而是理解生物学的意义。另一方面是数据模型的应用,当然,序列数据的处理也离不开数学模型,只是这里我们直接地面对了数学模型。而且数据数据科学的发展,处理矩阵数据的方法也越来越多,所以矩阵数据的算法迭代是比较快的,特别是机器学习的内容。机器学习似乎就见不得数值型数据,一见到,它就想用上去。

  • 文本数据

人类为了描述基因发展了一套语法,虽然到现在都不怎么完善。但是生物信息中的这类数据我们统称为文本数据:基因功能,通路,疾病药物关系等等。早期的基因本体论是一个很好的例子,基于此开发了不少关系型描述性的数据库,如GO。当然,随着生物信息的发展,更多的文本数据被发表出来。于是,自然语言处理也有一些应用到生物信息当中去。

  • 图像数据

自人类研究生物学问题的那天起,生物图像就一直伴随着这门科学的发展。处理图像数据自然也是生物信息分析的一部分。很久之前,图像只能作为一种信息的存储手段,人们很难对它进行比对分析,但是随着数据以及计算机科学的发展,一些工具可以分析图形数据了。在医学上已经积累的大量的影像资料,针对图像数据目前也开发了一些相应的数据库。现在人们在图像时不得不提一下人工自能,或者深度学习。虽然之前人们处理序列也会用到的算法和深度学习的算法框架相差无几,只是那时候还没有深度学习的名字。

  • 空间数据

其实在序列结构这部分已经涉及到空间的数据了:三维基因组,三维的蛋白质。这里主要说一下,宏观的空间:组织形态层面的。这里的空间也可能是动态的。单列出来是因为这也是一种新的数据格式。

  • Biological Databases

我们认为,数据库已经成为一种数据结构。因为生物信息实在太多了,一张表、一张图无法完成对某一现象的描述。数据库这种数据结构已经涵盖了中心法则以及医学周边,成为生物信息工程师不得不面对的数据结构。在展开一项研究的时候,之前只搜索关键字就可以了,现在要加一个database。很可能,你的想法别人已近打包成数据库了。随着高通量技术在生命科学中的应用,生物数据的增长量不亚于人类的商务数据。

以上就是目前生物信息工程师处理的主要的数据类型,生物信息工程师处理声音数据吗?



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270