读文献-大规模全基因组基因芯片数据集中的布尔推断网络


Boolean implication networks derived from large scale, whole genome microarray datasets

大规模全基因组基因芯片数据集中的布尔推断网络

Abstracts

We describe a method for extracting Boolean implications (if-then relationships) in very large amounts of gene expression microarray data. A meta-analysis of data from thousands of microarrays for humans, mice, and fruit flies finds millions of implication relationships between genes that would be missed by other methods. These relationships capture gender differences, tissue differences, development, and differentiation. New relationships are discovered that are preserved across all three species. 

    本文定义了一种方法,用于提取大量基因表达数据中基因间的布伦逻辑关系,这些关系可能在用其他方法分析时会丢失。这些关系可以捕获性别差异,组织差异,发展和分化等。有一些新的在多个物种间保守的关系也能够通过这种方法被发现。

Introduction

    许多基因芯片的数据是公开的,可以通过挖掘获得一定的见解。许多基于芯片挖掘的工作都构建了基因间两两关系的网络,表明一些基因是共同表达的。本文提出一种新的方法,利用数千个微阵列数据来识别整个基因组中基因之间的更大范围的关系。该方法通过自动设定基因阈值,获得两个基因间的逻辑关系,可能的关系有六种。Boolean implication network就是通过绘制量基因的散点图和阈值获得的图形。普通的方法只能发现大数据集中的对称性的关系,而Boolean implication network能发现更多。

Materials and methods

Data collection and preprocessing 数据收集和处理

• 4787个Affymetrix U133 plus 2.0人的基因芯片cel文件,2154个小鼠的,450个果蝇的cel文件通过GEO数据库中获得。

• 使用内存优化的RMA算法进行标准化处理;

• 使用log2对所有表达值进行处理;

• 使用stepMiner算法描述的方法进行阈值的计算,主要用的到是线性回归的原理。简单的说,先将表达值按照从小到大进行排列,然后使用stepMiner拟合一个上升的step。这种方法获得一个从低到高的最大跳跃值(必须有足够的观测值才能避免其他干扰),这个位置就是阈值。通过这个阈值,就将表达值分为低表达和高表达。

• 如果获得的阈值是t,表达值大于t+0.5的定义为high,即高表达;小于t-0.5的定义为low,即低表达。而在这之间的值定义为intermediate,即中间值,在分析过程中是忽略的。如果一个基因的三分之二的表达值都落在中间值范围内,那么这个基因就被排除在分析的范围之内。

Discovery of Boolean relationship

• 对于A和B两个因子,存在6中可能的布尔关系,由四种boolean implication构成,A low-->B low, A low-->B high, A high-->B low和A high-->B high。这四种implication构成了散点图的四个象限(中间值是忽略的)。因为阈值总是合理的区分低表达和高表达值,因此最多只有两个象限是稀疏的。

• 当存在两个稀疏象限时,A和B的关系为对称关系,等效或者相反。其他情况只存在一个稀疏象限,有4中可能性:A low-->B low;A low-->B high; A high-->B low 以及A high--> B high。

• 认定一种implication必须满足两个条件:

    假定a00, a01, a10和a11分别代表四个象限,0表示low,1表示high;

稀疏象限的统计检验

    An implication is considered significant if the first statistic is greater than 3.0 and the error rate is less than 0.1.就是说,如果statistic>3,同时error rate<0.1,这个implication被认为是显著的。

下图为阈值设置和boolean implication的分析流程:


booelan implication 分析流程

Results

Boolean implications are prevalent in gene expression microarray data/基因表达微阵列数据中普遍存在布尔推断

• 基因表达值使用的是对数值(log2),所有的数据来源于同平台的芯片。

• 每一个probset分别计算出一个阈值t,画出表达值的散点图,根据基因A和B的阈值,将散点图分为了4个象限;通过统计分析存在一个或两个稀疏象限时,说明A和B之间存在Boolean implication。

• 存在四种不对称关系和两种对称关系;


六种不同的Boolean implication的散点图

通过这种算法,计算出了非常多的implications,如表1


Boolean relationship in human,mouse and fruit fly datasets

• 在人的数据中可以看到,只有1%的关系是对称的,不对称的占了99%。

• 有很多high-->low implication的原因可能是基因表达的组织和细胞特异性。

另外一个有意思的现象是相同基因的不同探针,出现的结果也是可能不相同的。

Boolean implications identify known biological properties and potentially new biological properties

• Boolean implication可以捕获大量的已经证明的生物学现象,可以显示性别差异,发展,分化,组织特异性和共表达等。

Descriptions of data sources are consistent with the biology of the Boolean implications

数据源的描述与布尔推断的生物学是一致的

Many Boolean relationships are highly conserved across multiple species

许多的boolean关系在不同种属间是高度保守的

Boolean implication networks are more comprehensive than correlation-based networks

布尔推断网络比相关网络更全面

Boolean implication networks are not scale free

Computing the Boolean implication network is fast and the output is transparent

    • 在2.4 Ghz、8gb内存的计算机上构建人类数据集隐含网络的总计算时间为2.5小时。

(主要关注的点在于研究的方法是怎么样的,因此对于结果的后面部分没有太在意,尤其是不同物种比较的内容)

Conclusion

    布尔推断提供了一种对基因组规模数据的透视图,揭示了其他类型的分析所忽略的具有生物学意义的关系,这可能是因为这些方法寻找不同类型的关系,也可能是因为它们不能扩展到整个基因组水平。对3个不同物种的数千个阵列的元分析显示了在数据中暴露生物信息的布尔推理的一些潜力。在meta分析中构建的隐含关系网络中,隐含关系的数量几乎是等价关系的100倍。与性别和组织类型相关的差异很明显。仅在特定发育或分化阶段活跃的基因之间的关系也很明显。许多布尔关系在人类、老鼠和果蝇之间是守恒的。在细胞周期和cns特异性基因丰富的基因簇之间存在高度保守的关系。在MYC和核糖体基因之间保守的非对称布尔暗示暗示网络中存在生物学相关的调控关系。可以想象,布尔蕴涵网络可以提供一个新的发现平台,为进一步的实验探索提供新的生物学假设。即使使用大量的基因表达数据,这些网络也能被快速计算出来,而且输出结果是易懂的,易于操作。布尔网络可在布尔网络网站上搜索。(链接http://gourd.stanford.edu/BooleanNet,但是本人网络根本打不开,不知道教育网是否能打开)

    理解布尔含义的局限性是很重要的。每一个推论在数据中都是经验观察到的关系,这可能不适用于为不同组织类型或在不同条件下收集的数据。与相关网络一样,布尔推断网络也不能捕捉因果关系。事实上,已知的转录因子及其靶标之间的调控关系往往没有相应的含义。这是可以预料的,因为还有许多其他因素涉及基因调控,但在基因表达数据中并不明显,如蛋白质激活、参与涉及多个蛋白质的复合物,以及对启动子的组合调控。

    我们相信布尔推断的最大潜力是与其他类型的数据和其他类型的分析相结合。例如,结合来自特定干扰的数据,如基因沉默或药物治疗,以及结合转录因子结合关系,一些含义可以解释为因果关系。此外,含义可以用来做对更复杂模型的搜索。例如,只有当A高B低时,布尔关系“C高”才成立。

感想

    最初接触到Boolean implication这个东西是在两年多以前,是新英格兰医学杂志上的一篇文章(CDX2 as a Prognostic Biomarker in Stage II and Stage III Colon Cancer)。这篇文章使用这种方法找到了CDX2这个基因,并通过大量的数据分析得出了CDX2表达阴性可以鉴定出高风险的II期结肠癌患者。

CDX2 分析的流程图

当时想,我是不是可以通过这种方法来找到我感兴趣基因的Boolean implication,做一些有意思的事情。

    为了这个想法的实现,我花了大量的时间查找相关的背景知识,相关文献。找到stepMiner这个软件,但是很长一段时间都不知道这个阈值是怎么计算出来的。从github上找到这个相关的项目,但是使用的是python语言写的;然后在这期间,我自学了一些python语言,发现自己还是搞不定;自学了R语言数据分析,最后在另外一个人的github项目里面找到了关于这个阈值计算和稀疏象限的计算方法,基于R语言的。终于把这两个问题初步解决了。这里面还有一个问题是关于FDR(false discovery rate)怎么计算的,还没有完全搞明白。

    因为不懂不理解搞不定,中间放下好几次,对自己说封存一年,如果觉得还是有意义,再重新来找资料学。最终还只是明白大概。虽然目前还不能完整运行这个过程,但相比两年多前的盲目抓瞎,以经提高太多了。感谢坚持的自己。

    最后,我决定把这个写下来,一个是记录一下自己的心得;二来是如果有人刚好也对这个感兴趣,说不定可以好好交流交流。

    关于阈值计算的原理,Sahoo D在这篇文章之前有说明,有时间把这个再整理一下,可以把计算公式和R语言代码一起写,可能比较好理解和实现。

Ref: 

Sahoo D , Dill D L , Gentles A J , et al. Boolean implication networks derived from large scale, whole genome microarray datasets[J]. Genome biology, 2008, 9(10).

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容