扩展连通性指纹(Extended Connectivity Fingerprints,ECFPs)原理介绍

目录

  • 一、ECFPs简介
  • 二、应用
  • 三、特性
  • 四、与路径指纹的对比
  • 五、表示方法
  • 六、生成流程
  • 七、参数设置
  • 八、功能基指纹
  • 九、特征可视化
  • 十、rdkit计算ECFPs

一、ECFPs简介

本文参考自ChemAxon的介绍。英文版在这里。细节部分与rdkit略有不同,但原理基本一致。

扩展连通性指纹(Extended-Connectivity Fingerprints,ECFPs)是一种圆形拓扑指纹,可用于分子表示、相似性搜索、构效关系建模。它在药物设计中有诸多应用,是最受欢迎的相似性比对工具。

二、应用

ECFPs是非常高效且流行的搜索工具,并有着广泛的应用。

ECFPs最早应用在高通量筛选(high-throughput screening,HTS)中,用于分析HTS中假阳性和假阴性先导物。此外,ECFPs也经常应用在基于配体的虚拟筛选中,用来判断化合物是否有活性。大量的实验结果表明,这种圆形拓扑指纹是效果最好的搜索工具之一。

在药物研究中,许多领域都涉及到相似性搜索,都用到了分子结构中蕴含的大量信息,例如化合物聚类,以及化合物库分析等。

除了相似性搜索,ECFPs也可以用来识别是否含有一个特定的子结构。因此,它也经常应用在QSAR和QSPR建模中(例如ADMET属性预测),并优化先导物性质。

三、特性

ECFPs的主要属性有如下几点:

  • 它通过圆形原子邻域(circular atom neighborhoods)来表示分子结构
  • 计算速度快
  • 这些特征代表特定子结构的存在与否
  • 没有经过预定义,可以表示大量不同的分子特性(包括立体化血信息)
  • 它用来表示功能基团(functionality)的是否存在,对于分析分子活性至关重要
  • 它的生成算法非常灵活,可以针对不同的场景,生成不同的指纹

四、与路径指纹的对比

基于路径的指纹(path-based fingerprints)广泛用于子结构搜索中预过滤(pre-filtering)。与这种指纹相反,ECFPs并不适合子结构搜索,而适合快速高效地筛选整个分子和进行相似性搜索。ECFPs可以为相似性搜索提供充分的结果,更接近药物化学家的需求。

五、表示方法

ECFPs在ChemAxon中有如下两种表示方式。

1.整数标识列(list of integer identifiers)

  • ECFPs可以通过一组不定长的整数标识符来表示,这是最原始和最精确的表示方法。每个标识符代表了一个特定的子结构,更准确地说是分子里的一种圆形原子邻域。这种整数标识符是按升序排列。
  • 这些标识符也可以被理解为是一个超大的虚拟比特串的索引。比特串中的每个位置表示一个特定子结构的特征。因为这个虚拟的比特串非常庞大且稀疏,所以它并没有被显式地存储,而是用代表比特串的索引来组成这个不定长的整数列表。由于技术原因,这种特征标识符存储为一种有符号的数值,因此是可正可负的。
  • 默认情况下,在一个整数标识列中,每种标识符最多仅含一个(rdkit默认不会去重)。然而,在一些特定的场景下,也需要考虑某种标识符在分子中出现的频数,这种ECFPs的变体叫做ECFC。在ChemAxon的工具中,有一个参数控制是否统计频数,默认模式为不统计,统计时称为ECFC模式。

2.定长比特串(fixed-length bit string)

  • 传统的二进制分子表示方法是通过固定长度的比特串实现的。而ECFPs也可以通过“折叠”操作来形成定长比特串,也就是将底层的整数标识列压缩成一个更短长度的定长比特串(就是一个向量,常见的长度有1024,2048等)。
  • 与上面的整数标识列表相比,ECFPs的定长比特串简化了比对和相似性计算,也相应减少了存储开销,尤其是大分子。另一方面,压缩的操作可能会引入冲突,因为压缩后,多个不同的子结构特征可能会用同一个比特位表示。这种情况下,会丢失一些分子信息,造成特征质量和可解释性的下降。
  • 需要注意的是,由标识列可以得到定长比特串,但没法从定长比特串得到标识列。定长比特串可以看作是标识列的有损压缩。

六、生成流程

可基于ChemAxon的GenerateMD命令行,或API生成,感兴趣的可以自行查看。

1.初始化原子标识符

  • ECFP生成时,首先对给定分子的每一个非氢原子分配一个初始整数标识符。该标识符是通过把原子的属性(例如原子序号、连接数量等)打包,再经哈希函数转变成一个整数变量而得到,包含了相应原子的化学信息。
  • 需要考虑的原子属性是ECFPs中一个重要的参数,可以完全由自己设置。

2.标识符的迭代更新

  • 初始化后,会进行一系列迭代操作,将某一原子的初始标识符与邻近原子的标识符合并,直到到达设置的半径为止。每一轮迭代都会捕捉距中心原子越来越远的原子信息,最终经哈希运算,编码成为一个整数值,这些整数值合并形成一个整数标识列。
  • 这种迭代更新的过程基于一种摩根算法(Morgan algorithm)。
Fig. 1. 对某一特定原子进行迭代更新的示意图

3.标识符去重

  • 在最终生成指纹的过程中,会去除等价的原子标识符。等价意味着他们包含一组相同的键,或他们有相同的哈希值。在这步操作中,如果标识符的频数需要保留(ECFC模式),相同标识符出现的次数将会被保存。
  • 下面两张图片展示了生成一个分子ECFPs的完整流程
Fig. 2. 从分子到整数标识列的生成过程
Fig. 3. 从整数标识列到定长比特串的生成过程

七、参数设置

ChemAxon中的ECFPs有一系列的参数,可以通过XML来进行设置。

1.主要参数

主要参数有3个:ECFPs的最大直径、指纹长度、标识符频数。

  • 直径

这个参数规定了每个原子要考虑的最大圆形邻域。默认直径是4。这是个很重要的参数,会影响子结构的数量和大小,从而影响整数标识列的长度,也会影响到定长比特串的表示。

ECFPs可以通过该参数进行区分。例如,ECFP_4表示直径为4,ECFP_6表示直径为6(rdkit中的参数为半径radius,当radius=2时,与ECFP_4等价)。

根据Rogers and Hahn的报道,直径如何取值取决于具体需求。通常直径为4时,可以满足相似性搜索和聚类需求。对于活性预测,有大结构片段通常会比较有利,因此可以尝试6或8。

  • 长度

这个参数指定了定长比特串的长度。默认是1024位。

当增加长度时,会减少冲突的几率,从而减少信息的损失,但需要花更多的空间和时间来存储和计算。

  • 频数

这个参数控制是否要记录每个整数标识符出现的总次数。默认是不记录,即每个子结构只存储1次。

2.原子属性

在ECFPs中,原子属性集也是一个重要的参数,决定了原子的特性。不同的属性会产生不同的圆形指纹,可用于不同的需求中。

默认的ECFP参数适用于大多数的应用场景,尤其在基于子结构特异信息的相似性搜索中。默认情况下,对每个原子的以下信息会被考虑进来:

  • 原子序号
  • 中心原子的相邻重原子(非氢原子)数量
  • 中心原子的相邻氢原子数量
  • 形式电荷
  • 附加属性:该原子是否是环中的一部分

其他的内置属性还有:质量信息、连接信息、键信息、立体信息等。如果想修改这些配置,可以在XML中自己定义。

八、功能基指纹

ECFP默认的标识符包含了高度特异的原子信息,可以表示大量的子结构特征。然而,在不同的场景中,可能需要不同的抽象方式。例如,在环上某一位置进行氯取代或溴取代时,它们的功能基本是等价的,但是ECFP认为它们是两种不同的结构。另一个使用圆形指纹的新方向就是归纳每个原子的药效团,也就是将ECFPs转换为拓扑药效团指纹。

这些变体,叫做功能基指纹(Functional-Class Fingerprints,FCFPS),它们对ECFP进行了泛化处理,更关注原子在功能上所发挥的作用,而不关注是否是特异的。

ChemAxon也支持FCFPs,可通过XML来自行定义。

九、特征可视化

JChem提供了查看ECFP指纹结构的功能。ECFP可以表示为整数标识列,或定长比特串,这些特征中的某一位代表了输入分子中一个特定的子结构。ECFPFeatureLookup类可以根据给定的整数标识和某个位来提取出子结构。

在某些应用场景中,需要对特定化合物的指纹进行对比,以便得出有哪些特征很重要。这时,展示出真实的子结构就会非常直观地看到结果。

十、rdkit计算ECFPs

在rdkit中指纹使用位向量Bit Vector来表示,位向量是一种可以高效存放二进制值的容器。rdkit中包含了两种内部存储方式不同的指纹,分别是SparseBitVects和ExplicitBitVects。这两种类型可以轻易地进行转换,用于不同的目的。

  • SparseBitVects,是一种非常大,非常稀疏的向量,在该类型上进行索引和提取会非常快,有点类似于list of integer identifiers。
  • ExplicitBitVects,记录某一位上是否存在,计算速度通常比SparseBitVects快,但会占用更多内存,类似于fixed-length bit string。
  • 生成SparseBitVects,需要设置参数mol和半径radius
>>> from rdkit.Chem import AllChem
>>> mol = Chem.MolFromSmiles('Cc1ccccc1')
>>> AllChem.GetMorganFingerprint(mol, radius=2)
<rdkit.DataStructs.cDataStructs.UIntSparseIntVect at 0x7fbbe9654ee0>
  • 生成ExplicitBitVects,除了mol和radius,还要传入向量长度nBits
>>> AllChem.GetMorganFingerprintAsBitVect(mol, radius=2, nBits=1024)
<rdkit.DataStructs.cDataStructs.ExplicitBitVect at 0x7fbbe9493490>

关于分子指纹的更多操作,请见这里

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,688评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,559评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,749评论 0 226
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,581评论 0 191
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,741评论 3 271
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,684评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,122评论 2 292
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,847评论 0 182
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,441评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,939评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,333评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,783评论 2 236
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,275评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,830评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,444评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,553评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,618评论 2 249