优于SOTA方法，语言模型结合几何深度学习技术，望石智慧开发3D分子生成模型Lingo3DMol

2024-01-22 发布 · 浏览319次 · 点赞0次 · 收藏0次

编辑 | X

分子生成是 AI 助力小分子新药研发的核心技术。望石智慧始终专注于分子生成技术的开发。

就在前几天，望石智慧的研究团队推出了 Lingo3DMol，用于在给定口袋 3D 结构的情况下生成小分子配体的 3D 结构。方法结合了语言模型和几何深度学习技术。

研究人员在传统的 SMILES 分子表征的基础上，开发了新的分子表示方法 FSMILES。

此外，研究训练了一个单独的非共价相互作用预测器，为生成模型提供必要的结合模式信息。Lingo3DMol 可以有效地穿越类似药物的化学空间，防止异常结构的形成。Lingo3DMol 在药物相似性、合成可及性、口袋结合模式和分子生成速度方面优于最先进的方法。

该研究以「Generation of 3D molecules in pockets via a language model」为题，于 2024 年 1 月 15 日发布在《Nature Machine Intelligence》上。

论文链接：https://www.nature.com/articles/s42256-023-00775-6

当前 3D 分子生成方法的局限性

基于结构的药物设计涉及设计能够特异性结合所需靶蛋白的分子，这是一项基础且具有挑战性的药物发现任务。使用 AI 从头生成分子最近作为药物发现工具而受到关注。

早期的分子生成模型依赖于分子字符串表示或图表示。然而，这两种表示都忽略了 3D 空间相互作用，使得它们对于目标感知分子的生成来说不是最佳的。3D 蛋白质-配体复合结构数据的增加和几何深度学习（Geometric Deep Learning）的进步为 AI 算法直接设计具有 3D 结合姿势的分子铺平了道路。

一些研究提出将口袋和分子表示为 3D 图，并使用图神经网络（GNN）进行编码和解码。尽管这些方法可以生成具有 3D 构象的分子，但它们有一些共同的缺点：(1) 生成的分子通常包含有问题的、非类药物或不可合成的子结构；（2）有问题的拓扑结构：生成的分子通常包含过多的环或根本没有环。

此外，还有一些基于其他技术路线的 3D 分子生成方法，如基于扩散模型的方法。代表性方法是 TargetDiff，它使用基于图的扩散模型进行非自回归分子生成。尽管它努力避免自回归方法，但它仍然会产生显著比例的不良结构。

虽然基于图的 3D 分子生成方法最近显示出巨大的潜力，但它们仍然面临着在给定口袋上复制参考分子而没有任何信息泄漏的困难，这是评估的重要基准。

Lingo3DMol：一种基于口袋的 3D 分子生成方法

为了解决上述问题，望石智慧提出了 Lingo3DMol。

图示：Lingo3DMol 模型开发概述。（来源：论文）

首先，引入了一种新的分子序列编码方法，即具有局部和全局坐标的基于片段的简化分子线性输入系统（Fragment-based Simplified Molecular-input line-entry System，FSMILES）。通过（1）引入片段间分隔符；（2）片段间以深度优先的原则遍历；（3）把环的大小编码到环原子上，在保持表达能力不变的情况下最大程度的压缩了表达方式，同时使得片段中的相关原子可以携带其所在环的整体信息，这降低了自回归生成过程的难度。

研究人员将局部球面坐标系和全局欧几里德坐标系集成到其模型中。由于配体中的键长和键角本质上是刚性的，因此直接预测它们比预测原子的欧几里得坐标更容易。这两种类型的坐标的组合使模型能够考虑更大的空间上下文，同时保持准确的子结构。

此外，通过合并单独训练的 NCI/anchor 预测器，在分子生成过程中还考虑了非共价相互作用 (NCI) 和配体-蛋白质结合模式。

研究还使用了类似于 BART 和 Chemformer 的 3D 分子去噪预训练策略来提高模型的泛化能力。Lingo3DMol 模型根据 PDBbind2020 的数据进行了微调。

最后，研究人员在 Directory of Useful Decoys-Enhanced（DUD-E）数据集上评估了 Lingo3DMol，并将其与最先进的 (SOTA) 方法进行了比较。Lingo3DMol 在各种指标上都优于现有方法。

该研究的主要贡献可概括如下：

引入了一种新的 FSMILES 分子表示，它结合了局部和全局坐标，从而能够生成具有合理 3D 构象和二维 (2D) 拓扑的 3D 分子。
开发了 3D 分子去噪预训练方法和独立的 NCI/anchor 模型，以帮助克服数据有限的问题并识别潜在的 NCI 结合位点。
所提出的方法在各种指标方面均优于 SOTA 方法，包括药物相似性、合成可及性和口袋结合模式。

图示：生成分子的案例研究，涉及 3D 结合模式和与活性化合物的 2D 相似性。（来源：论文）

消融分析

有效的预训练和微调分析

具体来说，对于 DUD-E targets，将经过预训练和未经预训练的模型生成的分子分别与预训练集中的分子进行比较。研究证明，与未经预训练的模型生成的分子相比，预训练模型生成的分子与预训练集中的分子表现出更高程度的相似性。这表明模型在微调后保留了预训练的效果。如下表所示，预训练显著提高了类药分子的百分比、平均 QED、ECFP_TS > 0.5 的百分比、平均 min-in-place GlideSP 得分和多样性。

表：消融研究中产生的类药物分子的比较。（来源：论文）

NCI 预测模型消融研究

在这项消融研究中，研究人员将使用随机选择的 NCI 位点的 Lingo3DMol 与使用训练有素的 NCI 位点预测器的标准 Lingo3DMol 进行了比较。标准 Lingo3DMol 在大多数指标上都表现出优异的性能，特别是在药物相似度和 ECFP_TS > 0.5 方面。

最后，值得注意的是，对于超过 95% 的 DUD-E targets，训练集（PDBbind, general set, v.2020）和基准模型的训练集（CrossDocked2020）都包含至少一个在 ECFP4 指纹方面与 DUD-E 活性物的 Tanimoto 相似度大于 0.5 的分子。然而，与具有随机 NCI 和基线模型的 Lingo3DMol 相比，标准 Lingo3DMol 的 ECFP_TS > 0.5 的显著改进表明，这种改进不能仅仅归因于模型再现了训练期间所看到的内容。

下一步研究

尽管如此，挑战仍然存在。由于自回归生成过程，捕获单个分子内的所有 NCI 并不简单，研究人员计划进一步研究这个问题。用电子密度表示分子和分子间相互作用也许提供了一个有前途的方向。

此外，等方差性质是 3D 分子生成的一个关键方面。目前，使用旋转和平移增强来增强模型，并使用 SE(3) 不变特征来缓解该问题。最

最后，通过案例分析并使用化学信息学工具评估了药物样特性。然而，对这些特性进行全面、系统的评估是进一步研究的重要一步。

注：封面来自于网络。