准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

402次阅读
没有评论

共计 3024 个字符,预计需要花费 8 分钟才能阅读完成。

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

编辑| X

原子到原子映射(Atom-to-atom Mapping,AAM)是识别化学反应前后分子中每个原子位置的任务,这对于理解反应机理非常重要。

近年来,越来越多的机器学习模型用于逆合成和反应结果预测,这些模型的质量高度依赖于反应数据集中 AAM 的质量。虽然有一些算法使用图论或无监督学习来标记反应数据集的 AAM,但现有方法是基于子结构 alignments 而不是化学知识来映射原子。

在此,来自韩国首尔大学(Seoul National University)和韩国科学技术院(KAIST)的研究团队,提出了一种 ML 模型——LocalMapper,可通过人机回圈(human-in-the-loop)机器学习从化学家标记的反应中学习正确的 AAM。

研究表明,LocalMapper 通过仅从整个数据集中 2% 的人类标记反应中学习,就能以 98.5% 的校准精度预测 50 K 反应的 AAM。更重要的是,LocalMapper 给出的可信预测覆盖了 50 K 反应中的 97%,对 3,000 个随机采样的反应显示出 100% 的准确率。

在分布外(Out-of-distribution,OOD)实验中,LocalMapper 性能优于其他现有方法。研究人员期望 LocalMapper 可用于生成更精确的反应 AAM,并提高未来基于 ML 的反应预测模型的质量。

相关研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》为题,于 2024 年 3 月 13 日发布在《Nature Communications》上。

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

论文链接:

AAM在化学研究中的重要性

原子到原子映射 (AAM) 通过识别反应物原子和产物原子之间的一对一映射,在准备反应数据中发挥着至关重要的作用。高质量的 AAM 可以快速识别给定化学反应的反应中心,这对于许多已开发的化学反应分析和预测方法至关重要。

AAM 广泛使用的应用之一是构建缩合反应图 (CGR)。此外,AAM 还可以自动识别反应中心并从数据库中提取反应模板,用于预测反应结果和单步逆合成机器学习模型。由于这些应用高度依赖于反应数据的 AAM,因此 AAM 的质量极大地影响机器学习模型的性能。随着下游模型数量的不断增加,为反应数据集构建高质量的 AAM 成为确保反应预测模型质量的紧迫任务。

现有的 AAM 识别方法通常可分为基于规则的和基于 ML 的方法。尽管比以前的方法准确度更高,但 AAM 需要 100% 的完美准确度,因为反应数据中的缺陷将在下游反应预测模型中被放大。然而,目前还没有可靠的方法来检测可能错误预测的 AAM,这使得预测中的错误难以识别。

此外,尽管现有的基于 ML 的无监督方法比基于规则的方法要快得多,并且适用于更广泛的反应,但在不知道正确的 AAM 的情况下训练模型可能会导致意外错误,即使对于简单的反应也是如此。

三大重要突破

在此,研究人员通过 human-in-the-loop 机器学习提出了一种精确的基于图的 AAM 模型,名为 LocalMapper。

该研究的重要突破体现在以下三个方面:

人机循环机器学习框架

为了训练 LocalMapper,研究人员手动标记每个反应的 AAM,以保证训练模型的反应中 AAM 的正确性。由于手动标记化学反应的 AAM 非常耗时(每个反应通常超过一分钟),因此在大型数据集中标记大部分反应是不切实际的。因此,引入主动学习来仅标记一小部分代表性反应。

整个工作流程可以分解为以下 5 个步骤:

随机采样:为了初始化主动学习过程,从未映射的反应数据集中随机采样 k 个反应,其中 k 是人类专家一次性标记 AAM 的一个可承受的小数字。

标签和训练:接下来,手动标记采样的 k 个反应的 AAM,并使用这些反应来训练所提出的基于图的模型 LocalMapper,其结构类似于逆合成模型LocalRetro 和反应结果预测模型 LocalTransform。从人类绘制的反应中提取的反应模板用于更新模板库,该模板库将用于后续的不确定性识别。

AAM 预测:接下来,使用 LocalMapper 来预测数据集中所有反应的反应物和产物之间的原子相关性。根据 LocalMapper 预测的原子-原子相关性,按照 Schwaller 等人引入的原子映射程序生成每个反应的 AAM。

置信度识别:对于每个预测反应的 AAM,提取反应模板来表示其反应模式。如果提取的反应模板存在于当前模板库中,则该反应预测的 AAM 集合被认为是置信预测,否则是不确定预测。

主动采样:对于从不确定预测中提取的每个唯一模板,从共享最多反应的模板开始对一个反应进行采样,直到采样到 k 个反应。然后,这些反应由人类化学家标记,并在下一次迭代中用于训练模型,重复步骤 2。

从第二次迭代开始,研究人员使用半监督学习来训练模型,从每个唯一验证的反应模板的置信预测中采样 100 个反应,以提高模型的稳健性。这些采样反应按 9:1 的比例分为训练集和验证集,以防止过度拟合。

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

图 1:在生成逆合成反应模板和基于化学知识推导反应机制方面,获取正确的原子间映射 (AAM) 的重要性。(来源:论文)

LocalMapper

为了预测反应中反应物和产物之间的 AAM,研究人员设计了一个基于图的模型,称为 LocalMapper,以了解反应物中的每个原子重新定位到产物中的原子的概率。

与之前的逆合成模型 LocalRetro 和反应结果预测 LocalTransform 类似,使用图来表示分子,以原子为节点,键为边,并通过反应中原子的局部和全局特征来学习 AAM 通过消息传递神经网络和注意力机制。

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

图 2:使用所提出的模型 LocalMapper 进行 AAM 的人机循环机器学习的总体方案。(来源:论文)

首先,研究人员使用 3 个消息传递层对每个原子的局部化学环境进行编码,并通过 3 个多头交叉注意块根据反应物的原子特征更新产物中的原子特征。在反应物和产物之间的每个原子的特征充分传达后,通过单头注意力块计算产物和反应物之间的 AAM 相关性。

使用 Softmax 函数对注意力分数进行归一化后,估计反应物中的每个原子与产物中的每个原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序,使用生成的概率从最高概率到最低概率识别从产物到反应物的 AAM。

100% 预测准确率

总之,研究人员提出了一种基于图的 ML 模型 LocalMapper,以通过人机循环机器学习精确识别大型反应数据集的 AAM。通过利用专业知识手动标记少量反应数据,训练了人机循环机器学习模型,以精确、自动地标记大量具有相似反应规则的反应。

表 1:手动检查反应 AAM 前后,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 数据集上的 AMM 结果。(来源:论文)

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

对于公开可用的 USPTO-50K 数据集,该模型仅通过学习 2% 的化学家标记反应,就能以 98.5% 的准确率预测 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四个不同源上检查的手动映射反应的 AMM 结果。(来源:论文)

准确率达100%,「人机交互」机器学习,驱动有机反应精确原子映射研究

更重要的是,LocalMapper 自信预测的数据集中 97% 的反应的 AAM,表现出 100% 的预测准确率。并且在不同的分布外测试集中也观察到类似的结果。

研究人员期望所提出的 LocalMapper 可用于为未来的下游反应预测模型提供精确的反应 AAM,并有利于化学界了解更多有关反应数据集的统计见解。

GitHub 地址:

注:封面来自网络

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2024-04-03发表,共计3024字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)