上交大KinFormer生成式符号回归模型发现未知化学反应动力学机制

10次阅读

没有评论

共计 3044 个字符，预计需要花费 8 分钟才能阅读完成。

上海交通大学人工智能研究院 AI for Science 团队针对反应动力学方程发现问题，提出了 KinFormer 架构，发表于 ICLR 2025。

作者丨上海交大人工智能研究院 AI for Science 团队

编辑丨%

引言：迈向精准预测的化学反应动力学

在有机化学合成的前沿，从创新药物分子到高性能功能材料，其核心驱动力往往源于对反应机理的深刻理解。建立定量的反应动力学模型，精准刻画反应物浓度随时间演化的规律，是实现催化剂理性设计和反应过程高效优化的关键环节。

这类模型能够建立微观动力学参数（如活化能、过渡态稳定性）与宏观催化性能（如转化率、选择性）之间的桥梁，从而推动催化研究从传统的「试错筛选」向「理论预测」范式转变。

反应动力学建模的核心任务是发现反应体系的控制方程并确定方程中的反应速率常数。如图 1 所示，反应中物种的作用关系（图 1a）通过质量作用定律转化为反应体系的控制方程，以常微分方程组形式表达（图 1b），与实验观测数据（图 1c）的匹配的动力学方程及参数能够直接指导催化剂设计、反应路径优化等有机合成关键研究。

然而，精准构建此类动力学模型长期面临严峻挑战：

1．机理先验依赖困境：传统方法高度依赖化学家预设反应路径，本质上属于「假设驱动」范式。这不仅效率低下，遍历可能的中间态组合耗时耗力，更存在因经验不足或认知局限导致的机理假设主观偏差风险。

2．数据驱动建模的泛化壁垒：新兴的符号回归技术（Symbolic Regression）虽能直接从数据中学习微分方程形式，但在复杂的催化反应动力学建模中表现不佳。现有模型（如 ODEFormer）难以有效捕捉催化反应特有的复杂动力学特征（如多步耦合、非线性相互作用），在跨不同反应机制泛化时，常常出现方程结构失配或违背基本物理守恒律（如质量守恒）等系统性问题。

基于上述双重矛盾，上海交通大学人工智能研究院 AI for Science 团队许岩岩等人提出了 KinFormer，首个利用化学反应实验数据发现反应动力学方程的人工智能模型，在数据驱动方法的基础上通过条件训练策略有效捕捉动力学方程之间的依赖关系，隐式建模包含在反应动力学方程中的物理定律，结合搜索算法，在少量反应模式训练下构建可泛化的反应机理发现模型，可应用于发现新的化学反应机理。该研究发表于 ICLR 2025。

图 1：有机催化反应机理图。

创新机制：融合物理约束与智能搜索的动力学方程预测框架

KinFormer 的设计精髓在于如何让模型“理解”并遵循化学反应的内在物理规律：

1.条件式训练策略：打破端到端模型的泛化瓶颈

KinFormer 摒弃了直接端到端生成整个方程组的传统做法。在训练过程中，模型被要求基于随机选择的部分已知方程（作为条件），去预测下一个目标微分方程。

这种「条件预测」任务促使模型深入挖掘并隐式学习不同方程之间由质量作用定律所决定的动态依赖关系（例如，反应物消耗速率与中间体生成速率的必然联系）以及共享的动力学参数（如速率常数）。

通过随机打乱方程作为条件的组合和预测顺序，模型有效避免了死记硬背固定方程排列，转而专注于捕捉其内在的物理逻辑。

图 2：训练策略对比图。

2. 蒙特卡洛树搜索（MCTS）：生成顺序的全局优化

条件策略对预测顺序存在敏感性。KinFormer 创新性地在方程生成层面引入方程级 MCTS 模块。它将每个待生成的微分方程视为搜索树的一个节点，利用概率上界置信启发（P-UCB）策略智能地探索不同的方程组生成路径。

关键的是，MCTS 会对候选的生成序列进行数值模拟验证，并结合双指标评估（r2ₘ 和 r2៳）计算路径的「奖励」值，通过反向传播不断更新节点权重。这一过程动态优化生成顺序，最终目标是确保预测出的整个微分方程组在数学和物理上保持自洽与一致性。

图 3：MCTS生成顺序搜索框架图。

实验结果分析：泛化能力与性能优势

研究团队在涵盖 20 类具有代表性的催化有机反应（包括基础核心机制、复杂的双催化体系、以及涉及催化剂活化/失活的关键过程）上对 KinFormer 进行了严格验证，结果显著优于现有方法：

1.强大的跨机制泛化：在「跨类别」（如完全未见催化剂活化机制）场景下，KinFormer 的方程形式准确率（Accform）达 81.41%，较基线模型提升超30%。

2.优异的噪声稳健性：即使输入数据含高斯噪声（标准差 1e-4），KinFormer 仍能准确预测多数物种的浓度曲线，证明了其在真实、复杂实验环境下的应用潜力

3.高效的智能搜索： MCTS 模块不仅确保了物理一致性，还展现出高效搜索能力，通常在 20 次迭代内即可收敛，是传统束搜索（Beam Search）的 3 倍，且最终性能更优。

完整实验结果请参考原始论文。

图 4：主要实验结果图。

研究意义：推动化学动力学的智能化发展

创新性科学工具：为化学家提供了强大的自动化工具，能够直接从实验数据中解析甚至发现未知的反应机理，极大加速了新催化剂设计与反应过程优化，减少对人工经验假设的依赖。

普适性方法论：KinFormer 所开创的「条件训练 + 物理引导的全局搜索」范式，为解决符号回归中物理约束嵌入的难题提供了新思路。该方法避免了传统上需要设计复杂显式规则的繁琐过程，具有很强的扩展性，可广泛应用于物理、生物、工程等领域中具有内在规律（守恒律、对称性等）的动力学系统建模。

持续探索：研究团队正致力于提升模型对更高维反应体系和更强噪声/稀疏数据的稳健性，并推动其在真实实验室场景中的实际应用，引领化学动力学研究向智能化、自动化深度发展。

团队介绍

上海交通大学人工智能研究院 AI for Science 团队在金耀辉教授、许岩岩副教授带领下，包括十余位博士后与硕博研究生，重点研究生成式人工智能，特别是科学大模型赋能化学研究，针对有机化学合成、自动化实验等重大问题提出了一系列创新解决方案。

团队发布了首个化学大语言模型——白玉兰科学大模型，是首个具备反应生成与“人在环路”反馈优化能力、能够指导实验探索的化学大模型，具有分子设计、逆合成线路规划、反应条件生成、反应产率预测、实验条件优化迭代等化学合成全功能。

团队研究成果已发表于 Nature Energy, Nature Computational Science（封面）, Nature Machine Intelligence, Science Advances, 以及 CCF A 类会议。团队所属的上海交通大学人工智能研究院、人工智能教育部重点实验室计算资源（A800）丰富，积累大量数据和基础模型，并与化学与化工学院、变革性分子前沿科学中心团队紧密合作。

论文标题：KINFORMER: GENERALIZABLE DYNAMICAL SYMBOLIC REGRESSION FOR CATALYTIC ORGANIC REACTION KINETICS

会议：ICLR 2025

引用格式：

Chen, Jindou, Jidong Tian, Liang Wu, Xinwei Chen, Xiaokang Yang, Yaohui Jin, and Yanyan Xu. “KinFormer: Generalizable Dynamical Symbolic Regression for Catalytic Organic Reaction Kinetics.” In The Thirteenth International Conference on Learning Representations.

文章来源:https://baijiahao.baidu.com/s?id=1836333350853350818

正文完