SheepNav
新上线今天0 投票

ReactionAtlas:机器学习从头探索化学反应网络

从种子分子到数万反应:机器学习如何重塑化学发现

化学反应网络——由极小值、过渡态(TS)及其连接路径构成的图——是化学的“自然语言”,从催化、燃烧到生命起源,无不依赖对反应路径的完整理解。然而,为特定化学体系构建这样的网络长期以来几乎不可能:传统方法如密度泛函理论(DFT)虽准确,但计算速度极慢,且需要用户预先指定反应物和产物,难以大规模、自动化地探索未知反应空间。

ReactionAtlas:无规则、无预设的自动探索

最新发表于 arXiv 的论文《ReactionAtlas: Ab origine exploration of chemical reaction networks with machine learning》提出了一种名为 ReactionAtlas 的框架,首次实现了从少量种子分子出发,无需人工规则,自动构建完整化学反应网络。其核心流程是:

  1. 生成候选反应:利用机器学习生成模型,从动力学采样的候选化合物中提出可能的反应路径。
  2. 验证过渡态:通过经 DFT 训练的机器学习力场(MLFF) 快速筛选出有效的过渡态。
  3. 迭代扩展:将产物作为新种子,重复上述过程,实现网络的自动扩张。

前生命化学的里程碑式映射

研究团队以 8 种前生命化学种子(CH₂O、H₂O、OH⁻、H₃O⁺、CO₂、H₂CO₃、HCO₃⁻、H)为起点,ReactionAtlas 在无人干预下发现了 约 47,000 个反应,涉及 约 12,000 种化合物,覆盖了从简单分子到 C₄H₈O₄ 的碳水化合物化学,并包含完整的电荷与立体化学信息。

验证结果显示,MLFF 预测的过渡态结构在 85% 的情况下与高精度 PBE0 参考值的 RMSD 偏差在 0.5 Å 以内,且可轻松提升至 PBE0 精度,兼顾了规模与准确性。

重新审视生命起源的关键路径

这一网络尤其为研究 甲醛循环(formose cycle)——与化学起源生命密切相关的经典反应路径——提供了全新视角。ReactionAtlas 不仅重现了已知的甲醛循环路径,还发现了多条替代反应通道,暗示早期地球化学可能拥有比想象中更丰富的反应多样性。

意义与展望

ReactionAtlas 的突破在于将机器学习力场从“单点预测”提升到“网络级自动探索”的高度。它无需专家预设反应规则,也不依赖于繁琐的输入构造,而是让数据驱动模型自主发现化学空间。这一方法有望应用于催化机理研究、药物代谢路径预测、甚至地外化学模拟等领域。

当然,目前网络仍限于小分子碳水化合物体系,且 MLFF 的泛化能力需进一步验证。但作为“从头构建”反应网络的首次规模化实践,ReactionAtlas 为计算化学开辟了一条全新的道路——让机器学习成为化学发现的“自动探险家”。

论文链接:arXiv:2606.30778

延伸阅读

  1. 可预测的GRPO:训练动力学的闭合形式模型
  2. 层级全局注意力(HGA):无需重训即可扩展长上下文Transformer,单卡RTX 5090运行64K token
  3. 为什么少步文本潜在空间生成会失败,而图像潜在空间却能成功?尖锐类别读出时的“非承诺”问题
查看原文