强化学习嵌入化学反应网络：好奇心驱动趋光性新模型

单细胞藻类的趋光性（phototaxis）通常被简化为“跑-转”（run-tumble）的机械式刺激-响应过程：细胞感知光照变化后，调整运动方向以趋向光源。然而，这种经典模型忽略了关键一环——生物体如何在噪声和不完整信号下主动采样环境，以减少感知模糊性？

来自巴黎索邦大学等机构的研究团队，在 arXiv 上提交的一项新研究中，从最小认知视角出发，提出了一个将**部分可观测马尔可夫决策过程（POMDP）与化学反应网络（CRN）**动力学相融合的框架，重新定义了细胞趋光行为。该研究已被 ALIFE 2026 会议接收为口头报告。

研究的关键创新在于：将细胞视为一个主观、信息驱动的感知-运动系统。环境状态对细胞是隐藏的，细胞只能通过每次观测（如光强信号）更新内部状态，这一更新过程采用无记忆贝叶斯步骤，并可通过**化学反应网络常微分方程（CRN-ODE）**实现。

具体来说，模型包含一个生物物理观测过程（模拟光感受）和一个化学可计算的多项式上界（用于度量信息增益）。细胞内部动力学需要平衡两个目标：向光源定向运动（利用）与探索性重定向（探索）。这种平衡天然地体现了好奇心驱动的信息采集策略。

团队利用**逆强化学习（IRL）方法，对 30 条实验记录的衣藻（Chlamydomonas）运动轨迹进行分析，逆向推断了与观测趋光运动一致的行为目标函数。随后，他们将模型生成的动态与标准随机模拟算法（SSA）**基线进行对比。

结果表明，该模型能够复现实验中的光照对齐分布，其表现与基于 SSA 的客观基线相当。更重要的是，模型揭示了**“跑-转”交替模式本质上是信息获取策略**：当细胞转向（tumble）时，它实际上是在重新定向以采样新的感官配置，从而解决现有感知的模糊性。

这项工作首次展示了细胞内生化网络如何支持自适应信息寻求行为。它将强化学习的思想嵌入到化学反应网络的物理约束中，为理解生命系统在分子层面的“决策”提供了新工具。

未来，该框架有望应用于合成生物学，设计具有自主探索能力的微型化学机器人，或为开发生物启发的低功耗感知系统提供理论基石。

强化学习如何嵌入化学反应网络？好奇心驱动趋光性探索新模型