SheepNav
新上线今天0 投票

强化学习如何嵌入化学反应网络?好奇心驱动趋光性探索新模型

研究背景:从趋光性中窥见生命的信息获取策略

单细胞藻类的趋光性(phototaxis)通常被简化为“跑-转”(run-tumble)的机械式刺激-响应过程:细胞感知光照变化后,调整运动方向以趋向光源。然而,这种经典模型忽略了关键一环——生物体如何在噪声和不完整信号下主动采样环境,以减少感知模糊性?

来自巴黎索邦大学等机构的研究团队,在 arXiv 上提交的一项新研究中,从最小认知视角出发,提出了一个将**部分可观测马尔可夫决策过程(POMDP)化学反应网络(CRN)**动力学相融合的框架,重新定义了细胞趋光行为。该研究已被 ALIFE 2026 会议接收为口头报告。

核心方法:POMDP 与 CRN-ODE 的跨界融合

研究的关键创新在于:将细胞视为一个主观、信息驱动的感知-运动系统。环境状态对细胞是隐藏的,细胞只能通过每次观测(如光强信号)更新内部状态,这一更新过程采用无记忆贝叶斯步骤,并可通过**化学反应网络常微分方程(CRN-ODE)**实现。

具体来说,模型包含一个生物物理观测过程(模拟光感受)和一个化学可计算的多项式上界(用于度量信息增益)。细胞内部动力学需要平衡两个目标:向光源定向运动(利用)与探索性重定向(探索)。这种平衡天然地体现了好奇心驱动的信息采集策略。

实验验证:从真实轨迹中逆向学习行为目标

团队利用**逆强化学习(IRL)方法,对 30 条实验记录的衣藻(Chlamydomonas)运动轨迹进行分析,逆向推断了与观测趋光运动一致的行为目标函数。随后,他们将模型生成的动态与标准随机模拟算法(SSA)**基线进行对比。

结果表明,该模型能够复现实验中的光照对齐分布,其表现与基于 SSA 的客观基线相当。更重要的是,模型揭示了**“跑-转”交替模式本质上是信息获取策略**:当细胞转向(tumble)时,它实际上是在重新定向以采样新的感官配置,从而解决现有感知的模糊性。

意义与展望:化学计算中的强化学习

这项工作首次展示了细胞内生化网络如何支持自适应信息寻求行为。它将强化学习的思想嵌入到化学反应网络的物理约束中,为理解生命系统在分子层面的“决策”提供了新工具。

未来,该框架有望应用于合成生物学,设计具有自主探索能力的微型化学机器人,或为开发生物启发的低功耗感知系统提供理论基石。

小结

  • 问题:传统趋光模型忽视主动信息采样。
  • 方法:POMDP + 化学反应网络 ODE + 逆强化学习。
  • 发现:跑-转行为是降低感知不确定性的信息采集策略。
  • 意义:架起强化学习与生化网络之间的桥梁。

论文链接:arXiv:2606.26168

延伸阅读

  1. 温度归零并非万能:LLM-as-Judge 安全评估中的可重复性困境
  2. 联邦哈希投影潜在因子学习:兼顾隐私、效率与精度的新范式
  3. 线索驱动的洗钱团伙发现:Clue2Group 框架如何缩小AI反洗钱研究与实战的鸿沟
查看原文