HOTE框架：混合开放式三元进化让8B模型深度研究能力超越32B

从“静态推理”到“自主进化”：HOTE 如何重塑 AI 深度研究能力

当前，大语言模型在深度研究任务中已展现出强大的信息检索与整合能力，但一个根本性瓶颈始终存在：模型的参数能力在部署后是静态的，无法像人类研究者那样在探索过程中持续学习和进化。与此同时，智能体进化（Agent Evolution）虽能让模型通过与环境交互积累经验，但其有效性多局限于有标准答案的可验证任务，与开放式的深度研究场景存在显著鸿沟。

来自 arXiv 的最新论文《Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher》（arXiv:2606.13710）提出了一种名为 HOTE（混合开放式三元进化） 的框架，试图弥合这一差距。该框架的核心思想是：让深度研究系统中的三个关键角色——提议者（Proposer）、求解者（Solver）和评判者（Judge）——通过混合模式的强化学习协同进化，从而在开放式环境中实现自主能力提升。

三元协同：提议、求解与评判的闭环

HOTE 的设计灵感来源于科学研究中的“假设-实验-验证”循环。具体而言：

提议者：负责根据当前研究问题，提出可能的子问题或探索方向。
求解者：针对提议者提出的子问题，从网络规模的知识库中检索并整合信息，生成答案。
评判者：评估求解者给出的答案质量，并提供反馈信号，用于指导提议者和求解者的进化。

这三个模块并非独立训练，而是通过混合模式强化学习实现联合进化。论文作者指出，这种设计的关键在于：进化必须同时发生在三个模块上，缺一不可。实验表明，仅进化其中一两个模块，性能提升远不如三者协同进化。

性能突破：8B 模型超越 32B 静态模型

最令人印象深刻的成果来自实验部分。研究团队在三个长格式深度研究基准上对 HOTE 进行了评估，结果显示：一个仅 80 亿参数的模型（8B），经过 HOTE 框架训练后，不仅超越了所有静态的开源 8B 到 32B 模型，还优于使用现有最先进深度研究训练方法得到的模型，并且训练时间开销更小。

这一结果意义重大：它表明模型规模并非决定深度研究能力的唯一因素，通过巧妙的进化机制设计，较小模型也能在开放式任务中实现超越。这也为资源有限的团队提供了新的可能性——不必一味追求超大参数模型，而是通过训练范式的创新来提升能力。

行业启示：从“工具”到“研究者”的转变

HOTE 的提出，标志着 AI 深度研究正在从“静态工具”向“自主进化体”迈进。传统上，我们训练一个模型，然后冻结其参数用于推理；而 HOTE 这类框架则让模型在每次研究任务中都能根据反馈调整自身策略，逐渐积累“研究经验”。

当然，论文也承认当前框架仍存在局限：例如，进化过程依赖于评判者提供的反馈质量，而评判者本身也可能存在偏差。此外，在极端开放且缺乏明确评价标准的研究场景中，如何设计有效的进化目标仍是开放问题。

尽管如此，HOTE 为智能体进化与深度研究的融合提供了一个坚实的技术路径。随着类似框架的成熟，未来的 AI 研究者或许将不再是“一次性训练”的产物，而是能够像人类一样，在每一次探索中不断成长。

混合开放式三元进化框架HOTE：让AI研究者从静态推理迈向自主进化

从“静态推理”到“自主进化”：HOTE 如何重塑 AI 深度研究能力

三元协同：提议、求解与评判的闭环

性能突破：8B 模型超越 32B 静态模型

行业启示：从“工具”到“研究者”的转变

延伸阅读

相关资讯