AgentSelect：首个智能体推荐基准，解决LLM智能体选择难题

随着大语言模型（LLM）智能体成为任务自动化的实际接口，一个关键挑战浮现：面对爆炸式增长的部署配置，如何系统性地选择最适合的智能体？现有评估体系如LLM排行榜和工具/智能体基准测试往往孤立评估组件，在任务、指标和候选池方面碎片化，缺乏查询条件监督来推荐端到端智能体配置。

填补研究空白：AgentSelect基准

AgentSelect 应运而生，它重新定义了智能体选择问题，将其视为基于能力配置的叙事查询到智能体推荐任务。该基准系统性地将异构评估工件转化为统一的、仅包含正面交互的数据。具体而言，AgentSelect整合了来自40多个来源的数据，包括：

111,179个查询
107,721个可部署智能体
251,103条交互记录

这些数据覆盖了仅LLM、仅工具包以及组合型智能体，为研究提供了前所未有的广度。

核心发现与范式转变

分析揭示了一个重要的范式转变：从密集头部重用转向长尾、近乎一次性的监督。在这种新范式下，基于流行度的协同过滤（CF）或图神经网络（GNN）方法变得脆弱，而内容感知的能力匹配变得至关重要。这意味着，简单地推荐热门智能体已不再有效，必须根据查询的具体内容和所需能力进行精准匹配。

组合交互的可学习性与实际价值

研究进一步表明，AgentSelect中合成的组合交互是可学习的。在受控的反事实编辑下，这些交互能诱导出能力敏感的行为，并提高对现实组合的覆盖度。更重要的是，在AgentSelect上训练的模型能够迁移到公开的智能体市场（如MuleRun），在未见过的目录上实现一致的性能提升，证明了其实际应用潜力。

为智能体生态系统奠定基础

总体而言，AgentSelect提供了首个统一的智能体推荐数据和评估基础设施。它不仅建立了一个可复现的基础来研究新兴的智能体生态系统，还旨在加速其发展。随着智能体配置空间持续膨胀，AgentSelect这样的基准将成为开发者、研究者和企业做出明智选择的关键工具，推动智能体技术从实验走向规模化、高效化的实际部署。

AgentSelect：首个叙事查询到智能体推荐的基准测试

填补研究空白：AgentSelect基准

核心发现与范式转变

组合交互的可学习性与实际价值

为智能体生态系统奠定基础

延伸阅读

相关资讯