精选1个月前0 投票
AgentSelect:首个叙事查询到智能体推荐的基准测试
随着大语言模型(LLM)智能体成为任务自动化的实际接口,一个关键挑战浮现:面对爆炸式增长的部署配置,如何系统性地选择最适合的智能体?现有评估体系如LLM排行榜和工具/智能体基准测试往往孤立评估组件,在任务、指标和候选池方面碎片化,缺乏查询条件监督来推荐端到端智能体配置。
填补研究空白:AgentSelect基准
AgentSelect 应运而生,它重新定义了智能体选择问题,将其视为基于能力配置的叙事查询到智能体推荐任务。该基准系统性地将异构评估工件转化为统一的、仅包含正面交互的数据。具体而言,AgentSelect整合了来自40多个来源的数据,包括:
- 111,179个查询
- 107,721个可部署智能体
- 251,103条交互记录
这些数据覆盖了仅LLM、仅工具包以及组合型智能体,为研究提供了前所未有的广度。
核心发现与范式转变
分析揭示了一个重要的范式转变:从密集头部重用转向长尾、近乎一次性的监督。在这种新范式下,基于流行度的协同过滤(CF)或图神经网络(GNN)方法变得脆弱,而内容感知的能力匹配变得至关重要。这意味着,简单地推荐热门智能体已不再有效,必须根据查询的具体内容和所需能力进行精准匹配。
组合交互的可学习性与实际价值
研究进一步表明,AgentSelect中合成的组合交互是可学习的。在受控的反事实编辑下,这些交互能诱导出能力敏感的行为,并提高对现实组合的覆盖度。更重要的是,在AgentSelect上训练的模型能够迁移到公开的智能体市场(如MuleRun),在未见过的目录上实现一致的性能提升,证明了其实际应用潜力。
为智能体生态系统奠定基础
总体而言,AgentSelect提供了首个统一的智能体推荐数据和评估基础设施。它不仅建立了一个可复现的基础来研究新兴的智能体生态系统,还旨在加速其发展。随着智能体配置空间持续膨胀,AgentSelect这样的基准将成为开发者、研究者和企业做出明智选择的关键工具,推动智能体技术从实验走向规模化、高效化的实际部署。