MacArena:在原生 macOS 环境中评估计算机使用代理的新基准
计算机使用代理(CUA)通过视觉和控制原语操作图形用户界面(GUI),其能力在标准化在线评估基准(如 OSWorld)的推动下迅速提升。然而,macOS 在这一领域中长期被忽视:现有的唯一基准 macOSWorld 仅覆盖了少量第一方应用和简单任务,且运行在与 Apple Silicon 不兼容的 x86 虚拟机上。为此,研究者提出了 MacArena——一个包含 421 个手动验证任务、横跨 50 个应用的基准测试集。MacArena 融合了从 OSWorld 移植的任务、macOSWorld 的内容以及 49 个全新的 macOS 原生任务,全部基于 Apple 的虚拟化框架在 Apple Silicon 上运行。
macOS 的独特挑战
研究团队指出,macOS 带来了 Linux 基准无法捕捉的独特 GUI 挑战。例如,macOS 的菜单栏、Dock、Finder 等界面元素与 Linux 差异显著,且系统级快捷键和交互逻辑不同。实验数据显示,现有模型在 Linux 基准上的表现可能更多反映其对任务分布的熟悉度,而非真正的跨平台 GUI 能力。模型排名在移植任务和 macOS 原生任务之间发生反转:某个领先模型在 MacArena 子集上落后超过 26%,表明 macOS 对当前 GUI 代理是更具挑战性的环境。
基准设计细节
MacArena 包含的任务分为三类:
- OSWorld 移植任务:从 OSWorld 精选并适配到 macOS 的任务,确保与原有测试集的可比性。
- macOSWorld 任务:继承自 macOSWorld,覆盖第一方应用的基本操作。
- macOS 原生任务:针对 macOS 特有的应用(如 Safari、邮件、日历)和交互模式设计,例如使用 Spotlight 搜索、管理通知中心等。
所有任务均在 Apple 虚拟化框架上运行,保证了与 Apple Silicon 的兼容性和性能一致性。
行业意义与未来方向
MacArena 的发布填补了 macOS 环境下 CUA 评估的空白,为研究社区提供了一个更全面、更具挑战性的测试平台。该工作已被 ICML 2026 第二届 Agents in the Wild 研讨会接收。随着多模态模型和代理系统的发展,跨平台 GUI 能力将成为关键指标,MacArena 有望推动更鲁棒、更通用的计算机使用代理的研究。未来,研究者计划扩展任务范围,涵盖更多第三方应用和复杂工作流,并探索基于 MacArena 的强化学习训练方法。