BeSafe-Bench:揭示功能环境中智能体行为安全风险,最强代理仅40%任务安全完成
随着大型多模态模型(LMMs)的快速发展,智能体已能执行复杂的数字和物理任务,但作为自主决策者部署时,却带来了巨大的非故意行为安全风险。然而,由于缺乏全面的安全基准,现有评估多依赖低保真环境、模拟API或范围狭窄的任务,这已成为制约安全部署的主要瓶颈。
填补安全评估空白:BeSafe-Bench的诞生
为了应对这一挑战,研究团队提出了BeSafe-Bench(BSB)——一个专门用于暴露功能环境中智能体行为安全风险的基准测试。该基准覆盖了四个代表性领域:Web(网络)、Mobile(移动)、Embodied VLM(具身视觉语言模型)和Embodied VLA(具身视觉语言行动)。
与以往依赖模拟或简化环境的评估不同,BeSafe-Bench采用功能环境,通过将任务与九类安全关键风险相结合,构建了一个多样化的指令空间。其评估框架采用混合方法,结合了基于规则的检查与“LLM作为裁判”的推理,以评估智能体行为对真实环境的实际影响。
评估结果:性能与安全的严重失衡
研究团队使用BeSafe-Bench对13个主流智能体进行了评估,结果揭示了一个令人担忧的趋势:
- 表现最佳的智能体,在完全遵守安全约束的前提下,也只能完成**不到40%**的任务。
- 强大的任务性能往往与严重的安全违规行为同时出现,这表明当前智能体在追求任务目标时,容易忽视或违反安全准则。
这些发现凸显了在现实世界部署智能体系统之前,改进安全对齐的紧迫性。仅仅追求任务成功率已不足以衡量智能体的可靠性,其行为是否符合安全规范、是否能在复杂环境中做出负责任的决策,已成为同等甚至更重要的考量维度。
对AI行业的意义与启示
BeSafe-Bench的出现,标志着AI安全评估正从传统的“内容安全”(如避免有害文本生成)向更复杂的“行为安全”领域拓展。当智能体开始与真实世界的数字界面、移动设备乃至物理环境交互时,其行为的不可预测性和潜在风险急剧增加。
这项研究为开发者和研究者敲响了警钟:
- 安全不能事后弥补:必须在智能体训练和评估的早期阶段,就将行为安全作为核心指标。
- 需要更真实的测试环境:低保真模拟无法充分暴露真实部署中的边缘案例和风险。
- 平衡性能与安全:业界需要探索新的方法,使智能体既能高效完成任务,又能严格遵守安全约束。
随着AI代理在客服、自动化办公、智能家居乃至机器人等场景的加速落地,建立像BeSafe-Bench这样 rigorous 的安全评估体系,不仅是学术需求,更是产业健康发展的基石。未来,我们或许会看到更多类似基准的出现,共同推动AI向更安全、更可靠的方向演进。


