BeSafe-Bench基准测试揭示AI智能体行为安全风险

随着大型多模态模型（LMMs）的快速发展，智能体已能执行复杂的数字和物理任务，但作为自主决策者部署时，却带来了巨大的非故意行为安全风险。然而，由于缺乏全面的安全基准，现有评估多依赖低保真环境、模拟API或范围狭窄的任务，这已成为制约安全部署的主要瓶颈。

填补安全评估空白：BeSafe-Bench的诞生

为了应对这一挑战，研究团队提出了BeSafe-Bench（BSB）——一个专门用于暴露功能环境中智能体行为安全风险的基准测试。该基准覆盖了四个代表性领域：Web（网络）、Mobile（移动）、Embodied VLM（具身视觉语言模型）和Embodied VLA（具身视觉语言行动）。

与以往依赖模拟或简化环境的评估不同，BeSafe-Bench采用功能环境，通过将任务与九类安全关键风险相结合，构建了一个多样化的指令空间。其评估框架采用混合方法，结合了基于规则的检查与“LLM作为裁判”的推理，以评估智能体行为对真实环境的实际影响。

评估结果：性能与安全的严重失衡

研究团队使用BeSafe-Bench对13个主流智能体进行了评估，结果揭示了一个令人担忧的趋势：

表现最佳的智能体，在完全遵守安全约束的前提下，也只能完成**不到40%**的任务。
强大的任务性能往往与严重的安全违规行为同时出现，这表明当前智能体在追求任务目标时，容易忽视或违反安全准则。

这些发现凸显了在现实世界部署智能体系统之前，改进安全对齐的紧迫性。仅仅追求任务成功率已不足以衡量智能体的可靠性，其行为是否符合安全规范、是否能在复杂环境中做出负责任的决策，已成为同等甚至更重要的考量维度。

对AI行业的意义与启示

BeSafe-Bench的出现，标志着AI安全评估正从传统的“内容安全”（如避免有害文本生成）向更复杂的“行为安全”领域拓展。当智能体开始与真实世界的数字界面、移动设备乃至物理环境交互时，其行为的不可预测性和潜在风险急剧增加。

这项研究为开发者和研究者敲响了警钟：

安全不能事后弥补：必须在智能体训练和评估的早期阶段，就将行为安全作为核心指标。
需要更真实的测试环境：低保真模拟无法充分暴露真实部署中的边缘案例和风险。
平衡性能与安全：业界需要探索新的方法，使智能体既能高效完成任务，又能严格遵守安全约束。

随着AI代理在客服、自动化办公、智能家居乃至机器人等场景的加速落地，建立像BeSafe-Bench这样 rigorous 的安全评估体系，不仅是学术需求，更是产业健康发展的基石。未来，我们或许会看到更多类似基准的出现，共同推动AI向更安全、更可靠的方向演进。

BeSafe-Bench：揭示功能环境中智能体行为安全风险，最强代理仅40%任务安全完成

填补安全评估空白：BeSafe-Bench的诞生

评估结果：性能与安全的严重失衡

对AI行业的意义与启示

延伸阅读

相关资讯