SheepNav
新上线今天64 投票

我们如何为 Claude 产品构建安全护栏:从人为监督到系统隔离的经验分享

一年前,Anthropic 还坚决反对让 Claude 拥有足以关停内部服务的权限;如今,这种级别的访问已成为常态,开发者因此效率大增。然而,风险也随之而来:失败概率与潜在破坏半径。本文分享了 Anthropic 在推出三款核心代理产品——claude.ai、Claude Code 和 Claude Cowork——过程中,从“人为监督”转向“系统隔离”的安全策略演变。

风险的两面:概率与半径

Anthropic 将代理安全风险拆解为两个维度:失败概率潜在破坏半径。模型训练与安全机制的进步不断降低前者,但后者——理论上的“爆炸半径”——随着能力与权限的扩展而持续增长。当代理能完成原本需要一个人甚至一个团队的工作时,不部署的代价变得足够大,只要产品足够安全,风险收益比就倾向于推进部署。

从“审批”到“自动模式”:人为监督的局限性

最初,Claude Code 采用人为在环的监督方式:每次代理采取可能产生副作用的行动前,都需要用户点击确认。理论上可行,但实际遥测数据显示,用户批准了约 93% 的权限请求。随着审批次数增加,用户注意力下降,监督逐渐流于形式。为此,团队推出了 Claude Code 自动模式,通过自动化处理更安全的审批来缓解“审批疲劳”,但任何概率性防御都存在非零的漏报率。

系统隔离:更根本的防御思路

第二种思路是系统隔离:不监督代理做什么,而是通过沙箱、虚拟机、出口控制等手段限制其能做什么。这是 Anthropic 投入最多精力的方向,也是最多意外安全故障发生的地方。

三款产品,三种隔离架构

  • claude.ai:面向大众用户,采用强沙箱与内容过滤,限制代码执行和外部网络访问。
  • Claude Code:面向开发者,需要访问文件系统和执行命令,采用最小权限原则自动模式结合,并通过会话隔离防止横向移动。
  • Claude Cowork:面向企业协作,设计为多租户隔离,每个工作区有独立的凭证和网络策略。

经验教训:没有银弹

文章强调,没有单一方案能解决所有安全问题。人为监督会疲劳,系统隔离会受限,关键在于根据产品场景平衡风险与效率。Anthropic 的经验表明,分层防御——结合自动审批、权限最小化、沙箱隔离与持续监控——是目前最务实的路径。未来,随着代理能力继续提升,安全架构也需要动态进化。

延伸阅读

  1. 贝叶斯充分表示:监督学习中的信息保留与损失函数的关系
  2. 自我蒸馏策略梯度:让语言模型自己教自己,强化学习的新突破
  3. 利用梯度优化与多组注意力神经网络实现逆临界实验设计
查看原文