Claude 安全策略：从人为监督到系统隔离的经验分享

一年前，Anthropic 还坚决反对让 Claude 拥有足以关停内部服务的权限；如今，这种级别的访问已成为常态，开发者因此效率大增。然而，风险也随之而来：失败概率与潜在破坏半径。本文分享了 Anthropic 在推出三款核心代理产品——claude.ai、Claude Code 和 Claude Cowork——过程中，从“人为监督”转向“系统隔离”的安全策略演变。

风险的两面：概率与半径

Anthropic 将代理安全风险拆解为两个维度：失败概率和潜在破坏半径。模型训练与安全机制的进步不断降低前者，但后者——理论上的“爆炸半径”——随着能力与权限的扩展而持续增长。当代理能完成原本需要一个人甚至一个团队的工作时，不部署的代价变得足够大，只要产品足够安全，风险收益比就倾向于推进部署。

从“审批”到“自动模式”：人为监督的局限性

最初，Claude Code 采用人为在环的监督方式：每次代理采取可能产生副作用的行动前，都需要用户点击确认。理论上可行，但实际遥测数据显示，用户批准了约 93% 的权限请求。随着审批次数增加，用户注意力下降，监督逐渐流于形式。为此，团队推出了 Claude Code 自动模式，通过自动化处理更安全的审批来缓解“审批疲劳”，但任何概率性防御都存在非零的漏报率。

系统隔离：更根本的防御思路

第二种思路是系统隔离：不监督代理做什么，而是通过沙箱、虚拟机、出口控制等手段限制其能做什么。这是 Anthropic 投入最多精力的方向，也是最多意外安全故障发生的地方。

三款产品，三种隔离架构

claude.ai：面向大众用户，采用强沙箱与内容过滤，限制代码执行和外部网络访问。
Claude Code：面向开发者，需要访问文件系统和执行命令，采用最小权限原则与自动模式结合，并通过会话隔离防止横向移动。
Claude Cowork：面向企业协作，设计为多租户隔离，每个工作区有独立的凭证和网络策略。

经验教训：没有银弹

文章强调，没有单一方案能解决所有安全问题。人为监督会疲劳，系统隔离会受限，关键在于根据产品场景平衡风险与效率。Anthropic 的经验表明，分层防御——结合自动审批、权限最小化、沙箱隔离与持续监控——是目前最务实的路径。未来，随着代理能力继续提升，安全架构也需要动态进化。

我们如何为 Claude 产品构建安全护栏：从人为监督到系统隔离的经验分享

风险的两面：概率与半径

从“审批”到“自动模式”：人为监督的局限性

系统隔离：更根本的防御思路

三款产品，三种隔离架构

经验教训：没有银弹

延伸阅读

相关资讯