精选2个月前0 投票

OpenAI 如何安全运行 Codex：沙箱、审批与原生遥测

随着 AI 系统自主性增强，编码代理能够代表用户执行仓库审查、运行命令等任务，这要求安全团队必须建立有效的治理机制。OpenAI 在部署 Codex 时，以明确的技术边界、低风险操作的流畅性和高风险操作的显式控制为核心目标，构建了一套兼具安全性与效率的防护体系。

核心控制手段

沙箱与审批的协同

Codex 的沙箱定义了技术执行边界，包括可写入路径、网络访问权限及受保护目录。审批策略则决定何时需要人工介入：当 Codex 尝试执行沙箱外操作时，必须请求批准。用户可选择“一次性批准”或“会话内同类操作自动批准”。

自动审查模式 (Auto-review)

为减少频繁打断，Codex 引入了 Auto-review 模式。该模式由一个子代理自动评估低风险操作请求，并代替用户直接批准，从而让 Codex 在常规任务上保持流畅，仅在遇到高风险或可能产生意外后果的操作时才暂停并请求人工确认。

配置示例

# config.toml
# 启用自动审查
approvals_reviewer = "auto_review"
# 自动将开发目录加入沙箱可写路径
sandbox_workspace_write.writable_roots = ["~/development"]

安全设计要点

网络策略：通过细粒度网络策略限制 Codex 可访问的外部服务，防止数据泄露。
原生遥测：所有操作均记录为结构化的代理原生日志，支持事后审计与行为分析。

这套机制使开发者在低风险场景下保持高效，同时为高风险操作提供必要的监督，为编码代理的安全落地提供了可复用的参考架构。

延伸阅读

相关资讯

Anthropic 发现 Claude 内部隐藏的“思考空间”：模型在回答前已在脑中推演

GPT-5.6 成为 Microsoft 365 Copilot 首选模型：更强 AI 赋能 Word、Excel、PowerPoint

下载专栏：美国核能里程碑，中国紧盯英伟达芯片

GPT-5.6 发布：Sol、Terra、Luna 三款模型，性能与效率双突破