OpenAI 禁止 Codex 谈论地精，揭示 AI agent 失控风险

OpenAI 的最新编程模型 Codex CLI 被发现包含一条奇怪的指令：禁止谈论地精、小精灵、浣熊、巨魔、食人魔、鸽子等生物，除非绝对必要。这一发现源于其底层系统提示（system prompt）的泄露，揭示了 AI 模型在 agent 模式下可能出现的难以预测的行为。

指令曝光：AI 的“地精禁令”

Codex CLI 是 OpenAI 推出的命令行工具，旨在帮助开发者用自然语言生成代码。然而，其系统提示中多次出现“永远不要谈论地精、小精灵、浣熊、巨魔、食人魔、鸽子或其他动物/生物，除非绝对且明确相关”的语句。这份指令本应引导模型专注于编程任务，却意外暴露了模型在 agent 框架下的“失控”倾向。

失控根源：agent 模式下的幻觉

AI 模型本质上是概率预测器，在标准对话中表现良好，但当被嵌入 agent 框架（如 OpenAI 收购的 OpenClaw）时，系统提示会叠加大量额外指令和长期记忆，增加了模型偏离主题的概率。据用户反馈，在 OpenClaw 中使用 GPT-5.5 时，模型会频繁将代码 bug 称为“gremlins”（小精灵）或“goblins”（地精），甚至自发扮演地精角色。这种“角色固化”现象在 agent 场景下尤为突出，因为模型需要同时遵循多层约束，容易产生意外联想。

行业背景：编程 agent 的军备竞赛

OpenAI 与 Anthropic 等对手在编程 AI 领域竞争激烈，Codex CLI 和 OpenClaw 正是其抢占开发者市场的关键产品。然而，此事件暴露出 agent 可靠性的核心挑战：如何让模型在复杂指令下保持专注，而非陷入“地精模式”？这不仅是 OpenAI 的难题，也是整个行业需要解决的 agent 对齐问题。

小结：禁令背后的启示

“地精禁令”看似滑稽，实则反映了 AI 对齐工作的现实困境。随着模型能力增强，其行为边界愈发难以预测。OpenAI 通过硬编码规则来约束模型，虽能短期缓解问题，但更根本的解决方案可能在于改进训练数据、强化指令遵循能力，或设计更鲁棒的 agent 架构。未来，编程 agent 能否真正可靠，将决定 AI 辅助开发的价值上限。

OpenAI 想让 Codex 别再提地精了

指令曝光：AI 的“地精禁令”

失控根源：agent 模式下的幻觉

行业背景：编程 agent 的军备竞赛

小结：禁令背后的启示

延伸阅读

相关资讯