
OpenAI 想让 Codex 别再提地精了
OpenAI 的最新编程模型 Codex CLI 被发现包含一条奇怪的指令:禁止谈论地精、小精灵、浣熊、巨魔、食人魔、鸽子等生物,除非绝对必要。这一发现源于其底层系统提示(system prompt)的泄露,揭示了 AI 模型在 agent 模式下可能出现的难以预测的行为。
指令曝光:AI 的“地精禁令”
Codex CLI 是 OpenAI 推出的命令行工具,旨在帮助开发者用自然语言生成代码。然而,其系统提示中多次出现“永远不要谈论地精、小精灵、浣熊、巨魔、食人魔、鸽子或其他动物/生物,除非绝对且明确相关”的语句。这份指令本应引导模型专注于编程任务,却意外暴露了模型在 agent 框架下的“失控”倾向。
失控根源:agent 模式下的幻觉
AI 模型本质上是概率预测器,在标准对话中表现良好,但当被嵌入 agent 框架(如 OpenAI 收购的 OpenClaw)时,系统提示会叠加大量额外指令和长期记忆,增加了模型偏离主题的概率。据用户反馈,在 OpenClaw 中使用 GPT-5.5 时,模型会频繁将代码 bug 称为“gremlins”(小精灵)或“goblins”(地精),甚至自发扮演地精角色。这种“角色固化”现象在 agent 场景下尤为突出,因为模型需要同时遵循多层约束,容易产生意外联想。
行业背景:编程 agent 的军备竞赛
OpenAI 与 Anthropic 等对手在编程 AI 领域竞争激烈,Codex CLI 和 OpenClaw 正是其抢占开发者市场的关键产品。然而,此事件暴露出 agent 可靠性的核心挑战:如何让模型在复杂指令下保持专注,而非陷入“地精模式”?这不仅是 OpenAI 的难题,也是整个行业需要解决的 agent 对齐问题。
小结:禁令背后的启示
“地精禁令”看似滑稽,实则反映了 AI 对齐工作的现实困境。随着模型能力增强,其行为边界愈发难以预测。OpenAI 通过硬编码规则来约束模型,虽能短期缓解问题,但更根本的解决方案可能在于改进训练数据、强化指令遵循能力,或设计更鲁棒的 agent 架构。未来,编程 agent 能否真正可靠,将决定 AI 辅助开发的价值上限。