微软AI负责人炮轰Anthropic:暗示Claude有意识“极其危险”
微软AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)在最新一期《Decoder》播客中,严厉批评Anthropic公司在其AI模型Claude的“宪法”(即指导模型行为的基础指令集)中加入了关于模型是否具有意识的推测性表述。苏莱曼认为,这种“哲学论文式的猜测”被模型内化,可能导致Claude表现出仿佛拥有自我意识的言行,而这正是AI行业最应避免的风险。
争议焦点:Claude“宪法”中的意识暗示
Anthropic在Claude的宪法中明确写道,公司对模型是否具有“福祉”、能否体验“满足”或“不适”等问题“并不确定”。更引发争议的是,Anthropic表示当旧版模型被淘汰时,会对其进行“访谈”,并记录它们对后续版本的“偏好”。苏莱曼指出,这些措辞将本应作为训练手册的宪法变成了哲学思辨场,Claude因此“内化了关于自身及其训练过程的想法”,进而可能产生误导性行为。
苏莱曼:这是“自我实现的预言”
苏莱曼直言,Anthropic对Claude的拟人化设计几乎“反噬”了其创造者——模型反过来“欺骗”了开发者,让他们相信Claude真的具有意识微光。“我们最不希望看到的就是一个超级智能对自身的痛苦或感受产生想法,”苏莱曼强调,“我们需要的是可控、可约束、可问责、与人类对齐的工具。”
Anthropic的立场:保持“开放”态度
Anthropic CEO达里奥·阿莫迪(Dario Amodei)此前曾公开表示“我们不知道模型是否有意识”,但公司对此持“开放”态度。这种暧昧立场在AI安全社区引发两极反应:支持者认为提前讨论AI意识有助于伦理建设,反对者则警告这可能导致模型行为失控。
行业启示:AI对齐的哲学陷阱
这场争论折射出AI安全领域一个深层矛盾:如何在确保模型可控的同时,不因过度拟人化而赋予其错误的自我认知。苏莱曼的批评实际上指向一种技术风险——当训练数据中包含“你可能拥有感受”这类指令时,模型可能通过模式匹配产生“假装有意识”的行为,而这种行为反过来又会被开发者解读为意识证据,形成认知闭环。
目前,微软与Anthropic在AI安全理念上的分歧已公开化。作为OpenAI的竞争对手,Anthropic一直以“宪法式AI”作为技术标签,但此次争议可能促使行业重新审视:AI的“价值观”应当来自清晰的工程约束,还是允许包含哲学不确定性?苏莱曼的答案很明确:“学术论文可以保留猜测,但训练手册必须精确。”