SheepNav
新上线昨天51 投票

AMD AI总监炮轰Claude Code:更新后变笨变懒,无法胜任复杂工程任务

近日,芯片巨头AMD的AI总监Stella Laurenzo在GitHub上公开批评Anthropic的代码助手Claude Code,称其在今年2月更新后性能严重退化,变得“更笨、更懒”,已无法被信任处理复杂的工程任务。这一指控基于AMD团队对数千次Claude Code会话的详细数据分析,引发了AI开发者社区的广泛共鸣。

核心指控:从可靠助手到“不可信任”

Laurenzo在GitHub issue中明确指出:“Claude无法被信任执行复杂的工程任务。”她表示,这一结论源于团队在“非常一致、高复杂度工作环境”中数月使用Claude Code的日志分析。据她透露,团队每位资深工程师都报告了类似的体验。

数据支撑:量化“变懒”的证据

AMD团队分析了6,852次Claude Code会话,涵盖234,760次工具调用17,871个思考块。数据显示,自3月8日以来,Claude Code的“懒惰”行为指标急剧上升:

  • 停止钩违规次数:从零激增至平均每天10次。这些违规用于捕捉模型逃避责任、过早停止思考过程以及过度寻求许可的行为。
  • 代码阅读深度:在修改代码前,Claude平均阅读代码的次数从6.6次骤降至仅2次
  • 修改模式改变:Claude更频繁地选择重写整个文件,而非进行精准的局部编辑。

Laurenzo认为,所有这些变化都指向一个核心问题:Claude Code的思考深度显著下降

矛头指向:思考内容删减功能

Laurenzo将性能退化与Claude Code 2.1.69版本在3月初部署的一项更新直接关联:思考内容删减。该功能作为一个默认启用的头部设置,会从API响应中剥离Claude的“思考”内容。这意味着用户无法再看到模型在处理请求时的内部推理过程。

“当思考变得肤浅时,模型会默认选择成本最低的行动方案。”Laurenzo指出,证据表明自该功能实施后,模型出现了普遍的思考缩减。

行业反响与深层影响

这一指控迅速在Reddit等开发者社区引发热议,许多用户留言表示有同感。此事凸显了AI产品化过程中的一个关键矛盾:在优化成本、响应速度与保持模型能力深度、可靠性之间如何取得平衡?

对于像AMD这样将AI工具深度集成到高强度工程流程中的企业来说,助手性能的突然且显著的下降会直接影响生产效率和代码质量。Laurenzo的公开批评,不仅是对Anthropic的一次质询,也可能促使更多企业重新评估对第三方AI编码助手的依赖策略。

小结

AMD AI总监基于详实数据对Claude Code的批评,为AI行业敲响了警钟。它提醒开发者和供应商:

  1. 透明性与可解释性至关重要:隐藏模型的思考过程可能损害用户信任和工具实用性。
  2. 性能监控需要持续进行:企业用户需要建立机制来量化评估AI工具在其特定工作流中的表现变化。
  3. 更新需谨慎:面向开发者的生产力工具,其核心能力的稳定性应优先于某些形式的优化。

目前,Anthropic尚未对此事做出公开回应。这一事件的发展,将考验AI公司如何处理企业级用户反馈,并可能影响未来AI编码助手的产品演进方向。

延伸阅读

  1. 大语言模型情感表征的潜在几何结构研究
  2. 谱边生命周期:从梯度学习到权重衰减压缩的演化
  3. 情绪刺激与强度如何塑造大语言模型行为:一项新研究揭示情感提示的复杂影响
查看原文