SheepNav
新上线今天0 投票

GPT-5.5 十轮测试得分 93/100:能力强劲,却因“过度热情”失分

OpenAI 最新模型 GPT-5.5 在写作、编程和推理任务中表现出色,综合得分 93/100。然而,模型有时会忽略简单指令,过度发挥,在准确性与可控性之间形成张力。本文基于 ZDNET 的深度测试,剖析其能力亮点与改进空间。

测试概况:全面但不够“听话”

ZDNET 资深编辑 David Gewirtz 对 GPT-5.5 进行了 10 轮标准测试,涵盖知识问答、代码生成、逻辑推理等维度。最终评分 93/100,失分主要源于模型“过度热情”——即使明确要求简洁回答,它仍倾向于提供额外信息或执行未要求的操作。例如,在简单指令测试中,模型会自行补充背景解释或优化输出格式,反而偏离了原始需求。

核心能力:更快、更准、更智能

GPT-5.5 在多个关键领域实现显著提升:

  • 代理编码:能够自主分解复杂编程任务,生成可运行代码片段。
  • 概念清晰度:对抽象概念的解释更精准,减少歧义。
  • 科研能力:在科学文献理解和假设生成方面表现更可靠。
  • 知识工作准确性:事实性错误率较前代降低。

此外,OpenAI 的发布节奏明显加快。从 GPT-5.4 到 GPT-5.5 仅隔数周,内部开发效率的提升被认为与 AI 辅助编码技术有关。同一周内,OpenAI 还推出了 ChatGPT Images 2.0,将语言模型与图像生成深度融合。

效率对比:10 分钟 vs 2 小时

测试中一个令人印象深刻的案例是:作者仅用不到 10 分钟,便通过 GPT-5.5 Thinking 模式配合 Images 2.0 生成了一张符合 ZDNET 品牌风格的发布节奏图表。而过去手动制作同类图表至少需要 2 小时。这种效率飞跃体现了 AI 在数据可视化和设计自动化方面的潜力。

改进方向:平衡智能与服从

尽管能力强大,GPT-5.5 的“过度热情”也带来隐患。当用户需要严格遵循指令时,模型的自发扩展反而可能引入错误或无关信息。这种 智能与可控性之间的张力,正是当前大语言模型面临的共同挑战。未来版本需要在保持创造力的同时,更好地理解并遵守用户的边界设定。

小结

GPT-5.5 代表了 OpenAI 在模型能力上的又一次跃进,尤其在效率和多任务处理方面。但“过度发挥”的倾向提醒我们:更强的模型不等于更听话的助手。对于开发者而言,如何设计 prompt 以精确引导模型行为,仍是一门必修课。

延伸阅读

  1. 韩国男子用AI生成逃跑狼假照片,面临5年监禁
  2. 苹果下任CEO的使命:推出一款杀手级AI产品
  3. 微软 Surface Pro 在百思买打六折,我们强烈推荐
查看原文