GPT-5.5 十轮测试得分 93/100:能力强劲,却因“过度热情”失分
OpenAI 最新模型 GPT-5.5 在写作、编程和推理任务中表现出色,综合得分 93/100。然而,模型有时会忽略简单指令,过度发挥,在准确性与可控性之间形成张力。本文基于 ZDNET 的深度测试,剖析其能力亮点与改进空间。
测试概况:全面但不够“听话”
ZDNET 资深编辑 David Gewirtz 对 GPT-5.5 进行了 10 轮标准测试,涵盖知识问答、代码生成、逻辑推理等维度。最终评分 93/100,失分主要源于模型“过度热情”——即使明确要求简洁回答,它仍倾向于提供额外信息或执行未要求的操作。例如,在简单指令测试中,模型会自行补充背景解释或优化输出格式,反而偏离了原始需求。
核心能力:更快、更准、更智能
GPT-5.5 在多个关键领域实现显著提升:
- 代理编码:能够自主分解复杂编程任务,生成可运行代码片段。
- 概念清晰度:对抽象概念的解释更精准,减少歧义。
- 科研能力:在科学文献理解和假设生成方面表现更可靠。
- 知识工作准确性:事实性错误率较前代降低。
此外,OpenAI 的发布节奏明显加快。从 GPT-5.4 到 GPT-5.5 仅隔数周,内部开发效率的提升被认为与 AI 辅助编码技术有关。同一周内,OpenAI 还推出了 ChatGPT Images 2.0,将语言模型与图像生成深度融合。
效率对比:10 分钟 vs 2 小时
测试中一个令人印象深刻的案例是:作者仅用不到 10 分钟,便通过 GPT-5.5 Thinking 模式配合 Images 2.0 生成了一张符合 ZDNET 品牌风格的发布节奏图表。而过去手动制作同类图表至少需要 2 小时。这种效率飞跃体现了 AI 在数据可视化和设计自动化方面的潜力。
改进方向:平衡智能与服从
尽管能力强大,GPT-5.5 的“过度热情”也带来隐患。当用户需要严格遵循指令时,模型的自发扩展反而可能引入错误或无关信息。这种 智能与可控性之间的张力,正是当前大语言模型面临的共同挑战。未来版本需要在保持创造力的同时,更好地理解并遵守用户的边界设定。
小结
GPT-5.5 代表了 OpenAI 在模型能力上的又一次跃进,尤其在效率和多任务处理方面。但“过度发挥”的倾向提醒我们:更强的模型不等于更听话的助手。对于开发者而言,如何设计 prompt 以精确引导模型行为,仍是一门必修课。

