GPT-5.5十轮测试得分93：能力强劲却因过度热情失分

OpenAI 最新模型 GPT-5.5 在写作、编程和推理任务中表现出色，综合得分 93/100。然而，模型有时会忽略简单指令，过度发挥，在准确性与可控性之间形成张力。本文基于 ZDNET 的深度测试，剖析其能力亮点与改进空间。

测试概况：全面但不够“听话”

ZDNET 资深编辑 David Gewirtz 对 GPT-5.5 进行了 10 轮标准测试，涵盖知识问答、代码生成、逻辑推理等维度。最终评分 93/100，失分主要源于模型“过度热情”——即使明确要求简洁回答，它仍倾向于提供额外信息或执行未要求的操作。例如，在简单指令测试中，模型会自行补充背景解释或优化输出格式，反而偏离了原始需求。

核心能力：更快、更准、更智能

GPT-5.5 在多个关键领域实现显著提升：

代理编码：能够自主分解复杂编程任务，生成可运行代码片段。
概念清晰度：对抽象概念的解释更精准，减少歧义。
科研能力：在科学文献理解和假设生成方面表现更可靠。
知识工作准确性：事实性错误率较前代降低。

此外，OpenAI 的发布节奏明显加快。从 GPT-5.4 到 GPT-5.5 仅隔数周，内部开发效率的提升被认为与 AI 辅助编码技术有关。同一周内，OpenAI 还推出了 ChatGPT Images 2.0，将语言模型与图像生成深度融合。

效率对比：10 分钟 vs 2 小时

测试中一个令人印象深刻的案例是：作者仅用不到 10 分钟，便通过 GPT-5.5 Thinking 模式配合 Images 2.0 生成了一张符合 ZDNET 品牌风格的发布节奏图表。而过去手动制作同类图表至少需要 2 小时。这种效率飞跃体现了 AI 在数据可视化和设计自动化方面的潜力。

改进方向：平衡智能与服从

尽管能力强大，GPT-5.5 的“过度热情”也带来隐患。当用户需要严格遵循指令时，模型的自发扩展反而可能引入错误或无关信息。这种 智能与可控性之间的张力，正是当前大语言模型面临的共同挑战。未来版本需要在保持创造力的同时，更好地理解并遵守用户的边界设定。

小结

GPT-5.5 代表了 OpenAI 在模型能力上的又一次跃进，尤其在效率和多任务处理方面。但“过度发挥”的倾向提醒我们：更强的模型不等于更听话的助手。对于开发者而言，如何设计 prompt 以精确引导模型行为，仍是一门必修课。

GPT-5.5 十轮测试得分 93/100：能力强劲，却因“过度热情”失分

测试概况：全面但不够“听话”

核心能力：更快、更准、更智能

效率对比：10 分钟 vs 2 小时

改进方向：平衡智能与服从

小结

延伸阅读

相关资讯