实测 ChatGPT Images 2.0 对战 Gemini Nano Banana:九轮图像生成对决,赢家毫无悬念
上周,OpenAI 同时发布了 ChatGPT Images 2.0 和 GPT-5.5 两大重磅更新。其中,ChatGPT Images 2.0 不仅支持文字渲染和基于真实数据的上下文理解,其基础图像生成能力也获得了显著提升。为了验证这一点,我们将 ChatGPT Images 2.0 与 Google Gemini 的 Nano Banana 模型进行了九项标准图像生成测试的横向对比。
测试背景与方式
早在 2025 年 12 月,我们就曾用同样的测试集对这两个模型进行过评估。当时 Nano Banana 以 93% 的得分大幅领先 ChatGPT 的 74%——后者主要因为拒绝执行流行文化相关的测试项而丢分。但这一次,我们重新对两个模型进行了完全同步的测试,以确保对比数据能够反映当前的真实性能。
需要说明的是,本文中提到的“Gemini”、“Nano Banana”或“Google”均指 Google Gemini 的图像生成版本 Nano Banana;而“Images 2.0”则指上周发布的最新 ChatGPT 图像生成模式。
九项测试结果:大逆转
在本次测试中,ChatGPT Images 2.0 取得了 97% 的惊人高分,而 Gemini Nano Banana 仅获得 85%。这意味着 ChatGPT 在基础图像生成能力上实现了显著反超,尤其是在文本渲染和指令遵循两个关键维度上,Nano Banana 出现了明显失误。
具体亮点与不足
- 文本渲染:ChatGPT Images 2.0 能够更准确地生成包含清晰文字的图像,例如海报、菜单等场景,而 Nano Banana 在文字清晰度和拼写正确性上仍有差距。
- 提示词遵循:新版本的 ChatGPT 对复杂指令的理解和执行更加精准,减少了偏离用户意图的情况。
- 流行文化内容:此前 ChatGPT 出于安全策略拒绝生成的部分内容,如今已能够正常处理。
隐私隐忧:Gemini 的个性化“惊喜”
值得注意的是,Gemini Nano Banana 在测试中展现了一项“惊喜”功能——可以根据用户历史数据生成个性化图像。虽然这提升了相关性和趣味性,但也引发了关于隐私安全的讨论。相比之下,ChatGPT Images 2.0 在隐私保护方面更为保守,没有引入类似的个性化机制。
行业启示
这一轮较量清晰地表明,多模态生成模型的竞争已进入精细化阶段。过去单纯追求图像质量或风格多样性的思路,正在向文本与图像的深度融合、指令的精确理解以及安全与隐私的平衡等更高维度转变。ChatGPT Images 2.0 的胜利不仅在于得分,更在于它证明了“基础能力+上下文智能”的路线可以同时提升实用性和创造力。
对于开发者而言,这意味着在选择图像生成 API 时,除了关注画质,还需要重点评估模型对文字排版、长文本生成以及复杂场景描述的还原能力。而对于普通用户,ChatGPT Images 2.0 的进步让“用 AI 做海报、设计页面”等日常需求变得更加可靠。
小结
从 74% 到 97%,ChatGPT Images 2.0 用一场漂亮的翻身仗证明了自己的实力。而 Gemini Nano Banana 虽仍有 85% 的不俗表现,但在关键场景下的短板使其暂时落后。图像生成领域的竞争远未结束,下一次更新可能又会带来新的变数。

