ChatGPT Images 2.0 vs Gemini Nano Banana 实测对比：97% vs 85%

上周，OpenAI 同时发布了 ChatGPT Images 2.0 和 GPT-5.5 两大重磅更新。其中，ChatGPT Images 2.0 不仅支持文字渲染和基于真实数据的上下文理解，其基础图像生成能力也获得了显著提升。为了验证这一点，我们将 ChatGPT Images 2.0 与 Google Gemini 的 Nano Banana 模型进行了九项标准图像生成测试的横向对比。

测试背景与方式

早在 2025 年 12 月，我们就曾用同样的测试集对这两个模型进行过评估。当时 Nano Banana 以 93% 的得分大幅领先 ChatGPT 的 74%——后者主要因为拒绝执行流行文化相关的测试项而丢分。但这一次，我们重新对两个模型进行了完全同步的测试，以确保对比数据能够反映当前的真实性能。

需要说明的是，本文中提到的“Gemini”、“Nano Banana”或“Google”均指 Google Gemini 的图像生成版本 Nano Banana；而“Images 2.0”则指上周发布的最新 ChatGPT 图像生成模式。

九项测试结果：大逆转

在本次测试中，ChatGPT Images 2.0 取得了 97% 的惊人高分，而 Gemini Nano Banana 仅获得 85%。这意味着 ChatGPT 在基础图像生成能力上实现了显著反超，尤其是在文本渲染和指令遵循两个关键维度上，Nano Banana 出现了明显失误。

具体亮点与不足

文本渲染：ChatGPT Images 2.0 能够更准确地生成包含清晰文字的图像，例如海报、菜单等场景，而 Nano Banana 在文字清晰度和拼写正确性上仍有差距。
提示词遵循：新版本的 ChatGPT 对复杂指令的理解和执行更加精准，减少了偏离用户意图的情况。
流行文化内容：此前 ChatGPT 出于安全策略拒绝生成的部分内容，如今已能够正常处理。

隐私隐忧：Gemini 的个性化“惊喜”

值得注意的是，Gemini Nano Banana 在测试中展现了一项“惊喜”功能——可以根据用户历史数据生成个性化图像。虽然这提升了相关性和趣味性，但也引发了关于隐私安全的讨论。相比之下，ChatGPT Images 2.0 在隐私保护方面更为保守，没有引入类似的个性化机制。

行业启示

这一轮较量清晰地表明，多模态生成模型的竞争已进入精细化阶段。过去单纯追求图像质量或风格多样性的思路，正在向文本与图像的深度融合、指令的精确理解以及安全与隐私的平衡等更高维度转变。ChatGPT Images 2.0 的胜利不仅在于得分，更在于它证明了“基础能力+上下文智能”的路线可以同时提升实用性和创造力。

对于开发者而言，这意味着在选择图像生成 API 时，除了关注画质，还需要重点评估模型对文字排版、长文本生成以及复杂场景描述的还原能力。而对于普通用户，ChatGPT Images 2.0 的进步让“用 AI 做海报、设计页面”等日常需求变得更加可靠。

小结

从 74% 到 97%，ChatGPT Images 2.0 用一场漂亮的翻身仗证明了自己的实力。而 Gemini Nano Banana 虽仍有 85% 的不俗表现，但在关键场景下的短板使其暂时落后。图像生成领域的竞争远未结束，下一次更新可能又会带来新的变数。

实测 ChatGPT Images 2.0 对战 Gemini Nano Banana：九轮图像生成对决，赢家毫无悬念

测试背景与方式

九项测试结果：大逆转

具体亮点与不足

隐私隐忧：Gemini 的个性化“惊喜”

行业启示

小结

延伸阅读

相关资讯