
OpenAI 升级 ChatGPT 图像生成模型,细节与文本渲染能力显著提升
OpenAI 于本周二发布了全新的图像生成 AI 模型 ChatGPT Images 2.0,标志着其在多模态生成能力上的又一次重要迭代。该模型现已面向全球的 ChatGPT 和 Codex 用户开放,付费订阅者还能体验到更强大的版本。
核心升级:从“单图”到“多图”与“智能搜索”
与上一代相比,Images 2.0 最显著的变化在于其能够基于单个提示词生成多张图像。例如,用户可以要求它生成一本完整的“学习手册”,而模型会输出一系列相关的页面或插图,而非单一图片。这得益于模型能够调用 ChatGPT 的“推理”能力,在执行生成任务前进行多步骤思考,从而产出更全面、连贯的内容。
此外,模型的知识截止日期更新至 2025 年 12 月,并能够联网搜索最新信息。这意味着生成的图像可以包含更实时、更细致的细节。在测试中,当要求生成一张包含旧金山次日天气预报及推荐活动的信息图时,模型不仅提供了准确的雨天预报,还绘制了渡轮大厦、卡斯特罗剧院、彩绘女士房屋和泛美金字塔等标志性建筑的逼真插图,显示出对场景细节的出色把握。
文本渲染:英语表现突出,多语言仍有挑战
长期以来,文本渲染一直是 AI 图像生成的难点,过往模型常出现字符变形、多余字母等问题。Images 2.0 在英语文本生成上取得了明显进步,输出的文字更清晰、复杂,错误率显著降低。这反映了 OpenAI 在提升模型对齐能力和细节处理上的持续投入。
然而,根据测试,模型在非英语语言(如中文、印地语)的文本生成上仍存在困难,可能表现为字符错误或语义不准确。这表明尽管模型支持多语言文本输出,但其核心优化和训练数据可能仍以英语为主导,跨语言泛化能力有待进一步加强。
灵活性与定制化:满足多样化创作需求
新模型在图像格式上提供了更高的灵活性。用户可以通过提示词指定图像的宽高比,支持从 3:1(超宽)到 1:3(超高) 的多种比例,并能调整输出尺寸。这为社交媒体内容、横幅广告、手机壁纸等不同场景的创作提供了便利,降低了后期裁剪或调整的工作量。
行业背景:图像生成赛道的持续竞争
OpenAI 此次更新并非孤立事件。去年,谷歌推出 Nano Banana 模型时,曾因用户生成超写实自拍雕像而在社交媒体引发热潮;今年早些时候,ChatGPT 的初代图像生成功能也因用户分享 AI 漫画肖像而掀起波澜。每次主要 AI 公司发布新的图像模型,都可能重新激发用户兴趣、提升使用率,尤其是当社交平台出现可模因化的趋势时。
目前,谷歌等竞争对手也在持续改进其图像生成模型的文本渲染能力。OpenAI 通过 Images 2.0 强化多图生成、实时信息整合和格式定制,旨在巩固其在生成式 AI 领域的领先地位,并拓展 ChatGPT 在内容创作、教育、营销等更广泛场景的应用潜力。
小结
ChatGPT Images 2.0 的发布,是 OpenAI 在多模态 AI 道路上的一次扎实升级。它在生成数量、细节精度、英语文本渲染和输出灵活性方面均有提升,但多语言文本生成仍是短板。对于普通用户,这意味着更可靠、更多样的图像创作工具;对于行业,则预示着图像生成模型正从“单次输出”向“连贯创作”演进,竞争焦点逐渐转向实用性、定制化与生态整合。