SheepNav
新上线今天0 投票

OpenAI图像生成器升级:新增联网“思考能力”,单提示可生成系列图像

OpenAI近日发布了其AI图像生成器的最新版本——ChatGPT Images 2.0。此次更新最大的亮点在于引入了“思考能力”,允许模型在生成图像前搜索网络信息,从而能够基于单个提示创建一系列连贯的图像。这不仅提升了图像生成的复杂度和准确性,也为内容创作者和设计师带来了全新的工作流可能。

核心升级:从“执行”到“思考”

传统的AI图像生成器通常根据用户输入的提示词直接生成单张图像,而ChatGPT Images 2.0的“思考模型”则改变了这一范式。当用户选择启用思考能力时,模型会先进行以下步骤:

  1. 联网搜索:从互联网获取与提示相关的背景信息,确保生成内容更准确、更具时效性。
  2. 结构化推理:在生成图像前,先“思考”图像的结构、构图和逻辑关系。
  3. 多图连贯生成:基于一个提示,一次性生成最多8张图像,并确保这些图像在角色、物体和风格上保持一致性。

这种“先思考,后生成”的模式,使得AI不再仅仅是执行命令的工具,而是具备了初步的规划和信息整合能力。

应用场景拓展:从单张图到系列内容

得益于连贯生成能力,ChatGPT Images 2.0特别适合需要系列化视觉内容的场景:

  • 漫画创作:自动生成具有连贯角色和场景的多格漫画页面。
  • 社交媒体运营:快速制作风格统一的系列宣传图或信息图。
  • 室内设计:为房屋的每个房间生成统一风格的设计方案预览图。
  • 视觉化报告:上传文件(如数据表格),让AI生成对应的图表或图解说明。

OpenAI表示,这将极大简化需要批量、一致性视觉内容的生产流程。

技术细节与性能提升

除了思考能力,本次更新还包括多项技术增强:

  • 指令遵循与细节保留:模型能更精准地理解复杂指令,并保留用户指定的关键细节。
  • 文本生成能力:在图像中生成文字的准确性显著提高,特别是在日语、韩语、中文、印地语和孟加拉语等非拉丁语系文字上取得了“重大进展”。
  • 图像质量与格式:支持生成分辨率高达2K的图像,并提供更丰富的宽高比选择,从超宽的3:1到竖版的1:3,适应不同平台和媒介的需求。
  • 风格覆盖:除了更好地捕捉照片的特征,还优化了对像素艺术、漫画、电影静帧等多种艺术风格的支持。

行业背景与竞争态势

OpenAI于去年首次推出ChatGPT Images,并在去年12月进行了重大更新。此次推出具备“思考能力”的2.0版本,正值AI图像生成领域竞争白热化之际。谷歌等公司也推出了强大的图像生成工具,竞争焦点正从单纯的“画得像”转向“画得对、画得连贯、画得有用”。

ChatGPT Images 2.0的联网搜索和系列生成能力,可以看作是AI向“多模态智能体”迈进的一步。它不再孤立地处理图像任务,而是尝试结合外部知识(网络信息)和内部推理,来完成更复杂、更贴近实际需求的创作任务。

可用性与展望

目前,新的“思考能力”仅面向ChatGPT Plus、Pro、Business和Enterprise订阅用户开放。所有ChatGPT用户则可以使用图像质量、分辨率和多语言文本生成等方面的通用升级。

随着AI图像生成技术从“单点突破”走向“工作流整合”,像ChatGPT Images 2.0这样具备规划、搜索和连贯输出能力的工具,有望成为专业内容创作和设计领域的重要辅助,甚至可能重塑部分视觉内容的生产方式。下一步,我们或许将看到AI在视频生成、3D建模等更复杂序列任务上应用类似的“思考”逻辑。

延伸阅读

  1. Meta将记录员工击键与鼠标轨迹,用于训练AI模型
  2. 报告称:未经授权团体已获取 Anthropic 独家网络安全工具 Mythos 访问权限
  3. SpaceX与Cursor合作,并拥有以600亿美元收购这家初创公司的选择权
查看原文