4月21日,OpenAI正式发布ChatGPT Images 2.0,这是基于全新 gpt-image-2 模型的图像生成系统。与以往任何图像生成工具不同,gpt-image-2 是首个具备内置推理能力的主流图像模型——它在”画画”之前会先”思考”:规划构图、搜索参考资料、自我验证输出。5月12日,DALL-E 2 和 DALL-E 3 将正式退役,一个时代就此落幕。

从”随机生成”到”推理创作”

过去三年的图像生成模型,本质上都是”单次射击”的扩散模型——你给一个提示词,模型直接生成一张图,没有规划,没有检查,没有纠错。

这导致了一系列经典问题:

  • 文字乱码(六根手指的人)
  • 风格不一致(同一角色两张图长得不一样)
  • 引用错误(用2023年的数据生成2026年的新闻图)

gpt-image-2 的出现改变了这个范式。它引入了双模式架构

模式 特点 适用场景
Instant(即时) 快速单次生成 日常使用、轻量创作
Thinking(思考) 推理规划 + 网络搜索 + 自我验证 复杂项目、批量创作

当启用 Thinking 模式时,模型会经历这样的流程:

  1. 理解需求 - 拆解提示词中的多层指令
  2. 搜索参考 - 联网获取实时素材和数据
  3. 规划构图 - 设计画面结构、光影、色彩
  4. 生成候选 - 产出多张草图
  5. 自我审查 - 检查文字、比例、元素是否正确
  6. 返回结果 - 输出最优结果或最多8张一致性图像

OpenAI 声称,这种推理机制将用户的平均重试次数降低了一半以上

五大核心升级

1. 真正的多语言文字渲染

这是 DALL-E 三年来从未跨越的边界。gpt-image-2 现在可以可靠地渲染:

  • 日语、韩语、中文
  • 印地语、孟加拉语
  • 以及所有拉丁字母语言

对于需要本地化营销素材的全球化团队,这是第一个能生成”可直接使用”内容的图像模型——不再需要设计师手动修复字幕。

2. 八图一致性

一次提示词,生成最多八张图像,全部保持:

  • 同一角色外观
  • 相同物体形态
  • 统一视觉风格

这意味着什么?你可以用它来:

  • 生成分格漫画(每个分镜角色一致)
  • 制作产品营销系列图(同一产品多角度/多场景)
  • 设计故事板(连续画面保持连贯性)
  • 产出品牌视觉变体(不同尺寸、不同配色,风格统一)

3. 实时网络搜索

在 Thinking 模式下,gpt-image-2 可以在生成过程中联网搜索参考资料——真实产品照片、品牌Logo、建筑细节。这意味着:

  • 不再依赖2025年12月的训练数据截止点
  • 可以引用最新的新闻事件、人物、建筑
  • 生成结果与现实世界保持同步

4. 2K分辨率 + 超广比例

  • 分辨率提升至 2048px(之前是1024px)
  • 支持比例从 3:1(超宽)1:3(超长)

无论是横版海报、竖版短视频封面,还是超宽横幅,统统搞定。

5. API 深度集成

gpt-image-2 已集成进 OpenAI 的 Codex 编程环境,开发者可以在编写代码的同时生成视觉素材。API 同样提供 Instant/Thinking 两种模式,方便接入自动化流水线。

以下是 ChatGPT Images 2.0 生成的示例效果:

ChatGPT Images 2.0 生成效果示例 多图一致性示例

竞品对比

能力 DALL-E 3(即将退役) gpt-image-2
生成流程 单次扩散 推理循环 + 自我检查
最大分辨率 1024px 2048px
比例范围 方形、16:9、9:16 3:1 到 1:3
非拉丁文字 乱码 可靠渲染
多图一致性 最多8张一致
实时网络参考 有(Thinking模式)

对自动化工作流的意义

对于正在运行内容营销、产品展示、电商 listing 自动化的企业来说,gpt-image-2 终于将图像生成纳入了可靠的 Agentic 工作流。

之前的三个主要失败场景:

  1. ❌ 文字错误 → ✅ 自我验证已修复
  2. ❌ 角色不一致 → ✅ 八图一致性已解决
  3. ❌ 数据过时 → ✅ 实时网络搜索已解决

现在,图像生成可以像代码执行一样可靠:规划、执行、验证、返回。这是自动化流水线需要的契约。

已知的局限

OpenAI 坦诚公布了模型的失败场景:

  • 物理建模:折纸、魔方、特殊角度物体仍有瑕疵
  • 细节密度:大量沙粒、密集纹理等场景表现不稳定
  • 迭代编辑:超过前几轮后收益递减

换句话说:

  • ✅ 产品主图、清晰主体的营销素材
  • ✅ 带可读文字的本地化创意
  • ✅ 风格统一的连续画面
  • ❌ 超写实物理模拟
  • ❌ 依赖精细迭代的复杂插画

定价与可用性

订阅等级 可用功能
Free / Go Instant模式、标准图像生成
Plus / Pro / Business Thinking模式、2K分辨率、八图一致性、实时搜索
API 所有付费计划可用,Thinking模式按次计费

重要日期:DALL-E 2 和 DALL-E 3 将于 2026年5月12日 正式停用。

写在最后

gpt-image-2 的发布标志着图像生成领域的一个转折点。它不仅仅是参数升级或界面改进,而是一次架构重构——将”推理”这个在文本领域证明成功的范式,引入到视觉创作中。

当图像生成开始像代码执行一样可靠,当AI在画画之前学会思考,创意工作者的工作方式正在被重新定义。

你准备好迎接这个变化了吗?