实战：gpt-image-2 和 Nano Banana 2 到底哪个好

2026-05-16 · 4 分钟阅读 · ai

文章目录

今天胡扯 AI 群里，有群友问到：

各位，很久没有关注生图模型，现在是不是 image2 比香蕉强了？

图中提到的 image2，指的是 OpenAI 最新的 gpt-image-2 模型；香蕉则是 Google 的生图模型，目前最新的是 gemini-3.1-flash-image-preview，俗称 Nano Banana 2。

最好的比较方式，就是在实际工作中直接拿来用。下面的比较，是曾老师在日常工作中使用 ChatGPT 和 Gemini 官方 App 做的对比。曾老师一般都会使用同样的提示词，在 ChatGPT 和 Gemini 中各生成一遍，谁表现好就用谁。

为了方便表述，下面统一使用 ChatGPT 和 Gemini 进行指代。所有操作均在 macOS 系统上，使用官方提供的 App 完成（非网页版）。

PPT 插图比较

昨天（5 月 15 日），曾老师在广州参加了 GGS 2026 全球游戏峰会，做了名为《游戏 + 漫剧 + 营销》的分享。分享 PPT 中的大部分内容，都使用 ChatGPT 完成。

下面比较 Gemini 和 ChatGPT 的生成效果。

提示词如下：

 11. 哪些需要真人参与
 22. 哪些烧 TOKEN 就能解决
 3
 4抽卡的核心，是品味。
 5剪辑的核心，也是品味。
 6配音配乐，则更挑品味
 7
 8按照上面的标准生成 PPT 配图
 9
10我要在深色的 PPT 页面中显示，你使用深色背景、圆角边框生图。
11
12尽量简洁，PPT 不需要太多字。

Gemini 生成 PPT 示意图

这张抽象图让曾老师完全看不懂。我觉得应该是上下文受到了影响。因为一开始 Gemini 直接帮我制作了一个 HTML 的 PPT，被我纠正为要生成图之后，才做了这么一张。

ChatGPT 生成 PPT 示意图

ChatGPT 的表现就比较符合期待，一次成形，无须修改。

美中不足的就是，没有体现出这段话中「品味」的精髓。

但这个不足是完全可以通过调整提示词来弥补的。

首轮比较结论

我最终采用的是 ChatGPT 的生成结果。

如果要修正 Gemini 的结果，可能需要：

不使用 macOS Gemini App，换用 Gemini 网页版。我多次发现，Gemini 网页版的功能更强，表现也更准确。macOS 版 Gemini 刚上线不久，可能还需要磨合。
对 Gemini 的提示词进行调整，表述要更清晰，并提供参考示意图。
使用 Gemini 网页版中的 Nano Banana Pro 模型。

不能说 Gemini 就比 ChatGPT 差，因为在这个例子里，曾老师要赶工做出第二天分享的 PPT，生图时已经是晚上 11 点多，自己脑子都不太清醒了，不愿意花更多时间去调整提示词，需要的是一次成型的产品。

漫剧分镜图比较

以我们正在制作的一个互动漫剧游戏为例，这是其中一个场景的提示词：

1技术规格
2分辨率: 3406x2508（与参考图相同）
3风格: 3D CG 游戏美术（Unreal Engine 5 级别）
4渲染: 游戏引擎实时光照
5材质: PBR 材质系统
6
7我正在做一个 AI 漫剧，基于下面的剧本场景描述，以及上面提供的规格和参考图，帮我生成一张场景图：
8
9【大远景·摇镜】北方小城郊区，午后烈日当空。苏家废车场铺展在三十亩荒地上，报废车辆堆叠成起伏的铁山。远处，一辆涂装斑驳的拉力赛车瘫在公路边缘，引擎盖微微冒着热气。更后方，一辆黑色MPV停在赛车后面，车前灯还亮着——显然这个小车队在这里抛锚有一会儿了。

Gemini 生成漫剧分镜图

整体基本让人满意，但有几点可以讨论：

远处的工厂建筑让人有点出戏。
出现了太多的人类，这显然是 Gemini 做了语义理解。
没有出现车厂的招牌（这点虽然没有在提示词中明示，但我原本期望它会有）。
色彩太黄了，好像加了黄色滤镜（这是 Gemini 的通病了）。

ChatGPT 生成漫剧分镜图

整体基本让人满意，但有几点可以讨论：

要求正午生成黄昏，有可能是语义理解「车前灯还亮着」导致了时间错误。
出现了厂牌，这有点意思。
远山的表现更加真实。

出现厂牌这一点，让我决定基于这张图继续修改。下面是修改时使用的提示词：

1需要一些修改：
2
31. 时间是午后而不是黄昏，图中光线不正确。
42. 苏家废车厂的标牌。改为「老苏汽修」，图中要能看到汽修厂的门。
53. 赛车和MPV上需要明显的「破风」车队标识。
64. 需要看到「老苏汽修」的大门。

次轮比较结论

Gemini 和 ChatGPT 对提示词的语义理解各有千秋。

例如，Gemini 将提示词理解为「有人正在修车」，尽管提示词中并没有描述人出现的场景。而 ChatGPT 则主动加上了「苏家废车厂」的厂牌（这是我选择进一步使用 ChatGPT 的主要原因）。

然而 ChatGPT 把「车灯亮着」理解为黄昏，这倒出乎我意料了。

从图像质量上来看，Gemini 的黄色倾向太明显了（虽然这个场景多点黄色也还行），远处景别的生成也不尽如人意。

曾老师的选择

两次比较，曾老师最终都采用了 ChatGPT 的生成结果。虽然这不能说明 ChatGPT 绝对领先 Gemini，但已经足以表达曾老师当前的选择立场。

在更多复杂中文场景的测试中，当前 ChatGPT 的表现都优于 Gemini。

或许，使用 Nano Banana Pro 的思考能力，也会让 Gemini 的效果更好。

在第一个例子中，如果有更多时间，或者精力在线，曾老师会调整提示词，让 Gemini 的输出走上正轨。实际上，这件事也并不难（大家可以自己试试）。

但我们也知道，在真正的工作环境中，这种精力和时间不济的情况，是常态。 能帮使用者节省时间、尽量一次成形的工具，就是首选工具。

文章ID：2868
原文作者：zrong(Jacky)
原文链接：https://blog.zengrong.net/post/gpt-image-2-vs-nanobanana-2/
版权声明：本作品采用署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 进行许可，非商业转载请注明出处（原文作者，原文链接），商业转载请联系作者获得授权。