5 月那篇ChatGPT、豆包、Kimi、DeepSeek… 这 20 个 AI 产品的关系图,你确定能讲清?发出来,后台追得最多的一句是:
"聊天的那批理清了,那能出图、出视频、出歌的那些,你也整一篇呗?"
安排上。先抛 5 个问题,你看看自己能答上几个:
- 想给新品做条 15 秒宣传视频,该用 Seedance、可灵 还是 Veo?这仨你分得清吗?
- 公众号封面、电商主图、朋友圈海报——同样是"出图",GPT-image-2、即梦、Midjourney 各擅长啥?
- 想给短视频配段不侵权的背景音乐,Suno 真能直接写出一首能听的歌?
- "数字人口播"、"AI 配音"、"AI 音效",听着像一回事,其实是三个不同的工具?
- 前两年刷屏的 Sora,为什么最近没人推荐了?
要是有一个让你卡壳,这篇就是写给你的。把市面上能"一句话造出成品"的 AI 一次理清——不光是名字,还告诉你每类当前的王牌是谁、什么活该用它,转到群里也能当份速查表。
一、先分清:这批 AI 是"动手"的,不是"动脑"的
上一篇我把 AI 比成汽车——模型是发动机、聊天产品是整车、编程工具是改装车。那篇讲的主角,基本都是**"动脑"型**:陪你聊天、帮你写文章、写代码,产出的是文字。
这一篇的主角不一样,它们是**"动手"型**:你给一句话,它直接吐给你一张图、一段视频、一首歌、一段配音——产出的是成品。行话叫生成式模型(生成模型),说人话就是"AI 里专门负责造东西的那批"。
把它想成一座内容工厂,四个车间,各管各的:

- 🎨 图像车间(出图):海报、配图、电商图、插画、头像
- 🎬 视频车间(出片):短视频、产品宣传片、人物口播
- 🎵 声音车间(出声):背景音乐、视频配音、音效
- 🧍 数字人 / 3D 车间(造人造物):会说话的虚拟人、3D 模型、虚拟场景
每个车间里都有"国内王牌 + 海外王牌 + 梯队选手"。下面一个车间一个车间地过,你按需求对号入座就行。
二、🎨 出图:门槛最低、用得最多的一类
这是普通人最容易上手、也最常用的一类——做封面、出海报、画头像、修图,以前要请设计师的活,现在一句话就出来了。
| 模型 / 产品 | 谁家的 | 一句话定位 | 最适合 |
|---|---|---|---|
| GPT-image-2(王牌) | OpenAI | 商用全能天花板,带文字的图最稳,海报、电商图、分镜全能打 | 公众号封面、电商主图、带文案的海报 |
| Nano Banana Pro(新) | 5 月底刚升级,出图质量追上第一梯队,改图、局部重绘特别顺 | 反复改稿、按参考图出图、视频分镜 | |
| 即梦(Seedream) | 字节 | 中文场景最顺、免费额度多、性价比之王 | 中文海报、活动主视觉、临时救火出图 |
| Midjourney | Midjourney | 画图 AI 的鼻祖,艺术感、概念稿最强 | 插画、概念设计、风格探索 |
两个最该记住的变化:
- Google 的"香蕉"翻身了。上一篇我还写它"稍逊 GPT-image-2",5 月底 Google 把 Nano Banana Pro 正式放出来后,质量已经追到第一梯队,改图、参考图出图这种活尤其顺手。想反复抠细节的,可以拿它和 GPT-image-2 对着用。
- 出中文图,先想国内的。GPT-image-2 强在综合和文字渲染,但中文海报、活动 KV 这种,即梦往往更顺、还更省——免费额度足够日常折腾。一个"求质感",一个"求顺手又省钱",不冲突。
⚠️ 顺带提一句:出图能力越强,越容易被坏人拿去伪造证件、合成假图。自己用没问题,别拿去骗人,看到太逼真的图也多留个心眼。
三、🎬 出片:今年最卷、王牌换得最勤的一类
视频生成是过去一年迭代最猛的赛道,几乎每个月都有人喊"新王诞生"。但落到"普通人能用、当周就能上手",就这么几个:
| 模型 / 产品 | 谁家的 | 一句话定位 | 最适合 |
|---|---|---|---|
| Seedance 2.0(性价比王牌) | 字节 | 单价最低、出片快,海外创作者都反向拿它当素材机 | 短视频、产品宣传、B-roll 素材 |
| 可灵 3.0 Omni(口播王牌) | 快手 Kling | 人物开口说话、口型对得上、中文流畅,已经能做影视级短片 | 数字人口播、人物对话、销售讲解 |
| Veo 3.1(海外质量王) | 画面和物理真实感第一梯队,追求最高画质就用它 | 要质感的成片、广告级镜头 | |
| Runway(含 Aleph 2.0) | Runway | 创作生态最全,Aleph 2.0 能"只改你想改的那一部分" | 专业创作者、成片的精细二次编辑 |
怎么选,记三句话就够:
- 要便宜、要量大 → Seedance 2.0。一个 5 秒主镜头成本不到 1 块钱,批量出短视频素材首选。
- 有人要开口说话 → 可灵 3.0 Omni。口型同步是它的招牌,做数字人讲解、口播视频别人比不了。
- 要顶级画质、不在乎成本 → Veo 3.1。海外质量标杆,广告片级别的镜头交给它。
❌ 关于 Sora,认知该更新了:OpenAI 的 Sora 是当年把"AI 做视频"这事炒火的功臣,但这一两年它没跟上节奏,现在已经不是海外视频的默认推荐了——主力位置被 Veo、可灵、Seedance 接管。再看到老文章里言必称 Sora,你心里有数就行。
四、🎵 出声:写歌、配音、配音效,是三件不同的事
"出声"最容易被当成一类,其实里头是写歌、配音、配音效三个活,工具也不一样。
① 写歌(AI 音乐)
| 模型 | 一句话定位 | 最适合 |
|---|---|---|
| Suno(王牌) | 人声 + 编曲 + 歌词一条龙,质量已经能混进真人歌曲榜 | 视频背景音乐、原创歌曲、活动主题曲 |
| Udio | 和 Suno 同档,风格各有偏好 | 同上,可两个都试挑顺耳的 |
给短视频配段不侵权的背景音乐、给公司年会写首主题曲,描述一下风格情绪,几十秒就出一首带词带唱的——这事现在是真成了。
② 配音 / 音效
| 模型 | 谁家的 | 一句话定位 | 最适合 |
|---|---|---|---|
| ElevenLabs(海外标杆) | ElevenLabs | 音色多、情感自然、多语言最强 | 视频配音、有声书、播客 |
| 海螺(MiniMax) | MiniMax | 国内中文语音、情感对话最细腻 | 中文配音、语音陪伴、客服语音 |
| ControlFoley(新·小米开源) | 小米 | 5 月底开源,给画面配脚步声、环境声这类音效 | 给视频补音效 |
记住区别就行:配音是给文字或视频配人声;音效是脚步、风声、关门声这类环境音。一个出"嘴",一个出"环境"。
五、🧍 造人造物:数字人、3D、世界模型(点到为止)
这一类离日常远一点,知道有这回事、需要时知道找谁就够:
- 数字人:HeyGen 是海外口播数字人的代表,上传一段素材就能让"虚拟你"用各国语言讲话;国内的可灵、即梦也能做出会说话的人物。带货口播、企业宣讲常用。
- 3D 模型:腾讯混元3D、Tripo、Meshy 这类,一句话或一张图就能出一个 3D 模型,游戏、电商、设计的同学省事不少。
- 世界模型(更前沿):NVIDIA Cosmos、Runway、Luma 最近都在做"能模拟真实物理世界"的模型——让 AI 理解重力、碰撞、因果。离普通人还远,但这大概率是下一波,先记个名字。
六、几个最容易把人搞晕的点
- "模型"和"产品"别混:你打开的 即梦 是产品,它肚子里装的模型叫 Seedream;就像 ChatGPT(产品)装着 GPT(模型)。聊天时说哪个都行,但心里得清楚是两层。
- 出图出片不分国界,但分场景:中文海报、要省钱、要稳定用,优先国内(即梦、可灵、Seedance);追极致质感,看海外(Nano Banana Pro、Veo)。不用非此即彼。
- Sora 已经不是标准答案——上面说过,海外视频现在主推 Veo、可灵、Seedance。
- 版本号别硬比:Seedance 2.0、可灵 3.0、Veo 3.1、Nano Banana 2……各家命名规则都不一样,别拿数字大小论高低,看发布时间 + 实际出活效果更靠谱。
七、普通人怎么挑:一张表抄走
懒得记上面那些,看这张表就够——左边是你想干的事,右边照着用:
| 你想干的事 | 入门首选 | 备选 |
|---|---|---|
| 公众号封面 / 带文字海报 | GPT-image-2(文字稳) / 即梦(中文顺) | Nano Banana Pro |
| 电商主图 / 产品图 | GPT-image-2 | 即梦 |
| 插画 / 概念图 / 头像 | Midjourney | Nano Banana Pro、即梦 |
| 短视频 / 产品宣传片 | Seedance 2.0(便宜快) | Veo 3.1(要质感) |
| 人物口播 / 数字人讲解 | 可灵 3.0 Omni | HeyGen |
| 给视频配背景音乐 | Suno | Udio |
| 视频配音 / 有声书 | 海螺(中文)/ ElevenLabs(多语言) | — |
| 一张图出 3D 模型 | 混元3D / Tripo | Meshy |
一个心法:别纠结"哪个最强"。这些工具的能力差距正在飞快缩小,选你能稳定用、价格能接受、出活最顺手的那个就行,跑分谁也别太当真。
收尾:记住四个车间,新工具来了也不慌
上一篇的聊天 AI 是帮你动脑,这一篇的生成 AI 是帮你动手。只要记住这座工厂的四个车间——
出图 / 出片 / 出声 / 造人
——以后再冒出个新名字,你立马就知道把它丢进哪个格子,不会再被一串花名晃晕。
最后照例提醒一句:这篇里写到的版本号——GPT-image-2、Nano Banana Pro、Seedance 2.0、可灵 3.0 Omni、Veo 3.1、Suno……很可能下个月就不准了。这行现在是每周一个大新闻、每月一次"换王"。但只要那座工厂的格子记住了,谁当王、换了几代,你都能第一时间看明白。
✍️ 我是阿锦
我会持续分享 AI 工具和 AI coding 的实操——不讲空话,用实践带你看更真实的东西。
觉得有用,点个赞、转给也在折腾 AI 的朋友,就是最大的支持。想看啥?评论区告诉我——下一篇,就是为你而探索。
想常来一起聊 AI,点下左下角 关注,回复 交流 就行。




