# Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

- 来源：meng shao (@shao__meng)
- 发布时间：2026-05-20 09:02
- AIHOT 分数：64
- AIHOT 链接：https://aihot.virxact.com/items/cmpddd4lp0313slk1xx77n7d1
- 原文链接：https://x.com/shao__meng/status/2056903365368668211

## AI 摘要

Google发布了原生多模态模型Gemini Omni。与传统模型需逐帧描述不同，它采用底层原生设计，支持以意图驱动生成视频，并能通过多轮对话进行编辑，每一步都基于上一结果，确保一致性。该模型融合了Gemini的世界知识与物理直觉，并能将图、文、音视频等任意参考物组合，实现跨模态叙事生成。其目标是“从任何东西创造任何东西”，并从视频生成起步。

## 正文

Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

Gemini 3.0 发布时，最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力；Nano Banana 和 Veo 在多模态生成方面也是断档的强（发布时，后来被超越了）

现在 Google I/O 发布的 Gemini Omni，又是一个原生多模态的「理解 + 生成」模型，当前主攻视频，可用任意组合输入（图、文、视频、音频）产出或编辑视频。

来看看官方对 Omni 和 Veo 的对比：
1. 工作方式
Veo：多模态常被压成文本再生成
Omni：从底层原生多模态设计
2. 提示词
Veo：需非常具体、逐帧描述
Omni：可只给意图，由推理补细节
3. 编辑
Veo：多为单次生成
Omni：多轮对话式编辑，每步叠加上一步
4. 知识
Veo：偏视觉模式匹配
Omni：结合 Gemini 的世界知识、物理直觉

注意：这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型，这个对比感觉几乎是吊打了。

Omni 三大能力
1. 对话式视频编辑（核心差异化）
· 用自然语言改已有视频，每轮指令建立在上一轮结果上。
· 强调 一致性：角色、物理、场景记忆在多轮修改后仍连贯。
· 典型操作：换背景、改机位、换物体/角色、改动作、加特效，无需每次重述整段 prompt。

2. 世界知识 + 物理直觉
· 物理： 重力、动能、流体等，用于更可信的运动（如弹珠连锁轨道）。
· 知识： 历史、科学、文化语境，用于科普/叙事类内容（如粘土定格「蛋白质折叠」）。
· 文字： 不只「能写字」，而是文字与画面动作、节奏同步（如字母表 26 项 + 对应 lower third）。

3. 任意参考物组合（Reference anything）
· 图、文、视频、音频可混用为「配料」，合成一条叙事。
· 能力包括：动作/风格迁移、参考图换角色（保留动作与口型）、草图仅作运动引导转实拍、分镜图按节拍生成等。
· 音频： 首发主要支持 人声参考；其他音频输入类型将陆续开放。

### 引用推文

> Google DeepMind：We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini's intelligence with ...
