Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。
Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...
自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。
针对视频扩散模型生成长序列时质量下降和运动重复的问题,研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频,利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹,后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频,在时间一致性和视觉质量上超越现有基线,并可扩展至音视频生成与3DGS任务。
谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。
Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力,旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞,显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。
We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....
谷歌在2026年I/O大会上宣布升级AI创意平台Flow,重点整合Gemini Omni Flash模型,显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent,能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。
Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...
在2026年谷歌I/O开发者大会上,谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力,“Omni”意为全能,能够无缝处理文本、图像、音频和视频等多种信息模态,实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑,用户可通过自然语言指令轻松修改视频元素。同时,谷歌发布了首款衍生模型Gemini Omni Flash,现已在Gemini App、Google Flow和YouTube Shorts中可用,后续将提供API服务。
谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow
GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...
Gemini Omni is starting to rollout for some users!
苹果公司收购了专注于虚拟形象技术的初创公司 Animato。该公司由前苹果计算机视觉团队工程师弗朗切斯科·罗西于2022年10月创立,主要开发适用于视频通话场景的虚拟形象软件。此次收购于2026年1月19日依据欧盟《数字市场法案》完成报备并被披露,旨在增强苹果 Vision Pro 头显的虚拟人像(Persona)功能,进一步布局人工智能与图像视觉领域。
Agora-1是一个新发布的多智能体世界模型,旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作,可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。
可灵AI与候鸟300合作推出#候鸟记忆复活计划,邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材,通过可灵AI续写创作。活动即日起至5月31日,带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品,各奖励12,000灵感值。
本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现,文本提示作为物理世界的有损压缩,是导致生成结果缺乏物理一致性的根本瓶颈。为此,我们提出NEWTON系统,其核心是将视频生成从独立的系统输出,降级为智能体工具箱中的一个动作。系统通过一个学习型规划器,协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息,并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下,实验表明该系统在VideoPhy-2基准上,将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点,显著增强了视频的物理一致性。
Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9
阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。
“藏师傅”前端视频生成技能已完成,当前重点在于提升工程化水平与降低Token消耗。对一段40秒视频案例的分析显示,总消耗达145万Token,其中视频组合部分占比极高,但得益于92%的缓存率成本可控。该方案由PPT Skill(美学动效)、HyperFrames(时间线渲染)、Listenhub Skill(配音)及即梦CLI(生成演示镜头)协同完成。
让 Codex 自己做了一条视频介绍了一下这个视频生成方案 藏师傅的 PPT Skill 负责美学、版式、动效 HyperFrames 负责时间线和渲染、字幕 Listenhub Skill 负责配音 即梦 CLI 负责 前端无法生成的演示...
LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。
本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。