全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「视频」清除

5月20日周三

08:31向阳乔木47小红书也是真离谱，AI生成的几秒无声视频，提示笔记违规。抖音，视频号，x发布都没问题。连视频没声音都管，何况只有几秒而已。。。

08:05Berryxia.AI63Gemini Omni：不止于真实，更懂推理

08:05Berryxia.AI71Google DeepMind发布Gemini Omni，迈向"生成万物"愿景

08:02Ethan Mollick62AI视频生成能力回溯：2025年7月的"最先进"水平

08:00HuggingFace Daily Papers（社区热门论文）53Q-ARVD：面向自回归视频扩散模型的量化框架

08:00HuggingFace Daily Papers（社区热门论文）68FlowLong：基于流形约束Tweedie匹配的推理时长视频生成方法

07:49小互55Gemini Omni：视频版香蕉与世界模型雏形

07:08Google Gemini61Gemini Omni支持用个人形象和声音创建视频

06:03Rohan Paul67谷歌发布Gemini Omni全能AI模型，支持多模态输入与精准视频编辑

06:02Ethan Mollick67奥德赛与伊利亚特常被改编，罗马史诗却鲜少问津

04:38Demis Hassabis79Gemini Omni实现多模态编辑与场景生成

04:29Hacker News 热门（buzzing.cc 中文翻译）80同事件精选Gemini Omni同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

04:11Josh Woodward32Gemini Omni视频编辑能力惊艳亮相

03:40Google AI74Gemini Omni：从任意输入创造内容的新模型

03:29Sundar Pichai79Gemini Omni发布：物理推理与多模态生成新突破

03:08Google Gemini81谷歌发布Gemini Omni多模态生成模型

02:55AYi80Google Gemini Omni重新定义视频生成

02:55IT之家（RSS）54谷歌升级 AI 创意平台 Flow：增强视频编辑，Agent 辅助头脑风暴等

02:41Google DeepMind72精选Gemini Omni助力Google Flow创作电影级故事

02:30Chubby♨️81Gemini Omni：迈向AGI的世界模型

01:59Ethan Mollick74Gemini Omni生成荒诞派诗歌朗读场景

01:55IT之家（RSS）77谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

01:48Google DeepMind：Blog（RSS）83同事件精选推出Gemini Omni多模态AI模型同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

01:41Google DeepMind78Gemini Omni发布：多模态生成新突破

01:28Ethan Mollick44Gemini Omni早期体验：创意指令生成能力展示

00:34🚨 AI News | TestingCatalog30Gemini Omni测试展现赛博朋克风格视频生成能力

00:09歸藏(guizang.ai)67谷歌Gemini Omni Flash上线FLow平台

00:09歸藏(guizang.ai)50谷歌Gemini Omni Flash视频编辑效果不及预期

5月19日周二

23:34🚨 AI News | TestingCatalog59Google Flow AI驱动全面升级，创作更智能易用

23:09歸藏(guizang.ai)58谷歌Gemini Omni视频模型开始放量

22:53IT之家（RSS）51苹果收购虚拟形象软件公司 Animato，有望优化 Vision Pro Persona 功能

20:52AYi64Damn it！SAM3绝逼要封神了！不但开源而且强的一批！最牛逼的地方是追踪能力，即使在篮球比赛这种复杂到爆炸的场景里也稳得一逼！！

14:50Hacker News 热门（buzzing.cc 中文翻译）68Agora-1：多智能体世界模型

14:28公众号：可灵AI（快手·视频）24可灵AI与候鸟300发起"候鸟记忆复活计划"

13:56HuggingFace Daily Papers（社区热门论文）68基于智能体规划的物理一致性视频生成

12:55HuggingFace Daily Papers（社区热门论文）64Incantation：自然语言作为多实体视频世界模型的动作接口

12:44Alibaba Cloud45阿里云冠名2026年蒙特卡洛人工智能电影节

11:59歸藏(guizang.ai)57藏师傅前端视频生成Skill完成与优化分析

11:51HuggingFace Daily Papers（社区热门论文）66LongLive-2.0：用于长视频生成的NVFP4并行基础设施

11:51HuggingFace Daily Papers（社区热门论文）59Lance：基于多任务协同的统一多模态建模

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月20日

08:31

向阳乔木@vista8

47

小红书也是真离谱，AI生成的几秒无声视频，提示笔记违规。抖音，视频号，x发布都没问题。连视频没声音都管，何况只有几秒而已。。。

安全/对齐现象/趋势视频

08:05

Berryxia.AI@berryxia

63

Gemini Omni：不止于真实，更懂推理

Google 发布的 Gemini Omni 模型核心能力升级，它不仅能生成高度真实的场景，更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出，初期将优先支持视频内容的生成与输出。

Google 产品更新多模态视频

08:05

Berryxia.AI@berryxia

71

Google DeepMind发布Gemini Omni，迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型，旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合，在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性，并支持通过自然语言进行实时编辑和风格调整，将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API，不过其实际效果，尤其是在中文生成方面，仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google 多模态模型发布视频

08:02

Ethan Mollick@emollick

62

该推文展示了2025年7月（两年前）AI视频生成模型所能达到的"最先进"技术水平，并以此作为当前讨论的参照。引用部分提供了关键上下文：早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示（如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等），生成相应的视频内容。推文作者通过展示这一历史技术状态，回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google 多模态大佬观点视频

08:00

HuggingFace Daily Papers（社区热门论文）

53

Q-ARVD：面向自回归视频扩散模型的量化框架

自回归视频扩散模型在实时视频生成与世界建模中潜力巨大，但其高昂的推理成本亟待量化技术来缓解。研究发现，现有量化方法直接应用效果欠佳，主要面临两大挑战：一是自回归生成中的误差累积导致帧间量化敏感性严重失衡；二是权重中存在显著且模式多样的异常值通道。为此，本文提出Q-ARVD量化框架，通过引入质量感知的帧加权机制来平衡帧间差异，并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。

arXiv 视频论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

68

FlowLong：基于流形约束Tweedie匹配的推理时长视频生成方法

针对视频扩散模型生成长序列时质量下降和运动重复的问题，研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频，利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹，后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频，在时间一致性和视觉质量上超越现有基线，并可扩展至音视频生成与3DGS任务。

图像生成视频论文/研究

07:49

小互@xiaohu

55

看看 Gemini Omni的实力一句话就是：视频版的香蕉🍌 当然远不至于视频的编辑能力，它应该是世界模型的雏形… 通用AGI的初始形态…

Google 多模态现象/趋势视频

07:08

Google Gemini@GeminiApp

61

使用Gemini Omni，你可以用自己的声音和形象创建数字分身视频。当你创建一个数字分身后，你就拥有了自己的AI数字版本，可以轻松生成外观和声音都像你的视频，无需每次都上传你的图像。

Google 产品更新多模态视频

06:03

Rohan Paul@rohanpaul_ai

67

谷歌发布Gemini Omni全能AI模型，支持多模态输入与精准视频编辑

谷歌近日推出Gemini Omni，这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作，且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力，能更真实地模拟重力、流体等物理交互，使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证，以明确标识其AI生成属性。

Google 模型发布视频

06:02

Ethan Mollick@emollick

67

《奥德赛》和《伊利亚特》被多次改编成电影，但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的（？），但Omni能够编辑视频，所以我要求移除了它们。

Google 多模态教程/实践视频

04:38

Demis Hassabis@demishassabis

79

Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃！它能处理照片、视频和音频，并构建全新的场景。随着时间的推移，它将能够处理任何输入和任何输出--从视频开始。你甚至可以提供自己的视频，并在此基础上迭代你的想法：

Google 多模态模型发布视频

04:29

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选80

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力，旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞，显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频编辑变成自然语言对话，多轮编辑和物理理解让它从玩具变成创作工具，做视频的值得一试。

04:11

Josh Woodward@joshwoodward

32

Gemini Omni太有趣了--视频编辑能力简直逆天！

Google 多模态大佬观点视频

03:40

Google AI@GoogleAI

74

到现在，你可能已经听说了 Gemini Omni，这是我们新推出的模型，旨在从任意输入（从视频开始）创造任何内容。但……这有什么大不了的？让我们来分解一下 🧵👇

Google 多模态模型发布视频

03:29

Sundar Pichai@sundarpichai

79

Gemini Omni不仅能构建逼真的场景，还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。今日起，通过@Geminiapp + Google Flow和@YouTube Shorts，向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。

Google 多模态模型发布视频

03:08

Google Gemini@GeminiApp

81

介绍Gemini Omni，我们的新模型，可以从任何输入创建任何内容，首先从视频开始。借助Gemini Omni，您可以将图像、视频和文本作为输入组合，并生成基于Gemini现实世界知识的高质量视频。#GoogleIO

Google 多模态模型发布视频

02:55

AYi@AYi_AInotes

80

Google Gemini Omni重新定义视频生成

Google推出Gemini Omni，首个面向消费者的世界模型。它通过自然语言交互，将Gemini的智能与生成媒体系统结合，实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频，实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素，而是模拟连贯的物理与语义世界，标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMind Google 图像生成多模态

02:55

IT之家（RSS）

54

谷歌升级 AI 创意平台 Flow：增强视频编辑，Agent 辅助头脑风暴等

谷歌在2026年I/O大会上宣布升级AI创意平台Flow，重点整合Gemini Omni Flash模型，显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent，能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。

Google 产品更新多模态视频

02:41

Google DeepMind@GoogleDeepMind

精选72

Google Flow 🤝 Gemini Omni 使用我们的最新模型创作更具电影感的故事，它带来了批量编辑、改进的角色一致性等功能。以下是@FlowbyGoogle的其他新功能 → https://goo.gle/42K2nge #GoogleIO

Google 产品更新视频

推荐理由：Google Flow 终于把批量编辑和角色一致性拉上来了，对做视频内容的人能省不少事，虽然不算颠覆性的代际更新，但实用度提升明显。

02:30

Chubby♨️@kimmonismus

81

真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google 多模态模型发布视频

01:59

Ethan Mollick@emollick

74

Gemini Omni："一个男人一边吃着蒜香面包，一边在独轮车上保持平衡，站在翻滚的番茄酱海洋上方的小平台上，朗读《荒原》中的《溺水之死》。在酱海中央，漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"

Google 其他多模态视频

01:55

IT之家（RSS）

77

谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上，谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力，“Omni”意为全能，能够无缝处理文本、图像、音频和视频等多种信息模态，实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑，用户可通过自然语言指令轻松修改视频元素。同时，谷歌发布了首款衍生模型Gemini Omni Flash，现已在Gemini App、Google Flow和YouTube Shorts中可用，后续将提供API服务。

Google 多模态模型发布视频

01:48

Google DeepMind：Blog（RSS）

同事件精选83

推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni，能够整合视频、图像、音频和文本等多种输入，生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑，并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线，未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库，支持从写实到叙事的创意生成，并可通过多轮对话持续编辑视频，而不丢失原始场景上下文。

DeepMind Google 多模态模型发布

同一事件，精选展示《Gemini 3.5：具备行动能力的前沿智能》

推荐理由：Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事，多轮自然语言编辑和世界知识融合是真正的代际升级，做视频内容的该重新理解工具的定义了。

01:41

Google DeepMind@GoogleDeepMind

78

我们推出Gemini Omni：这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵

DeepMind Google 多模态模型发布

01:28

Ethan Mollick@emollick

44

我早期获得了Gemini Omni的访问权限："一只穿着飞行员制服的海獭在纽约上空的热气球里，向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里，威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"

Google 其他多模态视频

00:34

🚨 AI News | TestingCatalog@testingcatalog

30

Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。

Google 视频评测/基准

00:09

歸藏(guizang.ai)@op7418

67

哇！谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google 多模态模型发布视频

00:09

歸藏(guizang.ai)@op7418

50

用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能，但实际效果并不理想。用户提及原始视频来源，并明确表示其效果远不如SeeDance 2.0。同时，该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息，表明其具备了一定的可用性。整体来看，尽管新模型可用，但用户对其当前的视频编辑能力持保留态度，并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google 视频评测/基准

5月19日

23:34

🚨 AI News | TestingCatalog@testingcatalog

59

Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建，用户可生成并复用角色形象与语音，用于视频创作。应用已正式登陆Google Play，覆盖Android平台。通过集成Gemini Omni，Flow获得了新的AI助手体验，用户可通过聊天模式与Gemini协作，进行概念构思、图像变体生成等智能操作，并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google 产品更新多模态视频

23:09

歸藏(guizang.ai)@op7418

58

谷歌新的视频模型 Gemini Omni 已经开始放量了

Charlie L.: Gemini Omni is starting to rollout for some users!

Google 模型发布视频

22:53

IT之家（RSS）

51

苹果收购虚拟形象软件公司 Animato，有望优化 Vision Pro Persona 功能

苹果公司收购了专注于虚拟形象技术的初创公司 Animato。该公司由前苹果计算机视觉团队工程师弗朗切斯科·罗西于2022年10月创立，主要开发适用于视频通话场景的虚拟形象软件。此次收购于2026年1月19日依据欧盟《数字市场法案》完成报备并被披露，旨在增强苹果 Vision Pro 头显的虚拟人像（Persona）功能，进一步布局人工智能与图像视觉领域。

行业动态视频

20:52

AYi@AYi_AInotes

64

Damn it！SAM3绝逼要封神了！不但开源而且强的一批！最牛逼的地方是追踪能力，即使在篮球比赛这种复杂到爆炸的场景里也稳得一逼！！

Meta 开源生态模型发布视频

14:50

Hacker News 热门（buzzing.cc 中文翻译）

68

Agora-1：多智能体世界模型

Agora-1是一个新发布的多智能体世界模型，旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作，可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频

14:28

公众号：可灵AI（快手·视频）

24

可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划，邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材，通过可灵AI续写创作。活动即日起至5月31日，带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品，各奖励12,000灵感值。

图像生成行业动态视频

13:56

HuggingFace Daily Papers（社区热门论文）

68

基于智能体规划的物理一致性视频生成

本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现，文本提示作为物理世界的有损压缩，是导致生成结果缺乏物理一致性的根本瓶颈。为此，我们提出NEWTON系统，其核心是将视频生成从独立的系统输出，降级为智能体工具箱中的一个动作。系统通过一个学习型规划器，协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息，并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下，实验表明该系统在VideoPhy-2基准上，将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点，显著增强了视频的物理一致性。

智能体视频论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

64

Incantation：自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型，采用自然语言作为动作接口，实现每潜变量帧（0.25秒）的精细控制。它支持同时多实体操控与概念级跨实体迁移，突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制，并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中，准确率达89%，大幅超越Action-Index基线的43%；词表外提示准确率为9

多模态视频论文/研究

12:44

Alibaba Cloud@alibaba_cloud

45

阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者，阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持，构建AI原生创作所需的弹性、安全与智能云平台，助力新一代创作者加速创新。

多模态行业动态视频

11:59

歸藏(guizang.ai)@op7418

57

藏师傅前端视频生成Skill完成与优化分析

“藏师傅”前端视频生成技能已完成，当前重点在于提升工程化水平与降低Token消耗。对一段40秒视频案例的分析显示，总消耗达145万Token，其中视频组合部分占比极高，但得益于92%的缓存率成本可控。该方案由PPT Skill（美学动效）、HyperFrames（时间线渲染）、Listenhub Skill（配音）及即梦CLI（生成演示镜头）协同完成。

歸藏(guizang.ai): 让 Codex 自己做了一条视频介绍了一下这个视频生成方案藏师傅的 PPT Skill 负责美学、版式、动效 HyperFrames 负责时间线和渲染、字幕 Listenhub Skill 负责配音即梦 CLI 负责前端无法生成的演示...

智能体 MCP/工具教程/实践视频

11:51

HuggingFace Daily Papers（社区热门论文）

66

LongLive-2.0：用于长视频生成的NVFP4并行基础设施

LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施，旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法，结合NVFP4精度以降低显存成本并加速计算，且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型，并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码，在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍，推理加速1.84倍，其5B模型可达45.7 FPS并在基准测试中表现优异。

视频论文/研究部署/工程

11:51

HuggingFace Daily Papers（社区热门论文）

59

Lance：基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance，支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖，探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则：统一上下文建模与解耦能力路径。Lance从头训练，采用共享交织多模态序列的双流专家混合架构，并引入模态感知旋转位置编码以减少异构视觉标记间的干扰，增强跨任务对齐。训练采用分阶段多任务范式，结合能力导向的目标与自适应数据调度。实验表明，Lance在图像与视频生成任务上显著优于现有开源统一模型，同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究

1…15 161718 19…28