AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「视频」清除
5月20日周三
08:31向阳乔木47小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
08:05Berryxia.AI63Gemini Omni:不止于真实,更懂推理
08:05Berryxia.AI71Google DeepMind发布Gemini Omni,迈向"生成万物"愿景
08:02Ethan Mollick62AI视频生成能力回溯:2025年7月的"最先进"水平
08:00HuggingFace Daily Papers(社区热门论文)53Q-ARVD: 面向自回归视频扩散模型的量化框架
08:00HuggingFace Daily Papers(社区热门论文)68FlowLong:基于流形约束Tweedie匹配的推理时长视频生成方法
07:49小互55Gemini Omni:视频版香蕉与世界模型雏形
07:08Google Gemini61Gemini Omni支持用个人形象和声音创建视频
06:03Rohan Paul67谷歌发布Gemini Omni全能AI模型,支持多模态输入与精准视频编辑
06:02Ethan Mollick67奥德赛与伊利亚特常被改编,罗马史诗却鲜少问津
04:38Demis Hassabis79Gemini Omni实现多模态编辑与场景生成
04:29Hacker News 热门(buzzing.cc 中文翻译)80同事件精选Gemini Omni同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
04:11Josh Woodward32Gemini Omni视频编辑能力惊艳亮相
03:40Google AI74Gemini Omni:从任意输入创造内容的新模型
03:29Sundar Pichai79Gemini Omni发布:物理推理与多模态生成新突破
03:08Google Gemini81谷歌发布Gemini Omni多模态生成模型
02:55AYi80Google Gemini Omni重新定义视频生成
02:55IT之家(RSS)54谷歌升级 AI 创意平台 Flow:增强视频编辑,Agent 辅助头脑风暴等
02:41Google DeepMind72精选Gemini Omni助力Google Flow创作电影级故事
02:30Chubby♨️81Gemini Omni:迈向AGI的世界模型
01:59Ethan Mollick74Gemini Omni生成荒诞派诗歌朗读场景
01:55IT之家(RSS)77谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频
01:48Google DeepMind:Blog(RSS)83同事件精选推出Gemini Omni多模态AI模型同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
01:41Google DeepMind78Gemini Omni发布:多模态生成新突破
01:28Ethan Mollick44Gemini Omni早期体验:创意指令生成能力展示
00:34🚨 AI News | TestingCatalog30Gemini Omni测试展现赛博朋克风格视频生成能力
00:09歸藏(guizang.ai)67谷歌Gemini Omni Flash上线FLow平台
00:09歸藏(guizang.ai)50谷歌Gemini Omni Flash视频编辑效果不及预期
5月19日周二
23:34🚨 AI News | TestingCatalog59Google Flow AI驱动全面升级,创作更智能易用
23:09歸藏(guizang.ai)58谷歌Gemini Omni视频模型开始放量
22:53IT之家(RSS)51苹果收购虚拟形象软件公司 Animato,有望优化 Vision Pro Persona 功能
20:52AYi64Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!
14:50Hacker News 热门(buzzing.cc 中文翻译)68Agora-1:多智能体世界模型
14:28公众号:可灵AI(快手·视频)24可灵AI与候鸟300发起"候鸟记忆复活计划"
13:56HuggingFace Daily Papers(社区热门论文)68基于智能体规划的物理一致性视频生成
12:55HuggingFace Daily Papers(社区热门论文)64Incantation:自然语言作为多实体视频世界模型的动作接口
12:44Alibaba Cloud45阿里云冠名2026年蒙特卡洛人工智能电影节
11:59歸藏(guizang.ai)57藏师傅前端视频生成Skill完成与优化分析
11:51HuggingFace Daily Papers(社区热门论文)66LongLive-2.0:用于长视频生成的NVFP4并行基础设施
11:51HuggingFace Daily Papers(社区热门论文)59Lance: 基于多任务协同的统一多模态建模
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月20日
08:31
向阳乔木@vista8
47
小红书也是真离谱,AI生成的几秒无声视频,提示笔记违规。 抖音,视频号,x发布都没问题。 连视频没声音都管,何况只有几秒而已。。。
安全/对齐现象/趋势视频
08:05
Berryxia.AI@berryxia
63
Gemini Omni:不止于真实,更懂推理

Google 发布的 Gemini Omni 模型核心能力升级,它不仅能生成高度真实的场景,更关键的是具备了对物理世界后续发展的推理能力。这一能力源于其对物理学的直观理解与广泛的背景知识结合。该模型现已向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出,初期将优先支持视频内容的生成与输出。

Google产品更新多模态视频
08:05
Berryxia.AI@berryxia
71
Google DeepMind发布Gemini Omni,迈向"生成万物"愿景

Google DeepMind在I/O大会上发布了Gemini Omni模型,旨在迈出“从任何东西生成任何东西”的第一步。该模型将Gemini的智能与生成媒体系统深度融合,在世界理解、多模态和编辑能力上实现飞跃。其核心特点在于生成的视频能保持角色、光影等逻辑一致性,并支持通过自然语言进行实时编辑和风格调整,将视频转变为可动态演进的“世界素材”。该模型目前已在部分应用上线并即将开放API,不过其实际效果,尤其是在中文生成方面,仍存在一些讨论。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

Google多模态模型发布视频
08:02
Ethan Mollick@emollick
62
该推文展示了2025年7月(两年前)AI视频生成模型所能达到的"最先进"技术水平,并以此作为当前讨论的参照。引用部分提供了关键上下文:早期Gemini Omni模型能根据包含多个角色、复杂场景与叙事逻辑的超现实文本提示(如飞行员海獭解释航空公司破产、莎士比亚与披萨机器人战斗等),生成相应的视频内容。推文作者通过展示这一历史技术状态,回应了关于生成内容细节真实性的讨论。

Ethan Mollick: I had early Gemini Omni access: "sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river ot...

Google多模态大佬观点视频
08:00
HuggingFace Daily Papers(社区热门论文)
53
Q-ARVD: 面向自回归视频扩散模型的量化框架

自回归视频扩散模型在实时视频生成与世界建模中潜力巨大,但其高昂的推理成本亟待量化技术来缓解。研究发现,现有量化方法直接应用效果欠佳,主要面临两大挑战:一是自回归生成中的误差累积导致帧间量化敏感性严重失衡;二是权重中存在显著且模式多样的异常值通道。为此,本文提出Q-ARVD量化框架,通过引入质量感知的帧加权机制来平衡帧间差异,并设计异常值感知的自适应双尺度量化方法以隔离和保护正常通道。大量实验验证了该框架在提升量化模型性能上的显著优势。

arXiv视频论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
68
FlowLong:基于流形约束Tweedie匹配的推理时长视频生成方法

针对视频扩散模型生成长序列时质量下降和运动重复的问题,研究提出了一种无需训练的推理方法FlowLong。该方法通过重叠滑动窗口生成长视频,利用Tweedie匹配融合相邻窗口预测样本以保持时间连续性。在高噪声阶段采用随机早期采样同步轨迹,后转为确定性ODE采样保持视觉质量。实验表明该方法能在多种模型上生成数倍长度的视频,在时间一致性和视觉质量上超越现有基线,并可扩展至音视频生成与3DGS任务。

图像生成视频论文/研究
07:49
小互@xiaohu
55
看看 Gemini Omni的实力 一句话就是:视频版的香蕉🍌 当然远不至于视频的编辑能力,它应该是世界模型的雏形… 通用AGI的初始形态…
Google多模态现象/趋势视频
07:08
Google Gemini@GeminiApp
61
使用Gemini Omni,你可以用自己的声音和形象创建数字分身视频。 当你创建一个数字分身后,你就拥有了自己的AI数字版本,可以轻松生成外观和声音都像你的视频,无需每次都上传你的图像。
Google产品更新多模态视频
06:03
Rohan Paul@rohanpaul_ai
67
谷歌发布Gemini Omni全能AI模型,支持多模态输入与精准视频编辑

谷歌近日推出Gemini Omni,这是一款能处理视频、图像、音频、文本及草图等多种输入的全能型视频AI模型。用户可通过自然语言指令对已有视频进行添加角色、替换物体、调整动作、改变风格、同步音效及移动镜头等操作,且多次编辑后仍能保持场景一致性。该模型具备更强的世界理解能力,能更真实地模拟重力、流体等物理交互,使视频编辑更接近导演创作。输出内容将附带SynthID水印与C2PA内容凭证,以明确标识其AI生成属性。

Google模型发布视频
06:02
Ethan Mollick@emollick
67
《奥德赛》和《伊利亚特》被多次改编成电影,但其续作罗马史诗《埃涅阿斯纪》却完全被忽视。 这是用一段提示词为Gemini Omni制作的预告片。第一版把所有旗帜都做成了丹麦的(?),但Omni能够编辑视频,所以我要求移除了它们。
Google多模态教程/实践视频
04:38
Demis Hassabis@demishassabis
79
Gemini Omni在世界理解与多模态编辑方面实现了重大飞跃!它能处理照片、视频和音频,并构建全新的场景。随着时间的推移,它将能够处理任何输入和任何输出--从视频开始。 你甚至可以提供自己的视频,并在此基础上迭代你的想法:
Google多模态模型发布视频
04:29
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选80
Gemini Omni

Google DeepMind 于 2026 年 5 月 19 日发布了新一代多模态大模型 Gemini Omni。该模型整合了文本、图像、音频与视频的理解与生成能力,旨在实现更自然的人机交互。在同期 Hacker News 讨论中获得 112 点赞,显示出技术社区对多模态融合趋势的持续关注。这标志着大模型从单模态向全模态感知与响应能力的进一步演进。

多模态模型发布视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频编辑变成自然语言对话,多轮编辑和物理理解让它从玩具变成创作工具,做视频的值得一试。
04:11
Josh Woodward@joshwoodward
32
Gemini Omni太有趣了--视频编辑能力简直逆天!
Google多模态大佬观点视频
03:40
Google AI@GoogleAI
74
到现在,你可能已经听说了 Gemini Omni,这是我们新推出的模型,旨在从任意输入(从视频开始)创造任何内容。 但……这有什么大不了的? 让我们来分解一下 🧵👇
Google多模态模型发布视频
03:29
Sundar Pichai@sundarpichai
79
Gemini Omni不仅能构建逼真的场景,还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。 今日起,通过@Geminiapp + Google Flow和@YouTube Shorts,向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。
Google多模态模型发布视频
03:08
Google Gemini@GeminiApp
81
介绍Gemini Omni,我们的新模型,可以从任何输入创建任何内容,首先从视频开始。 借助Gemini Omni,您可以将图像、视频和文本作为输入组合,并生成基于Gemini现实世界知识的高质量视频。#GoogleIO
Google多模态模型发布视频
02:55
AYi@AYi_AInotes
80
Google Gemini Omni重新定义视频生成

Google推出Gemini Omni,首个面向消费者的世界模型。它通过自然语言交互,将Gemini的智能与生成媒体系统结合,实现了对物理规律、历史、生物等世界的深刻理解。用户可以像编辑ChatGPT文本一样用单句指令编辑视频,实现人物一致性、风格迁移、角度调整等功能。它不是单纯生成像素,而是模拟连贯的物理与语义世界,标志着AI视频生成从拼接工具向智能创作系统的飞跃。

Google DeepMind: We're dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video....

DeepMindGoogle图像生成多模态
02:55
IT之家(RSS)
54
谷歌升级 AI 创意平台 Flow:增强视频编辑,Agent 辅助头脑风暴等

谷歌在2026年I/O大会上宣布升级AI创意平台Flow,重点整合Gemini Omni Flash模型,显著提升视频编辑精度和多镜头角色一致性。同时推出Flow Agent,能辅助头脑风暴、内容生成与批量编辑。此外还新增了自然语言定制工具的Flow Tools和支持分段编辑的Flow Music功能。目前Flow已覆盖全球140多个国家和地区。

Google产品更新多模态视频
02:41
Google DeepMind@GoogleDeepMind
精选72
Google Flow 🤝 Gemini Omni 使用我们的最新模型创作更具电影感的故事,它带来了批量编辑、改进的角色一致性等功能。以下是@FlowbyGoogle的其他新功能 → https://goo.gle/42K2nge #GoogleIO
Google产品更新视频

推荐理由:Google Flow 终于把批量编辑和角色一致性拉上来了,对做视频内容的人能省不少事,虽然不算颠覆性的代际更新,但实用度提升明显。
02:30
Chubby♨️@kimmonismus
81
真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。 它可以从任何输入创建任何内容。这太疯狂了。

Logan Kilpatrick: Introducing Gemini Omni 🔮........ Omni is our new model that can create anything from any input - starting with video (...

Google多模态模型发布视频
01:59
Ethan Mollick@emollick
74
Gemini Omni:"一个男人一边吃着蒜香面包,一边在独轮车上保持平衡,站在翻滚的番茄酱海洋上方的小平台上,朗读《荒原》中的《溺水之死》。在酱海中央,漂浮着一颗戴着高顶礼帽、长着亮蓝色眼睛的肉丸。"
Google其他多模态视频
01:55
IT之家(RSS)
77
谷歌 Gemini Omni 全能模型发布:可从任意输入生成任意输出,一句话让 AI 修改视频

在2026年谷歌I/O开发者大会上,谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力,“Omni”意为全能,能够无缝处理文本、图像、音频和视频等多种信息模态,实现“从任何输入生成任何输出”。其核心亮点在于支持对话式编辑,用户可通过自然语言指令轻松修改视频元素。同时,谷歌发布了首款衍生模型Gemini Omni Flash,现已在Gemini App、Google Flow和YouTube Shorts中可用,后续将提供API服务。

Google多模态模型发布视频
01:48
Google DeepMind:Blog(RSS)
同事件精选83
推出Gemini Omni多模态AI模型

谷歌推出原生多模态AI模型Gemini Omni,能够整合视频、图像、音频和文本等多种输入,生成高质量视频内容。其核心能力是通过自然语言对话进行视频编辑,并能保持角色一致性、物理规律与场景连贯性。首个模型Gemini Omni Flash已上线,未来将支持图像和音频输出。Gemini Omni结合了对物理世界的直觉理解与丰富的知识库,支持从写实到叙事的创意生成,并可通过多轮对话持续编辑视频,而不丢失原始场景上下文。

DeepMindGoogle多模态模型发布
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Gemini Omni 把视频生成从画面堆砌推到了物理世界叙事,多轮自然语言编辑和世界知识融合是真正的代际升级,做视频内容的该重新理解工具的定义了。
01:41
Google DeepMind@GoogleDeepMind
78
我们推出Gemini Omni:这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。 它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵
DeepMindGoogle多模态模型发布
01:28
Ethan Mollick@emollick
44
我早期获得了Gemini Omni的访问权限:"一只穿着飞行员制服的海獭在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释为什么精神航空破产了。在旁边的另一个热气球里,威廉·莎士比亚正在与一个由披萨制成的机器人搏斗"
Google其他多模态视频
00:34
🚨 AI News | TestingCatalog@testingcatalog
30
Gemini Omni测试 🔥 这是我目前见过的最棒的"赛博朋克黑客机器人"视频之一。它在场景构图方面比最新的Veo模型处理得更好。
Google视频评测/基准
00:09
歸藏(guizang.ai)@op7418
67
哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow
Google多模态模型发布视频
00:09
歸藏(guizang.ai)@op7418
50
用户测试了谷歌新上线的Gemini Omni Flash的视频编辑功能,但实际效果并不理想。用户提及原始视频来源,并明确表示其效果远不如SeeDance 2.0。同时,该推文引用了另一条关于Gemini Omni Flash已上线Flow平台的信息,表明其具备了一定的可用性。整体来看,尽管新模型可用,但用户对其当前的视频编辑能力持保留态度,并认为在效果上与特定竞品存在差距。

歸藏(guizang.ai): 哇! 谷歌新视频模型 Gemini Omni Flash 已经上线 FLow

Google视频评测/基准
5月19日
23:34
🚨 AI News | TestingCatalog@testingcatalog
59
Google Flow在I/O期间发布了一系列重要更新。核心功能包括新增角色与场景创建,用户可生成并复用角色形象与语音,用于视频创作。应用已正式登陆Google Play,覆盖Android平台。通过集成Gemini Omni,Flow获得了新的AI助手体验,用户可通过聊天模式与Gemini协作,进行概念构思、图像变体生成等智能操作,并新增了可定制的风格工具。

🚨 AI News | TestingCatalog: GOOGLE I/O 🔥: Google Flow is getting Gemini Omni and a new Flow Agent experience! > Your Agent is active! Ask Gemini to...

Google产品更新多模态视频
23:09
歸藏(guizang.ai)@op7418
58
谷歌新的视频模型 Gemini Omni 已经开始放量了

Charlie L.: Gemini Omni is starting to rollout for some users!

Google模型发布视频
22:53
IT之家(RSS)
51
苹果收购虚拟形象软件公司 Animato,有望优化 Vision Pro Persona 功能

苹果公司收购了专注于虚拟形象技术的初创公司 Animato。该公司由前苹果计算机视觉团队工程师弗朗切斯科·罗西于2022年10月创立,主要开发适用于视频通话场景的虚拟形象软件。此次收购于2026年1月19日依据欧盟《数字市场法案》完成报备并被披露,旨在增强苹果 Vision Pro 头显的虚拟人像(Persona)功能,进一步布局人工智能与图像视觉领域。

行业动态视频
20:52
AYi@AYi_AInotes
64
Damn it!SAM3绝逼要封神了! 不但开源而且强的一批! 最牛逼的地方是追踪能力, 即使在篮球比赛这种 复杂到爆炸的场景里也稳得一逼!!
Meta开源生态模型发布视频
14:50
Hacker News 热门(buzzing.cc 中文翻译)
68
Agora-1:多智能体世界模型

Agora-1是一个新发布的多智能体世界模型,旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作,可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频
14:28
公众号:可灵AI(快手·视频)
24
可灵AI与候鸟300发起"候鸟记忆复活计划"

可灵AI与候鸟300合作推出#候鸟记忆复活计划,邀请曾参与候鸟300的艺术家用旧照片、影像、手稿或故事作为素材,通过可灵AI续写创作。活动即日起至5月31日,带话题发布视频并填写问卷即视为参与。将综合创意独特性和技术表现力筛选10支优秀作品,各奖励12,000灵感值。

图像生成行业动态视频
13:56
HuggingFace Daily Papers(社区热门论文)
68
基于智能体规划的物理一致性视频生成

本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现,文本提示作为物理世界的有损压缩,是导致生成结果缺乏物理一致性的根本瓶颈。为此,我们提出NEWTON系统,其核心是将视频生成从独立的系统输出,降级为智能体工具箱中的一个动作。系统通过一个学习型规划器,协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息,并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下,实验表明该系统在VideoPhy-2基准上,将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点,显著增强了视频的物理一致性。

智能体视频论文/研究
12:55
HuggingFace Daily Papers(社区热门论文)
64
Incantation:自然语言作为多实体视频世界模型的动作接口

Incantation是首个交互式视频世界模型,采用自然语言作为动作接口,实现每潜变量帧(0.25秒)的精细控制。它支持同时多实体操控与概念级跨实体迁移,突破传统固定渲染管线的限制。模型结合预训练双向视频骨干网络与帧局部文本交叉注意力机制,并通过ODE初始化的Self-Forcing蒸馏和RoPE解耦滑动KV缓存实现实时长视频生成。在跨实体迁移任务中,准确率达89%,大幅超越Action-Index基线的43%;词表外提示准确率为9

多模态视频论文/研究
12:44
Alibaba Cloud@alibaba_cloud
45
阿里云冠名2026年蒙特卡洛人工智能电影节

阿里巴巴云宣布成为2026年蒙特卡洛人工智能电影节的冠名赞助商。该电影节旨在探索电影与人工智能技术的融合。作为全球云计算和AI基础设施领导者,阿里云将为创作者提供大模型训练、沉浸式视频内容生成及大规模高性能渲染等支持,构建AI原生创作所需的弹性、安全与智能云平台,助力新一代创作者加速创新。

多模态行业动态视频
11:59
歸藏(guizang.ai)@op7418
57
藏师傅前端视频生成Skill完成与优化分析

“藏师傅”前端视频生成技能已完成,当前重点在于提升工程化水平与降低Token消耗。对一段40秒视频案例的分析显示,总消耗达145万Token,其中视频组合部分占比极高,但得益于92%的缓存率成本可控。该方案由PPT Skill(美学动效)、HyperFrames(时间线渲染)、Listenhub Skill(配音)及即梦CLI(生成演示镜头)协同完成。

歸藏(guizang.ai): 让 Codex 自己做了一条视频介绍了一下这个视频生成方案 藏师傅的 PPT Skill 负责美学、版式、动效 HyperFrames 负责时间线和渲染、字幕 Listenhub Skill 负责配音 即梦 CLI 负责 前端无法生成的演示...

智能体MCP/工具教程/实践视频
11:51
HuggingFace Daily Papers(社区热门论文)
66
LongLive-2.0:用于长视频生成的NVFP4并行基础设施

LongLive-2.0 是首个支持训练与推理一体化的NVFP4并行基础设施,旨在解决长视频生成中的速度与内存瓶颈。训练阶段提出序列并行自回归方法,结合NVFP4精度以降低显存成本并加速计算,且视频越长效率提升越显著。该系统直接将扩散模型训练为长视频多镜头自回归模型,并支持通过LoRA权重转换为实时生成模式。推理阶段在Blackwell GPU上启用W4A4量化与异步流式解码,在其他架构上则通过序列并行匹配其速度。实验表明训练最高加速2.15倍,推理加速1.84倍,其5B模型可达45.7 FPS并在基准测试中表现优异。

视频论文/研究部署/工程
11:51
HuggingFace Daily Papers(社区热门论文)
59
Lance: 基于多任务协同的统一多模态建模

本文介绍了轻量级原生统一模型Lance,支持图像与视频的理解、生成与编辑。该模型摒弃了对模型规模扩张或文本-图像主导设计的依赖,探索通过多任务协同训练实现统一多模态建模的实用范式。其核心在于两个原则:统一上下文建模与解耦能力路径。Lance从头训练,采用共享交织多模态序列的双流专家混合架构,并引入模态感知旋转位置编码以减少异构视觉标记间的干扰,增强跨任务对齐。训练采用分阶段多任务范式,结合能力导向的目标与自适应数据调度。实验表明,Lance在图像与视频生成任务上显著优于现有开源统一模型,同时保持了强大的多模态理解能力。

图像生成多模态视频论文/研究
‹ 上一页
1…1516171819…28
下一页 ›