3月6日

11:34

公众号：生数科技（Vidu·视频）

生数科技 Vidu 将在 3 月 17 日至 20 日的香港国际影视展 FILMART 上设立 Vidu Q3「为剧而生」专区，展示专为漫剧、短剧、影视剧设计的 Vidu Q3 模型。该模型是全球首个支持 16 秒音视频直出的多模态模型，具备多镜头自由切换、多语言对话及多语种文字渲染能力，旨在为影视制作与内容工业带来全新生产方式。

多模态行业动态视频

2月27日

04:15

Saining Xie@sainingxie

精选

世界建模绝非像素渲染：Project Solaris发布多智能体视频世界模型

Project Solaris提出世界建模的本质在于全局共享状态而非局部像素渲染，推出基于Minecraft的多人在线视频世界模型。该系统突破单智能体视角局限，支持任意数量智能体随时介入交互，实现持久化世界状态演化。核心包含三大组件：Solaris Engine多人数据收集系统、基于DiT架构的Solaris Model（采用新型内存高效自强制设计，训练于1260万帧协调游戏数据）、以及使用VLM评判的Solaris Eval评估体系。这一范式转变为构建神经MMORPG服务器奠定基础。

Oscar Michel: 📢Current world models aren't really modeling the world; they're modeling one agent's view of it. Partial observations ≠...

智能体具身智能开源/仓库视频

推荐理由：从单视角到共享全局状态，开源多智能体世界模型或改变AI训练范式

2月16日

11:52

公众号：豆包（字节）

我们和贾樟柯导演合作了一支Seedance 2.0 贺岁短片

字节跳动旗下豆包的AI视频生成模型Seedance 2.0与导演贾樟柯合作，推出了一支贺岁短片。

行业动态视频

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang-Diffusion：面向生产级视频生成的高级优化

SGLang-Diffusion发布六项生产级优化，包括Token级序列分片替代帧级方案，消除14.3%的padding开销并将通信量降至0.875倍；并行折叠技术解耦文本编码器与DiT的并行策略；并行VAE实现分布式编解码，消除高分辨率视频内存瓶颈。同时修复Cache-DiT多请求稳定性问题，优化视频保存I/O性能，并针对WanVideo融合LayerNorm内核。这些改进显著提升了视频生成框架的可扩展性、效率与稳定性。

开源/仓库视频部署/工程

2月12日

12:18

公众号：豆包（字节）

豆包视频生成模型Seedance 2.0上线

字节跳动旗下豆包推出视频生成模型Seedance 2.0，该模型已上线。

多模态模型发布视频

00:00

字节 Seed：Research Feed（网页内嵌数据）

精选

Seedance 2.0 正式发布

Seedance 2.0 视频生成模型正式发布，综合性能达业界 SOTA 水平。新版本支持多模态输入，可同时参考 9 张图片、3 段视频、3 段音频及文本指令，精准迁移构图、动作、运镜与音效。模型支持 15 秒高质量多镜头生成，集成双声道立体声技术，并新增视频延长与编辑功能，可定向修改片段、角色及剧情。目前已在即梦 AI、豆包及火山方舟平台上线，适用于影视、广告、电商等工业级内容创作场景。

多模态模型发布视频

关联讨论 1 条

推荐理由：字节Seedance 2.0发布，支持多模态输入与物理稳定生成，已上线豆包即梦

2月10日