6月2日

08:19

MiniMax (official)@MiniMax_AI

🚀 M3 已在 Vercel 的 AI Gateway 上线！我们首个支持 1M token 长上下文和多模态输入的模型。本周享 50% 折扣 🎉 期待看到大家用 M3 和 @vercel_dev 构建什么 ✨

Vercel Developers: MiniMax M3 is available on AI Gateway. MiniMax's first long-context model, with support for multimodal inputs. 50% off f...

多模态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

GridVQA-X：评估多模态可解释性方法的框架

GridVQA-X是首个专门评估跨模态可解释性的诊断框架。它通过封闭世界合成逻辑生成具有数学保证的解释，并训练了相同架构的对照模型：M_pure（学习稳健的空间关系推理）和M_{spur}（被迫依赖跨模态捷径）。实验发现，现有广泛使用的可解释性方法无法区分这两种模型，无法捕捉真正的跨模态协同，反而可能错误表示多模态模型的实际决策过程，凸显了当前多模态可解释性方法在忠实捕捉跨模态推理方面的关键缺陷。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

文生图模型从文本编码器所需比你想象的少

新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现，基于扩散Transformer的模型主要只利用文本表示中两个简单方面：跨多个token的词汇合并，以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入，生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明，文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息，而是由图像模型自身完成复杂语言结构的解码。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

3D视觉菜谱：数据、学习范式与应用

该论文提出了一种以数据为中心的3D视觉分类法，将几何表示（点云、网格、体素和3D高斯）、获取管道、数据集设计、基准构建和监督范式统一到单一概念图中。研究分析了2D监督3D学习、隐式神经表示和4D世界建模的最新进展，并厘清了重建、生成和视频建模等下游任务中表示、学习范式与效率－保真度平衡、多模态几何接地之间的关联。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MAOAM：统一对象与材质选择的视觉语言模型框架

MAOAM是一个统一图像选择框架，通过文本或点击交互精确选择对象和材质。它利用视觉语言模型（VLM）与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集，作者提出可扩展的数据生成流水线：收集真实与合成图像及材质掩码，用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择，并引入辅助VQA任务加深材质理解。实验表明，MAOAM在多种对象、材质和交互场景下实现准确连贯的选择，且推理时结合文本与点击可产生涌现式提升。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

免训练多概念LoRA组合：提示词感知加权策略

LoRA可个性化文生图模型，但多概念组合时直接叠加会干扰概念，降低质量与保真度。本文提出免训练方法，通过W-Switch与W-Composite两种策略，根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合，实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上，该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。

图像生成多模态开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OVO-S-Bench：面向多模态大语言模型流式空间智能的分层基准

OVO-S-Bench是一个完全人工标注的流式空间智能基准，包含1,680个问题，覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间，模型仅能看到查询前的视频前缀。问题分为四个抽象层级：瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上，Gemini-3.1-Pro得分59.2，落后人类专家（86.6）27个百分点，全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型，且链式推理会在缺乏流式依据时放大空间错误。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

多模态大语言模型广基线匹配空间推理：ReasonMatch-Bench与DCRL

针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题，提出ReasonMatch-Bench基准，按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上，人类F1达84.0，最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对，产出可验证监督信号。进一步提出动态对应强化学习（DCRL），结合图像级视点递进和点级对应课程，通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准，维持通用视觉性能。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SynCred-Bench：AI生成视觉错误信息的合成可信度基准测试

SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试，覆盖6种可信形式类别和7种细粒度传播风格，并配有FP450真实图像负集。评估显示，在5%假阳性率约束下，现有系统表现不可靠：15个多模态大语言模型仅达10.5%真阳性率，开源AIGC检测器不足5%，商业API达57.6%，人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。

arXiv 多模态安全/对齐论文/研究

07:54

ginobefun@hongming731

MiniMax发布开源模型M3：集成编码、长上下文与多模态

MiniMax开源发布了国内首个集成前沿Coding能力、1M超长上下文和原生多模态的模型M3。该模型能在24小时内自主完成145次CUDA算子迭代。与此同时，xAI前负责人指出，视频模型的上限将由LLM决定，下一个类似Sora的产品应是视频Agent，而非单纯的视频生成模型。

多模态开源/仓库模型发布编码

07:35

Alibaba Cloud@alibaba_cloud

通义千问 Qwen3.7-Plus 多模态代理模型发布

阿里云发布了 Qwen3.7-Plus，这是一款统一了视觉与语言能力的多模态代理模型。该模型旨在成为通用的代理基础，支持图形界面与命令行操作，能够处理视觉和文本任务，充当编程代理和效率助手。其能力涵盖视觉感知、推理、目标定位以及搜索增强问答，并可跨多种代理框架进行泛化。该模型现已在阿里云百炼平台提供 API 服务。

智能体多模态模型发布编码

关联讨论 1 条

07:19

MiniMax (official)@MiniMax_AI

同事件精选81

M3 on Cloudflare AI Gateway， day one ⚡ 前沿编码能力，1M 上下文，原生多模态，现在一次 fetch 即可调用。是时候构建些东西了。 🦞

Cloudflare Developers: M3 from @MiniMax_AI is now available on Cloudflare AI Gateway: - First open model to push SOTA coding frontier - 1M cont...

多模态开源/仓库模型发布编码

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax的M3把开源编码模型拉到新高度，1M上下文加原生多模态是惊喜，上线首周5折，值得跑一下看是不是真能干翻闭源。

07:07

IT之家（RSS）

阿里发布 Qwen3.7-Plus 模型，升级多模态交互混合 AI 智能体

阿里通义千问（Qwen）于6月2日发布新模型 Qwen3.7-Plus，定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版，在保留文本、编码和工具使用能力的基础上，显著强化了视觉理解与视觉推理能力，支持图像、视频、屏幕、网页和文本输入，面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1，并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布

关联讨论 1 条

06:11

Google AI Developers@googleaidevs

在Google I/O大会后，开发者社区与Google DeepMind在旧金山合作，利用最新的Gemini和Gemma能力（特别是Gemini 3.5 Flash）构建实际产品。活动展示了利用Gemini 3.5 Flash开发多模态智能体、语音接口和长期推理系统等应用的可能性。

Cerebral Valley: Google I/O showed where AI is headed. Our community spent the weekend building it. Builders gathered in San Francisco al...

智能体多模态行业动态

04:41

MarkTechPost（RSS）

MiniMax 发布 MiniMax M3：支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3，引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口，并具备原生的图像、视频和计算机使用能力，面向智能体编程场景。

智能体多模态模型发布

03:40

fofr@fofrAI

用 Omni 重访一个旧作。

fofr: NO WAY DID IT JUST DO THAT https://replicate.com/wavespeedai/wan-2.1-t2v-480p

多模态教程/实践

03:11

Chubby♨️@kimmonismus

阿里云通义千问（Qwen3.7-Plus）正式发布。这是一个统一视觉与语言的多模态智能体基础模型，其核心功能包括：支持GUI与CLI操作的交互式混合智能体、全能编码助手与生产力工具、具备感知、推理、定位及搜索增强能力的视觉智能体，并可跨主流智能体框架泛化。该模型现已通过阿里云模型工作室提供API。发布推文中提到的与GPT-5.4及Opus 4.6的比较，在用户侧引发了对其对标产品的讨论。

Qwen: 👏👏 Introducing Qwen3.7-Plus - a multimodal agent model that unifies vision and language into one versatile agent found...

智能体多模态模型发布

关联讨论 1 条

02:48

MiniMax (official)@MiniMax_AI

草图 → 可玩游戏，仅花 $0.028 😳 这正是 M3 的设计初衷 @atomic_chat_hq

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

多模态模型发布

02:18

MiniMax (official)@MiniMax_AI

MiniMax M3现已在Happycapy上线，主要升级在于处理复杂、多模态、大规模任务的能力。该模型支持原生多模态输入，包括PDF、视频、图像、截图及长文档，并在编程和智能体任务（如仓库级调试、问题追踪）上表现较强。此外，M3采用开源权重，价格约为Sonnet的三分之一。

Happycapy: MiniMax M3 @MiniMax_AI is now live on Happycapy 🎉 A major upgrade for agent workflows, especially when the task is mess...

多模态开源/仓库模型发布编码

02:09

Qwen@Alibaba_Qwen

通义千问发布 Qwen3.7-Plus 多模态智能体模型

通义千问推出 Qwen3.7-Plus，这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作，可作为多功能编码智能体与生产力助手，并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。

智能体多模态推理模型发布

关联讨论 1 条

01:59

公众号：通义实验室（千问）

同事件精选64

Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言，实现“看、想、写、做、验”端到端闭环，在 12 项核心基准测试中表现提升。实测中，基于该模型的智能体连续运行超 11 小时，自动完成英语学习 APP 开发，生成代码超 10000 行、触发调用超 1000 次；复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线，提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布

同一事件，精选展示《Qwen3.7-Plus：多模态智能体模型发布》

推荐理由：Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环，从写代码到操作浏览器一条龙，做自动化 Agent 的团队可以直接拿来用。

01:37

Qwen：Blog Retrieval（API）

精选81

Qwen3.7-Plus：多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus，基于 Qwen3.7 文本骨干，增强视觉语言能力，保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题，融合 GUI 与 CLI 交互，跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3，SWE-Verified 77.7，QwenWorldBench 62.1，GPQA Diamond 90.3，MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布

关联讨论 1 条

推荐理由：Qwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型，在 ScreenSpot 和浏览器操作上的提升很实在，做自动化的开发者值得上手试试。

01:26

Google Blog：AI（RSS）

谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google 图像生成多模态教程/实践

01:18

MiniMax (official)@MiniMax_AI

这就是模型与智能体对齐的样子 🤝 @SimularAI

Simular: Today @MiniMax_AI ships M3 - the first frontier model purpose-built for computer-use agents. Natively multimodal. One mo...

智能体 MCP/工具多模态模型发布

关联讨论 9 条

01:18

MiniMax (official)@MiniMax_AI

MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能，并支持长期智能体工作流，被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴，为早期用户提供50%的折扣。

Qubrid AI: @MiniMax_AI M3 is now live on Qubrid AI. https://platform.qubrid.com/model/minimax-m3 - 1M-token context. - Native multi...

智能体多模态开源/仓库模型发布

关联讨论 9 条

01:11

Artificial Analysis@ArtificialAnlys

NVIDIA Cosmos 3 荣登开放权重模型图像与视频生成双榜榜首

NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中，同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构，结合自回归推理器与扩散生成器，提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中，Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问（Qwen）Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相（Wan）2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词，可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源，采用 OpenMDW 1.1 许可，提供权重、代码、精选数据集和微调方案。

Hugging Face 多模态开源生态模型发布

关联讨论 9 条

01:03

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选75

英伟达 Cosmos 3

英伟达发布了 Cosmos 3，这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客，发布日期为 2026 年 6 月 1 日。

具身智能多模态模型发布

同一事件，精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》

推荐理由：Cosmos 3 把物理推理、世界生成和行动生成塞进一个开源模型，从机器人到自动驾驶都能用，英伟达这次是真的想定义物理 AI 的训练范式。

00:10

Chubby♨️@kimmonismus

MiniMax发布开源模型M3，它是首个将前沿编码能力、1M token上下文窗口与原生多模态集成于单一系统的开源模型。M3在SWE-Bench Pro上得分为59.0%，略高于GPT-5.5（58.6%）与Gemini 3.1 Pro（54.2%）；在BrowseComp自主浏览任务中以83.5%领先Opus 4.7。此外，模型在Terminal Bench 2.1（66.0%）、MCP Atlas（74.2%）等基准上表现优异。其每token成本约为GPT-5.5的十二分之一，模型权重及技术报告预计在10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

智能体多模态开源生态模型发布

关联讨论 9 条

6月1日

23:43

🚨 AI News | TestingCatalog@testingcatalog

MiniMax M3模型现已集成至Atomic Chat。在一项测试中，Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图，并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示，该任务消耗输入6，920模型token，生成输出9，933模型token，总成本仅为$0.028。此外，MiniMax计划于下周在HuggingFace发布M3模型。

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

Hugging Face 多模态模型发布编码

22:05

The Decoder：AI News（RSS）

MiniMax M3：具有百万token上下文窗口的开源权重模型挑战闭源领先者

中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。

多模态模型发布编码

21:02

SiliconFlow@SiliconFlowAI

MiniMax M3 现已上线 SiliconFlow 平台

MiniMax M3 现已在 SiliconFlow 平台上线，并提供限时7天的50%折扣。定价为：缓存 $0.06、输入 $0.30、输出 $1.20（每百万 token）。M3 是首个同时具备三大前沿能力的开源模型：一是编码与智能体能力，在 SWE-Bench Pro 评测中击败了 GPT-5.5 和 Gemini 3.1 Pro；二是支持 100万 token 上下文窗口（通过 MiniMax Sparse Attention 技术实现）；三是具备原生多模态能力，支持图像、视频与计算机操作。

多模态开源/仓库模型发布编码

关联讨论 9 条

20:47

MiniMax (official)@MiniMax_AI

1. 视频控制 + 游戏 + M3 2. 开放权重 + 海量上下文 + 强编码能力 3. 现在就取消我的周末计划【引用 @MinLiBuilds】：跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了，三个亮点： 1M context、原生多模态、Agentic。我这次做了一次完整评测，使用CC workflow 、 @ZenMuxAI和MiniMax M3：给一张截图，做一个"凡人修仙剑阵对决手势游戏"。要求是：支持双人对决、使用 workflow 拆解任务、加入石头剪刀布机制。 2 小时后，游戏真的跑起来了。这一代LLM的版本答案我知道了： 1M 上下文 + 多模态+ agent 模式。 1M context 是推理深度的基础，多 agent 负责拆任务和执行。

实践哥MinLi: 跟祖传的 20K context 说 bye bye 了。 MiniMax M3 发布了,三个亮点: 1M context、原生多模态、Agentic。我这次做了一次完整评测,使用CC workflow 、 @ZenMuxAI和MiniM...

智能体多模态开源/仓库模型发布

20:04

小互@xiaohu

OpenAI演示AI智能体操作系统，或颠覆手机应用生态

OpenAI Voice Hack Night现场演示了为手机设计的“AI智能体操作系统”。其核心思路是“UI即系统”——手机没有传统App，界面由端侧本地模型实时生成，复杂推理任务由云端GPT处理。演示中开发者全程语音指挥完成订机票、删日历、查AI新闻、发邮件等操作，但中途因“登录未配置”导致发邮件失败。该演示展示了无需调用App界面的交互形式，可能颠覆传统移动应用生态和商业模式。

智能体 OpenAI 多模态现象/趋势

19:17

MiniMax (official)@MiniMax_AI

用户@stevibe展示了MiniMax M3模型的能力。他仅提供了一张90年代风格旧网页的截图和相关素材文件，没有提供HTML源代码，要求通过OpenCode工具将网站一次性重建为现代Apple风格。模型成功在一次尝试中完成了任务，生成的网页保留了原始页面的标识和核心元素，并以现代化的渐变设计、排版和深色主题重新呈现，效果被评价为"真正令人惊叹"。

stevibe: MiniMax M3 might be the most underrated coding model right now. I gave it nothing but a screenshot of a chaotic 90s GeoC...

多模态教程/实践编码

18:47

MiniMax (official)@MiniMax_AI

MiniMax M3 模型现已在 Novita AI 平台上线，并提供首周半价优惠。作为首个开源权重模型，它集成了前沿编码与智能体能力，在 SWE-Bench Pro 上得分 59.0%，Terminal Bench 2.1 上得分 66.0%，MCP Atlas 上得分 74.2%。该模型上下文窗口最高可达 1M tokens，由 MiniMax Sparse Attention 技术支持，并从一开始即支持原生多模态，可处理文本与视觉理解任务。Novita AI 作为其 Day-0 API 发布合作伙伴，为开发者提供接入服务。

Novita AI: 🚀 We're launching MiniMax M3 from @MiniMax_AI on Novita AI as a Day-0 API launch partner. The first open-weights model ...

多模态推理模型发布

关联讨论 9 条

18:42

Berryxia.AI@berryxia

KwaiKeye开源多模态大模型Keye VL 2.0-30B-A3B

KwaiKeye开源了多模态大模型Keye VL 2.0-30B-A3B，采用Apache 2.0许可。该模型总参数为30B，但仅激活3B参数。其核心亮点是通过DeepSeek稀疏注意力技术实现了256K的上下文长度。该模型的视频理解能力表现出一个反直觉的特性：喂入的帧数越多，其准确率反而持续上升。在基准测试中，其表现已与Qwen3 VL、Gemini 3 Flash等模型相当。

Adina Yakup: Keye VL 2.0-30B-A3B 🔥 New multimodal model from @KwaiKeye ✨ 30B/3B active - Apache 2.0 ✨ 256K context via DeepSeek Spar...

多模态开源生态推理模型发布

18:21

公众号：腾讯混元

腾讯混元为《和平精英》推出AI明星队友「小田」

腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架，为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力，并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆，玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿，单日活跃峰值1770万，玩家麦克风开启率75%。

智能体产品更新多模态

17:05

IT之家（RSS）

499 元：WIKO AI 萌宠"星仔"发布，华为小艺大模型加持、支持 Wi-Fi+4G

产品更新多模态

14:53

歸藏(guizang.ai)@op7418

MiniMax 发布大版本升级 M3 模型

MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文，采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中，其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外，其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

多模态模型发布编码

关联讨论 9 条

14:42

Berryxia.AI@berryxia

多人协作持久世界模型：解耦状态与渲染

该推文介绍了一种新型“持久化、多人协作的世界模型”，明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面，而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为，这可能是目前最接近实现“可交互持久世界”的技术尝试。

具身智能多模态现象/趋势