6月3日

03:06

向阳乔木@vista8

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作，包含四个协作角色：设计者生成视觉方案，执行者渲染图像或代码，验证者输出带定位的诊断报告，修订者据此修改规格文档 S。作者参考该框架进行了简化实践，写成一个技能包，其中使用了 GPT-image-2 进行生图，并整合了 URL 抓取功能，可直接生成配图。

Hugging Face 图像生成多模态教程/实践

02:35

Suno@suno

我们正在改进收听体验。比如播放列表、专辑、电台等。但我们想听听你的想法。接下来应该打造怎样的收听体验？请在此分享你的想法： https://forms.gle/SVQ6gunSLyq85e7J9

产品更新多模态

02:30

Microsoft Research@MSFTResearch

欢迎来到 Microsoft Build 2026。走进微软研究院实验室，开发者们正在亲身体验来自MSR的最新成果。Aurora的预测模型、Trellis 3D生成、Magentic UI、Mindful Memory等。

Microsoft 多模态行业动态

02:23

🚨 AI News | TestingCatalog@testingcatalog

微软发布 MAI Code 1 Flash 和 MAI Thinking 1 等新模型

微软在官网更新了 MAI 模型系列，重点发布了 MAI Code 1 Flash 和 MAI Thinking 1。MAI Thinking 1 拥有 35B 活跃参数和约 1T 总参数，采用 MoE 架构，其推理成本低于更大型模型，但在 SWE-Bench Pro 上的表现可与 Claude Opus 4.6 竞争。MAI Code 1 Flash 则专注于通过规划和推理来完成端到端的复杂编码任务。此外，MAI Image 2.5、MAI Voice 2 及 MAI Transcribe 1.5 也同步上线。

Microsoft 多模态推理模型发布

01:40

HuggingFace Daily Papers（社区热门论文）

TVIR：面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题，本文提出了TVIR框架，包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计，负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明，TVIR-Agent表现优异，凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究

00:45

Rohan Paul@rohanpaul_ai

OpenAI 将 Codex 从编码助手升级为空间构建器

OpenAI 为 Codex 带来重大升级，将其从编码助手转变为可构建交互式工作空间的“空间构建器”。核心新功能“Sites”能生成托管的交互式工作区，而不仅是文档或代码文件。同时新增插件以适配不同职业，并推出“标注”功能允许用户对结果的特定部分进行修复。Codex 目前拥有500万周活跃用户，其中20%为非开发者，该群体增长速度是开发者的3倍以上。“Sites”功能正面向 Business 和 Enterprise 计划推出。

OpenAI: Building apps has never been easier. With Sites, Codex can turn your work, ideas, and plans into an interactive website ...

智能体 OpenAI 产品更新多模态

关联讨论 5 条

00:30

Google Gemini@GeminiApp

通过一位参与构建的团队成员的现场演示，了解 Gemini Omni 的实际效果。加入我们的 Discord，产品经理 Chloe 将分享如何使用 Gemini Omni 的多模态输入、现实世界知识和便捷的对话式编辑，以前所未有的方式创建视频。 👉加入 Discord 观看直播：http://discord.gg/gemini 📅 太平洋时间 6 月 3 日星期三上午 11：30

Google 产品更新多模态

00:15

AK@_akhaliq

视觉语言模型知道何时不回答空间问题吗（以及为什么）？

Hugging Face 多模态论文/研究

6月2日

20:08

IT之家（RSS）

2026 世界杯引入多项 AI 技术：足球内置 500Hz 芯片，每秒采集 500 次数据辅助判罚

2026年美加墨世界杯将部署多项AI技术。阿迪达斯官方用球“Trionda”内置500Hz传感器芯片，每秒采集500次数据，与高速摄像机协同构建三维模型。国际足联将为1248名球员建立AI数字分身，通过3D扫描生成虚拟形象以辅助争议判罚。赛事还将首次推出裁判第一视角直播，并推出Football AI Pro知识助手，可解析逾2000项关键指标。

多模态行业动态部署/工程

18:35

小互@xiaohu

世界模型进医疗：AI模拟未来辅助临床决策

世界模型（World Model）在医疗领域实现突破，从传统的静态病灶识别转向动态预测模拟。医学世界模型（MeWM）能基于患者当前CT影像，模拟数月疾病进展，并合成治疗后的肿瘤轨迹视觉表征。在肝癌TACE等临床应用中，其通过反事实推理量化不同方案对生存率的影响，将临床决策成功率（F1-score）提升13%。这一“先模拟再行动”的范式正从医疗拓展至农业气候、城市规划等更多高风险领域。

FutureLivingLab: While showbiz bickers over AI video continuity glitches and educators remain stuck debating AI-generated PPTs, World Mod...

多模态现象/趋势

17:44

Rohan Paul@rohanpaul_ai

多数视频模型看起来比它们实际理解的要好

美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次，评估了20个模型在导航、主体动作、事件编辑等5个维度的表现，共使用22项自动指标。研究发现，没有任何模型能在所有维度上占据主导，这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题，并指出导航能力与视觉质量基本无关。

多模态视频评测/基准

17:13

MarkTechPost（RSS）

阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

通义千问（Qwen）团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频，并新增了自我编程、工具调用、深度推理和自主迭代能力。

智能体多模态模型发布

16:53

MiniMax (official)@MiniMax_AI

MiniMax发布M3模型，宣称是首个将编程与智能体能力、1M上下文长度及原生多模态三大前沿能力结合的开源权重模型。其编程与智能体能力在多个评测中表现突出：SWE-Bench Pro得分59.0%，Terminal Bench 2.1得分66.0%，SWE-fficiency 34.8%，KernelBench Hard 28.8%，MCP Atlas 74.2%。模型通过MiniMax Sparse Attention技术支持1M上下文。官方提供了API接入与新的MiniMax Code服务，模型权重和技术报告预计约10天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

多模态推理模型发布编码

14:40

HuggingFace Daily Papers（社区热门论文）

LongLive-RAG：用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归（AR）视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成（RAG）问题，不再仅依赖滑动窗口，而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中，它通过查询嵌入检索相关历史潜在变量，使生成器能够利用非局部上下文。为提升检索效果，框架引入了Window Temporal Delta Loss。实验表明，该框架能提升长视频生成质量，在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究

12:40

HuggingFace Daily Papers（社区热门论文）

在Blender中思考：基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序，直接从单张图像重建为可编辑的3D场景，且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”（SEIG）智能体框架，该框架在可执行的Blender代码空间中，通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明，分阶段重建策略显著提升了场景重建的保真度（包括像素级、感知和语义保真度），验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究

12:35

SenseTime@SenseTime_AI

将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多：https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face 图像生成多模态模型发布

关联讨论 1 条

11:40

HuggingFace Daily Papers（社区热门论文）

RoboSemanticBench：诊断VLA模型动作预测中的语义对齐

本文提出了RoboSemanticBench，一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中，机器人需要解决多选题，并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现，在控制抓取成功率后，许多模型选择语义正确方块的能力接近或低于随机水平，揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。

具身智能多模态论文/研究

11:40

HuggingFace Daily Papers（社区热门论文）

VLM作为视频推理教师：通过自适应测试时优化实现

本研究提出一种新范式，将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳，但其感知能力强，可评估任务规则满足度。新方法利用VLM提取任务规则，构建可微分奖励，并通过测试时在线优化轻量级LoRA模块，引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上，该方法平均性能提升16.7分，显著优于其他基线方法。

多模态推理视频论文/研究

10:47

Berryxia.AI@berryxia

Memo软件与沉浸式翻译工具使用体验分享

推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件（免费开源）：用于处理本地视频。流程为下载视频后，使用Whisper本地模型进行转录以节省成本，再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出，但在X平台上传速度慢。2. 沉浸式翻译：主要用于网页、YouTube视频及图书翻译，优点是格式保持较好。两者均支持接入用户自定义的API模型。

Berryxia.AI: 特么终于搞完了,太费劲了! 整整花了1晚上才把它翻译中文、剪辑、上传完毕。富人也有富人的烦恼,只是我们的烦恼不一样罢了! 这两天刷屏的Ivanka Trump (特朗普的长女千金)的长播客采访。整个播客中有些观点不能说多么锐利,但是也从...

DeepSeek 多模态开源/仓库教程/实践

10:40

HuggingFace Daily Papers（社区热门论文）

X-Stream：探索MLLM作为多路复用器的多流理解能力

专注于多流视频流理解的基准测试X-Stream被提出，包含4220个QA对、932个视频和11个子任务，覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型（MLLM）的概念化为信号复用器，并基于信号复用理论进行评估。在线推理实验显示，当前最先进的MLLM在处理并发视频流时表现挣扎，得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡，为多流智能体提供了评估协议和实证指导。

arXiv 多模态推理论文/研究

10:36

Alibaba Cloud@alibaba_cloud

阿里云发布通义千问3.7-Plus多模态智能体模型

阿里云推出Qwen3.7-Plus，这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手，支持全模态输入，能够跨GUI与CLI执行任务。该模型具备视觉智能体能力，涵盖感知、推理、定位及搜索增强问答，并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。

智能体多模态模型发布

关联讨论 4 条

08:47

Berryxia.AI@berryxia

ComfyUI 5月工作流更新：集成11个新模型

ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型，将前沿AI能力转化为可本地运行的节点。亮点包括：Krea 2以Partner Node形式上线，专注于风格优先的图像生成；来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互；Tripo 3.1与TripoSplat结合，实现单图端到端生成3D Gaussian资产。此外，Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性，通过节点拖拽即可构建复杂工作流。

ComfyUI: In May, we integrated 11 new models spanning image, 3D, audio, video, and multimodal. The highlights: → Krea 2 - style-f...

产品更新图像生成多模态开源生态