全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月29日周五

10:29HuggingFace Daily Papers（社区热门论文）57用于生成的原生音视频对齐

09:44Rohan Paul65LeJEPA何时学习世界模型？

09:39StepFun69Step 3.7 Flash上线Design Arena测试

09:21IT之家（RSS）71阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

09:09小互62ElevenLabs 推出 Dubbing V2

09:09StepFun79阶跃星辰Step 3.7 Flash获NVIDIA首日支持

08:39StepFun64SGLang宣布提供Day-0支持

08:39StepFun79阶跃星辰 Step-3.7-Flash 模型发布，vLLM 当日支持

08:37Google AI24社区分享的Gemini Omni趣味用例

08:09StepFun75阶跃星辰 Step 3.7 Flash 发布，聚焦智能体效率

08:02公众号：阶跃星辰（Step）61同事件精选阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》

08:00HuggingFace Daily Papers（社区热门论文）46MechVQA：全面机械图纸理解的多模态大语言模型基准与增强

08:00HuggingFace Daily Papers（社区热门论文）66PaintBench：精确视觉编辑的确定性评估

08:00HuggingFace Daily Papers（社区热门论文）56SpatialAct：探测VLM智能体在3D场景中的空间推理至行动能力

08:00HuggingFace Daily Papers（社区热门论文）68SVI-Bench：战略视频智能的动态微世界

08:00HuggingFace Daily Papers（社区热门论文）51MineExplorer：评估多模态大语言模型智能体在 Minecraft 中的开放世界探索能力

08:00HuggingFace Daily Papers（社区热门论文）55SOCO：视觉基础模型中的语义物体对应基准测试

08:00HuggingFace Daily Papers（社区热门论文）53SurGe：改进点映射中的表面几何

08:00HuggingFace Daily Papers（社区热门论文）62面向离散策略优化的引导对比策略优化

08:00HuggingFace Daily Papers（社区热门论文）64嵌入模型如何进行概念绑定？

08:00HuggingFace Daily Papers（社区热门论文）55iVGR：通过强化学习将视觉锚定推理内化于多模态大语言模型

08:00HuggingFace Daily Papers（社区热门论文）59基于自回归扩散Transformer的流式同步空间音频生成

08:00HuggingFace Daily Papers（社区热门论文）59Count Anything

08:00HuggingFace Daily Papers（社区热门论文）56面向任务的多模态智能体记忆策略学习

08:00HuggingFace Daily Papers（社区热门论文）62表征强制：实现无瓶颈统一多模态模型

08:00HuggingFace Daily Papers（社区热门论文）63Lumos-Nexus：一种基于同质潜空间的高效频率桥接视频统一模型训练框架

08:00HuggingFace Daily Papers（社区热门论文）56面向长视频理解的线性扩展视频语言模型

07:21IT之家（RSS）58WWDC26 预热：苹果下周将展示 14 篇 AI 论文，关联 iOS 27 版图乐园等

06:14Rohan Paul23Google Omni 值得更多关注

05:49🚨 AI News | TestingCatalog63Google 宣布 Nano Banana 2 与 Nano Banana Pro 模型现已达到通用可用状态

03:06Google Gemini62Gemini Omni向印度用户开放视频编辑功能

01:44Chubby♨️66字节跳动开源7B多模态模型BAGEL

01:29HuggingFace Daily Papers（社区热门论文）61GUI-CIDER：通过因果内化与密度感知样本重选进行中期训练的GUI智能体

01:12Ethan Mollick57Opus 4.8与GPT-5.2 Pro同台：单次生成创意Shader对比

01:06Google AI41Google用AI工具让纸板和马克笔"活起来"

00:32Berryxia.AI61iOS 27爆料：Siri彻底重做，AI系统级整合

00:31AYi48Google Omni演示手部解剖，生物医学教学潜力获赞

00:06SenseTime65同事件精选SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

00:06Google Blog：AI（RSS）61Google I/O 2026 一文速览：12 大重要时刻

00:05Google Gemini58Gemini Omni向印度用户开放视频编辑功能

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月29日

10:29

HuggingFace Daily Papers（社区热门论文）

57

用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题，本文提出了NAVA（原生音视频对齐）框架。该框架在专用交互空间建立音视频对应关系后，利用外部上下文条件化联合去噪过程。具体实现上，NAVA采用Align-then-Fuse MMDiT架构，并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明，NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv 多模态视频论文/研究

09:44

Rohan Paul@rohanpaul_ai

65

LeJEPA何时学习世界模型？

Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是，LeJEPA只有在真实的隐藏变量呈现高斯云结构时，才能可靠地学习它们。论文通过数学证明，当这些隐藏变量是独立高斯变量，并且配对视图由一个稳定的噪声过程生成时，LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构（而不仅仅是提取在测试集上有效的特征）提供了理论解释。

Meta 多模态论文/研究

09:39

StepFun@StepFun_ai

69

现已在 @Designarena 上线--快去试试看 👀

Design Arena: Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...

多模态开源生态模型发布

09:21

IT之家（RSS）

71

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体 Hugging Face 多模态模型发布

关联讨论 2 条X：阶跃星辰 StepFun (@StepFun_ai)X：OpenRouter (@OpenRouter)

09:09

小互@xiaohu

62

ElevenLabs 推出 Dubbing V2

ElevenLabs 推出 Dubbing V2，一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程，直接基于原始表演建模声音，从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音，支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步，以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

产品更新多模态语音

09:09

StepFun@StepFun_ai

79

阶跃星辰Step 3.7 Flash首日支持--NIM、NeMo和GPU加速端点已就绪。感谢@NVIDIAAI！🤝 【引用 @NVIDIAAI】：Step 3.7 Flash现已发布 ICYMI：198B MoE，11B激活参数，256K上下文，原生图像+视频支持。首日支持已在http://build.nvidia.com上线，提供GPU加速端点，可通过NVIDIA NIM推理微服务部署，并使用NVIDIA NeMo框架进行微调。祝贺@stepfun_ai团队！

NVIDIA AI: Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...

多模态模型发布

关联讨论 2 条X：阶跃星辰 StepFun (@StepFun_ai)X：OpenRouter (@OpenRouter)

08:39

StepFun@StepFun_ai

64

SGLang宣布其推理框架现已对阶跃星辰（StepFun AI）的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型，具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一，V*得分为95.3。在智能体工作流方面，它在ClawEval-1.1上以67.1分领先，展现出可靠的长期工具编排能力；在软件工程任务中，于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文，并提供3种推理级别以平衡速度、成本与深度。

LMSYS Org: 🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...

智能体多模态模型发布编码

08:39

StepFun@StepFun_ai

79

阶跃星辰发布了 Step-3.7-Flash 模型，vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型，每个 token 约有 11B 激活参数，支持原生图像与文本输入。其上下文窗口达到 256K，适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本，并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程

关联讨论 2 条X：阶跃星辰 StepFun (@StepFun_ai)X：OpenRouter (@OpenRouter)

08:37

Google AI@GoogleAI

24

一些来自社区的有趣Gemini Omni用例 🧵👇

Google 产品更新多模态

08:09

StepFun@StepFun_ai

75

阶跃星辰 Step 3.7 Flash 发布，聚焦智能体效率

阶跃星辰（Step）发布了开源大模型 Step 3.7 Flash，主打智能体（Agent）工作流的效率。该模型在 ClawEval-1.1（67.1分）和 SimpleVQA Search（79.2分）评测中排名第一。其架构为 198B 参数的 MoE，约 11B 为活跃参数，支持 256K 上下文。模型具备多模态理解能力，能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面，它致力于高可靠性，τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链，并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理

关联讨论 2 条X：阶跃星辰 StepFun (@StepFun_ai)X：OpenRouter (@OpenRouter)

08:02

公众号：阶跃星辰（Step）

同事件精选61

阶跃发布 Step 3.7 Flash，面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash，采用稀疏 MoE 架构（总参数 196B+1.8B，激活 11B），最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%，ClawEval-1.1 达 67.1%，GDPval 达 45.8%，τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议，支持云端与本地部署，已在 Kilo Code 等生态中完成接入验证。

智能体 MCP/工具多模态开源生态

同一事件，精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》

推荐理由：Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了，兼容主流框架还开源，对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。

08:00

HuggingFace Daily Papers（社区热门论文）

46

MechVQA：全面机械图纸理解的多模态大语言模型基准与增强

MechVQA是一个面向机械工程图纸理解的全面数据集，通过半自动构建与质量控制流程生成，包含3.3k高密度图片和21K问答对，覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集，研究团队开发了MechVL模型，采用多阶段训练范式，在MechVQA总分上超越最强闭源基线7.57个百分点，显著提升机械图纸理解能力，为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

PaintBench：精确视觉编辑的确定性评估

PaintBench是一个动态可扩展的基准，涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件，并采用确定性像素级评估（mIoU）。在11个图像编辑模型上，当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难，且模型存在针对性专长。场景变化（如物体数量、背景复杂度、配色方案、编辑区域大小）会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证，PaintBench得分与应用任务表现存在强线性相关（R²=0.91，p<0.001）。

图像生成多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

56

SpatialAct：探测VLM智能体在3D场景中的空间推理至行动能力

SpatialAct是一个基于模拟器的基准，用于评测视觉语言模型（VLM）智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发，设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示，当前VLM在孤立空间推理任务上表现良好，但在多轮反馈中难以维持一致的空间信念并产生可靠行动，表现显著低于人类。结果表明，即便底层控制被抽象，现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

SVI-Bench：战略视频智能的动态微世界

SVI-Bench是一个用于评估战略视频智能(SVI)的大型基准测试，利用篮球、足球和冰球等团队运动作为动态微世界。其数据包含约35K小时广播视频、15M标注动作、15K小时专家评论、23K比赛报告及103K结构化统计记录。评估任务涵盖动态场景理解、因果推理、战略模拟和智能体综合四个递进层级。评估显示，模型在感知任务上能达到约73%准确率，但性能随认知层级提升而急剧下降；在需自主整合证据的智能体任务中，最强模型准确率仅为5%。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

MineExplorer：评估多模态大语言模型智能体在 Minecraft 中的开放世界探索能力

研究提出了 MineExplorer 基准测试，用于评估多模态大语言模型智能体在 Minecraft 开放世界中的探索能力。该基准采用 ReAct 式能力表述，将原子任务组合为隐式多跳任务，并利用多智能体合成工作流共同设计任务图、沙盒场景和基于规则的里程碑评估器。实验表明，开放世界探索仍具挑战性，强模型能处理许多单跳任务，但在需要协调更长轨迹中隐藏先决条件时性能急剧下降。代码与数据集已开源。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

SOCO：视觉基础模型中的语义物体对应基准测试

为评估视觉基础模型对物体部件的细粒度理解能力，研究提出了新基准SOCO。该基准建立了语义对应类型分类体系，提供了跨100个类别、超过100万对应对的统一关键点标注，并包含关键点语言描述，以支持对大型视觉-语言模型的评估。实验发现，视觉基础模型虽编码了强语义结构，但在相关类别间的对应关系迁移能力较弱；大型视觉-语言模型在文本提示的部件定位上优于视觉参考的跨图像匹配；且对应性能比分更能预测分割、跟踪等密集预测下游任务的表现。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

SurGe：改进点映射中的表面几何

SurGe 模型解决了 feedforward 3D 重建方法在点映射中局部表面几何不准确的问题。它引入了点映射法线指标来评估局部表面方向，并提出点梯度匹配损失和 Neighborhood Attention Decoder (NAD) 两个组件。在八个零样本单目几何基准测试中，SurGe 在全局点映射 AbsRel 上获得最佳平均排名，并一致改善局部点映射和法线评估。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

面向离散策略优化的引导对比策略优化

针对现有基于组优势的强化学习方法（如GRPO和DAPO）在所有token上采用统一奖励、无法细粒度分配信用的问题，本文提出引导对比策略优化（GCPO）。该方法通过对比模型在正负提示下的预测，将token级优势与对比预测差异成比例分配，从而提供更精确的学习信号。实验表明，GCPO能有效强调语义相关区域（如图像生成中与文本对齐的视觉区域、推理链中的关键词），并在文本到图像生成和思维链推理基准测试中均优于GRPO和DAPO基线。

多模态开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

嵌入模型如何进行概念绑定？

人类能轻松完成概念绑定，而以CLIP为代表的视觉-语言嵌入模型在此方面存在不足。研究发现，尽管CLIP的场景嵌入可通过加法分解为物体表示，但其绑定函数的复杂度较高，阻碍了模型学习能泛化到新概念组合的共享机制。不过，这种限制并非根本性的。研究表明，从头训练的受控Transformer模型在数据覆盖充分时，能通过概念间的乘法交互学习到低复杂度的绑定函数，从而实现系统性的泛化。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

iVGR：通过强化学习将视觉锚定推理内化于多模态大语言模型

研究发现，在多模态大语言模型（MLLMs）推理阶段强制使用带有显式物体框的视觉锚定CoT，其效果反而不如标准文本推理。作者提出iVGR框架，旨在通过强化学习将视觉定位能力内化到文本推理过程中。该框架采用双流训练策略，利用一致性奖励将文本流与高质量视觉锚定流对齐，使模型在推理时无需显式锚定即可准确进行视觉定位。实验表明，该方法在细粒度基准测试上显著优于现有基线，并支持工具辅助推理流程。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

基于自回归扩散Transformer的流式同步空间音频生成

针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题，本文提出了SwanSphere。这是一个统一的流式框架，用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于：1) 提出了一种因果自回归扩散Transformer架构，实现了流式的高质量生成；2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域，并结合多目标在线直接偏好优化，增强了空间感知与多模态合成的鲁棒性；3) 开发了一个自动标注流程，用于生成详细的空间描述，以缓解数据稀缺问题。实验证明，SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

59

为解决现有对象计数模型在跨类别、跨领域和跨密度分布场景下泛化能力不足的问题，本研究提出了Count Anything，一个文本引导的通用对象计数模型。该模型以图像和自然语言查询为输入，输出实例级的目标点集并以点数作为计数值。为此，研究构建了CLOC跨域大规模对象计数数据集，涵盖六个视觉领域约22万张图像、619个类别和1500万个对象实例。Count Anything采用双粒度实例枚举策略：区域级稀疏计数器为大而稀疏的目标提供锚点，像素级密集计数器处理小而密集的目标。通过互补计数融合机制无参数地结合两者，在多个领域展现出优于现有开世界计数方法的准确性和泛化能力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

面向任务的多模态智能体记忆策略学习

多模态智能体的长期记忆面临“该记什么”的核心挑战。为此，研究者提出了TaskMem框架，这是一种基于强化学习的记忆策略学习方法，采用两阶段训练范式：第一阶段学习如何记忆以保证记忆质量，第二阶段在部署后根据具体任务学习记什么。该方法基于Qwen3-VL-30B-A3B构建，并在将VideoMME、EgoLife和EgoTempo重构为流式基准测试后，分别将VQA准确率提升了6.3%、7.0%和5.3%。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

表征强制：实现无瓶颈统一多模态模型

现有统一多模态模型（UMMs）仍依赖冻结的、单独预训练的VAE进行图像生成，这造成了结构瓶颈。本文提出表征强制（RF）技术，通过强制解码器在生成像素前，先自回归预测作为中间token的视觉表征，并使其留在上下文中引导同一骨干网络内的像素扩散。此举将表征从感知输出转变为生成目标，从而消除了对外部生成潜空间的需求。实验证明，RF能同时增强模型的理解与生成能力：其像素空间模型在图像生成上匹配了基于VAE的最先进模型，在图像理解上则通常优于对应的VAE变体。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

Lumos-Nexus：一种基于同质潜空间的高效频率桥接视频统一模型训练框架

针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题，Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段，模型仅将轻量生成器与理解模块对齐，学习接收推理驱动的语义控制。推理阶段，则引入统一渐进频率桥接机制，在共享潜空间中逐步将生成任务移交至高容量的预训练生成器，实现由粗到细的优化，生成高质量视频。为评估此能力，研究同时发布了新基准 VR-Bench。实验证明，该模型在 VBench 上视觉真实度和时间连贯性显著提升，并在 VR-Bench 上展现出强大的推理生成性能。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

面向长视频理解的线性扩展视频语言模型

本文提出StateKV，一种推理时方法，使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文，并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明，StateKV的性能接近全自注意力机制，并持续优于主流的滑动窗口等流式近似方法，且无需微调或架构改变。该方法降低了预填充的FLOPs成本，允许在固定算力下使用更大模型以获得更高准确率，为可扩展的长视频理解提供了实用方案。

arXiv 多模态推理论文/研究

07:21

IT之家（RSS）

58

WWDC26 预热：苹果下周将展示 14 篇 AI 论文，关联 iOS 27 版图乐园等

图像生成多模态行业动态

06:14

Rohan Paul@rohanpaul_ai

23

Google Omni 值得更多关注。

Google 多模态大佬观点

05:49

🚨 AI News | TestingCatalog@testingcatalog

63

Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中，Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面，两款模型的 1K 和 2K 输出能力已正式发布，而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成，使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google 图像生成多模态模型发布

03:06

Google Gemini@GeminiApp

62

好消息！印度用户现在可以上传视频（来自相册或已保存文件），并使用Gemini Omni进行编辑和转换。快来试试，并告诉我们你的想法。

Vijay Choudhary: Gemini Omni seems to outperform everything. Crazy updates for Vibe Video Editing at #google Let's see when this update w...

Google 产品更新多模态视频

01:44

Chubby♨️@kimmonismus

66

字节跳动开源多模态模型BAGEL，单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解，采用Apache 2.0许可。引用推文显示，该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0，其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布

01:29

HuggingFace Daily Papers（社区热门论文）

61

GUI-CIDER：通过因果内化与密度感知样本重选进行中期训练的GUI智能体

针对多模态大语言模型构建的GUI智能体因缺乏操作世界知识导致任务完成能力受限的问题，本文提出GUI-CIDER中期训练方法。该方法通过三个阶段显式内化知识：首先从GUI轨迹中合成静态规划与动态因果知识文本；然后通过奖励因果结构、惩罚语义冗余进行样本重选；最后使用精炼数据进行中期训练以嵌入知识。实验表明，该方法一致提升了智能体对GUI操作的理解与任务成功率。代码已开源。

智能体多模态论文/研究

01:12

Ethan Mollick@emollick

57

Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"（single shot）的方式，为twigl平台创建可运行的视觉shader。具体任务为：用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示，体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic 多模态模型发布

01:06

Google AI@GoogleAI

41

Google用AI工具让纸板和马克笔"活起来"

Google通过一部短片展示了如何利用AI工具将纸板、马克笔等简单物理材料“赋予生命”。该短片讲述了为Google I/O 2026舞台做准备的一群TPU的故事，创作中融合了木偶戏与3D动画。核心工具包括：Nano Banana（从原始木偶镜头和基础3D动画生成风格化首帧）、Google AI Studio（构建定制工具以大规模测试帧并确保一致性）、以及Gemini Omni和Google DeepMind的实验性模型（合并基础动画与风格化帧，提升至电影级画面）。整个AI流水线的设计旨在保护那些体现手工艺温度的细微细节，例如木偶戏的细微不完美感。

Google 多模态教程/实践视频

00:32

Berryxia.AI@berryxia

61

iOS 27爆料：Siri彻底重做，AI系统级整合

Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做，从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强，照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App，支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中，旨在让功能对普通用户易用，同时满足专业需求，而非简单堆砌功能。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

产品更新多模态语音

00:31

AYi@AYi_AInotes

48

Google Omni演示手部解剖，生物医学教学潜力获赞

推文回应了关于Google Omni能力的争议，展示了其将普通人手转化为逼真活体解剖影像的演示效果。该演示清晰呈现肌肉、肌腱、骨骼等组织结构，被评价为生物医学教学的理想工具。文中提及的对比对象为seedance 2.0，强调了该技术在教育领域的独特应用价值。

Google 多模态现象/趋势

00:06

SenseTime@SenseTime_AI

同事件精选65

SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于：增强了文本的准确性与可读性，减少了重复和不自然的放大；改进了布局的一致性与合理性，背景更稳定；提升了图表与示意图的渲染质量；并新增了学术内容的渲染支持。

Hugging Face 图像生成多模态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这个8B信息图生成模型升级了，文本和布局都更稳，对常做数据图表和学术配图的人算个实用的小迭代，没有到改变游戏规则的程度。

00:06

Google Blog：AI（RSS）

61

Google I/O 2026 一文速览：12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻，其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google 产品更新多模态推理

关联讨论 1 条Google Research：Blog（网页）

00:05

Google Gemini@GeminiApp

58

好消息：印度用户现在可以直接使用Gemini Omni上传和编辑视频了！在应用或 http://gemini.google.com 中开始使用： > 上传您的视频 > 告诉Gemini您想要进行的更改 > 享受您的新作品我们迫不及待想看到您的创作！

Google 产品更新多模态视频

1…21 222324 25…50