全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1237 条

全部一手资讯 X 论文

标签「多模态」清除

6月15日周一

08:00HuggingFace Daily Papers（社区热门论文）47TV-Edit：文本-视觉联合指导的图像编辑框架

07:40IT之家（RSS）44科大讯飞AI眼镜开启预售：支持122种语言翻译，4299元

6月14日周日

22:14The Decoder：AI News（RSS）45微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

22:00公众号：昆仑万维（天工）43昆仑万维公布Matrix-Game 3.5技术突破：状态与动作联合训练

16:37IT之家（RSS）36长安汽车总经理赵非：蓝鲸超擎混动量产中，天枢智能66项功能上车

08:00HuggingFace Daily Papers（社区热门论文）51SpatialAvatar-0：多阶段重建的高质量4D头部头像

01:04The Decoder：AI News（RSS）38新AI模型"Count Anything"可对任意图像中的物体进行计数

6月13日周六

19:36IT之家（RSS）45长安汽车发布"天枢领航"自研辅助驾驶系统：长安启源 Q06 将全系搭载、9月上市

18:36IT之家（RSS）63科大讯飞发布星火多模态大模型 X2-VL，当前唯一基于全国产算力训练的主流大模型

18:36IT之家（RSS）42京东健康与北京友谊医院共建消化系统专科大模型，应用胃肠镜早癌筛查

17:54公众号：通义实验室（千问）79精选MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

17:54公众号：火山引擎47TVB×火山引擎达成深度合作，以Seedance 2.0共探华语影视AI新路径

15:36IT之家（RSS）57首尔禁止中小学生戴AI眼镜参加期末考试，违者按作弊处理

13:17蚂蚁 inclusionAI：HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

13:17蚂蚁 inclusionAI：HuggingFace 新模型71inclusionAI/VISTA-9B：基于VISTA训练的GUI定位视觉语言模型

10:36IT之家（RSS）56苹果高管介绍 iOS 27 版照片 3 大 AI 功能：让 iPhone 17 等用户获得"超能力"

08:00HuggingFace Daily Papers（社区热门论文）44SAGA：利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

08:00HuggingFace Daily Papers（社区热门论文）54Visual-Seeker：一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体

08:00HuggingFace Daily Papers（社区热门论文）40MotionVLA：面向人形运动的视觉-语言-动作模型

6月12日周五

20:18HuggingFace Daily Papers（社区热门论文）56IndustryBench-MIPU：面向工业产品的多图像属性提取基准

18:00HuggingFace Daily Papers（社区热门论文）60ArogyaSutra：面向印度语言多模态医疗推理的多智能体框架

17:35IT之家（RSS）69商汤开源 SenseNova U1 图文交错生成增强版模型：支持多页连续创作，角色风格不"跑偏"

17:00HuggingFace Daily Papers（社区热门论文）73精选HYDRA-X：原生统一多模态模型与整体视觉分词器

16:35IT之家（RSS）55华为 AI 眼镜 × 小艺看世界官宣 8 月上线，辅助视障用户探索世界

16:26MarkTechPost（RSS）53Zyphra 发布 Zamba2-VL：混合 Mamba2-Transformer 视觉语言模型，首 token 延迟降低约一个数量级

12:34IT之家（RSS）66阿里云创始人王坚：AI 对科研的影响，与对程序员的冲击逻辑一致

11:00HuggingFace Daily Papers（社区热门论文）58SpatialClaw：重新思考智能体空间推理的动作接口

11:00HuggingFace Daily Papers（社区热门论文）55VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

11:00HuggingFace Daily Papers（社区热门论文）63InterleaveThinker：强化智能体交错生成管线

10:34IT之家（RSS）75精选苹果 iOS 27 健康 App 大改：卡片布局、营养识别、围绝经期追踪

08:00HuggingFace Daily Papers（社区热门论文）64MVEB：大规模视频嵌入基准

08:00HuggingFace Daily Papers（社区热门论文）43Memento：通过主体重建实现长视频一致性生成

08:00HuggingFace Daily Papers（社区热门论文）53RepFusion：利用多模态先验在表示空间中降噪

08:00HuggingFace Daily Papers（社区热门论文）51ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

08:00HuggingFace Daily Papers（社区热门论文）54LLM 智能体能够查看代码仓库

08:00HuggingFace Daily Papers（社区热门论文）48VISTA：基于视图一致的自验证训练实现GUI定位

08:00HuggingFace Daily Papers（社区热门论文）43OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

00:52TechCrunch：AI（RSS）67Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐

00:26The Decoder：AI News（RSS）57Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐

6月11日周四

22:59HuggingFace Daily Papers（社区热门论文）59Reroute：面向视觉语言模型的可恢复视觉Token路由方法

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月15日

08:00

HuggingFace Daily Papers（社区热门论文）

47

TV-Edit：文本-视觉联合指导的图像编辑框架

TV-Edit 联合文本与视觉指令，以文本作为语义意图、稀疏视觉指令（拖拽/点）作为空间指导，实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集，将视觉指令与图像-文本语义融合为语义感知控制表征，输入预训练编辑骨干。相比纯文本或纯拖拽方法，空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估，TV-Edit 在多编辑骨干上一致优于 SOTA 基线。

图像生成多模态论文/研究

07:40

IT之家（RSS）

44

科大讯飞AI眼镜开启预售：支持122种语言翻译，4299元

科大讯飞AI眼镜6月15日在京东开启预售，定价4299元（部分地区国补后低至3369元），重40克。搭载讯飞端到端语音同传大模型，支持122种语言（含方言、口音）翻译，覆盖通话翻译、线上同传、同声传译（8米全向拾音）、面对面翻译（18语种离线）、视觉翻译等六大场景。内置GlassClaw AI助理，支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页，并提供多种近视镜片选配。

产品更新多模态语音

6月14日

22:14

The Decoder：AI News（RSS）

45

微软研究院 Mirage：赋予视频生成持久空间记忆，不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中，而非基于像素的点云。这大幅降低了计算时间和图形显存消耗，同时能在长镜头移动中保持场景空间一致性。不过，该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft 多模态视频论文/研究

22:00

公众号：昆仑万维（天工）

43

昆仑万维公布Matrix-Game 3.5技术突破：状态与动作联合训练

昆仑万维Skywork首席科学家刘扬在智源大会上提出“状态与动作联合训练”框架，并首次公布Matrix-Game 3.5核心技术：从游戏场景向真实场景扩展，支持多风格动态切换、指令控制及NPC交互，记忆机制采用三维空间块匹配替代历史帧拼接，并用PRoPE机制替代额外参数注入。Matrix-Game 3.0已实现5B参数蒸馏模型在720P分辨率下40FPS实时生成。团队构建了包含500万+视频切片、1万+训练小时的数据引擎。3.5计划于2026年7月发布。

产品更新多模态

16:37

IT之家（RSS）

36

长安汽车总经理赵非：蓝鲸超擎混动量产中，天枢智能66项功能上车

长安汽车总经理赵非在2026中国汽车重庆论坛上透露，蓝鲸超擎混动已量产，天枢智能66项功能批量上车。蓝鲸超擎动力首发500bar超高压直喷混动发动机，热效率近45%，电机效率突破98%，最高转速20000转/分钟，电池放电功率80kW，电机最大功率180kW。自研辅助驾驶系统“天枢领航”分三版：Pro标配激光雷达，提前2秒识别障碍物，响应快150毫秒；Max基于超2000万条人驾数据训练，通勤效率提升20%；Ultra搭载VLM大模型，未来推出驾驶员失能主动守护。

产品更新多模态端侧

08:00

HuggingFace Daily Papers（社区热门论文）

51

SpatialAvatar-0：多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示，结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度；精化阶段冻结 FLAME 绑定与高斯数量，以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中，PSNR 超越领域内领先模型 GAGAvatar 1.5 dB；在 SplattingAvatar 单目基准上，所有指标均领先，PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB，且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究

01:04

The Decoder：AI News（RSS）

38

新AI模型"Count Anything"可对任意图像中的物体进行计数

“Count Anything”是一个新AI模型，仅通过文本提示即可对任意类型图像（如人群、显微镜下细胞样本）中的物体进行计数。对比测试显示，其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。

多模态模型发布

6月13日

19:36

IT之家（RSS）

45

长安汽车发布"天枢领航"自研辅助驾驶系统：长安启源 Q06 将全系搭载、9月上市

长安汽车在重庆车展发布自研辅助驾驶系统“天枢领航”，分Pro、Max、Ultra三个版本。Pro版全系标配激光雷达，弱光场景比人眼提前2秒识别障碍物，系统响应速度提升150毫秒。Max版基于超2000万条人驾数据切片训练，高频通勤场景通行效率提升20%。Ultra版搭载VLM视觉语言大模型，实现可交互辅助驾驶，未来还将推出驾驶员失能主动守护功能。长安启源Q06将全系搭载该系统，计划今年9月上市。

产品更新多模态端侧

18:36

IT之家（RSS）

63

科大讯飞发布星火多模态大模型 X2-VL，当前唯一基于全国产算力训练的主流大模型

6月13日，科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练，采用专属MoE架构。面向高中各科图文结合试题，答题准确率近95%；挑战2026年高考数学全国I卷获148分，高于对比模型A-E（144、143、137、145、142分）。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布

18:36

IT之家（RSS）

42

京东健康与北京友谊医院共建消化系统专科大模型，应用胃肠镜早癌筛查

6月13日，京东健康与北京友谊医院宣布合作，共建消化系统专科大模型，重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进：共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下，大模型融入消化内科诊疗全流程，开展实时智能筛查、病灶识别、风险研判，并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上，提供全天候健康咨询、症状初筛、居家指导，为慢性胃肠病患者搭建全病程管理体系，并输出权威科普内容。

多模态行业动态部署/工程

17:54

公众号：通义实验室（千问）

精选79

MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集，使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%，Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计，默认开启 SME2 加速。该模型为 4B 参数视觉语言模型，支持图文理解和对话，通过 MNN 官方已转换量化的模型可直接下载部署，开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由：这是一份硬核的端侧部署指南，实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%，做移动端 AI 的团队可以直接抄作业。

17:54

公众号：火山引擎

47

TVB×火山引擎达成深度合作，以Seedance 2.0共探华语影视AI新路径

6月12日，TVB与火山引擎达成合作，围绕豆包视频生成模型Seedance 2.0，在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室，以AI短剧为契机，利用Seedance 2.0的视频生成能力，通过输入提示词快速生成动画分镜、场景参考等素材，辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品，支持其构建混合云架构，推动媒体内容生产、存储、分发环节的云化升级。

多模态行业动态视频

15:36

IT之家（RSS）

57

首尔禁止中小学生戴AI眼镜参加期末考试，违者按作弊处理

首尔市教育厅6月12日通知，禁止考生戴AI智能眼镜参加期末考试，携带即按作弊处理。AI眼镜集成摄像头、麦克风与生成式人工智能，可传递答案。通知列出识别特征：镜腿粗厚、末端厚重，含电池、主板、隐藏摄像头等。监考需留意反复触碰镜框的学生。今年早些，两名韩国考生在托业考试中用AI眼镜作弊，成绩作废且禁考4年。韩国教育部考虑在11月CSAT高考中将AI眼镜单独列入禁带清单。

多模态政策/监管

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

精选62

inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型，输入截图与自然语言指令，输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上，SSPro 得分 64.2（相比 GRPO-4B 提升 2.0），SSV2 得分 93.8（下降 0.4），OSWorld-G 得分 61.2（提升 1.3），OSWorld-G-R 得分 69.7（提升 0.5）。模型已开源在 HuggingFace，推荐使用提示词并返回 [x,y] 格式坐标。

智能体 Hugging Face 多模态模型发布

推荐理由：蚂蚁 inclusionAI 开源了一款 GUI 定位模型，基于 Qwen3.5 微调，在接地基准上小幅提升，关键是提供了自验证训练方法，做桌面自动化的可以直接下载用。

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

71

inclusionAI/VISTA-9B：基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型，输入截图与自然语言指令，输出0-1000归一化坐标。采用VISTA（视图一致自验证）方法，含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分，超越Qwen3.5-9B与GRPO-9B基线。模型已开源，可通过HuggingFace加载使用。

智能体 Hugging Face 多模态模型发布

10:36

IT之家（RSS）

56

苹果高管介绍 iOS 27 版照片 3 大 AI 功能：让 iPhone 17 等用户获得"超能力"

iOS 27 版照片应用引入三项 AI 功能。空间重构（Spatial Reframing）支持拍摄后调整透视角度改善构图，仅在透视移动区域生成新内容。扩图（Extend）可将画面向外扩展最多 25%，且仅限执行一次。清理（Clean Up）可移除更复杂的干扰物并保持原始场景真实性。苹果高管表示这些功能让普通用户获得专业级修图能力。

产品更新多模态

08:00

HuggingFace Daily Papers（社区热门论文）

44

SAGA：利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型（MLLM）能描述图像间的属性差异用于类别预测，但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化（GRPO）奖励冻结MLLM对编码器token的正确预测，迫使编码器编码具体匹配或差异属性，替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失，推理时丢弃MLLM，部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中，SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

Visual-Seeker：一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体

Visual-Seeker 是一种视觉原生多模态深度搜索智能体，通过主动视觉推理而非将视觉视为静态输入，动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线，合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上，Visual-Seeker 达到最先进性能，甚至超越部分闭源模型。代码和数据集已开源。

智能体 GitHub 多模态搜索

08:00

HuggingFace Daily Papers（社区热门论文）

40

MotionVLA：面向人形运动的视觉-语言-动作模型

MotionVLA 基于 Qwen3.5，采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流，通过 DCT 截断和 BPE 独立压缩，并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上，仅 2B 参数轻量级骨干即实现：HumanML3D 多样性差距降低超 50%，MBench 运动条件一致性提升 3.8%，证明频率感知双流解耦对自回归运动生成的有效性。

具身智能多模态论文/研究

6月12日

20:18

HuggingFace Daily Papers（社区热门论文）

56

IndustryBench-MIPU：面向工业产品的多图像属性提取基准

IndustryBench-MIPU是首个大规模多图像工业产品理解基准，聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注，通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示：单图像属性提取精度达86–94%，但产品级多图像召回最高仅49.9%；从单图像转向多图像提取时，召回率下降15–34个百分点。多图像完整性是核心瓶颈，而非单图像准确率。数据集与代码已公开。

arXiv 多模态论文/研究评测/基准

18:00

HuggingFace Daily Papers（社区热门论文）

60

ArogyaSutra：面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情，研究团队构建了ArogyaBodha数据集，包含8个异构来源、31个身体系统、6种成像模态、21个临床领域，覆盖英语和7种主要印度语言。同时提出ArogyaSutra，一个基于Actor-Critic的多智能体框架，集成工具接地与双记忆机制，实现逐步推理感知决策，并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明，该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究

17:35

IT之家（RSS）

69

商汤开源 SenseNova U1 图文交错生成增强版模型：支持多页连续创作，角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化，支持绘本、故事书、多页 PPT 等连续内容创作，解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善，以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face 图像生成多模态模型发布

17:00

HuggingFace Daily Papers（社区热门论文）

精选73

HYDRA-X：原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建，并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中，源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行，提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv 多模态视频论文/研究

推荐理由：HYDRA-X 第一次把图像和视频标记塞进同一个 ViT，光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价，做多模态模型的该读读。

16:35

IT之家（RSS）

55

华为 AI 眼镜 × 小艺看世界官宣 8 月上线，辅助视障用户探索世界

在华为开发者大会 HDC 2026 上，华为终端 BG CEO 何刚宣布，华为 AI 眼镜与小艺看世界深度联动，将于 8 月上线，辅助视障用户探索世界。小艺看世界功能此前已支持实时语音与视频对话，可调用天气、日历等系统服务，在穿搭建议、景点介绍等场景实现边看边聊边思考。

产品更新多模态端侧

16:26

MarkTechPost（RSS）

53

Zyphra 发布 Zamba2-VL：混合 Mamba2-Transformer 视觉语言模型，首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型，包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构，基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时，首 token 生成时间（time-to-first-token）缩短约一个数量级。

多模态开源生态推理模型发布

12:34

IT之家（RSS）

66

阿里云创始人王坚：AI 对科研的影响，与对程序员的冲击逻辑一致

2026 第八届北京智源大会上，之江实验室主任、阿里云创始人王坚指出，人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码，具备了区分语言文本与代码文本的能力。他认为，AI 改变程序员工作方式后，所有科学数据都会因 AI 被重新理解，科研人员受到冲击的逻辑与程序员一致。

多模态大佬观点

11:00

HuggingFace Daily Papers（社区热门论文）

58

SpatialClaw：重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架，采用代码作为动作接口，维护预加载输入帧和感知几何原语的状态化 Python 内核，让 VLM 驱动的智能体逐步编写可执行代码单元，灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%，比近期空间智能体提升 11.2 个百分点，且在不做基准或模型适配的情况下，在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

55

VideoMDM： Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架，从单目视频的精确2D姿态训练3D人体运动先验，无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师，经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上，VideoMDM几乎缩小了与完全3D监督MDM的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，生成的运动获得人类一致偏好。

多模态视频论文/研究

11:00

HuggingFace Daily Papers（社区热门论文）

63

InterleaveThinker：强化智能体交错生成管线

InterleaveThinker 提出多智能体管线，通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令，使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动，并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward，使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当；在 4-step FLUX.2-klein 推理基准上，WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理

10:34

IT之家（RSS）

精选75

苹果 iOS 27 健康 App 大改：卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App，将列表改为卡片布局并增加导航栏。新增视觉智能营养识别，用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级，不提供精确卡路里，需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期，可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升，GymKit 扩展至 iPhone，无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由：视觉智能营养识别不能给精确卡路里，但那个“深度加工食品”提醒对普通人很实用，健康App这次更新算得上近年最有用了。

08:00

HuggingFace Daily Papers（社区热门论文）

64

MVEB：大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准，涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导：基于MLLM的嵌入在分类、聚类、对分类和问答上领先；多模态绑定方法在检索和零样本分类上领先；缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明，音频的贡献取决于数据标注来源：标签来自双模态时音频有帮助，仅来自视觉时则有害，差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池，在降低评估成本的同时保持任务多样性，并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub 多模态视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

Memento：通过主体重建实现长视频一致性生成

长视频生成中，主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题，联合训练自回归下一镜头生成与基于记忆的主体重建，利用历史记忆和全局描述恢复外观；双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

RepFusion：利用多模态先验在表示空间中降噪

RepFusion复用多模态大语言模型（MLLM）作为噪声表示编码器，将其输出作为扩散Transformer的条件信号，用于文本到图像生成的去噪过程。在类似推理预算的对比中，RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明，MLLM为降噪视觉表示提供强先验，通过条件于演化的噪声表示，可以在现代T2I系统中有效利用测试时的重复MLLM计算。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型（MLLM）的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例，每个实例都带有结构化的推理追踪，分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预，可测量修正特定阶段对最终答案的影响。实验表明，追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台，并已公开提供。

arXiv GitHub 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

54

LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本；将仓库结构视觉图作为文本界面的补充模态，可使输入 token 消耗降低最多 26%，同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路，用于下一代编码智能体。

智能体 arXiv 多模态编码

08:00

HuggingFace Daily Papers（社区热门论文）

48

VISTA：基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时，单视图采样会导致困难实例全失败、简单实例全成功，无法产生有效相对优势。VISTA提出GRPO训练框架，从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点，使用优势加权损失优化Oracle答案，不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上，VISTA一致提升精度：ScreenSpot-Pro上，Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题，提出自动数据引擎，包含实体锚定视频脚本化（生成摘要、主实体列表和片段描述）和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后，OmniVideo-Test性能最高提升20.59%，在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究

00:52

TechCrunch：AI（RSS）

67

Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐

Deezer 推出了一款工具，能够扫描 Spotify、Apple Music 及其他平台的播放列表，识别其中由 AI 生成的音乐。

产品更新多模态

00:26

The Decoder：AI News（RSS）

57

Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐

Deezer 推出一款免费 AI 音乐检测器，用户可在任何主流流媒体平台上检查自己的播放列表中是否混入了 AI 生成的歌曲。

产品更新多模态

6月11日

22:59

HuggingFace Daily Papers（社区热门论文）

59

Reroute：面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型（VLM）将图像投影为大量视觉token，导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式，但token重要性随解码器深度变化，早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块，将永久移除替换为可恢复路由：被延迟的token绕过当前解码阶段，在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明，Reroute在激进token压缩下提升了grounding能力，同时保持通用VQA性能。

多模态推理论文/研究

1…4 567 8…31