AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1237 条
全部一手资讯X论文
标签「多模态」清除
6月15日周一
08:00HuggingFace Daily Papers(社区热门论文)47TV-Edit:文本-视觉联合指导的图像编辑框架
07:40IT之家(RSS)44科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元
6月14日周日
22:14The Decoder:AI News(RSS)45微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"
22:00公众号:昆仑万维(天工)43昆仑万维公布Matrix-Game 3.5技术突破:状态与动作联合训练
16:37IT之家(RSS)36长安汽车总经理赵非:蓝鲸超擎混动量产中,天枢智能66项功能上车
08:00HuggingFace Daily Papers(社区热门论文)51SpatialAvatar-0:多阶段重建的高质量4D头部头像
01:04The Decoder:AI News(RSS)38新AI模型"Count Anything"可对任意图像中的物体进行计数
6月13日周六
19:36IT之家(RSS)45长安汽车发布"天枢领航"自研辅助驾驶系统:长安启源 Q06 将全系搭载、9月上市
18:36IT之家(RSS)63科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型
18:36IT之家(RSS)42京东健康与北京友谊医院共建消化系统专科大模型,应用胃肠镜早癌筛查
17:54公众号:通义实验室(千问)79精选MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理
17:54公众号:火山引擎47TVB×火山引擎达成深度合作,以Seedance 2.0共探华语影视AI新路径
15:36IT之家(RSS)57首尔禁止中小学生戴AI眼镜参加期末考试,违者按作弊处理
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
10:36IT之家(RSS)56苹果高管介绍 iOS 27 版照片 3 大 AI 功能:让 iPhone 17 等用户获得"超能力"
08:00HuggingFace Daily Papers(社区热门论文)44SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架
08:00HuggingFace Daily Papers(社区热门论文)54Visual-Seeker:一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体
08:00HuggingFace Daily Papers(社区热门论文)40MotionVLA:面向人形运动的视觉-语言-动作模型
6月12日周五
20:18HuggingFace Daily Papers(社区热门论文)56IndustryBench-MIPU:面向工业产品的多图像属性提取基准
18:00HuggingFace Daily Papers(社区热门论文)60ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架
17:35IT之家(RSS)69商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"
17:00HuggingFace Daily Papers(社区热门论文)73精选HYDRA-X: 原生统一多模态模型与整体视觉分词器
16:35IT之家(RSS)55华为 AI 眼镜 × 小艺看世界官宣 8 月上线,辅助视障用户探索世界
16:26MarkTechPost(RSS)53Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级
12:34IT之家(RSS)66阿里云创始人王坚:AI 对科研的影响,与对程序员的冲击逻辑一致
11:00HuggingFace Daily Papers(社区热门论文)58SpatialClaw:重新思考智能体空间推理的动作接口
11:00HuggingFace Daily Papers(社区热门论文)55VideoMDM: Towards 3D Human Motion Generation From 2D Supervision
11:00HuggingFace Daily Papers(社区热门论文)63InterleaveThinker:强化智能体交错生成管线
10:34IT之家(RSS)75精选苹果 iOS 27 健康 App 大改:卡片布局、营养识别、围绝经期追踪
08:00HuggingFace Daily Papers(社区热门论文)64MVEB:大规模视频嵌入基准
08:00HuggingFace Daily Papers(社区热门论文)43Memento:通过主体重建实现长视频一致性生成
08:00HuggingFace Daily Papers(社区热门论文)53RepFusion:利用多模态先验在表示空间中降噪
08:00HuggingFace Daily Papers(社区热门论文)51ClinHallu:用于诊断医疗MLLM推理中阶段性幻觉的基准测试
08:00HuggingFace Daily Papers(社区热门论文)54LLM 智能体能够查看代码仓库
08:00HuggingFace Daily Papers(社区热门论文)48VISTA:基于视图一致的自验证训练实现GUI定位
08:00HuggingFace Daily Papers(社区热门论文)43OmniVideo-100K:通过结构化脚本和证据链进行视听推理的数据集
00:52TechCrunch:AI(RSS)67Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐
00:26The Decoder:AI News(RSS)57Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐
6月11日周四
22:59HuggingFace Daily Papers(社区热门论文)59Reroute:面向视觉语言模型的可恢复视觉Token路由方法
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月15日
08:00
HuggingFace Daily Papers(社区热门论文)
47
TV-Edit:文本-视觉联合指导的图像编辑框架

TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。

图像生成多模态论文/研究
07:40
IT之家(RSS)
44
科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元

科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。

产品更新多模态语音
6月14日
22:14
The Decoder:AI News(RSS)
45
微软研究院 Mirage:赋予视频生成持久空间记忆,不遗忘"转角后的场景"

微软研究院与多所高校联合开发的视频世界模型 Mirage 将场景信息直接存储在潜在空间中,而非基于像素的点云。这大幅降低了计算时间和图形显存消耗,同时能在长镜头移动中保持场景空间一致性。不过,该模型目前仍无法可靠地跨片段跟踪运动物体。

Microsoft多模态视频论文/研究
22:00
公众号:昆仑万维(天工)
43
昆仑万维公布Matrix-Game 3.5技术突破:状态与动作联合训练

昆仑万维Skywork首席科学家刘扬在智源大会上提出“状态与动作联合训练”框架,并首次公布Matrix-Game 3.5核心技术:从游戏场景向真实场景扩展,支持多风格动态切换、指令控制及NPC交互,记忆机制采用三维空间块匹配替代历史帧拼接,并用PRoPE机制替代额外参数注入。Matrix-Game 3.0已实现5B参数蒸馏模型在720P分辨率下40FPS实时生成。团队构建了包含500万+视频切片、1万+训练小时的数据引擎。3.5计划于2026年7月发布。

产品更新多模态
16:37
IT之家(RSS)
36
长安汽车总经理赵非:蓝鲸超擎混动量产中,天枢智能66项功能上车

长安汽车总经理赵非在2026中国汽车重庆论坛上透露,蓝鲸超擎混动已量产,天枢智能66项功能批量上车。蓝鲸超擎动力首发500bar超高压直喷混动发动机,热效率近45%,电机效率突破98%,最高转速20000转/分钟,电池放电功率80kW,电机最大功率180kW。自研辅助驾驶系统“天枢领航”分三版:Pro标配激光雷达,提前2秒识别障碍物,响应快150毫秒;Max基于超2000万条人驾数据训练,通勤效率提升20%;Ultra搭载VLM大模型,未来推出驾驶员失能主动守护。

产品更新多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
51
SpatialAvatar-0:多阶段重建的高质量4D头部头像

SpatialAvatar-0 提出基于 FLAME-mesh 约束的高斯表示,结合前馈生成器与 10K 迭代布局保持的逐主体精化循环。前馈阶段采用无参数 K 源均值池化及单目-时序到多视图-空间两阶段调度;精化阶段冻结 FLAME 绑定与高斯数量,以三组件抗尖峰正则化替代密集化。在 VFHQ/HDTF 跨域零样本测试中,PSNR 超越领域内领先模型 GAGAvatar 1.5 dB;在 SplattingAvatar 单目基准上,所有指标均领先,PSNR 超越 300K 迭代的 GeoAvatar 1.3 dB,且逐主体调度周期比常见 SOTA 基线快 60 倍。

多模态视频论文/研究
01:04
The Decoder:AI News(RSS)
38
新AI模型"Count Anything"可对任意图像中的物体进行计数

“Count Anything”是一个新AI模型,仅通过文本提示即可对任意类型图像(如人群、显微镜下细胞样本)中的物体进行计数。对比测试显示,其错误率比此前系统降低一半。但该模型在处理极密集物体和模糊术语时仍存在困难。

多模态模型发布
6月13日
19:36
IT之家(RSS)
45
长安汽车发布"天枢领航"自研辅助驾驶系统:长安启源 Q06 将全系搭载、9月上市

长安汽车在重庆车展发布自研辅助驾驶系统“天枢领航”,分Pro、Max、Ultra三个版本。Pro版全系标配激光雷达,弱光场景比人眼提前2秒识别障碍物,系统响应速度提升150毫秒。Max版基于超2000万条人驾数据切片训练,高频通勤场景通行效率提升20%。Ultra版搭载VLM视觉语言大模型,实现可交互辅助驾驶,未来还将推出驾驶员失能主动守护功能。长安启源Q06将全系搭载该系统,计划今年9月上市。

产品更新多模态端侧
18:36
IT之家(RSS)
63
科大讯飞发布星火多模态大模型 X2-VL,当前唯一基于全国产算力训练的主流大模型

6月13日,科大讯飞在长三角机器人及自动化展览会上发布星火多模态大模型X2-VL。该模型基于全国产算力平台太湖星跃训练,采用专属MoE架构。面向高中各科图文结合试题,答题准确率近95%;挑战2026年高考数学全国I卷获148分,高于对比模型A-E(144、143、137、145、142分)。科大讯飞已在无锡高新区成立子公司负责日常运营。

多模态推理模型发布
18:36
IT之家(RSS)
42
京东健康与北京友谊医院共建消化系统专科大模型,应用胃肠镜早癌筛查

6月13日,京东健康与北京友谊医院宣布合作,共建消化系统专科大模型,重点应用于胃肠镜早癌筛查、疾病诊断等场景。双方将在三个层面推进:共建高质量数据集、联合研发专病大模型、推动线上线下双场景落地。线下,大模型融入消化内科诊疗全流程,开展实时智能筛查、病灶识别、风险研判,并提供诊疗参考、用药预警、病历整理等辅助工具及智能导诊等便民服务。线上,提供全天候健康咨询、症状初筛、居家指导,为慢性胃肠病患者搭建全病程管理体系,并输出权威科普内容。

多模态行业动态部署/工程
17:54
公众号:通义实验室(千问)
精选79
MNN 适配 SME2 使 Qwen3-VL-4B 在端侧实时推理

MNN 推理引擎深度适配 Arm SME2 指令集,使 Qwen3-VL-4B-Instruct 在支持 SME2 的 vivo X300 上实现实时多模态推理。Prefill 阶段性能提升 81%,Decode 阶段提升 13%。MNN 采用编译时内建 + 运行时自动检测设计,默认开启 SME2 加速。该模型为 4B 参数视觉语言模型,支持图文理解和对话,通过 MNN 官方已转换量化的模型可直接下载部署,开发者可通过编译开关一键开启硬件加速。

多模态教程/实践端侧

推荐理由:这是一份硬核的端侧部署指南,实测数据让 Qwen3-VL 在 SME2 手机上 Prefill 提速超过 80%,做移动端 AI 的团队可以直接抄作业。
17:54
公众号:火山引擎
47
TVB×火山引擎达成深度合作,以Seedance 2.0共探华语影视AI新路径

6月12日,TVB与火山引擎达成合作,围绕豆包视频生成模型Seedance 2.0,在影视内容智能化生产、短剧制作、IP商业化及云基础设施等领域展开探索。双方将协同TVB旗下FF工作室,以AI短剧为契机,利用Seedance 2.0的视频生成能力,通过输入提示词快速生成动画分镜、场景参考等素材,辅助编剧与导演在剧本开发、后期制作中验证创意。火山引擎将为TVB提供虚拟机、对象存储、视频云、CDN等云产品,支持其构建混合云架构,推动媒体内容生产、存储、分发环节的云化升级。

多模态行业动态视频
15:36
IT之家(RSS)
57
首尔禁止中小学生戴AI眼镜参加期末考试,违者按作弊处理

首尔市教育厅6月12日通知,禁止考生戴AI智能眼镜参加期末考试,携带即按作弊处理。AI眼镜集成摄像头、麦克风与生成式人工智能,可传递答案。通知列出识别特征:镜腿粗厚、末端厚重,含电池、主板、隐藏摄像头等。监考需留意反复触碰镜框的学生。今年早些,两名韩国考生在托业考试中用AI眼镜作弊,成绩作废且禁考4年。韩国教育部考虑在11月CSAT高考中将AI眼镜单独列入禁带清单。

多模态政策/监管
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
10:36
IT之家(RSS)
56
苹果高管介绍 iOS 27 版照片 3 大 AI 功能:让 iPhone 17 等用户获得"超能力"

iOS 27 版照片应用引入三项 AI 功能。空间重构(Spatial Reframing)支持拍摄后调整透视角度改善构图,仅在透视移动区域生成新内容。扩图(Extend)可将画面向外扩展最多 25%,且仅限执行一次。清理(Clean Up)可移除更复杂的干扰物并保持原始场景真实性。苹果高管表示这些功能让普通用户获得专业级修图能力。

产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
44
SAGA:利用冻结多模态大语言模型训练视觉编码器的语义属性梯度框架

多模态大语言模型(MLLM)能描述图像间的属性差异用于类别预测,但现有视觉编码器仅依赖标量类标签监督。SAGA框架采用组相对策略优化(GRPO)奖励冻结MLLM对编码器token的正确预测,迫使编码器编码具体匹配或差异属性,替代均匀标量监督。结合辅助注意力蒸馏损失与度量学习损失,推理时丢弃MLLM,部署成本与基线一致。在CUB-200-2011、Cars-196、FGVC-Aircraft和iNaturalist Aves的零样本图像检索中,SAGA将Recall@1提升3到6个百分点。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Visual-Seeker:一种通过主动视觉推理实现的视觉原生多模态深度搜索智能体

Visual-Seeker 是一种视觉原生多模态深度搜索智能体,通过主动视觉推理而非将视觉视为静态输入,动态收集细粒度视觉证据以完成多跳跨模态搜索。研究人员设计了主动视觉推理数据流水线,合成了 5K 高质量多模态轨迹用于模型训练。在五个具有挑战性的多模态搜索基准上,Visual-Seeker 达到最先进性能,甚至超越部分闭源模型。代码和数据集已开源。

智能体GitHub多模态搜索
08:00
HuggingFace Daily Papers(社区热门论文)
40
MotionVLA:面向人形运动的视觉-语言-动作模型

MotionVLA 基于 Qwen3.5,采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流,通过 DCT 截断和 BPE 独立压缩,并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上,仅 2B 参数轻量级骨干即实现:HumanML3D 多样性差距降低超 50%,MBench 运动条件一致性提升 3.8%,证明频率感知双流解耦对自回归运动生成的有效性。

具身智能多模态论文/研究
6月12日
20:18
HuggingFace Daily Papers(社区热门论文)
56
IndustryBench-MIPU:面向工业产品的多图像属性提取基准

IndustryBench-MIPU是首个大规模多图像工业产品理解基准,聚焦结构化属性提取——从产品图像中恢复属性-值对。基准涵盖18个工业类别、4,559个产品、27,652张图像和103,703条标注,通过多模型共识与三级质量审核构建。在9个多模态大语言模型上的评估显示:单图像属性提取精度达86–94%,但产品级多图像召回最高仅49.9%;从单图像转向多图像提取时,召回率下降15–34个百分点。多图像完整性是核心瓶颈,而非单图像准确率。数据集与代码已公开。

arXiv多模态论文/研究评测/基准
18:00
HuggingFace Daily Papers(社区热门论文)
60
ArogyaSutra:面向印度语言多模态医疗推理的多智能体框架

为应对印度农村患者用本土语言和医学影像表达复杂病情,研究团队构建了ArogyaBodha数据集,包含8个异构来源、31个身体系统、6种成像模态、21个临床领域,覆盖英语和7种主要印度语言。同时提出ArogyaSutra,一个基于Actor-Critic的多智能体框架,集成工具接地与双记忆机制,实现逐步推理感知决策,并利用存储的Actor-Critic仿真轨迹进行知识蒸馏。实验表明,该数据集与框架在所有印度语言上均提升了多语言医疗推理准确性。源代码与数据集已开源。

智能体多模态开源/仓库论文/研究
17:35
IT之家(RSS)
69
商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face图像生成多模态模型发布
17:00
HuggingFace Daily Papers(社区热门论文)
精选73
HYDRA-X: 原生统一多模态模型与整体视觉分词器

HYDRA-X 是首个在单个 Vision Transformer (ViT) 中统一图像与视频 tokenization 的统一多模态模型。通过帧级因果时间注意力实现视觉重建,并采用层级时间压缩替代单步压缩。轻量级解压器在联合图像-视频教师监督下上采样时间压缩特征。编辑管线中,源-目标交互在分词器内部潜在层面而非 LLM 语义层面进行,提升编辑一致性与收敛速度。7B 密集模型在图像与视频理解及生成任务上表现强劲。

arXiv多模态视频论文/研究

推荐理由:HYDRA-X 第一次把图像和视频标记塞进同一个 ViT,光看设计了帧级时序注意力和分层压缩这两个小 tricks 就值回票价,做多模态模型的该读读。
16:35
IT之家(RSS)
55
华为 AI 眼镜 × 小艺看世界官宣 8 月上线,辅助视障用户探索世界

在华为开发者大会 HDC 2026 上,华为终端 BG CEO 何刚宣布,华为 AI 眼镜与小艺看世界深度联动,将于 8 月上线,辅助视障用户探索世界。小艺看世界功能此前已支持实时语音与视频对话,可调用天气、日历等系统服务,在穿搭建议、景点介绍等场景实现边看边聊边思考。

产品更新多模态端侧
16:26
MarkTechPost(RSS)
53
Zyphra 发布 Zamba2-VL:混合 Mamba2-Transformer 视觉语言模型,首 token 延迟降低约一个数量级

Zyphra 推出 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三种参数规模。采用混合 Mamba2 状态空间与 Transformer 骨干架构,基于 Apache 2.0 许可证开源。在保持与同类 Transformer VLM 相当性能的同时,首 token 生成时间(time-to-first-token)缩短约一个数量级。

多模态开源生态推理模型发布
12:34
IT之家(RSS)
66
阿里云创始人王坚:AI 对科研的影响,与对程序员的冲击逻辑一致

2026 第八届北京智源大会上,之江实验室主任、阿里云创始人王坚指出,人工智能对科学研究的影响已发生质变。核心在于 AI 从只能理解文本发展到能理解多模态数据和代码,具备了区分语言文本与代码文本的能力。他认为,AI 改变程序员工作方式后,所有科学数据都会因 AI 被重新理解,科研人员受到冲击的逻辑与程序员一致。

多模态大佬观点
11:00
HuggingFace Daily Papers(社区热门论文)
58
SpatialClaw:重新思考智能体空间推理的动作接口

SpatialClaw 是无需训练的空间推理框架,采用代码作为动作接口,维护预加载输入帧和感知几何原语的状态化 Python 内核,让 VLM 驱动的智能体逐步编写可执行代码单元,灵活组合分析感知结果。在 20 个静态和动态 3D/4D 空间推理基准上平均准确率达 59.9%,比近期空间智能体提升 11.2 个百分点,且在不做基准或模型适配的情况下,在六个 VLM 骨干上均取得一致提升。

智能体多模态推理论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
55
VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

VideoMDM是一个基于扩散的框架,从单目视频的精确2D姿态训练3D人体运动先验,无需3D真值。它利用预训练的2D-to-3D提升器提供近似3D序列作为噪声教师,经扩散和去噪后重投影到2D并与准确关键点对比以监督训练。理论证明深度加权的2D重投影损失在期望上等价于直接3D监督。在HumanML3D基准上,VideoMDM几乎缩小了与完全3D监督MDM的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,生成的运动获得人类一致偏好。

多模态视频论文/研究
11:00
HuggingFace Daily Papers(社区热门论文)
63
InterleaveThinker:强化智能体交错生成管线

InterleaveThinker 提出多智能体管线,通过规划智能体组织图像-文本输入序列、批评智能体评估生成结果并修正指令,使任意现有图像生成器具备交错生成能力。构建 Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 数据集进行冷启动,并利用 GRPO 在 Interleave-Critic-RL-13k 上强化批评智能体的逐步指令修正。提出 accuracy reward 和 step-wise reward,使单步强化学习有效引导整个生成轨迹。在交错生成基准上性能与 Nano Banana 和 GPT-5 相当;在 4-step FLUX.2-klein 推理基准上,WISE 和 RISE 指标显著提升。

智能体图像生成多模态推理
10:34
IT之家(RSS)
精选75
苹果 iOS 27 健康 App 大改:卡片布局、营养识别、围绝经期追踪

苹果在 iOS 27 中优化健康 App,将列表改为卡片布局并增加导航栏。新增视觉智能营养识别,用户通过相机 Siri 模式拍摄食物可获取加工程度、蛋白质、含糖量等信息及营养价值评级,不提供精确卡路里,需 iPhone 15 Pro 及以上。经期追踪扩展支持围绝经期,可分析长期周期异常模式并推送提醒与指导。Fitness+ 新增围绝经期和绝经期课程。数据同步速度提升,GymKit 扩展至 iPhone,无需 Apple Watch 即可与健身设备配对同步数据。

产品更新多模态端侧

推荐理由:视觉智能营养识别不能给精确卡路里,但那个“深度加工食品”提醒对普通人很实用,健康App这次更新算得上近年最有用了。
08:00
HuggingFace Daily Papers(社区热门论文)
64
MVEB:大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准,涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导:基于MLLM的嵌入在分类、聚类、对分类和问答上领先;多模态绑定方法在检索和零样本分类上领先;缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明,音频的贡献取决于数据标注来源:标签来自双模态时音频有帮助,仅来自视觉时则有害,差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池,在降低评估成本的同时保持任务多样性,并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub多模态视频评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
43
Memento:通过主体重建实现长视频一致性生成

长视频生成中,主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题,联合训练自回归下一镜头生成与基于记忆的主体重建,利用历史记忆和全局描述恢复外观;双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
RepFusion:利用多模态先验在表示空间中降噪

RepFusion复用多模态大语言模型(MLLM)作为噪声表示编码器,将其输出作为扩散Transformer的条件信号,用于文本到图像生成的去噪过程。在类似推理预算的对比中,RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明,MLLM为降噪视觉表示提供强先验,通过条件于演化的噪声表示,可以在现代T2I系统中有效利用测试时的重复MLLM计算。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
ClinHallu:用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型(MLLM)的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例,每个实例都带有结构化的推理追踪,分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预,可测量修正特定阶段对最终答案的影响。实验表明,追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台,并已公开提供。

arXivGitHub多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
54
LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本;将仓库结构视觉图作为文本界面的补充模态,可使输入 token 消耗降低最多 26%,同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路,用于下一代编码智能体。

智能体arXiv多模态编码
08:00
HuggingFace Daily Papers(社区热门论文)
48
VISTA:基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时,单视图采样会导致困难实例全失败、简单实例全成功,无法产生有效相对优势。VISTA提出GRPO训练框架,从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点,使用优势加权损失优化Oracle答案,不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上,VISTA一致提升精度:ScreenSpot-Pro上,Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
OmniVideo-100K:通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题,提出自动数据引擎,包含实体锚定视频脚本化(生成摘要、主实体列表和片段描述)和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后,OmniVideo-Test性能最高提升20.59%,在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究
00:52
TechCrunch:AI(RSS)
67
Deezer 新工具可识别来自 Spotify、Apple Music 等平台的 AI 音乐

Deezer 推出了一款工具,能够扫描 Spotify、Apple Music 及其他平台的播放列表,识别其中由 AI 生成的音乐。

产品更新多模态
00:26
The Decoder:AI News(RSS)
57
Deezer 免费工具让用户在任意流媒体服务上检测播放列表中的 AI 音乐

Deezer 推出一款免费 AI 音乐检测器,用户可在任何主流流媒体平台上检查自己的播放列表中是否混入了 AI 生成的歌曲。

产品更新多模态
6月11日
22:59
HuggingFace Daily Papers(社区热门论文)
59
Reroute:面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型(VLM)将图像投影为大量视觉token,导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式,但token重要性随解码器深度变化,早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块,将永久移除替换为可恢复路由:被延迟的token绕过当前解码阶段,在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明,Reroute在激进token压缩下提升了grounding能力,同时保持通用VQA性能。

多模态推理论文/研究
‹ 上一页
1…45678…31
下一页 ›