AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1240 条
全部一手资讯X论文
标签「多模态」清除
6月3日周三
18:39公众号:卡尔的AI沃茨67MiniMax M3发布,全链路Agent能力补全
16:47MarkTechPost(RSS)69NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型
16:09IT之家(RSS)32荣耀确认 Robot Phone 初代抗跌落达旗舰水平,将持续迭代优化三防
14:42HuggingFace Daily Papers(社区热门论文)64PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿
14:09IT之家(RSS)41消息称全球首款机器人手机荣耀 Robot Phone 支持 C-Log、LUTs 等进阶影音创作功能,第三季度发布
12:42HuggingFace Daily Papers(社区热门论文)70精选世界模型与语言模型:论具体推理与抽象推理的互补性
12:06Hacker News 热门(buzzing.cc 中文翻译)51我们如何为RAG建立图像索引
10:41HuggingFace Daily Papers(社区热门论文)68视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力
08:00HuggingFace Daily Papers(社区热门论文)55Imaginative Perception Tokens 增强多模态语言模型的空间推理
08:00HuggingFace Daily Papers(社区热门论文)58BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架
08:00HuggingFace Daily Papers(社区热门论文)62个人相机胶卷视觉问答AI智能体(Camroll-Agent)
08:00HuggingFace Daily Papers(社区热门论文)55VideoKR:面向知识与推理密集型视频理解
08:00HuggingFace Daily Papers(社区热门论文)68Video2LoRA:面向视觉语言模型的参数化视频内化方法
03:41HuggingFace Daily Papers(社区热门论文)64语义运动锚点:弥合协同语音手势中的运动与意义
01:40HuggingFace Daily Papers(社区热门论文)60TVIR:面向文本-视觉交错报告生成的深度研究智能体构建
6月2日周二
20:08IT之家(RSS)582026 世界杯引入多项 AI 技术:足球内置 500Hz 芯片,每秒采集 500 次数据辅助判罚
17:13MarkTechPost(RSS)67阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus
14:40HuggingFace Daily Papers(社区热门论文)68LongLive-RAG:用于长视频生成的通用检索增强框架
12:40HuggingFace Daily Papers(社区热门论文)61在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形
11:40HuggingFace Daily Papers(社区热门论文)61RoboSemanticBench: 诊断VLA模型动作预测中的语义对齐
11:40HuggingFace Daily Papers(社区热门论文)69VLM作为视频推理教师:通过自适应测试时优化实现
10:40HuggingFace Daily Papers(社区热门论文)64X-Stream: 探索MLLM作为多路复用器的多流理解能力
08:00HuggingFace Daily Papers(社区热门论文)50GridVQA-X:评估多模态可解释性方法的框架
08:00HuggingFace Daily Papers(社区热门论文)49文生图模型从文本编码器所需比你想象的少
08:00HuggingFace Daily Papers(社区热门论文)413D视觉菜谱:数据、学习范式与应用
08:00HuggingFace Daily Papers(社区热门论文)56MAOAM:统一对象与材质选择的视觉语言模型框架
08:00HuggingFace Daily Papers(社区热门论文)64免训练多概念LoRA组合:提示词感知加权策略
08:00HuggingFace Daily Papers(社区热门论文)64OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准
08:00HuggingFace Daily Papers(社区热门论文)63多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL
08:00HuggingFace Daily Papers(社区热门论文)56SynCred-Bench:AI生成视觉错误信息的合成可信度基准测试
07:07IT之家(RSS)71阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体
04:41MarkTechPost(RSS)59MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程
01:59公众号:通义实验室(千问)64同事件精选Qwen3.7-Plus 多模态智能体模型发布同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
01:37Qwen:Blog Retrieval(API)81精选Qwen3.7-Plus:多模态智能体模型发布
01:26Google Blog:AI(RSS)42谷歌员工如何使用 Gemini 制作 Google I/O 2026
01:03Hacker News 热门(buzzing.cc 中文翻译)75同事件精选英伟达 Cosmos 3同一事件,精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》
6月1日周一
22:05The Decoder:AI News(RSS)64MiniMax M3:具有百万token上下文窗口的开源权重模型挑战闭源领先者
18:21公众号:腾讯混元46腾讯混元为《和平精英》推出AI明星队友「小田」
17:05IT之家(RSS)29499 元:WIKO AI 萌宠"星仔"发布,华为小艺大模型加持、支持 Wi-Fi+4G
14:04IT之家(RSS)80让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
18:39
公众号:卡尔的AI沃茨
67
MiniMax M3发布,全链路Agent能力补全

MiniMax M3发布,后续将开源。在SWE-Bench Pro上得59.0分,超越GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;终端编程与Opus 4.7持平;多模态OmniDocBench超Gemini 3.1 Pro;自主Agent框架Claw-Eval最高分。新架构MSA将每token计算量压至1/20,百万token上下文预填充快9倍、解码快15倍。支持Dynamic Workflows动态工作流,可调用MiniMax全家桶API。价格:Plus 6亿token 49元/月,Max 18亿token 119元/月,Ultra 55亿token 469元/月。自主运行近12小时产出18次commit、23张实验图表并跑通核心实验。

智能体多模态评测/基准
16:47
MarkTechPost(RSS)
69
NVIDIA发布Cosmos 3:统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。

具身智能多模态开源生态模型发布
16:09
IT之家(RSS)
32
荣耀确认 Robot Phone 初代抗跌落达旗舰水平,将持续迭代优化三防

荣耀发布视频前瞻其新形态手机 Robot Phone,定位为视频影像设备,其核心特征为可翻转的电动三轴云台相机。该相机配备2亿像素传感器,支持 AI 物体追踪与视频剪辑。官方确认,初代产品的抗跌落性能已达旗舰水平,但防水仍有提升空间,将持续迭代优化三防特性。研发过程中,该机前后改了5版,历时一年才打磨出雏形,并计划在2026年第三季度上市。

产品更新多模态
14:42
HuggingFace Daily Papers(社区热门论文)
64
PaddleOCR-VL-1.6:通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。

arXiv多模态数据/训练论文/研究
14:09
IT之家(RSS)
41
消息称全球首款机器人手机荣耀 Robot Phone 支持 C-Log、LUTs 等进阶影音创作功能,第三季度发布

消息称荣耀 Robot Phone 将于今年第三季度上市,定位为“全球首款机器人手机”,主打影音创作。其核心功能包括利用 AI 实现自动追踪主体与全自动运镜,提供大量预设模板。同时支持 C-Log、LUTs 等专业格式,并具备锁焦、锁白平衡、锁 AE 及锁运镜数据等能力。该机此前已宣布与电影摄影机厂商 ARRI 阿莱达成战略合作,其抗跌落性能已达旗舰水平,但防水能力仍有提升空间。

产品更新多模态端侧
12:42
HuggingFace Daily Papers(社区热门论文)
精选70
世界模型与语言模型:论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由:世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
12:06
Hacker News 热门(buzzing.cc 中文翻译)
51
我们如何为RAG建立图像索引

为解决检索增强生成(RAG)系统处理图像时的挑战,Kapa.ai提出了一种方法。他们使用GPT-4 Vision模型为每张图像生成文本描述。处理流程包括将图片压缩至512×512像素并批量生成描述。最终,这些图像描述与元数据一同存入向量数据库。该方法使RAG能够检索图像内容,实现约70%的检索准确率,且成本极低,每张图片处理成本约0.01美元。

检索增强多模态教程/实践部署/工程
10:41
HuggingFace Daily Papers(社区热门论文)
68
视觉状态追踪基准VSTAT:评估多模态大语言模型的视频理解能力

研究者提出了视觉状态追踪基准VSTAT,用于诊断多模态大语言模型在视频理解中持续追踪实体与状态的能力。该基准包含834个来自合成与真实视频的片段,并配有1500个必须通过连续感知才能回答的问题。测试发现,现有顶尖多模态大语言模型在VSTAT上的表现远低于人类,仅略高于随机答案基线。分析表明,模型的文本推理能力尚可,但视觉感知所必需的事件追踪能力存在不足。初步评估也显示,包括智能体在内的现有方法也未能有效解决这一问题。

多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征,使模型能在保持与输入观测一致的前提下,外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL,构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能,在 MVC 上准确率提升 3.4%,在 PT 上与强闭源模型相当,且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号,同时生成可解释的中间表征。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
BRepCLIP:面向CAD理解的BRep原语对比多模态预训练框架

BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
个人相机胶卷视觉问答AI智能体(Camroll-Agent)

研究个人相机胶卷视觉问答场景,AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集,包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体,配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法,揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法,尤其在一致性、视觉细节和用户特定上下文方面。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VideoKR:面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
Video2LoRA:面向视觉语言模型的参数化视频内化方法

Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示,单次前向传播生成LoRA适配器,无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后,同一冻结VLM仅从适配器回答查询,上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中,Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练,但稳定支持1024帧和1024px,将回答时视觉token负载减少最高1500倍,查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。

多模态论文/研究部署/工程
03:41
HuggingFace Daily Papers(社区热门论文)
64
语义运动锚点:弥合协同语音手势中的运动与意义

研究提出“语义运动锚点”方法,用于解决协同语音手势生成与检索中语义理解不足的问题。该方法将3D手势离散化为身体-手部运动原语,并转化为结构化的自然语言描述,作为辅助监督信号锚定于语音文本。在BEAT2数据集上,该方法将文本到手势检索的R@1指标提升了8.2%,并优于现有方法。检索增强的手势生成用户研究显示,该方法检索到的手势在传达交流意图方面明显优于基线。

多模态论文/研究
01:40
HuggingFace Daily Papers(社区热门论文)
60
TVIR:面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题,本文提出了TVIR框架,包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计,负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明,TVIR-Agent表现优异,凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究
6月2日
20:08
IT之家(RSS)
58
2026 世界杯引入多项 AI 技术:足球内置 500Hz 芯片,每秒采集 500 次数据辅助判罚

2026年美加墨世界杯将部署多项AI技术。阿迪达斯官方用球“Trionda”内置500Hz传感器芯片,每秒采集500次数据,与高速摄像机协同构建三维模型。国际足联将为1248名球员建立AI数字分身,通过3D扫描生成虚拟形象以辅助争议判罚。赛事还将首次推出裁判第一视角直播,并推出Football AI Pro知识助手,可解析逾2000项关键指标。

多模态行业动态部署/工程
17:13
MarkTechPost(RSS)
67
阿里巴巴通义千问团队在百炼平台发布 Qwen3.7-Plus

通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。

智能体多模态模型发布
14:40
HuggingFace Daily Papers(社区热门论文)
68
LongLive-RAG:用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归(AR)视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成(RAG)问题,不再仅依赖滑动窗口,而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中,它通过查询嵌入检索相关历史潜在变量,使生成器能够利用非局部上下文。为提升检索效果,框架引入了Window Temporal Delta Loss。实验表明,该框架能提升长视频生成质量,在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究
12:40
HuggingFace Daily Papers(社区热门论文)
61
在Blender中思考:基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序,直接从单张图像重建为可编辑的3D场景,且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”(SEIG)智能体框架,该框架在可执行的Blender代码空间中,通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明,分阶段重建策略显著提升了场景重建的保真度(包括像素级、感知和语义保真度),验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究
11:40
HuggingFace Daily Papers(社区热门论文)
61
RoboSemanticBench: 诊断VLA模型动作预测中的语义对齐

本文提出了RoboSemanticBench,一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中,机器人需要解决多选题,并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现,在控制抓取成功率后,许多模型选择语义正确方块的能力接近或低于随机水平,揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。

具身智能多模态论文/研究
11:40
HuggingFace Daily Papers(社区热门论文)
69
VLM作为视频推理教师:通过自适应测试时优化实现

本研究提出一种新范式,将视觉语言模型的角色从问题“求解者”转变为指导视频生成模型的“教师”。现有VLM作为求解器效果不佳,但其感知能力强,可评估任务规则满足度。新方法利用VLM提取任务规则,构建可微分奖励,并通过测试时在线优化轻量级LoRA模块,引导视频生成模型推理。在VBVR-Bench和RULER-Bench两个视频推理基准上,该方法平均性能提升16.7分,显著优于其他基线方法。

多模态推理视频论文/研究
10:40
HuggingFace Daily Papers(社区热门论文)
64
X-Stream: 探索MLLM作为多路复用器的多流理解能力

专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
GridVQA-X:评估多模态可解释性方法的框架

GridVQA-X是首个专门评估跨模态可解释性的诊断框架。它通过封闭世界合成逻辑生成具有数学保证的解释,并训练了相同架构的对照模型:M_pure(学习稳健的空间关系推理)和M_{spur}(被迫依赖跨模态捷径)。实验发现,现有广泛使用的可解释性方法无法区分这两种模型,无法捕捉真正的跨模态协同,反而可能错误表示多模态模型的实际决策过程,凸显了当前多模态可解释性方法在忠实捕捉跨模态推理方面的关键缺陷。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
49
文生图模型从文本编码器所需比你想象的少

新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。

arXiv图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
3D视觉菜谱:数据、学习范式与应用

该论文提出了一种以数据为中心的3D视觉分类法,将几何表示(点云、网格、体素和3D高斯)、获取管道、数据集设计、基准构建和监督范式统一到单一概念图中。研究分析了2D监督3D学习、隐式神经表示和4D世界建模的最新进展,并厘清了重建、生成和视频建模等下游任务中表示、学习范式与效率-保真度平衡、多模态几何接地之间的关联。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
MAOAM:统一对象与材质选择的视觉语言模型框架

MAOAM是一个统一图像选择框架,通过文本或点击交互精确选择对象和材质。它利用视觉语言模型(VLM)与分割头生成像素级掩码。针对缺少带文本标注的材质选择数据集,作者提出可扩展的数据生成流水线:收集真实与合成图像及材质掩码,用VLM生成富含视觉语义的描述。模型以多任务目标同时训练点击与文本选择,并引入辅助VQA任务加深材质理解。实验表明,MAOAM在多种对象、材质和交互场景下实现准确连贯的选择,且推理时结合文本与点击可产生涌现式提升。

图像生成多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
免训练多概念LoRA组合:提示词感知加权策略

LoRA可个性化文生图模型,但多概念组合时直接叠加会干扰概念,降低质量与保真度。本文提出免训练方法,通过W-Switch与W-Composite两种策略,根据目标提示词中触发token的语义重要性对每个LoRA模块输出加权组合,实现多概念自定义。同时提出基于真实参考图像与自动分割概念区域的图像相似度评估框架。在ComposLoRA测试集上,该方法在视觉质量、身份保持和组合性上一致超越现有方法。LLM评估与用户研究验证有效性。代码已开源。

图像生成多模态开源/仓库论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准

OVO-S-Bench是一个完全人工标注的流式空间智能基准,包含1,680个问题,覆盖348个源视频。标注由12名标注员经过约804人小时的多轮质量审核完成。每个问题带有查询时间戳与证据区间,模型仅能看到查询前的视频前缀。问题分为四个抽象层级:瞬时自我中心感知、时空上下文追踪、空间模拟与推理、以及全中心映射。在38个开源与闭源MLLM上,Gemini-3.1-Pro得分59.2,落后人类专家(86.6)27个百分点,全中心映射是主要瓶颈。流式与空间微调MLLM的表现不及它们的基础模型,且链式推理会在缺乏流式依据时放大空间错误。

多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
63
多模态大语言模型广基线匹配空间推理:ReasonMatch-Bench与DCRL

针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
SynCred-Bench:AI生成视觉错误信息的合成可信度基准测试

SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试,覆盖6种可信形式类别和7种细粒度传播风格,并配有FP450真实图像负集。评估显示,在5%假阳性率约束下,现有系统表现不可靠:15个多模态大语言模型仅达10.5%真阳性率,开源AIGC检测器不足5%,商业API达57.6%,人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。

arXiv多模态安全/对齐论文/研究
07:07
IT之家(RSS)
71
阿里发布 Qwen3.7-Plus 模型,升级多模态交互混合 AI 智能体

阿里通义千问(Qwen)于6月2日发布新模型 Qwen3.7-Plus,定位为多模态交互混合智能体基座。它是 Qwen3.7 的升级版,在保留文本、编码和工具使用能力的基础上,显著强化了视觉理解与视觉推理能力,支持图像、视频、屏幕、网页和文本输入,面向复杂软件与办公流程。该模型在 Vision Arena 评测中帮助阿里进入全球前 5、中国第 1,并在 BabyVision、MathVision 等多模态测试中提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

智能体多模态模型发布
关联讨论 3 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)X:通义千问 / Qwen (@Alibaba_Qwen)
04:41
MarkTechPost(RSS)
59
MiniMax 发布 MiniMax M3:支持 MSA 架构、1M Token 上下文、原生多模态与智能体编程

MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。

智能体多模态模型发布
01:59
公众号:通义实验室(千问)
同事件精选64
Qwen3.7-Plus 多模态智能体模型发布

Qwen3.7-Plus 深度融合视觉与语言,实现“看、想、写、做、验”端到端闭环,在 12 项核心基准测试中表现提升。实测中,基于该模型的智能体连续运行超 11 小时,自动完成英语学习 APP 开发,生成代码超 10000 行、触发调用超 1000 次;复刻 macOS Stocks 应用并通过 10 项功能验证。支持图像/视频转 SVG、视觉驱动网页设计及浏览器自动化。已在阿里云百炼上线,提供 OpenAI 兼容 API 与 Anthropic 协议。

智能体多模态模型发布
同一事件,精选展示《Qwen3.7-Plus:多模态智能体模型发布》
推荐理由:Qwen3.7-Plus 把视觉智能体推到了‘能看、能想、能动手’的端到端闭环,从写代码到操作浏览器一条龙,做自动化 Agent 的团队可以直接拿来用。
01:37
Qwen:Blog Retrieval(API)
精选81
Qwen3.7-Plus:多模态智能体模型发布

阿里云通义千问推出 Qwen3.7-Plus,基于 Qwen3.7 文本骨干,增强视觉语言能力,保留编码、工具使用和生产工作流的智能体能力。它支持感知现实场景、读取并操作 GUI、从视觉参考编写代码、端到端导航手机应用、基于网络知识回答视觉问题,融合 GUI 与 CLI 交互,跨 Claude Code、OpenClaw、Qwen Code 等框架泛化。在 Terminal Bench 2.0-Terminus 得分 70.3,SWE-Verified 77.7,QwenWorldBench 62.1,GPQA Diamond 90.3,MMLU-Pro 88.5。通过阿里云 Model Studio API 提供。

智能体多模态模型发布
关联讨论 3 条X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:Kim (@kimmonismus)X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:Qwen3.7-Plus 把视觉感知、GUI 操作和编码能力整合进同一个 agent 模型,在 ScreenSpot 和浏览器操作上的提升很实在,做自动化的开发者值得上手试试。
01:26
Google Blog:AI(RSS)
42
谷歌员工如何使用 Gemini 制作 Google I/O 2026

本文介绍了谷歌员工使用 Gemini 模型来制作 2026 年的 Google I/O 开发者大会。

Google图像生成多模态教程/实践
01:03
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选75
英伟达 Cosmos 3

英伟达发布了 Cosmos 3,这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客,发布日期为 2026 年 6 月 1 日。

具身智能多模态模型发布
同一事件,精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》
推荐理由:Cosmos 3 把物理推理、世界生成和行动生成塞进一个开源模型,从机器人到自动驾驶都能用,英伟达这次是真的想定义物理 AI 的训练范式。
6月1日
22:05
The Decoder:AI News(RSS)
64
MiniMax M3:具有百万token上下文窗口的开源权重模型挑战闭源领先者

中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。

多模态模型发布编码
18:21
公众号:腾讯混元
46
腾讯混元为《和平精英》推出AI明星队友「小田」

腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架,为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力,并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆,玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿,单日活跃峰值1770万,玩家麦克风开启率75%。

智能体产品更新多模态
17:05
IT之家(RSS)
29
499 元:WIKO AI 萌宠"星仔"发布,华为小艺大模型加持、支持 Wi-Fi+4G
产品更新多模态
14:04
IT之家(RSS)
80
让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。

具身智能多模态开源生态模型发布
关联讨论 8 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)
‹ 上一页
1…910111213…31
下一页 ›