AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1243 条
全部一手资讯X论文
标签「多模态」清除
6月1日周一
18:21公众号:腾讯混元46腾讯混元为《和平精英》推出AI明星队友「小田」
17:05IT之家(RSS)29499 元:WIKO AI 萌宠"星仔"发布,华为小艺大模型加持、支持 Wi-Fi+4G
14:04IT之家(RSS)80让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3
13:36Hugging Face:Blog(RSS)75NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型
13:04IT之家(RSS)66英伟达推出 Alpamayo 2 Super 开源推理模型,助力 L4 自动驾驶研发
11:39MiniMax:Blog(网页)83精选MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型
10:28IT之家(RSS)71精选上海:支持多模态智能体开发与应用,有序推进智能驾驶在共享出行、物流运输等多场景应用
09:28IT之家(RSS)70首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态
09:23公众号:MiniMax(稀宇科技)65MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力
08:28Hacker News 热门(buzzing.cc 中文翻译)64Meta 推出 Instagram、Facebook 和 WhatsApp 的订阅服务
08:00HuggingFace Daily Papers(社区热门论文)69自动驾驶的未来:KITScenes多模态数据集
08:00HuggingFace Daily Papers(社区热门论文)52AdaCodec:用于视频多模态大模型的预测性视觉编码
08:00HuggingFace Daily Papers(社区热门论文)75Cosmos 3:面向物理AI的全模态世界模型
08:00HuggingFace Daily Papers(社区热门论文)64AutoMedBench:面向医疗自主研究的智能体AI模型基准测试
08:00HuggingFace Daily Papers(社区热门论文)57PlatonicNav:用柏拉图拓扑地图揭示导航中的语义对应
5月31日周日
08:00HuggingFace Daily Papers(社区热门论文)65SkillVerse多模态技能范式与VisSkillBot:AI智能体的技能应超越纯文本
08:00HuggingFace Daily Papers(社区热门论文)70精选ChartArena:跨语言、场景与格式的图表解析基准测试
08:00HuggingFace Daily Papers(社区热门论文)533DCodeBench:基于代码的程序化3D建模智能体评测基准
08:00HuggingFace Daily Papers(社区热门论文)59HakushoBench:基于日本政府白皮书的图表与表格VQA基准测试发布
08:00HuggingFace Daily Papers(社区热门论文)70精选定位何处:基础模型能否通过主动探索达到目标视角
05:49MarkTechPost(RSS)572026年最佳文本转语音(TTS)模型:基于基准测试的对比
5月30日周六
21:16The Verge:AI(RSS)73精选AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品
16:44The Decoder:AI News(RSS)62Meta泄露备忘录揭示AI吊坠、超感知眼镜及企业可穿戴设备战略
11:21IT之家(RSS)62英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象
10:21IT之家(RSS)41宏碁推出 AR Vision GR0 与 GI0 智能眼镜,前者配 Micro OLED 屏
08:00HuggingFace Daily Papers(社区热门论文)54SuperMemory-VQA:面向长时记忆的自我中心视觉问答基准
08:00HuggingFace Daily Papers(社区热门论文)62UniKE:面向统一多模态模型的跨模态知识编辑基准
08:00HuggingFace Daily Papers(社区热门论文)65RoboStressBench:面向具身场景物理视觉压力的VLM鲁棒性基准测试
07:32HuggingFace Daily Papers(社区热门论文)61为何远处看向上方:探查视觉语言模型中的空间表征
05:48MarkTechPost(RSS)59阶跃星辰发布 Step 3.7 Flash:一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型
02:14The Decoder:AI News(RSS)47Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞
01:38Google Blog:AI(RSS)74同事件精选Gemini Omni 与 Gemini 3.5 的 11 个实战展示同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
00:30HuggingFace Daily Papers(社区热门论文)69小而可信:时间序列异常检测的高效视觉语言推理
00:30HuggingFace Daily Papers(社区热门论文)64DynaFLIP:通过三模态动态引导表示重新思考机器人感知
00:15TechCrunch:AI(RSS)38Kiwibot 的 AI 驱动智能喂鸟器是我的新后院伙伴
5月29日周五
23:13Qwen:Blog Retrieval(API)66精选Qwen-VLA:从理解世界到付诸行动
21:30HuggingFace Daily Papers(社区热门论文)61EarlyTom:早期Token压缩实现快速视频理解
17:44公众号:通义实验室(千问)64精选通义实验室发布教程:在 Android 手机部署 MCP 感知服务器
17:21IT之家(RSS)74精选小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来"
16:30HuggingFace Daily Papers(社区热门论文)60PhyGenHOI:动态人-物交互的物理感知4D生成
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
18:21
公众号:腾讯混元
46
腾讯混元为《和平精英》推出AI明星队友「小田」

腾讯混元多模态数字人团队基于Hy3 preview模型和GameMate1.0框架,为《和平精英》推出代言人田曦薇形象的AI队友「小田」。该角色具备战局感知、独立决策能力,并实现对话情感化回应、动态策略推理与主动协同作战。基于大模型长文记忆,玩家可生成由Image3.0制作的专属图文记忆。该AI队友累计体验用户突破1.1亿,单日活跃峰值1770万,玩家麦克风开启率75%。

智能体产品更新多模态
17:05
IT之家(RSS)
29
499 元:WIKO AI 萌宠"星仔"发布,华为小艺大模型加持、支持 Wi-Fi+4G
产品更新多模态
14:04
IT之家(RSS)
80
让机器人看懂世界:英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。

具身智能多模态开源生态模型发布
关联讨论 8 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
13:36
Hugging Face:Blog(RSS)
75
NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布
关联讨论 8 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
13:04
IT之家(RSS)
66
英伟达推出 Alpamayo 2 Super 开源推理模型,助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作(VLA)模型,参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注,专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩,部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布
11:39
MiniMax:Blog(网页)
精选83
MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型,具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口,并采用名为MSA(MiniMax Sparse Attention)的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20,预填充速度提升9倍以上,解码速度提升15倍以上。在SWE-Bench Pro编码基准上,MiniMax M3得分59.0%,超越GPT-5.5和Gemini 3.1 Pro,性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
推荐理由:MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上,还附带 1M 上下文和原生多模态,这是开源社区真正能打的前沿选项,做 Agent 的值得立刻跑一下。
10:28
IT之家(RSS)
精选71
上海:支持多模态智能体开发与应用,有序推进智能驾驶在共享出行、物流运输等多场景应用

上海市人民政府办公厅印发《上海市服务业发展“十五五”规划》,提出发展AI软件技术及服务产业集群。规划支持多模态智能体开发与应用,推动智能客服等工具规模化;有序推进智能驾驶在共享出行、物流运输等多场景应用;做强算运存协同布局的智算云网络,推广模型即服务(MaaS);并支持开发面向家庭、养老、文旅等场景的具身智能整机产品,加速机器人向通用智能与精细化服务跃升。

智能体多模态政策/监管

推荐理由:这份上海“十五五”规划相当于一份AI落地指南,多模态智能体、无人驾驶物流、具身智能都点到了,虽非重磅突破,但给在沪AI公司画出了清晰的增长路线。
09:28
IT之家(RSS)
70
首个三项能力兼备的国产旗舰模型:MiniMax M3 发布,百万上下文、原生多模态

MiniMax 发布旗舰大语言模型 M3,宣称是首个同时具备编码与智能体能力、百万上下文与原生多模态的国产模型。模型基于自研 MSA 架构,API 上下文窗口最高支持 1M tokens,保障至少 512K 可用。在 BrowseComp 智能体评测中,M3 以 83.5 分超越 Opus 4.7(79.3)。官方提供 M3 与 M3-highspeed 两个版本 API,标准版定价为输入 2.1 元、输出 8.4 元/百万 tokens(上下文≤512K,限时五折),并即将在 HuggingFace 与 GitHub 开源。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
09:23
公众号:MiniMax(稀宇科技)
65
MiniMax M3 发布:1M 上下文、原生多模态、前沿编程与 Agent 能力

MiniMax M3 今日发布,采用自研 MSA 稀疏注意力架构,支持 1M 上下文窗口,100 万上下文下每 token 计算量仅为上代 1/20,prefilling 加速超 9 倍,decoding 加速超 15 倍。它是原生多模态模型,支持图片、视频输入及 Computer Use。Coding 与 Agent 能力在 SWE-Bench Pro(59.0%)、Terminal Bench 2.1(66.0%)等基准达到前沿水平。M3 是国内首个同时具备 1M 上下文、原生多模态、前沿编程与 Agent 能力的开源模型。API 已开放,按上下文分两档计价,上线首 7 天 512k 及以下 5 折。同步推出 MiniMax Code Agent 与 Token Plan 订阅(¥49/月起)。预计 10 天内发布技术报告并开源模型权重。

智能体多模态推理模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)
08:28
Hacker News 热门(buzzing.cc 中文翻译)
64
Meta 推出 Instagram、Facebook 和 WhatsApp 的订阅服务

Meta 推出针对 Instagram、Facebook 和 WhatsApp 的付费订阅服务,并表示未来将扩展更多订阅产品,其中包含 AI 相关计划。

Meta图像生成多模态行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
69
自动驾驶的未来:KITScenes多模态数据集

KITScenes Multimodal是一个欧洲自动驾驶多模态数据集,传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素(含红绿灯)以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市,补充地理多样性。同时推出四个基准:在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。

arXiv具身智能多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
52
AdaCodec:用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码,仅在场景难以从先前上下文预测时向参考帧分配完整视觉token,否则将帧间变化(运动与预测残差)编码为紧凑的P-tokens。在全部11项基准测试中,AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下,使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线;在五项通用视频基准上平均得分提升,同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
75
Cosmos 3:面向物理AI的全模态世界模型

NVIDIA 发布 Cosmos 3 全模态世界模型家族,基于统一混合 Transformer 架构,联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架,在多项理解与生成任务上达到新 SOTA。技术报告撰写时,后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型,被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源(Linux Foundation OpenMDW-1.1 许可)。

具身智能多模态开源生态论文/研究
关联讨论 8 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
08:00
HuggingFace Daily Papers(社区热门论文)
64
AutoMedBench:面向医疗自主研究的智能体AI模型基准测试

AutoMedBench 是一个工作流感知的基准测试,用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务,组织智能体执行统一的五阶段工作流:规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道,每个任务设有Lite与Standard两个难度级别,单次运行平均包含33个智能体回合。结果表明,验证阶段是当前智能体最薄弱的环节,而设置阶段表现最强。错误分析显示,验证与提交失败分别占37.7%和38.1%,任务理解错误仅占0.9%;出现错误代码的运行总分平均比无错误运行低48%。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
PlatonicNav:用柏拉图拓扑地图揭示导航中的语义对应

本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口,并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图,融合自监督视觉编码器的几何与语义节点距离,并通过盲目匹配来定位语言目标,无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明,PlatonicNav在无需显式跨模态训练的情况下,实现了跨任务、跨模态和跨具身的泛化能力。

具身智能多模态论文/研究
5月31日
08:00
HuggingFace Daily Papers(社区热门论文)
65
SkillVerse多模态技能范式与VisSkillBot:AI智能体的技能应超越纯文本

现有AI智能体的可复用技能多以纯文本形式存储,这在视觉中心任务中构成了瓶颈。研究提出了SkillVerse多模态技能范式,将声明式文本逻辑与显式视觉支持相结合,包含静态先验、动态先验和交错视觉技能三种可复用形式。配套系统VisSkillBot能自动将智能体经验转化为可复用的多模态技能。实验表明,视觉技能在需要空间对应、视觉证据和状态感知交互的GUI等任务中,持续优于纯文本技能。

智能体MCP/工具多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
ChartArena:跨语言、场景与格式的图表解析基准测试

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程,并设计了格式无关的评估协议,将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示,前沿闭源模型如Gemini 3.1 Pro领先,开源系统正快速追赶;文档解析模型在数字图表上表现尚可,但在图表结构上明显不足;专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

GitHub多模态论文/研究评测/基准

推荐理由:ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片,终于能测出 MLLM 在真实文档场景下的真实水平,做文档解析的团队该认真看一下。
08:00
HuggingFace Daily Papers(社区热门论文)
53
3DCodeBench:基于代码的程序化3D建模智能体评测基准

本文提出了3DCodeBench,一个系统性基准,用于评估视觉语言模型(VLM)智能体在3D建模软件中通过生成代码进行程序化3D建模的能力。该基准评估了12个先进VLMs将文本和图像参考转换为程序化代码的效果,并建立了基于人类偏好的排名平台3DCodeArena。研究发现,主要失败源于API不匹配,而测试时扩展(如提高思考预算和多轮精炼)能提升性能。研究强调了高质量程序化编码数据和稳健执行环境对推进VLM能力的重要性。该工作公开发布了基准数据集、评估协议与3DCodeArena平台。

智能体arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
HakushoBench:基于日本政府白皮书的图表与表格VQA基准测试发布

HakushoBench是一个日语图表与表格视觉问答基准测试,由33份日本政府白皮书构建而成,包含2053张图像和人工标注的问答对,涵盖超过10种图像类型,旨在评估视觉语言模型对复杂文档的深度理解能力。实验表明,当前开源模型在此基准上仍面临挑战,最佳开源模型的准确率仅为58.6%,而开源与闭源专有模型之间存在34.9分的性能差距。该数据集与代码已开源。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
精选70
定位何处:基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务(TVR)与模拟基准TVRBench,评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%,瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架,视觉动作SFT将9B开源模型成功率提升至50.8%,多轮GRPO进一步达到51.4%,为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv具身智能多模态论文/研究

推荐理由:主动探索视角是具身智能的关键短板,这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码,做空间智能的可以直接拿来跑。
05:49
MarkTechPost(RSS)
57
2026年最佳文本转语音(TTS)模型:基于基准测试的对比

文章对2026年领先的商用与开源权重文本转语音(TTS)模型进行了排名对比。评估维度包括语音质量、延迟、成本、语言覆盖范围及许可协议,旨在帮助工程师根据具体应用场景选择合适的模型。

多模态评测/基准语音
5月30日
21:16
The Verge:AI(RSS)
精选73
AI 骗子正在创建虚假的黑人形象来销售 Shein 劣质商品

有卖家利用 AI 生成虚假的黑人形象,在 TikTok、Facebook 和 Instagram 上扮演手工制品创作者进行销售。例如一个名为 Aliyah 的 AI 生成形象,以带泪诉说的方式售卖所谓手工皮带扣,但该形象及其产品均为虚构。此类 AI 虚拟网红被用于推广通过代发货模式销售的批量生产品。

图像生成多模态现象/趋势

推荐理由:AI生成的虚拟黑人卖家在TikTok上哭着卖假货,The Verge这篇调查把AI黑产里最脏的那面扒给你看,做社交电商的尤其该点开读。
16:44
The Decoder:AI News(RSS)
62
Meta泄露备忘录揭示AI吊坠、超感知眼镜及企业可穿戴设备战略

Meta在AI领域投入数十亿美元但商业回报有限,开源策略与研究成果未达预期。公司战略重心转向AI硬件,内部备忘录曝光其开发AI吊坠、超感知眼镜及企业可穿戴设备等产品计划。

Meta多模态端侧行业动态
11:21
IT之家(RSS)
62
英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象

英伟达联合香港理工大学、南京大学推出 LocateAnything 模型,专为机器人感知与 AI 智能体设计,可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术,提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上,混合模式速度达 12.7 Boxes Per Second,超过 Qwen3-VL(1.1 BPS)与 Rex-Omni(5.0 BPS)。在 LVIS(IoU=0.95)评测中得分 31.1,高于 Rex-Omni 的 20.7。

具身智能多模态论文/研究
10:21
IT之家(RSS)
41
宏碁推出 AR Vision GR0 与 GI0 智能眼镜,前者配 Micro OLED 屏
Google产品更新多模态
08:00
HuggingFace Daily Papers(社区热门论文)
54
SuperMemory-VQA:面向长时记忆的自我中心视觉问答基准

SuperMemory-VQA 是一个用于评估 AI 助手长期记忆能力的自我中心 VQA 数据集,包含 52.9 小时 AI 眼镜日常活动记录,同步 RGB 视频、音频转录、眼动追踪、IMU 和 SLAM 轨迹。经人工验证的标注流程生成了 4853 个接地问答对,覆盖物体/位置记忆、意图回忆、视觉场景重构、时间线重建、对话记忆和上下文检索,每题均为多项选择并含“不可回答”选项以测试抗幻觉能力。对主流智能体和大语言模型的基准测试显示,现有系统在真实世界记忆任务上远未可靠,需设计仅当证据充分时才作答的接地 AI 记忆架构。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
62
UniKE:面向统一多模态模型的跨模态知识编辑基准

UniKE是首个针对统一多模态模型(UMMs)的跨模态知识编辑基准,包含2971个属性与关系编辑主题。VQA验证显示,文本侧编辑准确率约92%,但图像生成最佳整体VQA准确率仅18.5%,存在明显模态差距。提出的推理增强参数编辑方法在生成前显式激活已编辑知识,使整体VQA准确率提升最多18.6个百分点。机制分析表明,该差距源于编辑后文本表示与图像生成条件路径的对齐不足。文本知识编辑无法可靠跨模态迁移,需开发模态感知的编辑方法。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
RoboStressBench:面向具身场景物理视觉压力的VLM鲁棒性基准测试

RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发,将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估,揭示了特定压力下的失败模式,并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外,研究还引入了一种压力感知智能体求解器,它能在推理前检测视觉压力源并调用视觉编辑技能,以提升模型在复杂场景中的鲁棒性。

具身智能多模态论文/研究评测/基准
07:32
HuggingFace Daily Papers(社区热门论文)
61
为何远处看向上方:探查视觉语言模型中的空间表征

视觉语言模型(VLMs)在空间推理基准上表现优异,但其理解是否基于真正的3D结构尚不明确。研究通过构建对比嵌入对进行表征分析,发现多个模型族存在一致的“垂直距离纠缠”现象,即模型将图像垂直位置与空间距离混淆,这模仿了自然照片的透视偏差。该偏差导致模型在透视一致与反直觉案例间准确率差距显著,且随数据规模扩大而加剧,即使基准分数提升。分析还表明,基准分数相似的模型可能具有不同的内部表征,这能预测其在不同任务中的准确率与鲁棒性。为隔离数据集偏差,团队推出了合成基准SpatialTunnel,实验证实该纠缠是模型固有属性,空间轴分离度更高的模型表现更鲁棒。

多模态推理论文/研究
05:48
MarkTechPost(RSS)
59
阶跃星辰发布 Step 3.7 Flash:一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash,这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力,支持 256k 上下文窗口,并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码
02:14
The Decoder:AI News(RSS)
47
Google 修复了多个导致配额消耗过快的 Gemini 使用限制漏洞

一个漏洞导致 Google Gemini 应用中的 Omni 视频仅一两个就会消耗完整个使用配额。Google 已修复该漏洞,Ultra 订阅用户现在获得双倍的视频生成次数,失败的请求也不再计入配额消耗。此外,Google 计划围绕其他使用情况增加更多透明度。

Google产品更新多模态视频
01:38
Google Blog:AI(RSS)
同事件精选74
Gemini Omni 与 Gemini 3.5 的 11 个实战展示

Google 在 2026 年 Google I/O 大会上发布了新一代多模态模型 Gemini Omni 与 Gemini 3.5,并同步提供了 11 个视频,集中演示了这两款模型在实际场景中的能力。

Google多模态模型发布视频
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 官方放出的这组视频演示,直接展示了 Gemini Omni 和 3.5 的实际表现,比参数和 benchmark 更直观,做多模态应用的可以逐帧研究。
00:30
HuggingFace Daily Papers(社区热门论文)
69
小而可信:时间序列异常检测的高效视觉语言推理

针对大语言模型或多模态模型在时间序列异常检测中表现不佳的问题,研究者构建了高质量基准VisAnomBench。该基准基于公开时间序列数据集,并利用多个大型视觉语言模型的输出进行了增强。基于此,他们开发了参数高效的视觉语言模型VisAnomReasoner,专用于该任务。实验显示,VisAnomReasoner在VisAnomBench上的异常定位更准确,精确度和F1值分别比所有基线模型高出至少21.23和23.87个百分点。在TSB-AD-U基准上的额外实验也验证了其出色的跨基准泛化能力,精确度和F1值分别提升了9.57和13.39个百分点。

arXiv多模态论文/研究
00:30
HuggingFace Daily Papers(社区热门论文)
64
DynaFLIP:通过三模态动态引导表示重新思考机器人感知

DynaFLIP 是一个动力学感知的多模态预训练框架,旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号,以单纯形体积最小化为核心思想,结合余弦正则化与对比学习目标,优化单一图像编码器在共享超球面空间中的对齐。分析表明,该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络,在多种下游策略(包括视觉语言动作模型)中均优于基线。在分布外场景下,性能提升高达 +22.5%。

具身智能多模态论文/研究
00:15
TechCrunch:AI(RSS)
38
Kiwibot 的 AI 驱动智能喂鸟器是我的新后院伙伴

Kiwibot 推出一款 AI 驱动的智能喂鸟器,用户可以通过配套应用记录并收集遇到的鸟类物种,玩法类似在 Pokémon 中收集宝可梦。

多模态端侧评测/基准
5月29日
23:13
Qwen:Blog Retrieval(API)
精选66
Qwen-VLA:从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布
关联讨论 2 条HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)
推荐理由:Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型,在多个基准上打平甚至超越专用模型,这是通用具身智能的一个重要信号,但离实际可用还有距离。
21:30
HuggingFace Daily Papers(社区热门论文)
61
EarlyTom:早期Token压缩实现快速视频理解

视频大语言模型在视频理解中能力强,但处理海量视觉token效率低下。现有方案多在预填充后期压缩,未优化视觉编码器本身。研究指出视觉编码对时间首token(TTFT)延迟贡献大,因此压缩应提前。为此提出EarlyTom,一个免训练的压缩框架,它在视觉编码器内部执行早期视觉token压缩,并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时,EarlyTom将TTFT最高降低2.65倍,FLOPs减少高达61%,同时保持与全token基线相当的准确度,提升了部署实用性。

多模态论文/研究部署/工程
17:44
公众号:通义实验室(千问)
精选64
通义实验室发布教程:在 Android 手机部署 MCP 感知服务器

通义实验室发布教程,演示如何在 Android 手机上部署 MCP 感知服务器,使手机具备本地视觉与听觉分析能力。核心基于端侧 MNN 推理引擎和 Qwen3-VL 2B 模型(约 1.3GB),摄像头与麦克风采集的音视频在本地实时转化为结构化 JSON,再通过 MCP Tool 供 Claude Code 等云端 Agent 远程调用。整个过程不上传原始数据,仅传输语义提取结果。项目已开源,实测可识别红绿灯状态等场景。

MCP/工具多模态教程/实践端侧

推荐理由:如果你做Agent总觉得AI对物理世界是瞎子,这篇教程就是解药。把Qwen3-VL塞进手机当本地眼睛,不传原始视频只给结构化文字,隐私友好又能被Claude直接调用。
17:21
IT之家(RSS)
精选74
小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来"

小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。

多模态开源生态模型发布语音

推荐理由:小米开源的 ControlFoley 把视频音效生成从“看画面配声音”推进到“按意图来”,开源 SOTA 且直接提供 Skill,做视频创作的可以上手试试。
16:30
HuggingFace Daily Papers(社区热门论文)
60
PhyGenHOI:动态人-物交互的物理感知4D生成

PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。

arXiv具身智能多模态论文/研究
‹ 上一页
1…1011121314…32
下一页 ›