AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1235 条
全部一手资讯X论文
标签「多模态」清除
6月17日周三
16:07IT之家(RSS)35未来 Galaxy 手机可拍照检测宠物健康,三星和初创公司 Lifet 合作
13:05IT之家(RSS)50依视路陆逊梯卡与应用材料合作开发下一代智能眼镜 AR 光学系统
12:05xAI:News(网页)73同事件精选xAI 发布 Grok Imagine Video 1.5同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
11:56Hacker News 热门(buzzing.cc 中文翻译)76精选Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能
11:41公众号:昆仑万维(天工)55天工3.1发布:Skywork Design与Dynamic Workflows上线
11:03IT之家(RSS)45Viture 发布工业安全眼镜 Helix:搭载英伟达 XR 人工智能技术,起售价 600 美元
10:33HuggingFace Daily Papers(社区热门论文)50UniAR:共享语境-视觉分词器是实现统一的关键
10:33HuggingFace Daily Papers(社区热门论文)52ActWorld:通过动作感知记忆从可探索走向可交互的世界模型
08:03IT之家(RSS)62谷歌推送 Android 17 正式版,深度集成 AI 功能
08:03IT之家(RSS)55XREAL 发布 Aura XR 眼镜,搭载 Android XR 与 Gemini 大模型
08:00HuggingFace Daily Papers(社区热门论文)49PerceptionDLM:基于多模态扩散语言模型的并行区域感知
08:00HuggingFace Daily Papers(社区热门论文)48LooseControlVideo:利用空间阻挡实现导演级视频控制
07:02IT之家(RSS)55Snap 旗下首款面向普通消费者的 AR 眼镜 Specs 发布:电致变色镜片、无需外接计算单元,2195 美元
02:23TechCrunch:AI(RSS)57Android 17 正式版发布,新增多任务工具并扩展 Gemini 功能
01:23The Verge:AI(RSS)58高通发布 Snapdragon Reality Elite 芯片,强化智能眼镜性能
00:53MarkTechPost(RSS)76同事件精选Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
6月16日周二
17:00IT之家(RSS)42全球一半高端眼镜产自深圳,形成"技术 - 制造 - 市场 - 政策"闭环
16:28HuggingFace Daily Papers(社区热门论文)45MMDiff:将冻结扩散Transformer扩展为多模态生成系统
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
14:27HuggingFace Daily Papers(社区热门论文)53PermaVid:通过解耦上下文记忆实现编辑间一致的视频生成
12:39Qwen:Blog Retrieval(API)72精选Qwen-RobotWorld:具身智能体的无界世界
11:27HuggingFace Daily Papers(社区热门论文)52UniDDT:解耦扩散Transformer统一多模态理解与生成
11:27HuggingFace Daily Papers(社区热门论文)40TuneJury:开放的音乐生成偏好对齐奖励模型
11:27HuggingFace Daily Papers(社区热门论文)45BRDFusion:物理与生成融合的城市场景逆渲染框架
11:27HuggingFace Daily Papers(社区热门论文)55VisualClaw:面向物理世界的实时个性化多模态智能体
08:00HuggingFace Daily Papers(社区热门论文)39超越NL2Code:多模态代码智能结构化综述
08:00HuggingFace Daily Papers(社区热门论文)50MaineCoon:首个实时音频-视频社交世界模型
08:00HuggingFace Daily Papers(社区热门论文)40SR-REAL:空间视觉语言模型的双路径推理增强
08:00HuggingFace Daily Papers(社区热门论文)44信任正确的教师:面向GUI Grounding的质量感知自蒸馏
6月15日周一
23:49IT之家(RSS)69MiniMax M3 模型正式开源:原生多模态、百万上下文
23:01公众号:MiniMax(稀宇科技)76同事件精选MiniMax 开源 M3 模型权重及 MSA 技术论文同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:18TechCrunch:AI(RSS)66Loft Orbital卫星首次在轨使用视觉语言模型自主识别目标
17:43IT之家(RSS)37理想:马赫 Mind-Pro 模型全面落地赋能 L9 Livis 车载智能系统
16:43IT之家(RSS)51赛力斯人形机器人"小赛"首次亮相,副总裁康波透露更多种类今年内登场
13:10公众号:昆仑万维(天工)28智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进
08:00HuggingFace Daily Papers(社区热门论文)51反思掩码(RM)激发掩码扩散模型的推理能力
08:00HuggingFace Daily Papers(社区热门论文)46ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习
08:00HuggingFace Daily Papers(社区热门论文)48视觉锚定推理(Thinking with Visual Grounding)
08:00HuggingFace Daily Papers(社区热门论文)47TV-Edit:文本-视觉联合指导的图像编辑框架
07:40IT之家(RSS)44科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月17日
16:07
IT之家(RSS)
35
未来 Galaxy 手机可拍照检测宠物健康,三星和初创公司 Lifet 合作

三星电子在 VivaTech 大会上宣布与初创公司 Lifet 合作,未来将为 Galaxy 手机推出 AI 宠物护理解决方案。用户用手机拍摄宠物照片,AI 即可分析图像检测牙齿健康问题、白内障和髌骨脱位等。Galaxy 用户可安装 SmartThings 应用和 Pet Care 服务直接使用该功能。Lifet 官网现有类似服务,检测准确率号称达 97%。

多模态行业动态
13:05
IT之家(RSS)
50
依视路陆逊梯卡与应用材料合作开发下一代智能眼镜 AR 光学系统

镜业巨头依视路陆逊梯卡与半导体设备供应商应用材料宣布合作,共同开发下一代智能眼镜 AR 光学系统。双方将结合依视路陆逊梯卡在镜片、镜框和智能眼镜领域的领先地位,以及应用材料在材料工程、波导技术方面的专业知识。合作将在应用材料位于美国硅谷的专门实验室进行,重点研发光波导、自适应透镜和新材料。光波导是 AR 内容显示的基础,自适应透镜可动态调节颜色,先进透镜封装技术有助于保持光学性能。

多模态行业动态
12:05
xAI:News(网页)
同事件精选73
xAI 发布 Grok Imagine Video 1.5

xAI 将 Grok Imagine Video 1.5 从预览转为全面可用,在 Imagine API 上提供 grok-imagine-video-1.5,并在 grok.com/imagine 及 iOS/Android 应用上推出 Video 1.5 Fast 版。相比前代,模型在音频与语音(更清晰、嘴型同步更好)、运动与物理(更连贯、重量感更真实)、生成速度(6 秒 720p 视频约 25 秒,此前超 40 秒)上全面提升。同时逐步推出 Projects、Multiple agents(并行运行多个生成任务)、Search 等新功能,以优化创作流程。

xAI多模态模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine 1.5 把视频生成速度砍半,音效同步和项目功能让创作者工作流更顺畅,xAI 在视频方向上站住了脚。
11:56
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Wolfram 语言和 Mathematica 15 版发布:内置 AI 助手、符号音乐等新功能

在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持 CUDA 内核作为外部函数,Wolfram Compute Services 新增 GPU 支持。

产品更新多模态数据/训练

推荐理由:Wolfram Language 15 把 AI 助手直接内嵌进笔记本,加上符号音乐和 ModelFit 超级函数,对用代码思考的人来说,这是今年最扎实的版本升级。
11:41
公众号:昆仑万维(天工)
55
天工3.1发布:Skywork Design与Dynamic Workflows上线

天工超级智能体推出3.1版本,上线Skywork Design和Dynamic Workflows两项能力。Skywork Design将UI设计从对话式改为无限画布,支持多页面迭代、品牌规范统一与历史沉淀,可导出为网页、PPT、Figma分图层文件或zip包。Dynamic Workflows动态拆解任务,调度数十至上百个并行Agent,具备交叉验证与断点续跑能力,适用于批量页面生成、代码库排查等规模化场景。两项能力与天工主站账号、积分、知识库打通,国内海外同步上线。此前深度用户在单个project上平均交互超40轮,天工超级智能体收入月增三倍。

智能体产品更新多模态
11:03
IT之家(RSS)
45
Viture 发布工业安全眼镜 Helix:搭载英伟达 XR 人工智能技术,起售价 600 美元

Viture 在 2026 年 AWE 推出工业安全眼镜 Helix,搭载英伟达 XR 人工智能。配备 1200 万像素第一视角摄像头与四麦克风阵列,可实时传输画面至多模态 AI 系统,为操作提供实时指导。支持边用边充,续航超 60 分钟,内置无线网络与蓝牙 5.3,可独立运行。已在临床与生命科学研究场景测试,预计 2027 年 Q1 上市,起售价 600 美元。

产品更新多模态
10:33
HuggingFace Daily Papers(社区热门论文)
50
UniAR:共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。

arXivHugging Face图像生成多模态
10:33
HuggingFace Daily Papers(社区热门论文)
52
ActWorld:通过动作感知记忆从可探索走向可交互的世界模型

现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。

具身智能多模态数据/训练论文/研究
08:03
IT之家(RSS)
62
谷歌推送 Android 17 正式版,深度集成 AI 功能

6 月 17 日,谷歌正式推送 Android 17 正式版及 Wear OS 7,首发搭载 Pixel 设备。新系统集成音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 及基于 AudioLM 的语音翻译工具(适配 Pixel 10a)。Pixel 专属更新:Gemini Omni 支持对话中剪辑视频,Lyria 3 可输入文字或图片生成曲目;老款 Pixel 8a、9a 快速分享兼容苹果 AirDrop。系统新增“气泡任务栏”多任务控件、同屏录摄、家长管控及折叠屏 50/50 游戏模式。手表新增车祸、摔倒、无脉搏自动呼救,续航提升 10%,夏季将上线 Gemini 桌面小组件。

Google产品更新多模态语音
08:03
IT之家(RSS)
55
XREAL 发布 Aura XR 眼镜,搭载 Android XR 与 Gemini 大模型

XREAL 正式发布 Aura XR 眼镜,搭载谷歌 Android XR 系统并集成 Gemini 大模型,核心算力由骁龙 Reality Elite 平台提供,内置 X1S 协处理器处理空间内容。眼镜通过额外屏幕投射画面,70 度视场角,前置摄像头支持三维手部追踪。同步上线交互内容库,首发包括《Project Hail Mary》《Fallout: Factions》等原生游戏及沉浸式影像。Aura 现已在美国、英国、日本官网开启预售,定金 99 美元,高端“创始优先通行证”299 美元限量 2000 名,最终售价与上市日期未公布。

产品更新多模态端侧
08:00
HuggingFace Daily Papers(社区热门论文)
49
PerceptionDLM:基于多模态扩散语言模型的并行区域感知

针对现有多模态大语言模型自回归生成导致多区域感知效率低下的问题,提出PerceptionDLM多模态扩散语言模型。该架构利用扩散语言模型的并行解码特性,通过高效提示和结构化注意力掩码,在序列和token两个层次上同时感知多个掩码区域,显著提升推理效率。为系统评估扩散语言模型的并行性,构建了ParaDLC-Bench基准。实验表明,PerceptionDLM在保持区域描述竞争力的同时,大幅提升了多区域感知任务的速度。这是首次利用扩散语言模型实现并行区域标注和感知。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
LooseControlVideo:利用空间阻挡实现导演级视频控制

LooseControlVideo通过稀疏定向3D盒子作为“阻挡”代理,使用户能创作高层级布局和轨迹,同时由视频生成模型生成真实的遮挡、动态与交互。该方法微调Wan 2.2骨干网络,并采用DNOCS编码处理3D尺寸、方向和深度顺序遮挡。在nuScenes、HO-3D和BEHAVE基准测试中,轨迹误差提升1.2倍到3倍,刚性运动一致性提升2倍,遮挡准确率提升1.5倍到2倍,显著优于现有2D盒子和流基线方法。

多模态视频论文/研究
07:02
IT之家(RSS)
55
Snap 旗下首款面向普通消费者的 AR 眼镜 Specs 发布:电致变色镜片、无需外接计算单元,2195 美元

Snap 今日发布首款面向消费者的独立式 AR 眼镜 Snap Specs,售价 2195 美元。镜身采用瑞士 TR90 材料,重 132g/136g,支持近视镜片插片及多种鼻托。配备自研 LCoS 显示,51 度视场角、1600 万色,电致变色镜片 10 秒可切换至墨镜模式。无需外接计算单元,搭载两颗高通骁龙处理器(分别负责计算机视觉与 AR 界面),内置 AI 实时监测用户所见并提供情境化帮助。混合使用续航约 4 小时,充电盒可扩展至约 20 小时。

产品更新多模态端侧
02:23
TechCrunch:AI(RSS)
57
Android 17 正式版发布,新增多任务工具并扩展 Gemini 功能

Google 近日发布 Android 17 正式版及 Wear OS 7,率先登陆 Pixel 设备。Pixel Drop 新增 AI 模型支持:音乐生成模型 Lyria 3、多模态 Gemini Omni 及基于 AudioLM 的语音翻译工具(Pixel 10a)。Quick Share 文件分享兼容 Apple AirDrop。Android 17 引入“气泡栏”多任务界面、自拍屏幕录制、折叠游戏模式(50/50 布局与动态手柄)以及“标记为丢失”等安全与家长控制功能。Pixel Watch 新增车祸/跌落/无脉搏自动紧急呼叫。Wear OS 电池续航提升最高 10%,并将在夏季推出更多 Gemini 智能功能。

Google产品更新多模态语音
01:23
The Verge:AI(RSS)
58
高通发布 Snapdragon Reality Elite 芯片,强化智能眼镜性能

高通向下一代 XR 设备推出 Snapdragon Reality Elite 芯片,GPU 性能提升 60%,CPU 提升 30%,NPU 最高提升 160%,支持每眼 4.4K @ 90fps 分辨率及更低延迟。电池续航提升最高 20%,高负载下芯片温度比上代低 12°C。该芯片将率先搭载于 Xreal 的 Project Aura Android XR 眼镜,今年秋季上市。高通此前在 MWC 发布的 Snapdragon Wear Elite 芯片同样用于智能眼镜,两款芯片均增强 AI 性能,预示可穿戴设备将融入更多大语言模型及 AI 功能。

多模态端侧行业动态
00:53
MarkTechPost(RSS)
同事件精选76
Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite:Qwen-RobotManip(基于Qwen3.5-4B的VLA模型,通过统一对齐框架和3800小时开源数据(含24708小时合成)实现跨本体操作,在LIBERO-Plus OOD基准上达91.4%,跨本体迁移性能为π0.5的3.2倍)、Qwen-RobotWorld(60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型,以自然语言为统一动作接口预测未来视频)和Qwen-RobotNav(基于Qwen3-VL的导航模型,2B/4B/8B,输出航点轨迹)。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen-RobotSuite 一次性放出三个具身模型,用统一对齐策略解决了机器人数据碎片化问题,多个 SOTA 结果加上两个开源仓库,做具身智能的值得认真看一下。
6月16日
17:00
IT之家(RSS)
42
全球一半高端眼镜产自深圳,形成"技术 - 制造 - 市场 - 政策"闭环

6月16日,第四届深圳国际眼镜业博览会暨2026全球人工智能眼镜展在深圳会展中心开幕。深圳市AI眼镜产业联盟表示深圳有望在全球智能穿戴领域树立新标杆。深圳已发布首个AI眼镜行业标准,联盟联合中国信通院泰尔实验室及乐奇、千问、雷鸟等20余家企业,分阶段推进标准制定,计划率先发布团体标准。深圳拥有芯片、传感器等完备产业链,全球每两副高端眼镜中一副产自深圳,龙岗区年产眼镜超1.25亿副,全球每七副高端眼镜中一副诞生于龙岗。

多模态端侧行业动态
16:28
HuggingFace Daily Papers(社区热门论文)
45
MMDiff:将冻结扩散Transformer扩展为多模态生成系统

MMDiff将冻结的扩散Transformer转化为多模态生成系统,仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布,多时间步特征融合配合空间变化聚合权重至关重要,可将语义分割结果提升28.7% mIoU(相比单时间步提取)。该方法还采用概念驱动的注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器,即在语义分割、显著目标检测和深度估计上取得强性能,并支持大规模合成数据生成。

多模态数据/训练论文/研究
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 3 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)
14:27
HuggingFace Daily Papers(社区热门论文)
53
PermaVid:通过解耦上下文记忆实现编辑间一致的视频生成

PermaVid提出一种多模态上下文记忆框架,将空间上下文解耦为语义外观与几何结构,分别存储于RGB上下文记忆和深度上下文记忆。结合编辑感知的记忆更新与检索策略,使记忆演化与后续观测对齐。在编辑操作修改场景外观或布局后,该框架仍能保持生成视频在时间与视角上的长期语义与结构一致性,显著超越现有方法。

多模态论文/研究
12:39
Qwen:Blog Retrieval(API)
精选72
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布
关联讨论 3 条Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
11:27
HuggingFace Daily Papers(社区热门论文)
52
UniDDT:解耦扩散Transformer统一多模态理解与生成

UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码,并采用独立扩散解码器将扩散解码与文本解码解耦,以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构,利用生成与理解数据的相互依存关系。实验结果显示,视觉生成任务 GenEval 得分 0.87,DPG 得分 86.9;多模态理解任务 MME 得分 1699.5,SEEDbench 综合得分 76.5。

多模态数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
40
TuneJury:开放的音乐生成偏好对齐奖励模型

TuneJury 是一个开放的实例级成对奖励模型,从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练,涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好,支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准,优于先前基线。引入 anchor calibration(事后、每系统的 Bradley-Terry 校准),以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。

多模态数据/训练论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
45
BRDFusion:物理与生成融合的城市场景逆渲染框架

BRDFusion是一个统一框架,结合物理建模和生成先验,用于从视频中恢复城市场景的显式、一致的场景属性,同时缓解优化歧义。在正向渲染中,物理模型提供基于场景配置的可控渲染,生成模型负责去噪和修复伪影,从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线,并支持新视角重光照、夜间模拟以及动态物体插入/编辑。

图像生成多模态论文/研究
11:27
HuggingFace Daily Papers(社区热门论文)
55
VisualClaw:面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体,通过级联门过滤流式帧与热/冷top-k注入技能库,将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库,在4个视频QA基准上平均准确率提升+3.85%,EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena(200场景多模态智能体基准),在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%,成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次,适合边缘部署。

智能体多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
39
超越NL2Code:多模态代码智能结构化综述

本文系统综述了多模态代码智能,即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为:渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类:图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向:多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹,以期从单输出模仿转向证据驱动的可执行系统。

arXiv多模态编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
MaineCoon:首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型,在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互,是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation(ROPD)。同时设计了首个智能体流推理框架,通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
SR-REAL:空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径:纯语言推理(LOR)和检测后推理(DTR)。LOR 执行逐步语言演绎,DTR 先通过区域 token 检测 3D 几何线索(中心点或边界框),再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督,随后用准确率和格式奖励进行强化学习优化,DTR 额外使用基于离散中心的检测奖励。在多个空间基准上,SR‑REAL 显著优于基线:单个 RL 训练模型支持两种路径,联合训练实现互相增强,且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
信任正确的教师:面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD(在策略自蒸馏)虽能提供密集token级教师信号,但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏,通过软正确性感知门控和教师概率缩放改善信号质量:门控检查教师当前坐标预测能否在给定前缀下完成到真实框,否则降权;教师概率缩放用置信度校准监督强度。两个组件单独无效,组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv多模态数据/训练论文/研究
6月15日
23:49
IT之家(RSS)
69
MiniMax M3 模型正式开源:原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。

arXivHugging Face多模态开源生态
23:01
公众号:MiniMax(稀宇科技)
同事件精选76
MiniMax 开源 M3 模型权重及 MSA 技术论文

MiniMax 上周五开源了 428B 总参数、23B 激活参数的 M3 模型权重,同步发布 MSA(MiniMax Sparse Attention)技术论文,该架构显著降低长上下文计算成本。M3 是首个从预训练阶段就进行文本、图像等多模态交错混合训练的开源模型。发布两周后,M3 在 Artificial Analysis 综合智能指数、GDPval-AA 排行榜均获开源模型第一,Code Arena WebDev 跻身帕累托最优序列,Vals.AI 榜单居国产模型首位。输出速度已从约 30 TPS 提升至约 80 TPS,计划再提速 30–40%;Token Plan 后台新增调用量看板。

多模态数据/训练模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:M3 是第一个从预训练阶段就深度融合多模态的开源模型,MSA 架构让长上下文成本大幅降低,它的开源会给做多模态应用的团队一个高性价比的选择,国产开源又多了一个能打的基座。
21:18
TechCrunch:AI(RSS)
66
Loft Orbital卫星首次在轨使用视觉语言模型自主识别目标

今年四月,Loft Orbital的Yam-9卫星在轨首次完成自主目标识别——无需地面分析师干预。卫星搭载NASA JPL开发的NAVI-Orbital软件包和Google DeepMind的Gemma 3视觉语言模型,配合Nvidia Jetson Orin AGX GPU运行。模型可根据自然语言查询分类传感器数据,例如识别城乡交界或铁路枢纽周边基础设施。这一里程碑证明VLM可在资源受限的太空边缘设备上执行数据预处理,减少下行数据量。Loft Orbital AI负责人表示,该技术为“太空全天候巡逻”铺平道路,计划部署50–100颗类似卫星实现全球实时覆盖。

DeepMind多模态端侧行业动态
17:43
IT之家(RSS)
37
理想:马赫 Mind-Pro 模型全面落地赋能 L9 Livis 车载智能系统

理想在 Livis Day 发布会上宣布,马赫 Mind-Pro 模型已全面落地应用于 L9 Livis 车载智能系统。该模型在 IFEval、LongBench-v2 等评测中稳居行业第一梯队,并在 Token 生成速度等商业维度实现可量产。采用多模态流式时序建模,能连续理解动态物理世界,具备因果推理和自主决策能力。经大量车载行为特化训练,可直接输出动作并调用车辆硬件。Always-on 全天候主动感知等多模态问答能力均在车端本地完成,数据不上传。

产品更新多模态端侧
16:43
IT之家(RSS)
51
赛力斯人形机器人"小赛"首次亮相,副总裁康波透露更多种类今年内登场

赛力斯集团董事、副总裁康波今日通过视频展示人形机器人“小赛”,该机器人具备视觉识别、主动打招呼和语音互动能力。康波透露,更多种类具身智能机器人在筹备,今年内亮相。赛力斯超级工厂已配备地空一体物流、具身智能AI检测机器人“小赛01”“小赛02”等多款机器人,拥有1600+台智能化设备、3000+台工业机器人及完整数字生态系统。去年10月,赛力斯凤凰与字节火山引擎签署具身智能合作协议,重庆凤凰技术有限公司于去年3月成立。

产品更新具身智能多模态
13:10
公众号:昆仑万维(天工)
28
智源大会|Skywork首席科学家成宇:SkyReels V4与Mureka V9技术演进

昆仑万维Skywork首席科学家成宇在智源大会上介绍SkyReels V4与Mureka V9。SkyReels V4在Artificial Analysis全球视频生成评测中夺得Text to Video(With Audio)与Image to Video(With Audio)双赛道第一,超越Veo 3.1和Sora 2。其四大突破包括双流MMDiT架构实现毫秒级音画同步、全模态强化学习提升视频逻辑连贯性,以及1080p/32FPS/15秒电影级画质联合生成策略。Mureka V9引入MusiCoT音乐思维链技术,实现段落级文本控制与母带级混音,在旋律性(7.25)、表现力(6.89)等维度排名第一。此外,昆仑万维以“4+3”AGI战略支撑AI短剧、AI音乐、AI游戏三大AI原生娱乐经济体。

多模态大佬观点开源生态视频
08:00
HuggingFace Daily Papers(社区热门论文)
51
反思掩码(RM)激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思,但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑,但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM),通过轻量后训练激发MDMs的多轮掩码能力,迭代修改先前输出。RM还引入免参数的历史参考机制,利用中间去噪状态提升修订效果。无需架构改动,在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv多模态推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
46
ContextRL:面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法,通过让模型从两个相似上下文中选出支持查询-答案对的上下文,改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据,针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%,在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比,后者几乎无改进,表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
视觉锚定推理(Thinking with Visual Grounding)

提出视觉锚定推理,让VLM在生成自然语言推理步骤时,显式输出点或框来锚定每一步依赖的图像区域。训练管道从正确推理轨迹提取对象,用SAM3-based agent获取锚定掩码,派生点与框监督。进一步提出锚定感知强化学习,结合答案正确性奖励和密集锚定奖励。在2个计数基准和4个空间推理基准上,Gemma3-4B-IT应用后性能提升,空间推理任务上匹配或超越Gemma3-27B-IT。点锚定适用于计数,框锚定在空间任务受益于显式锚定奖励。

多模态推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
TV-Edit:文本-视觉联合指导的图像编辑框架

TV-Edit 联合文本与视觉指令,以文本作为语义意图、稀疏视觉指令(拖拽/点)作为空间指导,实现精确且忠实于意图的图像编辑。构建超23K文本-视觉指令配对数据集,将视觉指令与图像-文本语义融合为语义感知控制表征,输入预训练编辑骨干。相比纯文本或纯拖拽方法,空间控制更精确、指令歧义更少、结构一致性更强。TV-Edit-Bench 从语义忠实度、空间对齐和视觉一致性评估,TV-Edit 在多编辑骨干上一致优于 SOTA 基线。

图像生成多模态论文/研究
07:40
IT之家(RSS)
44
科大讯飞AI眼镜开启预售:支持122种语言翻译,4299元

科大讯飞AI眼镜6月15日在京东开启预售,定价4299元(部分地区国补后低至3369元),重40克。搭载讯飞端到端语音同传大模型,支持122种语言(含方言、口音)翻译,覆盖通话翻译、线上同传、同声传译(8米全向拾音)、面对面翻译(18语种离线)、视觉翻译等六大场景。内置GlassClaw AI助理,支持一句话跨端任务、会议自动生成图文纪要、实时提词、蓝牙遥控翻页,并提供多种近视镜片选配。

产品更新多模态语音
‹ 上一页
1…34567…31
下一页 ›