全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月10日周日

04:31🚨 AI News | TestingCatalog42Grok iOS版推出Imagine Agent模式预览

02:43Yuchen Jin62大模型前端设计风格趋同引热议

02:27AK56MiniCPM-o 4.5实现全双工全模态实时交互

00:51Alibaba Cloud69HappyHorse上线阿里云，AI视频无需等待

5月9日周六

23:58Elon Musk71精选Tesla利用视觉AI提前预判碰撞，大幅降低伤亡风险

23:57Greg Brockman66GPT-Realtime-2实现浏览器实时AI翻译与交互

20:32IT之家（RSS）53光帆科技推出"行业首款带摄像头 AI 耳机"，5 月 15 日发售

17:02SiliconFlow61Qwen系列多尺寸模型登陆SiliconFlow平台

15:29IT之家（RSS）31亚马逊推出 Blink 2K+ 智能门铃，提供有线 / 电池供电版本

13:29IT之家（RSS）54索尼 AI 新专利，自动化记录 / 制作你的游戏高光时刻

11:25宝玉71GPT Image 2 Prompt：水墨风格 Slides/PPT

10:29IT之家（RSS）66阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

09:29IT之家（RSS）66DeepSeek 大范围开放"识图模式"，正式跨入图文交互时代

09:20Elon Musk45特斯拉AI视觉预判碰撞提前启用气囊

08:50Artificial Analysis62StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

08:35Berryxia.AI65Hinton揭示AI思考本质：多模态整合是关键突破

08:00HuggingFace Daily Papers（社区热门论文）57RewardHarness：一种自进化的智能体奖励框架

08:00HuggingFace Daily Papers（社区热门论文）58LLaVA-UHD v4：多模态大语言模型中高效视觉编码的关键

08:00HuggingFace Daily Papers（社区热门论文）57MuSS：一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

08:00HuggingFace Daily Papers（社区热门论文）53CollabVR：视觉语言模型与视频生成模型的协作视频推理

07:59StepFun50SaaStr周创始人交流会：开放麦克风与API演示

04:58Suno68精选仅凭人声能否创作流行歌曲？

03:39Apple Machine Learning Research（RSS）66精选Velox：学习4D几何与外观的表示

00:34HuggingFace Daily Papers（社区热门论文）66GeoStack：一种用于VLM中拟阿贝尔知识组合的框架

00:17Chubby♨️54无线脑植入技术第三次成功植入助盲人重获视力

5月8日周五

17:42Alibaba Cloud66阿里云推出Smart Studio，一站式自托管AI模型平台

17:26HuggingFace Daily Papers（社区热门论文）51Sparkle：通过解耦引导实现生动的指令引导视频背景替换

16:16IT之家（RSS）54阿里千问 AI 眼镜 S1 获升级：引入主动服务能力、新增支持信息空间 3D 显示

12:22HuggingFace Daily Papers（社区热门论文）70精选多模态领域泛化真的进步了吗？一项全面的基准研究

12:16IT之家（RSS）50三星被曝开发 AI 驾驶助手：精准追踪刹车 / 转弯等，周报推送个性化建议

12:13SenseTime42商汤科技在新加坡展示城市安全与智慧化AI方案

10:22HuggingFace Daily Papers（社区热门论文）66MARBLE：面向扩散模型强化学习的多维度奖励平衡框架

10:22HuggingFace Daily Papers（社区热门论文）68连续潜在扩散语言模型

10:16IT之家（RSS）57商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

08:00HuggingFace Daily Papers（社区热门论文）43SAM 3D Animal：基于图像的可提示多动物三维重建框架

08:00HuggingFace Daily Papers（社区热门论文）66jina-embeddings-v5-omni：通过冻结塔组合实现文本几何保持的多模态嵌入

08:00HuggingFace Daily Papers（社区热门论文）55自动准则即奖励：从隐式偏好到显式多模态生成准则

08:00HuggingFace Daily Papers（社区热门论文）54BalCapRL：基于强化学习的平衡型多模态大语言模型图像描述框架

08:00HuggingFace Daily Papers（社区热门论文）56ModelLens：从海量模型中为你的任务寻找最佳模型

08:00HuggingFace Daily Papers（社区热门论文）50稀疏自编码器即插即用防火墙：用于视觉-语言模型对抗攻击检测

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月10日

04:31

🚨 AI News | TestingCatalog@testingcatalog

42

抢先体验iOS版Grok应用中的Imagine Agent模式！用户将能通过移动端优化的原生界面使用Imagine Agent，生成需要更复杂工作流程的图像和视频。在这方面SpaceXAI正大幅领先其他公司！我们现在只需要Imagine v2了👀 此外，移动端的Skills功能也即将推出。

智能体 xAI 产品更新多模态

02:43

Yuchen Jin@Yuchenj_UW

62

Claude Opus 4.7 在 Anthropic 官网上训练过度。它设计的每个 HTML 页面都带有明显的 Anthropic 风格。 GPT-5.5 在前端方面仍然出奇地弱。它设计前端的样子就像是从后端工程师那里学的 CSS。 OpenAI 急需有品味的 MTS。

Anthropic OpenAI 多模态大佬观点

02:27

AK@_akhaliq

56

MiniCPM-o 4.5 迈向实时全双工全模态交互论文： https://huggingface.co/papers/2604.27393

Hugging Face 多模态论文/研究语音

00:51

Alibaba Cloud@alibaba_cloud

69

基准测试排名第一。闪电速度。原生音视频同步。排队等待AI视频的时代结束了。HappyHorse现已在阿里云Model Studio上线。当别人还在渲染时，你已完成。立即构建：https://int.alibabacloud.com/m/1000412167/

多模态模型发布视频

5月9日

23:58

Elon Musk@elonmusk

精选71

Tesla通过分析真实车队碰撞数据，结合视觉系统与传感器，实现了安全系统的突破。传统碰撞传感器需要时间确认，降低阈值可能导致误触发。而视觉系统能提前"看到"即将发生的碰撞，与传感器协同，使约束控制器能更早、更准确地启动安全气囊和安全带预紧器。通过仿真重放碰撞并测量人体模型受力，团队发现提前部署能优化保护时机。这一改进使预测伤害严重程度整体显著下移，并通过OTA更新实现，是前所未有的安全提升。

Wes: Every one of these dots is an actual crash from the fleet. Real world speeds, collisions, and people. Not just the regul...

多模态大佬观点端侧

推荐理由：below_threshold:T2 推文门槛 75,当前 finalScore=71

23:57

Greg Brockman@gdb

66

开发者利用GPT-Realtime-2模型，在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景，能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时，基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统，推动互联网语言壁垒趋于消失。

CHOI: I just added real-time AI translation into Chormex using GPT-Realtime-2... and this feels absolutely surreal. It works a...

OpenAI 产品更新多模态语音

20:32

IT之家（RSS）

53

光帆科技推出"行业首款带摄像头 AI 耳机"，5 月 15 日发售

光帆科技宣布将于5月15日发售“光帆全感AI耳机”，该产品被称作行业首款带摄像头的AI耳机。耳机主打“全感知、主动式、个性化”，能通过环境感知主动提供提醒与服务，用户还可为AI选择不同人设，使其成为具有陪伴感的随身助理。硬件方面，单耳重11克，采用开放式耳挂设计，双侧配备200万像素双目摄像头用于实时识别物体与场景。耳机盒集成4G网络，支持脱离手机独立使用。续航上，耳机通话可达9小时，音乐播放15小时，配合充电盒总续航最高为90小时。

产品更新多模态端侧语音

17:02

SiliconFlow@SiliconFlowAI

61

思小建大🔥 @Alibaba_Qwen 3.5 和 Qwen3.6 系列现已在 SiliconFlow 上线 🎉 9B 到 397B · MoE 与 Dense · 原生多模态 ✅ Qwen3.6-35B-A3B · Qwen3.6-27B ✅ Qwen3.5-397B-A17B · Qwen3.5-122B-A10B ✅ Qwen3.5-35B-A3B · Qwen3.5-27B · Qwen3.5-9B 更小的模型。更大的成果。社区的最爱。现在，选择你的尺寸并开始构建 👇 https://cloud.siliconflow.com/

产品更新多模态推理

15:29

IT之家（RSS）

31

亚马逊推出 Blink 2K+ 智能门铃，提供有线 / 电池供电版本

亚马逊旗下Blink推出两款2K+智能门铃：Blink Wired Doorbell 2K+（有线供电）和Blink Battery Doorbell 2K+（电池供电）。两款均具备更广动态范围与更清晰细节，电池款还比上代拥有更大视野。起步价均为49.99美元（约合340.7元人民币）。美国用户可通过付费订阅解锁云端智能视频描述功能，以文本摘要快速了解门前动态。

产品更新多模态

13:29

IT之家（RSS）

54

索尼 AI 新专利，自动化记录 / 制作你的游戏高光时刻

索尼互动娱乐获批一项PlayStation相关AI专利，旨在自动生成玩家游戏中的个性化高光时刻集锦。该系统利用AI和机器学习，实时分析游戏事件（如击杀、击败Boss、逆转取胜等），并参考玩家技术水平与习惯进行筛选。它能自动将精彩瞬间制作成风格化卡片、短视频或3D收藏等内容，省去了手动录制、剪辑和后期制作的繁琐流程，方便玩家在社交平台分享专属高光时刻。

多模态行业动态视频

11:25

宝玉@dotey

71

GPT Image 2 Prompt：水墨风格 Slides/PPT

本文介绍一个用于生成水墨风格幻灯片画图提示词的模板。该模板结构清晰，包含标题、关键要点、视觉元素、布局偏好、文字层级和延续性说明，旨在指导AI（如Codex）生成具有统一美学风格的幻灯片图像。视觉元素强调宣纸背景、水墨山水等东方元素，整体风格追求静谧、克制、侘寂或当代东亚奢华。通过应用此模板，用户可以简化AI驱动的设计流程，快速获得视觉一致且富有美感的水墨风格PPT素材。文末提供了一个简短的应用示例。

OpenAI 图像生成多模态教程/实践

10:29

IT之家（RSS）

66

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime，支持情绪感知与人设自定义

阶跃星辰发布新一代实时语音大模型StepAudio 2.5 Realtime，现已全量上线。该模型能感知语调、语速等“副语言”信息以识别用户情绪，动态调整回应以提升对话真实感。开发者可通过API精细定制AI角色的性格、背景等，其能力基于超万个原生人设生成的百万级特征矩阵训练，并针对角色一致性进行了强化。模型在对话能力上强调智商与情商的双重提升，可应对从闲聊到专业面试等多种场景。据2026年4月评测，其主观对话体验与语音问答基准得分均领先于同期竞品。

多模态模型发布评测/基准语音

09:29

IT之家（RSS）

66

DeepSeek 大范围开放"识图模式"，正式跨入图文交互时代

DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力，不仅能识别文物、解答空间推理题、理解网络梗图，还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架，通过融入点、边界框等视觉元素提升逻辑准确性，且处理效率高，单图token消耗远低于主流模型。目前该模式仍处内测，存在知识库更新滞后、处理反直觉图形不稳定等不足，且暂不支持图像生成或视频理解。

DeepSeek 产品更新多模态

09:20

Elon Musk@elonmusk

45

特斯拉AI视觉系统可在碰撞前部署气囊，大幅降低伤亡风险。该功能将免费提供给所有新车。【引用 @Tesla】：Tesla Vision allows us to deploy airbags up to 70 milliseconds earlier if your Tesla detects an unavoidable collision This can be the difference between serious injury &amp； walking away from a crash

Tesla: Tesla Vision allows us to deploy airbags up to 70 milliseconds earlier if your Tesla detects an unavoidable collision Th...

产品更新多模态

08:50

Artificial Analysis@ArtificialAnlys

62

StepFun StepAudio 2.5 TTS 在语音竞技场排名第三，质量提升但定价偏高

StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

多模态评测/基准语音

08:35

Berryxia.AI@berryxia

65

Hinton揭示AI思考本质：多模态整合是关键突破

Geoffrey Hinton指出语言只是思考的工具之一，AI推理可以是真正的思考，因为语言本身就是一种思考形式。人类和AI能用文字建模，但真正思考超越文字，涵盖图像、空间感和物理运动等多模态。最聪明的系统是能整合所有模态的AI，这代表下一个大突破方向：让AI像人类一样通过多感官、多维度理解世界，从而打破智能边界。多模态是最终出路，但文本基础仍需巩固以确保发展效果。

Haider.: Geoffrey Hinton says AI reasoning can be real thought because language itself is a form of thinking Words let humans and...

多模态大佬观点推理

08:00

HuggingFace Daily Papers（社区热门论文）

57

RewardHarness：一种自进化的智能体奖励框架

RewardHarness 将奖励建模重构为上下文进化问题，而非传统的权重优化。该框架仅需约100条人类偏好示例，通过协调器与冻结子智能体的协作，利用自进化的工具与技能库进行推理判断。其核心在于通过对比预测结果与真实偏好，自动优化工具库，无需额外人工标注。实验表明，仅使用 EditReward 数据集中 0.05% 的数据，该框架在图像编辑评估基准上平均准确率达 47.4%，超越 GPT-5 达 5.3 个百分点。作为 GRPO 微调的奖励信号时，其能使模型在 ImgEdit-Bench 上取得 3.52 的评分。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

LLaVA-UHD v4：多模态大语言模型中高效视觉编码的关键

针对高分辨率图像输入导致视觉编码成为多模态大语言模型主要计算瓶颈的问题，本研究提出了两项关键改进。在编码策略上，基于切片的编码优于全局编码，能通过局部视图更好地保留细节。在压缩方法上，引入了视觉Transformer内部的早期压缩，在浅层减少令牌数量以大幅降低计算量。结合这两项技术构建的LLaVA-UHD v4方案，在涵盖文档理解、OCR和通用视觉问答的多样化基准测试中，视觉编码计算量降低了55.8%，同时达到甚至超越了基线模型性能，为高效高分辨率多模态大语言模型提供了实用的设计方向。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

MuSS：一个用于多镜头视频及主体视频生成的大规模数据集与电影叙事基准

研究团队发布了MuSS，一个专为多镜头视频及主体视频生成设计的大规模双轨数据集。该数据集源自3000多部电影，明确支持复杂的蒙太奇转场和以主体为核心的叙事。其构建采用了一种渐进式标注流程，先确保局部镜头级准确性，再强化全局叙事连贯性，以消除时空文本-视频对齐冲突。数据集还引入了跨镜头匹配机制，从根本上解决了S2V生成中常见的“复制-粘贴”难题。同时提出的电影叙事基准包含视觉-逻辑驱动的评估范式和一个新颖的抗复制-粘贴方差指标，用于严格评估连续叙事能力和3D结构一致性。实验表明，当前基线模型难以处理连续叙事逻辑或退化为简单的2D贴图生成器，而基于MuSS增强的模型在叙事效果和跨镜头身份保持上达到了最先进水平。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

CollabVR：视觉语言模型与视频生成模型的协作视频推理

CollabVR提出一种闭环协作框架，在步骤级别将视觉语言模型（VLM）与视频生成模型（VGM）耦合，以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中，VLM负责规划即时动作并检查VGM生成的视频片段，再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中，该方法在同等计算条件下显著提升了开源与闭源VGM的性能，尤其在困难任务上增益最大，且能与推理微调的VGM进一步结合，实现性能叠加。

多模态推理视频论文/研究

07:59

StepFun@StepFun_ai

50

在SaaStr week期间，SEAMATE与主办方于San Mateo共同举办创始人社交聚会。活动设有2分钟开放麦克风环节，供参与者介绍自身及项目；主办方将演示整合文本、视觉、语音、音乐的单一API。活动面向AI创始人、SaaS建设者、运营商和投资者，提供晚餐和开放酒吧至晚上9点。时间为5月12日5：30 PM PT，参与者需通过RSVP链接注册。

StepFun: Step Out. StepFun In. 🍕🍺 We're hosting a Founder mixer during SaaStr week in San Mateo with SEAMATE! AI founders, SaaS...

多模态行业动态

04:58

Suno@suno

精选68

你能只用你的声音创作一首流行歌曲吗？

产品更新多模态语音

推荐理由：Suno 这个用纯人声做流行歌的功能，把创作门槛砍到零，以后做 demo 比打字还快，玩音乐的一看就会想试。

03:39

Apple Machine Learning Research（RSS）

精选66

Velox：学习4D几何与外观的表示

Velox提出一个学习4D对象潜在表示的框架，该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入，通过编码器将时空彩色点云压缩为动态形状标记，并利用两个互补解码器进行监督：4D表面解码器建模随时间变化的表面分布以捕捉几何信息，高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。

多模态数据/训练论文/研究

推荐理由：苹果把动态点云的几何和外观塞进一个可压缩的latent space，思路干净但领域垂直，做3D视觉和AR的可以跟一下，其他人不用急着读。

00:34

HuggingFace Daily Papers（社区热门论文）

66

GeoStack：一种用于VLM中拟阿贝尔知识组合的框架

GeoStack是一个模块化框架，旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型，通过对适配器流形施加几何与结构约束，确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性，使得无论集成多少专家模型，推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明，GeoStack能有效实现长期知识组合，并显著缓解灾难性遗忘。相关代码已开源。

多模态开源/仓库论文/研究

00:17

Chubby♨️@kimmonismus

54

天啊：一款完全绕过眼睛和视神经的无线脑植入设备，刚刚完成了第三次成功的人体植入。 544个电极直接刺激视觉皮层，为全盲者创造人工视觉。他们不再试图修复眼睛，而是将视力视为软件问题，直接将其接入大脑的硬件。

多模态论文/研究

5月8日

17:42

Alibaba Cloud@alibaba_cloud

66

阿里云推出Smart Studio，一站式自托管AI模型平台

阿里云发布Smart Studio平台，旨在整合AI模型测试与服务的全流程，终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型（如Qwen3.6-Max、DeepSeek-v4）的能力，支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室，用于并排比较开源与闭源模型的输出效果，并能快速将Hugging Face上的模型转化为实时API，简化部署流程。

产品更新多模态部署/工程

17:26

HuggingFace Daily Papers（社区热门论文）

51

Sparkle：通过解耦引导实现生动的指令引导视频背景替换

近年来，视频编辑在自然语言指令引导下发展迅速，但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互，面临高质量数据匮乏的挑战，导致现有模型生成静态、不自然背景。为此，研究团队设计可扩展数据生成流程，以解耦方式分别生成前景与背景引导，并实施严格质量过滤，构建了Sparkle数据集（包含约14万视频对，覆盖五种常见背景更换主题）及迄今最大的专项评估基准Sparkle-Bench。实验表明，基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv 多模态开源/仓库视频

16:16

IT之家（RSS）

54

阿里千问 AI 眼镜 S1 获升级：引入主动服务能力、新增支持信息空间 3D 显示

阿里千问AI眼镜S1迎来重要升级，核心是引入主动服务能力。眼镜能结合时间、地点和环境，主动提供如“出门带伞”、“抬头活动”等提醒。本月将上线打车、闪购、规划行程、购票等生活AI服务，减少对手机的依赖。同时，产品新增“空间3D显示”能力，通过双光机与双目立体成像技术，使信息通知、导航等内容呈现具有纵深感的立体视觉效果，显示更自然真实。

产品更新多模态端侧

12:22

HuggingFace Daily Papers（社区热门论文）

精选70

多模态领域泛化真的进步了吗？一项全面的基准研究

针对多模态领域泛化评估标准不统一的问题，研究团队推出了首个统一基准MMDG-Bench。该基准涵盖动作识别、故障诊断和情感分析三大任务的六个数据集，系统评估了六种模态组合和九种方法在多种场景下的性能。基于大规模实验得出关键结论：现有专用方法相比基线提升有限；无单一方法能持续领先；当前性能与理论上限差距显著；三模态融合未稳定优于双模态；所有方法在数据损坏和模态缺失时性能均大幅下降，部分还损害了模型可信度。

多模态论文/研究

推荐理由：7 千多次训练揭示的多模态领域泛化真相：近年专门方法相比简单 ERM 几乎原地踏步，并且所有方法在损坏或缺失模态下直接跪。做这个方向的该醒醒了。

12:16

IT之家（RSS）

50

三星被曝开发 AI 驾驶助手：精准追踪刹车 / 转弯等，周报推送个性化建议

据科技媒体挖掘三星One UI 9早期固件代码，发现其正在开发一款名为Driving Insights的AI驾驶助手应用。该应用利用手机传感器和AI算法，精准追踪用户的加速、转弯、刹车等驾驶行为数据，旨在帮助用户了解并改善驾驶习惯。应用支持连接车载蓝牙后自动记录行程，并可生成个性化驾驶周报，通过三星Now Brief推送。周报会基于数据分析提供反馈，如评价驾驶风格保守或动态，并在长途驾驶后提醒用户注意休息，防止疲劳驾驶。

产品更新多模态端侧

12:13

SenseTime@SenseTime_AI

42

商汤科技在新加坡展示城市安全与智慧化AI方案

商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新，旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体，涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作，共同加速数字化转型，构建开放、包容且繁荣的本地AI生态系统。

多模态行业动态视频

10:22

HuggingFace Daily Papers（社区热门论文）

66

MARBLE：面向扩散模型强化学习的多维度奖励平衡框架

针对扩散模型基于人类偏好进行强化学习微调时多奖励难以协同优化的问题，研究团队提出MARBLE框架。该框架摒弃了传统加权求和方法，为每个奖励维护独立优势估计器，并通过求解二次规划问题，在梯度空间将各奖励策略梯度协调为单一更新方向，无需手动调整权重。结合摊销化计算与平滑技术，其单步计算成本降至接近单奖励基线水平。实验表明，MARBLE能同时提升所有奖励维度，显著改善最差对齐奖励的优化方向，且训练速度接近基线方法。

图像生成多模态安全/对齐论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

68

连续潜在扩散语言模型

针对自回归范式在文本生成中的限制，研究团队提出Cola DLM，一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射，在连续潜在空间中用块因果DiT建模全局语义先验，再通过条件解码生成文本。其扩散过程执行潜在先验传输，而非词元级观测恢复，从而分离全局语义组织与局部文本实现，支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行，显示Cola DLM具有强大扩展性能，确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。

多模态推理论文/研究

10:16

IT之家（RSS）

57

商汤发布日日新 SenseNova 6.7 Flash-Lite 多模态模型，Token Plan 限时免费

商汤科技推出新一代轻量化多模态模型“日日新 SenseNova 6.7 Flash-Lite”。该模型采用原生多模态架构，能直接理解网页、文档和图表，提升复杂任务处理效率。它取消了视觉转文本中间层，以更小参数量实现能力跨越，在权威测试中取得多项同级别SOTA，并在信息搜索等场景中比纯文本智能体降低60%的Token消耗。同时，商汤推出限时免费的SenseNova Token Plan，为开发者提供首月无门槛调用额度，并将其全线办公技能SenseNova-Skills在GitHub开源。

多模态开源生态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

43

SAM 3D Animal：基于图像的可提示多动物三维重建框架

针对野外环境中多动物三维重建面临的物种多样、遮挡频繁等挑战，研究团队提出了SAM 3D Animal，这是首个支持从单张图像进行多动物可提示三维重建的框架。该方法基于SMAL+参数化动物模型，能够联合重建多个实例，并支持通过关键点和掩码进行灵活提示，以有效解决复杂场景中的歧义与遮挡问题。为训练此模型，研究引入了包含超过5000张图像的Herd3D多动物三维数据集，显著提升了物种、互动与遮挡模式的多样性。在多个基准数据集上的实验表明，该框架在基于模型和免模型的方法中均达到了最先进的性能，为野外动物三维重建提供了可扩展的有效解决方案。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

jina-embeddings-v5-omni：通过冻结塔组合实现文本几何保持的多模态嵌入

本研究提出冻结编码器模型组合的新方法，基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件，包含两个模型，能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型，添加图像和音频编码器，但保持骨干文本模型和非文本编码器冻结，仅训练占总权重0.35%的连接组件，训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示，其性能与当前领先的大型多模态嵌入模型竞争，实现了高效且有效的多模态嵌入。

多模态开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

自动准则即奖励：从隐式偏好到显式多模态生成准则

研究提出Auto-Rubric as Reward框架，将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则，将整体意图分解为可独立验证的质量维度，有效抑制位置偏差等评估偏见。为实现生成训练，进一步提出Rubric Policy Optimization方法，将多维评估提炼为稳健的二元奖励，用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明，该框架优于主流奖励模型，证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

BalCapRL：基于强化学习的平衡型多模态大语言模型图像描述框架

针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题，研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量，通过采用GDPO风格的奖励解耦归一化处理连续值奖励，并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明，该方法能一致提升描述质量，不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

ModelLens：从海量模型中为你的任务寻找最佳模型

开源生态拥有数十万个预训练模型，但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池，或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录，通过学习模型-数据集-指标三元组的性能感知潜在空间，可直接为未见过的数据集推荐未见过的模型，无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中，其性能超越了依赖元数据或需运行每个候选模型的基线方法，并能将多种路由方法的性能提升高达81%，在文本和视觉-语言任务上展现了泛化能力。

arXiv Hugging Face 多模态开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

50

稀疏自编码器即插即用防火墙：用于视觉-语言模型对抗攻击检测

针对视觉-语言模型（VLM）易受对抗攻击的安全问题，本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器（SAE）作为即插即用模块插入预训练VLM，通过标准重建目标训练，使稀疏潜在特征自然捕获攻击信号，从而可靠识别图像是否遭受对抗扰动。实验表明，SAEgis在域内、跨域及跨攻击场景中均表现强劲，其跨域泛化能力显著优于现有基线。该方法无需对抗训练，开销极小，为实际VLM系统提供了一种实用的安全增强方案。

多模态安全/对齐论文/研究

1…37 383940 41…50