5月13日

09:39

IT之家（RSS）

微软于5月12日向Windows 11 26H1系统推送了KB5089548累积更新，版本号升至Build 28000.2113。本次更新重点增强了辅助功能和系统交互：讲述人功能现可联动Copilot，通过快捷键描述图片或屏幕内容；智能应用控制的开关可直接在安全中心调整。设置应用界面获得更新，包括重新设计的账户对话框、支持深色主题以及更清晰的设备规格展示。此外，更新还修复和改进了多项细节，如支持高刷新率显示器、优化USB4显示器功耗、提升HDR稳定性、改进远程桌面显示及部分游戏兼容性。

Microsoft 产品更新多模态

08:00

HuggingFace Daily Papers（社区热门论文）

当视觉代言听觉

研究发现，现有顶尖的视频多模态大模型在理解声音时，常依赖视觉线索进行推断或“幻听”，而非真正处理音频，这种“视听聪明汉斯效应”普遍存在于主流模型中。为此，研究者提出了Thud干预探测框架，通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方，能将模型在干预测试上的平均表现提升28个百分点，同时也能略微改善通用视频问答的性能。

arXiv Google OpenAI 多模态

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

CiteVQA：面向可信文档智能的证据归因评测基准

当前多模态大语言模型的文档问答评估仅核对答案，忽略了支撑证据的正确性。这掩盖了“归因幻觉”——模型可能给出正确答案，却引用了错误的文段，在法律等高风险领域构成重大风险。为此，研究团队推出了CiteVQA基准测试，要求模型为每个答案提供元素级的边界框引用，并对两者进行联合评估。该基准包含711份PDF文档、1897个问题，其核心评估指标“严格归因准确度”要求答案与引用区域均正确才计分。对20个模型的审计发现普遍存在该问题，最强模型的准确度也仅为76.0。CiteVQA揭示了仅评估答案所忽视的可靠性差距。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

提升全模态语言模型：基于视觉去偏评估的分阶段后训练

研究发现，现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题，可能夸大模型性能。为此，我们通过视觉探测清洗九个基准，构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型，提出了三阶段后训练方案OmniBoost：混合双模态监督微调、混合模态RLVR训练，以及在自蒸馏数据上的微调。实验表明，平衡的双模态微调提升有限，RLVR首次带来广泛改进，而自蒸馏则重塑了模型的基准表现。最终，该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展，且小模型可通过分阶段后训练与自蒸馏监督显著提升。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CurveBench：一个用于嵌套Jordan曲线精确拓扑推理的基准测试集

CurveBench是一个视觉层次拓扑推理基准，包含756张互不相交的Jordan曲线图像，涵盖五种配置。每张图像标注了编码区域包含关系的根树，任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单，但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%，在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调，其在简易集上的准确率从2.8%提升至33.3%，超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明，精确的拓扑感知视觉推理问题尚未解决。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：迈向360度全景世界的空间超感知

针对多模态大模型在360度全景图像空间理解上的不足，研究提出PanoWorld模型。现有方法通常将全景图分解为透视图，忽略了其连续的球面几何结构。为此，本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据，并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上，PanoWorld显著超越了现有开源与专有基线。结果表明，稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。

arXiv 具身智能多模态论文/研究

07:26

Hacker News 热门（buzzing.cc 中文翻译）

为人工智能时代重新构想鼠标指针

DeepMind重新构想人工智能时代的鼠标指针，将其从简单的图形符号转变为动态的、情境感知的AI交互界面。新指针能根据用户当前任务和屏幕内容智能变化形态与功能，例如在文本编辑时变为书写工具，在分析数据时可视化显示相关信息。这一设计旨在减少传统图形界面中的频繁窗口切换，通过指针直接提供上下文辅助，提升人机协作效率，标志着输入设备从被动工具向主动协作伙伴的演进。

DeepMind 多模态现象/趋势

05:44

HuggingFace Daily Papers（社区热门论文）

GridProbe：面向长视频视觉语言模型的自适应测试时计算后验探测

GridProbe提出一种无需训练的后验探测推理范式，以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上，通过轻量级行列表探测，利用冻结视觉语言模型在答案空间中评估证据，并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算，实现测试时计算量自适应调整。实验表明，在Video-MME-v2基准上，计算量降低3.36倍，平均准确率损失控制在1.6个百分点内；在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合，无需重新训练即可提升性能。

多模态推理论文/研究

5月12日

21:40

The Decoder：AI News（RSS）

Thinking Machines Lab发布首款模型，主张交互性才是OpenAI语音技术的误区

由Mira Murati创立的Thinking Machines Lab发布了其首个人工智能模型，旨在突破传统语音AI的问答模式。该模型以200毫秒为数据块，并行处理音频、视频和文本信息，专注于提升实时交互的流畅性与自然度。公司宣称，这一设计在交互质量上超越了OpenAI的GPT Realtime 2和Google的Gemini Live，致力于推动语音助手向更自然、非问答式的对话体验演进，从而重新定义人机交互方式。

多模态模型发布语音

21:25

Hacker News 热门（buzzing.cc 中文翻译）

美国移民及海关执法局（ICE）将开发自有智能眼镜，以"补充"其人脸识别应用程序

美国移民及海关执法局计划自主开发智能眼镜，以补充其现有的人脸识别应用程序。此举旨在通过可穿戴设备扩展生物识别监控能力，提升现场执法人员的身份核查效率。该智能眼镜项目预计将强化ICE在边境和执法行动中的实时人脸识别与数据访问功能，标志着其监控技术正从移动应用向更集成、更便捷的硬件形态延伸。

多模态政策/监管

16:36

IT之家（RSS）

京东 AI 试穿功能上线

京东平台正式上线AI试穿功能。用户上传个人照片后，可在数秒内生成高清试穿效果图，实现一键切换同款不同色服饰进行对比，并可根据系统推荐搭配上下装。该功能基于京东自研算法，能分析消费者身材维度，使服装在试穿中自然垂坠贴合，并对棉质、丝绸、牛仔等多种材质进行高精度渲染，模拟真实质感。目前该功能已接入商品详情主图、“逛”和“AI购”等频道，初期支持男女装及运动服饰，商家仅需配置白底图等素材即可使用。

产品更新图像生成多模态

14:22

公众号：火山引擎

乐橙×火山引擎：给安防注入AI能力，让监控从"被动记录"进化为"主动思考"

多模态端侧行业动态

13:44

HuggingFace Daily Papers（社区热门论文）

通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题，本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化，引入基于一致性相关系数的奖励机制，在批次层面提供基于比较的监督，使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中，该方法相比监督微调和现有回归方法取得了持续改进，尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

精选70

WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准，旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例，涵盖物理、社会、逻辑和信息四大维度及22个子类，要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法：过程感知推理验证通过结构化问答检测时序与因果错误；多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现，当前先进模型在视觉合理性与世界推理能力间存在显著差距，生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由：视频生成越来越像真的，但逻辑和因果一塌糊涂，这个基准把问题量化了，想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。

12:44

HuggingFace Daily Papers（社区热门论文）

精选76

Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

arXiv 图像生成多模态模型发布

推荐理由：这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

12:25

Hacker News 热门（buzzing.cc 中文翻译）

我让人工智能开发了一个工具，帮助我找出是什么在半夜吵醒我

作者利用人工智能开发了一款工具，用于监测和分析夜间可能吵醒他的声音。该工具通过记录和分析环境音频，识别并分类噪音来源，帮助作者找出睡眠中断的具体原因。这一实践展示了AI在解决个人生活问题上的实际应用潜力。

多模态教程/实践编码

11:44

HuggingFace Daily Papers（社区热门论文）

Omni-Persona：系统性全模态个性化基准测试与改进

研究团队推出首个全面的全模态个性化基准测试框架Omni-Persona，涵盖文本、图像和音频三大模态，包含4个任务组和18个细粒度任务。该研究将任务形式化为在“人物模态图”上进行跨模态路由，并提出了同时奖励正确基础定位与恰当弃答能力的校准准确率作为核心评估指标。诊断实验揭示了开源模型存在持续的音频与视觉基础定位差距，同时发现可回答召回率和参数规模不能完全诊断模型表现，而基于结果的强化学习虽泛化更一致，但在当前奖励设计下会趋于保守。该基准为后续训练和奖励设计提供了关键指导。

多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Pixal3D：基于图像的像素对齐3D生成

针对现有图像到3D生成中像素级保真度不足的问题，研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法，通过像素回投影条件方案，将多尺度图像特征直接提升为3D特征体积，从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度，使其接近重建水平。该框架可扩展生成高质量3D资产，并能自然支持多视图生成与高保真、对象分离的3D场景合成。

arXiv 图像生成多模态论文/研究

09:36

IT之家（RSS）

苹果连发 3 项 AI 研究，推进空间计算与 Vision Pro 头显方向

苹果近期发布三项人工智能研究，直接回应了其搁置Vision Pro研发的传闻。研究包括：提出SFI-Bench基准，通过134段视频和1555道问题测试多模态大模型的空间功能智能；利用AI自动生成美国手语标注，将人工成本降低数百小时；以及提出HeadsUp方法，基于超万人数据集进行高质量3D头部重建，可能用于优化Vision Pro的Persona等功能。这些进展印证了苹果对空间计算方向的持续投入。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DocAtlas：跨80多种语言的多语言文档理解框架

DocAtlas是一个多语言文档理解框架，覆盖82种语言。它通过差异渲染与合成生成双流程，构建高保真OCR数据集与基准测试，产出统一结构化标注。研究评估16个模型，发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号，通过直接偏好优化实现了稳定的多语言适配，在域内和域外准确性上均实现提升，且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

参考引导流匹配

本文提出了一种新的可控图像生成原理，其核心是通过更换“参考集”来引导预训练模型，无需参数更新。该方法基于流匹配框架，通过调整条件端点均值来改变生成流程。具体实现了两种方式：免训练的“参考均值引导”，将参考库的校正量应用于冻结模型，实现对颜色、身份、风格与结构的控制；以及“半参数引导”，通过显式均值锚点和学习残差优化器，达到高质量并支持推理时更换参考集。这一工作指向了生成模型可通过数据而非参数更新来适应新任务的更广泛方向。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AI CFD科学家：利用物理感知AI智能体实现开放式计算流体动力学发现

本文提出AI CFD Scientist，一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门，能在接受结果前检查流场渲染图。实验表明，该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正；在同等成本下，其性能优于通用AI科学家基线，因其具备关键的领域专用验证能力；对照实验证实，视觉验证门能有效检测出求解器日志遗漏的多数静默故障。

智能体 arXiv 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ShapeCodeBench：一个用于合成形状场景感知到程序重建的可再生基准

ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像，模型必须输出一个可执行的绘图程序，由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形，每个实例均由随机数生成器生成，可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集，涵盖简单、中等和困难三个级别，评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示，传统计算机视觉启发式方法在简单场景中表现尚可，但在图形重叠时失效；最强的多模态配置能保留大部分前景结构，但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低，表明该基准远未饱和。相关代码、数据集及论文资源均已开源。

多模态开源/仓库推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PresentAgent-2：迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题，并从演示友好型来源进行深度研究，收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式：单人演示（单解说员）、讨论式演示（多演讲者结构化角色）和交互式演示（基于生成内容回答观众问题）。研究团队构建了涵盖三种场景的多模态演示基准，并制定了内容质量、媒体相关性、动态媒体使用等评估标准，从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

视觉美学基准：前沿模型能评判美吗？

针对现有美学评估常简化为单图像打分的问题，研究提出了视觉美学基准（VAB），将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像，每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现，最强模型仅在26.5%的任务中准确识别最佳和最差图像，远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型，其性能可接近大得多的开源模型，表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

覆盖计算机使用中的人类操作空间：数据合成与基准测试

研究指出，GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足，失败案例呈长尾分布。为解决复杂交互数据稀缺问题，团队提出了新基准CUActSpot，用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力，其覆盖的交互类型远超以往以点击为中心的基准。同时，团队设计了一个基于渲染器的数据合成流程，可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型，性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体 Microsoft 多模态论文/研究

07:52

Apple Machine Learning Research（RSS）

BalCapRL：基于强化学习的MLLM图像描述平衡框架

研究团队针对多模态大语言模型图像描述任务提出BalCapRL平衡框架。该框架通过设计多维度奖励函数，系统解决了现有强化学习方法在追求描述效用时引发的幻觉、噪声和冗长等问题。实验表明，BalCapRL在保持描述准确性的同时，显著提升了信息密度与可读性，在多个基准测试中实现了更均衡的性能表现，有效突破了传统方法在核心维度间的权衡局限。

多模态论文/研究

5月11日

21:34

IT之家（RSS）

5499 元起，大疆发布全新 AI 超幅扫拖机器人 ROMO 2 系列

大疆发布全新AI超幅扫拖机器人ROMO 2系列，包含ROMO P2和ROMO A2两款型号，起售价5499元。该系列搭载36000Pa聚能吸力系统，并采用雷达自适应超幅外摆机械臂，单次外摆较上代多覆盖4.5厘米边角。其智能避障2.0系统融合多类传感器，可识别并规避细至2毫米的线缆及透明障碍物。机器人具备8.5厘米双层越障能力，基站支持进阶高温自清洁与十重抑菌除臭系统。产品即日起开启预约，将于6月11日正式发售。

产品更新多模态

17:34

IT之家（RSS）

阿里发布全新 AI 店小蜜，"AI+ 人"转化率首次超越纯人工

阿里发布基于千问大模型构建的全新AI店小蜜，这是电商行业首个具备售前售后全链路服务能力的客服agent。接入后，商家平均转人工率下降45%，“AI+人”协同转化效果首次超越纯人工客服超10%。其日均对话量近千万，服务商家超百万。核心升级包括：AI能回答超80%问题并主动导购，提升平均询单转化率至10%；覆盖超30个场景，回复速度提升50%，准确率超90%；可自动处理复杂售后流程，平均退款挽单成功率超20%。

智能体产品更新多模态

10:00

公众号：昆仑万维（天工）

当企业开始用Mureka替换Suno--一场正在发生的AI音乐迁移，以及它背后的理由

Mureka正被企业用以替换Suno，一场AI音乐领域的迁移正在发生。背后涉及功能、成本或合规等方面的理由。

多模态现象/趋势语音

09:34

IT之家（RSS）

特斯拉用 AI 视觉系统预测碰撞：提前 70 毫秒弹出安全气囊，未来车型标配

特斯拉利用AI视觉系统预测碰撞，可在检测到不可避免的碰撞时提前70毫秒弹出安全气囊，以降低乘员受伤风险。公司CEO埃隆·马斯克表示，该功能由特斯拉视觉系统驱动，能大幅减少伤亡概率，并将在所有新车型上作为免费标配功能提供。

产品更新多模态

08:00

Thinking Machines Lab：官方博客（RSS）

精选59

Thinking Machines Lab发布Interaction Models研究预览

Thinking Machines Lab发布interaction models研究预览。该模型从零训练，原生处理音频、视频和文本，采用多流微回合设计实现实时响应，无需外部脚手架。研究预览展示了全新的交互能力，并在智能性与响应性上取得综合SOTA表现。

智能体多模态模型发布视频

推荐理由：Thinking Machines 把实时交互训进了模型本身，不再是外挂脚手架，微轮次架构和 benchmark 数据很硬，做语音/视频助手的可以认真看看，虽然还是研究预览，但方向值得盯着。

08:00

HuggingFace Daily Papers（社区热门论文）

审计多模态LLM评估者：临床序数评分中的趋中倾向偏差

本研究评估多模态大语言模型（LLM）作为临床评分自动评估器的表现，以画钟测试（CDT）图像评分任务为例。在两个公开数据集上，使用Shulman评分标准，比较三大前沿LLM家族（如GPT-5）与监督深度学习模型。零样本LLM在容差一致性上具有竞争力，但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”：预测分数系统性向量表中间压缩，高估低分、低估高分，严重影响认知障碍筛查的关键极端分数。消融实验证明，提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域，强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。

arXiv 多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BEACON：一个从游戏数据中学习行为指纹的多模态数据集

本文发布BEACON大规模多模态数据集，旨在通过竞技游戏《Valorant》的高认知与操作负荷场景，为连续身份验证提供细粒度行为信号。该数据集包含约430GB同步多模态数据，涵盖28名玩家79次会话、总计102.51小时的实战记录，采集了高频鼠标动态、击键事件、网络数据包、屏幕录像、硬件元数据及游戏配置上下文。BEACON利用战术射击游戏固有的高精度操作与认知压力，为行为生物识别的鲁棒性提供了严格测试环境，支持连续认证、行为画像、用户漂移及多模态表征学习的研究。数据集与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

M2Retinexformer：用于低光图像增强的多模态Retinexformer

低光图像增强面临噪声、伪影和颜色失真等挑战。现有基于Retinex的深度学习方法主要依赖单模态RGB信息，性能有限。本文提出M2Retinexformer，一个新型多模态框架，在Retinexformer基础上扩展，融合深度线索、亮度先验和语义特征，采用渐进式细化流程。深度提供光照不变的几何上下文，亮度特征显式指导亮度分布，语义特征增强场景理解。多模态信息在多尺度提取，通过交叉注意力机制融合，自适应门控根据辅助线索可靠性动态平衡光照引导的自注意力和交叉注意力。在LOL、SID、SMID和SDSD基准测试上的评估表明，其性能整体优于Retinexformer及近期其他先进方法。代码与预训练权重已开源。

多模态开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MulTaBench：面向文本与图像的跨模态表格学习基准测试

针对现有表格基础模型依赖冻结预训练嵌入处理文本、图像等非结构化模态导致信息丢失的问题，研究团队推出了包含40个数据集的MulTaBench基准。该基准专注于模态间提供互补预测信息的任务，避免以往基准中模态简单共现带来的高方差问题。实验表明，针对具体任务调整嵌入能显著提升模型性能，且这一收益在文本与图像模态、多种表格学习器及不同模型规模上均具普适性。作为迄今规模最大的图像-表格基准，MulTaBench覆盖医疗、电商等高影响领域，旨在推动融合联合建模与目标感知表征的新架构研究，为开发新一代多模态表格基础模型奠定基础。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SleepWalk：一个用于压力测试指令引导视觉语言导航的三级基准

SleepWalk 是一个用于评估单场景3D世界中指令接地轨迹预测能力的基准。它基于文本描述生成可导航3D环境，要求模型根据视觉观察和语言指令，预测符合场景几何、避免碰撞且能终止于可操作位置的轨迹。该基准涵盖多样环境，并将任务按时空难度分为三级，以分析组合复杂性增加时的接地能力。在2,472个场景上对三个前沿视觉语言模型的测试显示，它们在遮挡、交互约束及多步指令下存在系统性空间推理缺陷，任务难度增加时性能显著下降。SleepWalk为推进接地的多模态推理与具身智能体研究提供了关键基准。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Urban-ImageNet：一个用于城市空间感知的大规模多模态数据集与评估框架

Urban-ImageNet是一个用于城市空间感知的大规模多模态数据集与评估基准，包含从2019年至2025年间在中国24个城市的61个地点从微博收集的超过200万张图像及配对文本。它提供1K、10K和100K规模的受控子集及完整语料库，基于HUSIC层次分类框架定义了10个类别，以区分激活与非激活公共空间、内外环境、住宿、消费、人像及非空间内容。基准支持城市场景语义分类、跨模态图文检索和实例分割三项任务。实验显示，模型在有监督场景分类上表现良好，但在跨模态检索和实例分割上更具挑战性；多尺度研究探讨了训练数据从1K增至100K时性能的变化，为AI系统感知城市空间提供了统一评估工具。

多模态数据/训练论文/研究