AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「多模态」清除
5月26日周二
12:18HuggingFace Daily Papers(社区热门论文)61Helix4D:复杂动态网格生成
12:11IT之家(RSS)62小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA
11:18HuggingFace Daily Papers(社区热门论文)61迈向原生多模态建模:一份路线图
11:18HuggingFace Daily Papers(社区热门论文)70精选WBench:面向交互式世界模型评估的多轮基准
11:18HuggingFace Daily Papers(社区热门论文)66TriSplat:面向仿真的前馈式3D场景重建网络
11:11IT之家(RSS)32用户反馈智能家居版谷歌 Gemini AI 短板:猫当成浣熊,袋鼠识别为"人"
10:18HuggingFace Daily Papers(社区热门论文)63MetaphorVU:迈向隐喻视频理解
09:22Elon Musk67同事件精选Grok Build使用指南同一事件,精选展示《Grok Build 0.1 on API》
08:00HuggingFace Daily Papers(社区热门论文)39MERIT:用于音频相似度学习的解耦音乐表示
08:00HuggingFace Daily Papers(社区热门论文)54PANDO:通过在线技能蒸馏实现高效多模态AI智能体
08:00HuggingFace Daily Papers(社区热门论文)56OmniInteract:实时全模态助手的真实场景流式交互基准测试
08:00HuggingFace Daily Papers(社区热门论文)55如何与想象什么?--统一多模态模型中用于跨视图空间推理的视觉思考
08:00HuggingFace Daily Papers(社区热门论文)61Chartographer:用于评估视觉语言模型的反事实图表生成
01:28Rohan Paul22AI视觉激光除草机器人实时精准清除杂草
5月25日周一
20:54Alibaba Cloud31Qwen大会探讨AI赋能影视广告创作新前沿
20:54Alibaba Cloud24通义千问大会探讨多模态未来与架构变革
20:24Alibaba Cloud41Qwen大会探讨AI驱动数字包容新前沿
18:49蚂蚁 inclusionAI:HuggingFace 新模型71同事件精选<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
15:53向阳乔木57Suno生成小甜歌的风格与参数分享
15:25蚂蚁 inclusionAI:GitHub 新仓库67精选蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard
14:53Alibaba Cloud40新加坡探讨智能体AI前沿与跨行业应用
13:53向阳乔木64X不让直接发音频,可以直接让Codex帮把音频转成MP4。 当然,会ffmpeg指令的话也很简单,但大模型太适合做这种转格式操作了。
13:21小互61影眸科技发布 Rodin Gen-2.5 3D 生成模型
11:17karminski-牙医58数字人模型本地都能跑了吗?
09:18Berryxia.AI20我靠这个设计巧思,交互太丝滑了。 Claude可以复刻出来吗?
08:00HuggingFace Daily Papers(社区热门论文)44StreamChar:面向角色动画的流式音视频生成框架
08:00HuggingFace Daily Papers(社区热门论文)57通过多视角基础模型的统一全景几何估计
08:00HuggingFace Daily Papers(社区热门论文)56Fast-dDrive:用于自动驾驶的高效块扩散视觉语言-动作模型
08:00HuggingFace Daily Papers(社区热门论文)60推进大型多模态模型的创造性物理智能
08:00HuggingFace Daily Papers(社区热门论文)61重新思考VLA初始化中的VLM表征
08:00HuggingFace Daily Papers(社区热门论文)53LLaVA-OneVision-2:迈向新一代感知智能
08:00HuggingFace Daily Papers(社区热门论文)56LongAV-Compass:面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架
08:00HuggingFace Daily Papers(社区热门论文)68看得越多,就懂得越多吗?单锚点优势归一化实现多源视觉推理
08:00HuggingFace Daily Papers(社区热门论文)61从多模态大语言模型中挖掘主体驱动生成能力
5月24日周日
23:23PixVerse62Pixverse角色设计工作流测试
21:57The Decoder:AI News(RSS)59字节跳动研究发现:向多模态大模型提问比转录文本更利于长文档训练
16:27Rohan Paul47李飞飞:空间智能开启无限虚拟宇宙新纪元
16:22Alibaba Cloud42通义大模型专家将分享智能体时代基础模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月26日
12:18
HuggingFace Daily Papers(社区热门论文)
61
Helix4D:复杂动态网格生成

Helix4D是一个动态网格生成框架,旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力,将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量,它采用了滑动窗口跨帧注意力并锚定第一帧。同时,其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度,无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究
12:11
IT之家(RSS)
62
小米汽车发布 Xiaomi Auto World Model 世界模型全新框架:重建 + 生成一体化,主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架,首次将三维重建与视频生成深度耦合,打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA,并已在合成数据生成(已交付超10万 clips 数据)、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频
11:18
HuggingFace Daily Papers(社区热门论文)
61
迈向原生多模态建模:一份路线图

本文提出了从多模态无关推理迈向世界建模的路径,聚焦从后期融合范式转向原生多模态建模(NMM)。研究正式定义了架构的原生性,将中期融合与早期融合从非原生范式中区分,并依据输入输出对偶性将现有原生模型分为三类:用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”,以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径,涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。

多模态论文/研究
11:18
HuggingFace Daily Papers(社区热门论文)
精选70
WBench:面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。

arXiv多模态视频论文/研究

推荐理由:视频世界模型的评估终于有了统一尺度,WBench 从画面质量到物理一致性覆盖五个维度,289 个测试用例把 20 个模型拉平一看,没有谁全面领先,做这方向的值得拿来跑一遍。
11:18
HuggingFace Daily Papers(社区热门论文)
66
TriSplat:面向仿真的前馈式3D场景重建网络

TriSplat是一种前馈式3D场景重建网络,采用定向三角形基元表示场景。它能直接从稀疏视角图像,通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿,并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明,其几何保真度优于基于高斯的前馈基线,同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用,无需额外转换。

具身智能多模态论文/研究
11:11
IT之家(RSS)
32
用户反馈智能家居版谷歌 Gemini AI 短板:猫当成浣熊,袋鼠识别为"人"

澳大利亚用户反馈,智能家居版 Gemini for Home 在摄像头画面中出现识别错误:将猫误判为浣熊,把袋鼠和沙袋鼠错误归类为“人”,并将当地常见的多用途车辆 ute 统一标为普通卡车。用户表示即使已开启个性化功能并设置位置为澳大利亚,这些误识别问题仍持续出现。

Google多模态行业动态
10:18
HuggingFace Daily Papers(社区热门论文)
63
MetaphorVU:迈向隐喻视频理解

为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。

arXiv多模态论文/研究评测/基准
09:22
Elon Musk@elonmusk
同事件精选67
xAI发布了面向非技术背景的SuperGrok和X Premium+用户的Grok Build入门视频教程。教程提供了分步指南,核心内容包括:通过一条命令快速安装Grok Build;利用其创建真实的网站;使用内置的Grok Imagine工具自动生成图像与视频;以及在不同文件夹中同时运行多个项目。整个过程无需任何编程经验,并且Grok可以协助执行命令。

Dan: Beginner video: How to install & use Grok Build (made for non-technical SuperGrok and X Premium+ users) I got so many qu...

xAI多模态教程/实践
同一事件,精选展示《Grok Build 0.1 on API》
推荐理由:Elon 亲自转发的教程把 Grok Build 门槛压到了零编码,直接面向普通用户,是目前最友好的官方入门信号。
08:00
HuggingFace Daily Papers(社区热门论文)
39
MERIT:用于音频相似度学习的解耦音乐表示

MERIT 是一个用于学习解耦音乐表示的框架,旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题,MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略,以鼓励训练数据中出现单因素的变化。评估结果显示,MERIT 实现了强大的因子解耦性,每个表示头对其目标感知维度有强烈响应,而在其他维度上表现接近随机,这一特性在合成训练域和独立的真实世界音频中均成立。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
PANDO:通过在线技能蒸馏实现高效多模态AI智能体

多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹,识别出重复动作循环等低效来源,并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库,结合反思、分层路由、视觉压缩等技术。在 910 个任务上,其成功率达 58.3%,优于 SGV (54.0%) 和 WALT (45.2%),且 token 消耗分别减少 58% 和 61%,无需预评估预算。消融研究也验证了其高效性。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
OmniInteract:实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频,定义了1,430个需要模型在线响应的时段:1,062个涵盖实时、主动与嵌套场景的单问单答时段,以及368个多问多答时段。模型必须处理原始音视频流,且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明,当前模型在流式交互上表现薄弱,最优的整体IA-QTF1分数仅为0.368。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
如何与想象什么?--统一多模态模型中用于跨视图空间推理的视觉思考

跨视图空间推理是视觉语言模型的薄弱环节,因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题,但模型常忽略这些视觉证据。研究提出View Dropout训练策略,通过隐藏部分输入视图的应答区域,同时保持思考图像token可见,来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡,并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后,结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置,实现了最佳跨域泛化。

arXiv多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
Chartographer:用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限,模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力,研究提出了“反事实图表”方法,即在保持图表-问答任务不变的前提下,改变底层图表及其答案。为此,研究引入了Chartographer框架,该框架能将图表逆向工程为可执行代码,验证重建保真度,生成种子可控的变体,并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集,研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明,反事实图表揭示了单一图表测试所隐藏的失败:模型在正确回答原始图表后,往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准
01:28
Rohan Paul@rohanpaul_ai
22
这款自主除草机器人使用AI视觉在幼苗作物中检测杂草,并立即用高精度激光脉冲进行定向清除。 实时车载GPU绘制每株植物位置,并精确引导激光对准杂草 @carbon_robotics
具身智能多模态教程/实践
5月25日
20:54
Alibaba Cloud@alibaba_cloud
31
在Qwen Conference 2026上,Fizzdragon CEO Pax Chen加入基础模型论坛,解析《从剧本到银幕只需几分钟:AI如何赋能电影、广告与创意内容》。深入探讨AI驱动创意工作流的下一个前沿。走进AI原生浪潮。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
多模态行业动态视频
20:54
Alibaba Cloud@alibaba_cloud
24
在通义千问大会 2026 上,行业远见者与生态先锋将在基础模型论坛登台,参与关于通义千问多模态未来的圆桌讨论。深入解析推动跨模态对齐的架构变革。感受 AI 原生动力。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
多模态行业动态
20:24
Alibaba Cloud@alibaba_cloud
41
在Qwen Conference 2026上,Kara Tech CEO Arash Tayebi加入基础模型论坛,讨论"超越字幕:AI驱动的数字包容新前沿"。感受AI原生动力。 🚀 敬请关注:https://click.qwencloud.com/m/20000000190/
多模态行业动态
18:49
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选71
<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁的 SingGuard 把安全策略变成了运行时输入,意味着审核规则可以随时改而不必重训模型,这对做内容安全的产品人是真省事,值得跟进。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选69
蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。

Hugging Face多模态安全/对齐开源/仓库
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁集团开源的多模态内容审核模型,最大亮点是运行时动态注入安全策略而不需重训,对需要灵活定制审核规则的团队是低门槛的高分工程实现。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选68
inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:SingGuard把安全策略变成运行时输入,不用再为新规则重新训练模型,这对需要频繁调整审核标准的团队来说是个实用的发布。
15:53
向阳乔木@vista8
57
Suno生成小甜歌的风格与参数分享

推文分享了使用Suno生成一首“小甜歌”的经验,其风格选择了Dream Pop(营造梦幻朦胧的空间感)与Disco-lite(提供有律动但不重的节奏)。在人声提示词上使用了“Breathy female vocal”以模拟女孩在耳边哼唱的效果,情绪设定为“Softly euphoric”以实现轻柔的欣快感,并应用了“Soft reverb”。最后附上了生成歌曲的链接。

多模态教程/实践
15:25
蚂蚁 inclusionAI:GitHub 新仓库
精选67
蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard

SingGuard 是蚂蚁 inclusionAI 开源的多模态安全护栏模型族,提供 2B、4B、8B 三个参数版本。它将安全策略作为运行时输入,支持文本、图像、图文、多语言及查询/回复侧的安全评估,无需重新训练即可适配不同规则。采用快慢动态推理机制,在低延迟场景下输出紧凑判断,对模糊或高风险内容进行策略引导的推理。在多模态安全、图像安全、文本查询与回复安全、多语言查询与回复安全等基准上达到 SOTA 平均性能。模型已上架 HuggingFace 和 ModelScope。

多模态安全/对齐模型发布

推荐理由:蚂蚁 inclusionAI 把安全护栏做成了“运行时可配置”的模型,换审核规则不用重训,对需要快速适配法规的团队是个真需求。不过生态刚起步,暂时还是小众工具。
14:53
Alibaba Cloud@alibaba_cloud
40
5月26日,行业先驱与远见者齐聚新加坡金沙会展中心,深入分析智能体AI的绝对前沿--从核心基础设施到跨行业多模态工作流。 🚀 了解更多信息:https://click.qwencloud.com/m/20000000190/
智能体多模态行业动态
13:53
向阳乔木@vista8
64
X不让直接发音频,可以直接让Codex帮把音频转成MP4。 当然,会ffmpeg指令的话也很简单,但大模型太适合做这种转格式操作了。
多模态教程/实践编码
13:21
小互@xiaohu
61
影眸科技发布 Rodin Gen-2.5 3D 生成模型

影眸科技推出 Rodin Gen-2.5,号称全球首个千万面级 3D 生成模型。该模型提供从极低(4秒)到极高(80秒)的五档思考模式,以平衡生成速度与细节精度。其原生 3D 贴图算法能在三维空间直接生成纹理,支持 PBR 材质与 360° 无死角覆盖,并提供 Faithful(贴合参考)与 Creative(自动优化)两种贴图模式。该模型已获 SIGGRAPH 2025 最佳论文奖。

多模态模型发布
11:17
karminski-牙医@karminski3
58
数字人模型本地都能跑了吗?

美团发布数字人模型LongCat-Video-avatar-1.5,可通过图片和音频生成口播视频。demo仅支持5秒480p视频。实测中人物嘴部遮挡案例效果与SOTA有差距,主要在口型。最大分辨率720p,但可AI提升至4K。模型本地部署可行,对动漫人物泛化,但体积大,int8量化需16G显存。

多模态视频评测/基准
09:18
Berryxia.AI@berryxia
20
我靠这个设计巧思,交互太丝滑了。 Claude可以复刻出来吗?
其他多模态
08:00
HuggingFace Daily Papers(社区热门论文)
44
StreamChar:面向角色动画的流式音视频生成框架

StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件,再由联合音视频DiT执行局部双向去噪。为实现高效部署,框架采用两阶段蒸馏流水线。此外,利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明,StreamChar在单张H100 GPU上能实时运行,并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
57
通过多视角基础模型的统一全景几何估计

PaGeR(全景几何重建)是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构,通过最小化改动并混合透视与全景图像进行训练,使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能,能够在室内和室外环境中从单张全景图像估计几何一致的360度场景,展现出卓越的零样本性能。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Fast-dDrive:用于自动驾驶的高效块扩散视觉语言-动作模型

Fast-dDrive是一种块扩散视觉语言-动作模型,旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼,同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架,并采用分段感知训练,优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均,以低成本有效抑制预测方差。实验表明,Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩,在nuScenes上将平均L2误差降至0.32米(提升22%),集成SGLang后较自回归基线实现12倍吞吐量提升。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
60
推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型(LMMs)在开放环境中发现物理可行视觉解决方案的能力。为此,推出了MM-CreativityBench基准,用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明,当前LMMs因无法维持扎根式探索而表现不佳,常忽略实体、检查不足或产生模型幻觉。为此,研究提出功能可供性扎根对齐方法,将创造性工具使用建模为偏好学习问题,利用DPO引导模型选择基于视觉证据的推理,并结合可供性知识库监督,以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
重新思考VLA初始化中的VLM表征

视觉-语言-动作(VLA)模型常以预训练视觉-语言模型(VLM)为骨干,但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题,沿三个轴实验:具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致,取决于下游瓶颈。LoRA比全量微调更可靠,表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升,最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时,保留预训练VLM中对动作学习有用的表征。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
LLaVA-OneVision-2:迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术,通过分析压缩视频的比特成本动态进行自适应分组,并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标,并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中,其 8B 版本达到 74.9 分的 mAP,显著超越 Qwen3-VL-8B(30.1 分),且在匹配 token 预算下,编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
LongAV-Compass:面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例,覆盖文本到音视频(T2AV)、图像到音视频(I2AV)和视频到音视频(V2AV)三种条件模态。该基准采用分类引导构建方法,并整合了统一评估框架。该框架结合了多模态大模型(MLLM)辅助评估与多种感知及多模态指标,例如 DINO-v2、ArcFace、CLIP 和 ImageBind,对超过 20 个细粒度维度进行评分,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证,LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv多模态视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
看得越多,就懂得越多吗?单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习(RLVR)视觉推理方法在处理多源输入时,常将其视为简单信息堆叠,缺乏机制区分融合带来的信息增益与噪声干扰,导致多源性能可能低于单源。为此,本文提出MARS框架,将每种视觉模态建模为独立信息源,并以单源奖励为动态锚点,将多源融合引入的信息增益显式纳入优势归一化过程,以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明,该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
从多模态大语言模型中挖掘主体驱动生成能力

现有主体驱动生成方法因分别编码文本与参考图像,存在跨模态推理不足与复制粘贴伪影等问题。本研究将扩散模型建立在联合编码文本与参考图像的多模态大语言模型(MLLMs)之上,并引入基于VAE的身份条件。通过设计双层聚合(DLA)模块汇聚多层次的MLLM特征,以及采用多阶段去噪策略,在推理时逐步平衡来自MLLM的语义信息与来自VAE的身份细节。实验表明,该方法能协调多模态理解与身份保留,缓解复制粘贴问题,并在人类偏好评估中取得优越性能。

图像生成多模态论文/研究
5月24日
23:23
PixVerse@PixVerse_
62
在Pixverse中进行角色设计工作流测试 使用GPT Image 2.0为Lucas创建视觉形象,使用Seedance 2.0制作动画弹跳表演。 从静态概念图到电影级动态效果。 RT + Follow + Reply = 工作流
图像生成多模态教程/实践视频
21:57
The Decoder:AI News(RSS)
59
字节跳动研究发现:向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明,一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时,比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍,该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式,优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究
16:27
Rohan Paul@rohanpaul_ai
47
李飞飞:空间智能开启无限虚拟宇宙新纪元

李飞飞重新定义机器人学,强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限,创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来,人们将以“多元宇宙”的方式生活,极大拓展人类想象与交互的边界。

a16z: For all of history, humanity shared one 3D world. @theworldlabs co-founder @drfeifei says spatial intelligence now lets ...

具身智能多模态大佬观点
16:22
Alibaba Cloud@alibaba_cloud
42
5月26日,通义大模型事业部多模态交互负责人Steven Hoi教授将在新加坡金沙会展中心主舞台,解析智能体时代的基础模型。 🚀 报名链接:https://click.qwencloud.com/m/20000000190/
智能体多模态行业动态
‹ 上一页
1…2425262728…50
下一页 ›