AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1243 条
全部一手资讯X论文
标签「多模态」清除
5月29日周五
16:30HuggingFace Daily Papers(社区热门论文)54几何 matters: 3D基础先验用于学习语义对应
15:43公众号:腾讯元宝41元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview
14:30HuggingFace Daily Papers(社区热门论文)65面向可验证的多模态深度研究:一个用于交错式报告生成的多智能体框架
11:29HuggingFace Daily Papers(社区热门论文)70同事件精选Qwen-VLA:统一跨任务、环境与机器人形态的视觉-语言-动作建模同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
11:29HuggingFace Daily Papers(社区热门论文)61AdaState:用于流式视频生成的自我演化锚点
11:29HuggingFace Daily Papers(社区热门论文)63超越3D视觉问答:将3D空间先验注入视觉语言模型以增强几何推理
11:29HuggingFace Daily Papers(社区热门论文)63神经物体运动学:NeuROK
11:29HuggingFace Daily Papers(社区热门论文)60局部模态替换:实现更深度融合的视觉语言模型
11:29HuggingFace Daily Papers(社区热门论文)75精选WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆
10:29HuggingFace Daily Papers(社区热门论文)57用于生成的原生音视频对齐
09:21IT之家(RSS)71阶跃星辰开源 Step 3.7 Flash 模型,最高生成速度每秒 400 Tokens
08:02公众号:阶跃星辰(Step)61同事件精选阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》
08:00HuggingFace Daily Papers(社区热门论文)46MechVQA:全面机械图纸理解的多模态大语言模型基准与增强
08:00HuggingFace Daily Papers(社区热门论文)66PaintBench:精确视觉编辑的确定性评估
08:00HuggingFace Daily Papers(社区热门论文)56SpatialAct: 探测VLM智能体在3D场景中的空间推理至行动能力
08:00HuggingFace Daily Papers(社区热门论文)68SVI-Bench:战略视频智能的动态微世界
08:00HuggingFace Daily Papers(社区热门论文)51MineExplorer:评估多模态大语言模型智能体在 Minecraft 中的开放世界探索能力
08:00HuggingFace Daily Papers(社区热门论文)55SOCO:视觉基础模型中的语义物体对应基准测试
08:00HuggingFace Daily Papers(社区热门论文)53SurGe:改进点映射中的表面几何
08:00HuggingFace Daily Papers(社区热门论文)62面向离散策略优化的引导对比策略优化
08:00HuggingFace Daily Papers(社区热门论文)64嵌入模型如何进行概念绑定?
08:00HuggingFace Daily Papers(社区热门论文)55iVGR: 通过强化学习将视觉锚定推理内化于多模态大语言模型
08:00HuggingFace Daily Papers(社区热门论文)59基于自回归扩散Transformer的流式同步空间音频生成
08:00HuggingFace Daily Papers(社区热门论文)59Count Anything
08:00HuggingFace Daily Papers(社区热门论文)56面向任务的多模态智能体记忆策略学习
08:00HuggingFace Daily Papers(社区热门论文)62表征强制:实现无瓶颈统一多模态模型
08:00HuggingFace Daily Papers(社区热门论文)63Lumos-Nexus: 一种基于同质潜空间的高效频率桥接视频统一模型训练框架
08:00HuggingFace Daily Papers(社区热门论文)56面向长视频理解的线性扩展视频语言模型
07:21IT之家(RSS)58WWDC26 预热:苹果下周将展示 14 篇 AI 论文,关联 iOS 27 版图乐园等
01:29HuggingFace Daily Papers(社区热门论文)61GUI-CIDER: 通过因果内化与密度感知样本重选进行中期训练的GUI智能体
00:06Google Blog:AI(RSS)61Google I/O 2026 一文速览:12 大重要时刻
00:00LMSYS:Blog(Chatbot Arena 团队)61精选LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能
5月28日周四
23:19IT之家(RSS)60消息称微软下周将推全新编程模型,以争取开发者群体认可
23:12TechCrunch:AI(RSS)65Siri新应用预览揭示苹果挑战ChatGPT等计划
21:19IT之家(RSS)55先睹为快:苹果 iOS 27 全新 Siri 界面示意图曝光
21:19IT之家(RSS)51汽车变成"超级秘书":比亚迪发布超级智能体"迪迪虾"
20:21公众号:京东JoyAI51听见京东 618:大模型时代下的声音供应链
20:19IT之家(RSS)52王传福:比亚迪天神之眼自动驾驶版(L3 / L4)将首搭超千线激光雷达
19:58公众号:龙猫LongCat(美团)44美团&顶会论文分享 | 5大专场,32篇论文解读
18:15IT之家(RSS)47科大讯飞 AI 眼镜发布:支持 122 种语言翻译,售价 4299 元
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
16:30
HuggingFace Daily Papers(社区热门论文)
54
几何 matters: 3D基础先验用于学习语义对应

自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效,但缺乏显式3D意识,易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验,使用SAM3D估计物体几何与位姿,并通过渲染比较优化进行细化。随后,基于估计位姿将PartField描述符从重建几何渲染至图像平面,生成几何感知特征图以补充DINO与Stable Diffusion特征,同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督,训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同,此框架自动获取实例级3D结构并用于指导对应学习。实验表明,该方法在减少人工几何监督的同时提升了语义对应性能。

arXivGitHub多模态论文/研究
15:43
公众号:腾讯元宝
41
元宝助手正式入驻QQ浏览器,底层模型升级至Hy3 preview

元宝助手正式入驻QQ浏览器,搜索栏、划词等AI入口全面升级为元宝助手,底层模型同步升级至Hy3 preview。新功能包括搜索栏唤起提问、跨标签读取多个网页与文件、拍照搜题分步解析、长网页一键转音频,以及写作、改文章、出图等。元宝助手已同步嵌入微信、腾讯会议、QQ音乐等腾讯系应用,Mac版本已更新,其他版本逐步放量。

产品更新多模态搜索
14:30
HuggingFace Daily Papers(社区热门论文)
65
面向可验证的多模态深度研究:一个用于交错式报告生成的多智能体框架

大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而,可验证的多模态深度研究仍面临挑战。为此,研究提出了Ptah,一个多智能体框架。它通过规划、研究和写作阶段,协调从用户查询到网页报告的生成全流程,其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明,Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。

智能体arXiv多模态论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
同事件精选70
Qwen-VLA:统一跨任务、环境与机器人形态的视觉-语言-动作建模

Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。

具身智能多模态论文/研究
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
推荐理由:Qwen-VLA 让一个模型同时搞定操作、导航和轨迹,在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段,但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通,做机器人的值得认真读。
11:29
HuggingFace Daily Papers(社区热门论文)
61
AdaState:用于流式视频生成的自我演化锚点

自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧,导致注意力缓存中的关键值表示占据特权位置,使生成的视频动态性不足、场景进展迟缓,呈现时间上的浅薄性。为此,AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量,模型在每个生成块中将其与内容一起去噪,但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点,使参考点随内容演化。这一设计将时间视为相对概念,为生成过程引入了循环性。实验证明,该自适应状态显著提升了视频动态性,能实现更丰富的运动和自然的场景进展。

多模态视频论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
63
超越3D视觉问答:将3D空间先验注入视觉语言模型以增强几何推理

视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调,导致过拟合;或集成专用3D编码器,显得笨重且不灵活。本研究提出GASP框架,直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据,通过一个小型对应头进行双目标训练:对比损失强化2D视角不变性,深度一致性监督解决3D几何歧义。分析表明,标准模型内部的对应匹配准确率极低(常低于5%);GASP训练后,该指标峰值超过70%,且时间鲁棒性超过85%。这在下游基准测试中带来显著提升,包括在All-Angles Bench上提升+18.2%,在VSI-Bench上提升+29.0%,且无需任何3D VQA数据训练。

多模态推理论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
63
神经物体运动学:NeuROK

当前数据驱动方法在静态3D物体重建上表现突出,但生成符合物理规律的4D动态形变仍具挑战,现有方法多依赖预定义物理模型与参数估计,局限于特定类别。该研究提出NeuROK,通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器,实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型,将动态生成简化为低维潜空间中的操作,从而能更高效地生成多类物体的逼真动态。

多模态数据/训练论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
60
局部模态替换:实现更深度融合的视觉语言模型

现有视觉语言模型存在“载体敏感性”问题,即将文本问题替换为等义图像后性能会显著下降,原因在于训练数据中文本和图像的角色不对称。为此,研究者提出一种轻量级、架构无关的数据整理范式LoMo,其通过将单模态提示词动态重构为“文本、图像、文本”的交错多模态序列,来提供跨模态表征不变性的监督信号。在13个多模态基准测试上的实验表明,LoMo能有效提升模型的多模态推理能力,相比标准SFT,LLaVA-OneVision-1.5-8B提升2.67分,Qwen3.5-9B提升2.82分。

多模态论文/研究
11:29
HuggingFace Daily Papers(社区热门论文)
精选75
WorldMemArena:通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段,研究提出了“行动-世界交互循环”记忆模型,并构建了WorldMemArena基准。该基准包含400个多会话多模态任务,涵盖“终身进化”和“智能体执行”两类场景,支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较,发现记忆写入与存储质量的提升不直接带来性能改善,且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由:首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准,头对头比较长上下文、RAG 和自管理记忆,结论是写得好未必用得上,做 Agent 的值得认真看。
10:29
HuggingFace Daily Papers(社区热门论文)
57
用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题,本文提出了NAVA(原生音视频对齐)框架。该框架在专用交互空间建立音视频对应关系后,利用外部上下文条件化联合去噪过程。具体实现上,NAVA采用Align-then-Fuse MMDiT架构,并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明,NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv多模态视频论文/研究
09:21
IT之家(RSS)
71
阶跃星辰开源 Step 3.7 Flash 模型,最高生成速度每秒 400 Tokens
智能体Hugging Face多模态模型发布
关联讨论 2 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)
08:02
公众号:阶跃星辰(Step)
同事件精选61
阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash,采用稀疏 MoE 架构(总参数 196B+1.8B,激活 11B),最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%,ClawEval-1.1 达 67.1%,GDPval 达 45.8%,τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议,支持云端与本地部署,已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了,兼容主流框架还开源,对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。
08:00
HuggingFace Daily Papers(社区热门论文)
46
MechVQA:全面机械图纸理解的多模态大语言模型基准与增强

MechVQA是一个面向机械工程图纸理解的全面数据集,通过半自动构建与质量控制流程生成,包含3.3k高密度图片和21K问答对,覆盖识别、推理、判断三个能力层级的10种细粒度任务。基于该数据集,研究团队开发了MechVL模型,采用多阶段训练范式,在MechVQA总分上超越最强闭源基线7.57个百分点,显著提升机械图纸理解能力,为多模态大语言模型在机械设计与检测场景中的应用提供了可复用基础。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
PaintBench:精确视觉编辑的确定性评估

PaintBench是一个动态可扩展的基准,涵盖几何变换、结构操作、颜色变化、符号推理四类共20种精确视觉编辑操作。它通过程序化生成与可配置复杂度实现无限、抗污染的评估套件,并采用确定性像素级评估(mIoU)。在11个图像编辑模型上,当前最高性能的行业领先模型仅取得17.1% mIoU。任务分解显示几何变换、大部分结构操作和基于公式的颜色变化尤为困难,且模型存在针对性专长。场景变化(如物体数量、背景复杂度、配色方案、编辑区域大小)会导致性能下降。通过另一个确定性评估基准TinyGrafixBench验证,PaintBench得分与应用任务表现存在强线性相关(R²=0.91,p<0.001)。

图像生成多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
56
SpatialAct: 探测VLM智能体在3D场景中的空间推理至行动能力

SpatialAct是一个基于模拟器的基准,用于评测视觉语言模型(VLM)智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发,设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示,当前VLM在孤立空间推理任务上表现良好,但在多轮反馈中难以维持一致的空间信念并产生可靠行动,表现显著低于人类。结果表明,即便底层控制被抽象,现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
68
SVI-Bench:战略视频智能的动态微世界

SVI-Bench是一个用于评估战略视频智能(SVI)的大型基准测试,利用篮球、足球和冰球等团队运动作为动态微世界。其数据包含约35K小时广播视频、15M标注动作、15K小时专家评论、23K比赛报告及103K结构化统计记录。评估任务涵盖动态场景理解、因果推理、战略模拟和智能体综合四个递进层级。评估显示,模型在感知任务上能达到约73%准确率,但性能随认知层级提升而急剧下降;在需自主整合证据的智能体任务中,最强模型准确率仅为5%。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
MineExplorer:评估多模态大语言模型智能体在 Minecraft 中的开放世界探索能力

研究提出了 MineExplorer 基准测试,用于评估多模态大语言模型智能体在 Minecraft 开放世界中的探索能力。该基准采用 ReAct 式能力表述,将原子任务组合为隐式多跳任务,并利用多智能体合成工作流共同设计任务图、沙盒场景和基于规则的里程碑评估器。实验表明,开放世界探索仍具挑战性,强模型能处理许多单跳任务,但在需要协调更长轨迹中隐藏先决条件时性能急剧下降。代码与数据集已开源。

arXiv多模态论文/研究评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
55
SOCO:视觉基础模型中的语义物体对应基准测试

为评估视觉基础模型对物体部件的细粒度理解能力,研究提出了新基准SOCO。该基准建立了语义对应类型分类体系,提供了跨100个类别、超过100万对应对的统一关键点标注,并包含关键点语言描述,以支持对大型视觉-语言模型的评估。实验发现,视觉基础模型虽编码了强语义结构,但在相关类别间的对应关系迁移能力较弱;大型视觉-语言模型在文本提示的部件定位上优于视觉参考的跨图像匹配;且对应性能比分更能预测分割、跟踪等密集预测下游任务的表现。

arXiv多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
SurGe:改进点映射中的表面几何

SurGe 模型解决了 feedforward 3D 重建方法在点映射中局部表面几何不准确的问题。它引入了点映射法线指标来评估局部表面方向,并提出点梯度匹配损失和 Neighborhood Attention Decoder (NAD) 两个组件。在八个零样本单目几何基准测试中,SurGe 在全局点映射 AbsRel 上获得最佳平均排名,并一致改善局部点映射和法线评估。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
面向离散策略优化的引导对比策略优化

针对现有基于组优势的强化学习方法(如GRPO和DAPO)在所有token上采用统一奖励、无法细粒度分配信用的问题,本文提出引导对比策略优化(GCPO)。该方法通过对比模型在正负提示下的预测,将token级优势与对比预测差异成比例分配,从而提供更精确的学习信号。实验表明,GCPO能有效强调语义相关区域(如图像生成中与文本对齐的视觉区域、推理链中的关键词),并在文本到图像生成和思维链推理基准测试中均优于GRPO和DAPO基线。

多模态开源生态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
嵌入模型如何进行概念绑定?

人类能轻松完成概念绑定,而以CLIP为代表的视觉-语言嵌入模型在此方面存在不足。研究发现,尽管CLIP的场景嵌入可通过加法分解为物体表示,但其绑定函数的复杂度较高,阻碍了模型学习能泛化到新概念组合的共享机制。不过,这种限制并非根本性的。研究表明,从头训练的受控Transformer模型在数据覆盖充分时,能通过概念间的乘法交互学习到低复杂度的绑定函数,从而实现系统性的泛化。

arXiv多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
iVGR: 通过强化学习将视觉锚定推理内化于多模态大语言模型

研究发现,在多模态大语言模型(MLLMs)推理阶段强制使用带有显式物体框的视觉锚定CoT,其效果反而不如标准文本推理。作者提出iVGR框架,旨在通过强化学习将视觉定位能力内化到文本推理过程中。该框架采用双流训练策略,利用一致性奖励将文本流与高质量视觉锚定流对齐,使模型在推理时无需显式锚定即可准确进行视觉定位。实验表明,该方法在细粒度基准测试上显著优于现有基线,并支持工具辅助推理流程。

多模态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
59
基于自回归扩散Transformer的流式同步空间音频生成

针对实时高质量空间音频生成中存在的质量与延迟权衡及多模态空间信息捕捉难题,本文提出了SwanSphere。这是一个统一的流式框架,用于从全景视频和文本提示生成高保真空间音频。其核心贡献在于:1) 提出了一种因果自回归扩散Transformer架构,实现了流式的高质量生成;2) 设计了空间视频-音频对比学习策略来对齐视频编码器与声学域,并结合多目标在线直接偏好优化,增强了空间感知与多模态合成的鲁棒性;3) 开发了一个自动标注流程,用于生成详细的空间描述,以缓解数据稀缺问题。实验证明,SwanSphere在视频到空间音频和文本到空间音频任务中均表现优异。

多模态论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
59
Count Anything

为解决现有对象计数模型在跨类别、跨领域和跨密度分布场景下泛化能力不足的问题,本研究提出了Count Anything,一个文本引导的通用对象计数模型。该模型以图像和自然语言查询为输入,输出实例级的目标点集并以点数作为计数值。为此,研究构建了CLOC跨域大规模对象计数数据集,涵盖六个视觉领域约22万张图像、619个类别和1500万个对象实例。Count Anything采用双粒度实例枚举策略:区域级稀疏计数器为大而稀疏的目标提供锚点,像素级密集计数器处理小而密集的目标。通过互补计数融合机制无参数地结合两者,在多个领域展现出优于现有开世界计数方法的准确性和泛化能力。

多模态数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
面向任务的多模态智能体记忆策略学习

多模态智能体的长期记忆面临“该记什么”的核心挑战。为此,研究者提出了TaskMem框架,这是一种基于强化学习的记忆策略学习方法,采用两阶段训练范式:第一阶段学习如何记忆以保证记忆质量,第二阶段在部署后根据具体任务学习记什么。该方法基于Qwen3-VL-30B-A3B构建,并在将VideoMME、EgoLife和EgoTempo重构为流式基准测试后,分别将VQA准确率提升了6.3%、7.0%和5.3%。

智能体多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
表征强制:实现无瓶颈统一多模态模型

现有统一多模态模型(UMMs)仍依赖冻结的、单独预训练的VAE进行图像生成,这造成了结构瓶颈。本文提出表征强制(RF)技术,通过强制解码器在生成像素前,先自回归预测作为中间token的视觉表征,并使其留在上下文中引导同一骨干网络内的像素扩散。此举将表征从感知输出转变为生成目标,从而消除了对外部生成潜空间的需求。实验证明,RF能同时增强模型的理解与生成能力:其像素空间模型在图像生成上匹配了基于VAE的最先进模型,在图像理解上则通常优于对应的VAE变体。

多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
Lumos-Nexus: 一种基于同质潜空间的高效频率桥接视频统一模型训练框架

针对现有指令驱动视频统一模型因集成高保真生成器导致训练计算成本高昂的问题,Lumos-Nexus 提出了一种两阶段高效训练框架。训练阶段,模型仅将轻量生成器与理解模块对齐,学习接收推理驱动的语义控制。推理阶段,则引入统一渐进频率桥接机制,在共享潜空间中逐步将生成任务移交至高容量的预训练生成器,实现由粗到细的优化,生成高质量视频。为评估此能力,研究同时发布了新基准 VR-Bench。实验证明,该模型在 VBench 上视觉真实度和时间连贯性显著提升,并在 VR-Bench 上展现出强大的推理生成性能。

多模态推理视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
面向长视频理解的线性扩展视频语言模型

本文提出StateKV,一种推理时方法,使预训练长视频VLM的视频预填充达到线性时间复杂度。其核心是通过固定容量、基于重要性的循环状态携带跨帧上下文,并搭配第二个完整的每帧缓存用于解码。在三个长视频基准和多个模型上的实验表明,StateKV的性能接近全自注意力机制,并持续优于主流的滑动窗口等流式近似方法,且无需微调或架构改变。该方法降低了预填充的FLOPs成本,允许在固定算力下使用更大模型以获得更高准确率,为可扩展的长视频理解提供了实用方案。

arXiv多模态推理论文/研究
07:21
IT之家(RSS)
58
WWDC26 预热:苹果下周将展示 14 篇 AI 论文,关联 iOS 27 版图乐园等
图像生成多模态行业动态
01:29
HuggingFace Daily Papers(社区热门论文)
61
GUI-CIDER: 通过因果内化与密度感知样本重选进行中期训练的GUI智能体

针对多模态大语言模型构建的GUI智能体因缺乏操作世界知识导致任务完成能力受限的问题,本文提出GUI-CIDER中期训练方法。该方法通过三个阶段显式内化知识:首先从GUI轨迹中合成静态规划与动态因果知识文本;然后通过奖励因果结构、惩罚语义冗余进行样本重选;最后使用精炼数据进行中期训练以嵌入知识。实验表明,该方法一致提升了智能体对GUI操作的理解与任务成功率。代码已开源。

智能体多模态论文/研究
00:06
Google Blog:AI(RSS)
61
Google I/O 2026 一文速览:12 大重要时刻

Google I/O 2026 发布会上披露了 12 个重要时刻,其中包括 Gemini Omni 和 Gemini 3.5 Flash 等产品的相关消息。

Google产品更新多模态推理
关联讨论 1 条Google Research:Blog(网页)
00:00
LMSYS:Blog(Chatbot Arena 团队)
精选61
LMSYS与Intel合作通过异构CPU+GPU EPD架构提升视觉语言模型服务性能

LMSYS团队(Intel与SGLang)通过Dynamo和SGLang框架,为视觉语言模型(VLM)启用了异构编码-预填充-解耦(EPD)架构。该方案将视觉编码任务从GPU卸载至CPU(如Intel Xeon 6747P),与GPU协同工作。在Qwen3-VL-8B-Instruct模型的测试中,采用4 CPU + 1 GPU作为编码器、4 GPU作为预填充解码器(能力比R=12)的配置,在ISL/OSL 128/256、1080p 8张图像的负载下,实现了P99 TTFT和请求吞吐量约1.2倍至1.3倍的提升,并将P99 TPOT降低了约1.3倍至30倍。

多模态推理教程/实践部署/工程

推荐理由:做VLM服务部署的可以认真看一下,用CPU头节点做异构EPD分离,几乎零成本换来了TTFT和TPOT的显著提升,有完整脚本和benchmark,能直接上手试。
5月28日
23:19
IT之家(RSS)
60
消息称微软下周将推全新编程模型,以争取开发者群体认可

微软计划在下周Build大会发布多款自研AI模型,旨在争取开发者认可。其中将包含一款编程专用模型,以提升GitHub Copilot的竞争力,应对Cursor与Claude Code等对手的挑战。同时,微软还将推出多款不同规格的新模型,具备语音转写、逻辑推理、语音处理及图像生成等技能。

Microsoft多模态模型发布编码
23:12
TechCrunch:AI(RSS)
65
Siri新应用预览揭示苹果挑战ChatGPT等计划

新渲染图展示了苹果计划在 iOS 27 中对 AI 进行重大改造的细节,包括重新设计的 Siri 体验以及一款独立的 Siri 应用。

多模态行业动态
21:19
IT之家(RSS)
55
先睹为快:苹果 iOS 27 全新 Siri 界面示意图曝光
产品更新多模态搜索端侧
21:19
IT之家(RSS)
51
汽车变成"超级秘书":比亚迪发布超级智能体"迪迪虾"

比亚迪发布超级智能体“迪迪虾”,基于整车智能体系打造,实现全仓记忆、跨域互动、端云协同与快慢思考。该智能体具备自然人机交互、主动服务和复杂任务处理能力,支持多轮对话、用户偏好记忆与模糊指令理解。演示中,系统展示了自动调节空调、识别儿童入睡状态、处理包含导航与补能的复杂指令链路等功能,并接入生活服务。比亚迪同步将开放车机生态升级为面向 AI Agent 的“智能体生态”。

智能体产品更新多模态
20:21
公众号:京东JoyAI
51
听见京东 618:大模型时代下的声音供应链

京东自研JoyAI语音大模型LiveTTS具备多语种、情绪解耦、语速解耦、捏声音色及一句话音色克隆(3—10秒语音)五大能力,已接入JoyClaw技能商店。覆盖10余种语言和8种方言,支持同一音色多方言与情绪表达。应用于JoyInside智能终端、JoyAI App万能博士、数字人JoyStreamer(累计服务超7万商家)及AI播客。618期间支撑千万级并发实时交互,为智能客服、数字人直播等场景提供低延迟语音输出。

产品更新多模态语音
20:19
IT之家(RSS)
52
王传福:比亚迪天神之眼自动驾驶版(L3 / L4)将首搭超千线激光雷达

比亚迪董事长王传福宣布,天神之眼自动驾驶版(L3 / L4)将首搭超千线激光雷达、闪拍摄像头和双远红外摄像头。他强调电动化上半场看电池,智能化下半场看芯片,并指出比亚迪是国内首个造出车规级IGBT和SiC功率芯片的企业。

产品更新多模态端侧
19:58
公众号:龙猫LongCat(美团)
44
美团&顶会论文分享 | 5大专场,32篇论文解读

2026年,美团数十篇论文被ACL、SIGIR、ICML、KDD等顶会收录,精选32篇分为5大专场进行直播解读。内容涵盖大模型推理、智能体记忆与自进化、代码智能、多模态交互、超高清视频生成、本地生活搜索等方向,既有底层能力突破也有生活服务落地探索。活动自6月11日起陆续直播,可报名参与。

多模态推理行业动态
18:15
IT之家(RSS)
47
科大讯飞 AI 眼镜发布:支持 122 种语言翻译,售价 4299 元
产品更新多模态语音
‹ 上一页
1…1112131415…32
下一页 ›