4月29日

10:38

HuggingFace Daily Papers（社区热门论文）

针对当前统一多模态模型（UMMs）主要遵循的基于编辑（RvE）精修范式存在修改空间受限、指令描述粗略导致精修不完整的问题，本研究提出了一种基于再生（RvR）的新框架。RvR将精修任务重新定义为条件图像再生，其核心是依据目标提示词和初始图像的语义令牌进行整体图像再生，而非生成粗略的编辑指令并强制保留像素。这种方法突破了原有范式对修改空间的限制，实现了更完整的语义对齐。实验结果表明，RvR在多个基准测试上均取得显著性能提升：Geneval得分从0.78升至0.91，DPGBench从84.02提高到87.21，UniGenBench++则从61.53跃升至77.41。

图像生成多模态论文/研究

10:38

HuggingFace Daily Papers（社区热门论文）

互促学习：面向快速自回归音视频角色生成的双模式自演进框架

本文提出Mutual Forcing框架，用于实现长时序音视频同步的快速自回归生成。该框架采用两阶段训练，先训练单模态生成器，再耦合为统一模型进行联合训练。其核心创新在于直接基于原生自回归模型，将少步与多步生成集成于单一权重共享模型中，通过自蒸馏提升训练-推理一致性。相比此前需要约50采样步的方法，本方法仅需4至8步即可达到或超越基线性能，在效率与质量上均具优势。该方法无需额外双向教师模型，支持更灵活的训练序列长度，并可直接从真实配对数据中学习。

多模态视频论文/研究

08:33

IT之家（RSS）

英伟达推出 Nemotron 3 Nano Omni 模型：采用 30B-A3B 混合 MoE 架构，吞吐量最高提升 9.2 倍

英伟达发布开源全模态推理模型Nemotron 3 Nano Omni，采用30B‑A3B混合MoE架构，集视频、音频、图像和文本处理于一体。该模型旨在替代多模型链，降低推理成本与编排复杂度。在多项基准测试中表现领先，尤其在视频推理任务中，其系统吞吐量相比其他开放式全模态模型最高提升约9.2倍，文档推理任务最高提升约7.4倍。模型权重、训练配方及数据集已完全开放，支持开发者在各类环境中定制部署。

智能体多模态推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

ComboStoc：扩散生成模型中的组合随机性

本文针对扩散生成模型中未被充分研究的组合复杂性问题，指出现有训练方案可能难以充分覆盖高维数据样本及其附加属性所构成的空间，从而限制模型性能。为此，我们提出了ComboStoc方法，通过构建充分利用组合结构的随机过程，显著加速了图像和3D形状等多种数据模态的网络训练。此外，该方法还支持在测试时生成过程中，为不同维度和属性使用异步时间步，从而实现对它们不同程度的灵活控制。代码已开源。

arXiv 图像生成多模态论文/研究

08:00

Apple Machine Learning Research（RSS）

DSO：用于缓解偏见的直接引导优化

研究团队提出DSO方法，旨在缓解视觉语言模型决策中的社会偏见。该方法允许用户在模型部署时，通过单一标量参数直接、实时地控制偏见缓解程度，实现无需重新训练的动态调整。实验表明，DSO能在偏见指标上实现高达90%的改善，同时将性能损失控制在10%以内，有效平衡了偏见缓解与任务性能。这一技术为需要根据具体场景权衡公平性与效用的应用提供了灵活解决方案。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

协同进化策略蒸馏（CoPD）

研究提出协同进化策略蒸馏（CoPD），以解决混合RLVR的跨能力发散问题和传统OPD因行为模式差距导致的能力吸收不全问题。CoPD通过推动专家并行训练，并在每个专家的RLVR训练中引入双向OPD，使专家互为教师、协同进化，从而保持行为模式一致且知识互补。实验表明，CoPD能全面集成文本、图像和视频推理能力，性能显著优于混合RLVR和MOPD等基线，甚至超越领域专用专家。该方法可能启发新的训练扩展范式。

智能体多模态推理论文/研究

07:33

IT之家（RSS）

加速你的创意落地：Claude AI 接入 Adobe、Blender 等创意软件生态

Anthropic于4月29日宣布升级Claude AI，新增专属连接器，全面接入Adobe、Blender等八大主流创意软件生态。此次更新将AI能力深度整合至专业工作流，用户可直接在Adobe系列软件中调用50多项工具，在Autodesk Fusion中通过对话创建修改3D工业模型，在Blender中生成脚本与调试场景。此外，音频软件Ableton和Splice用户也能快速查询文档与检索采样库。Claude旨在充当智能助手，自动化处理重复任务，让创作者更专注于核心创意。

Anthropic MCP/工具产品更新多模态

00:37

Hugging Face：Blog（RSS）

精选70

介绍 NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态模型

NVIDIA 发布了 Nemotron 3 Nano Omni 模型，这是一个专为处理长上下文多模态任务设计的轻量级模型。该模型能够同时理解并处理文档、音频和视频数据，旨在赋能新一代多模态智能体。其核心变化在于将长上下文能力与多模态理解结合到一个小型化模型中，提升了在复杂跨模态场景下的处理效率与应用灵活性。

多模态模型发布端侧

推荐理由：NVIDIA 把多模态长上下文塞进 Nano 级别模型，文档、音频、视频 Agent 通吃，做端侧多模态应用的团队值得认真看看这个架构思路。

00:06

Google Blog：AI（RSS）

庆祝 Google Translate 20 周年：趣闻、技巧与可尝试的新功能

Google Translate 迎来 20 周年，从 2006 年的一项 AI 实验起步，现已支持近 250 种语言。官方分享了 20 条相关趣闻，并介绍了用户可尝试使用的实用技巧与新功能，以展示其多年来的技术演进与服务扩展。

Google 产品更新多模态

4月28日

20:46

公众号：可灵AI（快手·视频）

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元斩获大奖

可灵AI超创亮相北京国际电影节，多部作品入围AIGC单元并斩获大奖。

多模态行业动态视频

20:08

The Decoder：AI News（RSS）

Google的"Ask YouTube"将视频搜索转变为对话

谷歌正在测试名为“Ask YouTube”的对话式搜索功能。该功能将传统的视频列表结果页面，替换为融合文本摘要、完整长度视频及Shorts短视频的综合结果页。用户可通过自然语言对话进行搜索，获得更直接、整合的信息呈现，标志着视频搜索体验从关键词匹配向交互式对话转变。

产品更新多模态搜索

19:06

公众号：昆仑万维（天工）

昆仑万维"4+3战略"落地首季：一季度营收25.7亿元，视频与音乐模型登顶全球第一

昆仑万维发布2026年一季度财报，营收25.7亿元，同比增长46%，为“4+3战略”落地首季。公司自研视频模型与音乐模型均登顶全球第一，但正文未披露具体模型名称及版本号。具体营收增长主要来自AI业务驱动，战略聚焦多模态大模型与AI应用生态。

多模态行业动态

17:33

IT之家（RSS）

网信部门依法查处剪映、猫箱、即梦 AI 生成合成内容标识违法问题网站平台

网信部门近期依法查处“剪映”“猫箱”App及“即梦 AI”网站，这些平台未有效落实人工智能生成合成内容标识规定，违反《网络安全法》《生成式人工智能服务管理暂行办法》等法律。国家互联网信息办公室指导属地部门对涉事平台采取约谈、责令改正、警告、从严处理责任人等处罚措施。网信部门强调网站平台需严守法律底线，严格落实标识要求，并将加大监督管理力度，维护社会公共利益，推动人工智能健康有序发展。

多模态政策/监管行业动态

16:36

HuggingFace Daily Papers（社区热门论文）

利用感知中心的过程奖励模型改进视觉语言模型

针对视觉语言模型在强化学习训练中面临的监督信号粗粒度问题，本研究提出了Perceval过程奖励模型。该模型能够从模型回应中提取图像相关声明，并与视觉证据进行逐项比对，从而精确定位感知错误的片段。在训练阶段，Perceval被整合进强化学习框架，通过对幻觉片段施加标记级惩罚，提供细粒度的监督信号。在推理阶段，该模型可截断错误回应并引导模型重新生成或反思，实现测试时扩展。实验表明，该方法在多领域基准测试中显著提升了经过RL训练的VLM性能，且其测试时扩展策略也优于多数投票等方法。代码与数据已公开。

多模态数据/训练论文/研究

12:34

HuggingFace Daily Papers（社区热门论文）

Tuna-2：基于像素嵌入的统一跨模态模型在理解与生成任务上超越视觉编码器

Tuna-2是一种原生统一的跨模态模型，它摒弃了传统的VAE等模块化视觉编码器，直接通过简单的图像块嵌入层处理像素，统一执行视觉理解与生成任务。实验表明，该模型在多项跨模态基准测试中取得了最先进的性能，证明其像素空间建模在高质量图像生成上可与潜在空间方法竞争。尽管基于编码器的变体在预训练早期收敛更快，但Tuna-2的无编码器设计在大规模训练后实现了更强的跨模态理解能力，尤其在细粒度视觉感知任务上表现突出。这表明预训练视觉编码器对跨模态建模并非必需，端到端的像素学习为视觉任务提供了可扩展的新路径。

图像生成多模态论文/研究

12:34

HuggingFace Daily Papers（社区热门论文）

ReVSI：重建视觉空间智能评估以准确评估VLM的3D推理能力

现有视觉语言模型（VLM）的空间智能评估存在系统性缺陷：基于点云标注的问答对在视频评估中因重建误差和标注伪影导致答案错误或模糊，且评估常假设全场景访问，而实际模型仅处理稀疏采样帧。为提升评估有效性，我们提出ReVSI基准，通过重新标注5个数据集的381个场景并严格生成可信问答对，确保问题在模型实际输入下可答且答案正确。该基准提供多种帧预算变体及细粒度物体可见性元数据，支持可控诊断分析。在ReVSI上的评估揭示了以往基准掩盖的系统性故障模式，实现了更可靠、更具诊断性的空间智能评估。

多模态论文/研究评测/基准

12:34

HuggingFace Daily Papers（社区热门论文）

OmniShotCut：基于镜头查询Transformer的整体关系式镜头边界检测

针对现有镜头边界检测方法存在边界不可解释、遗漏细微间断、依赖噪声标注与过时基准等问题，本研究提出OmniShotCut方法。该方法将镜头边界检测构建为结构化关系预测任务，通过基于镜头查询的密集视频Transformer，联合估计镜头范围及其内外关系。为规避人工标注不精确，采用全合成过渡合成流程自动生成带精确边界及参数化变体的主要过渡类型。同时，发布了支持整体与诊断评估的现代宽领域基准OmniShotCutBench。

多模态视频论文/研究

11:16

IT之家（RSS）

阿里达摩院 AI 全球首次实现肠癌"无感"检测，登上国际肿瘤学顶刊

阿里巴巴达摩院联合广东省人民医院等机构，研发出肠癌筛查AI模型DAMO COCA。该模型基于平扫CT影像，采用两阶段深度学习架构，在国际上首次实现了无需肠道准备、患者“无感”的肠癌机会性筛查。在回顾2.7万人影像的试验中，模型精准识别出5例漏诊肠癌，敏感性达86.6%，特异性高达99.8%。与10名影像科医生相比，其敏感性显著高出20.4%，并能辅助医生将敏感性提升14.5%。相关成果已发表于顶级期刊《肿瘤学年鉴》。

多模态论文/研究部署/工程

08:00

Apple Machine Learning Research（RSS）

StereoFoley：从视频生成具有对象感知能力的立体声音频

StereoFoley是一个视频到音频的生成框架，能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像，主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型，在语义准确性上达到了与当前最先进V2A模型相当的性能。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RADIO-ViPE：面向动态环境的开放词汇语义SLAM在线紧耦合多模态融合系统

RADIO-ViPE 是一个在线语义SLAM系统，能够在动态环境中实现几何感知的开放词汇关联，将任意自然语言查询与定位的3D区域和物体进行匹配。该系统直接处理原始单目RGB视频流，无需预先获取相机内参、深度传感器或位姿初始化。它通过将来自聚合基础模型的多模态嵌入与几何场景信息在初始化、优化和因子图连接中进行紧耦合，提升了多模态地图的一致性。优化过程采用了自适应鲁棒核函数，以同时处理主动移动的物体和因智能体移动而改变位置的场景元素。实验表明，RADIO-ViPE 在动态TUM-RGBD基准测试中取得了最先进的结果，其性能可与依赖标定数据和静态场景假设的离线开放词汇方法相竞争。该系统为自主机器人和无约束野外视频流提供了鲁棒的开放词汇语义基础。

具身智能多模态论文/研究

01:37

Simon Willison 博客

Google Meet 语音翻译功能现正向移动设备推出

Google Meet 的实时语音翻译功能已开始向移动设备端推送。该功能支持英语、西班牙语、法语、德语、葡萄牙语和意大利语共六种语言，能在对话中近乎实时地将一种语言翻译成另一种，并用近似原说话者音色的合成语音播放译文。目前该功能仍处于早期测试阶段，在网页浏览器端运行较为成功，但在 iPhone 与 iPad 等移动设备间的通话中尚不稳定。

Google 产品更新多模态

4月27日

23:22

IT之家（RSS）

三星 Galaxy Glasses 智能眼镜外观曝光：骁龙 AR1 处理器，无屏设计

三星 Galaxy Glasses 智能眼镜渲染图近日曝光。产品采用无显示屏设计，外观类似 Meta 和谷歌的同类产品，运行 Android XR 系统。其搭载高通骁龙 AR1 处理器，配备 1200 万像素摄像头，支持骨传导音频，重量约 50 克。该眼镜可能在今年 7 月的三星发布会上亮相，但不会立即上市。此外，三星另一款带屏幕的智能眼镜正在开发中，预计 2027 年发布。

多模态行业动态

19:20

IT之家（RSS）

精选74

阿里：视频生成模型 HappyHorse1.0 开启灰测，千问 App 首发支持 15 秒多镜头叙事

阿里巴巴视频生成模型 HappyHorse1.0 开启灰度测试，支持生成15秒多镜头叙事视频，具备多画幅适配和1080P超分输出功能。官网720P视频生成刊例价为0.9元/秒，千问App上体验价格低至0.44元/秒。大众用户可通过千问App使用，还能创作粤语、英语、法语、韩语等多种语言的剧情短片。该模型此前登顶AI Video Arena排行榜，并将于5月份正式发布商用。

多模态模型发布

推荐理由：HappyHorse 悄悄登顶 AI Video Arena 后才被阿里认领，这个反转让它不只是又一个视频模型。0.44 元/秒的定价对内容创作者是真金白银的信号，做短视频的值得现在就去千问 App 试一轮。

16:19

IT之家（RSS）

华为乾崑 | 奕境 X9 大六座 SUV 官宣行业首发后排吸顶柔光屏

在2026北京车展上，东风汽车与华为乾崑联合打造的奕境品牌首秀，并全球首发了旗舰大六座SUV奕境X9。该车行业首发具备强光不反光特性的后排吸顶柔光屏，并首发搭载华为乾崑智驾ADS 5系统与鸿蒙座舱Harmony Space 6。车身尺寸为长5301mm、轴距3120mm，预计售价约50万元。品牌计划未来三年推出5款新车，并已在全国80城布局超300家体验门店。

产品更新多模态部署/工程

15:19

IT之家（RSS）

WIKO 情感陪伴 AI 电子宠物"智能憨憨"蜂窝版开售：支持华为小艺大模型，499 元

WIKO发布情感陪伴AI电子宠物“智能憨憨”蜂窝版，售价499元。新品支持Wi-Fi和4G蜂窝网络，可携带至户外使用。其核心搭载华为小艺大模型，具备多模态互动能力，能响应摸头、摇晃、语音等指令，并支持碰一碰加好友功能。该设备兼容鸿蒙、安卓、iOS系统，提供MBTI性格养成和专属日记记忆系统。相比2025年11月上市的普通版（定价399元），蜂窝版新增了移动网络连接能力。

产品更新多模态

15:19

IT之家（RSS）

何小鹏：部分复杂路况下 VLA 已胜过特斯拉 FSD，8 月力争全面反超

小鹏汽车CEO何小鹏在北京车展宣布，其VLA智驾系统已在城市支路、乡村道路及复杂穿行路段等特定场景下超越特斯拉FSD，通行效率和纵向控制如跟车、应对加塞表现更优。他设定明确目标，计划在2026年8月于中国市场实现VLA综合能力全面反超FSD。何小鹏指出，VLA在横向路径规划和极端掉头场景仍有优化空间，但中国高密度道路环境是权威验证场域，若成功超越将标志技术领先。

智能体多模态大佬观点

11:18

IT之家（RSS）

世界模型首次搬进手机：蚂蚁灵光 App 今日上线「体验世界模型」功能

蚂蚁集团全模态AI助手灵光App今日正式上线“体验世界模型”功能，首次将世界模型应用于手机端。用户上传一张图片，即可在几秒钟内生成对应的3D世界，并能通过摇杆控制以第一人称视角自由漫步探索，体验类似游戏。该功能基于蚂蚁灵波LingBot-World-Fast世界模型，该模型已对外开源。

产品更新图像生成多模态

08:00

HuggingFace Daily Papers（社区热门论文）

扩散模型作为通用分割学习器

研究提出DiGSeg框架，将预训练扩散模型转化为通用分割器。该方法将输入图像与真实掩码编码为潜变量，作为扩散U-Net的条件输入，并通过并行CLIP文本通路注入多尺度语言特征，实现文本与视觉表征的对齐。实验表明，该框架在标准语义分割基准上取得领先性能，并在开放词汇泛化及跨域迁移（医疗、遥感、农业）中表现优异，且无需针对特定领域调整模型架构。这证明扩散模型不仅能用于图像生成，也可作为强大的通用视觉理解模型，缩小了生成与理解任务间的差距。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

X2SAM：面向图像与视频的统一分割多模态大语言模型

X2SAM是一个统一的分割多模态大语言模型，它将图像中的任意分割能力扩展至视频。该模型结合大语言模型与存储引导视觉特征的掩码记忆模块，能依据对话指令和视觉提示生成时间一致的视频掩码，并支持图像与视频输入下的通用、开放词汇、指代、推理及交互式分割。研究团队提出了视频视觉基础分割基准V-VGD，用于评估模型根据交互式视觉提示分割视频物体轨迹的能力。通过跨异构数据集的统一联合训练，X2SAM在视频分割上表现优异，在图像分割基准上保持竞争力，同时保留了通用的图像与视频对话能力。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Nemotron 3 Nano Omni：高效开放的多模态智能模型

Nemotron 3 Nano Omni是该系列最新模型，首次原生支持音频、文本、图像和视频输入。通过架构、训练数据及方法的改进，其在所有模态上的准确性均超越前代Nemotron Nano V2 VL，尤其在真实文档理解、长音视频理解和智能体计算机使用方面表现领先。该模型基于高效的Nemotron 3 Nano 30B-A3B骨干网络，并融入创新的多模态令牌缩减技术，实现了比同类规模模型更低的推理延迟和更高的吞吐量。为促进后续研发，团队发布了BF16、FP8和FP4格式的模型检查点，以及部分训练数据和代码库。

多模态开源生态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

AutoGUI-v2：一个综合性的多模态GUI功能理解基准

为实现真正的数字自主性，研究团队推出了AutoGUI-v2基准，旨在评估智能体对图形用户界面（GUI）的深度功能理解与交互结果预测能力。该基准通过一种新颖的视觉-语言模型与人类协作流程构建，递归解析多平台截图，生成了涵盖六个操作系统的2,753项任务，严格测试区域与元素级语义理解、功能定位及动态状态预测。评估结果显示，基于智能体数据微调的开源模型在功能定位上表现优异，而商业模型则在功能描述上领先。关键发现是，所有模型在面对非常见操作的复杂交互逻辑时均表现不佳，表明深度功能理解仍是当前面临的核心挑战。

智能体多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Meta-CoT：增强图像编辑中的细粒度与泛化能力

Meta-CoT提出一种新的图像编辑范式，通过两级分解提升模型的理解细粒度和任务泛化能力。该方法首先将任意编辑操作分解为（任务、目标、所需理解能力）三元组，以增强对编辑意图的细粒度理解；其次将编辑任务拆解为五个基础元任务，使训练仅需在这些元任务上进行，结合新引入的“思维链-编辑一致性奖励”机制，促使模型更准确地利用推理信息进行编辑。实验表明，该方法在21项编辑任务上实现了15.8%的整体性能提升，并能有效泛化到未见过的编辑任务。相关代码、基准测试和模型已开源。

图像生成多模态论文/研究

4月26日

08:00

HuggingFace Daily Papers（社区热门论文）

Talker-T2AV：基于自回归扩散建模的联合语音-视频生成

Talker-T2AV提出了一种自回归扩散框架，用于联合生成语音和视频。其核心设计是将高级语义建模与低级细节渲染解耦：一个共享的自回归语言模型在统一的块级标记空间中对音视频进行联合推理，而两个轻量级的扩散Transformer头则分别解码出帧级的音频和视频潜在表示。该方法避免了现有模型在去噪过程中全程强制跨模态纠缠的弊端，更符合语音驱动面部合成任务的特点。在语音肖像基准测试中，该模型在唇部同步准确性、视频质量和音频质量上均优于双分支基线，实现了比级联方法更强的跨模态一致性。

多模态视频论文/研究

4月25日

21:14

IT之家（RSS）

"华为眼镜"App 鸿蒙版 1.0.1.356 更新推送，新增小艺看世界、自动开机等，支持 4：3 比例录制视频

“华为眼镜”App鸿蒙版推送1.0.1.356更新，新增多项功能。主要更新包括：在应用首页新增“小艺看世界”功能入口；应用设置中增加定制开关机功能，支持眼镜清晨自动唤醒；相机设置新增4:3视频比例选项，以扩大纵向录像视野；新增手表协同功能，可通过手表遥控眼镜拍照。该App配套的华为AI眼镜已于近日发布，起售价为2499元。

产品更新多模态端侧

08:00

HuggingFace Daily Papers（社区热门论文）

OceanPile：面向基础模型的大规模多模态海洋语料库

为突破海洋人工智能面临的数据瓶颈，研究团队发布了大规模多模态海洋语料库OceanPile。该语料库整合了声纳、水下图像、科学图文等多源异构数据，构建了统一集合OceanCorpus；通过分层海洋知识图谱引导，生成了高质量指令数据集OceanInstruction；并建立了人工标注评估基准OceanBenchmark。研究采用多阶段质量控制流程确保数据的科学性与跨模态对齐。实验表明，基于该数据训练的模型性能显著提升。全部数据集已开源，旨在推动海洋专用多模态大模型的发展。

多模态数据/训练论文/研究

4月24日

19:17

HuggingFace Daily Papers（社区热门论文）

基于结构化运动描述的无编码器人体运动理解

本文提出结构化运动描述（SMD）方法，通过基于规则的确定性转换，将人体关节位置序列转化为描述关节角度、部位运动及整体轨迹的结构化文本。该表示使大型语言模型（LLM）能直接运用其预训练知识进行运动推理，无需学习专用的运动编码器或对齐模块。SMD在运动问答（BABEL-QA达66.7%，HuMMan-QA达90.1%）和运动描述（HumanML3D上R@1为0.584）任务上均超越现有最佳方法。其实用优势包括：同一文本输入经轻量级LoRA适配即可跨多种LLM使用，且其人类可读的表示支持可解释的注意力分析。

多模态数据/训练论文/研究

14:00

公众号：火山引擎

新一代汽车AI解决方案发布，豆包大模型搭载超700万辆车

多模态端侧行业动态

11:17

HuggingFace Daily Papers（社区热门论文）

快慢之间：学习视频中的时间流

本研究将时间作为可学习的视觉概念，开发了用于推理与操控视频时序的模型。通过自监督学习，模型能利用视频的多模态线索检测速度变化并估计播放速率。基于此，我们从真实世界视频中构建了最大的慢动作数据集。利用该数据，我们进一步开发了具备时序控制能力的模型，包括按指定速度生成运动的“速度条件视频生成”，以及将低帧率模糊视频转换为高帧率清晰序列的“时间超分辨率”。这项研究将时间确立为视频学习中一个可操控的感知维度，为时序可控的视频生成、时间取证检测及理解事件演变的世界模型开辟了新途径。

多模态视频论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

Omni模型中的上下文展开机制

研究团队发布了原生统一多模态模型Omni，其训练数据涵盖文本、图像、视频、3D几何及隐藏表征。该训练过程催生了“上下文展开”机制，模型在生成预测前会显式地对多种模态表征进行跨模态推理。这一机制使模型能够聚合异构模态间的互补信息，从而更忠实地逼近共享的多模态知识流形，并提升下游推理的保真度。因此，Omni在多模态生成与理解基准测试中均表现出色，同时展示了先进的多模态上下文内生成能力。

多模态推理论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

StyleID：一个用于风格无关人脸身份识别的感知感知数据集与评估指标

研究针对创意人脸风格化中身份保持的评估难题，提出了StyleID数据集与评估框架。该框架包含两个部分：StyleBench-H基准集收集了人类对基于扩散与流匹配生成的不同风格强度图像的异同判断；StyleBench-S监督集则通过受控二选一强制选择实验获取心理测量识别强度曲线。基于StyleBench-S对现有语义编码器进行微调，使其相似度排序与人类跨风格、跨强度的感知保持一致。实验表明，校准后的模型与人类判断的相关性显著提升，并对域外艺术家绘制肖像表现出更强的鲁棒性。所有数据集、代码与预训练模型均已公开。

图像生成多模态论文/研究