5月21日

12:10

HuggingFace Daily Papers（社区热门论文）

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

11:18

Kling AI@Kling_ai

首部100%AI生成电影亮相戛纳，剑指2026院线

AI电影项目RAPHAEL在戛纳亮相。该片由Mateo AI Studio与韩国MBC C&I的AI内容实验室联合开发，全程使用Kling AI视频模型进行制作，旨在实现独特的视觉效果与差异化的观影体验。项目计划于2026年登陆院线，其大规模制作旨在证明纯AI电影制作的工业可行性，标志着AI原生院线电影新趋势的开端。

多模态行业动态

11:09

HuggingFace Daily Papers（社区热门论文）

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv 图像生成多模态数据/训练

11:09

HuggingFace Daily Papers（社区热门论文）

DrawMotion：通过手绘生成3D人体动作

该研究提出了DrawMotion，一个基于扩散的多条件动作生成框架，旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件，分别提供语义和空间引导。技术上，它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度，并利用无训练引导方法将生成动作与用户意图对齐。实验表明，手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub 多模态论文/研究

10:58

IT之家（RSS）

绿联推出 NAS 新品 DXP4800 GT：双万兆网口，起价 2681.1 元

绿联今日正式发布NAS新品DXP4800 GT。该设备搭载AMD锐龙嵌入式R2514四核处理器，提供4个3.5英寸盘位（其中2个支持U.2）与2个M.2 NVMe插槽。其突出特点是配备双10GbE万兆网口，支持聚合或桥接。内存最高可选16GB DDR4（支持ECC），并集成64GB闪存。软件方面支持Docker与虚拟机，搭载相册2.0应用，并首次内嵌MiniMax大模型。产品售价2681.1元起。

产品更新多模态端侧

10:52

SenseTime@SenseTime_AI

商汤连续十年领跑中国计算机视觉市场

商汤科技被IDC连续十年评为中国计算机视觉市场第一。其关键驱动因素包括：主导推进CV 2.0架构演进，原生嵌入生成式AI能力；海外市场扩展至12个国际区域，服务超500家企业客户并保持高留存率；以年度经常性收入增长为锚点实现盈利性增长；并从项目制交付转型为高度可扩展的AI平台。这一十年市场领导地位为其引领计算机视觉与生成式AI的融合浪潮奠定了基础。

多模态行业动态

10:34

向阳乔木@vista8

精选75

开源Suno技能：一键生成任意风格AI音乐

这是基于Suno AI音乐生成工具的技能实现，可通过简单指令按用户需求生成不同风格的歌曲（例如德语空灵风格）。该技能订阅费用为每月10美元，支持高度自定义的风格生成。技术层面已优化，新增近6000个音乐风格检索以提升准确性，并可通过谷歌CDP免登录直接调用。项目已开源，提供GitHub仓库地址与安装指令，降低了创作门槛。目前AI生成音乐在艺术性上仍与人工制作存在差距，但实现了快速、灵活的创作可能。

向阳乔木: Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。开源地址:https://github.com/joeseesun/qiaom...

GitHub 多模态教程/实践

推荐理由：乔木这个 Suno Skill 把音乐生成从“抽卡”变成“精准点唱”，6000 种风格检索让普通人也能玩出花样，虽然比不上专业制作，但做短视频配乐绝对够用，看完就能装。