全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「多模态」清除

5月19日周二

00:02Qwen47Qwen3.7 Plus Preview视觉竞技场排名公布

5月18日周一

23:52Hugging Face：Blog（RSS）68精选PaddleOCR 3.5：使用Transformers后端运行OCR和文档解析任务

23:39elvis62当AI遇到童真：一个10岁孩子对"智能"编码工具的失望

21:19🚨 AI News | TestingCatalog61谷歌Gemini桌面应用将集成多项新功能与智能代理

20:45IT之家（RSS）45理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级，全新 L9 首发指挥泊车

19:45IT之家（RSS）33群核科技和影石创新达成战略合作：人人都能创作 3D 内容

19:45IT之家（RSS）53Meta 雷朋 Display 智能眼镜获 Update 125 更新，正式上线肌电手环手写输入功能

18:45IT之家（RSS）57阿里 QoderWork 上线设计工作台：语音描述就能交付专业设计

18:45IT之家（RSS）56豆包 App 上线博物馆讲解功能

18:18公众号：腾讯混元33中国古文字识别评测基准 Chronicles-OCR 发布：业界首个覆盖"七体之变"

18:16公众号：豆包（字节）39豆包上线博物馆讲解功能，还有了新身份

16:07公众号：可灵AI（快手·视频）56可灵AI上线全球首个原生4K视频模型

15:50Elon Musk75精选Grok现已支持视频理解与分析

13:45IT之家（RSS）46人民陆军英模系列 AI 微短剧《战魂》今起首播，5 段烽火传奇还原经典战役战斗

13:42Kling AI51世界杯倒计时，一键体验Kling AI新特效

11:19Elon Musk74同事件精选Grok Imagine图像生成模型发布同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

09:37Alibaba Cloud74阿里云推出HappyHorse视频生成模型

08:54Berryxia.AI42这个老哥直接硬核手搓GTA-6 ，还可以玩的那种😄 体验地址：http://gta6-single-prompt.vercel.app

08:00HuggingFace Daily Papers（社区热门论文）51LatentUMM：用于统一多模态模型的双潜在对齐框架

08:00HuggingFace Daily Papers（社区热门论文）57See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

08:00HuggingFace Daily Papers（社区热门论文）55OmniPro：全模态主动流式视频理解综合基准

08:00HuggingFace Daily Papers（社区热门论文）64Stable Audio 3

08:00HuggingFace Daily Papers（社区热门论文）54大型音频语言模型：泛化、可信度与展望

08:00HuggingFace Daily Papers（社区热门论文）62ESI-Bench：迈向闭合感知-行动循环的具身空间智能

08:00HuggingFace Daily Papers（社区热门论文）57面向统一多模态模型的语义生成调优

08:00HuggingFace Daily Papers（社区热门论文）61Aurora：基于工具使用智能体的统一视频编辑框架

08:00HuggingFace Daily Papers（社区热门论文）61Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

03:05Chubby♨️46反对"AI垃圾"标签，倡导基于内容的实质批评

02:40Rohan Paul63AI交互新突破：全双工时间对齐微轮转实现类人实时对话

5月17日周日

21:44AYi69一颗葡萄与3DGS技术：个人化高保真3D建模的产品化路径

21:43Google DeepMind：Blog（RSS）63精选让了解网络内容的创建和编辑过程变得更简单

21:32The Decoder：AI News（RSS）46World Action Models 让机器人在行动前能够模拟后果

16:44IT之家（RSS）58AMD 游戏引擎专利曝光：画个草图 AI 就能帮你做游戏

15:59The Decoder：AI News（RSS）69Oppo 开源 Android AI 代理 X-OmniClaw，无需离开手机即可调用摄像头、屏幕与语音

10:44IT之家（RSS）5小米 YU7 全新配色"火山灰"官图公布，5 月底发布

08:00HuggingFace Daily Papers（社区热门论文）45Soap2Soap：基于多智能体协作的长片电影级视频重制

08:00HuggingFace Daily Papers（社区热门论文）51全双工多模态交互评估基准

08:00HuggingFace Daily Papers（社区热门论文）61LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

5月16日周六

22:43AYi64中国爸爸为女儿打造有温度的AI单词应用，获Apple设计奖

18:42IT之家（RSS）62刘伟：米哈游在 AI 方面投入规模"3 年最多 1000 亿"，如果没成算放一个大烟花

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月19日

00:02

Qwen@Alibaba_Qwen

47

🚀🚀 【引用 @arena】：在视觉竞技场中，Qwen3.7 Plus Preview使@Alibaba_Qwen成为第5大实验室，总排名第16位。

Arena.ai: In the Vision Arena, Qwen3.7 Plus Preview makes @Alibaba_Qwen the #5 lab, ranking #16 overall.

多模态模型发布评测/基准

5月18日

23:52

Hugging Face：Blog（RSS）

精选68

PaddleOCR 3.5：使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本，正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数，允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于，显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈（如 RAG、智能体、文档AI）的门槛，使开发者能更便捷地利用现有生态，减少集成阻力，从而专注于下游应用构建。

Hugging Face 检索增强产品更新多模态

推荐理由：PaddleOCR 3.5 最大的变化不是新模型，而是终于能跑在 Transformers 上了，做 RAG 和文档智能的开发者可以少写一堆胶水代码。

23:39

elvis@omarsar0

62

当AI遇到童真：一个10岁孩子对"智能"编码工具的失望

一个10岁孩子想创建火箭模拟器等科学应用，却屡屡被主流AI编码工具所挫败。这揭示了当前以LLM为核心的技术短板：它们擅长在丰富训练数据框架内维护和构建现有模式，但难以灵活应对需要全新综合创造能力的边缘与生成性任务。这暴露了LLM距离实现通用人工智能（AGI）的局限，指明了未来需向更具泛化能力的原生多模态系统与世界模型等方向突破。

智能体多模态大佬观点

21:19

🚨 AI News | TestingCatalog@testingcatalog

61

谷歌Gemini桌面应用将集成多项新功能与智能代理

谷歌Gemini桌面应用即将迎来重大功能更新。新增的“Stream to Cursor”功能类似上周Android Show上展示的“Magic Pointer”。Gemini Spark智能代理将能直接操作本地文件夹中的文件。此外，应用将引入被内部称为“Veo4 Omni”的新模型，并支持Skills技能体系。不过，Gemini Live实时功能目前仍在开发中，尚未可用。

智能体 Google 产品更新多模态

20:45

IT之家（RSS）

45

理想 AI 眼镜 Livis OTA 推送 1.8.50 固件升级，全新 L9 首发指挥泊车

理想汽车为AI眼镜Livis推送1.8.50固件升级，理想同学App同步升级至2.5.0。本次OTA更新新增5项功能，优化11项功能。全新理想L9首发支持通过AI眼镜语音指挥泊车，新增哨兵模式高风险提醒、英文唤醒词、语音唤醒开关及三种唤醒反馈选择。同时优化了蓝牙电话拨打体验、运动中视觉问答清晰度和视频颜色饱和度。

产品更新多模态端侧语音

19:45

IT之家（RSS）

33

群核科技和影石创新达成战略合作：人人都能创作 3D 内容

群核科技与影石创新于5月18日达成战略合作，共同发布新一代空间重建解决方案。双方融合影石创新的高性能影像硬件与群核科技的3DGS空间重建技术，旨在降低3D内容创作门槛。用户通过影石设备采集影像后，上传至群核科技的Aholo空间智能平台，即可在几分钟内生成可交互的3D数字空间。该技术已在文旅文保、影视制作、游戏开发及空间设计等领域形成应用探索，目标是让空间智能更快融入日常生活。

产品更新多模态

19:45

IT之家（RSS）

53

Meta 雷朋 Display 智能眼镜获 Update 125 更新，正式上线肌电手环手写输入功能

Meta为旗下雷朋Display智能眼镜推送了Update 125更新，正式全球上线肌电手环手写输入功能。用户通过配套的Meta Neural Band肌电手环，无需接触实体键盘，仅在空中做出书写动作即可实时输入文字，该功能已支持WhatsApp、Messenger等主流应用。本次更新还新增了可录制第一人称视角画面的显示录制功能，并升级了地图导航。

Meta 产品更新多模态端侧

18:45

IT之家（RSS）

57

阿里 QoderWork 上线设计工作台：语音描述就能交付专业设计

产品更新多模态编码

18:45

IT之家（RSS）

56

豆包 App 上线博物馆讲解功能

5月18日，豆包 App 在国际博物馆日上线“博物馆讲解”功能，用户点击对话框内按钮即可通过视频通话获得展品自动识别与个性化讲解。该功能支持轻声提问和“边走边听”模式，无需逐次交互。目前，豆包已合作覆盖中国国家博物馆、浦东美术馆等20余家博物馆和美术馆，并与其中5家机构达成深度合作，成为其重磅展览的官方AI讲解员。

产品更新多模态语音

18:18

公众号：腾讯混元

33

中国古文字识别评测基准 Chronicles-OCR 发布：业界首个覆盖"七体之变"

Chronicles-OCR 是业界首个覆盖“七体之变”的中国古文字识别评测基准，用于评估大模型对三千年汉字的识别能力。

多模态评测/基准

18:16

公众号：豆包（字节）

39

豆包上线博物馆讲解功能，还有了新身份

产品更新多模态

16:07

公众号：可灵AI（快手·视频）

56

可灵AI上线全球首个原生4K视频模型

可灵AI推出全球首个原生4K视频模型，旨在利用原生4K技术重塑创作流程，加速AI赋能影视工业级内容创作。

产品更新多模态视频

15:50

Elon Musk@elonmusk

精选75

Grok可以处理视频了【引用 @XFreeze】：你现在可以将整个视频上传给Grok，让它实时为你分析、总结、翻译、解释场景或提取重要上下文。 Grok能够理解完整的视频--而不仅仅是图像和文本。它具备原生多模态能力和极其强大的视觉理解能力。

X Freeze: You can now upload entire videos to Grok and have it analyze, summarize, translate, explain scenes, or extract important...

xAI 产品更新多模态

推荐理由：Grok 补上了视频理解这块拼图，不是抽帧而是整个视频的上下文分析，做媒体和内容的人多了一个实用的多模态工具，可以上手试试。

13:45

IT之家（RSS）

46

人民陆军英模系列 AI 微短剧《战魂》今起首播，5 段烽火传奇还原经典战役战斗

陆军英模系列AI微短剧《战魂》于5月18日首播。该剧由陆军政治工作部宣传局联合中央广播电视总台军事节目中心，首次运用AI技术制作推出。内容聚焦5支英模连队的5段烽火传奇，以全新视听形式还原经典战役战斗，并展示新时代陆军官兵风貌。该剧将在CCTV-7国防军事频道及“央视军事”渠道，连续5天每日播出一集。

多模态行业动态视频

13:42

Kling AI@Kling_ai

51

世界杯倒计时开始⚽ 穿上你的球队球衣，一键尝试Kling AI的新特效！

产品更新图像生成多模态视频

11:19

Elon Musk@elonmusk

同事件精选74

Grok Imagine 现已向所有 X Premium+ 订阅者开放这是我们的图像生成模型，由 xAI 开发

xAI 产品更新图像生成多模态

同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

推荐理由：below_threshold:T2 推文门槛 75,当前 finalScore=74

09:37

Alibaba Cloud@alibaba_cloud

74

电影级AI现已到来。🐎💨 HappyHorse现已登陆Model Studio。从原始提示词到1080p多镜头现实感画面--在统一工作流中体验视频生成的未来。没有阻碍。只有纯粹性能。 🔥 限时优惠：8折。观看演示并立即开始创作。立即访问：https://int.alibabacloud.com/m/1000412936/

产品更新多模态视频

08:54

Berryxia.AI@berryxia

42

这个老哥直接硬核手搓GTA-6 ，还可以玩的那种😄 体验地址：http://gta6-single-prompt.vercel.app

多模态现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

51

LatentUMM：用于统一多模态模型的双潜在对齐框架

LatentUMM 是一个旨在提升统一多模态模型（UMMs）跨模态一致性的框架。研究指出，模型在理解与生成功能间的不一致，根源并非缺乏共享表征，而是映射到和出潜在空间的变换缺乏显式对齐。该框架包含两个阶段：第一阶段进行双潜在对齐，在模态层面使用更强的嵌入模型施加跨模态语义约束，在容量层面强制双向一致性；第二阶段通过随机潜在展开和偏好优化来稳定潜在动态，以保留更好的语义一致性。实验表明，LatentUMM 在不同架构上均能持续提升多模态一致性。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

See What I Mean：对齐视觉与语言表示以实现视频细粒度对象理解

本文提出SWIM（See What I Mean）训练策略，旨在使模型仅通过文本提示即可实现细粒度对象理解，无需显式的视觉提示（如掩码或点）。研究分析发现，预训练多模态大语言模型（MLLMs）的跨模态注意力存在系统性偏差：属性词在视觉模态产生清晰、局部的激活，而物体名词的模式则较为弥散。为解决此问题，研究构建了NL-Refer数据集。SWIM通过提取物体名词的多层交叉注意力图并与真实掩码进行空间一致性约束。实验表明，该方法显著提升了文本-视觉对齐，在相关基准测试上优于基于视觉提示的方法。代码与数据已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

OmniPro：全模态主动流式视频理解综合基准

OmniPro是首个联合评估全模态感知、主动响应和多样化视频理解任务的基准。它包含2700个人工验证样本，覆盖9个子任务、3个认知层级和6项基础能力，其中84%样本依赖语音或非语音音频信号，并标注模态隔离标签。该基准引入探测和在线双模式评估协议，以全面测试内容理解和主动能力。对11个模型的评估揭示：音频信号能提升性能但模型利用效率差异大；性能随时间下降，长程鲁棒性不足；非语音音频感知仍是当前最薄弱环节。

多模态视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

64

Stability AI 发布了名为 Stable Audio 3 的快速潜在扩散模型家族，包含小、中、大三个版本，专注于可变长度音频的生成与编辑。该模型能够生成数分钟长的音频，并支持修复功能，可对音频进行针对性编辑或续写短录音。其核心是新型语义声学自编码器，能将音频映射至紧凑潜在空间，在保证高保真度的同时鼓励语义结构形成。通过对抗性后训练，模型在加速推理、减少步骤数的同时提升了音频质量和提示词遵循度。该模型基于授权及 Creative Commons 数据训练，在 H200 GPU 上生成音频耗时不足 2 秒，在 MacBook Pro M4 上仅需数秒。目前，官方已开源可在消费级硬件运行的小型和中型模型权重及其训练推理流程。

arXiv 多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

大型音频语言模型：泛化、可信度与展望

本综述探讨了大型音频语言模型在推动通用听觉智能方面的进展与挑战。文章指出，其能力提升速度已远超可信框架的构建，通过端到端架构和连续声学信号整合，攻击面显著扩大。研究建立了涵盖跨模态越狱、潜在声学后门及生物特征隐私泄露的信任度风险分类体系，并从幻觉、鲁棒性、安全、隐私、公平与认证六个维度进行评估，揭示了成熟攻击手段与不足防御之间的严重失衡。为此，报告提出采用“纵深防御”架构、因果听觉世界建模及内在表征工程等路径，以弥合性能与可信智能间的差距。相关项目已在GitHub公开。

arXiv 多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

ESI-Bench：迈向闭合感知-行动循环的具身空间智能

研究提出了ESI-Bench基准，用于评估具身空间智能。该基准基于OmniGibson平台，涵盖10个任务类别，要求智能体主动决策以调动感知、移动和操作能力，在交互中收集证据。实验表明，主动探索显著优于被动观察，但随机多视角采集常引入噪声。研究发现，模型失败主因是“动作盲目”，即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用，但不完美的3D表示会扭曲空间关系，效果反而差于2D基线。人类研究进一步揭示，与人类基于证据修正信念不同，模型倾向于过早做出高置信度决策，暴露了仅靠改进感知或交互无法弥合的元认知差距。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

面向统一多模态模型的语义生成调优

为解决统一多模态模型中视觉理解与生成任务训练脱节的问题，本文首次系统性地探索了生成式后训练方法，并提出“语义生成调优”范式。研究发现，以图像分割为代表的高层语义任务，可作为有效的生成代理，显著弥合理解与生成之间的隔阂；而低层纹理任务反而会干扰模型。该方法通过分割任务生成结构化语义，来对齐和协同多模态能力。机制分析表明，SGT能提升特征线性可分性并优化注意力分配。实验显示，SGT在主流基准测试中持续提高了模型的多模态理解能力与生成保真度。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Aurora：基于工具使用智能体的统一视频编辑框架

小米团队推出的Aurora是一个智能体驱动的视频编辑框架。它通过将工具增强的视觉语言模型（VLM）智能体与统一的视频扩散转换器相结合，能够将用户模糊或不完整的编辑请求，转化为结构化的编辑计划，从而有效解决现实场景中常见的信息不足或空间定位不清等问题。该框架通过监督与偏好数据训练VLM智能体，使其可完成完整的编辑规划、参考图选择及指令优化。引入的AgentEdit-Bench基准测试表明，Aurora在多项任务上优于仅依赖指令的基线模型，且该智能体具有良好的可迁移性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Artifact-Bench：评估MLLMs在检测与评估AI生成视频瑕疵方面的表现

研究团队提出了Artifact-Bench，一个用于评估多模态大语言模型（MLLMs）检测与分析AI生成视频瑕疵能力的综合基准。该基准构建了一个涵盖写实、动画和CG风格视频的三级真实感瑕疵分类体系，并在此基础上定义了三项任务：真实与AI生成视频分类、成对真实感比较、细粒度瑕疵识别。对19个主流MLLMs的实验表明，这些模型在瑕疵感知与推理上存在显著局限，许多模型在挑战性场景中表现接近甚至低于随机水平，且其判断与人类感知偏好存在明显偏差，凸显了其作为通用AI视频真实感评估器的可靠性不足。

arXiv 多模态视频论文/研究

03:05

Chubby♨️@kimmonismus

46

反对"AI垃圾"标签，倡导基于内容的实质批评

作者认为“AI slop”一词无益，人们常因内容由AI生成而愤怒，却未批评内容本身。AI模型如GPT-4、Claude已能生成高质量文本，OpenAI Image 2的图像也逼真难辨。批评应基于实质内容，而非来源；AI生成内容可好可坏，取决于提示、研究等因素。社会需要更多有根据的批评，而非纯粹怨恨。

多模态现象/趋势

02:40

Rohan Paul@rohanpaul_ai

63

AI交互新突破：全双工时间对齐微轮转实现类人实时对话

Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式，向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架，将视觉、听觉输入与语音、文本输出对齐到统一时间轴，实现感知与响应的同步。作为实践，开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说，并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破，使实时、自然的类人对话成为可能，且已具备代码、权重及边缘部署方案。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音

5月17日

21:44

AYi@AYi_AInotes

69

一颗葡萄与3DGS技术：个人化高保真3D建模的产品化路径

开发者Dany Bittel通过6660张葡萄宏观照片，利用3D Gaussian Splatting技术训练出仅50MB的高保真3D模型，在手机上即可流畅查看半透明细节。该实验攻克了最难的半透明物体建模，证明技术可轻松应用于手办、珠宝等物品，将3D数字资产创建门槛从专业团队大幅降低至个人。其开发的miqula工具正推动该流程产品化。同时，这也反映了AI工具的普遍悖论：制作demo的门槛急剧降低，但实现稳定生产级应用仍需克服工程化挑战。

AYi: 说个所有AI创业者都不愿意承认的事实: 现在做一个AI工具的门槛已经降到了地板, 普通人做一个AI工具都只需要一天, 但学会用它干成一件事,却至少得一个月, 感觉像是AI时代的一个悖论😅 5.7M 阅读 23 万点赞的这条推,表面看是游戏...

多模态现象/趋势

21:43

Google DeepMind：Blog（RSS）

精选63

让了解网络内容的创建和编辑过程变得更简单

平台宣布扩展其内容透明工具，旨在让用户更便捷地追溯网络内容的创建与编辑历史。这项更新将适用于社交媒体平台、网页内容等多个场景，帮助用户识别信息的修改痕迹，提升数字内容的透明度。

Google 产品更新多模态安全/对齐

推荐理由：Google 把 SynthID 水印和 C2PA 凭证推向搜索、Chrome 和 API，普通人也能随手查「这是 AI 做的吗？」，这对虚假信息是实际的约束。

21:32

The Decoder：AI News（RSS）

46

World Action Models 让机器人在行动前能够模拟后果

World Action Models 旨在解决当前机器人AI的一个根本弱点：传统模型仅学习动作与摄像头图像的匹配，而无法理解动作如何导致世界状态变化。一项新研究梳理了约百篇论文，归纳出两种架构路径。其关键优势在于，这些模型能从不含机器人动作标签的日常视频中学习，而此类数据对传统机器人AI几乎无用。这使机器人具备了在行动前模拟后果的能力。

具身智能多模态论文/研究

16:44

IT之家（RSS）

58

AMD 游戏引擎专利曝光：画个草图 AI 就能帮你做游戏

AMD一项名为“基于人工智能的游戏与渲染引擎”的专利曝光，计划推出一款完全依托AI打造的游戏引擎。该引擎旨在通过神经外推、智能超采样等技术，在生成逼真游戏画面的同时大幅降低算力消耗。其核心特点是允许开发者仅绘制简易草图轮廓，AI便能据此从零生成精细的游戏画面与内容，可承接传统游戏引擎的各类运算处理工作。目前该技术具体开放时间未定，但展现了AI颠覆游戏开发流程的潜力。

图像生成多模态行业动态

15:59

The Decoder：AI News（RSS）

69

Oppo 开源 Android AI 代理 X-OmniClaw，无需离开手机即可调用摄像头、屏幕与语音

Oppo 的 Multi-X 团队发布了开源 AI 代理 X-OmniClaw，该代理可直接在 Android 设备上运行。它整合摄像头、屏幕和语音输入，在真实应用程序中实时处理任务。系统主要依赖本地传感器执行操作，仅将推理任务交由云端计算。用户的操作路径可被克隆为可复用技能，代理下次能通过深度链接直接跳转到应用深层页面，无需重复操作。

智能体多模态开源/仓库端侧

10:44

IT之家（RSS）

5

小米 YU7 全新配色"火山灰"官图公布，5 月底发布

小米 YU7 汽车全新配色“火山灰”官图公布，灵感源于晨雾下的火山地貌。该配色采用高纯度灰调设计，叠加纳米级矿物颗粒，呈现细腻而有层次的金属质感，风格沉稳内敛。实车已陆续进店，覆盖全国361家门店。新车计划于5月底正式发布。

其他多模态

08:00

HuggingFace Daily Papers（社区热门论文）

45

Soap2Soap：基于多智能体协作的长片电影级视频重制

Soap2Soap是一个用于系列级长视频重制的多智能体框架，旨在解决其中的身份漂移、背景突变与语义侵蚀等问题。该框架通过一个双桥一致性机制来维持长期一致性：使用场景感知的JSON剧本作为持久的语义骨架，并在场景和镜头层级动态分配视觉参考锚点。它通过批量关键帧一致性技术在合成前抑制漂移，并利用闭环验证智能体对身份、稳定性和对齐进行审计。实验表明，该方法在长程一致性与叙事保真度上显著优于商业视频生成API。

智能体 arXiv 多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

51

全双工多模态交互评估基准

现有研究缺乏对实时双工全模态交互的系统评估。为此，本文提出Omni-DuplexEval基准，包含660个带人工标注的视频，涵盖实时描述和主动提醒两大场景共9个现实任务，所有问题均为开放式。研究同时引入了基于LLM-as-a-Judge的自动评估框架，能够联合评估响应内容与时机。实验表明，当前最优模型在主动提醒任务上表现不佳，最佳模型总体得分仅39.6%，揭示了模型在协调响应时机与内容质量方面的核心挑战。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

61

LiteFrame：提升视频大语言模型帧处理能力的高效视觉编码器

针对视频大语言模型处理长视频时视觉Token激增的瓶颈，本文指出传统后处理式压缩将延迟转移到了视觉编码器。为此，我们提出了LiteFrame，一种高效视觉编码器。其核心是压缩Token蒸馏训练框架，指导一个紧凑的学生模型直接预测大教师模型生成的高密度时空压缩表示，从而避免冗余计算。结合语言模型适配后，该方案构建了新的延迟-精度帕累托前沿：与基线相比，它将端到端延迟降低了35%，可处理帧数提升8倍，同时在多个基准上提高了视频理解的平均准确率，为固定算力下理解更长视频提供了新途径。

多模态视频论文/研究

5月16日

22:43

AYi@AYi_AInotes

64

中国爸爸为女儿打造有温度的AI单词应用，获Apple设计奖

中国父亲Ace Lee因女儿使用传统翻译App时感到冰冷，决心开发有温度的AI应用CapWords。该应用能用相机识别物体，生成可爱的互动单词贴纸，支持9种语言及真人发音，凭借高识别率、流畅动画和无广告的纯粹体验，荣获2025年Apple设计奖。这体现了优秀AI产品应源于解决真实关切的问题。

多模态现象/趋势

18:42

IT之家（RSS）

62

刘伟：米哈游在 AI 方面投入规模"3 年最多 1000 亿"，如果没成算放一个大烟花

米哈游创始人刘伟透露，公司计划在未来三年内投入最多1000亿元用于AI基础大模型研发，并称即使失败也当作“放一个大烟花”。他强调，坚定投入算力与规模是打造顶级模型的必要条件。刘伟认为，AI将推动游戏体验走向“完全个性化”，实现“千人千面”，即游戏能实时生成定制内容，为每位玩家提供独特体验。他预计三年内此类游戏将出现，米哈游正朝此方向探索。

多模态大佬观点

1…31 323334 35…50