全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1243 条

全部一手资讯 X 论文

标签「多模态」清除

5月22日周五

22:16HuggingFace Daily Papers（社区热门论文）39FashionLens：基于任务自适应学习的通用时尚图像检索框架

21:09IT之家（RSS）47成交价 11 万元，全球首款眼神交互仿生人"小月"成功拍出

18:09IT之家（RSS）70精选网易有道"子曰4"多模态模型、语音合成模型全量开源

16:09IT之家（RSS）70OpenAI 推 Beta 版 ChatGPT for PowerPoint，可生成 / 编辑 / 完善幻灯片

15:02公众号：月之暗面（Kimi）37Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

14:09IT之家（RSS）62"拼好模"：字节跳动开源轻量原生统一多模态 AI 模型 Lance

13:14HuggingFace Daily Papers（社区热门论文）57一句一剧：基于多智能体系统的个性化短剧生成

13:14HuggingFace Daily Papers（社区热门论文）69SpaceDG：视觉退化下的空间智能基准测试

13:14HuggingFace Daily Papers（社区热门论文）68LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

12:14HuggingFace Daily Papers（社区热门论文）48SceneAligner：基于3D重建的平面图定位方法

11:14HuggingFace Daily Papers（社区热门论文）63感知还是偏见：多模态大语言模型能否超越人格的第一印象？

11:14HuggingFace Daily Papers（社区热门论文）66Maestro：基于强化学习的层级化模型-技能编排框架

11:09IT之家（RSS）33全球首款眼神交互仿生人"小月"拍卖：起拍价 1 元，春晚蔡明机器人"姊妹款"

10:14HuggingFace Daily Papers（社区热门论文）60伯尼尼：基于潜在语义规划的视频扩散模型

10:14HuggingFace Daily Papers（社区热门论文）60Sensor2Sensor：面向自动驾驶的跨形态传感器数据转换

09:08IT之家（RSS）24极空间私有云 Z425 轻享版发布：八盘位、万兆网口，首发价 6699 元起

08:08IT之家（RSS）69Mac 版 Codex 更新 Appshots 功能，窗口可直接"喂"给 AI

08:08IT之家（RSS）46允许订阅用户创作 AI 翻唱、Remix 音乐，Spotify 与环球音乐达成合作

08:00HuggingFace Daily Papers（社区热门论文）46SPACENUM：重新审视视觉语言模型的空间数值理解

08:00HuggingFace Daily Papers（社区热门论文）39BrainCause：从激活到因果--发现人脑中的因果视觉表征

08:00HuggingFace Daily Papers（社区热门论文）44One-Forcing：实现稳定的单步自回归视频生成

08:00HuggingFace Daily Papers（社区热门论文）56HorizonStream：面向流式三维重建的长时域注意力

08:00HuggingFace Daily Papers（社区热门论文）61PhotoFlow：智能体化的3D虚拟摄影任务

08:00HuggingFace Daily Papers（社区热门论文）48Geo-Align：基于度量几何奖励的视频生成对齐

08:00HuggingFace Daily Papers（社区热门论文）66StepAudio 2.5 技术报告

08:00HuggingFace Daily Papers（社区热门论文）68SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

08:00HuggingFace Daily Papers（社区热门论文）56GenRecon：连接生成先验用于多视角三维场景重建

08:00HuggingFace Daily Papers（社区热门论文）56ETCHR：通过编辑以明确和利用推理

06:05MarkTechPost（RSS）62Cohere发布Command A+：适用于智能体工作流的218B稀疏MoE模型，最少需两块H100 GPU运行

04:02TechCrunch：AI（RSS）38Spotify与环球音乐集团达成协议，允许粉丝创作AI歌曲封面和混音

01:31The Verge：AI（RSS）48Polyend 推出售价 299 美元的 AI 吉他效果器 Endless

01:26Hacker News 热门（buzzing.cc 中文翻译）60在配备Gemma4-31B（50GB交换分区）的2021款MacBook上本地索引一年的视频

00:33Google Developers Blog（RSS）75精选推出 Gemini for Home 赋能服务提供商与硬件合作伙伴

00:07美团 LongCat：HuggingFace 新模型73精选LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

5月21日周四

16:59IT之家（RSS）25嫦娥六号补上关键"碎片"，我国团队成功绘制最精确月球化学成分图

15:59IT之家（RSS）65字节火山引擎火山剧创 1.0 正式上线，短剧制作周期缩短 80% 以上

15:59IT之家（RSS）66腾讯会议"AI 同传"功能上线：可模仿用户音色、时延低于 3 秒

15:27MarkTechPost（RSS）63一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

14:10HuggingFace Daily Papers（社区热门论文）69OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

13:58IT之家（RSS）56小鹏刘先明：特斯拉 FSD 入华是好事，能形成良性竞争，欢迎这种高水平对比

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月22日

22:16

HuggingFace Daily Papers（社区热门论文）

39

FashionLens：基于任务自适应学习的通用时尚图像检索框架

为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题，研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE，整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上，基于多模态大语言模型，提出了两大核心模块：一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器；二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明，该方法在U-FIRE上取得了最先进性能，并能稳健泛化至未见任务。相关代码与数据已开源。

arXiv GitHub 多模态搜索

21:09

IT之家（RSS）

47

成交价 11 万元，全球首款眼神交互仿生人"小月"成功拍出

5月22日，松延动力开发的全球首款眼神交互仿生人“小月”（型号X-Head 1）在京东拍卖平台成功拍出，经过49次出价，最终成交价为110790元，高于其9.9万元的官方定价。该仿生人采用人头造型，重7.5公斤，拥有24个自由度，可实现眼神、口型、情绪等多模态交互对话。

产品更新具身智能多模态

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

16:09

IT之家（RSS）

70

OpenAI 推 Beta 版 ChatGPT for PowerPoint，可生成 / 编辑 / 完善幻灯片

OpenAI于5月22日以Beta版形式推出ChatGPT for PowerPoint插件。用户安装插件并登录后，可在PowerPoint内直接使用自然语言指令，让ChatGPT生成新幻灯片、改写或润色现有内容。该工具还能分析现有演示文稿，识别内容缺口并推测可能被提出的问题。为确保可控性，系统在执行重要修改前会请求用户确认。测试版已向全球所有ChatGPT账号开放，免费用户也可使用。

OpenAI 产品更新多模态

关联讨论 4 条X：Testing Catalog (@testingcatalog)X：ChatGPT (@ChatGPTapp)X：Greg Brockman (@gdb)X：小互 (@xiaohu)

15:02

公众号：月之暗面（Kimi）

37

Kimi 原生视频理解能力已登陆 TRAE 中国版，分享体验得 Labubu！

产品更新多模态视频

14:09

IT之家（RSS）

62

"拼好模"：字节跳动开源轻量原生统一多模态 AI 模型 Lance

字节跳动开源了轻量级多模态模型Lance，其激活参数量为3B。该模型采用原生统一架构，在训练阶段即整合图像与视频的理解、生成及跨模态编辑功能。Lance通过双流专家设计和模态感知旋转位置编码等技术，平衡了理解任务所需的高层语义与生成任务所需的低层连续表示。模型训练共分四阶段，数据规模约1.9T标记，计算预算控制在128张GPU内。基准测试表明，Lance在图像生成、视频生成、图像编辑及视频理解等多项任务中表现突出。该模型权重已依据Apache 2.0协议开源。

多模态开源生态模型发布

13:14

HuggingFace Daily Papers（社区热门论文）

57

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

69

SpaceDG：视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集，包含约100万个问答对，源自近1000个室内场景。其核心是物理基础的退化合成引擎，能将退化过程嵌入3D高斯泼溅渲染，真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题，覆盖11类推理任务。对25个模型的评估揭示，视觉退化会严重损害空间推理能力。研究表明，在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性，性能甚至可超越人类，且不影响其在清晰图像上的表现。

arXiv 多模态数据/训练论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

68

LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限，因其将连续信号压缩为离散文本，损害了时序定位能力。为此，研究提出LatentOmni框架，构建统一的潜在空间以保留密集的感官信息，并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征，并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时，构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明，LatentOmni在多个基准测试中取得了开源模型的最佳性能，并优于显式文本链式推理基线。

多模态推理论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

48

SceneAligner：基于3D重建的平面图定位方法

SceneAligner是一种基于3D重建的平面图定位方法。针对现有技术对环境规模和地图格式的限制，该方法从无约束图像集合重建重力对齐的3D场景，并投影为2D密度图作为平面图代理。通过2D相似变换实现与输入平面图的对齐。为克服密度图与建筑平面图之间的视觉差异，引入跨模态学习机制，利用2D基础模型进行语义对齐，同时保持结构一致性。实验结果显示，该方法在多种场景中显著优于先前方法，特别是在极稀疏输入（如仅单张图像）时仍能有效工作。代码和数据将公开，以促进进一步研究。

多模态端侧论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

63

感知还是偏见：多模态大语言模型能否超越人格的第一印象？

多模态大语言模型在需要人格感知的人机交互中应用广泛，但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务，并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试，发现一个关键的“偏见鸿沟”：在所有模型中，有51%的正确评分并未基于检索到的行为线索，且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数，而非基于正确的推理依据，为未来提升模型的接地社交认知能力指明了方向。

arXiv 多模态论文/研究评测/基准

11:14

HuggingFace Daily Papers（社区热门论文）

66

Maestro：基于强化学习的层级化模型-技能编排框架

Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略，动态组合冻结的专家模型与双层技能库，实现步骤级的实时决策：何时调用专家、选择何种模型-技能组合，以及何时终止。在十个代表性多模态基准测试中，仅4B参数的Maestro平均准确率达70.1%，超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能，无需重新训练；在扩展外部专家后，仍显著优于闭源基线，同时保持高效率和低延迟。代码已开源。

智能体 MCP/工具多模态论文/研究

11:09

IT之家（RSS）

33

全球首款眼神交互仿生人"小月"拍卖：起拍价 1 元，春晚蔡明机器人"姊妹款"

全球首款眼神交互仿生人“小月”（型号X-Head 1）于5月22日上架京东拍卖，起拍价1元，需缴纳500元保证金，将于当晚8点开拍。该产品由松延动力推出，重7.5公斤，拥有24个自由度，可实现交互对话，并具备口型、眼神及情绪等多模态交互能力，其核心仿生技术承袭自春晚亮相的同款机器人“蔡明”。官方标价为9.9万元。

产品更新具身智能多模态

10:14

HuggingFace Daily Papers（社区热门论文）

60

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face 多模态视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

60

Sensor2Sensor：面向自动驾驶的跨形态传感器数据转换

针对自动驾驶系统训练所需高保真、多样化数据不足的难题，研究提出了Sensor2Sensor方法。该方法能将行车记录仪等来源的非结构化单目视频，转化为包含多视角相机图像与LiDAR点云的高保真多模态传感器数据。其核心在于利用4D高斯溅射技术将真实自动驾驶日志转换为视频风格，从而解决缺乏配对训练数据的挑战，并结合扩散模型完成生成式转换。评估表明，该方法能将复杂的真实场景有效转化为可用数据，为自动驾驶开发解锁了海量的外部数据源。

多模态数据/训练论文/研究

09:08

IT之家（RSS）

24

极空间私有云 Z425 轻享版发布：八盘位、万兆网口，首发价 6699 元起

极空间于5月21日发布Z425轻享版私有云服务器，首发价6699元起，国补后到手价5637.61元起。该产品搭载英特尔酷睿Ultra 5 125H处理器，采用八盘位设计（4个SATA与4个M.2 SSD），最大支持160TB存储容量。标配8GB DDR5内存可扩展至128GB，并配备万兆有线网口与双雷电4接口。其“AI空间”功能提供自然语义搜索、音视频摘要生成及智能分类等能力。

产品更新多模态

08:08

IT之家（RSS）

69

Mac 版 Codex 更新 Appshots 功能，窗口可直接"喂"给 AI

OpenAI 更新了桌面版 Codex，Mac 版新增 Appshots 功能。用户可通过快捷键（Command键）直接截取当前应用窗口并发送给 AI，该功能不仅能读取可见内容，还能获取窗口中未显示的文字信息，旨在简化调试和设计等工作流程。同时，/goal 命令结束实验阶段正式转正，允许用户设定长期目标，Codex 将持续执行任务直至达成里程碑。此次更新还包括优化内置浏览器性能、支持 Business 用户团队间共享自定义插件，以及为管理者扩展了包含活跃用户、Token 使用量等维度的分析数据面板。

OpenAI 产品更新多模态编码

08:08

IT之家（RSS）

46

允许订阅用户创作 AI 翻唱、Remix 音乐，Spotify 与环球音乐达成合作

Spotify与环球音乐集团达成授权协议，未来将允许其付费订阅用户利用AI技术创作翻唱歌曲与混音作品。该功能旨在为音乐人和创作者开辟版税之外的新增收入来源，但具体财务条款及参与授权计划的艺人名单暂未公布。受此消息及市场对其营收增长预期影响，Spotify股价近日上涨16%。

产品更新多模态行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

46

SPACENUM：重新审视视觉语言模型的空间数值理解

SPACENUM 是一个统一框架，考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务，评估视觉语言模型（VLM）在视觉空间结构与语言数值表征之间的映射能力。实验表明，当前 VLM 在两种设定下均接近随机猜测，严重依赖浅层空间线索，无法建立稳定的坐标感知表征。显式推理仅带来边际提升，微调可部分改善空间数值理解。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

BrainCause：从激活到因果--发现人脑中的因果视觉表征

BrainCause 是一个自动化框架，结合生成模型与脑模型，通过合成受控刺激并进行因果测试来验证人脑中的神经表征。给定目标概念，框架构建由概念图像、去除目标概念的反事实编辑图像及相关干扰项组成的刺激集，利用图像到 fMRI 编码模型预测脑反应，识别对目标概念具有特异性的表征。该方法在预测和实测 fMRI 数据上成功复现已知功能定位，并发现数十个概念的新候选表征。关键结论：仅凭激活强度不足以证明表征存在，缺乏因果验证会导致大量假阳性定位。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

One-Forcing：实现稳定的单步自回归视频生成

针对现有少步自回归视频生成方法在单步设置下面临的质量下降与训练不稳定问题，One-Forcing提出了一种将DMD目标与辅助GAN损失相结合的方法。该方法实现了高质量且高效的单步视频生成。在VBench评测中，它取得了83.76的总分，达到单步因果视频生成的最先进水平，并与强大的多步方法性能相当。研究表明，One-Forcing仅用chunkwise模型三分之一的训练成本，就能稳定实现单步帧级自回归生成。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

HorizonStream：面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核，并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率，实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码，执行可靠三维匹配并抑制注意力尖峰。最终，通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练，即可在恒定内存与线性时间下，稳定泛化至超过 10,000 帧的序列，达到了流式三维重建的先进性能。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

68

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

GenRecon：连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案，核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成，并提出一种基于投影的条件机制，将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础，将其对象级能力推广至场景级别，最终生成可编辑的PBR网格重建结果。在室内环境重建任务上，其保真度优于现有尖端方法16%。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

ETCHR：通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器，针对语言端与生成端两个缺陷进行两阶段训练：先通过监督微调进行推理模仿，再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示，ETCHR分别将通义千问（Qwen3-VL-8B）的平均Pass@1从55.95提升至60.77，Gemini-3.1-Flash-Lite从65.08提升至70.55，以及月之暗面（Kimi K2.5）从76.55提升至81.16。

多模态推理论文/研究

06:05

MarkTechPost（RSS）

62

Cohere发布Command A+：适用于智能体工作流的218B稀疏MoE模型，最少需两块H100 GPU运行

Cohere发布开源模型Command A+，采用218B参数稀疏混合专家架构，整合了此前四个Command A变体。该模型支持智能体工作流，在W4A4量化配置下仅需两块H100 GPU即可运行，支持48种语言，并首次具备多模态推理能力。

智能体多模态模型发布

04:02

TechCrunch：AI（RSS）

38

Spotify与环球音乐集团达成协议，允许粉丝创作AI歌曲封面和混音

Spotify与环球音乐集团达成合作，向其Premium高级订阅用户提供AI生成的歌曲封面与混音创作工具。通过该功能，粉丝可以基于原曲创作个性化版本，而参与合作的原创艺术家将从相关播放收入中获得分成。这标志着音乐产业对AI二次创作商业模式的一次重要探索。

多模态行业动态

01:31

The Verge：AI（RSS）

48

Polyend 推出售价 299 美元的 AI 吉他效果器 Endless

音乐设备制造商 Polyend 发布了名为 Endless 的 AI 吉他效果器，售价 299 美元。该设备内置 ARM 处理器，搭载名为 Playground 的 AI 代理系统，用户可通过文本提示词，由多个协作 AI 代理实时生成并部署自定义吉他音效，并支持与实体效果板搭配使用。这款产品标志着 AI 技术开始向专业音乐硬件渗透，将复杂的音色生成变得更直接、可编程。

产品更新多模态

01:26

Hacker News 热门（buzzing.cc 中文翻译）

60

在配备Gemma4-31B（50GB交换分区）的2021款MacBook上本地索引一年的视频

技术博客记录了一项本地处理实验：在配备50GB交换分区的2021款MacBook上，使用Gemma4-31B大语言模型成功完成了一整年视频的本地索引任务。该成果在技术社区Hacker News上获得102个积分，显示了消费级设备运行大模型进行长周期媒体处理的可行性。

Google 多模态教程/实践端侧

00:33

Google Developers Blog（RSS）

精选75

推出 Gemini for Home 赋能服务提供商与硬件合作伙伴

Google 通过推出全栈 Gemini AI 解决方案扩展其智能家居生态系统。该方案集成了先进的摄像头智能、自然语言查询功能和日常活动摘要能力。它为服务提供商和硬件制造商提供了现成的参考设计与API，使其无需大量研发投入即可构建主动式、品牌化的智能家居服务。该计划旨在超越基础设备控制，迈向能够理解情境并实时响应用户需求的AI原生智能家居。

Google 产品更新多模态端侧

推荐理由：Google 把 Gemini 塞进智能家居，直接给硬件商和 ISP 提供交钥匙方案，这一步可能比 Nest 当年更有侵略性，做智能家居的得留意了。

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face 图像生成多模态开源/仓库

关联讨论 1 条IT之家（RSS）

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

5月21日

16:59

IT之家（RSS）

25

嫦娥六号补上关键"碎片"，我国团队成功绘制最精确月球化学成分图

中国科学院团队利用嫦娥六号从月球背面带回的1935.3克样本，结合AI模型校准遥感数据，成功绘制出迄今最精确的月球全球化学成分图。新地图修正了月背高地成分认知，显示其富铝、富钙，低铁、低钛，并重新界定了南极-艾特肯盆地边界，表明撞击挖掘范围更广。该研究为未来月球探测，特别是南极-艾特肯盆地的探索，提供了关键科学导航图。

其他多模态

15:59

IT之家（RSS）

65

字节火山引擎火山剧创 1.0 正式上线，短剧制作周期缩短 80% 以上

字节跳动旗下火山引擎正式上线了一站式AIGC短剧创作平台——火山剧创1.0。该平台深度适配自研模型，依托多智能体架构，可提供从剧本解析到成片预览的端到端智能解决方案，号称将短剧制作周期缩短80%以上，并实现“导演级控片”能力。平台在每个核心环节均向用户开放编辑权限，确保创作控制权。此次升级还新增了企业级协作功能，包括提示词编辑、IP资产库完善及团队积分管理。

产品更新多模态视频

15:59

IT之家（RSS）

66

腾讯会议"AI 同传"功能上线：可模仿用户音色、时延低于 3 秒

腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备，每位参会者均可独立开启，支持模仿发言人音色，实现发言与翻译几乎同步，时延低于3秒。用户可调节同传与原声音量，并已与原有的文字转写、会中字幕功能打通，支持可听、可译、可见、可记的多维度跨语言会议体验。

产品更新多模态语音

15:27

MarkTechPost（RSS）

63

一个模型，三种模态：字节跳动发布 Lance 用于图像与视频的理解、生成和编辑

字节跳动智能创作实验室发布了Lance，这是一款开源的原生统一多模态模型。它能够在单一框架内，同时处理图像与视频的理解、生成和编辑三大任务。该模型仅需激活30亿参数，实现了用一个轻量级模型统一处理多种视觉内容创作与理解的需求。

图像生成多模态开源生态模型发布

14:10

HuggingFace Daily Papers（社区热门论文）

69

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv 多模态推理论文/研究

13:58

IT之家（RSS）

56

小鹏刘先明：特斯拉 FSD 入华是好事，能形成良性竞争，欢迎这种高水平对比

特斯拉宣布其监督版FSD可在中国使用。小鹏集团通用智能中心负责人刘先明表示，FSD入华是好事，能形成良性竞争并推动行业进步。他指出小鹏的优势在于中国本地化场景适配与本土数据积累。双方目前均采用纯视觉辅助驾驶路线。小鹏集团董事长何小鹏设定目标，计划在今年8月在中国市场实现其VLA智驾系统的综合能力全面超越特斯拉FSD。

多模态大佬观点

1…14 151617 18…32