6月3日

00:00

Suno：Blog（网页）

精选76

Suno发布了新的创作工具，旨在将创意控制权完全交还给艺术家。新功能包括支持上传最长8分钟的音频、具备行业首创编辑工具（如歌词替换、段落修改和重混）的升级版歌曲编辑器，以及可调节创作风格的“创意滑块”。创作完成后，用户可利用前沿技术将轨道分离为12条独立音轨（如人声、鼓、贝斯）进行预览和下载，便于在数字音频工作站（DAW）中进行后续编辑。

产品更新多模态

关联讨论 2 条

推荐理由：Suno 这次不是加几个 style，而是给了波形编辑和 12 轨分离，把 AI 音乐从生成器变成了制作工具，音乐创作者可以进来真正干活了。

5月30日

09:32

公众号：小米 MiMo

Xiaomi MiMo-VL：通向Agent时代的推理基座，小米多模态大模型开源

小米开源多模态大模型Xiaomi MiMo-VL，该模型定位为Agent时代的推理基座，旨在为智能体时代提供基础推理能力。

智能体多模态模型发布

5月20日

17:45

Google DeepMind：Blog（RSS）

精选

Gemma 3n 预览版发布：强大、高效、移动优先的 AI

Gemma 3n 预览版发布，专为移动设备优化的开源多模态模型。采用 2-in-1 架构，支持音频理解，适用于实时交互和音频中心应用开发。

DeepMind Google 多模态模型发布

关联讨论 1 条

推荐理由：Google 发布端侧多模态模型 Gemma 3n，支持音频理解，面向移动设备优化

5月16日

00:00

Runway：News（网页）

Runway 推出 Gen-4 Image API

Runway 开放 Gen-4 Image API，集成 References 功能，定价 $0.08/张。支持虚拟试衣、游戏资产生成、室内设计等场景，开发者可通过 bounding boxes 精确控制构图，将多模态生成能力接入自有应用。

产品更新图像生成多模态

4月23日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 为所有模型新增 PDF 处理支持

OpenRouter 平台现已支持对所有模型进行 PDF 文件处理。此前仅部分模型支持该功能，此次更新实现了全覆盖，用户使用任意模型时均可直接上传并处理 PDF 文档。

产品更新多模态

08:00

OpenRouter：Announcements（RSS）

Universal PDF Support

OpenRouter现已为平台上的所有模型提供PDF文件处理支持。这项通用功能意味着用户在使用任何模型时，都能直接上传和分析PDF文档。此举消除了以往特定模型才能处理PDF的限制，显著扩展了工具的应用场景，便于用户进行文档总结、信息提取或内容问答等一系列任务。

产品更新多模态部署/工程

4月14日

00:00

MiniMax：Blog（网页）

精选

MiniMax MCP Server

MiniMax 发布 MCP Server，集成文本转语音、语音克隆、文生图、文生视频等多模态能力。支持 Claude Desktop、Cursor、Windsurf 等主流 MCP 客户端，通过统一工作流实现文本到音视频的一站式生成，面向创作者和开发者免费开放。

MCP/工具产品更新多模态

推荐理由：MiniMax MCP Server 上线，支持语音克隆、文生图/视频并兼容 Claude Desktop 等主流客户端