# 谷歌推出 Magenta RealTime 2 本地实时音乐 AI 模型：延迟降低至 1/15

- 来源：IT之家（RSS）
- 发布时间：2026-06-05 13:48
- AIHOT 分数：71
- AIHOT 链接：https://aihot.virxact.com/items/cmq0j53dw06posltr2bx1v5ea
- 原文链接：https://www.ithome.com/0/960/419.htm

## AI 摘要

谷歌 Magenta 团队昨日发布 Magenta RealTime 2（MRT2）模型，免费放出乐器应用 Jam 及 DAW 插件 MRT2。MRT2 提供两种规模：高质量模型 mrt2_base（24 亿参数）和高速模型 mrt2_small（2.3 亿参数），均针对苹果 Apple Silicon 优化，mrt2_small 可在 M1 及以上芯片 Mac 实时运行。相较前代延迟约 3 秒，MRT2 改为逐帧生成（每帧 40 毫秒），控制延迟约 200 毫秒，降低至 15 分之一。支持文本和音频风格提示、MIDI 音符与鼓开关控制及 Auto-Strum 模式。技术基于 Codec Language Model，采用 SpectroStream 编解码器处理 48kHz 立体声音频。

## 正文

IT之家 6 月 5 日消息，谷歌 Magenta 团队昨日（6 月 4 日）发布 Magenta RealTime 2（MRT2）模型，并同步免费放出乐器应用 Jam 以及 DAW 插件 MRT2。

MRT2 定位是可与用户“即兴合奏”的本地实时音乐模型，共有 2 种规模，其一是高质量模型 mrt2_base，参数量为 24 亿；其二是高速模型 mrt2_small，参数量为 2.3 亿。

谷歌表示上述两个版本均针对苹果 Apple Silicon 芯片优化，其中 mrt2_small 可在搭载 M1 及后续芯片的 Apple 电脑上实时运行。

MRT2 最大变化是“低延迟”。上一代 Magenta RealTime 需要 TPU 或高性能 GPU，控制延迟约 3 秒，且以 2 秒音频块为单位响应。

MRT2 改为逐帧生成，每帧 40 毫秒，实际控制延迟约 200 毫秒，较前代降低至 15 分之一。这让模型对输入变化的反应明显更快，更接近真实乐器的演奏体验。

在控制方式上，MRT2 比前代更完整。它支持文本和音频风格提示，也支持 MIDI 音符与鼓开关控制。

模型可持续跟随音符输入变化，还能在 Auto-Strum 模式下自动决定拨弦或起音时机；关闭该模式后，用户还能精确指定音符起始时刻。对于鼓组，系统也支持切换有鼓或无鼓输出，适合多轨编曲场景。

技术层面，MRT2 仍属于 Codec Language Model（编解码器语言模型），基于 SpectroStream 音频编解码器处理 48kHz 立体声音频，并以 25Hz 帧率生成音频标记。

交互方面，谷歌还推出 Jam 免费应用，支持用户输入想要的音乐风格描述，随后模型开始生成音乐；用户还可通过下方键盘调整音高。

输入设备不仅包括鼠标点击，还支持 MacBook 键盘与 MIDI 键盘，这让实时控制更接近传统电子乐器和数字编曲工作流。

如果用户已习惯在成熟编曲环境中工作，MRT2 插件则提供了接入路径。借助该插件，创作者可在自己常用的 DAW 中调用 Magenta RealTime 2。

IT之家附上参考地址

Magenta RealTime 2: Open & Local Live Music Models