# 腾讯混元联合多家机构发布首个音频编辑基准MMAE

- 来源：Tencent Hy (@TencentHunyuan)
- 发布时间：2026-06-08 13:54
- AIHOT 分数：69
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq4tfme001jlslt2hle9mu5a
- 原文链接：https://x.com/TencentHunyuan/status/2063862263434613237

## 精选理由

过去一年语音和音乐生成很热，但音频编辑还没人正经测过，腾讯这个基准把现状血淋淋地摆出来了，不到5%的准确率意味着整个方向都还在起步期。

## AI 摘要

腾讯混元联合上海交大、南洋理工等机构推出MMAE（Massive Multitask Audio Editing Benchmark），这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改，而非简单生成。当前模型在该基准上的精确匹配率（EMR）低于5%，暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项，覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度（基础修改到多跳推理及多轮编辑）、8种操作类型（局部到全局）。论文、代码、数据集和演示已公开。

## 正文

AI真的能编辑音频，而不仅仅是生成音频吗？🎧

腾讯混元与上海交通大学、SII、南洋理工大学、同济大学、ZODA、北京大学、复旦大学及其他合作方共同推出MMAE。

MMAE——大规模多任务音频编辑基准（Massive Multitask Audio Editing Benchmark），是首个针对语音和音频“香蕉🍌”的全面评估基准。

它不仅要求AI“生成”音频，而是要求AI理解现有的音频片段，并根据自然语言指令精确修改它——改变需要改变的部分，同时保持其余部分不变。

当前模型在精确匹配率（EMR）上低于5%，暴露出可靠音频编辑方面的一个重大差距。

MMAE包含： ✅ 来自真实场景的2,000个高保真样本 ✅ 17,741个细粒度评分评估项 ✅ 7种模态设置，涵盖声音、音乐、语音及其混合 ✅ 6种任务复杂度，从基本修改到多跳推理和多轮编辑 ✅ 8种操作类型，涵盖局部和全局粒度

使用方法： arXiv: http://arxiv.org/abs/2606.07229 GitHub: https://github.com/ddlBoJack/MMAE HuggingFace: https://huggingface.co/datasets/BoJack/MMAE Demo: https://youtu.be/6At5nTWhlXI
