过去一年语音和音乐生成很热,但音频编辑还没人正经测过,腾讯这个基准把现状血淋淋地摆出来了,不到5%的准确率意味着整个方向都还在起步期。
腾讯混元联合上海交大、南洋理工等机构推出MMAE(Massive Multitask Audio Editing Benchmark),这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改,而非简单生成。当前模型在该基准上的精确匹配率(EMR)低于5%,暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项,覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度(基础修改到多跳推理及多轮编辑)、8种操作类型(局部到全局)。论文、代码、数据集和演示已公开。
AI真的能编辑音频,而不仅仅是生成音频吗?🎧
腾讯混元与上海交通大学、SII、南洋理工大学、同济大学、ZODA、北京大学、复旦大学及其他合作方共同推出MMAE。
MMAE——大规模多任务音频编辑基准(Massive Multitask Audio Editing Benchmark),是首个针对语音和音频“香蕉🍌”的全面评估基准。
它不仅要求AI“生成”音频,而是要求AI理解现有的音频片段,并根据自然语言指令精确修改它——改变需要改变的部分,同时保持其余部分不变。
当前模型在精确匹配率(EMR)上低于5%,暴露出可靠音频编辑方面的一个重大差距。
MMAE包含: ✅ 来自真实场景的2,000个高保真样本 ✅ 17,741个细粒度评分评估项 ✅ 7种模态设置,涵盖声音、音乐、语音及其混合 ✅ 6种任务复杂度,从基本修改到多跳推理和多轮编辑 ✅ 8种操作类型,涵盖局部和全局粒度
使用方法: arXiv: http://arxiv.org/abs/2606.07229 GitHub: https://github.com/ddlBoJack/MMAE HuggingFace: https://huggingface.co/datasets/BoJack/MMAE Demo: https://youtu.be/6At5nTWhlXI