# MOSS-Audio：开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-04 08:23
- AIHOT 分数：67
- AIHOT 链接：https://aihot.virxact.com/items/cmpys4nfy02sbsli3gv7ioq1g
- 原文链接：https://x.com/berryxia/status/2062329459517341827

## AI 摘要

OpenMOSS团队发布MOSS-Audio，一个融合语音（Speech）、环境音（Sound）、音乐（Music）的开源音频-语言模型，已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域，可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用，代码和权重已在Hugging Face及GitHub公布，开发者可本地运行。

## 正文

大家还在把音频AI当成视觉和文本的边缘附属品时，一个开源模型直接把语音、音乐、环境音三件事彻底统一到一个模型里，干翻了所有闭源方案。

真的试试实际效果如何，看着是真的不粗~~

大家本地搭音频Agent，想让AI不光听懂人说话，还能分辨背景音乐、环境音效，甚至自动剪辑播客。

之前所有方案不是闭源贵得离谱，就是语音和音乐两套系统，串起来一塌糊涂。

今天MOSS-Audio直接把这个痛点干掉了。

OpenMOSS团队这个模型刚刚冲上Hugging Face Trending第一。

它把Speech、Sound、Music真正做到了audio-language统一建模：扔一段带背景音乐的对话，它能同时转录语音、识别环境音、理解音乐情绪，还能生成文本描述或者直接做下游任务。

不是简单堆数据，而是真正从架构上打通了音频世界。

开源可商用，Hugging Face和GitHub代码全放出来了，普通开发者现在就能拉下来本地跑。

这其实把行业当前最主流的认知直接反转了：真正通往超级智能的下一块拼图，不是继续卷视觉+文本，而是让AI像人一样同时感知声音世界。

音频从来不是附属，将和文本同等重要的感官入口。

谁先把这一块做通，谁就抢到了下一代agent的先机。

以前我们总觉得音频AI要等闭源大厂慢慢迭代，现在开源社区用一个模型就把"语音+声音+音乐"这个三合一难题端上来了，速度和开放度反而领先。

### 引用推文

> MOSI：MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Face: https://huggingface.co/collections/O...