实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。
在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要,语音的仿真生动程度、语音响应的及时性,这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。
Voice Agent 的搭建过程,模型主要包括 ASR、VOD、TTS、LLM 等,而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案,前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。
在 WebRTC 领域,有一个非常常用的方案团队:Agora,他们也推出了 Agora Skills,让 AI Agent 可以快速安装和理解、使用。
今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。
首先是 Agora Skills 安装,我只需要告诉 Codex:"安装 Agora Skills:https://github.com/AgoraIO/skills”,1-2 分钟后 Codex 自动安装完成。
安装完成它向 Codex 展示 Skills 的主要内容,包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存,在网页端登录一次后,就不需要再离开 Codex 了。