# Agora Skills：快速构建实时语音交互 Agent 的实践

- 来源：meng shao (@shao__meng)
- 发布时间：2026-05-21 12:19
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmpezito6025msljw64eei4eq
- 原文链接：https://x.com/shao__meng/status/2057315263935283276

## AI 摘要

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈（ASR、TOD、TTS、LLM）及 WebRTC 通信基础，并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills，演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话，响应延迟仅约 1 秒，极大简化了开发者验证语音陪伴等场景的开发流程。

## 正文

在 Codex/Claude Code 等 Coding Agents 领域，文字是主要的输入输出方式；而在更广泛的通用 Agents 领域，特别是陪伴、实时交互等 Agents 方面，实时语音交互非常重要，语音的仿真生动程度、语音响应的及时性，这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。

Voice Agent 的搭建过程，模型主要包括 ASR、VOD、TTS、LLM 等，而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案，前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。

在 WebRTC 领域，有一个非常常用的方案团队：Agora，他们也推出了 Agora Skills，让 AI Agent 可以快速安装和理解、使用。

今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。

首先是 Agora Skills 安装，我只需要告诉 Codex："安装 Agora Skills：https://github.com/AgoraIO/skills”，1-2 分钟后 Codex 自动安装完成。

安装完成它向 Codex 展示 Skills 的主要内容，包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证，在 CLI 中也可以快速完成登录和环境变量设置保存，在网页端登录一次后，就不需要再离开 Codex 了。

然后我让 Codex 帮我用 Agora Skills 写一个 Demo：用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo，从登录 Agora、创建项目到本地跑通，把关键log和性能数据展示出来。

也是完全 Codex 自动读取 Skills 后完整，我没有介入，说明 Skills 中各种能力的编排和集成做的还是很到位，也是2-3 分钟后，Demo 就写完并运行起来了。

这个 Demo 的功能主要是语音实时对话，从对话体感上看，很流畅，接近于人和人之间语音通话的响应延迟，语音包和 LLM 都可以切换，这里我只做了默认集成。
看几个关键数据：
· 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内，很快
· 从我说话结束，到 Voice Agent 首个语音包输出（我听到声音），1秒左右

如果你在做 Voice Agent 方面的探索，可以接入 Agora Skills 快速验证你的想法，让你的 Agent 能实时和你对话。抛砖几个场景，朋友们可以去尝试回来再交流：给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。
https://github.com/AgoraIO/skills
