# xAI 发布 Voice Agent Builder 测试版

- 来源：xAI：News（网页）
- 发布时间：2026-07-01 08:00
- AIHOT 分数：77
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmr2a81sq066ssl8z8vo7so2x
- 原文链接：https://x.ai/news/grok-voice-agent-builder

## 精选理由

xAI 用 Grok Voice 原生的语音到语音路径，把生产级语音代理的搭建门槛降到了无代码、两分钟，计费也简单，做语音业务的人值得试试。

## AI 摘要

xAI 推出 Voice Agent Builder 测试版，这是一个基于 Grok Voice 的无代码平台，可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性，支持连接现有 SIP 号码、API 和 WebSocket，采用语音到语音路径。在 τ-voice Bench 上，Grok Voice Think Fast 1.0 得分 67.3%，领先 Gemini 3.1 Flash Live（43.8%）和 GPT Realtime 1.5（35.3%）。定价为每分钟音频 0.05 美元、电话费 0.01 美元，提供 80+ 种语音及声音克隆，每个账户附赠一个免费电话号码。

## 正文

在不到两分钟内创建一个个性化语音智能体，无需编写一行代码。

隆重推出 Voice Agent Builder——基于我们能找到的最棘手的通话进行训练，两分钟即可得到一个智能体，来看看它的成本，试试看。

免费试用 探索语音智能体

今天，我们宣布 Voice Agent Builder 进入 beta 测试阶段：这是一个零代码平台，让你可以在 Grok Voice 上配置生产级语音智能体。

它面向那些希望获得高并发生产级语音智能体、却不想从头搭建周边技术栈的运营者和开发者。开箱即用，你就能在一个地方获得电话通信、知识检索、工具、防护栏、MCP 和可观测性。你也可以保留已有的东西：通过 SIP 接入现有电话号码，将工具连接到你的 API 和 MCP 服务器，或者通过 WebSocket 连接你自己的客户端。

大多数语音技术栈把三套 API 拼在一起——语音转文字、语言模型、文字转语音——而且每个阶段往往由不同的供应商托管。每一次跳转都会增加成本、延迟和新的故障模式。Voice Agent Builder 是一条端到端语音路径上的统一界面，该路径专为 Grok Voice 构建，与模型紧密耦合，而非由三个独立组件拼凑而成。

视频 1 基于我们能找到的最棘手的通话进行训练

真实的通话包含低质量的电话音频、背景噪音、浓重的口音、打断，以及中途改变主意的来电者。背后的工作流程模糊不清，涉及数十种工具，并且可能以 25 种以上的语言进行。

我们用这些通话训练了 Grok Voice。τ-voice Bench 在相同条件下评测智能体。

τ-voice Bench 排行榜

Grok Voice Think Fast 1.0 67.3%

Gemini 3.1 Flash Live 43.8%

GPT Realtime 1.5 35.3%

总体 零售 航空 电信 两分钟得到一个智能体

设置很简单：用自然语言描述通话应该如何进行，然后附上你的文档、工具和防护栏。从零开始到拥有一个可用的智能体，大约只需两分钟。 教会它你的业务

智能体从一个提示词开始，该提示词描述通话应该如何进行。模型会进行实时推理，因此它能够遵循长指令并处理模糊的请求。

它所“了解”的内容来自**知识库**。你可以上传常见格式的文档（纯文本、Markdown、Word、PowerPoint、Excel、HTML、JSON 等），智能体在通话过程中会从中检索信息。文档被组织成**集合**，你可以将集合关联到一个或多个智能体，并在不同智能体之间共享，这样政策、产品规格和操作手册就能保存在同一个地方，而不必被粘贴到每条提示词里。

**采取行动**

了解业务只是支持或销售通话的一半。智能体还需要**采取行动**。它们需要查询信息、修改记录、转接对话，或在通话结束后完成闭环。

通过**工具**和**连接器**来实现这一点。在预约热线中，智能体可能会在 Google Calendar 或 Outlook Calendar 中安排约会，然后通过你的邮件服务发送确认。在支持场景中，API 请求可以查询订单状态，或在你自己的系统中发起退款。当答案不在你的文档里时，网络搜索或 X 搜索可以拉取当前的公开信息。工单可以在 Linear 或 Notion 中管理，文件则来自 Google Drive 或 OneDrive。

如果来电者需要人工帮助，智能体可以将通话转接到你的团队。任务完成后，它可以干净地结束通话。在整个对话过程中，它会发送实时通知，让你的团队看到智能体做了什么，并在需要时介入。

search_help_center

transfer_to_human

**赋予它声音和号码**

智能体可以使用 80 多种内置语音中的任意一种，也可以使用从大约两分钟的音频中克隆出来的品牌语音。每个账户都包含一个免费电话号码，从第一次测试通话到生产流量均可使用，直接 SIP 可以接入任何主流电话运营商提供的现有号码。你也可以在浏览器中测试更改，无需电话。

**回放通话**

每一次通话都会被录音并转写成文字。你可以回放音频、阅读转录文本，并查看智能体使用了哪些工具。护栏则对智能体不应做的行为施加限制，例如读出信用卡号码或讨论偏离脚本的话题。

**费用是多少**

我们相信定价应该简单透明。智能体按我们的 API 费率计费（目前为 $0.05 / 分钟音频），语音包含在内，没有单独的平台费用。使用免费预配号码的电话服务额外收费 $0.01 / 分钟。

其他语音服务商通常对每个独立组件（语音识别、推理、语音合成和平台）分别计费，每个组件都有自己的计量单位和定价。我们想让计量单位尽可能少，你只需乘以通话量就能算清费用，一次搞定。

试试看

语音智能体靠耳朵听比靠基准测试更容易判断好坏。搭建一个智能体，把最难的流程丢给它，然后打电话试试。

免费试用探索语音智能体

一个隶属于[](https://spacex.com/)的部门

© 2026 xAI Corp.

由 Grok 构建

产品

聊天构建想象语音Grokipedia

下载

grok.comiOSAndroidGrok 上的 X

解决方案

商业政府客服法律安全应用场景

开发者

API 概览定价模型控制台文档状态

企业

联系销售常见问题BAADPA

公司

关于Colossus职业生涯新闻联系

信任

安全隐私门户子处理商帮助中心

法律

条款企业条款隐私CookieAUP品牌

社交

@xai@grokDiscord

由 Grok 构建
