xAI 发布 Voice Agent Builder 测试版
阅读原文· x.aixAI 用 Grok Voice 原生的语音到语音路径,把生产级语音代理的搭建门槛降到了无代码、两分钟,计费也简单,做语音业务的人值得试试。
xAI 推出 Voice Agent Builder 测试版,这是一个基于 Grok Voice 的无代码平台,可在两分钟内创建生产级语音智能体。它集成电话、知识检索、工具、MCP、Guardrails 及可观测性,支持连接现有 SIP 号码、API 和 WebSocket,采用语音到语音路径。在 τ-voice Bench 上,Grok Voice Think Fast 1.0 得分 67.3%,领先 Gemini 3.1 Flash Live(43.8%)和 GPT Realtime 1.5(35.3%)。定价为每分钟音频 0.05 美元、电话费 0.01 美元,提供 80+ 种语音及声音克隆,每个账户附赠一个免费电话号码。
在不到两分钟内创建一个个性化语音智能体,无需编写一行代码。
隆重推出 Voice Agent Builder——基于我们能找到的最棘手的通话进行训练,两分钟即可得到一个智能体,来看看它的成本,试试看。
免费试用 探索语音智能体
今天,我们宣布 Voice Agent Builder 进入 beta 测试阶段:这是一个零代码平台,让你可以在 Grok Voice 上配置生产级语音智能体。
它面向那些希望获得高并发生产级语音智能体、却不想从头搭建周边技术栈的运营者和开发者。开箱即用,你就能在一个地方获得电话通信、知识检索、工具、防护栏、MCP 和可观测性。你也可以保留已有的东西:通过 SIP 接入现有电话号码,将工具连接到你的 API 和 MCP 服务器,或者通过 WebSocket 连接你自己的客户端。
大多数语音技术栈把三套 API 拼在一起——语音转文字、语言模型、文字转语音——而且每个阶段往往由不同的供应商托管。每一次跳转都会增加成本、延迟和新的故障模式。Voice Agent Builder 是一条端到端语音路径上的统一界面,该路径专为 Grok Voice 构建,与模型紧密耦合,而非由三个独立组件拼凑而成。
视频 1 基于我们能找到的最棘手的通话进行训练
真实的通话包含低质量的电话音频、背景噪音、浓重的口音、打断,以及中途改变主意的来电者。背后的工作流程模糊不清,涉及数十种工具,并且可能以 25 种以上的语言进行。
我们用这些通话训练了 Grok Voice。τ-voice Bench 在相同条件下评测智能体。
τ-voice Bench 排行榜
Grok Voice Think Fast 1.0 67.3%
Gemini 3.1 Flash Live 43.8%
GPT Realtime 1.5 35.3%
总体 零售 航空 电信 两分钟得到一个智能体
设置很简单:用自然语言描述通话应该如何进行,然后附上你的文档、工具和防护栏。从零开始到拥有一个可用的智能体,大约只需两分钟。 教会它你的业务
智能体从一个提示词开始,该提示词描述通话应该如何进行。模型会进行实时推理,因此它能够遵循长指令并处理模糊的请求。
它所“了解”的内容来自知识库。你可以上传常见格式的文档(纯文本、Markdown、Word、PowerPoint、Excel、HTML、JSON 等),智能体在通话过程中会从中检索信息。文档被组织成集合,你可以将集合关联到一个或多个智能体,并在不同智能体之间共享,这样政策、产品规格和操作手册就能保存在同一个地方,而不必被粘贴到每条提示词里。
采取行动
了解业务只是支持或销售通话的一半。智能体还需要采取行动。它们需要查询信息、修改记录、转接对话,或在通话结束后完成闭环。
通过工具和连接器来实现这一点。在预约热线中,智能体可能会在 Google Calendar 或 Outlook Calendar 中安排约会,然后通过你的邮件服务发送确认。在支持场景中,API 请求可以查询订单状态,或在你自己的系统中发起退款。当答案不在你的文档里时,网络搜索或 X 搜索可以拉取当前的公开信息。工单可以在 Linear 或 Notion 中管理,文件则来自 Google Drive 或 OneDrive。
如果来电者需要人工帮助,智能体可以将通话转接到你的团队。任务完成后,它可以干净地结束通话。在整个对话过程中,它会发送实时通知,让你的团队看到智能体做了什么,并在需要时介入。
search_help_center
transfer_to_human
赋予它声音和号码
智能体可以使用 80 多种内置语音中的任意一种,也可以使用从大约两分钟的音频中克隆出来的品牌语音。每个账户都包含一个免费电话号码,从第一次测试通话到生产流量均可使用,直接 SIP 可以接入任何主流电话运营商提供的现有号码。你也可以在浏览器中测试更改,无需电话。
回放通话
每一次通话都会被录音并转写成文字。你可以回放音频、阅读转录文本,并查看智能体使用了哪些工具。护栏则对智能体不应做的行为施加限制,例如读出信用卡号码或讨论偏离脚本的话题。
费用是多少
我们相信定价应该简单透明。智能体按我们的 API 费率计费(目前为 $0.05 / 分钟音频),语音包含在内,没有单独的平台费用。使用免费预配号码的电话服务额外收费 $0.01 / 分钟。
其他语音服务商通常对每个独立组件(语音识别、推理、语音合成和平台)分别计费,每个组件都有自己的计量单位和定价。我们想让计量单位尽可能少,你只需乘以通话量就能算清费用,一次搞定。
试试看
语音智能体靠耳朵听比靠基准测试更容易判断好坏。搭建一个智能体,把最难的流程丢给它,然后打电话试试。
免费试用探索语音智能体
一个隶属于[](https://spacex.com/)的部门
© 2026 xAI Corp.
由 Grok 构建
产品
聊天构建想象语音Grokipedia
下载
grok.comiOSAndroidGrok 上的 X
解决方案
商业政府客服法律安全应用场景
开发者
API 概览定价模型控制台文档状态
企业
联系销售常见问题BAADPA
公司
关于Colossus职业生涯新闻联系
信任
安全隐私门户子处理商帮助中心
法律
条款企业条款隐私CookieAUP品牌
社交
@xai@grokDiscord
由 Grok 构建