豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。
豆包实时语音模型3.0 API 上线
看演示还是很牛P的,能干不少事情了
全双工:能同时听和说,像真人聊天那样可以随时插话
端到端:语音进、语音出,不进行转录,更快、更自然。
精准遵循 + 适时参与:
你可以一句话给它定规矩,比如多人聊天时说「现在先别出声,聊到世界杯时再加入」, 它就安静待命,等话题真到了再主动接话
最关键的一步升级:
它支持自定义工具,能在实时对话里直接调用工具完成任务,预定日历、发邮件、总结文档、发起查询,一句话语音就在对话流里办完。
这等于从「语音助手」往「语音 Agent」迈了一步