FishAudio 将其付费级 TTS 模型 S2.1 Pro 免费开放给开发者使用,非阉割版,与付费套餐同款,支持 83 种语言且无严格限制。已集成的用户仅需修改模型名即可切换。语音赛道的模型层价格战已触底,小团队做 AI 客服、有声内容等应用时,TTS 调用成本可归零,竞争转向应用层价值创造。
FishAudio 将其付费级 TTS 模型 S2.1 Pro 免费开放给开发者使用,非阉割版,与付费套餐同款,支持 83 种语言且无严格限制。已集成的用户仅需修改模型名即可切换。语音赛道的模型层价格战已触底,小团队做 AI 客服、有声内容等应用时,TTS 调用成本可归零,竞争转向应用层价值创造。
Fish Audio 发布 S2.1 Pro 文本转语音模型,通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律,质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上,S2.1 Pro 基于 1072 场竞技获得 Elo 1153,排名第 13,超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒,高于 GPT-Realtime-2(45.8 chars/s)和 Gemini 3.1 Flash TTS(25.3 chars/s)。
xAI 推出 Voice Agent Builder 无代码平台,基于原生 speech-to-speech 架构 Grok Voice,打通语音识别、大模型、语音合成全链路。用户用自然语言描述流程、上传文档作为知识库,两分钟即可生成带工具调用、安全护栏、全链路监控的完整语音智能体,并免费附赠一个电话号码。支持日历、搜索、工单等内置功能,可接入自有号码和系统。定价 $0.05/分钟,无额外平台费。
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
xAI 发布 Grok Voice Agent Builder(Beta),将 Grok 语音模型产品化,支持在浏览器中无代码、2 分钟搭建可打电话的 AI 助手。具备实时对话、亚秒延迟、25+ 语言,并可分配电话号码。相比传统方案门槛大幅降低。体验地址:http://x.ai/voice
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today a...
本地跑了一遍 VoxCPM2,最让我意外的不是它会说粤语、河南话,而是"声音"正在变成一种可以编辑的东西。 写一句提示词,就能指定年龄、音色、情绪和语速;再上传一段参考音频,它还能保留音色,重新控制表达方式。 以前语音模型追求的是"像不像本...
Artificial Analysis 发布 Controlled Voice Arena,通过语音克隆标准化 8 种声音(2 美男、2 美女、2 英男、2 英女),评估 TTS 模型的音频质量、发音、节奏与语调,分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放,本周公布首批排行榜。
ByteDance 通过 BytePlus 推出 Seed Audio 1.0,一个非流式 TTS 模型,可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频,以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同,它更像多模态音频生成模型,一次性完成复杂场景音频。目前仅对企业开放申请,早期反馈音频自然,但缺少对时长的精细控制。
Meet Seed Audio 1.0 - Now open for enterprise access application. A pioneering non-streaming TTS model that generates vo...
Grok's realtime voice is now on AI Gateway. Build with AI SDK 7: • xai/grok-voice-think-fast-1.0 (useRealtime) • xai/gro...
Grok's realtime voice is now on AI Gateway. Build with AI SDK 7: • xai/grok-voice-think-fast-1.0 (useRealtime) • xai/gro...
阿里通义实验室Wan团队发布Wan Streamer v0.1,首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms,总延迟约550ms,25fps下流式处理单元160ms,分辨率192p。同步生成语音与面部视频,支持全双工打断,取消外部ASR/TTS/动画模块,通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证,未开放使用。
该论文测试老年人日常言语能否成为有效的认知监测双胞胎,结论基本可行。AI通过学习个体随时间变化的说话方式(节奏、停顿、主题、风格习惯),捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化,而普通GPT回答大多错过这些信号。研究显示,日常对话可成为一种低负担的长期认知健康追踪方式。
开发者 Leaf 开源项目,将网红峰哥做成能实时通话的 AI 分身,集成实时对话、音色克隆和人格注入,工程延迟压到 1 秒内。技术拆解:语音识别用 Cartesia ink-whisper 降噪防误触发;大模型选 MiniMax 高速版,首字响应 361ms;语音合成用 VoxCPM 开源克隆,15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通:克隆项目后,用 Claude Code 或 Cursor 配置,填两个 API Key 即可使用。
http://x.com/i/article/2070103285181349888
Voicenotes Dictation 现已上线 iOS。更新后,用户可在微信、邮件、笔记等任何有输入框的 App 中使用 Voicenotes 键盘直接说话,语音瞬间转文字。这相当于给整个 iOS 系统增加了一个 AI 语音输入法,突破了以往仅限 App 内语音输入的限制。从产品角度看,Voicenotes 将“语音输入”从功能提升为系统级基础设施,争夺用户在各 App 中的输入入口。
Voicenotes Dictation is now live on iOS. You can now use the Voicenotes keyboard to speak into any app with a text box -...
Yesterday @jxnlco and I had a fantastic two-hour conversation that wandered through feature ideas, design philosophy, th...
Google Gemini桌面版新增两大功能:Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片,操作在当前应用内完成;Magic Pointer可圈选屏幕信息,让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手,抢占工作流入口。
GOOGLE 🔥: Gemini desktop app for macOS will get a new voice dictation feature called "Speak to Window" that works with ...
字节跳动推出 SeedMusic 1.0 Preview AI 音乐模型,用户只需一句话提示词即可生成完整歌曲,生成速度约 2-3 分钟。示例提示词为“来一首古风歌曲,但是有着现代流行音乐的节奏感,能让人朗朗上口,关于爱情的歌曲”,效果不错。该模型属于字节跳动在 AI 领域的布局之一。
VoxCPM now runs FULLY on-device on iPhone - via Apple's Core AI. @OpenBMB's diffusion TTS (MiniCPM4 LM + LocDiT flow-mat...
BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in Cha...
🚨 SCOOP(s): - GPT-5.6 has been delayed and will no longer release this week. New target is ~mid-July. - DeepMind are no...
OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听,可在句子中间来回切换任务,处理打断和停顿的能力更强,还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限,但在测试中可轻松数到 23 而不中断。据推文透露,OpenAI 正为网页版准备 Bidi 1:设置中将新增该语音模型选项,语音气泡颜色从蓝色变为黄色。该模型尚未上线,但预计很快就会推出。
BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in setting...
火山引擎在FORCE大会上展示YoooClaw C-ONE,一款卡片大小的「AI记忆卡」。它能录音转文字,也能抓取手机通知实时喂入,两路数据汇入火山引擎的ArkClaw做抽取和推理,形成个人知识大脑。出口端打通飞书,例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。
豆包音频生成模型 Seed Audio 1.0 发布,区别于传统 TTS(文本转语音)的朗读式合成,该模型能根据想象生成人声、音乐、音效和环境音,并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”,类比香蕉首次将智能赋予图像,认为这是人类首次将智能赋予声音。
Our recent $100M Series C means we can continue training our models to handle the urgent, high-risk, 45-minute phone cal...
Bro it's June 2026. Stop hand editing your prompts. Hold down the dictation button and ramble for 10 minutes. Give the m...