疯了，付费级的 TTS 模型，直接免费给开发者用了🤯 还不是那种阉割版的免费额度，是和付费套餐完全同款的 S2.1 Pro，83 种语言无严格限制，已经集成的用户改个模型名就能直接切换。以前做语音类产品，TTS 调用费是跑不掉的固定成本，现在这一块直接可以清零。小团队做 AI 客服、有声内容、语音助手，再也不用在字符量上扣扣搜搜。语音赛道的价格战已经卷到了最底层的模型层，成本再也不是门槛。接下来真正的胜负，全在应用层的价值创造上。 https://x.com/FishAudio/status/2072319320386883690/video/1

译FishAudio 将其付费级 TTS 模型 S2.1 Pro 免费开放给开发者使用，非阉割版，与付费套餐同款，支持 83 种语言且无严格限制。已集成的用户仅需修改模型名即可切换。语音赛道的模型层价格战已触底，小团队做 AI 客服、有声内容等应用时，TTS 调用成本可归零，竞争转向应用层价值创造。

Artificial Analysis@ArtificialAnlys · 1天前68

Fish Audio has recently released S2.1 Pro and is making it available for free via API through July 24. Fish Audio S2.1 Pro is the latest Text to Speech model from @FishAudio, supporting multilingual speech generation across 83 languages with improved quality, lower latency, and higher throughput than S2 Pro. The model also supports voice cloning and natural language control over emotion and prosody. Key takeaways: ➤ Quality: S2.1 Pro has an Elo of 1,153, placing it #13 on the Artificial Analysis Speech Arena Leaderboard ahead of Async Pro v1.0, Speech 2.8 Turbo, and Step TTS 2, based on 1,072 arena appearances. ➤ API: S2.1 Pro is available via the Fish Audio API with a free access period through July 24, 2026. ➤ Speed: S2.1 Pro processes 56.3 characters per second, ahead of GPT-Realtime-2 (45.8 chars/s) and Gemini 3.1 Flash TTS (25.3 chars/s). See more details and listen to samples below ⬇️

译Fish Audio 发布 S2.1 Pro 文本转语音模型，通过 API 免费使用至 2026 年 7 月 24 日。该模型支持 83 种语言、声音克隆及自然语言控制情感与韵律，质量、延迟和吞吐量均优于前代 S2 Pro。在 Artificial Analysis Speech Arena 排行榜上，S2.1 Pro 基于 1072 场竞技获得 Elo 1153，排名第 13，超过 Async Pro v1.0、Speech 2.8 Turbo 和 Step TTS 2。处理速度达 56.3 字符/秒，高于 GPT-Realtime-2（45.8 chars/s）和 Gemini 3.1 Flash TTS（25.3 chars/s）。

AYi@AYi_AInotes · 1天前71

damn！语音AI圈的天，一夜之间就变了，感觉以前所有的缝合怪方案，突然全成了过渡品🤔 之前市面上的语音智能体，全是靠三四家不同厂商的API硬拼出来的，语音转文字加大模型再加文字转语音，每一层跳转都多一分延迟多一块成本多一个故障点，对话经常卡顿断片跑题，听起来永远像机器人念稿。 @xai 直接做了原生的speech-to-speech一体化架构，Grok Voice从底层打通全部环节，一个接口覆盖所有能力。延迟更低成本更低故障点更少，对话自然度直接上了一个台阶，这才是真正能规模化落地的生产级系统，和演示玩具完全不在一个维度。更狠的是落地门槛被直接打穿，用自然语言描述一遍业务流程，扔几份文档当知识库，选个声音，两分钟就能生成带工具调用带安全护栏带全链路监控的完整语音智能体，免费还送一个电话号码。知识库检索日历API搜索工单文件全自带，想接自己的号码和系统也完全支持。定价直接压到每分钟五美分，没有额外平台费，每天用一小时也就几块钱，小团队甚至个人都能大规模用起来。这已经不是常规的功能迭代了兄弟们，简直就是彻头彻尾的降维打击。以前搭一套靠谱的语音客服要好几周好几万，现在两分钟加极低的成本就能跑通。而且做多智能体系统的人更是直接拿到了新的器官，自己的认知和工具体系，瞬间就长出了耳朵和嘴巴，和真实世界的交互直接打开了新维度。这让语音AI真正能规模化落地这件事，第一次变成了触手可及的现实！

译xAI 推出 Voice Agent Builder 无代码平台，基于原生 speech-to-speech 架构 Grok Voice，打通语音识别、大模型、语音合成全链路。用户用自然语言描述流程、上传文档作为知识库，两分钟即可生成带工具调用、安全护栏、全链路监控的完整语音智能体，并免费附赠一个电话号码。支持日历、搜索、工单等内置功能，可接入自有号码和系统。定价 $0.05/分钟，无额外平台费。

Berryxia.AI@berryxia · 1天前69

卧槽！xAI 终于要对语音 Agent下手了！ xAI直接把“构建语音Agent”这件事做成了浏览器里的2分钟操作。 Grok Voice Agent Builder目前还在beta，但已经能让用户无代码部署带真实语音的Agent：支持实时对话、亚秒延迟、25+语言，还能分配电话号码。核心是把Grok的语音模型直接产品化，让普通人也能快速搭出一个能打电话的AI助手。这和之前很多需要接Twilio、处理延迟、调教声音的方案比，门槛低了一个数量级。以前做语音Agent像搭积木，现在更像填表单。当然最终体验还得看实际效果，但这个方向很清晰：xAI正在把语音交互从“技术能力”快速推向“人人可用的产品形态”。目前还是Beta阶段，感兴趣的可以试试：地址： http://x.ai/voice

译xAI 发布 Grok Voice Agent Builder（Beta），将 Grok 语音模型产品化，支持在浏览器中无代码、2 分钟搭建可打电话的 AI 助手。具备实时对话、亚秒延迟、25+ 语言，并可分配电话号码。相比传统方案门槛大幅降低。体验地址：http://x.ai/voice

Andrew Milich@milichab · 1天前67

Build a voice agent connected to your scheduling app, knowledge base, and any custom MCPs or APIs Phone number included to get started!

译构建一个连接到你的日程应用、知识库以及任意自定义MCP或API的语音智能体附带了电话号码，可以开始使用！ [引用 @xai]

xAI@xai · 1天前73

Introducing Voice Agent Builder: a no-code platform to create human-like voice agents with Grok Voice. Available today at $0.05 / min. http://x.ai/voice

译介绍 Voice Agent Builder：一个无代码平台，可使用 Grok Voice 创建类人语音智能体。今日可用，$0.05 / 分钟。 http://x.ai/voice

🚨 AI News | TestingCatalog@testingcatalog · 1天前74

xAI announced a new Voice Agent Builder available on xAI Console. Users can use the conversational agent builder to power their solutions with Grok voices, connectors, and more!

译xAI 宣布在 xAI Console 上推出新的 Voice Agent Builder。用户可以使用该对话智能体构建工具，借助 Grok 语音、连接器等为解决方案提供动力。

OpenBMB@OpenBMB · 1天前55

Big thanks for this fantastic share and hands-on testing of VoxCPM2! 👍 Voice is becoming editable – that’s the shift we’re driving. With VoxCPM2, you get Voice Design + Controllable Cloning, 30 languages & 9 dialects, all in a 2B open‑source model. https://github.com/OpenBMB/VoxCPM

译面壁智能发布VoxCPM2，一个2B参数的开源语音模型，支持30种语言及9种方言。该模型实现“声音可编辑”：通过提示词指定年龄、音色、情绪和语速，也可上传参考音频保留原音色并重新控制表达方式。实测显示，语音生成已从单纯模仿真人转向按需导演级表演，让声音变得像图片滤镜一样可描述、复制和改写。

Artificial Analysis@ArtificialAnlys · 2天前58

Announcing the Artificial Analysis Controlled Voice Arena - compare Text to Speech models on the same set of 8 cloned voices The Controlled Voice Arena standardizes, through voice cloning, the set of voices that each model’s performance is evaluated on - separating specific voice preference from broader aspects of model quality, e.g., audio quality, pronunciation, pacing and tone. It complements our Provider Voice Arena, where each model uses a select set of its own available voices. We have generated speech samples on models that offer voice cloning abilities using the same voice categories as our existing Provider Voice Arena, namely: 2 US Male voices, 2 US Female voices, 2 UK Male voices, 2 UK Female voices. Each model has been cloned on the same 1-2 minute audio recordings for each voice. Voting is open now and we plan to announce the first leaderboard results this week.

译Artificial Analysis 发布 Controlled Voice Arena，通过语音克隆标准化 8 种声音（2 美男、2 美女、2 英男、2 英女），评估 TTS 模型的音频质量、发音、节奏与语调，分离声音偏好与模型质量。每个模型基于同一 1-2 分钟录音进行克隆。投票已开放，本周公布首批排行榜。

Berryxia.AI@berryxia · 2天前57

ByteDance通过BytePlus推出了Seed Audio 1.0，一个非流式TTS模型，能在一次生成中同时输出语音、音乐和音效。它支持参考音频引导、图像引导音频，还能精细控制语速、音量、音调等参数。和传统只做语音的TTS不同，这更像一个多模态音频生成模型，一次性完成复杂场景的音频内容。目前只对企业开放申请，早期的反馈提到它生成的音频比较自然，但目前还缺少对时长的精细控制。这其实是字节在音频生成赛道的一次比较激进的尝试，把语音和背景音效/音乐打包在一个模型里解决。

译ByteDance 通过 BytePlus 推出 Seed Audio 1.0，一个非流式 TTS 模型，可在一次生成中同时输出语音、音乐和音效。支持参考音频引导、图像引导音频，以及语速、音量、音调等精细控制。与传统仅生成语音的 TTS 不同，它更像多模态音频生成模型，一次性完成复杂场景音频。目前仅对企业开放申请，早期反馈音频自然，但缺少对时长的精细控制。

Runway@runwayml · 3天前56

Seed Audio 1.0 is now available on Runway for all paid plans. Generate up to 120 seconds of dynamic speech, sound design and music with simple text prompts. Try it now at the link below.

译Seed Audio 1.0 现已在 Runway 上对所有付费方案开放。只需简单文本提示即可生成最长 120 秒的动态语音、音效设计和音乐。立即通过下方链接尝试。

Andrew Milich@milichab · 3天前56

Try SpaceXAI Voice models in the Vercel AI Gateway

译xAI Grok 的实时语音模型现已登陆 Vercel AI Gateway，支持实时对话、语音合成与语音转写。欢迎试用。

xAI@xai · 3天前47

State of the art voice APIs from SpaceXAI, now in the Vercel AI Gateway

译来自xAI的最先进语音API，现已加入Vercel AI Gateway

小互@xiaohu · 5天前64

http://x.com/i/article/2070795179813203968 # Wan Streamer：一个能跟你实时视频通话的真人 AI 阿里通义实验室 Wan 团队放出 Wan Streamer 模型，一个能跟你实时视频通话的真人 AI。我们已经习惯了跟 AI 打字、语音聊天。Wan Streamer 往前走了一步，它能跟你视频通话：你这边有摄像头和麦克风，它那边实时生成一张会说话的脸，看着你、回应你。效果展示： 📹 视频① · 中文日常通话 —— 在此插入视频。中文 · 暖色室内视频通话：聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。 ## 1 · 这是什么：一个模型跑通实时音视频对话 Wan Streamer v0.1 是一个实时音视频交互模型。能实时对话的 AI 现在不少，但能一边看你的脸、一边听你说话、一边开口回应、自己还自带一张会动的脸的，几乎没有。Wan Streamer 把这件事压进了一个模型里。它在同一个 Transformer 里同时处理语言、音频、视频的输入和输出，做到亚秒级的全双工音视频对话：模型自己算出一段回应大约只要 200 毫秒，加上网络往返后总延迟约 550 毫秒。为什么值得看：现在能实时对话的系统分两类，一类响应快但只出声音、没有可见的脸（GPT-4o Realtime、豆包、Gemini Live），另一类有脸但靠外部 ASR、语言模型、TTS、动画一串模块拼出来。官方称 Wan Streamer 是唯一用单个端到端 Transformer 同时吐出同步音视频、且总延迟压在 1 秒内的模型。几个关键数字： - ～200 ms — 模型侧响应延迟 - ～550 ms — 总交互延迟（200ms 模型侧 + 350ms 网络往返） - 160 ms — 25fps 下最短的流式处理单元 - 192p — v0.1 分辨率，端到端设计的概念验证把总延迟 550ms 拆开看：模型本身只占 200ms，剩下 350ms 是网络往返。也就是说，纯模型的反应速度，比你读到的总延迟更快。 ## 2 · 旧办法为什么慢：一道道接力，每步都在等旧办法慢，是因为它们是一串独立模型拼起来的流水线：语音先转成文字（ASR），文字喂给语言模型想答案（LLM），答案再合成语音（TTS），最后驱动一张脸动起来（动画渲染）。 > 音视频输入 → ⏳ASR 识别 → ⏳LLM 想答案 → ⏳TTS 合成语音 → ⏳动画渲染 → 输出每过一道工序都要等上一道交货，等待时间一段段累加，识别和口型对不齐的误差也一路累积。每个箭头都是一次等待 + 一次误差累积；模块之间靠文字当中转桥；多数系统只出语音，或者把一张脸勉强拼出来，且不报告端到端时延。 Wan Streamer 是端到端单模型：音视频输入 →「一个 Transformer」（感知 · 推理 · 规划 · 生成一起做）→ 同步音视频输出。没有接缝，等待时间坍缩；轮次管理、被打断、长程一致性，作为一个连贯行为一起学出来。打个比方：端到端像一个人自己听完直接开口；级联像传话游戏，每过一手都慢一拍，还可能把话传错。中间那层把语音／视频先转成文字、再用文字驱动下游——文字就是各模块之间隐藏的中转桥，桥越多越慢、越容易错。Wan Streamer 不要这个中间桥，模态之间直接耦合。原文给这件事下了一个判断：实时音视频交互不是「多模态理解」加「多模态生成」的简单相加，它本质上是全双工的，所以可流式性是一种建模约束，而不只是上线后的工程优化。建在离线编码器、双向解码器、回合制对话之上的系统，光靠工程调优也补不出真正的低延迟全双工。【📹 视频② · 即兴模仿 —— 在此插入视频。中文 · 明亮白色室内。聊 CP、娱乐圈八卦、周星驰《功夫》，最后模仿经典笑容，轻松愉快女声】 ## 3 · 核心创新：一个模型从听到说全包了 Wan Streamer 的内核只有一句话：把视觉、音频、文本的输入 token 和输出 token，交错排成同一条序列，交给一个 Transformer 处理；用 block-causal attention 协调，让它边来边算地往外吐。单个端到端 Transformer 取消了外部的 VAD、ASR、语言模型、TTS、动画、视频生成等模块，把感知、推理、回应规划、语音与视觉生成、响应时机、轮次管理全放进同一个持久状态里联合优化。低延迟、全双工、同步音视频这三件事，根都在这里。模型把交互看成一条连续的因果流：你的观测和它的回应，一起更新当前上下文。语言回应是一串离散 token，用 next-token 预测训练；音频和视频回应活在连续的 latent 空间里，用条件 flow matching 联合生成，让语音、动作、外观、场景演化作为一个耦合整体一起去噪，而不是各生成各的再拼。为了撑住这条流，整栈从设计之初就是因果的：严格因果音视频 VAE、因果音视频编码器、因果音视频解码器，以及由 block-causal attention 协调的时序因果 Transformer。被这套设计抹掉的外部模块是：外部 VAD、ASR 识别、外部语言模型、TTS 合成、动画模块、视频生成模块。 ## 4 · 怎么做到边听边说、随时能打断人和世界的交互天生是流式、全双工的：我们不是先听完、再单独想、最后才答，而是一边看一边听一边说、随时停顿和打断，感知和表达在音视频的时间尺度上重叠发生。实时交互模型也得长成这样。因果编码器 + 因果解码器 + 低延迟多模态 token 调度，让 25fps 下的流式单元短到 160ms：输入的语音视频立刻影响输出，生成的音频和视觉状态在解码之前就耦合好，而不是事后修补。于是它能边听边说，你说话时它仍在听、被打断还能调整。这套机制靠的是 block-causal attention：它把一小块（比如 160ms 的音视频片段）当成一个处理单位，块内部的 token 可以互相看（双向），但一个块只能看见过去的块、看不到未来的块。块 3 一到就能开算，因为它只依赖块 1、块 2，不用等未来的块 4——这就是流式生成。部署细节：thinker–performer 怎么把延迟压到 200ms。Wan Streamer 训练时是单个端到端模型；实时部署时，同一个模型拆成跨两张 GPU 的 thinker–performer 流水线，尽量让计算重叠。thinker 负责编码、语言预测与状态更新、KV-cache 构建，以及把上一单元解码成音视频并立即输出；performer 只负责为下一段跑 flow-matching 求解器。因为 performer 从不跑解码器、thinker 从不跑高成本求解器，解码和生成互不阻塞。只要 performer 耗时加通信耗时塞进一个 160ms 单元，就维持实时吞吐。边听边说、随时能被打断，落到对话里就是这种自然感。这两段都是英文实时对话：【📹 视频③ · 英文车内 —— 在此插入视频。英文 · 车内近景。女生说自己很累，感谢对方耐心陪伴，疲惫真诚女声。】【📹 视频④ · 英文室内 —— 在此插入视频。英文 · 浅色室内近景。聊无意识刷手机、自动化习惯、关掉通知，自然女声。】 ## 5 · 和别的系统比，快在哪、能做什么下面两组延迟数字测的不是一回事，得分开看。上方一组是完整的端到端交互闭环（感知用户并产生回应），其中只有 Wan Streamer 同时输出视频；下方一组是数字人／音视频渲染器，只计到渲染阶段，不含它们依赖的外部语言模型、ASR、TTS，所以用户实际感受到的延迟比图里更高。两组刻度各自独立，不能横跨两组直接比大小。数值取各系统公开报告中最接近的口径，混合了不同测量边界。能力维度的覆盖如下，Wan Streamer 是唯一一行全部打勾的：需要提一句：这五个维度是 Wan 按自己的能力边界定的；表里其他系统分属纯语音（GPT-4o、豆包、Gemini）和数字人渲染（StreamAvatar、LPM）两类，和 Wan 不是同一品类。这张表更适合看「各家覆盖了哪些点」，不是排名次——Wan 唯一全✓，更多是因为「维度由它来定」。最后看一段完整的真实链路：一次真实联网对话的屏幕录制，能看到从感知到回应的全过程。【📹 视频⑤ · 实时录屏 —— 在此插入视频。真实联网对话录屏：左边是本地用户画面，右边是 AI Agent 实时回应，下方同步滚动文本流】注意：本项目还处于研究阶段，并没有上线，没有开放使用入口，只能当成「技术验证」看。来源： Wan Streamer v0.1 官方发布页（wan-streamer.com），论文 arXiv:2606.25041

译阿里通义实验室Wan团队发布Wan Streamer v0.1，首个端到端Transformer实现实时音视频对话。模型侧响应延迟约200ms，总延迟约550ms，25fps下流式处理单元160ms，分辨率192p。同步生成语音与面部视频，支持全双工打断，取消外部ASR/TTS/动画模块，通过thinker-performer部署压至200ms。官方称唯一单模型同步音视频且延迟<1秒的方案。目前为技术验证，未开放使用。

Rohan Paul@rohanpaul_ai · 5天前46

This paper tests whether an older person’s everyday speech can become a useful cognitive monitoring twin, and mostly shows yes. Here AI is trying to learn how one person talks across time, including rhythm, pauses, topic context, and small stylistic habits that ordinary clinical snapshots can miss. That matters because cognitive decline often leaks into language before it becomes obvious as a dramatic symptom. The real point is that the personalized model picked up small speech patterns linked to thinking ability, while a normal GPT answer mostly missed them. The paper shows that ordinary conversations could become a low-burden way to track cognitive health over time. ---- Link – arxiv. org/abs/2606.27334 Title: "Language-Based Digital Twins for Elderly Cognitive Assistance"

译该论文测试老年人日常言语能否成为有效的认知监测双胞胎，结论基本可行。AI通过学习个体随时间变化的说话方式（节奏、停顿、主题、风格习惯），捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化，而普通GPT回答大多错过这些信号。研究显示，日常对话可成为一种低负担的长期认知健康追踪方式。

AYi@AYi_AInotes · 6天前76

有人把网红峰哥做成了能实时打电话的 AI 分身，连说话风格都一模一样。这是开发者 Leaf 刚开源的项目，把实时对话、音色克隆、人格注入三件事打通了，工程延迟压到一秒以内。最厉害的是拆解式优化思路，把语音链路拆成三步逐个击破: ・语音识别用 Cartesia ink-whisper, 降噪防误触发・大模型选 MiniMax 高速版，首字响应三百六十一毫秒・语音合成用 VoxCPM 开源克隆，十五秒素材就能复刻从最初八到二十秒的语音邮件感，硬生生优化到实际体感两到三秒，跟打电话没区别，光声音像还不够，项目用女娲 Skill 做人格蒸馏，从直播语料里提取口头禅、思维方式、表达逻辑，聊起来真的像本人在跟你说话，普通人半小时就能跑通: 把项目克隆到本地扔给 Claude Code 或 Cursor 说帮我配置启动填两个 API Key 就能用想换成任何人都可以，准备十五秒清晰语音加一段人格描述就行。 GitHub 链接放评论区，想做自己 AI 分身的直接拿去用。

译开发者 Leaf 开源项目，将网红峰哥做成能实时通话的 AI 分身，集成实时对话、音色克隆和人格注入，工程延迟压到 1 秒内。技术拆解：语音识别用 Cartesia ink-whisper 降噪防误触发；大模型选 MiniMax 高速版，首字响应 361ms；语音合成用 VoxCPM 开源克隆，15 秒素材即可复刻。整体从最初 8-20 秒优化至体感 2-3 秒。人格通过女娲 Skill 从直播语料蒸馏出口头禅和思维逻辑。普通人半小时可跑通：克隆项目后，用 Claude Code 或 Cursor 配置，填两个 API Key 即可使用。

Google Gemini@GeminiApp · 6天前47

From creating images in real-time with your voice to new ways to support your small business, here’s a look at this month’s Gemini Drops 🧵

译从用语音实时创建图像，到支持小企业的新方式，以下是本月 Gemini Drops 的内容 🧵

Berryxia.AI@berryxia · 6天前70

语音产品也是真的卷啊~ Voicenotes现在把他们的语音输入做成了iOS系统级键盘。更新后，你可以在任何有输入框的地方直接用Voicenotes的键盘说话（微信、邮件、笔记、评论区都行），说完立刻转成文字。相当于给整个iOS系统加了一个高质量的AI语音输入法。这比单纯的App内语音输入实用多了。以前很多AI笔记App只能在自己App里用语音，现在直接把能力打到系统键盘层，用户可以在任何场景下用上他们的转录和智能处理。从产品角度看，这是把“语音输入”从功能变成了基础设施。谁能把高质量语音转文字做到系统级，谁就拿到了用户在各个App里的输入入口。

译Voicenotes Dictation 现已上线 iOS。更新后，用户可在微信、邮件、笔记等任何有输入框的 App 中使用 Voicenotes 键盘直接说话，语音瞬间转文字。这相当于给整个 iOS 系统增加了一个 AI 语音输入法，突破了以往仅限 App 内语音输入的限制。从产品角度看，Voicenotes 将“语音输入”从功能提升为系统级基础设施，争夺用户在各 App 中的输入入口。

jason@jxnlco · 7天前38

tony stark does not use a keyboard, with a 2 hour voice memo, codex made: 1. a product announcement 2. a launch video script 3. and the PR

译Jason Liu 用两小时语音备忘录替代键盘操作，将对话转录输入 Codex，后者直接生成了产品公告、发布视频脚本和公关材料。引用推文补充，此前他与 @guinnesschen 进行了两小时漫谈，涵盖功能想法、设计哲学、AI 未来等，原始转录交给 Codex 后产出的 PR 和创意作品几乎完美捕捉了对话意图。

gabriel@gabriel1 · 7天前64

changing your mind in the middle of voice prompting gives the model so much more context like 70% of my prompts i say "actually ignore everything before this" but it gives so much information when i imagined one thing but then decided on something else aim for MAX tokens

译在语音提示中改变主意会给模型提供更多上下文就像我70%的提示都会说“实际上忽略之前的内容”，但当我想象了一种东西却决定换成别的时，它却提供了很多信息追求最大 token 数

jason@jxnlco · 6月25日53

Computah! Activate Firewall! with gpt-realtime-2 you can in context prompt your wake words, reasoning, and build some silly games check out me playing a game simon says... spoiler: it beat me

译计算机！启动防火墙！使用 gpt-realtime-2，你可以在上下文中提示唤醒词、进行推理，并构建一些傻乎乎的游戏。看我玩一个游戏 Simon Says... 剧透：它赢了我。

Berryxia.AI@berryxia · 6月25日57

兄弟们，Google 现在只能玩别人玩剩下的了！能成吗？ Google Gemini桌面版要直接入侵macOS了。新功能“Speak to Window”让你在任意窗口按住fn键，对着Gemini说话就能让它帮你写邮件、写文档、生成图片，而且是直接在你当前的应用里操作。另一个“Magic Pointer”则允许你圈选屏幕上任意信息，然后让Gemini理解上下文并执行编辑、总结或创建任务。这已经不是简单的聊天工具了，把Gemini变成系统级的上下文感知助手。它能看到你正在看的任何窗口内容，并根据你的语音指令直接行动。 Google这次明显在加速把大模型推向桌面操作系统层，试图和Apple Intelligence、以及各种第三方agent工具抢占工作流入口。

译Google Gemini桌面版新增两大功能：Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片，操作在当前应用内完成；Magic Pointer可圈选屏幕信息，让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手，抢占工作流入口。

🚨 AI News | TestingCatalog@testingcatalog · 6月25日31

As a part of the "Speak to Window" feature, Gemini desktop app will also get a "Magic Pointer", showcased earlier by Google. > Give Gemini the full picture: Help Gemini understand your goals from anywhere on your screen. Just highlight info in any open window, then tell Gemini what to edit, summarise or create.

译Gemini 桌面应用（macOS）将新增两项功能：一是 "Magic Pointer"，用户可高亮任意窗口中的信息并指示 Gemini 编辑、总结或创建内容；二是 "Speak to Window" 语音听写功能，按住 fn 键即可用语音让 Gemini 起草邮件、撰写文档、生成图像等，无需切换应用。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日32

GOOGLE 🔥: Gemini desktop app for macOS will get a new voice dictation feature called "Speak to Window" that works with any other app. > Create with just your voice: Meet Speak to Window. Hold the fn key in any open window and tell Gemini what you need. Watch it draft emails, write docs, and create images right where you're working. Gemini Voice Keyboard 👀

译GOOGLE 🔥: Gemini 桌面应用（macOS）将新增名为 "Speak to Window" 的语音听写功能，可在任意其他应用中使用。

小互@xiaohu · 6月24日48

字节跳动几乎是在所有AI领域都达到了临界点刚试了下他们新的 AI 音乐模型 SeedMusic 1.0 Preview 一句话生成了一首完整的歌曲，而且速度还很快，大概2-3分钟，效果还真是挺不错的... 提示词：来一首古风歌曲，但是有着现代流行音乐的节奏感，能让人朗朗上口，关于爱情的歌曲

译字节跳动推出 SeedMusic 1.0 Preview AI 音乐模型，用户只需一句话提示词即可生成完整歌曲，生成速度约 2-3 分钟。示例提示词为“来一首古风歌曲，但是有着现代流行音乐的节奏感，能让人朗朗上口，关于爱情的歌曲”，效果不错。该模型属于字节跳动在 AI 领域的布局之一。

OpenBMB@OpenBMB · 6月24日63

Big thanks to @JackdeS11 for bringing VoxCPM-0.5B fully on‑device to iPhone! 🎉❤️ The entire stack (MiniCPM4 + LocDiT flow‑matching + AudioVAE) runs on Neural Engine and GPU, with no network required. Great work! 👍👍

译面壁智能（OpenBMB）的扩散式 TTS 模型 VoxCPM-0.5B 已通过 Apple Core AI 完全部署至 iPhone 端侧，无需联网。该模型整合了 MiniCPM4 语言模型、LocDiT flow-matching 和 AudioVAE，每一层均运行于 Neural Engine 和 GPU 上。模型权重和部署代码已开源至 HuggingFace 与 GitHub。

gabriel@gabriel1 · 6月24日55

STOP HOLDING BACK WHEN PROMPTING you can literally one shot whatever feature in one prompt just yap for longer. aim to describe every thing you can possibly imagine in ONE prompt and obviously use voice. i often talk for 15minutes straight

译提示时不要再克制了，你可以真的只用一个提示就一次性搞定任何功能，多说一会儿就好。目标是尽可能把你想到的一切都描述在一个提示中。另外，显然要用语音。我经常连续说上15分钟。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日58

OPENAI 🔥: Bidi 1, an upcoming voice model from OpenAI, can sing and generate different sounds too. Some samples below 👀

译OpenAI 即将推出双向语音模型 Bidi 1，支持唱歌和生成不同声音。Bidi 1 可在用户说话时插话并继续监听，能在句子中间来回切换任务，处理打断和停顿的能力显著提升，并能更好地保持对话上下文记忆。模型仍有连续说话长度上限（一次可轻松数到 23 不停顿）。Bidi 1 将登陆 ChatGPT，并可能进入 Codex，预计很快可用。

Chubby♨️@kimmonismus · 6月23日52

Such a disappointment. So only Sonnet 5 soon. GPT-5.6 postponed.

译据爆料，GPT-5.6本周不再发布，新目标推迟至7月中旬；DeepMind对Gemini 3.5 Pro当前状态不满意，本月不会推出。与此同时，Claude Sonnet 5已向部分企业客户开放早期访问，被视为Mythos/Fable 5开发停滞的权宜之计。OpenAI新语音模型Bidi也正准备在ChatGPT上线，可能本周可用。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日57

OPENAI 🔥: An upcoming Bidi 1 voice model will be able to translate in real-time! This will unlock a huge pile of use cases to be built on top of when it lands on the APIs.

译OPENAI 🔥: 即将推出的Bidi 1语音模型将能进行实时翻译！这将解锁大量用例，当它落地到API时可在其上构建。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日48

BREAKING 🔥: First tests of "Bidi 1", an upcoming bidirectional voice model from OpenAI. This upgrade will arrive in ChatGPT and, potentially, in Codex soon as well. > Bidi 1 can speak over while you are talking and keep listening. > Bidi 1 can switch between tasks back and force mid-sentence. > Bidi 1 is much better at handling interruptions and pauses. > Bidi 1 can better keep and memorize the context while you speak. There is still a cap on how long it can keep speaking, which is expected, but it easily counted to 23 without pausing. * Bidi 1 is not available yet, but given all the recent preparations, we will get it very, very soon.

译OpenAI 正在测试名为 "Bidi 1" 的双向语音模型。它能在你说话时同时插话并保持收听，可在句子中间来回切换任务，处理打断和停顿的能力更强，还能更好地记忆对话上下文。目前模型仍有连续讲话长度上限，但在测试中可轻松数到 23 而不中断。据推文透露，OpenAI 正为网页版准备 Bidi 1：设置中将新增该语音模型选项，语音气泡颜色从蓝色变为黄色。该模型尚未上线，但预计很快就会推出。

Chubby♨️@kimmonismus · 6月23日37

OpenAI’s new upcoming „bidi“-voice mode sounds insane!

译OpenAI即将推出的“bidi”语音模式听起来太疯狂了！

凡人小北@frxiaobei · 6月23日49

火山引擎 FORCE 大会现场看到个有意思的硬件，YoooClaw C-ONE，一张卡片大小的「AI 记忆卡」。它干两件事：一是录音。开会、聊天，声音进去，转文字。二是抓收集通知。只要你开了通知权限，手机上来的每条消息它都能拿到，实时喂进去。两路信息都汇到火山的 ArkClaw 做抽取和推理，中间那个龙虾，就是个一直被喂个人上下文的大脑。理论上知识会越来越丰富，龙虾也会越来越懂你。最有意思的是出口端，它跟飞书打通了。他们讲了个场景：老板跟投资人开完会，一句话，就把每个人接下来该干啥，分别发到了对应同事的飞书上。这个应该是除了 seedance2.5，我今天看到的另一个心动的产品。

译火山引擎在FORCE大会上展示YoooClaw C-ONE，一款卡片大小的「AI记忆卡」。它能录音转文字，也能抓取手机通知实时喂入，两路数据汇入火山引擎的ArkClaw做抽取和推理，形成个人知识大脑。出口端打通飞书，例如老板开完会后一句话即可将任务分别推送给对应同事。推文作者称这是除seedance2.5外今次最心动的产品。

Orange AI@oran_ge · 6月23日43

声音模型的 Seedance 时刻，终于来了今天我体验到一个全新的声音模型，跟以前所有的声音模型都不一样。以前的声音模型一般叫 TTS（文本转语音），它们只能根据你给的文本来合成语音，它更像是一个朗读机器，而非智能声音模型。但这个新模型，可以根据你的想象，生成一切你所需要的声音，包括人声、音乐、音效、环境音，以及这些声音里所富含的那些不可言说的微妙细节。它的名字名字叫：豆包音频生成模型 Seed Audio 1.0。在我看来，这就是声音模型的 Seedance 时刻。就像香蕉是人类第一次将智能赋予图像，Seed Audio 是人类第一次将智能赋予声音。接下来，就让我们一起听听它到底有何特别。推特不能发音频，可转至公众号来听 https://mp.weixin.qq.com/s/GGjob8FJW6Xn-sulzc_MLg

译豆包音频生成模型 Seed Audio 1.0 发布，区别于传统 TTS（文本转语音）的朗读式合成，该模型能根据想象生成人声、音乐、音效和环境音，并捕捉其中的微妙细节。作者称其为“声音模型的 Seedance 时刻”，类比香蕉首次将智能赋予图像，认为这是人类首次将智能赋予声音。

🚨 AI News | TestingCatalog@testingcatalog · 6月23日33

BREAKING 🔥: OpenAI is preparing "Bidi 1" for the upcoming web release! > A new voice model will be available in settings, alongside standard and advanced options. > Voice mode bubble will have a Yellow color instead of blue. How soon? 👀

译BREAKING 🔥: OpenAI 正在准备“Bidi 1”即将网络发布！ > 一种新的语音模型将在设置中可用，与标准和高级选项并列。 > 语音模式气泡将变为黄色而不是蓝色。多久？👀

Rohan Paul@rohanpaul_ai · 6月23日54

Voice AI is truly moving into calls where mistakes have consequences. Bland (@usebland) is now handling more than 3.5 million calls a week and has handled 513M+ calls to date. This is the Voice AI company for regulated industries, for those really high-stakes phone calls.

译语音AI平台Bland (@usebland) 每周处理超过350万次电话，累计已处理超5.13亿次。公司获得1亿美元C轮融资，将用于训练模型以处理紧急、高风险、长达45分钟的电话呼叫。Bland专注于受监管行业，主打高压力、后果严重的电话场景。

jason@jxnlco · 6月22日60

Guinness only posts bangers always great takes Make sure to give him a follow @guinnesschen

译Guinness Chen 表示，2026年6月了，别再手动编辑提示词，应该按住听写按钮即兴说上10分钟，把脑海里的每个碎片、警告、例子和感觉都交给模型——大语言模型最擅长的就是从语言中重建潜在意图。Jason Liu 称赞他只发好内容，观点总是很棒，并建议大家关注他 @guinnesschen。

Rohan Paul@rohanpaul_ai · 6月22日52

Techcrunch: Ambani is turning Jio’s 500M-user telecom network into India’s biggest testbed for everyday AI agents. Jio Call Agent will sit inside phone calls, listen with consent, transcribe speech, summarize conversations, and trigger actions like cab booking or food ordering. The plan looks like where AI is moving from a separate app into the network layer. --- techcrunch. com/2026/06/19/billionaire-ambani-wants-ai-in-every-call-app-and-home/

译Techcrunch: 安巴尼正将Jio拥有5亿用户的电信网络转变为印度最大的日常AI智能体试验场。 Jio Call Agent将嵌入电话通话中，征得同意后监听、转录语音、总结对话，并触发行动，如打车或订餐。这个计划看起来像是AI正从独立应用向网络层移动。

X.PIN@thexpin · 6月20日65

WeChat expanded grayscale testing of 小微 (Xiaowei) on June 20 — a conversational assistant built into the main app, run by text or voice. It operates WeChat’s native functions and calls mini programs to complete tasks: ride-hailing, food delivery, hotel booking, package tracking. It can also generate a working mini program from a single prompt. Generated apps are currently single-user and not shareable. Tencent confirmed the rollout.

译微信于6月20日扩大了对小微（Xiaowei）的灰度测试——一个内置在主应用中的对话助手，可通过文本或语音运行。它能操作微信原生功能并调用小程序完成任务：打车、外卖、订酒店、查快递。它还能根据单条提示词生成一个可运行的小程序。生成的应用程序目前为

🚨 AI News | TestingCatalog@testingcatalog · 6月20日60

ICYMI: The voice mode bubble on ChatGPT for iOS, can be dragged to the middle of the screen and flex its shape. Or should I call it Orb? 👀

译ICYMI: ChatGPT iOS 的语音模式气泡，可以拖到屏幕中间，还能变形。还是说，我应该叫它 Orb？👀