AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 340 条
全部一手资讯X论文
标签「语音」清除
Orange AI@oran_ge · 5月25日54

终于能用 Cola Code 维护 TypeNo 项目了。 用起来非常简单,也超级省 Token。 今天一口气处理了 8 个 issue + 1 个 PR,发了 v1.4.0。 这版最大的更新是流式实时预览,边说边出字,差不多一秒刷新一次。overlay 也重新设计了,深色背景+呼吸灯指示点。 修了几个比较疼的 bug: • 间歇性录出空文件(No speech detected),根因是 AVCaptureSession 格式没稳定就开始录了 • 录音时 overlay 抢键盘焦点,光标会丢 • Coli 模型下载检测误报,现在三状态区分+更清晰的修复提示 文档也补了卸载说明,clarify 了 CLI 安装和模型下载是两阶段。 https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

译TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

向阳乔木@vista8 · 5月24日45

周末了,做点娱乐向的产品,设计了个播放器,用来分享Suno生成的音乐。 同时支持电脑和移动端,但后台管理还不完善,都是Skill下载音乐上传。 先听听今天生成的歌:https://music.qiaomu.ai/ 开源地址:https://github.com/joeseesun/qiaomu-music-player-web

译作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

StepFun@StepFun_ai · 5月24日76

StepAudio 2.5 Realtime is live! Real-time voice that picks up what you actually mean — tone, pace, pauses, sighs, even the half-laugh mid-sentence. - Top-tier paralinguistic perception — reads tone, pace, micro-emotions - Bring-your-own persona via API — personality, backstory, quirks, language style - 10,000+ native personas → millions of feature combinations - 5 preset personas to try out of the box - ZH/EN RLHF-tuned to hold character even under roleplay stress tests. Try it → https://www.stepfun.com/studio/audio?tab=voice-chat Model card: https://stepaudiollm.github.io/step-audio-2.5-realtime/

译StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征,如语气、节奏、停顿甚至轻叹,从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格,内置超过10,000种可组合的预置角色,并提供5种开箱即用的预设角色供体验。同时,模型经过RLHF优化,能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

StepFun@StepFun_ai · 5月24日70

StepAudio 2.5 Realtime is live! Real-time voice that picks up what you actually mean — tone, pace, pauses, sighs, even the half-laugh mid-sentence. ⚡ Top-tier paralinguistic perception — reads tone, pace, micro-emotions ⚡ Bring-your-own persona via API — personality, backstory, quirks, language style ⚡ 10,000+ native personas → millions of feature combinations ⚡ 5 preset personas to try out of the box ⚡ ZH/EN RLHF-tuned to hold character even under roleplay stress tests. Try it → https://www.stepfun.com/studio/audio?tab=voice-chat Model card: https://stepaudiollm.github.io/step-audio-2.5-realtime/

译StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

MiniMax (official)@MiniMax_AI · 5月23日49

Congratulaitons on the launch of Gizmo @gradium! Gizmo is powered by our dual‑LLMarchitecture, eliminating awkward silence during conversations. The lightning-fast M2-her model delivers instant acknowledgements, while the powerful M2.7 handles complex reasoning in the background. The result is a voice agent that feels present, responsive, and effortlessly natural, putting customer experience first

译Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构,由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默,提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理,优先优化客户体验。

ChatGPT@ChatGPTapp · 5月23日69

Paperwork is better when you can just talk through it. With Images in ChatGPT and voice mode, you can upload a form, say what to fill in, and get back a completed version.

译用对话处理文书工作更轻松。 借助ChatGPT的图像功能和语音模式,您可以上传表单,说出要填写的内容,即可获得填写完成的版本。

Artificial Analysis@ArtificialAnlys · 5月23日61

Cartesia’s Sonic-3.5 takes the #1 spot on the Artificial Analysis Speech Arena Leaderboard, surpassing Inworld Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS Sonic-3.5 is the latest TTS model from @cartesia . It supports 42 languages, including 9 Indian languages, with 500+ voices available out of the box. The model has been highly preferred among voters in the TTS Arena, with its demonstrated naturalness and accurate transcript following. Key takeaways: ➤ Quality: Sonic-3.5 has an Elo score of 1,218 (+16/-16) based on 1,144 arena appearances, placing it ahead of Inworld Realtime TTS 1.5 Max at 1,194 and Gemini 3.1 Flash TTS at 1,209 ➤ Pricing: Sonic-3.5 is priced at $39/1M characters, a premium compared to Gemini 3.1 Flash TTS at $18.3/1M characters, and Inworld Realtime TTS 1.5 Max at $35/1M characters ➤ Speed: 105.5 characters per second, compared to 205 characters per second for Inworld Realtime TTS 1.5 Max and 26.3 characters per second for Gemini 3.1 Flash TTS See more details and listen to samples below 🧵

译Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。

向阳乔木@vista8 · 5月22日36

在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。

小互@xiaohu · 5月22日71

网易有道今天开源了 Confucius4 双模型: 一个做数学视觉推理,一个做语音克隆 有的公司在卷参数规模,有道这次卷的是工程精度和落地成本 开源直接放的是完整权重,不是只给 API 诚意满满 多模态:http://huggingface.co/netease-youdao/Confucius4 语音:http://github.com/netease-youdao/Confucius4-TTS

译网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

meng shao@shao__meng · 5月22日29

在面试或交流中,如果听到把 prompt 发音为 [pro mo t],会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。

Berryxia.AI@berryxia · 5月22日60

卧槽,兄弟们你敢信? 现在可以本地Mac电脑就可以跑音乐模型! 这一刻苹果的本地的统一内存架构又发挥了它的优势,早买早享受😎 Stable Audio 3 官方版刚出,直接整了个狠货: 59x realtime 在 M5 Pro 上跑,MacBook Pro 直接起飞。 最离谱的是: - LoRA 微调不到 1 小时就能搞定 - Sm 模式更快,Medium 模式更高质量 - 一行命令直接装(MLX 优化版) curl -LsSf https://raw.githubusercontent.com/Stability-AI/stable-audio-3/main/optimized/mlx/bootstrap.sh | bash 这已经不是“云端试试水”了,而是真正在本地就能高强度玩音乐生成的工具。 想快速出 demo?想自己训风格?想在飞机上继续作曲?现在基本都能做了。 而且他们直接说“break it plz”,明显是想让社区狠狠折腾。 整起来~

译Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

OpenClaw🦞@openclaw · 5月22日59

OpenClaw 2026.5.20 🦞 🎙️ Discord voice follows you 🔐 Doctor catches plaintext secrets 🧭 Model status explains surprises 🪟 Windows install gets unstuck Still into boring fixes. https://github.com/openclaw/openclaw/releases/tag/v2026.5.20

译OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决 依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20

meng shao@shao__meng · 5月21日65

在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要,语音的仿真生动程度、语音响应的及时性,这些都是 Voice Agent 在 LLM 基础之上要考虑的重点。 Voice Agent 的搭建过程,模型主要包括 ASR、VOD、TTS、LLM 等,而通信基础主要依靠 WebRTC 这个在直播和在线会议场景最通用的方案,前几天 OpenAI 也针对实时语音发布了 WebRTC 相关的技术方案。 在 WebRTC 领域,有一个非常常用的方案团队:Agora,他们也推出了 Agora Skills,让 AI Agent 可以快速安装和理解、使用。 今天咱们就看看基于 Codex 安装使用 Agora Skills 的完整过程。 首先是 Agora Skills 安装,我只需要告诉 Codex:“安装 Agora Skills:https://github.com/AgoraIO/skills”,1-2 分钟后 Codex 自动安装完成。 安装完成它向 Codex 展示 Skills 的主要内容,包括了 Agora 的 RTC、RTM、Conversational AI、CLI 等多个产品的直接集成。因为 Agora Skills 的使用涉及到 Agora Token 认证,在 CLI 中也可以快速完成登录和环境变量设置保存,在网页端登录一次后,就不需要再离开 Codex 了。 然后我让 Codex 帮我用 Agora Skills 写一个 Demo:用 Agora Skills 帮我搭一个浏览器里的 voice AI agent demo,从登录 Agora、创建项目到本地跑通,把关键log和性能数据展示出来。 也是完全 Codex 自动读取 Skills 后完整,我没有介入,说明 Skills 中各种能力的编排和集成做的还是很到位,也是2-3 分钟后,Demo 就写完并运行起来了。 这个 Demo 的功能主要是语音实时对话,从对话体感上看,很流畅,接近于人和人之间语音通话的响应延迟,语音包和 LLM 都可以切换,这里我只做了默认集成。 看几个关键数据: · 整个 RTC、RTM、Conversational AI 启动过程在2-3秒内,很快 · 从我说话结束,到 Voice Agent 首个语音包输出(我听到声音),1秒左右 如果你在做 Voice Agent 方面的探索,可以接入 Agora Skills 快速验证你的想法,让你的 Agent 能实时和你对话。抛砖几个场景,朋友们可以去尝试回来再交流:给 Agent 做一个会说话的陪伴形象、虚拟男女友、把声音和形象装进智能硬件。。 https://github.com/AgoraIO/skills

译实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

向阳乔木@vista8 · 5月21日72

Suno 生成 Skill 做了优化,增加了近6000个音乐风格检索,让生成的音乐更准确。 用谷歌CDP刷新获取登录Token,完全不用打开网站就能创作歌曲了。 开源地址:https://github.com/joeseesun/qiaomu-suno-master Skill 安装指令:npx skills add joeseesun/qiaomu-suno-master

译这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

OpenAI Developers@OpenAIDevs · 5月21日58

Show us what you’re building with realtime voice. Join the OpenAI team in SF on May 27 for a demo showcase using the latest voice models. We’re looking for prototypes and products that are interesting, useful, creative, and technically ambitious. Top projects will present onstage, win prizes, and be featured by @OpenAIDevs & @cerebral_valley for a community vote.

译展示你正在构建的实时语音应用。 加入OpenAI团队,于5月27日在旧金山参加使用最新语音模型的演示展示。 我们正在寻找有趣、实用、富有创意且技术上具有雄心的原型和产品。 优秀项目将上台展示、赢得奖品,并由@OpenAIDevs和@cerebral_valley进行社区投票。

OpenClaw🦞@openclaw · 5月21日66

OpenClaw 2026.5.19 🦞 📱 Android Talk Mode goes realtime 🍎 Mac Settings feel much cleaner 🔐 xAI login works headless 🧵 Telegram topics behave better Big release. Smaller tweet. https://github.com/openclaw/openclaw/releases/tag/v2026.5.19

译OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定 大版本更新,简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19

MiniMax (official)@MiniMax_AI · 5月21日67

600+ new voices powered by MiniMax Speech 2.8 Turbo are now on Together AI @togethercompute 🎙️✨ Try it today: https://voicefinder.together.ai/minimax--speech-2.8-turbo

译600多种由MiniMax Speech 2.8 Turbo驱动的新声音现已登陆Together AI @togethercompute 🎙️✨ 立即体验:https://voicefinder.together.ai/minimax--speech-2.8-turbo

歸藏(guizang.ai)@op7418 · 5月21日40

用了几天 Mac 版豆包输入法,已经离不开了。 准确性、中英文混合输入、专业名词的识别,响应速度,都是市面上最顶的。 我现在手机上已经离不开豆包输入法了,一直在等待桌面端上线。前几天发现 MacOS 版终于来了,赶紧下载试了一下。 我觉得表现最好的就是多语言混合输入。 我日常会涉及到非常多中英文混合输入的场景,因为我们这个行业很多词没有翻译,比如说 Claude Code、AntiGravity、Perplexity,这种词和中文混合的时候,就非常难以去润色和识别。 豆包在这方面处理得巨好。 之前我用其他语音输入法,它主要有两个问题: 首先是过度优化: 它有时候改动非常大,比如在跟朋友聊天时,它会突然给一段非常正式的 Markdown 格式,让人很难接受。而且它还会批量自动添加无序列表和有序列表,修改起来非常麻烦。 然后是无法实时预览: 必须等全部说完、润色完,才会给出一整段结果。当你一次说五六百字时,很难审查其中的细节。如果其中有一两个词识别错了,很难在润色后的长文本里精准找到并修改,导致很多时候错误的信息就直接发出去了。 相比之下,豆包输入法在这两点上效果非常好: 它会实时出结果,生成完成后还会再润色一遍,这样你能清晰地看到输出文案及其对应的变化。 它不会乱加 Markdown 格式或列表,用起来很省心。 此外,豆包的识别速度极快,基本上是“言出法随”,说完立刻就能吐字,润色也很快。我现在手机上已经离不开它了,这下电脑端上线也必须得用了。 期待豆包输入法后续的版本能够支持自定义提示词润色。比如在一些特定的、独特的场景下,通过自定义提示词让它生成对应的格式,这个功能还是挺需要的。 但总的来说,从识别本身的硬功夫来看,豆包已经做得无可挑剔了。

译豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

Orange AI@oran_ge · 5月20日62

最近在 Mac 上装了豆包的语音输入法 之前很多人说一个语音输入法和一个键盘输入法放一起有点多余 我用下来的感觉倒是反过来的。 豆包这个语音输入最神奇的是可以和键盘输入联动,达成一个 1+1 > 2 的效果。 语音输入法最大的痛点其实是专有名词的输入和管理,这套词库维护起来非常费劲,但语音输入法和键盘输入法放一起就完美地解决了这个问题。 比如我语音输入这句话:ColaOS 支持 Codex 的套餐了。 因为 ColaOS 不是个标准词,所有语音输入法都会识别成 ColorOS 或者 CollaOS,这时候就需要在输入框里手动修改成 ColaOS。 但只要修改一次,豆包输入法就自动记住这个专有名词了,以后在输入就都不会错了。 这个专有词的解决方案是有点优雅的。 至于语音输入法的能力方面,实时转录、中文混说啥的都挺不错,基本上可以平替掉 typeless,这个是云端输入法产品的基本素养了。

译豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

宝玉@dotey · 5月20日51

Antigravity 2.0 和 Codex 长一个样😂 Google 舍得拉下脸抄一下 UI/UX 也不是坏事,这样不会像 Gemini UI 那样难用了

Josh Woodward@joshwoodward · 5月20日13

Glad you like it! We have more accents coming! :)

译很高兴你喜欢!我们即将推出更多口音!:)

🚨 AI News | TestingCatalog@testingcatalog · 5月20日77

GOOGLE I/O 🔥: ANTIGRAVITY 2.0 HAS BEEN ANNOUNCED WITH LOADS OF NEW AGENTIC SYSTEMS AND REALTIVE VOICE EXPERIENCE! > Available globally for everyone > Gemini 3.5 Flash is 12x faster on Antigravity > New Agent experience and integrations > Antigravity CLI

译谷歌在I/O大会宣布推出Antigravity 2.0平台,面向全球用户开放。该平台集成了新的智能体系统和自然语音交互体验,Gemini 3.5 Flash模型在Antigravity上的运行速度提升了12倍。谷歌展示了其智能体在该平台上仅用12小时,通过93个并行子智能体、超过1.5万次模型调用和处理26亿个token,成功从零构建出一个可运行的操作系统,API调用成本不到1000美元。

Rohan Paul@rohanpaul_ai · 5月20日54

Voice AI has a harder privacy problem than other AI tools, because it handles messy human input before it becomes polished work. i.e it captures raw thoughts, unfinished drafts, private voice, and sensitive business context. Typeless is trying to solve that at the storage layer. They are now also ISO 27001 certified. 🛡️ 1. Zero cloud data retention 2. Never trained on your data 3. On-device history storage Voice-first AI will rise only if users believe their half-formed thinking is not being stored, reused, or exposed.

译语音AI因处理用户原始的思考与未完成的草稿等敏感输入,面临着比其他AI工具更严峻的隐私挑战。Typeless旨在通过“隐私优先”的设计在存储层解决这一问题。其核心原则包括零云端数据留存、绝不使用用户数据训练模型,并将历史记录完全存储在本地设备上。该公司现已通过ISO 27001信息安全标准认证。这一系列举措旨在向用户和企业证明,其产品能够有效保护用户的思考过程和工作内容,从而推动语音优先AI技术的普及。

歸藏(guizang.ai)@op7418 · 5月19日33

🐂🐸 恭喜橘子

译团队在一年前发布了首款产品ListenHub,这是一款在AI播客领域逐渐淡出市场后仍保持稳定运营的小产品,为其团队提供了持续现金流与服务基础。如今,随着技术积累与产品演进,团队即将推出ColaOS 1.0正式版,并将ListenHub整合为其中的多媒体服务。过去一年,团队从ListenHub起步,在技术、产品与商业化方面均实现显著成长,并深化了对创业与组织的理解。

Berryxia.AI@berryxia · 5月19日62

卧槽,这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊! Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙:Starchild-1。 这是全球第一个实时多模态世界模型。 它不只是生成画面,还能同时生成真实世界的声音。 视频里你能看到一个完整的场景:画面在动,声音同步响起,视觉和听觉完全融为一体,像真正活过来的世界模拟。 以前的世界模型大多只能“看”世界,现在Starchild-1直接学会了“听”。 这不仅仅是又一个视频生成工具,更大的意义是朝着通用世界模型又迈出的关键一步,真正理解并模拟物理世界的下一步。 Odyssey团队说,他们正在用这种新形式的多模态智能,重新定义AI对现实的认知。

译Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。

Rohan Paul@rohanpaul_ai · 5月19日64

Can a smaller model purpose-built for one domain beat a frontier general model that's 100× its size? A recent paper showed yes — and not by a small margin. Raven 3.5 from PolyAI shows that a smaller specialist model can beat bigger general models on customer service calls. It beats GPT-5 and Claude Sonnet 4.6 on all 4 customer service benchmarks while staying under 300ms latency. This is one of the live debates in ML. Every researcher is asking this question. The paper is the empirical answer. PolyAI's research team published “Raven 3.5: The post-training recipe that beats GPT-5 for customer service” —- Voice agents are moving from call-center software into everyday product infrastructure. PolyAI’s launch targets the gap between website traffic and real customer conversations. Made every website capable of answering out loud. PolyAI helps enterprises fix slow phone support, long wait times, costly contact centers, robotic IVRs, and missed revenue from abandoned calls. Its voice agents handle customer conversations 24/7 across voice, chat, SMS, and social channels in 45+ languages. The result is faster support, lower operating cost, more consistent answers, and better customer experience at enterprise scale. 📞 PolyAI is launching 2 new voice AI products: ADK, a code-first Agent Development Kit for building production voice agents from your own IDE, and PolyPhone, which turns any website into a live voice AI agent in about 10 minutes. ADK connects directly into Agent Studio, so developers can build, manage, and deploy agents from the terminal. PolyPhone reads a website, understands things like FAQs and product details, then creates a voice agent that can be embedded on any webpage without needing telephony setup. The bigger point: enterprise voice AI is moving from “contact center project” to “something teams can build and ship much faster.” 🧵 1

译PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。

OpenRouter@OpenRouter · 5月19日65

3 new models from @xai's Grok creative stack are live on OpenRouter: • Grok Imagine Image Quality: photoreal image generation and editing • Grok Imagine Video: short clips from text, image, or reference • Grok Voice TTS 1.0: 5 voices across 20+ languages More on each below 🧵

译@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线: • Grok Imagine Image Quality:照片级真实图像生成与编辑 • Grok Imagine Video:从文本、图像或参考生成短片 • Grok Voice TTS 1.0:支持 20 多种语言的 5 种语音 更多详情见下方 🧵

Rohan Paul@rohanpaul_ai · 5月19日68

Voice AI might be the biggest productivity boost you can add to almost any office job. And with PolyAI’s Agentic Dialog Platform now open to every enterprise builder, Voice AI has gone from a 6-figure annual contract to a free trial you can install straight from your terminal. The hard part is not speech recognition, because the real challenge is keeping track of messy human intent while a caller changes details, adds urgency, or asks for something the system did not expect. Their proprietary model Raven, has the agent behavior built into the model itself instead of relying on long prompts that can drift when calls get complicated.

译PolyAI现已向所有企业开发者开放其Agentic Dialog平台,将语音AI服务从高昂的年度合约变为可通过终端免费试用的产品。该平台的核心目标并非语音识别,而是攻克在通话中动态追踪复杂、多变的人类意图这一难题。其专有模型Raven将代理行为直接内置于模型本身,避免了冗长提示词在复杂对话中的失效问题。该模型已为FedEx等大品牌处理超10亿次对话。平台支持集成Raven或GPT-5等外部模型,使任何团队都能轻松构建、测试并部署企业级对话智能体。

Rohan Paul@rohanpaul_ai · 5月18日63

Just a few days back, Thinking Machines Lab (TML), showcased a way of making AI interaction continuous instead of turn-based, a Full-Duplex Time-aligned micro-turn. It's a preview of the future of a near-realtime AI voice and video conversation with new 'interaction models' And MiniCPM-o 4.5 already shipped the same core idea through OpenBMB’s Omni-Flow framework: time-aligned perception and response instead of old turn-based chat. A 9B Full-Duplex omnimodal model that can see, hear, and speak at the same time. Omni-Flow also treats interaction as a continuous stream on a shared temporal axis, aligning visual input, audio input, and output speech/text into time chunks so the model can perceive while responding. That breaks the old walkie-talkie UX of AI: user talks, model waits, model replies. And this is not just a demo concept. It is a 9B open model with code, weights, a report, and edge deployment under 12GB RAM. It also surpasses Qwen3-Omni-30B-A3B in omni-modal capabilities and speech generation quality. This feels like the interaction layer AI was missing. OpenBMB already shipped this as a real Full-Duplex omni-modal architecture, with video tokens, audio tokens, LLM hidden states, speech tokens, and waveform generation all synced to one shared timeline.

译Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

Berryxia.AI@berryxia · 5月15日43

可以看看这个效果如何? 使用Violin的项目进行迭代了如下功能: 1、 保持原来核心功能视频翻译多国语言。 2、支持用户选择目标的音色,多角色,多音色。 3、支持翻译多国语言后克隆原音色。 4、保持多国语言支持翻译后的字母导出 我看看再优化一下,有点出国串门的那意思,可以做海外视频播客了哈哈哈

译Violin项目在保留核心的视频多语言翻译功能基础上,进行了多项迭代升级。新版本支持用户为目标语音选择多种角色和音色,并能在翻译成多国语言后克隆原始音色。同时,项目继续保持对多语言翻译后字幕导出的支持。这些改进旨在优化用户体验,使工具更适用于制作面向海外市场的视频播客内容。

Berryxia.AI@berryxia · 5月15日66

哈哈 你们要的林志玲版。。。

译哈哈 你们要的林志玲版。。。 [引用 @berryxia]:这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese 大家需要注意: 去 http://api.together.ai 注册获取 Key(也支持 OpenAI、ElevenLabs,只需其中一个)。 Violin 默认使用 Together AI(免费注册可得额度),需要设置环境变量: # 永久生效,加到 ~/.zshrc echo 'export TOGETHER_API_KEY=你的key' >> ~/.zshrc source ~/.zshrc

AYi@AYi_AInotes · 5月15日56

这可能是今年最让我感动的硬科技创业故事了兄弟们😭 也是 elon 的第一性原理创新最教科书级别的示范! 我要给我姥爷买一个,抗美援朝的老英雄,90多了几乎听不到声音了😭 背景是三个大学生用19.99美元,干翻了整个垄断了几十年的助听器行业, 我们都知道传统助听器随便就要几千美元,普通人根本负担不起, 几个老哥没有去优化那些复杂的电子电路,也没有去卷芯片性能, 而是回到了@elonmusk 的第一性原理, 去研究耳朵本身到底是怎么工作的, 最终做出来的东西没有电池,没有电路,不需要充电, 就是一个纯机械的仿生装置,精确模仿鼓膜和听小骨的自然放大机制, 用声波本身的物理特性来增益声音, 用户只需要用手机拍一张耳朵的照片,再做一个简单的听力测试, AI就会自动生成专属的适配模型,然后用3D打印出来, 整个过程不到十分钟, 很多人说这么便宜肯定没用, 但它已经让全球8亿听力损失人群第一次看到了希望, 那些以前因为买不起助听器而逐渐被社会孤立的老人, 那些生活在发展中国家根本没有医疗资源的普通人, 现在只需要一杯咖啡的钱,就能重新听见这个世界, 当然它也不是完美的, 目前只适用于轻中度听力损失, 也还没有拿到完整的医疗器械认证, 但我觉得这已经足够了, 技术最伟大的意义本来就不是做出最贵的产品, 而是让最需要的人都能用得起, 这才是真正的用科技改变世界😭 #硬科技 #助听器 #创业

译三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。

Berryxia.AI@berryxia · 5月15日75

兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单一语言死死锁住,全球观众根本触达不到。 Violin把ASR、LLM翻译、TTS三者无缝串成一条流水线。 「输入一段视频,它就能自动完成语音识别、多语言翻译、自然语音合成。」 最实用的是两个功能: 你可以个性化翻译风格,把学术报告改成孩子也能听懂的版本; 还能直接和视频聊天,任何问题都基于视频内容给出答案。 它同时支持Web应用、CLI命令行和Agent Skill,全部MIT开源。 以后高质量内容不再只属于某一种语言,而是真正走向全球。 Demo、博客和GitHub都在原帖。 如果你在做内容、教育、跨语言传播,或者正在开发多模态Agent,这套Skill值得立刻去试。 你觉得AI下一步最该解决的,是内容创作,还是内容全球化? 项目地址:https://github.com/shang-zhu/violin

译牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Berryxia.AI@berryxia · 5月15日74

这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese 大家需要注意: 去 http://api.together.ai 注册获取 Key(也支持 OpenAI、ElevenLabs,只需其中一个)。 Violin 默认使用 Together AI(免费注册可得额度),需要设置环境变量: # 永久生效,加到 ~/.zshrc echo 'export TOGETHER_API_KEY=你的key' >> ~/.zshrc source ~/.zshrc

译牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

ginobefun@hongming731 · 5月15日60

http://x.com/i/article/2055063165621374976 # BestBlogs 早报 05.15 · Claude Code 最佳实践 / GPT-Realtime-2 · AI 工具到 AI 体系的跃迁 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-15 BestBlogs 新手注册和老用户领取 Pro 会员福利活动进行中,欢迎参与并定制自己的早报。 https://www.bestblogs.dev/pro EP57 · BestBlogs 每日早报 · 2026 年 5 月 15 日 今天这期早报的主线是:从工具到体系。Claude Code 官方公布了大型代码库最佳实践,Harness 的配置比模型分数更决定实际表现,新兴职能「Agent Manager」正在大型组织中落地。OpenAI 通过 Build Hour 深入解析 GPT-Realtime-2 的语音 Agent 架构,对话框正在跃升为自主「语音→行动」工作流。这期还有一个值得关注的真实困境:当 AI 把开发周期从月压到小时后,效率溢出带来的反而是协作方式的重构难题。 ## 导语 AI 编程工具进入大规模落地阶段后,一个关键认知正在浮现:模型能力只是起点,围绕模型搭建的整套工程体系才是决定上限的变量。 Anthropic 这次发布的大型代码库最佳实践指南,直接点破了一个常见误区——团队往往把精力集中在比较不同模型的 benchmark 分数,却忽视了 CLAUDE.md 配置、Hooks、Skills、MCP 等「Harness」层面的工程投入才是实际体验差距的真正来源。这不是一个理论观察,而是来自真实部署在百万行级 monorepo、数十个微服务 repo 上的经验总结。 语音交互领域同样如此。OpenAI 的 GPT-Realtime-2 带来了 GPT-5 级推理和 128k 上下文,但更值得关注的是它背后的架构演进:语音 Agent 已经从「聊天机器人」跨越到了「语音→行动」自主工作流,Sierra 实测延迟降低 30%–200%,这种量级的提升意味着企业语音服务的基础设施需要重新评估。会议场景、客服中心、实时翻译——这些场景的成本结构和体验边界都将随之改变。 flomo 联合创始人少楠的案例则提供了一个反直觉的视角:16 人团队 70%–80% 的代码由 AI 贡献,开发周期从「按月」压缩到「按小时」之后,真正的瓶颈不是工程效率,而是协作方式的重构。产品经理因为能直接验证想法反而提交的需求变少了,优秀的人变得更优秀,能力鸿沟反而在拉大。当效率不再是瓶颈,考验的是另一套能力:判断什么值得做,以及如何在没有传统约束的情况下保持组织协作的凝聚力。 三篇精讲从不同维度指向同一个问题:AI 带来的效率红利,最终会被组织结构和协作惯性消耗掉多少? 今天速览还有明略科技吴明辉聊 AI 如何颠覆 SaaS、OpenAI 前 CTO Murati 对「永远在场」AI 的探索、阿里云 Skill Factory 的工程实践、OpenAI 13.1 万 GPU 网络的反直觉设计,以及 Codex 登陆 ChatGPT 移动端的最新动态。 ## 精讲一:Claude Code 在大型代码库中的运作方式:最佳实践与入门指南 | Claude Anthropic 官方这篇指南针对的是真实企业场景:百万行级 monorepo、跨越十余年的 legacy 系统、分布在数十个 repo 的微服务群。这类代码库的挑战不是规模本身,而是规模带来的上下文爆炸——如何让 Claude Code 在茫茫代码中准确定位、精准修改,而不是在 context window 里原地踏步。 Harness 和模型同等重要 指南最核心的观点可以用一句话概括:「影响 Claude Code 实际表现的,Harness 配置和模型能力同等重要。」这个论点打破了一种常见预设——很多团队在选型时把大量时间花在比较不同模型的 benchmark 分数上,实际上,两个使用相同模型但 Harness 配置差异显著的团队,体验可能判若云泥。 这里的 Harness 由五个扩展点构成,指南给出了清晰的优先级顺序: - CLAUDE.md 文件 — 每次会话自动加载的上下文文件,根目录放全局约定,子目录放局部规范。这是整套体系的基础,所有其他层都依赖它的质量。内容越聚焦、越准确,Claude 的定位速度越快。 - Hooks — 在 Claude 执行前后注入自定义逻辑,比如格式检查、lint 验证、自动提交、安全审查。它让 Claude 的行为与团队工程规范对齐,而不是每次依赖 prompt 提醒。 - Skills — 可复用的任务模板,把常见工作流封装成结构化指令。类似「为新增 API 端点生成测试用例」这类重复任务,Skills 比每次重写 prompt 更稳定。 - Plugins — 扩展 Claude Code 的底层能力边界,比如接入自定义的代码分析工具或内部知识库。 - MCP Servers — 连接外部工具和数据源,让 Claude 能访问数据库、调用 API、读取实时数据。这是 Claude Code 与企业既有工具链整合的关键接口。 指南特别强调这五个扩展点的顺序很重要:每一层都建立在前一层的基础上。在 CLAUDE.md 还不完善的情况下就去精心配置 MCP,效果会大打折扣。 LSP 与子智能体:两个容易被忽视的加速器 除了五大扩展点,指南还着重强调了两项附加能力: LSP(Language Server Protocol)集成实现符号级导航。传统的 grep 搜索在大型代码库中精度有限——它找到的是文本匹配,不是语义匹配。LSP 能让 Claude 精确跳转到函数定义、查找所有引用、理解类型层次,显著提升在陌生代码区域的探索效率。在 C、C++、Java 这类类型系统复杂的语言中,LSP 集成的收益尤为显著。 **子智能体(Subagents)**解耦探索与编辑。核心思想是:一个子智能体负责探索代码结构、收集上下文,另一个负责实际修改。这种分工避免了单个 Agent 在探索过程中把 context window 消耗殆尽——等到真正要写代码时,已经没有足够空间容纳准确完整的修改了。子智能体完成任务后只把最终结果返回给父 Agent,中间过程的 token 消耗不会传递。 为什么 RAG 在大型代码库中失效 指南对 RAG(检索增强生成)在代码场景局限性的分析值得特别关注。很多团队在引入 AI 编程工具时会考虑「把整个代码库向量化」的方案,Anthropic 明确指出了这条路在大型团队中的天花板。 问题核心是索引的时效性。向量索引需要预先构建,当工程团队在高速迭代时,索引的更新速度根本跟不上代码变更速度。Claude 检索到的可能是两周前已被重命名的函数、上个 sprint 已经删除的模块,而且检索结果本身不会告知你这个信息是否已经过期。在一个有几千名工程师并行提交的 monorepo 里,这个问题会被急剧放大。 Agentic 搜索(即 Claude 直接在 live 代码库中 grep、读文件、跟引用)规避了这个问题——没有索引需要维护,每个开发者的实例都在最新代码上工作。代价是需要足够的起始上下文,也就是说 CLAUDE.md 的质量直接决定 Claude 能否快速定位到正确的代码区域。指南建议:如果 Claude 需要在十亿行代码库里寻找一个模糊的模式,你会在工作开始之前就碰到 context window 限制。精确的起点比广泛的搜索更有价值。 「Agent Manager」这一新兴职能 在大型组织的落地案例中,指南观察到一个新角色正在涌现:Agent Manager。这个职能介于传统技术 Lead 和 AI 工程师之间,具体职责包括:维护 CLAUDE.md 的规范质量、审查和迭代 Hooks 配置、评估 Skills 的覆盖率和准确性、协调不同团队的 MCP 接入标准,以及管理多个 AI Agent 之间的协作边界。 这个职能的出现反映了一个现实:AI 工具的「基础设施」工作需要有人专门负责,否则很容易变成「每个人都在各自配置,没有人在系统性优化」的局面。指南特别提醒,每 3–6 个月应随模型迭代主动更新 Harness 配置——旧有的「规则」可能会约束新模型本已具备的能力,形成不必要的限制。随着 Claude 的能力持续演进,过度保守的 Hooks 和过时的 CLAUDE.md 有时候反而是性能瓶颈。 这篇指南对任何在团队中推广 Claude Code 的工程师或技术 Lead 都有直接参考价值。完整内容见 Claude Code 大型代码库最佳实践。 ## 精讲二:Build Hour 深解 GPT-Realtime-2:语音 Agent 如何从聊天迈向「语音→行动」 OpenAI 的这次 Build Hour 围绕 GPT-Realtime-2 展开,但内容远不止一个新模型发布——它实际上是在描绘语音 AI 应用架构的下一代形态。从「用语音问 AI 一个问题,AI 用语音回答」,到「用语音指挥 AI 执行一系列操作,AI 实时改变应用状态」,这是两个完全不同量级的产品体验 三款音频模型协同工作 OpenAI 这次推出的不是单一模型,而是面向不同场景的三款模型组合,每款都有明确的定位: - Real-time Translate:支持 70+ 语言输入、13 种语言输出,主打低延迟流式翻译。适合实时多语言会议、跨语言客服等场景,不需要最强的推理能力,但对延迟极度敏感。 - Real-time Whisper:延迟可调,最低可达 200ms,支持 80 种输入语言。这是对语音识别精度和速度的双重优化,适合需要快速响应但对下游推理要求不高的场景。 - GPT-Realtime-2:旗舰推理模型,带来 GPT-5 级推理能力,具备高质量工具调用性能,是真正实现「语音→行动」的核心模型。在 Big Bench Audio 上比前代提高了 15.2%。 这三款模型的组合设计思路值得关注:OpenAI 没有试图用一个模型覆盖所有场景,而是根据延迟需求、语言支持广度和推理深度做了明确分层,让开发者根据具体场景选择合适的「档位」。 三项关键技术提升 GPT-Realtime-2 相比前代有几项对开发者直接有用的改进: 首先是 128k 上下文窗口,是上一代的 4 倍。这意味着近一小时的完整对话可以保留在上下文中,不需要截断,长会话中的指令遵循也更稳定。对于需要记住复杂用户偏好、维护多轮任务状态的场景,这是实质性的提升而不是数字上的增量。 其次是前导语(Preambles)机制。当用户提问后,模型需要调用工具或进行多步推理时,可以先输出「让我查一下……」或「好的,我来看看……」这类过渡语,填补思考间隔。这个设计让语音对话的节奏更接近真实人际对话,避免了用户提问后遭遇令人不安的长时间沉默。 第三是逐轮 VAD 控制。VAD(Voice Activity Detection,语音活动检测)负责判断用户是否说完话、何时该模型开始回应。新版本允许开发者在特定对话轮次禁用 VAD,防止模型在输出关键内容(比如法律声明、合同条款、医疗建议)时被意外打断。这对企业合规场景来说是刚需。 Sierra 的企业实测数据 Build Hour 邀请了企业 AI 公司 Sierra 的工程师 Ken Murphy 和 Soham 分享实战经验。他们在企业客服场景下将 GPT-Realtime-2 与传统级联语音系统进行了系统对比。传统方案是「语音识别→文本处理→语音合成」三段式架构,每段都引入延迟,且各段的误差会叠加。 实测延迟降低幅度在 30% 到 200% 之间。区间跨度大的原因是不同业务场景的原始延迟基线差异很大,但即便是最保守的 30% 改善,对用户感知体验也已经是质的提升——语音交互对延迟的敏感度远超文本交互,因为人类对话中的节奏期望是内化的。 Sierra 同时强调了一个务实的观点:模型能力再强,生产环境中的稳健性仍然依赖「Agent Harness」——处理背景噪音、口音、中途打断、连接抖动等真实世界干扰的工程层。这与精讲一关于 Claude Code Harness 的核心论点形成了有趣的呼应:无论是编程助手还是语音助手,「Harness 和模型同等重要」这一判断都成立。 语音 Agent 的下一步 从这次 Build Hour 的演示来看,OpenAI 展示的电商场景(语音管理购物清单,按预算过滤商品,实时更新 UI 状态)和产品分析仪表盘(语音指令诊断移动端 bug,Agent 自主筛选复杂数据集)已经超出了「对话助手」的范畴,进入了真正的自主工作流领域。 用户说「帮我把购物车里超过 500 元的东西移出去」,Agent 不是返回一份建议清单,而是直接操作。这是「语音→文本→建议→用户确认→操作」到「语音→操作」的路径压缩。对于产品设计者来说,这意味着 UI 交互范式需要重新思考:哪些操作应该完全自主执行,哪些需要保留确认环节。 完整技术解析见 GPT-Realtime-2 Build Hour。 ## 精讲三:AI 让生产效率不再是瓶颈,然后呢?|AI 跃迁者调研 02-flomo 少楠 如果说前两篇精讲是在讲「如何把 AI 工具用好」,少楠的这篇访谈则在追问一个更难回答的问题:当 AI 工具真的把效率拉满之后,真正的障碍是什么? 少楠是 flomo 浮墨笔记和幕布的联合创始人,做了 11 年产品。这次访谈他分享了一个 16 人团队在 AI 让效率暴涨之后遇到的真实困境,以及 flomo 两个从「代码上下文里长出来」的新功能背后的设计过程。 转折点:命令行比 IDE 更适合产品经理 少楠从 GPT-3.5 时代就开始使用 AI,但长期卡在两个瓶颈:API 成本太高无法集成进产品,Cursor 的 IDE 界面对不写代码的产品经理来说过于复杂——「不小心关掉右边聊天窗口就找不到了,干脆放弃。」 真正的转折来自 Claude Code 的命令行界面。「没有复杂的 IDE,直接给口头指令。」他用它写了一个浏览器插件,能跑,额度从 20 美元充到了 200 美元。同期 DeepSeek V3 把 API 价格打下来,产品内终于也敢大规模用了。从今年开始,他们团队的 AI 渗透率才真正大幅提升:16 人团队,70%–80% 的代码由 AI 贡献,开发周期从「按月」缩短到「按小时」。 这个细节值得注意:对于不写代码的产品经理来说,「简洁的命令行界面」比「功能丰富的 IDE」更低的认知门槛,反而成了 AI 编程工具的入口优势。工具的易用性不是对所有人都意味着相同的东西。 一个反直觉的悖论:产品经理反而更少提需求了 少楠对所有产品经理提了一个新要求:提需求之前,必须先拿到代码库权限,在自己的分支上用代码把需求跑通,在真实数据库里拿到结果,再写 PRD 交给工程师上线。 这带来了一个意外效果。工程师效率提升了——把任务交出去,能开一堆 Agent 并行处理。但产品经理效率反而下降了——「你证伪自己想法的效率变高了,但最终交付产出的数量变低了。以前工程师烦死产品经理了,觉得需求太多;现在是产品经理不好意思提需求了。」 他举了一个典型案例:有用户说 flomo 应该做画板功能,可以拖拽连线。以前少楠直接 Pass,觉得需求太重不敢想。现在他吃晚饭前把想法丢给 AI,吃完饭回来一上手用,发现这是个伪需求——用户需要的是「看到笔记之间有联系」的感觉,而不是自己手动连线这个操作本身。以前只能靠逻辑推演,现在是亲自做出来之后发现不靠谱。验证速度提升了,最终交出去的需求质量也提升了——只是数量少了很多。 工程师那侧也在变化。Web 端做完一个功能,移动端工程师直接去代码库级别参考实现,不需要重新写 PRD,数据埋点有专门的 Skill 技能指令自动化完成。开发周期从「按周」计算变成了「按小时」计算。 AI 没有带来能力平权 少楠给自己团队打了 5 分(满分 10 分),理由直接:「速度上去了,但用户价值的挖掘没有同步提升。」他心目中的满分状态是从「上下游关系」变成「Peer 搭档关系」,像特战小组——四个人的小组能调动远程火炮,有非常清晰的职能分工,同时互相补位,而不是冗长的瀑布流。 更值得警惕的是他的一个核心判断:​「只有原来优秀的人,变得更优秀了。AI 没有带来能力平权,反而把鸿沟拉得更大。」 最会用 AI 的人往往最累,因为能力边界扩张后,优秀的人会自发承担更多。而不擅长使用 AI 的人,和擅长使用 AI 的人之间的效率差距不是在收窄,而是在急剧拉大。 协作方式的重构是最大的难点,不是工具本身。具体问题包括:谁来做 Code Review?怎么 debug 一段 AI 生成的代码?产品经理和工程师的协同边界到底变成什么样?职能边界在溶解——有的产品经理开始兼顾交互设计,有的设计师想直接 vibe coding 出效果,这些探索性的实验会抵消一部分执行效率。少楠自己也在和 vibe coding 的诱惑搏斗:「你的能力变强之后,天然地会想做更多的东西,跟抽烟一样,抽了一口就想抽第二口,两三个小时就没了。」 从代码上下文里「长出来」的功能 flomo 最近上线的两个 AI 功能很有意思——它们都不是从传统 PRD 流程来的,而是少楠在 Claude Code 里写着写着「碰出来的」: 认知地图:少楠想把 flomo 笔记的高维向量(1000 多维)压缩到二维平面看聚类效果。在和 AI 基于代码上下文讨论「这些小点点还能做什么」时,AI 提到了等高线。他一试,发现刚好契合脑子里「个人知识库是一张地图」的想象——等高线对应认知密度的起伏,还能以月为单位播放时间轴,看到自己哪个月在攀登哪个「认知山峰」。「想了很多年的一个东西,就这样上线了。」 AI 记忆:系统把用户所有 flomo 笔记按偏好、事实、事件三大类压缩提炼,生成一份「记忆文档」。把这份文档丢给 Claude 或 GPT,回答质量和个性化程度完全不同——因为 AI 知道你最近在关注什么、你的历史判断、你的角色。这是 flomo 最重要的大更新:长期主动记录积累的私有数据被彻底盘活了。目前只对 Max 会员开放,因为把用户所有笔记压缩两遍的算力成本「是非常惊人的」。 这两个功能的共同点是:它们不是从「用户访谈→需求文档→设计稿→开发」的传统流程来的,而是从「产品经理直接用 AI 工具探索代码实现」的过程中意外发现的。这本身就是少楠所说的「工作流变化」最具体的体现。 完整访谈见 flomo 少楠:AI 跃迁者调研 02。 ## 速览 当 AI「杀死」SaaS:多 Agent 网络与软件业转型 晚点聊 LateTalk 第 164 期邀请了明略科技创始人吴明辉,深度探讨 AI Agent 如何颠覆 SaaS 商业模式。核心论点是「闭源软件价值消失,从 Token 和模型上赚钱」。明略正在开源发布多 Agent 协同网络「章鱼」,通过集体学习机制实现指数级增长。吴明辉提出了「龙虾哲学」——用工程化的义务约束来代替无法约束大模型的道德框架。有 5 年前 AI 尝试失败经验的他,这次对 AI 转型的判断更为审慎和结构化。这期时长超过两小时,想深入了解 AI 对企业软件架构影响的同学值得完整听完。 OpenAI 前 CTO 带来的「永远在场」AI 原型 腾讯科技这篇论文解读深入分析了 Thinking Machines 发布的 Interaction Model。文章从传播学的三条件出发(共在性 Copresence、共时性 Contemporality、并发性 Simultaneity),诊断了当前 AI 交互系统的根本缺陷:AI 只在你主动输入时才「存在」,在你不说话时你的世界对它不存在。Thinking Machines 的方案是通过 200ms 微轮次心跳和统一多模态架构打破这一局限,实现真正「在场」的下一代交互。这篇文章与精讲二关于 GPT-Realtime-2 的内容形成有益互补,两篇放在一起读能更完整地理解「真正的实时 AI」意味着什么。 Skill Factory:三天搭一条技能生产流水线 阿里云开发者这篇实践分享介绍了基于测试驱动开发(TDD)理念构建的 Skill Factory。系统通过多路并行生成(同时调用 3 种不同策略的 Creator,相当于「买三张不同号码的彩票」)、自动化测试回归和生态适配,实现了标准化的技能生产流水线。多路并行的逻辑是:只要其中一路生成了高质量 Skill,整个任务就算成功,这极大提高了首次生成成功率。文章对正在规模化部署 AI Skill 生态的团队有直接参考价值,配合精讲一的 Harness 概念来读效果更好。 OpenAI 13.1 万 GPU 训练网络的反直觉设计 这篇 Towards Data Science 文章深入解析了 OpenAI 发布的 MRC(Multipath Reliable Connection)协议。这套协议颠覆了 30 年的网络惯例:禁用所有路由协议、主动接受丢包、将每次传输随机分散到数百条路径上。结果是在 13.1 万块 GPU 上实现了可预测的尾部延迟,以支持同步训练。文章最值得关注的发现是:MRC 实际上「消灭」了数据中心网络的整个第三层控制平面,没有 OSPF,没有 BGP,没有 IS-IS,交换机维护零动态转发状态。这在任何已公开的生产 AI 训练网络中都是前所未有的。对大规模分布式系统和网络架构感兴趣的工程师必读。 用 Evals 与五段式 Rubric 打造可靠 AI Agent 这个 AI Engineer 工作坊视频由 Arize AI 的 Laurie Voss 主讲,系统介绍了如何从「感觉对」走向「可测量」。核心框架是三层评估体系:代码 Evals(确定性检查,快速且便宜)、LLM-as-a-Judge(用更强模型评估语义质量,适合代码无法捕捉的质量维度)、人工评估(生成黄金数据集,是自动化评估器的「校准基准」)。五段式 Rubric 设计和 Meta-Evaluation(评估你的评估器本身是否靠谱)是两个关键实操技巧。想让 Agent 从实验阶段走向生产的团队必看。 只加两行代码,为什么要两天? 腾讯云开发者这篇文章深入剖析业务系统复杂性的根本来源:功能间隐秘增加的耦合和不可避免的代码腐化。文章指出,随着系统功能增多,实现每个新功能不会越来越容易,而是越来越难——这与理想中「可复用性会降低边际成本」的预期完全相反。实际的 functionalities-cost 曲线是指数级上升的,不是线性的。文章对于理解 AI 辅助开发在复杂遗留系统中的真实效率边界很有帮助,和精讲三少楠案例中「协作方式的重构才是最大难点」的观点形成互补。 Codex 正式登陆 ChatGPT 移动应用 OpenAI 官方宣布,AI 编程智能体 Codex 现已在 ChatGPT 移动应用中开启预览。开发者可以通过手机启动新任务、审查输出结果、引导执行流程并批准后续步骤,而 Codex 会继续在笔记本或开发机上运行。这意味着开发者可以随时随地通过口袋设备管理正在进行中的编程任务,项目上下文和文件访问权限保持不变。这是一个典型的「分离关注点」的产品设计——执行仍在算力充足的设备上,监控和审批可以在移动端完成。 ## 扩展阅读 OpenAI Codex 负责人 Tibo Sio:Codex 如何进化为通用 Agent OpenAI Forum 的演讲视频,Codex 负责人 Tibo Sio 介绍 Codex 从云端开发者工具转型为本地运行的通用知识工作助手的路径:随着 GPT-5 的发布,Codex 将关注点从简单代码补全转向「长时任务」,即需要数小时乃至数天自主工作的复杂项目。视频中预告了面向长时任务的 Slash Goal 模式和安全护航的 Auto Review Agent。对关注 OpenAI Agent 产品演进方向的人值得看。配合速览中 Codex 登陆移动端的动态一起理解效果更好。 解锁连续批处理中的异步性 Hugging Face Blog 的 LLM 推理系列第二篇,讲解如何通过 CUDA 流和事件将 CPU 批次准备与 GPU 计算解耦,实现真正的并行执行,实测获得 22% 的推理加速。技术深度较高,适合需要优化 LLM 推理服务成本、尤其是在 H200 等高端 GPU 上跑生产推理的工程师。是对第一篇连续批处理文章的延伸,建议按顺序阅读。 GitHub Issues 导航性能现代化改造 GitHub 工程团队如何通过客户端缓存、预热(Preheating)和 Service Worker,将 Issues 页面导航延迟从「网络受限」变为「接近即时」。文章特别有价值的是方法论层面:先做流量分布测量(发现 57.6% 是 hard navigation),再针对主导路径优化,而不是只优化已经较快的 React soft navigation。HPC 百分位指标的改善数据具体详实。适合做前端性能优化或关注产品感知速度提升的工程师参考。 在 Zoox 加速 LLM 驱动的开发者生产力 Zoox AI 负责人分享通过构建企业 AI 平台 Cortex 系统化提升开发者效率的路径,涵盖安全 LLM 访问、RAG、智能体 API 和采纳率管理。从「新员工入职查文档靠猜」到「AI 无处不在,缺 AI 才感觉奇怪」的转变过程,有不少关于 AI 采纳率培育的实操细节。适合正在规划企业 AI 基础设施、需要参考大型工程团队实战案例的管理者和架构师。 ## 今日阅读路径 时间有限时,建议优先按以下顺序阅读: 第一优先:Claude Code 大型代码库最佳实践 如果你的团队正在推广或评估 Claude Code,这篇 Anthropic 官方指南有直接的实操价值。理解「Harness 和模型同等重要」这一核心论点,能避免在工具选型时只看 benchmark 分数而忽视工程配置的误区。五大扩展点的优先级顺序、LSP 集成的时机、子智能体的使用场景——这些都是容易踩坑的决策点。预计阅读时间 25–35 分钟。 第二优先:flomo 少楠:AI 跃迁者调研 02 这篇访谈提供的不是技术方案,而是一个真实团队在 AI 效率提升后遇到的组织挑战的第一手记录。「AI 没有带来能力平权,反而把鸿沟拉大」和「协作方式的重构是最大难点,不是工具」这两个判断,对任何在团队中推动 AI 落地的人都有很高参考价值。尤其推荐和 flomo 同量级的中小团队创始人和产品经理阅读。预计阅读时间 30–40 分钟。 第三优先:GPT-Realtime-2 Build Hour 如果你的产品涉及语音交互或实时通信,这个 Build Hour 值得完整看完。三款音频模型的定位差异、128k 上下文的实际意义、前导语机制和逐轮 VAD 控制的产品含义、Sierra 的企业实测数据——这些细节在正式文档中很难找到这么集中的呈现。预计视频时长 45–60 分钟,可以 1.5 倍速观看不影响理解。 BestBlogs 每日早报 · EP57 · 2026 年 5 月 15 日 · bestblogs.dev

译Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。

Alibaba Cloud@alibaba_cloud · 5月14日55

How can agent-based speech interaction become more stable and faster? 🚀 When concurrency rises, the message link can become the hidden bottleneck. See how RocketMQ LiteTopic enables stable, low-latency interaction at scale: https://int.alibabacloud.com/m/1000412958/

译如何让基于智能体的语音交互变得更稳定、更快速?🚀 当并发量上升时,消息链路可能成为隐藏瓶颈。了解 RocketMQ LiteTopic 如何实现大规模稳定低延迟交互: https://int.alibabacloud.com/m/1000412958/

向阳乔木@vista8 · 5月14日49

这个模型还是挺不错的。 就是现在基本上所有第三方AI Chat客户端都不支持音视频上传解析。 无论CherryStuido、Chatwise还是其他,不知道现在有没有了。

译用户认为某模型表现不错,但指出当前多数第三方AI Chat客户端(如CherryStuido、Chatwise)尚不支持音视频上传解析功能。同时,豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级,新增音频理解能力,成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型,且Agent、Coding和GUI能力据称也有显著提升。

Suno@suno · 5月14日47

@MikeyShulman sat down with the Training Data podcast to talk about why Suno never learned the rules...🎵

译@MikeyShulman 在Training Data播客节目中畅谈Suno为何从不遵循规则...🎵

Suno@suno · 5月13日61

Suno is now on Apple CarPlay and Android Auto🚗 Stream your favorite creations in the car. Try it out on your morning commute with this playlist! https://suno.com/playlist/a255cf6d-bb99-4c1f-aedd-8d584579bddb

译Suno 现在可在 Apple CarPlay 和 Android Auto 上使用🚗 在车里流媒体播放您最喜欢的创作。在早晨通勤时用这个播放列表试试看! https://suno.com/playlist/a255cf6d-bb99-4c1f-aedd-8d584579bddb

🚨 AI News | TestingCatalog@testingcatalog · 5月13日55

thehype radio is now live: a 24/7 AI-run news station built for founders and builders, with five AI hosts carrying real editorial judgment, memory, and distinct opinions. Not a headline reader on loop. Breaking news within minutes, roundups every 30 min, and a startup funding radar.  > GitHub, OpenRouter, and HuggingFace trends on the hour  > Community takes from X and HN  > Music between segments 👀

译thehype radio是一个专为创业者和建设者设计的24/7全天候AI电台。它并非简单的新闻播报循环,而是由五位具备独立编辑判断力、记忆和鲜明个性的AI主播实时运作。电台内容涵盖分钟级的突发新闻、每半小时的新闻综述与AI工具趋势更新,并追踪初创公司融资动态。同时,它整合来自X和Hacker News的社区观点,并在节目间隙播放环境音乐。其核心在于AI主播能主动收集信息模式、发现矛盾、形成并论证观点,旨在从海量信息中提炼出具有洞察力的内容,帮助听众高效获取关键信息。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月25日
22:10
Orange AI@oran_ge
54
TypeNo v1.4.0 发布,集成流式预览

TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目,核心更新为流式实时预览功能,并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明,澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接:https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

产品更新编码语音
5月24日
21:52
向阳乔木@vista8
45
用Codex开发Suno音乐播放器开源分享

作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

向阳乔木: skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。 正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。

开源生态教程/实践语音
06:49
StepFun@StepFun_ai
精选76
StepAudio实时语音发布,能听懂你的语气与言外之意

StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征,如语气、节奏、停顿甚至轻叹,从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格,内置超过10,000种可组合的预置角色,并提供5种开箱即用的预设角色供体验。同时,模型经过RLHF优化,能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

模型发布语音

推荐理由:StepFun 这个语音模型把副语言感知做进了实时 API,产品人想搞点情感化语音交互的可以试试,预设角色能省不少调 prompt 的功夫。
05:49
StepFun@StepFun_ai
70
StepAudio 2.5实时语音发布:副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音
5月23日
10:39
MiniMax (official)@MiniMax_AI
49
Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构,由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默,提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理,优先优化客户体验。

Gradium: Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...

智能体产品更新语音
03:38
ChatGPT@ChatGPTapp
精选69
用对话处理文书工作更轻松。 借助ChatGPT的图像功能和语音模式,您可以上传表单,说出要填写的内容,即可获得填写完成的版本。
OpenAI产品更新多模态语音

推荐理由:填表终于不用打字了,上传表格对着说就行,ChatGPT 这个更新把语音和图像真正串起来,以后各种纸质表单直接扔进去就完事。
02:05
Artificial Analysis@ArtificialAnlys
61
Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。

评测/基准语音
5月22日
23:50
向阳乔木@vista8
36
在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。
端侧评测/基准语音
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
09:42
meng shao@shao__meng
29
在面试或交流中,如果听到把 prompt 发音为 【pro mo t】,会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。
其他语音
08:13
Berryxia.AI@berryxia
60
Stable Audio 3登陆Mac本地运行,音乐生成效率惊人

Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音
06:38
OpenClaw🦞@openclaw
59
OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决 依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20
智能体产品更新开源/仓库语音
5月21日
12:22
meng shao@shao__meng
65
Agora Skills:快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

智能体GitHub教程/实践语音
10:34
向阳乔木@vista8
72
Suno AI音乐工具新增6000种风格检索并支持免登录创作

这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

开源/仓库教程/实践语音
07:38
OpenAI Developers@OpenAIDevs
58
展示你正在构建的实时语音应用。 加入OpenAI团队,于5月27日在旧金山参加使用最新语音模型的演示展示。 我们正在寻找有趣、实用、富有创意且技术上具有雄心的原型和产品。 优秀项目将上台展示、赢得奖品,并由@OpenAIDevs和@cerebral_valley进行社区投票。
OpenAI行业动态语音
05:18
OpenClaw🦞@openclaw
精选66
OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定 大版本更新,简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19
产品更新开源生态语音

推荐理由:一堆小修小补但都很实用,尤其 Android 实时对话模式,开源 AI 客户端里难得把体验做到这个程度,值得更新。
03:13
MiniMax (official)@MiniMax_AI
67
600多种由MiniMax Speech 2.8 Turbo驱动的新声音现已登陆Together AI @togethercompute 🎙️✨ 立即体验:https://voicefinder.together.ai/minimax--speech-2.8-turbo

Together AI: We added 600+ new voices on Together AI! Introducing MiniMax Speech 2.8 Turbo on Together AI, an enterprise TTS model fo...

产品更新语音部署/工程
00:14
歸藏(guizang.ai)@op7418
40
Mac版豆包输入法试用体验

豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

端侧评测/基准语音
5月20日
14:41
Orange AI@oran_ge
62
豆包输入法:语音键盘联动,专有名词输入更智能

豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

教程/实践语音
06:42
宝玉@dotey
51
Antigravity 2.0 和 Codex 长一个样😂 Google 舍得拉下脸抄一下 UI/UX 也不是坏事,这样不会像 Gemini UI 那样难用了

Google Antigravity: Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a trul...

智能体Google产品更新语音
04:41
Josh Woodward@joshwoodward
13
很高兴你喜欢!我们即将推出更多口音!:)

jorge: @joshwoodward The Rio accent is spot-on! I don't know of any other audio model that can do that.

Google行业动态语音
01:36
🚨 AI News | TestingCatalog@testingcatalog
77
谷歌在I/O大会宣布推出Antigravity 2.0平台,面向全球用户开放。该平台集成了新的智能体系统和自然语音交互体验,Gemini 3.5 Flash模型在Antigravity上的运行速度提升了12倍。谷歌展示了其智能体在该平台上仅用12小时,通过93个并行子智能体、超过1.5万次模型调用和处理26亿个token,成功从零构建出一个可运行的操作系统,API调用成本不到1000美元。

Google: We asked our agents to build a working operating system from scratch using @Antigravity 2.0 and Gemini 3.5 Flash. It too...

智能体Google产品更新语音
00:00
Rohan Paul@rohanpaul_ai
54
语音AI的隐私难题与Typeless的解决方案

语音AI因处理用户原始的思考与未完成的草稿等敏感输入,面临着比其他AI工具更严峻的隐私挑战。Typeless旨在通过“隐私优先”的设计在存储层解决这一问题。其核心原则包括零云端数据留存、绝不使用用户数据训练模型,并将历史记录完全存储在本地设备上。该公司现已通过ISO 27001信息安全标准认证。这一系列举措旨在向用户和企业证明,其产品能够有效保护用户的思考过程和工作内容,从而推动语音优先AI技术的普及。

Huang Song: Voice-first AI products touch some of your most private data: Your raw thoughts. Your unfinished drafts. Your unfiltered...

行业动态语音
5月19日
10:59
歸藏(guizang.ai)@op7418
33
团队在一年前发布了首款产品ListenHub,这是一款在AI播客领域逐渐淡出市场后仍保持稳定运营的小产品,为其团队提供了持续现金流与服务基础。如今,随着技术积累与产品演进,团队即将推出ColaOS 1.0正式版,并将ListenHub整合为其中的多媒体服务。过去一年,团队从ListenHub起步,在技术、产品与商业化方面均实现显著成长,并深化了对创业与组织的理解。

Orange AI: 一年前的今天,是个特别的日子。 那天我们发布了第一款产品 ListenHub。 在今天看来,ListenHub 是个小而美的产品。 这款产品虽小,对我们而言意义却很大。 那是这个成立半年的小团队第一次发布产品,把自己推到真实的世界。 后来,...

行业动态语音
08:56
Berryxia.AI@berryxia
62
Odyssey推出首个实时多模态世界模型Starchild-1

Odyssey AI实验室发布了Starchild-1,这是全球首个实时多模态世界模型。该模型不仅能生成视频画面,还能同步生成与之匹配的声音,实现了视觉与听觉的真正融合,模拟出完整、鲜活的世界动态。与以往只能“看”世界的世界模型不同,Starchild-1实现了“听”的能力。这被视为向通用世界模型迈出的关键一步,旨在重新定义AI对现实世界的认知与模拟方式。

Odyssey: Meet our new friend, Starchild-1 ❤️ Starchild-1 is the first ever real-time multimodal world model. A world model unders...

多模态模型发布语音
05:42
Rohan Paul@rohanpaul_ai
64
专精小模型挑战行业巨头:PolyAI的客服AI新突破

PolyAI研究证实,专为客服设计的较小模型Raven 3.5,在性能上显著超越了规模大其100倍的通用前沿模型。该模型在所有四项客服基准测试中击败GPT-5和Claude Sonnet 4.6,并将响应延迟控制在300毫秒内。这项发布同时包括ADK代码开发工具包和PolyPhone网页语音生成工具,助力企业快速构建生产级语音代理。此举旨在将企业语音AI从大型项目转变为可快速部署的基础设施,从而有效解决客服等待时间长、成本高等问题,提升服务效率与客户体验。

智能体模型发布语音
03:12
OpenRouter@OpenRouter
精选65
@xai 的 Grok 创意套件中 3 款新模型现已在 OpenRouter 上线: • Grok Imagine Image Quality:照片级真实图像生成与编辑 • Grok Imagine Video:从文本、图像或参考生成短片 • Grok Voice TTS 1.0:支持 20 多种语言的 5 种语音 更多详情见下方 🧵
xAI产品更新多模态语音

推荐理由:如果你觉得官方 Grok API 麻烦,OpenRouter 现在一口气上线了 Imagine 图像、视频和 Voice TTS,做创意产品的开发者可以直接从这里调用了,省去多签一轮 API key 的功夫。
00:42
Rohan Paul@rohanpaul_ai
68
语音AI可能是提升几乎所有办公室岗位生产力的最大助力

PolyAI现已向所有企业开发者开放其Agentic Dialog平台,将语音AI服务从高昂的年度合约变为可通过终端免费试用的产品。该平台的核心目标并非语音识别,而是攻克在通话中动态追踪复杂、多变的人类意图这一难题。其专有模型Raven将代理行为直接内置于模型本身,避免了冗长提示词在复杂对话中的失效问题。该模型已为FedEx等大品牌处理超10亿次对话。平台支持集成Raven或GPT-5等外部模型,使任何团队都能轻松构建、测试并部署企业级对话智能体。

PolyAI: Starting today, we're opening our Agentic Dialog Platform to every enterprise builder. Our dialog agents have resolved 1...

智能体产品更新语音
5月18日
02:40
Rohan Paul@rohanpaul_ai
63
AI交互新突破:全双工时间对齐微轮转实现类人实时对话

Thinking Machines Lab与OpenBMB团队正推动AI交互从传统的“对讲机”式轮转模式,向全双工、时间对齐的微轮转模式演进。其核心是通过Omni-Flow等框架,将视觉、听觉输入与语音、文本输出对齐到统一时间轴,实现感知与响应的同步。作为实践,开源的90亿参数多模态模型MiniCPM-o 4.5已能同时看、听、说,并在多模态能力和语音生成质量上超越了更大规模的模型。这标志着AI交互层的重要突破,使实时、自然的类人对话成为可能,且已具备代码、权重及边缘部署方案。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态大佬观点语音
5月15日
18:54
Berryxia.AI@berryxia
43
Violin项目升级,支持音色克隆与多语言视频翻译

Violin项目在保留核心的视频多语言翻译功能基础上,进行了多项迭代升级。新版本支持用户为目标语音选择多种角色和音色,并能在翻译成多国语言后克隆原始音色。同时,项目继续保持对多语言翻译后字幕导出的支持。这些改进旨在优化用户体验,使工具更适用于制作面向海外市场的视频播客内容。

教程/实践视频语音
17:54
Berryxia.AI@berryxia
66
哈哈 你们要的林志玲版。。。 【引用 @berryxia】:这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese 大家需要注意: 去 http://api.together.ai 注册获取 Key(也支持 OpenAI、ElevenLabs,只需其中一个)。 Violin 默认使用 Together AI(免费注册可得额度),需要设置环境变量: # 永久生效,加到 ~/.zshrc echo 'export TOGETHER_API_KEY=你的key' >> ~/.zshrc source ~/.zshrc

Berryxia.AI: 这个项目也可以直接 # 安装成 Claude Code skill 命令:violin --install-skill 以后就可以直接这样:violin input.mp4 output_zh.mp4 --language Chinese ...

MCP/工具教程/实践语音
13:42
AYi@AYi_AInotes
56
大学生以第一性原理开发19.99美元机械仿生助听器,惠及全球听障人群

三名大学生回归耳朵工作机制,运用第一性原理,开发出一款售价仅19.99美元的纯机械仿生助听器。该装置无需电池电路,通过3D打印和AI个性化适配,模仿鼓膜与听小骨的自然声学放大机制。传统助听器价格高达数千美元,此创新为全球8亿听力损失人群,尤其是负担不起昂贵设备或缺乏医疗资源的群体,提供了可及性解决方案。目前产品适用于轻中度听力损失,虽未获完整医疗器械认证,但已展现通过低成本技术普惠大众的潜力。

Founders Inc: They reinvented the hearing aid by studying the human ear Normal hearing aid: $4700 Theirs: $20

现象/趋势语音
09:51
Berryxia.AI@berryxia
精选75
牛津大学博士后开源视频翻译工具Violin,支持多语言翻译与视频对话

牛津大学博士后Kevin Lin开源视频翻译工具Violin,旨在打破高质量视频内容的语言壁垒。该工具将语音识别、大语言模型翻译与语音合成整合为自动化流水线,支持多语言互译与个性化翻译风格调整,例如将学术报告转化为儿童易懂版本。用户还能直接与视频内容进行对话并获取相关答案。Violin提供Web应用、命令行界面和Agent Skill三种使用方式,所有功能基于MIT协议开源,由Together Compute提供技术支持,适用于内容创作、教育及多模态智能体开发等领域。

Kevin Lin: 🌟Introducing🎻Violin - an Open-source Video Translation Skill. 📹Video is the dominant medium on the internet, yet most...

GitHub多模态开源/仓库语音

推荐理由:视频翻译过去得拼几个 API,Violin 一个开源 Skill 把 ASR、翻译、TTS 全通了,还加上视频对话和风格定制,做多语言内容传播的必须收藏。
09:51
Berryxia.AI@berryxia
74
牛津大学博士后Kevin Lin开源了视频翻译工具Violin,可将视频自动进行语音识别、LLM翻译和语音合成,打破语言壁垒。工具支持个性化翻译风格,并能基于视频内容进行问答交互。它提供Web应用、CLI命令行及Agent Skill(如Claude Code skill)多种使用方式,默认利用Together AI的免费额度,也支持OpenAI等API。该项目旨在推动高质量视频内容的全球化传播。

Berryxia.AI: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被单...

多模态开源生态教程/实践视频
07:51
ginobefun@hongming731
60
Claude Code最佳实践与GPT-Realtime-2解析:AI工具迈向体系化

Anthropic发布Claude Code大型代码库实践指南,强调Harness配置(如CLAUDE.md、Hooks)与模型能力同等重要,是决定实际体验的关键,并指出RAG在高速迭代代码库中存在时效性局限。同时,OpenAI通过Build Hour解析GPT-Realtime-2,展示语音Agent正从聊天机器人演进为“语音→行动”的自主工作流。此外,当AI将开发周期从月压缩到小时,效率提升正引发协作方式与组织结构的重构难题。

智能体AnthropicOpenAI现象/趋势
5月14日
18:32
Alibaba Cloud@alibaba_cloud
55
如何让基于智能体的语音交互变得更稳定、更快速?🚀 当并发量上升时,消息链路可能成为隐藏瓶颈。了解 RocketMQ LiteTopic 如何实现大规模稳定低延迟交互: https://int.alibabacloud.com/m/1000412958/
智能体教程/实践语音
11:26
向阳乔木@vista8
49
用户认为某模型表现不错,但指出当前多数第三方AI Chat客户端(如CherryStuido、Chatwise)尚不支持音视频上传解析功能。同时,豆包大模型的Doubao-Seed-2.0-lite 0428版本已完成重要升级,新增音频理解能力,成为其家族首款支持图片、视频、音频、文本四种输入的全模态理解模型,且Agent、Coding和GUI能力据称也有显著提升。

向阳乔木: 前段时间参与了 Doubao-Seed-2.0-lite 0428 内测。 这个版本升级,增加了音频理解,能同时支持图片、视频、音频、文本四种输入,成为豆包大模型家族首款全模态理解模型。 除了全模态理解,据说 Agent、Coding、GU...

多模态视频评测/基准语音
02:28
Suno@suno
47
@MikeyShulman 在Training Data播客节目中畅谈Suno为何从不遵循规则…🎵

Mikey: Had tons of fun chatting with @sonyatweetybird about music and the future of entertainment

大佬观点语音
5月13日
22:57
Suno@suno
61
Suno 现在可在 Apple CarPlay 和 Android Auto 上使用🚗 在车里流媒体播放您最喜欢的创作。在早晨通勤时用这个播放列表试试看! https://suno.com/playlist/a255cf6d-bb99-4c1f-aedd-8d584579bddb
产品更新语音
22:36
🚨 AI News | TestingCatalog@testingcatalog
55
thehype radio是一个专为创业者和建设者设计的24/7全天候AI电台。它并非简单的新闻播报循环,而是由五位具备独立编辑判断力、记忆和鲜明个性的AI主播实时运作。电台内容涵盖分钟级的突发新闻、每半小时的新闻综述与AI工具趋势更新,并追踪初创公司融资动态。同时,它整合来自X和Hacker News的社区观点,并在节目间隙播放环境音乐。其核心在于AI主播能主动收集信息模式、发现矛盾、形成并论证观点,旨在从海量信息中提炼出具有洞察力的内容,帮助听众高效获取关键信息。

thehype.: Meet the 1st radio on X fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Live right ...

产品更新语音
‹ 上一页
1…34567…9
下一页 ›