5月25日

22:10

Orange AI@oran_ge

TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目，核心更新为流式实时预览功能，并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明，澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接：https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

产品更新编码语音

5月24日

21:52

向阳乔木@vista8

用Codex开发Suno音乐播放器开源分享

作者分享了一个周末娱乐项目：一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行，支持电脑和移动端，但后台管理功能尚不完善，目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

向阳乔木: skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。

开源生态教程/实践语音

06:49

StepFun@StepFun_ai

精选76

StepAudio实时语音发布，能听懂你的语气与言外之意

StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征，如语气、节奏、停顿甚至轻叹，从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格，内置超过10,000种可组合的预置角色，并提供5种开箱即用的预设角色供体验。同时，模型经过RLHF优化，能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

模型发布语音

推荐理由：StepFun 这个语音模型把副语言感知做进了实时 API，产品人想搞点情感化语音交互的可以试试，预设角色能省不少调 prompt 的功夫。

05:49

StepFun@StepFun_ai

StepAudio 2.5实时语音发布：副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型，能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格，允许设定个性、背景故事和语言风格，并提供了上万种原生人格选项，可组合出数百万种特征。产品还内置了5个可直接体验的预设人格，并经过RLHF调优，确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音

5月23日

10:39

MiniMax (official)@MiniMax_AI

Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构，由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默，提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理，优先优化客户体验。

Gradium: Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...

智能体产品更新语音

03:38

ChatGPT@ChatGPTapp

精选69

用对话处理文书工作更轻松。借助ChatGPT的图像功能和语音模式，您可以上传表单，说出要填写的内容，即可获得填写完成的版本。

OpenAI 产品更新多模态语音

推荐理由：填表终于不用打字了，上传表格对着说就行，ChatGPT 这个更新把语音和图像真正串起来，以后各种纸质表单直接扔进去就完事。

02:05

Artificial Analysis@ArtificialAnlys

Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一，超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言（包括9种印度语言），提供超过500种声音选择。评测数据显示，Sonic-3.5以1,218的Elo分数领先，表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元，高于竞品；生成速度为每秒105.5字符，介于其他两者之间。

评测/基准语音

5月22日

23:50

向阳乔木@vista8

在AJ安利下，歸藏买了安克 AI 录音豆。在歸藏安利下，我也买了。初步体验，这是目前个人最喜欢、最实用的 AI 硬件产品。就是绳子带着不舒服，打算淘宝换个。

端侧评测/基准语音

14:47

小互@xiaohu

网易有道开源双模型，聚焦工程精度与落地成本

网易有道开源Confucius4双模型，包括一个专注数学视觉推理的多模态模型，以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重，而非仅提供API，强调在工程精度和实际部署成本上的投入，而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHub Hugging Face 多模态开源生态

09:42

meng shao@shao__meng

在面试或交流中，如果听到把 prompt 发音为【pro mo t】，会默默减分吗 😂 我感觉我也不是强迫症，但是每次听到这样读，还是很出戏。。

其他语音

08:13

Berryxia.AI@berryxia

Stable Audio 3登陆Mac本地运行，音乐生成效率惊人

Stable Audio 3官方正式发布，并提供了针对苹果MLX框架的优化版本，使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度，性能表现突出。此外，该工具支持在不到1小时内完成LoRA微调，并提供快速（Sm）与高质量（Medium）两种生成模式。开发者鼓励社区积极探索其潜力，标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音

06:38

OpenClaw🦞@openclaw

OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20

智能体产品更新开源/仓库语音

5月21日

12:22

meng shao@shao__meng

Agora Skills：快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈（ASR、TOD、TTS、LLM）及 WebRTC 通信基础，并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills，演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话，响应延迟仅约 1 秒，极大简化了开发者验证语音陪伴等场景的开发流程。

智能体 GitHub 教程/实践语音