6月4日

10:37

Elon Musk@elonmusk

xAI 推出 Grok Voice，其中 Grok Voice Think Fast 1.0 在 Artificial Analysis τ-Voice 基准（真实世界智能客服解决能力评测）中排名第一，大幅超越 GPT-Realtime-2 （High）和 Gemini 3.1 Flash。该模型已实际部署，通过自然语音为 Starlink及多家企业提供实时客户服务，完全以语音交互驱动。

X Freeze: Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...

xAI 产品更新语音

09:06

Elon Musk@elonmusk

同事件精选72

Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频，一次性完成。示例代码： `await generateVideo（{ model： 'xai/grok-imagine-video-1.5-preview'， prompt： 'a rabbit sprinting through nyc' }）；`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI 图像生成模型发布视频

同一事件，精选展示《xAI 发布 Grok Imagine 1.5 预览版（图像转视频模型）》

推荐理由：Grok Imagine Video 1.5 把同步音频塞进了图生视频，一条 prompt 直接出带声短片，做短视频和创意的可以换上这条流水线了。

08:51

Berryxia.AI@berryxia

MOSS-Audio：开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio，一个融合语音（Speech）、环境音（Sound）、音乐（Music）的开源音频-语言模型，已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域，可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用，代码和权重已在Hugging Face及GitHub公布，开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音

01:48

elvis@omarsar0

Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One，专注于生成富有情感的表达，如温暖、犹豫或兴奋，告别机械音。模型专为短视频、播客和教育内容等旁白场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据私有化，API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

01:08

xAI@xai

试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体，可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节，并在每次通话中明显更具人性化。

Vapi: Grok STT and Grok TTS from @xai are now live on Vapi, the platform for enterprise voice AI. Build on Vapi to create cust...

xAI 产品更新语音

关联讨论 2 条

00:50

Chubby♨️@kimmonismus

精选75

Miso One 正式发布，一个 8B 参数的开源权重语音模型（TTS），旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆（只需短样本），推理延迟仅 110ms。模型权重已开源至 GitHub，无需 API 即可自托管，音频数据不离开本地。API 访问即将推出。演示已上线，可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由：Miso One这种8B参数、110ms延迟的情感TTS模型，直接把声音克隆和自托管做成了开箱即用，做语音产品的可以马上 clone 一个玩玩，比等 API 爽多了。

6月3日

23:09

Suno@suno

精选68

我们激动地宣布Suno的新篇章：4亿美元D轮融资，估值54亿美元！🚀 我们的使命一直很简单：让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。点击此处阅读Mikey的博客：https://suno.com/blog/series-d-announcement

行业动态语音

关联讨论 1 条

推荐理由：AI音乐生成头部又融了一轮大的，估值涨3倍，但产品本身没啥变化，这轮更多是行业信号而不是用户福利。

09:48

Berryxia.AI@berryxia

微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练，旨在任务专精并能无缝协作。其中，MAI-Code-1-Flash在SWE-Bench Verified上得分71.6，比Claude Haiku 4.5高出5分，并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒，在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft 图像生成模型发布编码

03:59

OpenRouter@OpenRouter

精选68

三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线！同步推出：MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

Microsoft 产品更新图像生成多模态

推荐理由：微软三个多模态模型一口气上架 OpenRouter，图像、转录、语音全齐了，开发者直接调 API 就能用，做产品的可以试试效果。

02:47

Artificial Analysis@ArtificialAnlys

Microsoft发布MAI-Transcribe-1.5语音转录模型

微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三，词错误率（WER）为2.4%，仅次于阿里巴巴的Fun-Realtime-ASR-preview（1.7%）和ElevenLabs Scribe v2（2.2%）。其主要特点是速度极快，处理速度约为276倍实时，是准确率前十模型中第二快模型速度的两倍以上，因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别，并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

Microsoft 模型发布语音

6月2日

05:47

OpenAI Developers@OpenAIDevs

投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。一款语音优先的移动操作系统。用户说话，智能体响应并在手机上执行操作。祝贺团队赢得 50，000 美元 API 额度。

OpenAI Developers: 🤳 Agentic OS for a Phone A voice-first mobile OS. Users talk, agents answer, and they can take action across the phone....

智能体 OpenAI 行业动态语音

01:11

Artificial Analysis@ArtificialAnlys

AA-WER Streaming 基准测试发布

Artificial Analysis 团队推出 AA-WER Streaming 基准，用于评估流式语音转文本模型在语音智能体场景中的表现，主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示，Cartesia Ink-2 在最终转录准确性上领先，词错率为 3.59%，延迟为 210ms；ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后；Deepgram Flux 延迟最低（约 20ms），但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

评测/基准语音

6月1日

12:42

Berryxia.AI@berryxia

用两周开发一个可走进、可对话的盛唐长安3D世界

开发者使用Three.js，耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游，并接入Agora ConvoAI实时语音Agent，使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆，将历史文化与AI能力场景化结合。该开源项目（GitHub Pages）代码结构清晰，旨在为创作者提供一个可复用的数字文旅样板。

Berryxia.AI: http://x.com/i/article/2060375125825036288

智能体多模态开源/仓库教程/实践

11:46

MiniMax (official)@MiniMax_AI

出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频去构建些令人兴奋的东西吧！【引用 @visionagents_ai】：祝贺 @MiniMax_AI 团队发布 M3！ 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态（图像与视频）

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频

关联讨论 12 条

11:42

Berryxia.AI@berryxia

用Claude耗时两周、花费约800美元打造的《大唐长安》浏览器3D语音互动游戏教程

本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘，玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力，通过Agora Skills（技能）和Agora CLI工具完成Agent集成与环境配置，使玩家能通过麦克风与李白等角色实时语音交流。此外，项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

智能体 Anthropic 教程/实践语音

04:23

Chubby♨️@kimmonismus

绝对精彩。这就是我想象中计算机使用的未来。我爱死它了。 GPT-Realtime 2.0 被严重低估了。演示：

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI 现象/趋势语音

00:35

Berryxia.AI@berryxia

一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成，通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏，还能进入珍宝馆欣赏诗画，体验古文明与AI结合的沉浸感。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音

5月31日