6月19日

01:19

TechCrunch：AI（RSS）

《粉雄救兵》Karamo Brown 推出健康应用 Kē，含 AI 数字克隆"AI Karamo"

《粉雄救兵》生活教练 Karamo Brown 推出健康应用 Kē，其核心特色为基于 AI 初创公司 Delphi 技术打造的“AI Karamo”数字克隆。该克隆通过学习 Brown 的采访、播客等内容，可与用户实时对话并提供建议。应用还提供个性化健身计划、基于家中食材的营养指导、冥想视频及社区支持功能。Kē 已上线 iOS 和 Android，订阅费 $14.99/月，提供 3 天免费试用。

产品更新语音

6月18日

19:14

IT之家（RSS）

Canonical 推出本地语音转文字项目 Myna，为 Ubuntu 26.10 引入 AI 听写功能

Canonical 公布 Project Myna，为 Ubuntu 桌面打造的本地语音转文字工具，首个版本随 Ubuntu 26.10 发布。Myna 仅提供听写功能：用户按下键盘快捷键后说话，转录文字直接插入当前应用，屏幕显示视觉反馈。所有识别在本地运行，下载模型后无需联网；麦克风仅在激活时被访问，音频数据在内存中处理后丢弃。首版以 Wayland 上的 GNOME 为主要验证环境，架构采用模块化设计，源码和文档已以 GPLv3 协议托管于 GitHub。后续计划加强桌面集成并优化听写体验。

产品更新开源生态端侧语音

18:40

公众号：火山引擎

精选72

火山引擎上线豆包实时语音模型3.0 API 服务，开启邀测

火山引擎上线豆包实时语音模型3.0（Seeduplex）API 服务并开启邀测。该模型为原生全双工端到端语音大模型，具备精准遵循、抗干扰、动态判停三大优势。可在多人对话中安静待命，指定话题出现时主动加入；支持通过自定义工具在实时交互中完成预定日历、发送邮件等任务。抗干扰力提升，误回复率与误打断率大幅降低；判停延迟缩短约250ms，复杂场景抢话比例下降40%，用户主动打断延迟缩短约300ms。适用于汽车智能座舱、智能硬件、智能客服等场景。

模型发布语音

推荐理由：豆包实时语音模型3.0带来的全双工实时工具调用，把语音助手从对讲机变成了真人助理，判停延迟和抢话率的改善数据扎实，做车载和智能硬件的团队该认真看看。

15:14

IT之家（RSS）

科大讯飞 AI 眼镜首销：40克重量、122种语言翻译，4299元

讯飞AI眼镜6月18日在京东首销，定价4299元（部分国补后3369元），重40克，获SGS舒适认证。核心搭载语音同传大模型，支持122种语言翻译，覆盖通话翻译、线上同传、同声传译（8米全向拾音）、面对面翻译（18语种离线）、视觉翻译及附赠App权益等六大场景。还支持实时提词、蓝牙遥控翻页，内置GlassClaw AI助理，可开会自动总结图文纪要。

产品更新端侧语音

13:56

LMSYS：Blog（Chatbot Arena 团队）

精选67

MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 上：原生流式 48 kHz 语音服务

MOSS-TTS-Local-Transformer-v1.5 是一款开源 TTS 模型，支持 48 kHz 立体声、零样本声音克隆、最长 10 分钟长文本合成、时长控制及 31 种语言。其核心采用 Qwen3-4B 骨干与约 2B 参数的 MOSS-Audio-Tokenizer-v2 音频编解码器，通过 12 个 RVQ 码本运行。SGLang-Omni 以三阶段流水线部署该模型。在 Seed-TTS-Eval 上词错误率 5.10%、语音相似度 69.23%，CV3-Eval 上 WER 7.48%、SIM 61.59%，MiniMax Multilingual 上 WER 6.37%、SIM 75.31%，X Voice 上 WER 20.48%、SIM 63.00%。

产品更新语音部署/工程

推荐理由：SGLang-Omni 把 MOSS-TTS 的端到端服务拆成三阶段并做了大量底层优化，对想落地实时语音合成的团队是现成的技术方案，技术细节扎实，可以直接照着搭。

12:14

IT之家（RSS）

支持中文：Claude 语音模式酝酿升级，新图标暗示通话式 AI 交互

Anthropic 正升级 Claude 的语音模式，新增西班牙语、中文、日语、德语、葡萄牙语、俄语和乌克兰语等语言选项，打破仅支持英语的限制。语音交互引入两种模式：原有的免提模式支持连续对话，新增按下通话模式需按住按钮说话、松手发送语音消息。iOS 版 Claude 应用出现类似电话听筒的新图标，外界猜测可能为更接近通话的语音交互做准备。

Anthropic 产品更新语音

10:14

IT之家（RSS）

阿里将推"千问输入法"独立App，定位移动端AI输入法

据《读佳》今日报道，千问团队将推出名为“千问输入法”的独立App，其AI功能与键盘针对手机端操作优化，区别于PC端千问语音输入法。产品已开发完成，择日上线各大应用商店。继微信输入法、豆包输入法后，这将是国内第三家头部互联网大厂入局独立AI输入法赛道。千问语音输入法是今年5月上线的AI语音输入能力，集成于千问App内，支持口语去语气词、纠错、格式化整理，以及基于上下文的智能回复、创作、问答与翻译指令。

产品更新端侧语音

00:32

TechCrunch：AI（RSS）

精选76

Google发布99美元Gemini智能音箱

Google推出首款专为Gemini打造的智能音箱Google Home Speaker，售价99.99美元。支持自然语言请求和多步指令，可在说话中途纠正，并具备连续对话功能。内置10种新声音。高级AI功能需订阅Google Home Premium（月费10美元或年费100美元），包括Gemini Live自由对话、Nest摄像头活动摘要等。即日起预售，本月发货。

Google 产品更新语音

推荐理由：Google 终于把 Gemini 塞进了音箱，多步指令和自然纠错是亮点，但高级功能要订阅 Home Premium。普通用户会觉得方便，智能家居玩家可以观望，AI 从业者不会有多大惊喜。