全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「语音」清除

5月24日周日

23:06TechCrunch：AI（RSS）46我试用了亚马逊Bee可穿戴设备：既着迷又有些毛骨悚然

21:52向阳乔木45用Codex开发Suno音乐播放器开源分享

18:11IT之家（RSS）35科大讯飞智能办公本 Air 3 系列发布：支持离线 AI 与龙虾助手，2499~3599 元

07:11IT之家（RSS）63WWDC 2026 在即，苹果悄悄注册全新子域名 genai.apple.com

06:49StepFun76精选StepAudio实时语音发布，能听懂你的语气与言外之意

05:49StepFun70StepAudio 2.5实时语音发布：副语言感知与人格化交互

5月23日周六

10:39MiniMax (official)49双LLM架构语音助手Gizmo发布：实时响应与自然交互

07:05TechCrunch：AI（RSS）58AI 正被用于复活死飞行员的声音

04:05Ars Technica：AI（RSS）66美国紧急应对网友重现遇难飞行员声音

03:38ChatGPT69精选ChatGPT语音模式实现表单语音填写

02:05Artificial Analysis61Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

5月22日周五

23:50向阳乔木36在AJ安利下，歸藏买了安克 AI 录音豆。在歸藏安利下，我也买了。初步体验，这是目前个人最喜欢、最实用的 AI 硬件产品。就是绳子带着不舒服，打算淘宝换个。

23:09IT之家（RSS）15OPPO Enco Air5s 耳机规格公布：3.9g 重量、三麦 AI 通话降噪，5 月 25 日发布

18:09IT之家（RSS）70精选网易有道"子曰4"多模态模型、语音合成模型全量开源

16:09IT之家（RSS）48安克发布搭载自研"Thus"AI芯片的Liberty 5系列降噪耳机，1399元起

15:09IT之家（RSS）43科大讯飞智能体耳机 Air 发售：一键录音转文字、支持 AI 翻译，1051 元

14:47小互71网易有道开源双模型，聚焦工程精度与落地成本

12:09IT之家（RSS）60努比亚总裁倪飞回应"用豆包订餐厅反被拒"：App 可能尚不支持实际预约功能，但豆包手机就可以

09:42meng shao29在面试或交流中，如果听到把 prompt 发音为【pro mo t】，会默默减分吗 😂 我感觉我也不是强迫症，但是每次听到这样读，还是很出戏。。

08:13Berryxia.AI60Stable Audio 3登陆Mac本地运行，音乐生成效率惊人

08:00HuggingFace Daily Papers（社区热门论文）66StepAudio 2.5 技术报告

06:38OpenClaw🦞59OpenClaw 2026.5.20 版本更新发布

00:00The Verge：AI（RSS）55Spotify Studio的AI智能体为你打造每日定制播客

5月21日周四

23:30TechCrunch：AI（RSS）53Spotify 为播客添加 AI 驱动的问答与简报生成功能

23:30TechCrunch：AI（RSS）46Spotify推出由ElevenLabs驱动的有声读物创作工具

15:59IT之家（RSS）66腾讯会议"AI 同传"功能上线：可模仿用户音色、时延低于 3 秒

13:43公众号：京东JoyAI49京东数字人核心能力升级

12:22meng shao65Agora Skills：快速构建实时语音交互 Agent 的实践

10:34向阳乔木72Suno AI音乐工具新增6000种风格检索并支持免登录创作

07:56IT之家（RSS）41微信鸿蒙版 App 8.0.17.39 正式版更新发布

07:56IT之家（RSS）56小米汽车 OTA 1.16 开启全量推送，新增自定义萌宠上车、小爱陪伴等功能

07:38OpenAI Developers58OpenAI语音模型线下展示活动征集作品

05:18OpenClaw🦞66精选OpenClaw 2026.5.19版本发布

03:13MiniMax (official)67MiniMax语音模型新增600余种声音

00:14歸藏(guizang.ai)40Mac版豆包输入法试用体验

5月20日周三

16:09MarkTechPost（RSS）63阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash：实时多模态翻译模型支持60种语言

15:56IT之家（RSS）30小米耳夹式耳机官宣兼容苹果生态，支持双设备智能连接、苹果物品查找

15:56IT之家（RSS）67AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

14:41Orange AI62豆包输入法：语音键盘联动，专有名词输入更智能

13:53公众号：通义实验室（千问）55Qwen3.5-LiveTranslate 发布：开口即同传

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月24日

23:06

TechCrunch：AI（RSS）

46

我试用了亚马逊Bee可穿戴设备：既着迷又有些毛骨悚然

亚马逊推出了AI可穿戴设备Bee，与其他同类产品类似，它在提供便利性的同时也引发了用户对隐私的担忧，这种便利与隐私焦虑的矛盾结合显得十分奇特。

评测/基准语音

21:52

向阳乔木@vista8

45

用Codex开发Suno音乐播放器开源分享

作者分享了一个周末娱乐项目：一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行，支持电脑和移动端，但后台管理功能尚不完善，目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

向阳乔木: skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。

开源生态教程/实践语音

18:11

IT之家（RSS）

35

科大讯飞智能办公本 Air 3 系列发布：支持离线 AI 与龙虾助手，2499~3599 元

科大讯飞推出新一代智能办公本 Air 3 系列，包含 NEO、标准及 Pro 三个版本，均搭载 8.2 英寸墨水屏。全系支持离线 AI 功能并内置龙虾助手。售价分别为 2499 元、2999 元和 3599 元。

产品更新端侧语音

07:11

IT之家（RSS）

63

WWDC 2026 在即，苹果悄悄注册全新子域名 genai.apple.com

苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕，并已注册全新子域名genai.apple.com，预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能，包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。

行业动态语音

06:49

StepFun@StepFun_ai

精选76

StepAudio实时语音发布，能听懂你的语气与言外之意

StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征，如语气、节奏、停顿甚至轻叹，从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格，内置超过10,000种可组合的预置角色，并提供5种开箱即用的预设角色供体验。同时，模型经过RLHF优化，能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

模型发布语音

推荐理由：StepFun 这个语音模型把副语言感知做进了实时 API，产品人想搞点情感化语音交互的可以试试，预设角色能省不少调 prompt 的功夫。

05:49

StepFun@StepFun_ai

70

StepAudio 2.5实时语音发布：副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型，能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格，允许设定个性、背景故事和语言风格，并提供了上万种原生人格选项，可组合出数百万种特征。产品还内置了5个可直接体验的预设人格，并经过RLHF调优，确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音

5月23日

10:39

MiniMax (official)@MiniMax_AI

49

Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构，由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默，提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理，优先优化客户体验。

Gradium: Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...

智能体产品更新语音

07:05

TechCrunch：AI（RSS）

58

AI 正被用于复活死飞行员的声音

人们运用人工智能技术分析驾驶舱录音的频谱图图像，成功重建了已故飞行员的声音。这一行为迫使美国国家运输安全委员会（NTSB）临时封锁其文档系统的访问权限，以应对潜在的安全风险。该事件展示了AI在音频修复领域的实际应用，同时突显了数据管理、隐私保护及系统完整性方面的挑战。

政策/监管语音

04:05

Ars Technica：AI（RSS）

66

美国紧急应对网友重现遇难飞行员声音

网友利用语音合成技术，成功模拟并重现了已故飞行员的声音。此举挑战了美国国家运输安全委员会（NTSB）禁止公开驾驶舱录音的法律规定。变通手段规避了该禁令，引发监管机构对音频数据滥用与伦理问题的关注。

政策/监管语音

03:38

ChatGPT@ChatGPTapp

精选69

用对话处理文书工作更轻松。借助ChatGPT的图像功能和语音模式，您可以上传表单，说出要填写的内容，即可获得填写完成的版本。

OpenAI 产品更新多模态语音

推荐理由：填表终于不用打字了，上传表格对着说就行，ChatGPT 这个更新把语音和图像真正串起来，以后各种纸质表单直接扔进去就完事。

02:05

Artificial Analysis@ArtificialAnlys

61

Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一，超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言（包括9种印度语言），提供超过500种声音选择。评测数据显示，Sonic-3.5以1,218的Elo分数领先，表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元，高于竞品；生成速度为每秒105.5字符，介于其他两者之间。

评测/基准语音

5月22日

23:50

向阳乔木@vista8

36

在AJ安利下，歸藏买了安克 AI 录音豆。在歸藏安利下，我也买了。初步体验，这是目前个人最喜欢、最实用的 AI 硬件产品。就是绳子带着不舒服，打算淘宝换个。

端侧评测/基准语音

23:09

IT之家（RSS）

15

OPPO Enco Air5s 耳机规格公布：3.9g 重量、三麦 AI 通话降噪，5 月 25 日发布

OPPO Enco Air5s 耳机将于5月25日18:00正式发布。该新品重量仅3.9克，提供暗夜黑、星光紫、月光白三种配色，并支持旗舰级人声降噪算法与三麦AI通话降噪。耳机搭载12mm高解析巨形动圈单元，具备自适应听感优化与全设备空间音效，并号称“安卓苹果都好用”。功能上支持遥控拍照、AI翻译、滑动调节音量及跨设备双连等。

行业动态语音

18:09

IT之家（RSS）

精选70

网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中，多模态模型（27B参数）专注于教育场景，在处理高难度视觉数理问题上达到行业顶尖水平，纯文本中文数理难题准确率为81.4%。该模型通过思维链优化，将输出长度压缩43.2%，有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆，3秒内即可完成零样本复制，准确度超97%，并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由：有道把垂直教育的多模态模型全量开源，27B参数在视觉数理上做到SOTA，还把思维链压缩了43%，推理成本实打实下降，做教育应用的可以拿来做二次开发；TTS的跨语种情感克隆也实用，3秒克隆14种语言。

16:09

IT之家（RSS）

48

安克发布搭载自研"Thus"AI芯片的Liberty 5系列降噪耳机，1399元起

安克推出了Liberty 5 Pro及Pro Max降噪耳机，全系搭载其自研的“Thus”AI芯片。该芯片提供20种语音指令并支持AI会议助手等智能功能。耳机采用自适应主动降噪4.0系统，配合多麦克风及传感器，号称实现“全球通话最清晰”。产品定价1399元起，享受国补后到手价1070.23元起。此外，耳机单次续航6.5小时（开启降噪），总续航达28小时，并支持蓝牙6.1和IP55防水。

产品更新语音

15:09

IT之家（RSS）

43

科大讯飞智能体耳机 Air 发售：一键录音转文字、支持 AI 翻译，1051 元

产品更新端侧语音

14:47

小互@xiaohu

71

网易有道开源双模型，聚焦工程精度与落地成本

网易有道开源Confucius4双模型，包括一个专注数学视觉推理的多模态模型，以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重，而非仅提供API，强调在工程精度和实际部署成本上的投入，而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHub Hugging Face 多模态开源生态

12:09

IT之家（RSS）

60

努比亚总裁倪飞回应"用豆包订餐厅反被拒"：App 可能尚不支持实际预约功能，但豆包手机就可以

江苏镇江网友使用豆包App预约餐厅后到店被拒，引发对AI“幻觉”现象的讨论。豆包官方回应称其App暂不支持实际餐厅预约。努比亚总裁倪飞发布视频回应，指出豆包App可能尚不支持真实预约功能，但搭载豆包手机助手的努比亚M153（豆包手机）可执行此类操作。在演示中，该手机通过系统级集成，根据用户语音指令自动完成餐厅筛选与预订，体现了AI指令直达服务终点的能力。努比亚M153是与字节跳动合作的工程样机，此前曾限量发售。

端侧行业动态语音

09:42

meng shao@shao__meng

29

在面试或交流中，如果听到把 prompt 发音为【pro mo t】，会默默减分吗 😂 我感觉我也不是强迫症，但是每次听到这样读，还是很出戏。。

08:13

Berryxia.AI@berryxia

60

Stable Audio 3登陆Mac本地运行，音乐生成效率惊人

Stable Audio 3官方正式发布，并提供了针对苹果MLX框架的优化版本，使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度，性能表现突出。此外，该工具支持在不到1小时内完成LoRA微调，并提供快速（Sm）与高质量（Medium）两种生成模式。开发者鼓励社区积极探索其潜力，标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音

08:00

HuggingFace Daily Papers（社区热门论文）

66

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

06:38

OpenClaw🦞@openclaw

59

OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20

智能体产品更新开源/仓库语音

00:00

The Verge：AI（RSS）

55

Spotify Studio的AI智能体为你打造每日定制播客

Spotify Labs推出一款名为Studio的独立AI应用，该应用可根据聊天指令为用户生成每日简报、播客与播放列表。其AI内容生成不仅基于用户的Spotify收听历史，还能整合所连接应用的信息，如邮箱、日历与备忘录。AI还能代为执行任务，包括研究话题、浏览网页、整理信息及协助完成事项。生成的内容可保存至Spotify资料库。该应用将以研究预览形式在未来几周内向年满18岁的用户推出。

智能体产品更新语音

5月21日

23:30

TechCrunch：AI（RSS）

53

Spotify 为播客添加 AI 驱动的问答与简报生成功能

Spotify 推出新的人工智能功能，支持播客听众根据个人提示生成每日或每周的内容简报。该功能通过 AI 分析用户输入的指令，自动整理并提炼相关播客节目的核心信息，形成结构化摘要，旨在提升用户获取信息的效率与个性化体验。

产品更新语音

23:30

TechCrunch：AI（RSS）

46

Spotify推出由ElevenLabs驱动的有声读物创作工具

Spotify将于今年晚些时候发布新的有声读物计划，该计划整合了ElevenLabs的语音合成技术，旨在为创作者提供更便捷的有声内容制作工具。这标志着Spotify正进一步深入有声读物市场，并利用AI技术降低内容生产门槛。

产品更新语音

15:59

IT之家（RSS）

66

腾讯会议"AI 同传"功能上线：可模仿用户音色、时延低于 3 秒

腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备，每位参会者均可独立开启，支持模仿发言人音色，实现发言与翻译几乎同步，时延低于3秒。用户可调节同传与原声音量，并已与原有的文字转写、会中字幕功能打通，支持可听、可译、可见、可记的多维度跨语言会议体验。

产品更新多模态语音

13:43

公众号：京东JoyAI

49

京东数字人核心能力升级

京东数字人近日完成核心能力升级，从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢，帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家，2026年一季度开播量同比激增10倍。该产品为京东自研AI，曾获2024年吴文俊奖，实现长时长、自由态、高频互动，推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音

12:22

meng shao@shao__meng

65

Agora Skills：快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈（ASR、TOD、TTS、LLM）及 WebRTC 通信基础，并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills，演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话，响应延迟仅约 1 秒，极大简化了开发者验证语音陪伴等场景的开发流程。

智能体 GitHub 教程/实践语音

10:34

向阳乔木@vista8

72

Suno AI音乐工具新增6000种风格检索并支持免登录创作

这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索，显著提升了生成音乐的准确性。此外，它通过谷歌CDP技术刷新获取登录Token，使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

开源/仓库教程/实践语音

07:56

IT之家（RSS）

41

微信鸿蒙版 App 8.0.17.39 正式版更新发布

微信鸿蒙版App发布了8.0.17.39正式版更新，当前安装量已超5565万次。本次更新主要增强了视频号功能，包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块，新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能，并改进了聊天界面交互与朋友圈评论体验。

智能体产品更新多模态语音

07:56

IT之家（RSS）

56

小米汽车 OTA 1.16 开启全量推送，新增自定义萌宠上车、小爱陪伴等功能

小米汽车官方于5月21日宣布，其车机系统OTA 1.16版本已开启全量推送。本次更新重点新增了“自定义萌宠上车”、“小爱陪伴”、“模糊语义理解”以及“商圈地库车位级领航”等功能，旨在提升智能座舱的交互体验与辅助驾驶能力。车主可留意手机端或车机上的更新通知进行升级。

产品更新语音

07:38

OpenAI Developers@OpenAIDevs

58

展示你正在构建的实时语音应用。加入OpenAI团队，于5月27日在旧金山参加使用最新语音模型的演示展示。我们正在寻找有趣、实用、富有创意且技术上具有雄心的原型和产品。优秀项目将上台展示、赢得奖品，并由@OpenAIDevs和@cerebral_valley进行社区投票。

OpenAI 行业动态语音

05:18

OpenClaw🦞@openclaw

精选66

OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定大版本更新，简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19

产品更新开源生态语音

推荐理由：一堆小修小补但都很实用，尤其 Android 实时对话模式，开源 AI 客户端里难得把体验做到这个程度，值得更新。

03:13

MiniMax (official)@MiniMax_AI

67

600多种由MiniMax Speech 2.8 Turbo驱动的新声音现已登陆Together AI @togethercompute 🎙️✨ 立即体验：https://voicefinder.together.ai/minimax--speech-2.8-turbo

Together AI: We added 600+ new voices on Together AI! Introducing MiniMax Speech 2.8 Turbo on Together AI, an enterprise TTS model fo...

产品更新语音部署/工程

00:14

歸藏(guizang.ai)@op7418

40

Mac版豆包输入法试用体验

豆包输入法Mac版上线后，用户试用体验极佳，称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比，它解决了过度优化和无法实时预览的痛点，实现“言出法随”的快速输出与实时润色，避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景，豆包输入法处理出色，用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能，但目前识别能力已无可挑剔。

端侧评测/基准语音

5月20日

16:09

MarkTechPost（RSS）

63

阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash：实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入，支持60种语言的输入和29种语言的语音输出，端到端延迟低至2.8秒。相比前代，新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解，以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中，性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务，采用 WebSocket 协议通信。

多模态模型发布语音

15:56

IT之家（RSS）

30

小米耳夹式耳机官宣兼容苹果生态，支持双设备智能连接、苹果物品查找

5月20日，小米手机官方宣布即将发布的小米耳夹式耳机将兼容苹果生态。新耳机支持语音唤醒超级小爱、智能翻译、双设备智能连接及苹果物品查找。产品单耳重量为5.5克，采用11mm大尺寸驱动单元，支持LHDC 5.0传输和Hi-Res金标认证，并具备3麦克风阵列与逆向声波防漏音技术。此前已有玄武岩黑、珍珠白、缎光金三款配色亮相。

产品更新语音

15:56

IT之家（RSS）

67

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种，输出音频语种从10种增加至29种。通过采用新的流式翻译技术，端到端字均延迟降低至2.8秒，同时支持实时音色克隆以保留说话人原声特征，并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音

14:41

Orange AI@oran_ge

62

豆包输入法：语音键盘联动，专有名词输入更智能

豆包输入法实现了语音输入与键盘输入的深度联动，解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词，输入法便能自动学习并记忆，实现了高效协同的“1+1>2”效果。此外，该输入法具备实时转录、中英混说等云端输入法的基准能力，可平替同类产品。

教程/实践语音

13:53

公众号：通义实验室（千问）

55

Qwen3.5-LiveTranslate 发布：开口即同传

通义实验室（千问）发布 Qwen3.5-LiveTranslate，实现“开口即同传”——用户说话的同时即可获得翻译结果，支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音

1…8 91011 12…19