AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「语音」清除
5月24日周日
23:06TechCrunch:AI(RSS)46我试用了亚马逊Bee可穿戴设备:既着迷又有些毛骨悚然
21:52向阳乔木45用Codex开发Suno音乐播放器开源分享
18:11IT之家(RSS)35科大讯飞智能办公本 Air 3 系列发布:支持离线 AI 与龙虾助手,2499~3599 元
07:11IT之家(RSS)63WWDC 2026 在即,苹果悄悄注册全新子域名 genai.apple.com
06:49StepFun76精选StepAudio实时语音发布,能听懂你的语气与言外之意
05:49StepFun70StepAudio 2.5实时语音发布:副语言感知与人格化交互
5月23日周六
10:39MiniMax (official)49双LLM架构语音助手Gizmo发布:实时响应与自然交互
07:05TechCrunch:AI(RSS)58AI 正被用于复活死飞行员的声音
04:05Ars Technica:AI(RSS)66美国紧急应对网友重现遇难飞行员声音
03:38ChatGPT69精选ChatGPT语音模式实现表单语音填写
02:05Artificial Analysis61Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠
5月22日周五
23:50向阳乔木36在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。
23:09IT之家(RSS)15OPPO Enco Air5s 耳机规格公布:3.9g 重量、三麦 AI 通话降噪,5 月 25 日发布
18:09IT之家(RSS)70精选网易有道"子曰4"多模态模型、语音合成模型全量开源
16:09IT之家(RSS)48安克发布搭载自研"Thus"AI芯片的Liberty 5系列降噪耳机,1399元起
15:09IT之家(RSS)43科大讯飞智能体耳机 Air 发售:一键录音转文字、支持 AI 翻译,1051 元
14:47小互71网易有道开源双模型,聚焦工程精度与落地成本
12:09IT之家(RSS)60努比亚总裁倪飞回应"用豆包订餐厅反被拒":App 可能尚不支持实际预约功能,但豆包手机就可以
09:42meng shao29在面试或交流中,如果听到把 prompt 发音为 【pro mo t】,会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。
08:13Berryxia.AI60Stable Audio 3登陆Mac本地运行,音乐生成效率惊人
08:00HuggingFace Daily Papers(社区热门论文)66StepAudio 2.5 技术报告
06:38OpenClaw🦞59OpenClaw 2026.5.20 版本更新发布
00:00The Verge:AI(RSS)55Spotify Studio的AI智能体为你打造每日定制播客
5月21日周四
23:30TechCrunch:AI(RSS)53Spotify 为播客添加 AI 驱动的问答与简报生成功能
23:30TechCrunch:AI(RSS)46Spotify推出由ElevenLabs驱动的有声读物创作工具
15:59IT之家(RSS)66腾讯会议"AI 同传"功能上线:可模仿用户音色、时延低于 3 秒
13:43公众号:京东JoyAI49京东数字人核心能力升级
12:22meng shao65Agora Skills:快速构建实时语音交互 Agent 的实践
10:34向阳乔木72Suno AI音乐工具新增6000种风格检索并支持免登录创作
07:56IT之家(RSS)41微信鸿蒙版 App 8.0.17.39 正式版更新发布
07:56IT之家(RSS)56小米汽车 OTA 1.16 开启全量推送,新增自定义萌宠上车、小爱陪伴等功能
07:38OpenAI Developers58OpenAI语音模型线下展示活动征集作品
05:18OpenClaw🦞66精选OpenClaw 2026.5.19版本发布
03:13MiniMax (official)67MiniMax语音模型新增600余种声音
00:14歸藏(guizang.ai)40Mac版豆包输入法试用体验
5月20日周三
16:09MarkTechPost(RSS)63阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言
15:56IT之家(RSS)30小米耳夹式耳机官宣兼容苹果生态,支持双设备智能连接、苹果物品查找
15:56IT之家(RSS)67AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate
14:41Orange AI62豆包输入法:语音键盘联动,专有名词输入更智能
13:53公众号:通义实验室(千问)55Qwen3.5-LiveTranslate 发布:开口即同传
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月24日
23:06
TechCrunch:AI(RSS)
46
我试用了亚马逊Bee可穿戴设备:既着迷又有些毛骨悚然

亚马逊推出了AI可穿戴设备Bee,与其他同类产品类似,它在提供便利性的同时也引发了用户对隐私的担忧,这种便利与隐私焦虑的矛盾结合显得十分奇特。

评测/基准语音
21:52
向阳乔木@vista8
45
用Codex开发Suno音乐播放器开源分享

作者分享了一个周末娱乐项目:一个用AI工具开发的Suno音乐生成播放器。该播放器已在线运行,支持电脑和移动端,但后台管理功能尚不完善,目前通过Skill进行音乐下载与上传。项目已开源。引用中补充了该播放器是使用ChatGPT内置的Codex工具在躺卧状态下完成开发的。

向阳乔木: skill写好以后,躺床上也可以用ChatGPT中的codex开发网站了。 正在开发一个Suno音乐播放器,把AI生成的歌曲都传上去。

开源生态教程/实践语音
18:11
IT之家(RSS)
35
科大讯飞智能办公本 Air 3 系列发布:支持离线 AI 与龙虾助手,2499~3599 元

科大讯飞推出新一代智能办公本 Air 3 系列,包含 NEO、标准及 Pro 三个版本,均搭载 8.2 英寸墨水屏。全系支持离线 AI 功能并内置龙虾助手。售价分别为 2499 元、2999 元和 3599 元。

产品更新端侧语音
07:11
IT之家(RSS)
63
WWDC 2026 在即,苹果悄悄注册全新子域名 genai.apple.com

苹果宣布WWDC 2026将于北京时间6月9日凌晨1点开幕,并已注册全新子域名genai.apple.com,预示其在生成式AI领域的新动作。新版iOS 27等系统将集成大量Apple Intelligence功能,包括支持连续对话的Siri独立应用、视频实时字幕生成、自然语言语音控制以及扫描提取信息等智能工具。

行业动态语音
06:49
StepFun@StepFun_ai
精选76
StepAudio实时语音发布,能听懂你的语气与言外之意

StepAudio 2.5 Realtime 是一款实时语音交互模型。其核心优势在于能感知用户的副语言特征,如语气、节奏、停顿甚至轻叹,从而理解话语背后的真实意图。该模型支持通过 API 高度定制角色人格与说话风格,内置超过10,000种可组合的预置角色,并提供5种开箱即用的预设角色供体验。同时,模型经过RLHF优化,能在复杂的角色扮演压力测试中稳定保持设定的人设。支持中英文双语交互。

模型发布语音

推荐理由:StepFun 这个语音模型把副语言感知做进了实时 API,产品人想搞点情感化语音交互的可以试试,预设角色能省不少调 prompt 的功夫。
05:49
StepFun@StepFun_ai
70
StepAudio 2.5实时语音发布:副语言感知与人格化交互

StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。

产品更新多模态语音
5月23日
10:39
MiniMax (official)@MiniMax_AI
49
Gradium团队成员Colin构建的AI语音助手Gizmo正式上线。该助手采用双LLM架构,由负责即时响应的M2-her模型与处理复杂推理的M2.7模型协同驱动。这一设计旨在消除对话中的延迟与沉默,提供即时、连贯的交互反馈。最终实现了一个在体验上感觉存在、反应迅速且自然流畅的语音代理,优先优化客户体验。

Gradium: Meet Colin, Lexi, and Gizmo. One is part of Gradium's GTM team. One is his dog. And one is the AI assistant he built him...

智能体产品更新语音
07:05
TechCrunch:AI(RSS)
58
AI 正被用于复活死飞行员的声音

人们运用人工智能技术分析驾驶舱录音的频谱图图像,成功重建了已故飞行员的声音。这一行为迫使美国国家运输安全委员会(NTSB)临时封锁其文档系统的访问权限,以应对潜在的安全风险。该事件展示了AI在音频修复领域的实际应用,同时突显了数据管理、隐私保护及系统完整性方面的挑战。

政策/监管语音
04:05
Ars Technica:AI(RSS)
66
美国紧急应对网友重现遇难飞行员声音

网友利用语音合成技术,成功模拟并重现了已故飞行员的声音。此举挑战了美国国家运输安全委员会(NTSB)禁止公开驾驶舱录音的法律规定。变通手段规避了该禁令,引发监管机构对音频数据滥用与伦理问题的关注。

政策/监管语音
03:38
ChatGPT@ChatGPTapp
精选69
用对话处理文书工作更轻松。 借助ChatGPT的图像功能和语音模式,您可以上传表单,说出要填写的内容,即可获得填写完成的版本。
OpenAI产品更新多模态语音

推荐理由:填表终于不用打字了,上传表格对着说就行,ChatGPT 这个更新把语音和图像真正串起来,以后各种纸质表单直接扔进去就完事。
02:05
Artificial Analysis@ArtificialAnlys
61
Cartesia的Sonic-3.5语音合成模型在AI评测榜夺冠

Cartesia公司最新发布的语音合成模型Sonic-3.5在Artificial Analysis Speech Arena排行榜上位居第一,超越了Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS等竞品。该模型支持42种语言(包括9种印度语言),提供超过500种声音选择。评测数据显示,Sonic-3.5以1,218的Elo分数领先,表现出自然的语音效果和准确的文本跟随能力。其定价为每百万字符39美元,高于竞品;生成速度为每秒105.5字符,介于其他两者之间。

评测/基准语音
5月22日
23:50
向阳乔木@vista8
36
在AJ安利下,歸藏买了安克 AI 录音豆。 在歸藏安利下,我也买了。 初步体验,这是目前个人最喜欢、最实用的 AI 硬件产品。 就是绳子带着不舒服,打算淘宝换个。
端侧评测/基准语音
23:09
IT之家(RSS)
15
OPPO Enco Air5s 耳机规格公布:3.9g 重量、三麦 AI 通话降噪,5 月 25 日发布

OPPO Enco Air5s 耳机将于5月25日18:00正式发布。该新品重量仅3.9克,提供暗夜黑、星光紫、月光白三种配色,并支持旗舰级人声降噪算法与三麦AI通话降噪。耳机搭载12mm高解析巨形动圈单元,具备自适应听感优化与全设备空间音效,并号称“安卓苹果都好用”。功能上支持遥控拍照、AI翻译、滑动调节音量及跨设备双连等。

行业动态语音
18:09
IT之家(RSS)
精选70
网易有道"子曰4"多模态模型、语音合成模型全量开源

网易有道宣布将其“子曰”大模型4.0的多模态模型与语音合成模型面向全球全量开源。其中,多模态模型(27B参数)专注于教育场景,在处理高难度视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率为81.4%。该模型通过思维链优化,将输出长度压缩43.2%,有效降低了推理成本。同时开源的语音合成模型支持跨语种音色与情感迁移克隆,3秒内即可完成零样本复制,准确度超97%,并支持包括中、英、日、韩在内的14种语言。

多模态开源生态推理模型发布

推荐理由:有道把垂直教育的多模态模型全量开源,27B参数在视觉数理上做到SOTA,还把思维链压缩了43%,推理成本实打实下降,做教育应用的可以拿来做二次开发;TTS的跨语种情感克隆也实用,3秒克隆14种语言。
16:09
IT之家(RSS)
48
安克发布搭载自研"Thus"AI芯片的Liberty 5系列降噪耳机,1399元起

安克推出了Liberty 5 Pro及Pro Max降噪耳机,全系搭载其自研的“Thus”AI芯片。该芯片提供20种语音指令并支持AI会议助手等智能功能。耳机采用自适应主动降噪4.0系统,配合多麦克风及传感器,号称实现“全球通话最清晰”。产品定价1399元起,享受国补后到手价1070.23元起。此外,耳机单次续航6.5小时(开启降噪),总续航达28小时,并支持蓝牙6.1和IP55防水。

产品更新语音
15:09
IT之家(RSS)
43
科大讯飞智能体耳机 Air 发售:一键录音转文字、支持 AI 翻译,1051 元
产品更新端侧语音
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
12:09
IT之家(RSS)
60
努比亚总裁倪飞回应"用豆包订餐厅反被拒":App 可能尚不支持实际预约功能,但豆包手机就可以

江苏镇江网友使用豆包App预约餐厅后到店被拒,引发对AI“幻觉”现象的讨论。豆包官方回应称其App暂不支持实际餐厅预约。努比亚总裁倪飞发布视频回应,指出豆包App可能尚不支持真实预约功能,但搭载豆包手机助手的努比亚M153(豆包手机)可执行此类操作。在演示中,该手机通过系统级集成,根据用户语音指令自动完成餐厅筛选与预订,体现了AI指令直达服务终点的能力。努比亚M153是与字节跳动合作的工程样机,此前曾限量发售。

端侧行业动态语音
09:42
meng shao@shao__meng
29
在面试或交流中,如果听到把 prompt 发音为 【pro mo t】,会默默减分吗 😂 我感觉我也不是强迫症,但是每次听到这样读,还是很出戏。。
其他语音
08:13
Berryxia.AI@berryxia
60
Stable Audio 3登陆Mac本地运行,音乐生成效率惊人

Stable Audio 3官方正式发布,并提供了针对苹果MLX框架的优化版本,使得强大的音乐生成模型能够直接在本地Mac电脑上高效运行。其核心亮点在于在M5 Pro芯片上可实现59倍实时生成速度,性能表现突出。此外,该工具支持在不到1小时内完成LoRA微调,并提供快速(Sm)与高质量(Medium)两种生成模式。开发者鼓励社区积极探索其潜力,标志着本地化音乐创作工具达到了新高度。

dadabots: 🥳 Announcing Stable Audio 3 🍕 🏆 fastest music models ever 💻 runs on MacBookPro M-series 🧪 break it plz 🧠 LoRA fine...

开源/仓库模型发布端侧语音
08:00
HuggingFace Daily Papers(社区热门论文)
66
StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型,能在自动语音识别(ASR)、语音合成(TTS)和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间,通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习(RLHF)为核心机制,并配合专门的解码策略,将共享主干塑造成三种操作模式:ASR分支提升转录效率;TTS分支实现可控、富有表现力的合成;实时分支则达成低延迟、角色一致的对话。在标准基准测试中,StepAudio 2.5 在三项任务上均取得最优结果,证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音
06:38
OpenClaw🦞@openclaw
59
OpenClaw 2026.5.20 🦞 🎙️ Discord 语音跟随你 🔐 Doctor 捕获明文密钥 🧭 模型状态解释意外情况 🪟 Windows 安装问题解决 依然专注于那些枯燥的修复。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.20
智能体产品更新开源/仓库语音
00:00
The Verge:AI(RSS)
55
Spotify Studio的AI智能体为你打造每日定制播客

Spotify Labs推出一款名为Studio的独立AI应用,该应用可根据聊天指令为用户生成每日简报、播客与播放列表。其AI内容生成不仅基于用户的Spotify收听历史,还能整合所连接应用的信息,如邮箱、日历与备忘录。AI还能代为执行任务,包括研究话题、浏览网页、整理信息及协助完成事项。生成的内容可保存至Spotify资料库。该应用将以研究预览形式在未来几周内向年满18岁的用户推出。

智能体产品更新语音
5月21日
23:30
TechCrunch:AI(RSS)
53
Spotify 为播客添加 AI 驱动的问答与简报生成功能

Spotify 推出新的人工智能功能,支持播客听众根据个人提示生成每日或每周的内容简报。该功能通过 AI 分析用户输入的指令,自动整理并提炼相关播客节目的核心信息,形成结构化摘要,旨在提升用户获取信息的效率与个性化体验。

产品更新语音
23:30
TechCrunch:AI(RSS)
46
Spotify推出由ElevenLabs驱动的有声读物创作工具

Spotify将于今年晚些时候发布新的有声读物计划,该计划整合了ElevenLabs的语音合成技术,旨在为创作者提供更便捷的有声内容制作工具。这标志着Spotify正进一步深入有声读物市场,并利用AI技术降低内容生产门槛。

产品更新语音
15:59
IT之家(RSS)
66
腾讯会议"AI 同传"功能上线:可模仿用户音色、时延低于 3 秒

腾讯会议正式上线“AI 同传”功能。该功能无需插件或外接设备,每位参会者均可独立开启,支持模仿发言人音色,实现发言与翻译几乎同步,时延低于3秒。用户可调节同传与原声音量,并已与原有的文字转写、会中字幕功能打通,支持可听、可译、可见、可记的多维度跨语言会议体验。

产品更新多模态语音
13:43
公众号:京东JoyAI
49
京东数字人核心能力升级

京东数字人近日完成核心能力升级,从“会播、会答”的数字主播进化为面向直播经营全链路的智能增长中枢,帮助商家以更低成本打造接近真人头部达播效果的直播间。已累计服务超7万商家,2026年一季度开播量同比激增10倍。该产品为京东自研AI,曾获2024年吴文俊奖,实现长时长、自由态、高频互动,推出采销东哥、总裁、明星及IP数字人。

产品更新视频语音
12:22
meng shao@shao__meng
65
Agora Skills:快速构建实时语音交互 Agent 的实践

实时语音交互是通用 Agent 领域的关键。本文介绍了构建 Voice Agent 所需的技术栈(ASR、TOD、TTS、LLM)及 WebRTC 通信基础,并重点展示了 Agora 推出的 Agora Skills。该工具能快速安装并集成 Agora 的 RTC、RTM 等多种能力。通过 Codex 自动安装 Agora Skills,演示了一键生成浏览器端语音 AI Agent Demo 的完整流程。该 Demo 实现了流畅的实时对话,响应延迟仅约 1 秒,极大简化了开发者验证语音陪伴等场景的开发流程。

智能体GitHub教程/实践语音
10:34
向阳乔木@vista8
72
Suno AI音乐工具新增6000种风格检索并支持免登录创作

这条推文介绍了一个对Suno AI音乐生成工具进行优化的Skill。该Skill新增了近6000个音乐风格检索,显著提升了生成音乐的准确性。此外,它通过谷歌CDP技术刷新获取登录Token,使用户无需访问网站即可直接创作歌曲。推文提供了该Skill的开源GitHub地址和安装指令。

开源/仓库教程/实践语音
07:56
IT之家(RSS)
41
微信鸿蒙版 App 8.0.17.39 正式版更新发布

微信鸿蒙版App发布了8.0.17.39正式版更新,当前安装量已超5565万次。本次更新主要增强了视频号功能,包括资料修改、新注册支持、播放旋转及直播选项增加等。同时优化了“听一听”模块,新增AI写歌与灰度测试的会员卡、跨平台文件传输等功能,并改进了聊天界面交互与朋友圈评论体验。

智能体产品更新多模态语音
07:56
IT之家(RSS)
56
小米汽车 OTA 1.16 开启全量推送,新增自定义萌宠上车、小爱陪伴等功能

小米汽车官方于5月21日宣布,其车机系统OTA 1.16版本已开启全量推送。本次更新重点新增了“自定义萌宠上车”、“小爱陪伴”、“模糊语义理解”以及“商圈地库车位级领航”等功能,旨在提升智能座舱的交互体验与辅助驾驶能力。车主可留意手机端或车机上的更新通知进行升级。

产品更新语音
07:38
OpenAI Developers@OpenAIDevs
58
展示你正在构建的实时语音应用。 加入OpenAI团队,于5月27日在旧金山参加使用最新语音模型的演示展示。 我们正在寻找有趣、实用、富有创意且技术上具有雄心的原型和产品。 优秀项目将上台展示、赢得奖品,并由@OpenAIDevs和@cerebral_valley进行社区投票。
OpenAI行业动态语音
05:18
OpenClaw🦞@openclaw
精选66
OpenClaw 2026.5.19 🦞 📱 Android Talk Mode 实现实时化 🍎 Mac 设置界面更清爽 🔐 xAI 登录支持无头模式 🧵 Telegram 话题功能更稳定 大版本更新,简短公告。 https://github.com/openclaw/openclaw/releases/tag/v2026.5.19
产品更新开源生态语音

推荐理由:一堆小修小补但都很实用,尤其 Android 实时对话模式,开源 AI 客户端里难得把体验做到这个程度,值得更新。
03:13
MiniMax (official)@MiniMax_AI
67
600多种由MiniMax Speech 2.8 Turbo驱动的新声音现已登陆Together AI @togethercompute 🎙️✨ 立即体验:https://voicefinder.together.ai/minimax--speech-2.8-turbo

Together AI: We added 600+ new voices on Together AI! Introducing MiniMax Speech 2.8 Turbo on Together AI, an enterprise TTS model fo...

产品更新语音部署/工程
00:14
歸藏(guizang.ai)@op7418
40
Mac版豆包输入法试用体验

豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

端侧评测/基准语音
5月20日
16:09
MarkTechPost(RSS)
63
阿里巴巴 Qwen 团队推出 Qwen3.5-LiveTranslate-Flash:实时多模态翻译模型支持60种语言

阿里巴巴 Qwen 团队发布了实时多模态翻译模型 Qwen3.5-LiveTranslate-Flash。该模型能同时处理音视频输入,支持60种语言的输入和29种语言的语音输出,端到端延迟低至2.8秒。相比前代,新增了实时说话人声音克隆、通过唇语和屏幕文字增强视觉理解,以及动态配置领域专业术语等能力。在 FLEURS 和 CoVoST2 基准测试中,性能超越主流商业模型。目前仅以 API 形式通过阿里云百炼平台提供服务,采用 WebSocket 协议通信。

多模态模型发布语音
15:56
IT之家(RSS)
30
小米耳夹式耳机官宣兼容苹果生态,支持双设备智能连接、苹果物品查找

5月20日,小米手机官方宣布即将发布的小米耳夹式耳机将兼容苹果生态。新耳机支持语音唤醒超级小爱、智能翻译、双设备智能连接及苹果物品查找。产品单耳重量为5.5克,采用11mm大尺寸驱动单元,支持LHDC 5.0传输和Hi-Res金标认证,并具备3麦克风阵列与逆向声波防漏音技术。此前已有玄武岩黑、珍珠白、缎光金三款配色亮相。

产品更新语音
15:56
IT之家(RSS)
67
AI 同传 2.8 秒延迟,阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

阿里通义千问团队发布了Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型将支持的音频输入与文字输出语种从18种大幅提升至60种,输出音频语种从10种增加至29种。通过采用新的流式翻译技术,端到端字均延迟降低至2.8秒,同时支持实时音色克隆以保留说话人原声特征,并内置动态热词引擎以提升专业术语翻译准确性。模型在多个公开基准测试中表现优于前代及主流模型。

多模态模型发布语音
14:41
Orange AI@oran_ge
62
豆包输入法:语音键盘联动,专有名词输入更智能

豆包输入法实现了语音输入与键盘输入的深度联动,解决了传统语音输入法管理专有名词词库困难的核心痛点。用户只需在语音识别出现偏差时手动修改一次专有名词,输入法便能自动学习并记忆,实现了高效协同的“1+1>2”效果。此外,该输入法具备实时转录、中英混说等云端输入法的基准能力,可平替同类产品。

教程/实践语音
13:53
公众号:通义实验室(千问)
55
Qwen3.5-LiveTranslate 发布:开口即同传

通义实验室(千问)发布 Qwen3.5-LiveTranslate,实现“开口即同传”——用户说话的同时即可获得翻译结果,支持实时语音同声传译。目前尚未公布模型参数规模、benchmark 分数、上下文长度等具体技术细节。

多模态模型发布语音
‹ 上一页
1…89101112…19
下一页 ›