AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 340 条
全部一手资讯X论文
标签「语音」清除
Elon Musk@elonmusk · 6月4日61

Try Grok Voice

译xAI 推出 Grok Voice,其中 Grok Voice Think Fast 1.0 在 Artificial Analysis τ-Voice 基准(真实世界智能客服解决能力评测)中排名第一,大幅超越 GPT-Realtime-2 (High) 和 Gemini 3.1 Flash。该模型已实际部署,通过自然语音为 Starlink及多家企业提供实时客户服务,完全以语音交互驱动。

Elon Musk@elonmusk · 6月4日72

Grok Imagine on Vercel

译Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Berryxia.AI@berryxia · 6月4日67

大家还在把音频AI当成视觉和文本的边缘附属品时,一个开源模型直接把语音、音乐、环境音三件事彻底统一到一个模型里,干翻了所有闭源方案。 真的试试实际效果如何,看着是真的不粗~~ 大家本地搭音频Agent,想让AI不光听懂人说话,还能分辨背景音乐、环境音效,甚至自动剪辑播客。 之前所有方案不是闭源贵得离谱,就是语音和音乐两套系统,串起来一塌糊涂。 今天MOSS-Audio直接把这个痛点干掉了。 OpenMOSS团队这个模型刚刚冲上Hugging Face Trending第一。 它把Speech、Sound、Music真正做到了audio-language统一建模:扔一段带背景音乐的对话,它能同时转录语音、识别环境音、理解音乐情绪,还能生成文本描述或者直接做下游任务。 不是简单堆数据,而是真正从架构上打通了音频世界。 开源可商用,Hugging Face和GitHub代码全放出来了,普通开发者现在就能拉下来本地跑。 这其实把行业当前最主流的认知直接反转了:真正通往超级智能的下一块拼图,不是继续卷视觉+文本,而是让AI像人一样同时感知声音世界。 音频从来不是附属,将和文本同等重要的感官入口。 谁先把这一块做通,谁就抢到了下一代agent的先机。 以前我们总觉得音频AI要等闭源大厂慢慢迭代,现在开源社区用一个模型就把“语音+声音+音乐”这个三合一难题端上来了,速度和开放度反而领先。

译OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

elvis@omarsar0 · 6月4日76

Another banger open-source release. Miso One is an 8B text-to-speech model with real emotional range, so voiceovers carry warmth, hesitation, and excitement instead of sounding flat. It's purpose-built for voiceover work like shorts, podcasts, and educational content, and it runs at 110ms latency, which is faster than human reaction time. The best part is that the weights are fully open source, so you can clone the repo, self-host, fine-tune, and keep your data private. Worth checking out if you're building voice into your tools and products: http://github.com/MisoLabsAI/MisoTTS

译Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。

xAI@xai · 6月4日70

Try the most natural TTS and cost-effective STT APIs in @Vapi_AI

译试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。 来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体,可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节,并在每次通话中明显更具人性化。

Chubby♨️@kimmonismus · 6月4日75

Miso One is live: an open-weights voice model built to sound like a real person reading, with actual warmth and pacing where most TTS still goes flat. 8B params, free on GitHub, with one-shot voice cloning from a short sample at 110ms latency. Self-host it and your audio data never leaves your machine. No API needed, no lock-in. Type any line into the demo and hear it before you clone the repo.

译Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。

Suno@suno · 6月3日68

We’re thrilled to announce Suno’s next chapter: a $400M Series D at a $5.4B valuation! 🚀 Our mission has always been simple: more people should get to experience the joy of making music. Huge thanks to our incredible community and investors for building alongside us. Read more from Mikey here: https://suno.com/blog/series-d-announcement

译我们激动地宣布Suno的新篇章:4亿美元D轮融资,估值54亿美元!🚀 我们的使命一直很简单:让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。 点击此处阅读Mikey的博客:https://suno.com/blog/series-d-announcement

Berryxia.AI@berryxia · 6月3日74

老树开新花了,这个老大哥微软今天发布新模型了😄 刷一波存在感哈哈哈,不然都没有人记得了~ Microsoft AI今天直接甩出七个全新MAI模型。 官方说:不是简单迭代,而是从零开始、干净数据血统、零蒸馏训练的一整个家族。 MAI-Thinking-1主推理、MAI-Code-1-Flash主编码、MAI-Image-2.5主图像、MAI-Transcribe-1.5主转录、MAI-Voice-2主语音,还有各自的Flash版本。 最狠的是MAI-Code-1-Flash,直接在SWE-Bench Verified上干到71.6,比Claude Haiku 4.5高5分,Pro榜单高16分,还省60% token,现在已经在Copilot里逐步上线。 MAI-Image-2.5在Arena图像编辑排第二、文本生图排第三,精准保留人脸、logo和细节,已经直接塞进PowerPoint和OneDrive。 MAI-Transcribe-1.5在43种语言上同时拿准度和速度第一,一小时音频15秒搞定。 MAI-Voice-2能控情绪、支持多语言code-switching,长内容说话人身份也稳。 它们不是各自为战,而是设计成一个能无缝协作的家族。Microsoft这次没玩“一个大模型通吃”,而是把每个任务拆开,用干净数据从头训,公开所有技术细节和学习心得。 这其实把行业当前最主流的路径反过来了。 大家都在卷参数规模、卷蒸馏别人家的输出,Microsoft却在说:真正长期有竞争力的,是从零构建、血统干净、任务专精、还能互相配合的模型家族。 实际效果如何,其实还有待大家的测试~~期待看看实际表现!

译微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

OpenRouter@OpenRouter · 6月3日68

Three new @MicrosoftAI models now live on OpenRouter! Launching together: MAI-Image-2.5, MAI-Transcribe-1.5, and MAI-Voice-2. More on each below 🧵

译三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线! 同步推出:MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵

Artificial Analysis@ArtificialAnlys · 6月3日64

Microsoft has released MAI-Transcribe-1.5: an exceptionally fast speech transcription model at a speed factor of ~276x, while still achieving 2.4% on AA-WER (#3), leading the accuracy-speed Pareto frontier MAI-Transcribe-1.5 is Microsoft AI (MAI)’s latest speech transcription model, coming in at 3rd overall on the on the Artificial Analysis Word Error Rate (AA-WER) leaderboard, behind Alibaba’s Fun-Realtime-ASR-preview (1.7% WER), and ElevenLabs Scribe v2 (2.2% WER). The model stands out as the fastest STT model in the top 10 for accuracy, processing audio at ~276x real-time - this is more than double the speed of the second fastest model in the top 10 for accuracy. The new model supports keyword biasing (improved recognition of rarer vocabulary such as names and medical terminology), in addition to support for 43 languages including English, French, Arabic, Japanese, and Chinese. See more details below ⬇️

译微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

OpenAI Developers@OpenAIDevs · 6月2日46

The votes are in. @isausmanov’s Agentic OS for a Phone is the Voice Hack Night People’s Choice winner. A voice-first mobile OS. Users talk, agents answer and take action across the phone. Congrats to the team on taking home $50,000 in API credits.

译投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。 一款语音优先的移动操作系统。用户说话,智能体响应并在手机上执行操作。 祝贺团队赢得 50,000 美元 API 额度。

Artificial Analysis@ArtificialAnlys · 6月2日61

Overview of our recently launched AA-WER Streaming benchmark, measuring streaming Speech to Text models on accuracy and latency for voice agent use cases Streaming Speech to Text (STT) powers real-time transcription in voice agents and live captioning, where models must balance accuracy against speed. Fast transcripts keep responses feeling natural and free up the response-time budget for reasoning and tool calls. Accuracy matters too, since errors can compound downstream. Streaming STT models transcribe audio as it is fed in, sharing outputs continuously, unlike offline (batch) models that process the entire file at once and are typically slower. Models from Cartesia, ElevenLabs, and Deepgram sit on the accuracy-latency Pareto frontier. Cartesia Ink-2 leads on final transcript accuracy at 3.59% WER (210ms), closely followed by ElevenLabs Scribe v2 Realtime at 3.64% WER (140ms). Deepgram Flux is fastest at ~20ms on final transcript latency (7.36% WER). In this video, Kiriill Butler, Member of Technical Staff at Artificial Analysis, walks through the benchmark and key results.

译Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

Berryxia.AI@berryxia · 6月1日74

用2周用Three.js + 实时语音AI,把盛唐长安做成了能走进去对话的3D世界 如果你能走进一座会说话的盛唐长安城,和李白对诗、让AI导游带路、在天枢府听智机使讲解,会是什么体验? 我们花两周高强度开发,把这个想法做成了一个可在线玩、可开源复用的浏览器3D互动项目。 在线体验:https://andyhuo520.github.io/tang-changan/ GitHub开源:https://github.com/andyhuo520/tang-changan 项目核心亮点: - 用WASD真正“走进”长安城,而不是只能转相机看模型 - 真实语音对话:按住麦克风就能和李白、杜甫、智机使聊天 - 融合诗词小游戏、珍宝馆、AI展馆,把历史和AI能力变成可玩体验 - 全开源,普通创作者和初学者也能复刻学习 整个项目从一个朴素想法开始:把盛唐长安做成一个可漫游、可对话、可游戏、可展示AI能力的3D世界。 开发过程分为9个阶段,我把最关键的干货和踩坑经验都写出来了: 1. 先搭出一个能看的低多边形长安沙盘(Three.js核心搭建) 2. 加入WASD游戏模式,让玩家真正“走进”长安。 3. 添加大量NPC和小游戏(飞花令、对对联、猜谜等唐风玩法) 4. 打造珍宝馆、诗画展厅,把文化内容变成可互动展厅。 5. 把AI品牌做成唐风“天枢府 / AI展馆”,让现代AI出现在盛唐场景里 6. 接入Agora实时语音Agent,实现真正的语音对话(最难也最核心的部分)。 7. 加上角色头像、视频面板、古风BGM,提升沉浸感 8. 解决3D尺度、浏览器缓存、语音账号等常见坑 9. 最终部署到GitHub Pages,让任何人一键体验 语音部分我们用了Agora ConvoAI + Persona设计,每个NPC(李白、杜甫、王维、智机使等)都有独立性格、音色和对话风格,不是千篇一律的机器人。 普通用户直接点链接就能玩: WASD移动 → 靠近NPC按E对话 → 进入展馆互动 → 语音聊天 开发者想复刻也很友好:代码模块化清晰,前端Three.js + 后端FastAPI分开,文档和踩坑记录都很完整。 我们最终做到的不是一个普通的3D展示页,而是一个小型数字文旅 + AI能力样板: 把历史文化游戏化,把AI能力场景化,把开源项目做成能真正分享的作品。 想体验盛唐长安的AI版吗? 点链接进去试试,和李白用语音对一句诗,或者让智机使给你讲解实时语音技术。 感兴趣的朋友欢迎点赞、评论你最想玩的环节,或者直接去GitHub看代码复刻。 #Threejs

译开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

MiniMax (official)@MiniMax_AI · 6月1日78

let's gooo 🔥 M3 + @visionagents_ai for real-time voice & video go build something hype!

译出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! [引用 @visionagents_ai]:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

Berryxia.AI@berryxia · 6月1日73

http://x.com/i/article/2060375125825036288 # 用Claude花了2周时间+800美金打造的大唐语音互动3D小游戏的教程。 这是一份面向普通读者、创作者和初学开发者的科普教程。它不假设你已经懂 Three.js、实时语音或 AI Agent,而是从一个朴素问题开始: > 如果一座盛唐长安城不是只能观看,而是可以走进去、和李白对诗、和导游问路、在 AI 展馆里听智能讲解,会是什么体验? 我们用两周左右的高强度开发,把这个想法做成了一个可在线访问、可开源复用的 Web 3D 互动项目。 项目地址: - 在线体验:https://andyhuo520.github.io/tang-changan/ - GitHub:https://github.com/andyhuo520/tang-changan > 上图是我们为语音 NPC 面板,使用GPT-image-2 模型生成的素材,准备的一组角色视觉素材。项目里每个核心角色都可以拥有自己的头像、视频开场和待机状态,让“和 NPC 说话”更像在游戏里见到一个具体的人。 ## 1. 最初的设计目标 一开始,我们并不是想做一个普通的“3D 展示页”。我们的目标更像一个小型数字文旅实验: 1. 它要像游戏一样能玩。 玩家可以进入场景,用 WASD 操控角色,而不是只能转动相机看模型。 1. 它要像博物馆一样能逛。 场景里有宫殿、朱雀大街、珍宝馆、诗画展厅、AI 展馆。 1. 它要像真实导览一样能说话。 玩家不是点几个固定按钮,而是能按住麦克风和 NPC 语音交流。 1. 它要有盛唐气质。 色彩、建筑、人物、诗词、小游戏都围绕“长安”“诗酒”“万邦来朝”展开。 1. 它要能开源。 最终要能部署到 GitHub Pages,让别人直接体验,也能阅读代码学习。 用一句话概括: > 我们想把“盛唐长安”做成一个可漫游、可对话、可游戏、可展示 AI 能力的浏览器 3D 世界。 ## 2. 第一阶段:先搭出一个能看的长安沙盘 任何复杂互动项目,第一步都不是做功能,而是先让“世界存在”。 我们先用 Web 3D 技术搭建了一个低多边形风格的长安微缩沙盘。核心技术是 Three.js:它可以在浏览器中渲染 3D 场景,不需要用户安装客户端。 这一阶段的重点是: - 建立主场景、相机、灯光、后期效果; - 搭建朱雀大街、宫殿、城门、市集、塔楼、河道等地标; - 用低多边形材质保持性能,让普通浏览器也能跑; - 加入昼夜、季节、天气、雾效等氛围变化; - 做出俯瞰视角,让它第一眼像一张“会动的唐代城市地图”。 这一阶段看起来像“美术搭建”,但其实它决定了后续所有玩法的边界:哪里能走、哪里能互动、哪些地标能承载剧情。 ## 3. 第二阶段:把展示页变成可玩的游戏 只有沙盘还不够。我们希望玩家不是“看长安”,而是“走进长安”。 于是项目进入第二阶段:加入 WASD 游戏模式。 玩家点击「走进长安」后,会进入角色选择: - 世子 - 商贾 - 侍女 - 游侠 每个角色有自己的头像、默认名字、初始钱包和物品。进入游戏后,玩家可以: - 用 WASD 移动; - 用鼠标调整视角; - 靠近 NPC 按 E 对话; - 靠近店铺或展馆按 F 触发互动; - 查看钱包、体力、行囊、任务提示。 这一阶段真正完成了从“3D 页面”到“小游戏”的转变。 ## 4. 第三阶段:让 NPC 不只是摆设 很多 3D 场景的问题是:建筑很漂亮,但里面没有生活。 所以我们给城市加了大量 NPC 和小游戏,让它变得有烟火气。 4.1 NPC 互动 玩家靠近路人、文士、商贾、仕女、官员、僧人等 NPC,可以触发对话。不同 NPC 会有不同身份和口吻。 4.2 诗词小游戏 我们设计了偏唐风的互动玩法: - 飞花令:给出一个关键字,玩家从诗句中选择含有该字的一句; - 对对联:给出上联,从多个候选句里选下联; - 猜谜:用民俗谜语和长安史实做选择题; - 猜拳:快速轻量的小互动,配合随机奖励。 小游戏不是单纯为了“好玩”,而是让诗词和历史知识变成可参与的体验。 ## 5. 第四阶段:做珍宝馆与诗画展厅 为了让项目更像数字文旅产品,我们加入了展厅系统。 玩家可以进入不同展馆,欣赏诗画、珍宝和历史主题内容。例如: - 《步辇图》 - 《历代帝王图》 - 《簪花仕女图》 - 诗词与书画主题展 - 丹青馆 DIY 展厅 展厅的作用是把“游戏”与“文化内容”连接起来:玩家既可以玩,也可以看展、听讲解、理解背后的历史语境。 ## 6. 第五阶段:加入 AI 展馆 项目最特别的一部分,是我们把现代 AI 品牌做成了唐风展馆。 我们设计了一个“天枢府 / AI 展馆”概念:在盛唐长安里出现一个古今穿越的科技坊市。不同 AI 品牌不再只是 logo,而是变成一座座唐风殿宇,每个展馆都有自己的讲席和风格。 其中 Agora 馆作为核心语音互动展馆,承担了实时语音能力展示。 > 在游戏场景中,Agora 不只是一个外部服务名,而是被设计成一座可进入、可互动、可召唤智机使讲解的“Agora 馆”。这能帮助非技术用户理解:语音 AI 不只是后台 API,它可以成为一个场景化体验。 在视觉上,我们做了: - 唐风殿宇; - 品牌 logo 立柱; - 发光牌匾; - 展馆说明牌; - 可交互门口热点; - 现代科技与古代街景混合的小彩蛋。 在叙事上,我们把它包装成: > 大唐长安出现了一座“智机府”,各路 AI 智机使在这里讲解不同的智能能力。 这样做的好处是:AI 展示不再像一个冷冰冰的产品页面,而是变成了玩家在游戏世界里能探索的一部分。 ## 7. 第六阶段:接入实时语音 Agent 这是整个项目最核心、也最难调的一部分。 我们的目标不是让 NPC 弹出文字框,而是让玩家真的能用语音和角色交流。 7.0 开发前置:安装 Agora Skills / Agora CLI 在这个项目里,Agora 语音能力并不是直接把 App ID 写死在网页里,而是通过 Agora Skills + Agora CLI 完成项目登录、能力检查、环境变量写入和 ConvoAI 就绪检查。 你可以把它理解成: > Agora Skills 负责告诉 Agent 怎么集成 Agora;Agora CLI 负责登录账号、绑定项目、写入 .env.local。 更具体地说,这里有两层: 层级作用谁来使用Agora Skills给 AI Coding Agent 的集成说明书,告诉 Agent 应该用官方 quickstart、怎么检查 ConvoAI、怎么处理 token 和环境变量Cursor / Claude / AgentAgora CLI真正执行登录、项目选择、能力检查、环境变量写入的命令行工具开发者和 Agent 都会用。 所以,“安装 Agora Skills”在实际复现时,通常会落到两件事: 1. 确保你的 AI 开发环境已经有 Agora Skill / Agora 参考资料; 1. 在本机安装并登录 agora CLI,让项目可以拿到有效的 Agora 项目配置。 第一步:确认是否已有 Agora Skill / Agora CLI 如果本机还没有 agora 命令,可以安装: 安装完成后,重新打开终端,确认命令存在: 如果能输出路径和版本号,说明 CLI 已经进入你的 PATH。 安装后检查: 如果终端能看到 Agora CLI install is healthy,说明 CLI 本身可用。 > 如果 agora 命令不存在,通常是 shell 没有加载新的 PATH。可以重开终端,或检查安装脚本输出里提示的 PATH 配置。 第二步:登录 Agora 账号 agora login 命令会打开浏览器完成授权。正常流程一般是: 1. 终端打印一个 https://sso2.agora.io/... 登录链接; 1. 浏览器打开 Agora SSO 页面; 1. 登录并授权 Agora CLI; 1. 浏览器回调本机 localhost; 1. 终端显示 Session stored 和 Status: authenticated。 登录后检查状态: 你希望看到类似: 如果这里显示未登录,重新执行 agora login。 如果登录成功但后面 agora project list 返回: ACCOUNT_BLOCKED 说明不是代码问题,而是 Agora 账号或控制台权限被限制。此时需要换一个可用账号,或先解除账号限制。 第三步:选择或创建 Agora 项目 登录后先列出项目: agora project list 如果你已经有项目,可以选择它: agora project use <project-id-or-name> 如果还没有项目,可以通过 Agora Console 创建,或用 CLI 初始化 quickstart 项目: 这个命令会做三件事: - 创建或绑定一个 Agora 项目; - 克隆官方 quickstart; - 写入本地 .env.local。 本项目是从 official quickstart 的思路继续改造的:先确保官方 demo 能跑,再把它嵌入到《大唐长安》的 3D 场景中。 第四步:检查项目是否支持 ConvoAI 实时语音 Agent 依赖 Agora 的 Conversational AI 能力。可以运行: 如果提示没有启用,可以尝试: 然后再次运行 doctor 确认。 你希望看到的结果是 project doctor 没有 blocking issue。它不等于“语音一定已经通了”,但至少说明控制台项目配置层面准备好了。 第五步:把 Agora 项目凭据写入语音后端 本项目的语音后端读取: 其中最关键的是: 可以让 Agora CLI 自动写入: > 注意:AGORA_APP_CERTIFICATE 是敏感信息,不要提交到 GitHub。项目的 .gitignore 已经忽略 .env.local。 写入后可以检查文件是否存在,但不要把证书贴到公开地方: 如果只是自查证书是否存在,可以看键名,不要打印完整值: 第六步:启动语音服务 后端: 前端 iframe: 主游戏默认会把语音面板指向: http://localhost:3000 如果线上部署语音服务,可以通过 URL 参数指定: ?voiceOrigin=https://你的语音前端域名 第七步:验证语音链路 先验证后端能返回 Agora 配置: 再验证能启动一个 agent: 如果返回 agent_id,说明后端成功请求 Agora 创建了一个语音 Agent。 最后打开游戏,进入 Agora 馆,点击右侧语音面板,观察三件事: - 面板不再一直停在“召唤中”; - 麦克风能采集声音; - AI 有返回语音和字幕。 > 语音功能最终不是孤立存在的,它会和玩家身份、NPC、展馆、字幕、头像面板一起工作。玩家看见的是“角色在长安城里与智机使对话”,背后才是 RTC、ConvoAI 和 Agent 编排。 常见错误与排查 如果看到: 通常不是前端按钮坏了,而是 Agora 项目或凭据不可用。优先检查: - agora auth status 是否已登录; - agora project list 是否能正常列出项目; - 当前账号是否被限制或 blocked; - agora project doctor --feature convoai 是否通过; - .env.local 里的 App ID / Certificate 是否来自同一个项目; - 修改 .env.local 后是否重启了后端。 可以按这个顺序排查: 如果 CLI 登录正常,但 project list 返回 ACCOUNT_BLOCKED,说明账号侧被限制,代码无法绕过。需要换可用账号或解除 Agora 控制台限制。 7.1 基本架构 项目被拆成两部分: - han-diorama 浏览器 3D 主场景 负责 Three.js、WASD、NPC、展馆、小游戏 - tang-voice-agent - 语音智能体子项目 - 前端是 Next.js iframe - 后端是 FastAPI / Python - 负责 Agora ConvoAI、Persona、语音对话 主场景里点击 NPC 后,会打开右侧语音面板。这个面板本质上是一个嵌入的 iframe,它和主游戏通过 postMessage 通信。 7.2 一次语音对话发生了什么 当玩家按住麦克风说话时,大致流程是: 玩家麦克风 ↓ 浏览器 RTC 上行 ↓ Agora 实时音频链路 ↓ ConvoAI:语音识别 → 大模型思考 → TTS 合成 ↓ AI 声音通过 RTC 回到浏览器 ↓ 游戏里 NPC 头像、字幕、状态同步变化 普通用户看到的是“我和李白说话了”。技术上背后是实时音频、语音识别、大模型、语音合成和游戏状态同步一起工作。 7.3 为什么要做 Persona 如果所有 NPC 都用同一个提示词,它们就会像同一个机器人。 所以我们给不同角色做了不同 Persona: - 李白:诗酒豪放; - 杜甫:沉郁关怀; - 王维:山水空灵; - 周引之:导游身份,可以带路; - 苏阮卿:画学博士,负责讲画; - 智机使 · Agora 馆:讲解实时语音与 ConvoAI。 每个 persona 有自己的: - 名字; - 身份; - 场景位置; - 说话风格; - TTS 音色; - 可注入的场景上下文。 这让语音功能不只是“能说话”,而是和游戏世界绑定在一起。 ## 8. 第七阶段:做角色头像、视频面板与 BGM 为了让语音互动更有“面对面”的感觉,我们做了左侧角色 portrait 面板。 它支持: - idle.jpg / idle.png 静态头像; - idle.mp4 静音循环视频; - intro.mp4 带原声开场视频; - AI 说话时切换 talking 状态; - 没有素材时自动 fallback。 后来又加入了古风 BGM: - 默认循环播放古琴 / 古筝曲; - 支持静音、音量、切歌; - 当玩家打开语音对话时,BGM 自动降低音量,避免盖住人声。 这一步看似是“包装”,但对用户体感影响很大。没有声音和头像时,AI 对话像工具;有了角色视频、字幕和背景音乐后,它更像游戏里的角色。 ## 9. 第八阶段:解决视觉与尺度问题 开发中遇到过一个典型问题:AI 展馆一开始太大,放到城市里会出现“浮在地面上”“镜头一转消失”的情况。 问题根源是单位尺度不一致: - 主城使用的是游戏世界单位; - AI 展馆早期按更大的现实尺度设计; - 结果展馆实际超出了主城地面范围。 解决方式是: - 把天枢府缩放到适合主城的面积; - 重新设置展馆中心点; - 调整 3×3 展馆布局; - 缩小 logo 立柱、牌坊、院墙和展馆模型; - 确认所有互动点都落在可见地面内。 这个经验很重要:3D 项目里,美术好看不够,尺度一致才是可玩的前提。 ## 10. 第九阶段:部署到 GitHub 项目完成后,我们把前端开源部署到了 GitHub。 前端 han-diorama 是静态 Web 项目,适合用 GitHub Pages 托管。 部署流程: 然后使用 GitHub Actions 自动发布 Pages。 线上地址: https://andyhuo520.github.io/tang-changan/ 需要注意的是: - GitHub Pages 只能托管静态前端; - 实时语音后端 tang-voice-agent 需要单独部署; - 本地开发时可以用 http://localhost:3000 作为语音 iframe; - 线上如果要启用语音,需要给游戏传入可访问的语音前端地址。 ## 11. 普通用户怎么体验 打开: https://andyhuo520.github.io/tang-changan/ 进入页面后可以: 1. 在沙盘视角浏览盛唐长安; 1. 点击「走进长安」; 1. 选择角色:世子 / 商贾 / 侍女 / 游侠; 1. 用 WASD 移动角色; 1. 靠近 NPC 按 E 对话; 1. 靠近展馆或店铺按 F 互动; 1. 进入珍宝馆看诗画; 1. 进入 AI 展馆体验语音智能体。 常用按键: 按键作用WASD移动鼠标调整视角E与 NPC 对话 / 触发小游戏F进入展馆 / 开店 / 触发场景Esc关闭语音面板 ## 12. 开发者如何理解项目结构 项目可以分成几层: han-diorama/ index.html 页面结构与 UI 容器 scene.js 主 3D 场景、游戏模式、NPC、语音面板 modelLoader.js 角色模型加载 assets/ logo、头像、BGM、预览图 portraits/ NPC 视频 / 头像素材 murals/ 画廊素材 lib/ content/brand-data.js AI 展馆品牌数据 world/brand-plaza.js AI 展馆 / 天枢府 world/gallery-hall.js 珍宝馆 / 展厅 world/diy-hall.js 丹青馆 DIY ui/voice-intent.js 语音意图路由 hero/ 大明宫、东西市、曲江等地标模块 tang-voice-agent/ web/ Next.js 语音前端 iframe server/ FastAPI 后端 server/src/personas/ 角色 Persona 最核心的思想是: > 3D 主项目负责“玩家在哪里、看见什么、能做什么”;语音子项目负责“玩家说什么、AI 怎么回答、声音怎么回来”。 ## 13. 这次开发踩过的坑 13.1 浏览器缓存 浏览器会缓存 JS 和图片。我们在模块路径后面加版本参数: scene.js?v=20260529-agora-only 这样每次重要更新后,线上用户能加载到新代码。 13.2 视频自动播放限制 浏览器通常不允许带声音的视频自动播放。解决方式: - 先尝试播放 intro.mp4; - 如果被浏览器拦截,就退回静音播放; - 在用户点击页面后再解锁音频。 13.3 语音项目账号状态 实时语音不只是代码问题,还依赖 Agora 账号、项目状态、ConvoAI 开通状态和 token 鉴权。 如果出现: CAN_NOT_GET_GATEWAY_SERVER: no active status 401 Invalid token 通常说明: - Agora 账号或项目被阻断; - App ID / Certificate 不匹配; - 项目没有开通对应能力; - 本地 .env.local 还是旧凭据。 这是开发 AI 语音项目时最容易误判的地方:页面看起来是“麦克风开了”,但其实浏览器和 Agent 都没有真正加入频道。 13.4 3D 尺度 展馆、城市、NPC、地面如果不在同一尺度体系里,就会出现漂浮、穿模、消失、点不到的问题。 解决办法不是不断调相机,而是回到世界坐标,统一单位、位置和可交互范围。 ## 14. 如果你想复刻一个类似项目 可以按这个顺序做: 1. 确定主题 先选一个世界观,例如唐代长安、宋代汴梁、敦煌石窟、未来博物馆。 1. 搭建一个能看的 3D 场景 不要一开始就做大地图。先做一个核心区域,保证 30 秒内能看懂。 1. 加入一个可控角色 WASD + 简单碰撞 + 一个 NPC,就足够验证“游戏感”。 1. 设计 3 个互动点 一个 NPC、一个展馆、一个小游戏。不要一开始做 20 个。 1. 接入语音 Agent 先用一个默认 persona 跑通,再扩展多个角色。 1. 把内容模块化 品牌数据、NPC 数据、展馆数据都写成配置,不要散落在代码里。 1. 部署上线 前端用 GitHub Pages / Vercel,后端用可公网访问的服务器。 1. 最后再做包装 BGM、头像、视频、封面图、教程、X 推文、GitHub README 都属于传播层。 ## 15. 我们最终做成了什么 最终,这个项目不只是一个 3D 页面,也不只是一个语音 demo。 它更像一个小型样板: - 文旅内容如何游戏化; - 历史知识如何互动化; - AI 能力如何场景化; - 语音 Agent 如何融入 3D 世界; - 开源项目如何从 demo 变成可分享作品。 如果要用一句话总结整个开发过程: > 我们不是把 AI 放到一个按钮里,而是把 AI 放进了一座城。 这就是《大唐长安 · 智机府》的核心。

译本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

Chubby♨️@kimmonismus · 6月1日51

Absolutely fantastic. This is how I imagine the future of computer use. I love it.

译绝对精彩。这就是我想象中计算机使用的未来。我爱死它了。 GPT-Realtime 2.0 被严重低估了。 演示:

Berryxia.AI@berryxia · 6月1日62

Spent 2 weeks vibe coding a real-time voice interactive mini-game set in an ancient Chinese hall using Claude model and Three.js.

译一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成,通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏,还能进入珍宝馆欣赏诗画,体验古文明与AI结合的沉浸感。

🚨 AI News | TestingCatalog@testingcatalog · 5月31日57

Anthropic is planning to further expand into the consumer and bioscience sectors. The biggest things to watch for 👀 - Conway agent - Orbit assistant - Knowledge-based memory - Multilingual Voice Mode - Operon for bioscience researchers and more! Which one do you think will drop next?

译Anthropic计划进一步扩展至消费与生物科学领域,并预告了多款即将推出的产品,包括Conway agent、Orbit assistant、知识记忆、多语言语音模式以及面向生物科学研究的Operon。引用观点指出,Anthropic选择先聚焦编程,但随着Claude的智能提升,其应用将扩展到人类智能能发挥作用的各个领域。

Greg Brockman@gdb · 5月31日58

GPT Realtime 2 unlocks some real magic:

译GPT Realtime 2 解锁了一些真正的魔法: GPT-Realtime 2.0 被严重低估了。 演示:

小互@xiaohu · 5月31日45

GPT-Realtime 2.0 实时语音接入AI 操控你的电脑 这才是真正的Siri... 不过这么丝滑是接入的codex 还是什么?

🚨 AI News | TestingCatalog@testingcatalog · 5月31日62

BUILD 🔥: Microsoft is preparing new image and voice models for the announcement on June 2. > MAI Voice 2, a multilingual model supporting 15 news languages and a wider range of emotional spectrum (check voice samples in the article) > MAI Transcribe 1.5, a new model for speech-to-text use cases. > MAI Image 2.5, already announced last week, is now available on LM Arena in preview. Compared to MAI Image 2, it supports file uploads and can be used for image editing.

译BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2,一个支持 15 种新闻语言和更广泛情感光谱的多语言模型(请在文章中查看语音样本) > MAI Transcribe 1.5,一个用于语音转文本用例的新模型。 > MAI Image 2.5,已于上周公布,现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比,它支持文件上传,并可用于图像编辑。

OpenAI Developers@OpenAIDevs · 5月31日59

🧵 Our Voice Hack Night finalists are here. 4 projects. 6 hours. Realtime voice agents in real-world builds. Now it’s your turn to vote for your favorite. We’ll announce the winner on Monday. https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery

译🧵 我们的语音黑客之夜决赛作品已揭晓。 4个项目。6小时。真实场景中的实时语音智能体现已构建完成。 现在轮到你投票选出你最喜欢的作品了。我们将于周一公布获胜者。 https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery

Greg Brockman@gdb · 5月30日76

OpenAI for realtime translation — speak in any of 70+ input languages and translate into 13 output ones:

译OpenAI 实时翻译功能——使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

Berryxia.AI@berryxia · 5月29日66

等我把我做这个项目的过程,写个文章分享给大家。 有一些启示和帮助,记得Star起来啊。 费不费Token不知道,但是真的废人啊! 兄弟们等等我~~

译这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI@berryxia · 5月29日68

🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互动世界,并接入 Agora Skills 做了核心实时语音互动小游戏。 你可以在里面: - 和 NPC 对话、李白对诗、玩诗词小游戏 - 进入珍宝馆欣赏诗画 - 逛 AI 展馆,体验古文明与 AI 结合的沉浸感 这玩意我改了N遍,改的我头皮发麻。 强迫症的我,光剪视频都剪了N次,有可能有人说是垃圾,不管如何,我认真做了。 享受这个Solo 干项目的时光,Learning in Public ! 如果你觉得有意思,欢迎点个 Star 支持一下。 体验地址和Github地址见评论👇🏻,兄弟们记得一键三连啊!

译作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

小互@xiaohu · 5月29日65

苹果 iOS 27 曝光 Siri 将变成一个独立聊天 App,长得像 ChatGPT,还住进灵动岛 而且 苹果将允许Sir接入各种AI模型,包括ChatGPT、Gemini、Claude等 主角:Siri 大改造 交互方式变了,出现一个叫「Search or Ask(搜索或提问)」的新界面。 体验会更像聊天,你既能搜东西,也能直接像聊天一样问它问题。有分析说这其实有点像 iPhone 用了多年的 Spotlight 搜索,区别是它可能在任何 App 里都能调出来。

译苹果iOS 27或将对Siri进行大改造,将其转变为类似ChatGPT的独立聊天App,并可能整合进灵动岛。核心变化是允许Siri接入ChatGPT、Gemini、Claude等多种外部AI模型。交互界面将变为“Search or Ask(搜索或提问)”,体验更偏向对话式。

小互@xiaohu · 5月29日62

ElevenLabs 推出 Dubbing V2 端到端的AI配音模型... 最大的变化:配音不再是"先转写、再翻译、最后合成"三段式拼接,而是模型直接基于原始表演建模声音。 并将音色、情绪、演绎都跟着穿越进每一种语言 也就是说,同一个人开口讲六国语言,听上去还是他本人,连情绪和呼吸节奏都对得上 Dubbing v2 支持 90 多种语言和口音, 原理:它针对原始表演来生成,而不是针对一段转录文本,所以语气、情绪、表达方式会跨语言保留下来,声音克隆全自动,会给原说话人建一个声音模型并应用到所有目标语言,保留身份、音高和语气,不用手动设置。 另外支持音频、视频和文字三种输入 具体能力: • 音色穿越:不是模仿你的声音,是你的声音直接在另一种语言里说话 • 情绪保真:原片里你笑你叹气你激动,译版照样有 • 同步感知翻译:译文长度匹配原片口型和停顿,不会嘴动完了字幕还在跑 • 措辞本地化:不是字面直译,每种语言用自己的表达方式 • 端到端全自动:传一个视频进去出一份配音,中间没有手工拼接 视频里他们演了三个场景: MrBeast 风格的荒岛求生在 English/German/French 之间无缝切换 一段财务部门的快节奏对白试连贯性 一个童话故事试表达力

译ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日62

ElevenLabs introduced a new Dubbing v2 Alpha model that can translate speech across all languages while preserving the emotional tone of the original content. Big for creators 👀

译ElevenLabs推出了新的Dubbing v2 Alpha模型,该模型可以在所有语言之间翻译语音,同时保留原始内容的情感基调。 对创作者来说意义重大 👀

Berryxia.AI@berryxia · 5月29日61

刚刚刷到Mark Gurman的爆料,直接把iOS 27的渲染图和核心变化甩了出来。 Siri彻底重做,不再是那个只会简单问答的助手,而是能真正理解上下文、主动帮你处理多步任务的智能体。 AI功能大幅升级,照片编辑直接上新维度,Camera App还专门给专业用户做了可自定义界面,ISO、快门、峰值对焦这些参数终于能随手调。 苹果这次没再玩小修小补,将会把系统级的AI能力和创作工具一起拉到新高度。 以前大家总觉得苹果在AI上慢半拍,这次iOS 27却把Siri和相机这些最日常的入口,变成了真正能放大生产力的地方。 它没有简单堆参数,把AI藏进你每天都在用的界面里,让普通人也能用得上,专业玩家也能玩得深。 这套打法,把AI从炫技工具,真正变成了系统底层能力。 到底能不能行? 看看吧~

译Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做,从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强,照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App,支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中,旨在让功能对普通用户易用,同时满足专业需求,而非简单堆砌功能。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日69

Apple prepares to announce a major Siri revamp soon, along with a new dedicated Siri app, according to Bloomberg. &gt; These are preview renders prepared by Bloomberg &gt; A new Siri will likely be released in early September Expectations x100 👀

译据Bloomberg报道,苹果正准备大幅改版Siri,并推出一个全新的专用应用。此更新预计将随iOS 27在9月初一同发布。iOS 27还包括一系列重大的新AI功能、增强的照片编辑能力,以及一个面向专业人士的可定制相机应用。记者Mark Gurman也确认了这一“重大改版”。

Artificial Analysis@ArtificialAnlys · 5月28日70

Announcing AA-WER Streaming, our new benchmark measuring streaming Speech to Text models on accuracy and latency for voice agent use cases. Pareto optimal models on this new benchmark include those from Cartesia, ElevenLabs, and Deepgram Streaming Speech to Text (STT) powers real-time transcription in voice agents and live captioning, where models must balance accuracy against speed. Fast transcripts are especially important for keeping responses feeling natural and leaves more of the response-time budget for reasoning and tool calls. Accuracy also matters since transcription errors compound in downstream reasoning and speech generation. Streaming STT models transcribe audio as it is fed in, sharing outputs continuously, unlike offline (batch) models that process the entire file at once and are typically slower. What we measure: AA-WER Streaming reports Word Error Rate and latency together, measured from the moment end of speech is detected, with a Pareto line of increasing accuracy as time to transcript received increases. For direct comparability to offline models on accuracy, we test these streaming models on the same ~8 hours of audio as our offline benchmark, AA-WER v2.0: AA-AgentTalk, Earnings22-Cleaned-AA, VoxPopuli-Cleaned-AA. We measure WER and latency as paired metrics at two points after Silero VAD-detected end of speech: First Final Transcription: WER is measured on the first final-denoted transcript returned after end of speech is detected. Latency is the time in seconds from end of speech to that final-denoted transcript. This is more useful for understanding performance as a standalone streaming transcription model, and for higher accuracy. First Partial Transcription: WER is measured on the first transcript-bearing event (partial or final) returned after end of speech is detected. Latency is the time in seconds from end of speech to that first transcript event. This is more useful for near instantaneous transcription for lower-accuracy tasks like responding to "yes" or "no" questions, or for speculative decoding. Key results: ➤ Highest accuracy on Final after End of Speech: @Cartesia Ink-2 (semantic endpoints) at 3.59% WER, 0.21s latency, followed by ElevenLabs Scribe v2 Realtime (3.64%, 0.14s) and Cartesia Ink-2 (external endpoints) (3.66%, 0.09s) ➤ Highest accuracy on First Partial after End of Speech: @ElevenLabs Scribe v2 Realtime at 3.65% WER, 0.13s latency, followed by Cartesia Ink-2 (external endpoints) (4.33%, 0.07s) and @AssemblyAI U3 Realtime Pro (4.46%, 0.47s) ➤ Fastest transcription: @DeepgramAI Flux leads both Final and Partial at 0.020s and 0.019s respectively (both 7.36% WER). On Final, it's followed by @soniox_ai Realtime and Deepgram Nova-3 Realtime (both 0.06s); on First Partial, it’s followed by @NVIDIA Nemotron 3 ASR 80ms (0.04s) and Soniox Realtime (0.05s) Charts below include a Pareto frontier of accuracy vs. speed, so you can shortlist the models that best fit your latency constraints while still achieving high accuracy. See below for further detail ⬇️

译AA-WER Streaming是一个新基准,用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频,报告词错误率与延迟。关键结果显示:Cartesia Ink-2(语义端点)在最终转录中准确率最高(WER 3.59%,延迟0.21秒);ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高(WER 3.65%,延迟0.13秒);Deepgram Flux在速度上领先,最终和首次部分转录延迟分别为0.020秒和0.019秒。

Chubby♨️@kimmonismus · 5月28日46

Bloomberg leaked Apple's full iOS 27 Siri redesign. Two years of delays, biggest update in Siri's history, etc. So what's the actual architecture? It runs on Google Gemini. And the new interface has a dropdown menu where you pick ChatGPT or Claude instead. Apple rebuilt Siri from scratch and the conclusion was apparently "let users choose someone else's model." Apple is also shipping: AI-powered web search that competes with Perplexity, natural language Shortcuts creation, and AI photo editing

译Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

Berryxia.AI@berryxia · 5月28日58

Google直接把本地AI从“玩具”干成了真正的生产力武器。 他们刚刚发布最新一代Coral板,搭载Gemma系列模型,能在设备端实时完成: - 板载语音翻译 - 自然语言直接控制硬件 - 视觉+声音生成音乐 完全不需要云端,不需要联网,不需要把数据传出去。 以前大家总觉得本地AI“差点意思”,现在Google用硬件+模型的深度结合,直接把延迟、隐私、成本这些老大难问题一次性解决。 Coral板今年夏天就上线,这波操作等于把AI的战场从云端彻底拉回到了你手里的设备上。

译Google发布最新Coral开发板,搭载Gemma系列模型,实现高效的本地设备端AI。核心演示包括板载实时语音翻译、通过自然语言控制硬件,以及利用视觉与声音生成音乐。此次升级的关键在于无需云端联网,解决了传统本地AI在延迟、隐私和成本方面的痛点。通过硬件与模型的深度结合,Google将AI的应用场景从云端拉回设备本地,计划于今年夏天推出。

Google AI@GoogleAI · 5月28日35

Look back at last week’s I/O announcements with @NotebookLM. You can listen to an audio overview, watch the video recap, and even check out our detailed slide deck summarizing all of the biggest news and launches. Check it out here: https://blog.google/innovation-and-ai/products/notebooklm/notebooklm-google-io-2026/?linkId=62068662

译回顾上周的 I/O 大会公告,与 @NotebookLM 一起。 您可以收听音频概览,观看视频回顾,甚至查看我们详细总结所有重大新闻和发布的幻灯片。 在此查看:https://blog.google/innovation-and-ai/products/notebooklm/notebooklm-google-io-2026/?linkId=62068662

🚨 AI News | TestingCatalog@testingcatalog · 5月28日74

BREAKING 🚨: Sesame just released HER > Sesam iOS app is now available in Preview, offering a collection of 4 personal voice agents. > Sesame Agents are powered by a SOTA real-time voice mode. > Agents can search the web, manage reminders, and have memory. > App rollout is gradual and has a whitelist Nothing stands even close ATM.

译Sesame发布了iOS应用预览版,提供4个个人语音智能体。这些智能体基于SOTA实时语音模式,具备网络搜索、提醒管理和记忆功能。应用发布是逐步进行的,目前设有白名单。引用推文表明,这是继去年研究预览版后的正式推出,提供了新功能、新角色和更强的能力。

Greg Brockman@gdb · 5月28日66

Codex for transcribing and answering questions about a meeting in real time:

译OpenAI Codex 新增了“Meeting Recorder”技能。该技能可使用 GPT Realtime Whisper 端点实时转录会议并显示文本。用户可在转录过程中随时向 Codex 提问。会议结束后,会提供完整的转录内容及格式化版本。此功能基于实时 API,费用为 $0.017/分钟。相关代码与说明可在 GitHub 链接中查看。

🚨 AI News | TestingCatalog@testingcatalog · 5月27日61

ANTHROPIC 🔥: Voice mode on Claude mobile apps is about to get an upgrade with 18 new supported languages! > Claude will be able to change language on the fly > All languages have 1-2 new voices > Voice Mode UI will get a new look > A new push-to-talk functionality will be added > It is powered by Claude Haiku 4.5, but still TTS Soon? 👀

译ANTHROPIC 🔥: Claude移动应用的语音模式即将升级,新增支持18种语言! > Claude将能够实时切换语言 > 所有语言都有1-2个新声音 > 语音模式界面将焕新 > 将新增按键说话功能 > 由Claude Haiku 4.5驱动,但仍是TTS 很快?👀

Berryxia.AI@berryxia · 5月27日46

Typeless感觉每天都在更新啊,有时候中英文识别会瞎识别,目前遇到的就是我说的事seedance 给我直接变成了keling 😁

向阳乔木@vista8 · 5月26日70

以前只知道有个乐队叫子曰,没想到网易有道大模型也叫子曰。 最新发布的子曰4是一个全模态模型,27B参数,视觉数理方向同规模SOTA,纯文本数理难题准确率81.4%。 在27B这个“甜点级”参数规模里,子曰4做到了中文学习场景下多模态+纯文本数理推理的双料极佳。 这次,子曰4全模态模型和TTS引擎同步开源,开放参数权重,支持本地部署、二次训练。 尤其是 TTS 模型,看介绍有点强:只需3秒就能克隆原声,支持14种语言,克隆准确度超97%,音色还原度 95%以上。 在线录了13秒音频,克隆我的声音,然后朗读朋友写的诗,效果如下:

译网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

karminski-牙医@karminski3 · 5月26日67

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

译智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月4日
10:37
Elon Musk@elonmusk
61
xAI 推出 Grok Voice,其中 Grok Voice Think Fast 1.0 在 Artificial Analysis τ-Voice 基准(真实世界智能客服解决能力评测)中排名第一,大幅超越 GPT-Realtime-2 (High) 和 Gemini 3.1 Flash。该模型已实际部署,通过自然语音为 Starlink及多家企业提供实时客户服务,完全以语音交互驱动。

X Freeze: Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...

xAI产品更新语音
09:06
Elon Musk@elonmusk
同事件精选72
Vercel 的 AI Gateway 上现已推出 Grok Imagine Video 1.5。该服务支持图生视频并同步音频,一次性完成。示例代码: `await generateVideo({ model: 'xai/grok-imagine-video-1.5-preview', prompt: 'a rabbit sprinting through nyc' });`

Vercel Developers: Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...

xAI图像生成模型发布视频
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》
推荐理由:Grok Imagine Video 1.5 把同步音频塞进了图生视频,一条 prompt 直接出带声短片,做短视频和创意的可以换上这条流水线了。
08:51
Berryxia.AI@berryxia
67
MOSS-Audio:开源统一语音、环境音、音乐的音频-语言模型登顶HF Trending第一

OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。

MOSI: MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...

多模态模型发布语音
01:48
elvis@omarsar0
76
Miso One 8B开源情感TTS模型发布

Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音
01:08
xAI@xai
70
试试 @Vapi_AI 上最自然的TTS和性价比最高的STT API。 来自 @xai 的Grok STT和Grok TTS现已在企业语音AI平台Vapi上线。基于Vapi构建自定义语音智能体,可让它们用客户的语言交流、在受监管的工作流中捕捉重要细节,并在每次通话中明显更具人性化。

Vapi: Grok STT and Grok TTS from @xai are now live on Vapi, the platform for enterprise voice AI. Build on Vapi to create cust...

xAI产品更新语音
关联讨论 2 条xAI:News(网页)X:xAI (@xai)
00:50
Chubby♨️@kimmonismus
精选75
Miso One 正式发布,一个 8B 参数的开源权重语音模型(TTS),旨在模拟真实人类朗读的温暖与节奏。它支持一次语音克隆(只需短样本),推理延迟仅 110ms。模型权重已开源至 GitHub,无需 API 即可自托管,音频数据不离开本地。API 访问即将推出。演示已上线,可先试听再克隆仓库。

Aoden Teo: Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...

开源生态模型发布语音

推荐理由:Miso One这种8B参数、110ms延迟的情感TTS模型,直接把声音克隆和自托管做成了开箱即用,做语音产品的可以马上 clone 一个玩玩,比等 API 爽多了。
6月3日
23:09
Suno@suno
精选68
我们激动地宣布Suno的新篇章:4亿美元D轮融资,估值54亿美元!🚀 我们的使命一直很简单:让更多人能体验制作音乐的乐趣。非常感谢我们不可思议的社区和投资者与我们共同建设。 点击此处阅读Mikey的博客:https://suno.com/blog/series-d-announcement
行业动态语音
关联讨论 1 条IT之家(RSS)
推荐理由:AI音乐生成头部又融了一轮大的,估值涨3倍,但产品本身没啥变化,这轮更多是行业信号而不是用户福利。
09:48
Berryxia.AI@berryxia
74
微软在Build大会发布七款MAI新模型

微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。

Microsoft AI: Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...

Microsoft图像生成模型发布编码
03:59
OpenRouter@OpenRouter
精选68
三款新的 @MicrosoftAI 模型现已在 OpenRouter 上线! 同步推出:MAI-Image-2.5、MAI-Transcribe-1.5 和 MAI-Voice-2。详情见下文 🧵
Microsoft产品更新图像生成多模态

推荐理由:微软三个多模态模型一口气上架 OpenRouter,图像、转录、语音全齐了,开发者直接调 API 就能用,做产品的可以试试效果。
02:47
Artificial Analysis@ArtificialAnlys
64
Microsoft发布MAI-Transcribe-1.5语音转录模型

微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。

Microsoft模型发布语音
6月2日
05:47
OpenAI Developers@OpenAIDevs
46
投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。 一款语音优先的移动操作系统。用户说话,智能体响应并在手机上执行操作。 祝贺团队赢得 50,000 美元 API 额度。

OpenAI Developers: 🤳 Agentic OS for a Phone A voice-first mobile OS. Users talk, agents answer, and they can take action across the phone....

智能体OpenAI行业动态语音
01:11
Artificial Analysis@ArtificialAnlys
61
AA-WER Streaming 基准测试发布

Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。

评测/基准语音
6月1日
12:42
Berryxia.AI@berryxia
74
用两周开发一个可走进、可对话的盛唐长安3D世界

开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。

Berryxia.AI: http://x.com/i/article/2060375125825036288

智能体多模态开源/仓库教程/实践
11:46
MiniMax (official)@MiniMax_AI
78
出发吧🔥 M3 + @visionagents_ai 实现实时语音与视频 去构建些令人兴奋的东西吧! 【引用 @visionagents_ai】:祝贺 @MiniMax_AI 团队发布 M3! 👉 一款前沿级开源权重模型 👉 100万 token 上下文窗口 👉 原生多模态(图像与视频)

Vision Agents: Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...

多模态开源/仓库模型发布视频
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:42
Berryxia.AI@berryxia
73
用Claude耗时两周、花费约800美元打造的《大唐长安》浏览器3D语音互动游戏教程

本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。

智能体Anthropic教程/实践语音
04:23
Chubby♨️@kimmonismus
51
绝对精彩。这就是我想象中计算机使用的未来。我爱死它了。 GPT-Realtime 2.0 被严重低估了。 演示:

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI现象/趋势语音
00:35
Berryxia.AI@berryxia
62
一个用Claude模型和Three.js搭建的盛唐长安实时语音互动小游戏已开源。项目由个人开发者耗时2周、花费800刀完成,通过Agora Skills实现实时语音交互。玩家可在其中与NPC对话、与李白对诗、玩诗词小游戏,还能进入珍宝馆欣赏诗画,体验古文明与AI结合的沉浸感。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
5月31日
22:24
🚨 AI News | TestingCatalog@testingcatalog
57
Anthropic计划进一步扩展至消费与生物科学领域,并预告了多款即将推出的产品,包括Conway agent、Orbit assistant、知识记忆、多语言语音模式以及面向生物科学研究的Operon。引用观点指出,Anthropic选择先聚焦编程,但随着Claude的智能提升,其应用将扩展到人类智能能发挥作用的各个领域。

Andrew Curran: Anthropic is not a coding company. It is an intelligence company that chose to focus on coding first. As Claude's intell...

智能体Anthropic行业动态语音
13:52
Greg Brockman@gdb
58
GPT Realtime 2 解锁了一些真正的魔法: GPT-Realtime 2.0 被严重低估了。 演示:

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI产品更新多模态语音
09:45
小互@xiaohu
45
GPT-Realtime 2.0 实时语音接入AI 操控你的电脑 这才是真正的Siri… 不过这么丝滑是接入的codex 还是什么?

Farza 🇵🇰🇺🇸: Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...

OpenAI多模态大佬观点语音
06:53
🚨 AI News | TestingCatalog@testingcatalog
62
BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2,一个支持 15 种新闻语言和更广泛情感光谱的多语言模型(请在文章中查看语音样本) > MAI Transcribe 1.5,一个用于语音转文本用例的新模型。 > MAI Image 2.5,已于上周公布,现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比,它支持文件上传,并可用于图像编辑。
Microsoft图像生成多模态模型发布
01:27
OpenAI Developers@OpenAIDevs
59
🧵 我们的语音黑客之夜决赛作品已揭晓。 4个项目。6小时。真实场景中的实时语音智能体现已构建完成。 现在轮到你投票选出你最喜欢的作品了。我们将于周一公布获胜者。 https://cerebralvalley.ai/e/openai-voice-hack-night/hackathon/gallery
OpenAI行业动态语音
5月30日
04:19
Greg Brockman@gdb
精选76
OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由:OpenAI悄悄推出一个专门做实时语音翻译的模型,不是通用LLM,而是专用模型。这标志着AI交互从文字转向语音的第一步,做翻译硬件或AR眼镜的团队要睡不着了。
5月29日
23:34
Berryxia.AI@berryxia
66
这是一个用Three.js搭建的盛唐长安3D互动世界,接入Agora技能实现核心实时语音交互功能。用户可与NPC对话、与李白对诗、玩诗词小游戏,并参观珍宝馆和AI展馆。开发者耗时两周、花费800刀完成,现已开源。

Berryxia.AI: 🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...

多模态开源/仓库语音
22:34
Berryxia.AI@berryxia
68
开源项目:Three.js打造3D盛唐长安互动世界

作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。

多模态开源/仓库语音
17:40
小互@xiaohu
65
苹果 iOS 27 曝光:Siri 将大改造

苹果iOS 27或将对Siri进行大改造,将其转变为类似ChatGPT的独立聊天App,并可能整合进灵动岛。核心变化是允许Siri接入ChatGPT、Gemini、Claude等多种外部AI模型。交互界面将变为“Search or Ask(搜索或提问)”,体验更偏向对话式。

产品更新端侧语音
09:09
小互@xiaohu
62
ElevenLabs 推出 Dubbing V2

ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。

产品更新多模态语音
06:49
🚨 AI News | TestingCatalog@testingcatalog
62
ElevenLabs推出了新的Dubbing v2 Alpha模型,该模型可以在所有语言之间翻译语音,同时保留原始内容的情感基调。 对创作者来说意义重大 👀

ElevenLabs: Introducing Dubbing v2, our revolutionary new dubbing model. For the first time, the emotion and performance of the orig...

产品更新语音
00:32
Berryxia.AI@berryxia
61
iOS 27爆料:Siri彻底重做,AI系统级整合

Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做,从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强,照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App,支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中,旨在让功能对普通用户易用,同时满足专业需求,而非简单堆砌功能。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

产品更新多模态语音
00:18
🚨 AI News | TestingCatalog@testingcatalog
69
据Bloomberg报道,苹果正准备大幅改版Siri,并推出一个全新的专用应用。此更新预计将随iOS 27在9月初一同发布。iOS 27还包括一系列重大的新AI功能、增强的照片编辑能力,以及一个面向专业人士的可定制相机应用。记者Mark Gurman也确认了这一"重大改版"。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

产品更新语音
5月28日
23:48
Artificial Analysis@ArtificialAnlys
70
发布AA-WER Streaming:测量语音智能体场景下流式语音转文本模型的新基准

AA-WER Streaming是一个新基准,用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频,报告词错误率与延迟。关键结果显示:Cartesia Ink-2(语义端点)在最终转录中准确率最高(WER 3.59%,延迟0.21秒);ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高(WER 3.65%,延迟0.13秒);Deepgram Flux在速度上领先,最终和首次部分转录延迟分别为0.020秒和0.019秒。

智能体评测/基准语音
21:12
Chubby♨️@kimmonismus
46
Bloomberg泄露iOS 27 Siri重大改版方案

Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。

Mark Gurman: BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...

Google大佬观点语音
11:31
Berryxia.AI@berryxia
58
Google发布新一代Coral板,本地AI进入生产力时代

Google发布最新Coral开发板,搭载Gemma系列模型,实现高效的本地设备端AI。核心演示包括板载实时语音翻译、通过自然语言控制硬件,以及利用视觉与声音生成音乐。此次升级的关键在于无需云端联网,解决了传统本地AI在延迟、隐私和成本方面的痛点。通过硬件与模型的深度结合,Google将AI的应用场景从云端拉回设备本地,计划于今年夏天推出。

Google Gemma: Introducing the newest Coral board, for efficient, on-device AI! Check out the demos in the video: - On-board speech tra...

Google产品更新端侧语音
05:29
Google AI@GoogleAI
35
回顾上周的 I/O 大会公告,与 @NotebookLM 一起。 您可以收听音频概览,观看视频回顾,甚至查看我们详细总结所有重大新闻和发布的幻灯片。 在此查看:https://blog.google/innovation-and-ai/products/notebooklm/notebooklm-google-io-2026/?linkId=62068662
Google产品更新语音
05:11
🚨 AI News | TestingCatalog@testingcatalog
74
Sesame发布了iOS应用预览版,提供4个个人语音智能体。这些智能体基于SOTA实时语音模式,具备网络搜索、提醒管理和记忆功能。应用发布是逐步进行的,目前设有白名单。引用推文表明,这是继去年研究预览版后的正式推出,提供了新功能、新角色和更强的能力。

Stammy: Today we're announcing our @sesame iOS app preview, giving you a first look at our collection of personal agents, a new ...

智能体产品更新语音
00:10
Greg Brockman@gdb
66
OpenAI Codex 新增了"Meeting Recorder"技能。该技能可使用 GPT Realtime Whisper 端点实时转录会议并显示文本。用户可在转录过程中随时向 Codex 提问。会议结束后,会提供完整的转录内容及格式化版本。此功能基于实时 API,费用为 $0.017/分钟。相关代码与说明可在 GitHub 链接中查看。

Simon Smith: You can now transcribe meetings in real time using Codex and ask Codex questions about meetings as they're happening! I ...

OpenAI教程/实践语音
5月27日
22:40
🚨 AI News | TestingCatalog@testingcatalog
61
ANTHROPIC 🔥: Claude移动应用的语音模式即将升级,新增支持18种语言! > Claude将能够实时切换语言 > 所有语言都有1-2个新声音 > 语音模式界面将焕新 > 将新增按键说话功能 > 由Claude Haiku 4.5驱动,但仍是TTS 很快?👀
Anthropic产品更新多模态语音
13:27
Berryxia.AI@berryxia
46
Typeless感觉每天都在更新啊,有时候中英文识别会瞎识别,目前遇到的就是我说的事seedance 给我直接变成了keling 😁

Typeless: Typeless 1.5.0 is live for macOS & Windows! ✨ Bringing custom shortcuts to external keyboards. ⌨️ Your favorite setup, w...

产品更新语音
5月26日
14:28
向阳乔木@vista8
70
网易有道子曰4全模态模型开源,27B参数,TTS支持3秒声音克隆

网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。

多模态开源生态模型发布语音
09:48
karminski-牙医@karminski3
67
智谱GLM-5.1-highspeed发布,实时语音编程响应仅需3秒

智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

编码评测/基准语音
‹ 上一页
123456…9
下一页 ›