Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...
Grok Voice Think Fast 1.0 now ranks #1 on the Artificial Analysis τ-Voice benchmark for real-world agentic customer serv...
Grok Imagine Video 1.5 on AI Gateway. Image-to-video generation with synced audio in one pass. await generateVideo({ mod...
同一事件,精选展示《xAI 发布 Grok Imagine 1.5 预览版(图像转视频模型)》OpenMOSS团队发布MOSS-Audio,一个融合语音(Speech)、环境音(Sound)、音乐(Music)的开源音频-语言模型,已冲上Hugging Face Trending第一。该模型从架构上打通三大音频域,可同时转录对话、识别背景音、理解音乐情绪并生成文本或执行下游任务。模型完全开源可商用,代码和权重已在Hugging Face及GitHub公布,开发者可本地运行。
MOSS-Audio just hit #1 on @huggingface Trending. Speech. Sound. Music. One open audio-language model. Try it: Hugging Fa...
Miso Labs 开源 8B 参数文本转语音模型 Miso One,专注于生成富有情感的表达,如温暖、犹豫或兴奋,告别机械音。模型专为短视频、播客和教育内容等旁白场景设计,推理延迟仅 110 毫秒,快于人类反应时间。模型权重完全开源,支持自托管、微调和数据私有化,API 即将开放。
Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...
Grok STT and Grok TTS from @xai are now live on Vapi, the platform for enterprise voice AI. Build on Vapi to create cust...
关联讨论 2 条xAI:News(网页)X:xAI (@xai)Today, we're excited to introduce Miso One, the most emotive voice model in the world. Miso One is an 8-billion-paramete...
微软在Build大会宣布推出七个全新的MAI模型家族。该家族以“干净数据血统”从零开始训练,旨在任务专精并能无缝协作。其中,MAI-Code-1-Flash在SWE-Bench Verified上得分71.6,比Claude Haiku 4.5高出5分,并能节省60% token。MAI-Transcribe-1.5处理一小时音频仅需15秒,在43种语言上实现速度与准度领先。微软此次发布旨在展示其从零构建、专精且能协同工作的模型发展路径。
Seven new models launching at Build: let's go! Reasoning. Code. Image. Transcribe. Voice. Built from scratch on a clean ...
微软AI发布了MAI-Transcribe-1.5语音转录模型。该模型在AA-WER排行榜上位列第三,词错误率(WER)为2.4%,仅次于阿里巴巴的Fun-Realtime-ASR-preview(1.7%)和ElevenLabs Scribe v2(2.2%)。其主要特点是速度极快,处理速度约为276倍实时,是准确率前十模型中第二快模型速度的两倍以上,因此在准确率-速度帕累托前沿上处于领先地位。模型还支持关键词偏差识别,并涵盖包括英语、法语、阿拉伯语、日语和中文在内的43种语言。
🤳 Agentic OS for a Phone A voice-first mobile OS. Users talk, agents answer, and they can take action across the phone....
Artificial Analysis 团队推出 AA-WER Streaming 基准,用于评估流式语音转文本模型在语音智能体场景中的表现,主要考察准确性与延迟。流式模型需要在这两者间取得平衡。测评结果显示,Cartesia Ink-2 在最终转录准确性上领先,词错率为 3.59%,延迟为 210ms;ElevenLabs Scribe v2 Realtime 以 3.64% 词错率和 140ms 延迟紧随其后;Deepgram Flux 延迟最低(约 20ms),但词错率为 7.36%。这三家模型处于准确性-延迟帕累托前沿。
开发者使用Three.js,耗时两周构建了可在线体验的盛唐长安3D互动项目。核心功能包括通过WASD模式在城市场景中自由漫游,并接入Agora ConvoAI实时语音Agent,使用户能与李白、杜甫等NPC进行真实语音对话。项目还融合了飞花令等诗词小游戏及AI展馆,将历史文化与AI能力场景化结合。该开源项目(GitHub Pages)代码结构清晰,旨在为创作者提供一个可复用的数字文旅样板。
http://x.com/i/article/2060375125825036288
Congrats to the @MiniMax_AI team on the release of M3! 👉 A frontier-class open-weight model 👉 1M context window 👉 Nat...
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)本教程介绍了如何构建一个名为《大唐长安》的Web 3D互动项目。项目基于Three.js搭建低多边形风格的长安城沙盘,玩家可通过WASD模式在其中漫游探索。核心玩法包括与多种NPC进行语音对话、参与飞花令等诗词小游戏。项目集成了Agora实时语音能力,通过Agora Skills(技能)和Agora CLI工具完成Agent集成与环境配置,使玩家能通过麦克风与李白等角色实时语音交流。此外,项目还设计了将现代AI品牌融入游戏的唐风AI展馆。
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...
Anthropic is not a coding company. It is an intelligence company that chose to focus on coding first. As Claude's intell...
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
Watch me control my computer with just my voice. This is the future of operating systems. No hands. GPT-Realtime 2.0 is ...
OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...
🔥我尼玛,兄弟们,这下真的是爆肝了。 已经开源在GitHub了,记得Star一波啊! 我肝了2周+花费了800刀干出来的项目~😭 自己可以真实去体验,文旅馆的真的都可以搞一搞! 一个用 3D 渲染技术three.JS 搭起来的盛唐长安互...
作者开源了一个使用3D渲染技术Three.js搭建的盛唐长安互动世界项目。项目核心功能是接入Agora Skills,实现了实时语音互动。用户可以在虚拟世界中与NPC对话、与李白对诗、玩诗词小游戏、进入珍宝馆欣赏诗画,以及逛AI展馆体验古今融合。作者透露该项目花费了2周开发时间及800美元成本,现已托管在GitHub上并开放体验。
苹果iOS 27或将对Siri进行大改造,将其转变为类似ChatGPT的独立聊天App,并可能整合进灵动岛。核心变化是允许Siri接入ChatGPT、Gemini、Claude等多种外部AI模型。交互界面将变为“Search or Ask(搜索或提问)”,体验更偏向对话式。
ElevenLabs 推出 Dubbing V2,一个端到端的AI配音模型。它突破了传统“转写-翻译-合成”的拼接流程,直接基于原始表演建模声音,从而将说话者的音色、情绪和演绎完整迁移到目标语言中。该模型支持 90 多种语言和口音,支持音频、视频及文本输入。其核心能力包括跨语言音色克隆、情绪演绎保留、输出时长与原片口型同步,以及本地化自然表达。演示视频展示了其在多语种无缝切换、快节奏对白及故事叙述中的应用效果。
Introducing Dubbing v2, our revolutionary new dubbing model. For the first time, the emotion and performance of the orig...
Mark Gurman爆料苹果iOS 27将带来重大AI升级。核心变化是Siri被彻底重做,从简单问答助手转变为能理解上下文的智能体。AI功能将大幅增强,照片编辑能力进入新维度。系统还为专业用户推出了可自定义界面的Camera App,支持调整ISO、快门等参数。此次升级的关键在于将AI能力深度整合到系统底层与日常界面中,旨在让功能对普通用户易用,同时满足专业需求,而非简单堆砌功能。
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
AA-WER Streaming是一个新基准,用于测量流式语音转文本模型在语音智能体场景下的准确率与延迟。该测试基于约8小时音频,报告词错误率与延迟。关键结果显示:Cartesia Ink-2(语义端点)在最终转录中准确率最高(WER 3.59%,延迟0.21秒);ElevenLabs Scribe v2 Realtime在首次部分转录中准确率最高(WER 3.65%,延迟0.13秒);Deepgram Flux在速度上领先,最终和首次部分转录延迟分别为0.020秒和0.019秒。
Bloomberg泄露了苹果iOS 27中Siri的全面改版方案。核心架构是Siri将基于Google Gemini构建,界面新增下拉菜单,允许用户直接切换至ChatGPT或Claude。这表明苹果在重建Siri后,选择整合外部大模型。此外,苹果还将推出与Perplexity竞争的AI网络搜索功能、自然语言创建Shortcuts的能力以及AI照片编辑工具。此次更新是Siri历史上规模最大的一次。
BREAKING: A first look with renders at Apple's upcoming iOS 27, completely revamped Siri, major new AI features, enhance...
Google发布最新Coral开发板,搭载Gemma系列模型,实现高效的本地设备端AI。核心演示包括板载实时语音翻译、通过自然语言控制硬件,以及利用视觉与声音生成音乐。此次升级的关键在于无需云端联网,解决了传统本地AI在延迟、隐私和成本方面的痛点。通过硬件与模型的深度结合,Google将AI的应用场景从云端拉回设备本地,计划于今年夏天推出。
Introducing the newest Coral board, for efficient, on-device AI! Check out the demos in the video: - On-board speech tra...
Today we're announcing our @sesame iOS app preview, giving you a first look at our collection of personal agents, a new ...
You can now transcribe meetings in real time using Codex and ask Codex questions about meetings as they're happening! I ...
Typeless 1.5.0 is live for macOS & Windows! ✨ Bringing custom shortcuts to external keyboards. ⌨️ Your favorite setup, w...
网易有道发布子曰4,一个27B参数的全模态大语言模型,在视觉数理方向达到同规模SOTA,纯文本数理难题准确率为81.4%。该模型在27B“甜点级”参数规模下,实现了多模态与纯文本数理推理的双重优势。同时,子曰4全模态模型和TTS引擎已同步开源,开放参数权重,支持本地部署与二次训练。其TTS模型只需3秒即可克隆原声,支持14种语言,克隆准确度超97%,音色还原度达95%以上。
智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度,因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染,整个链路(包括语音识别、模型判断并发与prefill、tool call修改代码)耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。