AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 340 条
全部一手资讯X论文
标签「语音」清除
OpenBMB@OpenBMB · 6月19日54

A developer in our community recently built VoiceGate using VoxCPM2 + ComfyUI for cross-lingual video dubbing and localization.💥 You can upload a video, and it automatically: 🎬 Extract speech and generate subtitles (ASR) 🌍 Translate content using LLMs 🗣 Synthesize multilingual speech with VoxCPM2 (30+ languages + 9 dialects support, plus voice cloning & timbre design) ⏱ Align audio with timestamp-aware SRT scheduling 🎧 Separate and remix voice / background audio for natural output 👍Core innovation The VoiceBridge plugin introduces SRT timestamp-driven TTS alignment into ComfyUI for the first time, enabling fine-grained subtitle-level control over speech generation. 📊SRT-driven audio splitting + TTS generation 📊Timestamp-based audio merging for precise sync 📊ASR + forced alignment for structured subtitles 📊Solves audio-video desynchronization in AI dubbing workflows 💬 Applications 🔷Turn Chinese videos into global languages (EN/JP/KO…) 🔷Bring global videos into Chinese & dialects 🔷Multilingual versions of docs, museums & education 📦Try it now:https://github.com/YanTianlong-01/VoiceGate More info https://huggingface.co/spaces/openbmb/VoxCPM-Demo https://github.com/OpenBMB/VoxCPM/ #VoxCPM2 #OpenBMB #VoiceSynthesis #SpeechModel #AIVoiceCloning

译社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。

小互@xiaohu · 6月19日65

豆包实时语音模型3.0 API 上线 看演示还是很牛P的,能干不少事情了 全双工:能同时听和说,像真人聊天那样可以随时插话 端到端:语音进、语音出,不进行转录,更快、更自然。 精准遵循 + 适时参与: 你可以一句话给它定规矩,比如多人聊天时说「现在先别出声,聊到世界杯时再加入」, 它就安静待命,等话题真到了再主动接话 最关键的一步升级: 它支持自定义工具,能在实时对话里直接调用工具完成任务,预定日历、发邮件、总结文档、发起查询,一句话语音就在对话流里办完。 这等于从「语音助手」往「语音 Agent」迈了一步

译豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。

🚨 AI News | TestingCatalog@testingcatalog · 6月19日33

OPENAI 🔥: A Realtime Voice Mode on Codex will trigger a Pet or an Orb to appear! > Users will be able to invoke them with the "Hey Chat" command. > The Orb mentioned in the Realtime Voice settings is likely the same Orb we see on ChatGPT today. > Additionally, Codex will get a Library section in the side nav, the same section we see on ChatGPT. Codex = ChatGPT soon 👀 * The video shows that Pet has been summoned via the Voice Mode button.

译OPENAI 🔥: Codex 上的实时语音模式将触发一只宠物或一个球体出现! Codex = ChatGPT 即将到来 👀 * 视频显示,宠物已通过语音模式按钮被召唤。

xAI@xai · 6月19日66

Grok TTS delivers the most human-like speech

译xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分(真人 100 分)位居榜首。该指数选取同一声音和引文,经各模型克隆后由听众盲评。

向阳乔木@vista8 · 6月18日58

今天朋友分享一个跨国小团队高效沟通对齐的方式。 只用一个工具就行,就是NotebookLM。 公司内部一些关键文档上传,生成播客,自己听没问题后,生成需要的语种,让对方听。 还有不清晰的,NotebookLM也支持文本问答。 他们实操发现效果非常好,可能团队小,也不特别在意内容安全,需要可以试试。

译分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法:将公司关键文档上传至 NotebookLM,生成播客,自己听无误后转成所需语种让对方收听;沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好,但对内容安全要求不高时适用。

Artificial Analysis@ArtificialAnlys · 6月17日65

Soniox has released Soniox v5 Real-Time: a low latency streaming Speech to Text model on the Pareto frontier for accuracy and latency, at the lowest price of any proprietary model tested Soniox v5 Real-Time is @soniox_ai's latest streaming Speech to Text (STT) model, joining Soniox v5 Async, their non-streaming model released last week. On AA-WER Streaming it occupies the middle of the Pareto frontier: faster than the most accurate models (Cartesia Ink-2, ElevenLabs Scribe v2 Realtime) and more accurate than the fastest (Deepgram Flux, Nova-3), while at a lower price than all of them. AA-WER Streaming Overview AA-WER Streaming reports WER and latency as a pair, measured from Silero VAD-detected end of speech on the same ~8 hours of audio as our non-streaming STT benchmark, AA-WER v2.0. We report both at two points: First Final (first final-denoted transcript, best for accuracy) and First Partial (first transcript-bearing event, best for when speed matters most). Key takeaways ➤ First Final Transcription: Soniox v5 Real-Time achieves a 4.5% WER at 0.05s after end of speech, more accurate than the faster Deepgram Flux (7.4%, 0.02s) and Deepgram Nova-3 Realtime (6.7%, 0.06s), and faster than the more accurate Cartesia Ink-2 external endpoints (3.7%, 0.09s) and ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) ➤ First Partial Transcription: The model achieves a 4.7% WER at 0.05s after end of speech, behind only Cartesia Ink-2 external endpoints (4.3%, 0.07s) and ElevenLabs Scribe v2 Realtime (3.6%, 0.13s) on accuracy, while faster than both ➤ Price: The model costs $2 per 1,000 minutes representing the lowest of any proprietary streaming model tested, below Cartesia Ink-2 ($4), Deepgram Nova-3 Realtime ($4.80) and ElevenLabs Scribe v2 Realtime ($6.50) ➤ Language support: The model supports over 60 languages, providing language identification and real-time translation across multilingual conversation. See more details below ⬇️

译Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。

Greg Brockman@gdb · 6月17日74

GPT-Realtime-2 is something new

译Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示,GPT-Realtime-2 是操作系统的未来,仅用语音即可打开应用、搜索网页、编辑 Premiere Pro,设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日37

OPENAI 🔥: More details about the upcoming voice mode upgrade for ChatGPT. > It will be advertised as a "major leap in intelligence". Factoring that current experience is powered by 4o it is quite expected. > Users will be able to choose between Instant, Medium and High levels. > It will likely be rolled our gradually and EEA, UK, Switzerland users will get it later as always. > Bidi stands for "Bi-directional", meaning it can listen and speak at the same time. Soon? 👀 h/t @M1Astra

译OpenAI 🔥:关于ChatGPT即将推出的语音模式升级的更多细节。 > 它将被宣传为“智能的重大飞跃”。考虑到当前体验由4o驱动,这在意料之中。 > 用户将能够在即时、中等和高等级之间进行选择。 > 它可能会逐步推出,EEA、英国、瑞士用户将像往常一样稍后获得。 > Bidi代表“双向”,意味着它可以同时收听和说话。 很快?👀 h/t @M1Astra

Rohan Paul@rohanpaul_ai · 6月17日65

Catnip just dropped MaineCoon, a 22B real-time audio-visual foundation model that turns text prompts into a live character stream with synced speech, motion, and expression. The first streaming-native model of its kind. sub-second first frame, 47.5FPS on one H100, 30FPS on one RTX Pro 6000, and about 7x faster throughput than comparable audio-visual systems in its internal tests. The big deal is that a normal video generator can wait, revise, and render a finished clip, but a social interface has to move causally, remember its own imperfect past, and stay ahead of playback without breaking identity, voice, or rhythm.

译Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Rohan Paul@rohanpaul_ai · 6月17日54

This is how you do a launch video. 👌 This is the Voice AI company for regulated industries, for those really high-stakes phone calls.

译今天,我们宣布完成 C 轮融资,筹集 1 亿美元,继续自动化世界上最复杂的电话呼叫。我们找了一个叫 Paul 的家伙来谈论这件事,因为办公室里没人愿意干。 主推文称赞这是一个出色的发布视频,并指出这家公司专注于受监管行业的高风险电话呼叫。

🚨 AI News | TestingCatalog@testingcatalog · 6月17日34

OPENAI 🔥: ChatGPT is about to get a voice mode upgrade as a new “gpt-bidi-1” model has been spotted along with announcement updates. Soon 👀 h/t @M1Astra via DevMode

译OPENAI 🔥: ChatGPT 即将迎来语音模式升级,新模型 “gpt-bidi-1” 已被发现,同时还有公告更新。 敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

DogeDesigner@cb_doge · 6月17日69

🚨 Grok Update 🚨 You can now share your screen with Grok and get real-time help in Voice Mode. Just tap the window icon, select Share Screen, and start the broadcast.

译🚨 Grok 更新 🚨 现在你可以与 Grok 共享屏幕,并在语音模式下获得实时帮助。 只需点击窗口图标,选择共享屏幕,然后开始广播。

小互@xiaohu · 6月16日51

看来 Claude 的语音模式即将推出 在设置页面可以设置语音语言和风格 而且支持中文,出乎意料 之前据说用的是 11Lab 的模型…

🚨 AI News | TestingCatalog@testingcatalog · 6月16日50

ANTHROPIC 🔥: Looks like a Voice Mode upgrade has started rolling out on Claude mobile apps. Voice mode is getting multilingual! It is likely just a first step ahead of a broader upgrade. Upcoming model selector appearance may signal an underlying model improvement coming. Besides that, the voice mode icon has a new “phone call” variant in the latest iOS build. Sus! Testing time if you got it 👀

译ANTHROPIC 🔥:看起来语音模式升级已经开始在 Claude 移动应用中推出。语音模式将支持多语言! 这很可能只是更大升级前的第一步。即将出现的模型选择器外观可能预示着底层模型的改进。 除此之外,在最新的 iOS 构建版本中,语音模式图标新增了一个“电话”变体。有猫腻! 如果你已经拿到,测试一下吧 👀

🚨 AI News | TestingCatalog@testingcatalog · 6月16日75

Cartesia shipped Sonic 3.5 and Ink 2, two models built to run as a single real-time voice stack, with transcription on one side and speech on the other. > Ink 2 ranks first for accuracy on Artificial Analysis's streaming speech-to-text board. > Sonic 3.5 places at the top of the real-time text-to-speech view at around 82ms to first audio.

译Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Josh Woodward@joshwoodward · 6月16日74

Our mic icon just got way better on Android and iOS! This is HUGE for non-English speakers. + now 70+ languages + mix languages freely + don't have to change language settings + still doesn't interrupt you :)

译我们的麦克风图标在 Android 和 iOS 上变得更好用了!这对非英语使用者来说意义重大。 + 现已支持 70+ 种语言 + 可自由混用语言 + 无需更改语言设置 + 仍然不会打断你 :)

向阳乔木@vista8 · 6月15日24

AI音乐站上新了几首风格特别的歌曲。 Suno太好玩了,组合创新,造出新的听觉体验。 https://music.qiaomu.ai/track/ghostty-1aea https://music.qiaomu.ai/track/we-flow-so-slowly-1f5e https://music.qiaomu.ai/track/neon-song-c065

Berryxia.AI@berryxia · 6月13日73

直接有人开源一键开启国行的Mac Siri AI,逻辑就是修改地区伪装美区。 地址:https://github.com/SkyBlue997/enableMacosAI

译开发者 SkyBlue997 在 GitHub 开源 enableMacosAI 工具,通过修改系统地区伪装美区来开启国行 Mac 的 Siri AI。此前有用户发现 macOS 的 GenerativeModels.plist 文件中存在 EnhancedSiriWaitlist 开关,关闭 SIP、挂载系统卷、修改键值并重启即可解锁 WWDC 新发布的 Siri AI 增强版。社区已整理出详细步骤,证明该 AI 能力早已内置,仅被等候名单屏蔽。

Google AI Developers@googleaidevs · 6月13日59

Add near real-time voice translation to your apps with Gemini 3.5 Live Translate via the Gemini Live API. 🎙️ Watch how the model handles live broadcast ingestion and translation with continuous speech-to-speech streaming (S2ST) and synced transcripts, letting users tune into global radio broadcasts in their native language.

译通过 Gemini Live API 中的 Gemini 3.5 Live Translate,为你的应用添加近实时语音翻译。🎙️ 观看模型如何处理实时直播流和翻译,包括连续语音到语音流(S2ST)和同步转录文本,让用户能以母语收听全球广播节目。

Google AI@GoogleAI · 6月13日40

Here’s what launched this week: — Gemini 3.5 Live Translate our latest audio model for live speech-to-speech translation — @NotebookLM got a major upgrade including agentic capabilities in chat, more advanced reasoning, and a suite of new output formats — Project Genie from @GoogleLabs is now available to Google AI Ultra 5x subscribers globally — Notebooks in @GeminiApp are now available in the European Economic Area, United Kingdom, and Switzerland — DiffusionGemma, our newest experimental open @googlegemma model that explores text diffusion, an exceptionally fast approach to text generation

译Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。

Berryxia.AI@berryxia · 6月12日54

我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有人发现系统里GenerativeModels.plist里藏着EnhancedSiriWaitlist开关。关掉SIP、挂载系统卷、改个键值、重启,立马就能用上。 更离谱的是这不是什么黑科技,就是改个plist文件而已。 有人还整理了超详细步骤,连新手都能跟着做,社区直接把“等候名单”这个人工闸门给撬开了。 以前大家觉得苹果产品永远是“公司说什么时候开放你就什么时候用”,结果这次新Siri的AI能力其实早就躺在系统里了,只是被名单挡着。 动手能力强的用户现在就能提前体验,官方推送反而成了后手。 这波操作把苹果一贯的封闭节奏打了个措手不及,也再次证明:真正的用户力量,永远比公司节奏快半拍。

译WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。

Orange AI@oran_ge · 6月11日72

非常厉害,但感觉很贵的样子

译Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

Chubby♨️@kimmonismus · 6月11日50

Inworld just made voice a lot cheaper, 50%+ off, double June credits, two months free on annual. Thats nice!

译Inworld 宣布将 API 价格下调约 50%,覆盖 TTS、STT 和 LLM 服务。主推文补充称语音成本降幅超 50%,并推出双倍六月积分及年付免两个月优惠。此举旨在解决消费级 AI 开发者面临的模型成本困境——现有定价基于企业级 $300/月座位,而非消费者 $10/月订阅。已有 Wishroll、Biblechat、Talkpal、Luvu 等团队实现 AI 成本降低 40-95%。

Xiaomi MiMo@XiaomiMiMo · 6月11日76

🚀 MiMo Code V0.1 is now live and open-source! More than an AI coding assistant in your terminal — it's the smartest coding partner you'll ever work with. Comes with MiMo V2.5, a multimodal model available free for a limited time, featuring a million-token context window—ready to use out of the box. ♾️ Infinite Context: Knowledge accumulates automatically, and with lossless compression, even million-line projects keep every critical detail intact—quality never drops. 🧠 Agent-Model Synergy: An Agent framework deeply optimized for MiMo, with a full closed loop of testing, review, and validation—so complex tasks get done in one pass. 📝 Compose Mode: Specs → Plans → Build → Report. Design first, code second—clear thinking, no rework. 🔄 Self-Evolving System: Every session is automatically reviewed, distilling experience and best practices—the more you use it, the smarter it gets. 🎙️ Voice Input: Powered by MiMo-V2.5-ASR — just speak instead of type, and your voice becomes the prompt for truly hands-free coding. 🔌 Claude Code Compatible: Automatically loads your existing skills, MCP servers and commands, and reuses your API configuration—zero-cost migration, no setup required. 🌐 Open & Flexible: MIT licensed, with support for leading model providers including Anthropic, OpenAI, DeepSeek, Kimi, GLM and more. Install in one line: Mac & Linux curl -fsSL https://mimo.xiaomi.com/install | bash (For the best experience,we recommand Mac user use it on iTerm or vscode terminal) Windows npm install -g @mimo-ai/cli 🔗 Learn more Website ↓ https://mimo.xiaomi.com/mimocode Blog ↓ https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon GitHub ↓ https://github.com/XiaomiMiMo/MiMo-Code

译小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

xAI@xai · 6月11日74

Grok Voice offers state-of-the-art performance with human-like timing, tone, and warmth. And it's a fraction the price of competitors. Check it out: http://x.ai/api/voice

译Grok Voice 提供最先进的性能,具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。 查看详情:http://x.ai/api/voice

🚨 AI News | TestingCatalog@testingcatalog · 6月11日62

Inworld has cut prices across its Realtime Inference and Speech-to-Text services, repricing the open models it serves so consumer voice apps can run at scale more cheaply and for longer. With Realtime Inference, Speech-to-Text with voice profiling, and a Realtime API that now runs Gemma 4, DeepSeek, and MiniMax at around half the public rate behind a single OpenAI-compatible endpoint.

译Inworld 大幅降低实时推理、带语音特征分析的语音转文本(STT)以及 TTS 服务的 API 价格,将 Gemma 4、DeepSeek、MiniMax 等开源模型

🚨 AI News | TestingCatalog@testingcatalog · 6月10日45

ANTHROPIC 🔥: Voice Mode on Claude will soon include a model selector. > Earlier, a language selector was added as well. > Currently, it says that Claude Haiku 4.5 is being used, regardless of the selected model. This may mean we have hope for a non-TTS voice mode, too, as it seems Anthropic is preparing a major upgrade. Fingers crossed 👀

译ANTHROPIC 🔥:Claude 的语音模式即将包含模型选择器。 > 此前,语言选择器也已添加。 > 目前,无论选择哪个模型,系统都显示正在使用 Claude Haiku 4.5。 这可能意味着我们也有望获得非 TTS 的语音模式,因为 Anthropic 似乎正在准备一次重大升级。 期待 👀

小互@xiaohu · 6月10日67

今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤除噪音,嘈杂环境也能用 - Google Translate App 新增「听筒模式」贴耳即听翻译 - 开发者可通过 Gemini Live API 和 Google AI Studio 直接调用 自动语言检测: 不需要提前告诉模型「我说的是中文,帮我翻成英文」。你直接说,它自己判断你在说什么语言,自动翻成目标语言。

译Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言的实时边听边译,保留说话人的语调、节奏和音高,延迟仅数秒。模型具备自动语言检测,无需预先指定源语言和目标语言。同时自动滤除噪音,嘈杂环境可用。Google Translate App 新增「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。

Berryxia.AI@berryxia · 6月10日77

兄弟们,Google 这个发布直接毫无存在感了… 昨晚Google 发布了Gemini 3.5 实时翻译模型。 早上就被A社的Fable 5 刷屏,都看不到Google的影子😂 Google把Gemini 3.5 Live Translate直接推到公开预览,低延迟语音对语音翻译一次性覆盖70多种语言、整整2000种语言对,把“语言不通”这个最后的人类沟通天堑当场砸成碎片。 它现在就能通过Gemini API接入,开发者随便扔进app里,实时对话、客服、直播、跨国会议,全都秒变无缝全球模式。 以前大家默认实时语音翻译只能对付主流语言,最冷门的小语种很多模型厂商不会去做。 这次Google一口气把那些最偏、最小众的语言对全拉进来,直接让任何应用都能全球通吃。 这套东西上线后最狠的地方,是把实时翻译从“偶尔能用”变成了“随时随地标配”,开发者手里终于多了一把能把产品瞬间推向全世界的钥匙。 不知道和Qwen 一些模型的对比效果如何,之前阿里的一些小语种模型也不错…

译Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。

ginobefun@hongming731 · 6月10日57

http://x.com/i/article/2064485562875260928 # BestBlogs 早报 · 06-10|Claude 安全分层、企业智能体治理、双语语音 Agent 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-06-10 ## 导语 今天这期 BestBlogs 早报,适合作为一份关于「生产级 AI」的阅读地图。过去几个月,很多讨论还停在模型是不是更聪明、Agent demo 是不是更惊艳;今天的三篇精讲把问题往前推了一层:当模型能力继续上升,谁来定义可用边界?当企业真的部署了成千上万个 Agent,上线后的运营成本、反馈闭环和确定性流程怎么跟上?当语音 Agent 面向真实客户,用户在一句话里切换两种语言,ASR 层的错误又会怎样传导到后面的工单、策略和回复? 把这篇图文版当作播客的延展阅读:先读三篇精讲,建立「模型能力、企业治理、入口评测」三条主线,再用速览和补充阅读补齐 RAG、Skill、CLI、基础设施和推荐系统等工程侧细节。 一个更实用的读法,是把今天所有文章都放进同一张生产链路图里:上游是 Anthropic、HRM-Text 这类模型与架构能力;中间是 RAG、Skill、Foundry、Copilot CLI 这些把能力包装成工作流的平台层;下游是 Salesforce、OpenAI 财务团队、语音 Agent、教育试验和 Netflix 推荐这类真实应用场景;最底层则是 DeepSeek-V4 云原生推理这样的基础设施。这样看,今天的主题不是某个单点突破,而是 AI 系统如何从可演示、可调用,继续走向可运营、可评测、可承担责任。 所以这期更适合边读边做笔记:每看到一个新模型或新平台,都顺手记下它解决的是能力、流程、评测、治理还是基础设施问题。这样读完之后,你得到的不是一串新闻标题,而是一组可迁移的判断标准,也更容易判断下一轮 AI 产品更新究竟补上了哪一块短板。 ## 精讲一:Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 是今天最适合放在第一位的文章,因为它不是单纯宣布一个更强的模型,而是把能力提升、访问分层、风险控制和商业价格放在同一个发布里讨论。Anthropic 将 Claude Fable 5 推向通用用户,同时把同一底层模型以 Mythos 5 的形式开放给少量可信网络安全伙伴。这个安排本身就是信号:前沿模型的发布逻辑正在从「一个模型给所有人」转向「同一能力在不同风险场景下被不同方式包装、降级和授权」。 原文最值得抓住的事实有几组。第一,Fable 5 被描述为目前 Anthropic 面向一般用户开放的最强模型,在软件工程、知识工作、视觉、科学研究等任务上都有明显提升,任务越长、越复杂,领先幅度越突出。第二,Anthropic 明确承认这类能力会带来网络安全等高风险滥用,所以对部分请求会改由 Claude Opus 4.8 响应;由于安全规则设得保守,平均少于 5% 的会话会触发这种降级。第三,Mythos 5 与 Fable 5 使用同一底层模型,但在部分领域放宽安全限制,先通过 Project Glasswing 面向网络防御者和基础设施伙伴部署。第四,价格也被一起给出:每百万输入 token 10 美元、每百万输出 token 50 美元,低于 Claude Mythos Preview 的一半。 这些信息放在一起,重点就不只是「Claude 又变强了」。更重要的是,模型厂商开始把能力、风险和客户资格拆成可运营的产品层级。对普通开发者来说,Fable 5 的关键价值可能是更长任务、更复杂代码迁移和更强文档推理;对安全团队来说,Mythos 5 的意义则在于把高风险能力放进可信访问计划,而不是简单地对所有人开放或全部封锁。原文还提到早期案例,包括在 50-million-line Ruby 代码库上做迁移、在生命科学中加速药物设计假设探索等。这些案例不应被读成「任何团队马上都能复制」,而应读成厂商用来说明模型长程自治能力正在进入真实工作流的证据。 从产品采用角度看,这篇文章还给企业买方一个判断框架:当供应商说模型更强时,应该追问能力提升出现在哪些任务长度、哪些业务流程、哪些风险领域;当供应商说安全可控时,应该追问降级策略是否透明、误伤率如何衡量、什么请求会被转给更弱模型;当供应商说有更高权限版本时,应该追问访问资格、审计机制和责任主体。换句话说,前沿模型的采购不再只是比较跑分、价格和上下文窗口,而是要把模型当成有访问层级的基础设施来评估。 它和今天另外两篇精讲之间有很强的呼应。Salesforce 的文章讨论企业 Agent 上线后的运营,ServiceNow 的 ASR 基准讨论语音入口的可靠性;Anthropic 这篇则是在底层模型层面提出同一个问题:AI 能力越接近生产核心,越不能只看 benchmark,还要看权限、降级、监控和事故边界。阅读建议是先看发布中的安全分层和价格段落,再看软件工程与知识工作案例,最后回到 Mythos 5 的可信访问机制。这样读能避免被「最强模型」的表述带偏,而是把它放进企业采用 AI 的真实治理链路里。 ## 精讲二:Salesforce 从 20,000 个企业智能体部署中学到的经验 Salesforce 从 20,000 个企业智能体部署中学到的经验 的价值在于,它把 Agent 的讨论从「怎么做一个 demo」拉回到「怎么在企业里长期跑下去」。ByteByteGo 借 Salesforce Agentforce 的生产部署复盘了一个很现实的事实:很多 Agent 失败不是因为模型完全不能用,而是因为团队低估了上线之后的运营工作。文章提到 Salesforce 已有超过 20,000 个企业客户运行 Agentforce,支持 Agent 单项就处理了超过 3 million 次对话,这给它的经验总结提供了足够的生产背景。 这篇文章先把 Agentforce 拆成几层:用户通过 Slack、聊天窗口或消息应用进入 engagement layer;agent layer 负责推理、决策、监控和编排;system of work 连接销售、服务、商务等真正承载业务动作的应用;context layer 提供数据和元数据;贯穿全栈的 trust layer 负责多模型、权限和 guardrails。这个架构图本身并不神秘,很多企业平台都会画类似的层次。真正有意思的是后面的工作量反转:传统软件往往把大部分努力放在上线前,而 AI Agent 的大部分工作发生在上线后。原文用一种很直白的方式说,Agent 不是发布后就完成,而是发布后才开始学习哪里会误判、哪里需要更确定的流程、哪里需要重新定义 KPI。 具体方法上,文章强调了几个比 prompt 更重要的环节。首先是反馈循环,团队要能把失败对话、用户评价、业务结果和改进动作串起来。其次是上下文治理,Salesforce 的案例里提到从 135,000 篇帮助文档中选取相关内容,并把上下文从 100K tokens 级别裁剪到 2K tokens 左右,这说明生产 Agent 的效果并不是「给模型越多越好」,而是要让检索、过滤和业务语境足够精确。第三是确定性流程:有些步骤不适合交给模型自由发挥,比如退款、权限变更、关键字段写入和合规判断,需要被约束在可追踪的工作流里。 这篇文章也把一个常被忽略的角色摆到台前:业务团队本身。企业 Agent 不是工程团队写完后交付给业务部门使用的普通软件,而是需要业务人员持续标注成功与失败、定义哪些回答可接受、哪些动作必须升级人工、哪些知识库内容已经过期。帮助文档、CRM 数据、工单历史和政策规则如果没有清洗和归属,Agent 很容易在看似合理的回答中放大旧流程的问题。Salesforce 的经验因此更像一套组织运行建议:先把反馈、KPI 和人工兜底设计好,再谈更高的自动化比例。 它的重要性在于,很多团队今天仍然把 Agent 当成一个更会聊天的界面,忽略了企业系统里真正贵的部分是责任边界。谁批准动作?谁观察失败?谁定义成功?谁把一次错误转成可复现的测试?这些都不是一个更长的 system prompt 能解决的。和 Anthropic 的发布对照看,底层模型可以更强,但企业采用它的瓶颈往往在组织和平台能力;和 ASR 基准对照看,入口转写如果错了,后面的 Agent 再聪明也会在错误上下文里自信执行。阅读这篇时,建议重点看「上线后运营」而不是产品宣传:把它当成一份 Agent 项目复盘清单,逐条映射到自己团队有没有日志、评测集、回放机制、业务 KPI 和人工兜底。 ## 精讲三:语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 切中的是语音 Agent 的入口问题。很多语音产品 demo 看起来流畅,是因为输入被控制得很干净:单一语言、清晰句子、标准任务。但真实企业场景里,客户可能一句话里先用西班牙语描述问题,再夹一个英文产品名;员工可能用法语问 HR 政策,中间插入英文岗位、系统或报错信息。ServiceNow AI 在 Hugging Face 发布的这组基准,就专门评估 ASR 系统在 code-switching 语音上的表现。 原文背景很清楚:全球超过一半人口会说不止一种语言,语码转换并不是少数人的异常行为,而是很多双语用户的自然交流方式。企业服务场景尤其如此,因为 HR、ITSM、客服和内部支持会同时出现本地语言、英文软件名、政策术语和工单字段。ServiceNow 团队因此把 ASR 放在第一步评估,因为转写错误会沿着语音 Agent 的整个 pipeline 传播:转写错了,意图识别、检索、策略判断和最终回复都会跟着偏。 这组基准覆盖四组语言对:Spanish-English、French-English、Canadian French-English 和 German-English。数据来自 HR 与 IT 服务管理相关场景,包括福利、薪资、密码重置、VPN 访问、设备排障等常见任务。指标也不只看传统的 WER。文章同时报告 WER、Semantic Word Error Rate 和 Answer Error Rate,分别观察字面转写、语义保留和下游回答影响。这个设计很重要,因为生产系统真正关心的不只是一个词有没有拼对,而是错误是否改变了用户意图、工单类别或解决路径。原文的主要结论是,code-switching 的成本会随语言对和模型而变化;ElevenLabs Scribe V2、Gemini 3 Flash 与 AssemblyAI Universal 3-Pro 在多项指标上更稳。 对产品团队来说,这篇的落点尤其实际。很多语音 Agent 项目会把失败归因于 LLM 没理解、知识库没命中或 prompt 不够清晰,但如果 ASR 在第一步就把语言切换、专有名词、工号、系统名或政策关键词转错,后面的模块其实是在处理一个已经变形的问题。企业如果面向多语言客户,应该把语码转换纳入灰度测试,而不是等上线后从投诉里发现问题。更进一步,评测集也不该只收集标准客服句子,还要覆盖短句、口语、省略、产品名混用和不同语言中嵌入英文术语的表达。 这篇文章和今天的企业 Agent 主线关系很密。Salesforce 的经验告诉我们,上线后要有反馈闭环;这篇则提醒我们,反馈闭环必须从输入层开始,而不是只在 LLM 输出层打补丁。Anthropic 的发布强调能力和安全分层;语音 Agent 则说明能力边界还包括语言、口音、术语和场景分布。对要做客服、HR 或 IT helpdesk 语音产品的团队来说,这篇最值得学的不是某个榜单名次,而是评测框架:先定义真实任务、真实语言混合方式和下游损失,再比较模型。阅读建议是先看 Introduction 和 Benchmark 部分,理解为什么要把 ASR 与下游回答一起评估;如果时间有限,再直接看结果和错误分析,把它当作建立自家语音 Agent 测试集的模板。 三篇精讲合在一起,给出的其实是一条很朴素的工程原则:不要把 AI 系统的可靠性寄托在单个最强模型上。模型层要有能力分级和访问控制,平台层要有日志、指标、反馈和确定性流程,入口层要用真实用户语言和真实任务分布做评测。只要其中任何一层被忽略,系统都可能在 demo 中显得聪明,却在生产中变得难以解释、难以修复、难以承担责任。 ## 速览 Gemini 引导式学习:塞拉利昂随机对照试验结果 Google DeepMind 分享了与 Fab AI、塞拉利昂教育部合作的随机对照试验。研究在 Port Loko District 的 12 所学校、1,763 名初中学生中进行,为期 8 周,评估 Gemini Guided Learning 对数学进步的影响。文章的价值不在于把 AI 包装成教师替代品,而是给「AI 如何辅助教育」提供了更接近政策和课堂现实的证据:要看学习效果、教师角色、批判性思维保护,而不只是问答体验是否顺滑。 如何更科学、方向可控的实现 Skill 的“自进化”? 这篇阿里云开发者文章把 Agent Skill 的自动沉淀从经验话题拉回研究脉络,集中解读 Trace2Skill、EvoSkill、SkillOpt 三条路线。它讨论的不是「让 Agent 自动写更多 Skill」这么简单,而是如何避免沉淀质量不高、更新后效果变差、Skill 库膨胀难管理等问题。适合正在搭建 Agent 平台或内部工作流工具的团队阅读,尤其适合和今天 Salesforce 的上线后反馈闭环一起看。 生产环境中常见的 10 个 RAG 错误 Towards Data Science 这篇文章总结了生产级 RAG 的十类坑,覆盖文档解析、问题解析、检索和生成多个环节。它最有用的提醒是:很多失败不是因为模型不够强,而是因为团队把文档和问题都当成扁平字符串处理,没有把结构、字段、上下文和任务边界建模清楚。对合规、理赔、合同审查或企业知识库场景来说,这篇能帮助你把「召回更多内容」改成「构造更可靠的信息对象」。 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 通义实验室与 Efflora 团队的实验让 Qwen3.7-Max 只基于一份产品调研文档,在隔离环境里从 0 交付移动端和 Web 端应用。文章里更值得看的不是「模型写了多少代码」,而是它如何处理规划、架构、模块拆分、数据模型、接口、验证和修复。它和 Claude Fable 5 的长程软件工程案例形成对照:Agent 工程质量不是一次生成出来的,而是在约束、验证和闭环中逐步收敛。 OpenAI 如何打造 AI 原生财务团队:工程师嵌入、ChatGPT、Codex 与工作流智能体 这条 OpenAI 视频从企业职能部门角度讲 AI 原生运营。财务负责人 Stacie Faggioli 介绍了工程师嵌入财务团队、使用 ChatGPT、Excel 智能体、Codex 仪表盘和工作流 Agent 的方法。它适合和 Salesforce 文章配对阅读:一个讲平台型 Agent 如何规模化部署,另一个讲企业内部职能如何重组工作方式。重点不是工具清单,而是把自动化能力嵌进真实流程和责任结构。 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 招商银行信息技术部这篇实践文把视角拉到 AI 基础设施。文章围绕 DeepSeek-V4 Flash 的大 EP 推理服务,讲 PD 分离、Router、Prefill、Decode、多角色拓扑、动态端口分配、服务发现、多级故障自愈和原地升级。它提醒我们,生产级 AI 不只是模型和应用层的问题;当推理从单机走向分布式集群,Kubernetes 原生工作负载并不能自然表达所有拓扑和故障联动。 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 腾讯云开发者对 HKUDS nanobot 的拆解很适合用来校准 Agent 框架复杂度。文章提到 nanobot 以约 3,935 行核心代码实现集中式 AgentLoop、ReAct 循环、Markdown 技能系统、文件系统记忆和多渠道接入,并对比了 LangChain 级别的大型框架。它不是说所有系统都应极简,而是展示了控制面集中化带来的可理解性,以及这种设计在复杂编排、可观测性和扩展性上的边界。 速览里的七篇可以分成三组来读。教育试验、OpenAI 财务团队和 Qwen3.7-Max 应用交付,回答的是 AI 在具体业务里如何证明价值;Skill 自进化、RAG 错误和 nanobot,则回答 Agent 工程该如何沉淀、约束和保持可维护;DeepSeek-V4 云原生推理实践提醒我们,所有上层能力最终都要落在算力、网络、调度和故障恢复之上。如果只挑一组,建议按自己的岗位选择,而不是按热度选择。 ## 补充阅读 多媒体积木块 这篇 Hugging Face 博客展示了一个 Agent 如何通过两个 Space 的 agents.md 端点串起图像生成和 3D 重建,做出巴黎纪念碑 3D 画廊。它补充的是「工具可组合」方向,适合关心多媒体 Agent、Space 生态和未来软件接口形态的人。 Microsoft Foundry 新增运行时、工具链与治理能力,助力生产级智能体 InfoQ 梳理了 Build 2026 上 Microsoft Foundry 的新能力,包括托管 Agent、程序性记忆、Foundry IQ、MAI 模型、可观测性和治理。它是 Salesforce 文章的生态侧补充,适合正在比较企业 Agent 平台选型的读者。 从一次性提示词到工作流:如何在 GitHub Copilot CLI 中使用自定义智能体 GitHub Blog 介绍 Copilot CLI 的自定义 Agent:用 Markdown 配置文件沉淀团队专属流程,自动化安全审计、IaC 合规、发布文档和事件响应。它适合想把临时 prompt 变成可复用团队工作流的工程团队。 Introducing FrontierCode FrontierCode 关注模型能否写出高质量、可合并的生产代码,而不只是通过正确性测试。它能补充 Claude Fable 5 与 Qwen3.7-Max 两条软件工程新闻,适合关心 AI 编码评测、代码审查标准和真实仓库质量的人。 新架构模型 HRM-Text 创新纪录!1B 参数、1000 美元,图灵奖得主都亲自下场了 机器之心解读 HRM-Text:约 1B 参数、较低训练成本、分层递归架构和针对性训练目标。它补充的是模型架构效率路线,适合不只看大模型 scale,也关心「更少参数和数据能否换来更高推理产出」的读者。 个性化推荐的价值:来自 Netflix 的证据 这篇 arXiv 经济学论文用 Netflix 收视数据量化个性化推荐的因果影响,认为个性化推荐相较更简单算法可提升 4%-12% 的用户参与度。它适合推荐系统、增长和内容平台读者,尤其适合思考「精准匹配」与「曝光效应」的区别。 ## 今日阅读路径 如果你只有 20 分钟,先读三篇:第一篇读 Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5,建立对前沿模型能力分层和安全降级的认识;第二篇读 Salesforce 从 20,000 个企业智能体部署中学到的经验,把视角从模型切到企业上线后的运营闭环;第三篇读 语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试,补上语音入口和评测方法。 如果你还有 30 分钟,接着读 生产环境中常见的 10 个 RAG 错误、如何更科学、方向可控的实现 Skill 的“自进化”? 和 Microsoft Foundry 新增运行时、工具链与治理能力,助力生产级智能体。这三篇会把今天的主线从模型与 Agent 产品,延伸到知识检索、Skill 迭代和平台治理。最后,如果你更偏基础设施或编码评测,再补 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 与 Introducing FrontierCode。 更具体地说,今天可以按角色来读。产品负责人先看 Salesforce、ServiceNow 和 Google DeepMind,因为它们分别回答「上线后怎么运营」「真实用户输入怎么评测」「AI 辅助学习怎样证明有效」。工程负责人先看 Anthropic、RAG 错误、Foundry 和 Copilot CLI,因为它们覆盖模型能力、知识系统、平台治理和工作流复用。基础设施与平台团队则应把招商银行 DeepSeek-V4 落地实践、nanobot 架构和 FrontierCode 放在一起看:前者提醒你推理服务的云原生复杂度,后两者提醒你框架和评测都要回到可维护、可合并、可运行的真实标准。这样分层阅读,今天的 16 条内容就不会散成新闻列表,而会形成一条从模型发布到企业落地的完整链路。

ginobefun@hongming731 · 6月10日64

BestBlogs 早报 · 06-10 # Claude Fable 5 / 企业智能体 / 双语语音 Agent / RAG / AI 治理 [1] ★ 精讲|Anthropic 发布新一代 Claude:Fable 5 与网络安全版 Mythos 5 Anthropic 将 Claude Fable 5 推向大众,并把同一底层模型以 Mythos 5 形式给可信网络安全伙伴使用。原文把能力提升、安全降级和价格放在一起:高风险请求平均少于 5% 会降级到 Opus 4.8,价格为每百万输入 10 美元、输出 50 美元,还列出 50-million-line 代码迁移、药物设计约 10 倍加速等案例。 来源:Anthropic News https://www.bestblogs.dev/article/11f30fed [2] ★ 精讲|语音智能体能否处理双语客户?前沿 ASR 在语码转换语音上的基准测试 ServiceNow AI 在 Hugging Face 发布语码转换 ASR 基准,直接切中语音 Agent 的真实入口问题:双语用户会在 HR 和 IT 服务场景中自然切换语言。它覆盖 4 组语言对、7 个 ASR 系统,并用 WER、SWER、AER 区分转写准确率和下游语义影响,结论是 Scribe V2、Gemini 3 Flash 与 AssemblyAI 在双语输入上最稳,更贴近生产。 来源:Hugging Face - Blog https://www.bestblogs.dev/article/4aec841d [3] ★ 精讲|Salesforce 从 20,000 个企业智能体部署中学到的经验 ByteByteGo 借 Salesforce Agentforce 的 20,000 个企业客户复盘生产级 Agent:支持 Agent 已处理 3 million 次对话,但真正难点是上线后运营。文章把传统软件的工作量分布反转成 AI Agent 90% 在上线后,并用 135,000 篇帮助文档、100K 到 2K tokens 的上下文裁剪说明反馈循环、KPI 和确定性流程为什么比继续堆 prompt 更关键。 来源:ByteByteGo Newsletter https://www.bestblogs.dev/article/d12e437d [4] 如何更科学、方向可控的实现 Skill 的“自进化”? 本文深入解析 Trace2Skill、EvoSkill、SkillOpt 三篇里程碑式论文,对比归纳法、自验证与训练范式三种 Skill 自进化路径,探讨如何更科学、可控地实现 Agent Skill 的自动化迭代。 来源:阿里云开发者 https://www.bestblogs.dev/article/8fcfc162 [5] 生产环境中常见的 10 个 RAG 错误 本文指出了生产级 RAG 系统中十个常见陷阱,这些陷阱分布在解析、问题解析、检索和生成四个环节,并论证了大多数失败源于将文档和问题视为非结构化字符串而非结构化对象。 来源:Towards Data Science https://www.bestblogs.dev/article/37dc70a7 [6] 只给一份文档,Qwen3.7-Max 从 0 交付双端应用 本文详细介绍了通义实验室与 Efflora 团队基于 Qwen3.7-Max 模型,仅凭一份产品调研文档,在隔离环境中从零交付移动端和 Web 端两套可运行应用的实验过程与工程方法论。 来源:通义实验室 https://www.bestblogs.dev/article/8d85909c [7] Gemini 引导式学习:塞拉利昂随机对照试验结果 塞拉利昂的一项随机对照试验表明,Google Gemini 的引导式学习功能显著提升了数学学习效果,学生在八周内取得了相当于 2.5 年的学业进步。 来源:Google DeepMind News https://www.bestblogs.dev/article/a01d514e [8] 4000 行代码撑起一个 Agent 框架?nanobot 架构深度解析 本文深度解析开源 Agent 框架 nanobot 的架构设计,分析其以 4000 行核心代码实现极简 ReAct 循环、Markdown 技能系统、文件系统记忆等关键决策的优势与局限,并提炼可迁移的架构模式。 来源:腾讯云开发者 https://www.bestblogs.dev/article/9a3cb912 [9] OpenAI 如何打造 AI 原生财务团队:工程师嵌入、ChatGPT、Codex 与工作流智能体 [视频] OpenAI 财务负责人 Stacie Faggioli 介绍,公司如何把工程师、ChatGPT、Excel 智能体、Codex 仪表盘和工作流智能体嵌入财务流程,用更精简的团队运营 AI 原生财务组织。 来源:OpenAI https://www.bestblogs.dev/video/d90e3d0 [10] 业界首次:DeepSeek-V4 基于国产 AI 芯片+SGLang RBG 的云原生推理方案在招商银行落地 本文由招商银行信息技术部撰写,详细介绍了基于 SGLang RBG 组件在国产 AI 芯片上落地 DeepSeek-V4 大 EP 推理服务的云原生方案,重点剖析了动态端口分配、服务发现、多级故障自愈与原地升级等核心机制的设计与实现。 来源:AI 前线 https://www.bestblogs.dev/article/e9abd77b --- http://BestBlogs.dev · 发现真正适合你的高质量内容 根据你感兴趣的来源和兴趣标签,每天为你生成一份专属的「我的早报」。立即体验:https://bestblogs.dev

译Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。

xAI@xai · 6月10日59

Learn more about our work with @gopuff to build a personalized shopping assistant with chat, voice, and image models https://x.ai/news/grok-gopuff

译了解更多关于我们与 @gopuff 合作,利用聊天、语音和图像模型构建个性化购物助手的信息

🚨 AI News | TestingCatalog@testingcatalog · 6月10日70

GOOGLE 🔥: A new Gemini 3.5 Live Translate model has been released with a support of low latency translation across 70+ languages! The model is now available in Preview on AI Studio and APIs. Google Meet will soon start using this model for live translation too.

译Google 推出 Gemini 3.5 Live Translate 模型,支持对 70 多种语言进行低延迟实时翻译,已在 AI Studio 和 API 上开放预览。该模型可边说话边连续翻译,生成自然流畅的语音。Google Meet 即将接入该模型实现实时语音翻译。本月起,面向部分 Google Workspace 企业客户启动私密预览,年内将更广泛推出。

Jeff Dean@JeffDean · 6月10日81

Speech translation has been one of the longest-running ML efforts at Google, and we’ve come a long way. Gemini 3.5 Live Translate is our latest speech-to-speech model, supporting 70+ languages. It enables more natural conversations across languages in everyday products and apps. Here’s an example of how partners at @InsideGrab are helping connect travelers with drivers. 🚗 Rolling out in Google Translate and via the Live API in @GoogleAIStudio.

译语音翻译一直是Google历时最久的机器学习项目之一,我们已经取得了长足进展。Gemini 3.5 Live Translate是我们最新的语音到语音模型,支持70多种语言。它能让日常产品和应用中跨语言的对话更加自然。 以下是一个示例,展示@InsideGrab的合作伙伴如何帮助旅客与司机建立联系。🚗 已在Google Translate和@GoogleAIStudio的Live API中推出。

fofr@fofrAI · 6月10日70

Gemini 3.5 Live translate: Stream in speech, and stream out the spoken translation. It also magically works with multiple speakers. It does not work with Klingon (I tried). Try it on AI Studio: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview

译Gemini 3.5 Live translate:流式输入语音,并流式输出口语翻译。 它还能神奇地支持多人说话。 它不支持克林贡语(我试过)。 在AI Studio上试试: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview

Rohan Paul@rohanpaul_ai · 6月10日76

Fascinating. Google just released Gemini 3.5 Live Translate. A live speech-to-speech translation model that starts speaking in another language while the original speaker is still talking. Older translation systems often wait for a full sentence, because early words can be misleading until later words reveal tense, intent, or context. Gemini 3.5 instead runs streaming translation, where the model listens, interprets partial meaning, predicts what can safely be translated, and keeps updating as new speech arrives. supports 70+ languages, stays only a few seconds behind the speaker, and can preserve pacing, pitch, and intonation across longer sessions. Rolling out to Gemini Live API, businesses through Google Meet preview, and regular users through Google Translate on Android and iOS.

译Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。

Logan Kilpatrick@OfficialLoganK · 6月10日79

Introducing Gemini 3.5 Flash Live Translate, our real time speech to speech translation model which supports more than 70 languages (both in and out), and is so natural. It is available in the Gemini API, AI Studio, & Google Translate right now + coming soon to Google Meet!!

译Introducing Gemini 3.5 Flash Live Translate,我们的实时语音到语音翻译模型,支持超过 70 种语言(输入和输出),并且非常自然。 现在已在 Gemini API、AI Studio 和 Google 翻译中可用,并即将登陆 Google Meet!

Google AI Developers@googleaidevs · 6月9日76

Our latest audio model, Gemini 3.5 Live Translate, takes real-time speech translation to the next level for developers by delivering low-latency translation across 70+ languages. By processing speech as it streams in near real time, the model enables devs to build low-latency audio experiences with: — Multilingual input: Understands multiple languages in a single session without needing to adjust settings. — Auto-detection: Identifies the spoken language and begins translation instantly. — Native audio processing: Generates more natural-sounding speech that preserves speakers' intonation, pacing, and pitch. — Noise robustness: Filters out ambient noise for clearer conversation in loud environments.

译Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。

Google AI@GoogleAI · 6月9日85

Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports over 70 languages and starts translating as soon as you start talking, streaming translations while listening to what you say next. No awkward pauses or choppy audio, just real connection without language barriers. So, how does it work? 🤔 The model is able to make split-second decisions to juggle speed and translation quality so conversations actually feel fluid, human, and natural. In order to do this, the model must receive and contextualize the input while simultaneously outputting the translated speech. Through this process, Gemini 3.5 Live Translate manages to stay mere seconds behind each speaker and can even maintain pacing, pitch, and intonation across extended sessions. See it in action below, or try it yourself in the Google Translate app on iOS & Android.

译Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。

Google DeepMind@GoogleDeepMind · 6月9日69

Say hello, hola, 你好 to Gemini 3.5 Live Translate: our latest audio model built for fast, cross-language communication. 🌐

译说 hello, hola, 你好——欢迎 Gemini 3.5 Live Translate:我们最新的音频模型,专为快速跨语言交流而构建。🌐

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
21:19
OpenBMB@OpenBMB
54
社区开发者基于 VoxCPM2 和 ComfyUI 构建 VoiceGate,实现跨语言视频配音

社区开发者基于 VoxCPM2 与 ComfyUI 构建了 VoiceGate,实现自动语音提取(ASR)、大语言模型翻译、多语言语音合成(支持 30 多种语言和 9 种方言,含语音克隆与音色设计)、时间戳对齐音频以及背景音分离混音。核心创新 VoiceBridge 插件首次在 ComfyUI 中引入 SRT 时间戳驱动的 TTS 对齐,实现字幕级精细控制,解决 AI 配音音视频不同步问题。应用包括中文视频转英/日/韩等多语言,以及全球视频转中文及方言。

开源/仓库视频语音
14:40
小互@xiaohu
65
豆包实时语音模型3.0 API上线,支持自定义工具

豆包实时语音模型3.0 API正式上线。支持全双工(同时听和说,可随时插话)和端到端(语音进、语音出,无转录),交互更快速自然。具备精准遵循指令能力,如设定“先不出声,聊到世界杯再加入”后安静待命。关键升级是支持自定义工具,可在实时对话中直接调用工具完成任务(预定日历、发邮件、总结文档、发起查询等),从“语音助手”向“语音 Agent”迈进。

MCP/工具模型发布语音
09:23
🚨 AI News | TestingCatalog@testingcatalog
33
OPENAI 🔥: Codex 上的实时语音模式将触发一只宠物或一个球体出现! Codex = ChatGPT 即将到来 👀 * 视频显示,宠物已通过语音模式按钮被召唤。
OpenAI产品更新语音
01:21
xAI@xai
同事件精选66
xAI 的 Grok TTS 模型在 @Vapi_AI 的 Humanness Index 盲测中以 96 分(真人 100 分)位居榜首。该指数选取同一声音和引文,经各模型克隆后由听众盲评。

Vapi: Two days into blind voting of voice models on our Humanness IndexTM, and xAI's Grok TTS model is at the top of the pack....

xAI模型发布语音
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》
推荐理由:xAI Grok TTS 在 Vapi 盲测里人类相似度 96 分,只差真人 4 分,这个分数很有说服力,做语音产品的值得去听听看,能直观感受语音合成的进步。
6月18日
00:49
向阳乔木@vista8
58
NotebookLM:跨国小团队沟通对齐妙用

分享一个跨国小团队用 NotebookLM 高效沟通对齐的方法:将公司关键文档上传至 NotebookLM,生成播客,自己听无误后转成所需语种让对方收听;沟通不清晰时还可通过文本问答澄清。该方法在小团队中效果很好,但对内容安全要求不高时适用。

Google教程/实践语音
6月17日
23:15
Artificial Analysis@ArtificialAnlys
65
Soniox v5 Real-Time 发布:低延迟流式语音转文本模型

Soniox 发布 v5 Real-Time 流式 STT 模型,在 AA-WER Streaming 基准上处于准确率与延迟的帕累托前沿。First Final 转录 WER 4.5%(延迟 0.05s),比 Deepgram Flux (7.4%, 0.02s) 和 Nova-3 Realtime (6.7%, 0.06s) 更准确,比 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。First Partial 转录 WER 4.7%(延迟 0.05s),准确率仅次于上述两款模型但速度更快。价格 $2/1000 分钟,为所有测试专有流式模型最低。支持 60+ 语言及实时翻译。

模型发布语音
12:23
Greg Brockman@gdb
74
Greg Brockman 称 GPT-Realtime-2 是全新事物。@per_simmons_ 体验数周后表示,GPT-Realtime-2 是操作系统的未来,仅用语音即可打开应用、搜索网页、编辑 Premiere Pro,设置只需几个提示词且无需编码。视频演示了通过 MCP 连接 Obsidian 以及利用无障碍树控制 Premiere Pro 等功能。

Pat Simmons: GPT-Realtime 2 is the future of the operating system. I've been experimenting with it for a couple weeks now, and I gott...

OpenAI多模态教程/实践语音
07:16
🚨 AI News | TestingCatalog@testingcatalog
37
OpenAI 🔥:关于ChatGPT即将推出的语音模式升级的更多细节。 > 它将被宣传为"智能的重大飞跃"。考虑到当前体验由4o驱动,这在意料之中。 > 用户将能够在即时、中等和高等级之间进行选择。 > 它可能会逐步推出,EEA、英国、瑞士用户将像往常一样稍后获得。 > Bidi代表"双向",意味着它可以同时收听和说话。 很快?👀 h/t @M1Astra
OpenAI产品更新语音
04:35
Rohan Paul@rohanpaul_ai
65
Catnip推出MaineCoon:22B实时音频-视觉流式基础模型

Catnip推出MaineCoon,一个22B参数的实时音频-视觉基础模型,能将文本提示词转化为带同步语音、动作和表情的实时角色流,支持无限时长交互。作为首个流式原生模型,MaineCoon实现亚秒级首帧,单张H100上达47.5FPS,单张RTX Pro 6000上达30FPS,内部测试吞吐量比同类音频-视觉系统快约7倍。与被动视频生成不同,它能因果性地实时响应,记住自身不完美的过去,并保持角色身份、声音和节奏的连贯一致,让AI从轮次式应答变为“与你同在”的实时存在。

Catnip: 🥇MaineCoon: From Passive Video to Real-Time AI Presence The first unlimited-duration interactive audio-visual model. Mo...

多模态模型发布视频语音
01:32
Rohan Paul@rohanpaul_ai
54
今天,我们宣布完成 C 轮融资,筹集 1 亿美元,继续自动化世界上最复杂的电话呼叫。我们找了一个叫 Paul 的家伙来谈论这件事,因为办公室里没人愿意干。 主推文称赞这是一个出色的发布视频,并指出这家公司专注于受监管行业的高风险电话呼叫。

Bland: Today, we're announcing that we've closed our Series C and raised $100M to continue automating the world's most complex ...

行业动态语音
00:46
🚨 AI News | TestingCatalog@testingcatalog
34
OPENAI 🔥: ChatGPT 即将迎来语音模式升级,新模型 "gpt-bidi-1" 已被发现,同时还有公告更新。 敬请期待 👀 鸣谢 @M1Astra 来自 DevMode

Chetaslua: 🚨 OpenAI is planning to release GPT-Bidi-1 very soon Their next-generation voice model for more natural conversations [...

OpenAI模型发布语音
00:23
DogeDesigner@cb_doge
69
🚨 Grok 更新 🚨 现在你可以与 Grok 共享屏幕,并在语音模式下获得实时帮助。 只需点击窗口图标,选择共享屏幕,然后开始广播。
xAI产品更新多模态语音
6月16日
22:51
小互@xiaohu
51
看来 Claude 的语音模式即将推出 在设置页面可以设置语音语言和风格 而且支持中文,出乎意料 之前据说用的是 11Lab 的模型…
Anthropic产品更新语音
21:45
🚨 AI News | TestingCatalog@testingcatalog
50
ANTHROPIC 🔥:看起来语音模式升级已经开始在 Claude 移动应用中推出。语音模式将支持多语言! 这很可能只是更大升级前的第一步。即将出现的模型选择器外观可能预示着底层模型的改进。 除此之外,在最新的 iOS 构建版本中,语音模式图标新增了一个"电话"变体。有猫腻! 如果你已经拿到,测试一下吧 👀

Evinstein X: Did Anthropic update voice mode?! This is 100 times better than ChatGPT!!

Anthropic产品更新语音
15:05
🚨 AI News | TestingCatalog@testingcatalog
精选75
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。

Karan Goel: We released Sonic-3.5 and Ink-2, the #1 streaming models for text to speech and speech to text you can use in your voice...

智能体模型发布语音

推荐理由:Cartesia 同时发布实时语音合成和识别两个模型的迭代版,双双登顶第三方基准,80ms 首音频延迟让语音代理的交互感接近真人,做实时语音应用的开发者可以重点看一下。
08:07
Josh Woodward@joshwoodward
74
我们的麦克风图标在 Android 和 iOS 上变得更好用了!这对非英语使用者来说意义重大。 + 现已支持 70+ 种语言 + 可自由混用语言 + 无需更改语言设置 + 仍然不会打断你 :)
Google产品更新多模态语音
6月15日
23:42
向阳乔木@vista8
24
AI音乐站上新了几首风格特别的歌曲。 Suno太好玩了,组合创新,造出新的听觉体验。 https://music.qiaomu.ai/track/ghostty-1aea https://music.qiaomu.ai/track/we-flow-so-slowly-1f5e https://music.qiaomu.ai/track/neon-song-c065
大佬观点语音
6月13日
09:14
Berryxia.AI@berryxia
73
开发者 SkyBlue997 在 GitHub 开源 enableMacosAI 工具,通过修改系统地区伪装美区来开启国行 Mac 的 Siri AI。此前有用户发现 macOS 的 GenerativeModels.plist 文件中存在 EnhancedSiriWaitlist 开关,关闭 SIP、挂载系统卷、修改键值并重启即可解锁 WWDC 新发布的 Siri AI 增强版。社区已整理出详细步骤,证明该 AI 能力早已内置,仅被等候名单屏蔽。

Berryxia.AI: 我尼玛!苹果现在安全性真的差! 世界果真就是草台班子、谁也不例外! 苹果新Siri AI的等候名单? 国外大神Mac用户直接一顿操作就把AI增强版给硬解锁了,名单这东西瞬间成了笑话。 WWDC刚秀完新Siri,大家还在排队等官方推送,结果有...

GitHub开源/仓库端侧语音
05:48
Google AI Developers@googleaidevs
59
通过 Gemini Live API 中的 Gemini 3.5 Live Translate,为你的应用添加近实时语音翻译。🎙️ 观看模型如何处理实时直播流和翻译,包括连续语音到语音流(S2ST)和同步转录文本,让用户能以母语收听全球广播节目。
Google产品更新语音
01:15
Google AI@GoogleAI
40
Google AI 本周发布多项更新

Google AI 本周推出多项更新:Gemini 3.5 Live Translate 是用于实时语音到语音翻译的最新音频模型;NotebookLM 获重大升级,加入智能体对话能力、更高级推理及新输出格式;来自 GoogleLabs 的 Project Genie 向 Google AI Ultra 5x 订阅者全球开放;GeminiApp 中的 Notebooks 在 EEA、英国、瑞士上线;同时发布实验性开源模型 DiffusionGemma,探索文本扩散技术,实现极快文本生成。

智能体Google产品更新开源生态
6月12日
00:10
Berryxia.AI@berryxia
54
苹果新Siri AI等候名单形同虚设:Mac用户通过修改plist文件即可解锁

WWDC上苹果展示新Siri AI,用户需排队等候官方推送。但有Mac用户发现系统里GenerativeModels.plist文件藏有EnhancedSiriWaitlist开关,通过关闭SIP、挂载系统卷、修改键值并重启即可绕过等候名单直接启用。社区已整理详细教程。这一操作暴露新Siri的AI能力早已内置在系统中,仅被人为名单阻挡,官方推送反而滞后。

ldt: How to bypass the new Siri waitlist (Mac only): 🧵 #WWDC26

安全/对齐现象/趋势语音
6月11日
06:41
Orange AI@oran_ge
72
Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言边听边译,保留说话人语调、节奏和音高,延迟仅几秒,自动降噪。Google Translate App 新增听筒模式,开发者可通过 API 调用,支持自动语言检测。

小互: 今天被很多人忽略的大新闻 Google 发布实时翻译模型 :Gemini 3.5 Live Translate - 能在70多种语言之间做到边听边译 - 同时保留说话人的语调、节奏和音高 - 不用等说完才翻,全程只比说话人慢几秒 - 自动滤...

Google产品更新多模态语音
05:47
Chubby♨️@kimmonismus
50
Inworld 宣布将 API 价格下调约 50%,覆盖 TTS、STT 和 LLM 服务。主推文补充称语音成本降幅超 50%,并推出双倍六月积分及年付免两个月优惠。此举旨在解决消费级 AI 开发者面临的模型成本困境--现有定价基于企业级 $300/月座位,而非消费者 $10/月订阅。已有 Wishroll、Biblechat、Talkpal、Luvu 等团队实现 AI 成本降低 40-95%。

Inworld AI: We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...

行业动态语音
04:24
Xiaomi MiMo@XiaomiMiMo
76
小米 MiMo 推出开源 AI 编程助手 MiMo Code V0.1

小米 MiMo 正式开源 AI 编程助手 MiMo Code V0.1,搭载多模态模型 MiMo V2.5(限时免费),拥有百万 token 上下文窗口。核心功能包括:无限上下文与无损压缩、Agent 框架(测试/审查/验证闭环)、Compose 模式(设计先行)、自进化系统、语音输入(基于 MiMo-V2.5-ASR)。兼容 Claude Code,自动加载现有技能、MCP 服务器和命令,零成本迁移。采用 MIT 许可,支持 Anthropic、OpenAI、DeepSeek、Kimi、GLM 等模型提供商。可通过一行命令安装。

智能体产品更新开源生态编码
02:48
xAI@xai
同事件精选74
Grok Voice 提供最先进的性能,具有类人的时机、语调和温暖感。而且价格仅为竞争对手的一小部分。 查看详情:http://x.ai/api/voice

ServiceNow AI Research: 🚀 Grok Voice Think Fast 1.0 (@xAI) lands on the Pareto frontier on EVA-Bench - no system in the eval beats it on accura...

xAI模型发布语音
同一事件,精选展示《Grok 成为 Vapi 的默认语音引擎》
推荐理由:语音AI的SOTA这次不是OpenAI了,Grok Voice在EVA-Bench上无死角领先,价格还打到对手十分之一,做语音产品的可以认真看看这个帕累托前沿选手。
01:02
🚨 AI News | TestingCatalog@testingcatalog
62
Inworld 大幅降低实时推理、带语音特征分析的语音转文本(STT)以及 TTS 服务的 API 价格,将 Gemma 4、DeepSeek、MiniMax 等开源模型

Inworld AI: We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...

产品更新推理语音
6月10日
22:59
🚨 AI News | TestingCatalog@testingcatalog
45
ANTHROPIC 🔥:Claude 的语音模式即将包含模型选择器。 > 此前,语言选择器也已添加。 > 目前,无论选择哪个模型,系统都显示正在使用 Claude Haiku 4.5。 这可能意味着我们也有望获得非 TTS 的语音模式,因为 Anthropic 似乎正在准备一次重大升级。 期待 👀
Anthropic产品更新语音
16:45
小互@xiaohu
67
Google 发布实时翻译模型 Gemini 3.5 Live Translate

Google 推出 Gemini 3.5 Live Translate,支持 70 多种语言的实时边听边译,保留说话人的语调、节奏和音高,延迟仅数秒。模型具备自动语言检测,无需预先指定源语言和目标语言。同时自动滤除噪音,嘈杂环境可用。Google Translate App 新增「听筒模式」,贴耳即可听翻译。开发者可通过 Gemini Live API 和 Google AI Studio 调用。

Google模型发布语音
08:07
Berryxia.AI@berryxia
77
Google Gemini 3.5 Live Translate 公开预览,支持70+种语言

Google 推出 Gemini 3.5 Live Translate 实时翻译模型,已进入公开预览阶段,通过 Gemini API 提供低延迟语音到语音翻译,覆盖 70+ 种语言、2000 种语言对,包括大量冷门小语种。开发者可将该能力集成到实时对话、客服、直播、跨国会议等场景中。主推文指出该发布被 Anthropic Fable 5 刷屏抢了风头,并提及阿里 Qwen 系列小语种模型的可比性。

Google for Developers: Gemini 3.5 Live Translate is now in Public Preview via the Gemini API, delivering low-latency speech-to-speech translati...

Google模型发布语音
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
07:19
ginobefun@hongming731
57
BestBlogs早报
智能体AnthropicOpenAI现象/趋势
07:19
ginobefun@hongming731
64
BestBlogs 早报 · 06-10

Anthropic发布Claude Fable 5与Mythos 5,输入$10/M、输出$50/M,5%高风险请求降级到Opus 4.8,药物设计加速10倍。ServiceNow发布语码转换ASR基准,覆盖4组语言对、7个ASR系统,Scribe V2、Gemini 3 Flash和AssemblyAI表现最稳。Salesforce从20,000个Agentforce企业客户总结:支持Agent处理3百万次对话,上线后运营是难点。

ginobefun: http://x.com/i/article/2064485562875260928

智能体Anthropic检索增强模型发布
03:42
xAI@xai
59
了解更多关于我们与 @gopuff 合作,利用聊天、语音和图像模型构建个性化购物助手的信息
xAI多模态行业动态语音
02:23
🚨 AI News | TestingCatalog@testingcatalog
70
Google 推出 Gemini 3.5 Live Translate 模型,支持对 70 多种语言进行低延迟实时翻译,已在 AI Studio 和 API 上开放预览。该模型可边说话边连续翻译,生成自然流畅的语音。Google Meet 即将接入该模型实现实时语音翻译。本月起,面向部分 Google Workspace 企业客户启动私密预览,年内将更广泛推出。

Google: By translating continuously as you speak, Gemini 3.5 Live Translate generates smooth, natural-sounding speech without pa...

Google模型发布语音
01:51
Jeff Dean@JeffDean
同事件精选81
语音翻译一直是Google历时最久的机器学习项目之一,我们已经取得了长足进展。Gemini 3.5 Live Translate是我们最新的语音到语音模型,支持70多种语言。它能让日常产品和应用中跨语言的对话更加自然。 以下是一个示例,展示@InsideGrab的合作伙伴如何帮助旅客与司机建立联系。🚗 已在Google Translate和@GoogleAIStudio的Live API中推出。
Google模型发布语音
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google把语音翻译做到70+语言,Gemini 3.5 Live Translate直接塞进Google Translate和API,普通人下载App就能用,做跨国生意的这下有福了。
01:05
fofr@fofrAI
70
Gemini 3.5 Live translate:流式输入语音,并流式输出口语翻译。 它还能神奇地支持多人说话。 它不支持克林贡语(我试过)。 在AI Studio上试试: https://aistudio.google.com/live?model=gemini-3.5-live-translate-preview
Google产品更新多模态语音
00:15
Rohan Paul@rohanpaul_ai
76
Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google 推出 Gemini 3.5 Live Translate,一款实时语音转语音翻译模型。它在原说话者尚未说完时即开始翻译,无需等待完整句子。模型采用流式翻译,边听边更新结果,支持 70 多种语言,延迟仅数秒,并能保持语速、音高和语调。该功能通过 Gemini Live API、Google Meet 预览版以及 iOS/Android 版 Google Translate 应用推出。

Google AI: Today, we released Gemini 3.5 Live Translate, our latest audio model for live speech-to-speech translation. It supports ...

Google多模态模型发布语音
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
00:05
Logan Kilpatrick@OfficialLoganK
79
Introducing Gemini 3.5 Flash Live Translate,我们的实时语音到语音翻译模型,支持超过 70 种语言(输入和输出),并且非常自然。 现在已在 Gemini API、AI Studio 和 Google 翻译中可用,并即将登陆 Google Meet!
Google多模态模型发布语音
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
6月9日
23:47
Google AI Developers@googleaidevs
76
Google 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google AI 推出音频模型 Gemini 3.5 Live Translate,为开发者提供低延迟实时语音翻译,支持 70+ 种语言。模型具备多语言输入(同会话无需切换)、自动语言检测、原生音频处理(保留说话者语调、语速和音高)以及噪声鲁棒性(过滤环境噪音),可直接处理流式语音。

Google多模态模型发布语音
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
23:37
Google AI@GoogleAI
85
Google AI 发布 Gemini 3.5 Live Translate 实时语音翻译模型

Google AI 推出 Gemini 3.5 Live Translate,一款面向实时语音到语音翻译的音频模型。该模型支持 70 多种语言,可在用户说话的同时开始翻译并流式输出译文,避免尴尬停顿或断续。模型通过毫秒级决策平衡速度与翻译质量,使对话流畅自然。它可边接收输入边输出翻译语音,延迟仅比说话者慢几秒,并能在长对话中维持语速、音高和语调。目前已在 iOS 和 Android 版 Google Translate 应用中上线。

Google多模态模型发布语音
关联讨论 16 条X:Google AI (@GoogleAI)Google Blog:AI(RSS)X:Sundar Pichai (@sundarpichai)Google DeepMind:Blog(RSS)The Verge:AI(RSS)X:Google DeepMind (@GoogleDeepMind)Google Developers Blog(RSS)The Decoder:AI News(RSS)IT之家(RSS)X:Gemini (@GeminiApp)Hacker News 热门(buzzing.cc 中文翻译)X:Google AI for Developers (@googleaidevs)X:Logan Kilpatrick (@OfficialLoganK)X:Ethan Mollick (@emollick)X:阿易 AI Notes (@AYi_AInotes)X:Kim (@kimmonismus)
23:35
Google DeepMind@GoogleDeepMind
同事件精选69
说 hello, hola, 你好--欢迎 Gemini 3.5 Live Translate:我们最新的音频模型,专为快速跨语言交流而构建。🌐
Google模型发布语音
同一事件,精选展示《Gemini 3.5:具备行动能力的前沿智能》
推荐理由:Google 这个实时翻译模型把语音+翻译+大模型拧成了一股绳,虽然具体怎么用还不清楚,但做跨境、做语音助手的同学可以把它当个方向标。
‹ 上一页
1234…9
下一页 ›