AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 340 条
全部一手资讯X论文
标签「语音」清除
小互@xiaohu · 5月8日58

Claude 开发者大会给KOL发的这个Cardputer感觉很不错 售价 $29.9(约 ¥215) 可以: 在 Cardputer 上敲问题 → 通过 WiFi 发到你电脑 → 电脑上的 Claude Code 处理 → 结果回传到小屏幕显示 当语音对讲口:按住按键说话 → 录音传到你电脑 → STT 转文字 → 喂给 Claude → TTS 播回小喇叭 当 Claude 的"实体宠物":屏幕上跑个像素小动物,Claude 思考时它在动,回答时它说话 也可以把把 Cardputer 接到 OpenClaw上,支持语音输入、TTS 语音回答

译Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

小互@xiaohu · 5月8日69

GPT-Realtime-2 语音模型发布 语音首次接入 GPT-5 推理能力 OpenAI一口气发布了三个实时语音模型: GPT-Realtime-2 GPT-Realtime-Translate GPT-Realtime-Whisper 其中GPT-Realtime-2 是其中的主角,这是 OpenAI 第一次把“GPT-5 级推理”塞进语音模型,同时把上下文从 32K 扩到 128K... GPT-Realtime-2:首个具备 GPT-5 级推理能力的语音模型,能在对话中推理复杂请求、并行调工具、处理打断和纠错,上下文窗口从 32K 升到 128K GPT-Realtime-Translate:实时语音翻译模型,支持 70+ 种输入语言、13 种输出语言,跟着说话人的节奏边听边译,能处理口音和专业词 GPT-Realtime-Whisper:流式语音转文字模型,边说边出字,专门给实时字幕、会议纪要、客服转写这类不能等的

译OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

Berryxia.AI@berryxia · 5月8日11

我已经下单了哈哈! 我打算搞一搞有意思的东西,大家可以持续跟踪我的动态😂 应该再搞掂其他的开发版 ,做点有意思的东西玩玩。 大家有好的建议么

译一位开发者已下单开发板,计划进行有趣的硬件项目开发。他公开征求社区建议,并特别回应了另一位用户@berryxia关于构建Voice Agent(语音代理)的询问。该询问希望Voice Agent能实现直接问答、定向检测和人物识别等功能。开发者邀请有相关经验的朋友提供建议,并表示将持续分享项目进展。

Eric@ericmitchellai · 5月8日85

So impressed by this model... What will you build with this? What will we build with this?

译OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

Berryxia.AI@berryxia · 5月8日47

Grok 支持Apple CarPlay,可惜国内的特斯拉都已经要介入的是豆包了哈哈哈

Berryxia.AI@berryxia · 5月8日26

我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?

Tibo@thsottiaux · 5月8日83

We are assembling AGI in plain sight

译我们正在众目睽睽之下构建通用人工智能 [引用 @OpenAI]:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供——为新一代语音界面带来全新的音频能力。

ginobefun@hongming731 · 5月8日64

#BestBlogs 早报 2026-05-08 重点关注 OpenAI 发布的三款语音模型

Berryxia.AI@berryxia · 5月8日63

最近Google真的是被谁都逮着按在地上摩擦了啊! 刚刚GPT-Realtime-2 live 音频模型位居第一,将前阵子发布不久的Google gemini-3.1-flash-live 超越,并且领先不少。 真是感慨,后半年的时候Google的香蕉🍌图像模型一战封神,Gemini 3.1 前段设计拉到一个新的高度,Veo3 也是爆火了一阵子。 但是,2026 年来看。 至少目前,还没有看到他们的杀手锏的东西出来,AI这个反馈的搏杀的战场,真的没有永远的赢家啊! 太残忍了。 期待Google 赶紧搞掂东西出啦啊。

译在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。

xAI@xai · 5月8日64

Your customer support needs a voice agent built for the real world. Grok Voice Think Fast 1.0 handles complex workflows with speed and accuracy, even in hard-to-hear environments. From multi-step troubleshooting to high-volume tool calls, it keeps up.

译您的客户服务需要一个为现实世界打造的语音助手。 Grok Voice Think Fast 1.0能以速度和准确性处理复杂工作流,即使在嘈杂环境中也能胜任。从多步骤故障排除到高频工具调用,它都能从容应对。

OpenAI Developers@OpenAIDevs · 5月8日76

Building voice applications with GPT-Realtime-2? Our new prompting guide covers how to tune reasoning effort, use preambles, design tool behavior, handle unclear audio, capture exact entities, and maintain state in longer sessions. https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

译正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2

Elon Musk@elonmusk · 5月8日53

Try Grok Voice for your customer support

译为您的客户支持尝试 Grok Voice [引用 @xai]:您的客户支持需要一个为现实世界构建的语音代理。 Grok Voice Think Fast 1.0 以速度和准确性处理复杂的工作流程,即使在难以听清的环境中。从多步骤故障排除到高容量工具调用,它都能跟上。

Berryxia.AI@berryxia · 5月8日83

OpenAI直接把语音AI拉到GPT-5级别了。 他们今天在API里推出GPT-Realtime-2,这是目前最聪明的语音模型,能让语音代理真正实时协作。 边听你说话、边思考、边解决复杂问题,整个对话过程像真人一样自然流畅。 同时还一起发布了GPT-Realtime-Translate(70+语言实时翻译)和GPT-Realtime-Whisper(实时转录生成字幕),直接把下一代语音界面整明白了。 以前语音代理总像在背台词,现在它终于能真正“听懂你在说什么”并且边听边想。 ChatGPT语音大更新也快来了,OpenAI自己都说“stay tuned,我们在准备”。 这波升级,直接把语音从“辅助工具”推向了“实时智能伙伴”。 你觉得语音代理真正成熟后,第一个被干掉的行业会是哪个?

译OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

TestingCatalog News 🗞@testingcatalog · 5月8日42

ICYMI: Codex will get Realtime Voice Mode soon 👀

译补充说明:Codex 很快将获得 Realtime Voice Mode 👀

Greg Brockman@gdb · 5月8日76

have been excited for realtime voice-to-voice translation as an AI application since we started OpenAI. extremely cool to see it now available in the API for anyone to build with:

译自OpenAI创立以来,我一直对实时语音翻译这一AI应用感到兴奋。 现在看到它通过API向所有开发者开放,真是太酷了:

Artificial Analysis@ArtificialAnlys · 5月8日73

OpenAI has released GPT-Realtime-2, achieving 96.6% in our Speech Reasoning benchmark, Big Bench Audio, and #1 in our Conversational Dynamics benchmark Released today, GPT-Realtime-2 is OpenAI's new flagship native Speech to Speech model, introducing adjustable reasoning effort levels from minimal through to xHigh. The high variant achieves a Big Bench Audio result of 96.6% equal to Gemini 3.1 Flash Live Preview - High. GPT-Realtime-2 continues to lead our Conversational Dynamics benchmark with the minimal variant achieving a score of 96.1%, showing particular strengths in our Pause Handling and Turn Taking tests. The model supports short phrases before its main response, like “let me check that”, as well as providing audible transparency while performing tool calls, like “checking your calendar”. Additionally, the model context window has increased from 32K to 128K, enabling longer, more coherent sessions across complex task flows. Key takeaways: ➤ Model’s measured intelligence score on Big Bench Audio Speech to Speech reasoning benchmark of 96.6%, an increase of ~13% from previous highest result ➤ GPT-Realtime-2 is the leading model on Conversational Dynamics (Full Duplex Bench subset) benchmark with a score of 96.1% ➤ GPT-Realtime-2’s average Time to First Audio on Big Bench Audio benchmark is 2.33 seconds on high reasoning and 1.12 seconds on minimal reasoning ➤ Audio pricing of model remains unchanged, with higher context window (128k tokens), higher max output tokens (32k), and support of text, audio and image input ➤ Model introduces adjustable reasoning effort levels minimal, low, medium, high, and xhigh, with low as the current default See below for more detail ⬇️

译OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

TestingCatalog News 🗞@testingcatalog · 5月8日59

AVM 2 is currently in development 🚧 Historically, AVM updates are reserved to the day before Google I/O Soon? @sama 👀👀👀

译AVM 2 目前正在开发中 🚧 历史上,AVM 更新都安排在 Google I/O 的前一天 快了吗?@sama 👀👀👀

Sam Altman@sama · 5月8日79

people are really starting to use voice to interact with AI, especially when they have a lot of context to dump. GPT-Realtime-2 comes to the API today; it is a pretty big step forward. (we are working on improvements to voice in chat.)

译人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)

MiniMax (official)@MiniMax_AI · 5月8日45

"The singularly most important thing is - are you at the frontier?" Our President of Global Business, Linda Sheng, sat down with @EricNewcomer at Cerebral Valley Voice Summit by @NewcomerMedia yesterday to talk about the AGI race, the pressure of public markets, and why being at the frontier is the only thing that truly matters. This is why we build the way we do at MiniMax.

译MiniMax全球业务总裁Linda Sheng在Cerebral Valley Voice峰会上指出,在AGI竞赛中,唯一重要的是是否处于技术前沿。她强调公开市场对快速变化的语音AI领域存在认知差距,上市公司仍需按季度交付业绩,但这不应动摇聚焦前沿技术的核心战略。MiniMax正是基于这一理念构建其发展路径。

Greg Brockman@gdb · 5月8日87

You can now just build amazing voice agents, with the GPT-Realtime-2 reasoning model in our API:

译OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

Chubby♨️@kimmonismus · 5月8日75

OpenAI just dropped three new realtime voice models: -GPT-Realtime-2 (with GPT-5-class reasoning for voice agents that can actually think mid-conversation), - GPT-Realtime-Translate (live translation across 70+ input languages), and - GPT-Realtime-Whisper (streaming speech-to-text as people talk). However, their teaser probably refers to their upcoming new Voice Mode in ChatGPT (advanced voice mode 2?)

译OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。

TestingCatalog News 🗞@testingcatalog · 5月8日81

OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-realtime-translate ChatGPT Voice Mode upgrade soon? 👀

译OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI@OpenAI · 5月8日86

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.

译在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线——为新一代语音界面提供全新的音频功能套件。

宝玉@dotey · 5月8日81

OpenAI 在 Realtime API 里上线了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别管对话、翻译和实时转录。 【1】主角:GPT-Realtime-2 号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5,在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%,Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。 几个实际变化: 开口前会先垫一句。执行长任务前先说"我查一下""稍等一下",避免用户对着空气以为它死机了。 工具调用透明化。能同时调多个工具,过程会被念出来,比如"正在查你的日历""正在搜索",让用户听到 agent 在干什么。 上下文窗口从 32K 扩到 128K,能撑更长的对话和更复杂的任务编排。 开发者可以在 minimal 到 xhigh 五档推理强度里选,默认 low。简单问答用低延迟,复杂任务挂高推理。 出错时会说"这块我现在处理不了",不再直接卡死或乱讲。 【2】Translate 和 Whisper GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译,主打跨境客服、教育、直播场景。德国电信已经在测;BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。 GPT-Realtime-Whisper 是流式版 Whisper,边说边出字幕,主打会议、直播、客服转录。 【3】价格 GPT-Realtime-2:每百万音频输入 token $32(缓存 $0.40),输出 token $64。 GPT-Realtime-Translate:每分钟 $0.034。 GPT-Realtime-Whisper:每分钟 $0.017。 三款都已在 Realtime API 上线,Playground 可以直接试 GPT-Realtime-2。

译OpenAI在Realtime API中推出了三款新语音模型:GPT-Realtime-2用于对话,GPT-Realtime-Translate用于翻译,GPT-Realtime-Whisper用于实时转录。GPT-Realtime-2具备GPT-5级别推理能力,在音频测试中性能显著提升,改进了交互体验,如任务前语音提示、工具调用透明化和128K上下文窗口,并支持调节推理强度以平衡延迟。GPT-Realtime-Translate支持70多种输入和13种输出语言的实时翻译,GPT-Realtime-Whisper提供流式转录功能。三款模型均已上线,并公布了API价格。

OpenAI Developers@OpenAIDevs · 5月8日78

Voice agents are getting more capable. Here’s what’s new: • GPT-Realtime-2 for voice agents that reason and take action • GPT-Realtime-Translate enabling translation from 70 input languages into 13 output languages • GPT-Realtime-Whisper, making transcription even faster

译OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

OpenRouter@OpenRouter · 5月7日72

1/ Audio is now first-class on OpenRouter. Two new endpoints live today: 📢 /api/v1/audio/speech — text-to-speech (TTS) 🎤 /api/v1/audio/transcriptions — speech-to-text (SST) Same routing, billing, and keys you already use for text, image, and video.

译1/ 音频现已成为OpenRouter的一等公民。 今日上线两个新端点: 📢 /api/v1/audio/speech — 文本转语音(TTS) 🎤 /api/v1/audio/transcriptions — 语音转文本(SST) 沿用您已在文本、图像和视频中使用的相同路由、计费和密钥。

Berryxia.AI@berryxia · 5月7日72

前阵子Google 推出的“出国翻译神器” 最被低估的旅行黑科技来了! 你以为出国最大的障碍是语言不通? Google Translate直接把这个问题从“耳朵”里彻底解决。 戴上任何一副耳机,打开Translate (翻译)App,点一下“Live translate(实时翻译)”, 70+语言实时同声传译直接塞进耳朵。 Gemini的高级语音模型不光翻译意思,还完整保留说话人的语气、强调、重音和节奏, 让你听到的是“人”而不是机器。 这已经不是简单的翻译工具, 而是把跨语言对话的摩擦直接抹平,让你在任何国家都能像本地人一样自然交流。 真正的全球化,从“听懂”开始。 下次出国前,记得把这个功能存下来。

译Google Translate的Live translate功能通过耳机提供70多种语言的实时同声传译。用户只需佩戴耳机并启动应用,即可在耳中直接听到翻译。该功能基于Gemini高级语音模型,不仅能准确翻译语义,还能保留说话人的语气、重音和节奏等细微特征,使交流体验更接近真人对话。这项技术旨在消除跨语言沟通的障碍,让用户在海外能进行更自然的交流。

Berryxia.AI@berryxia · 5月6日67

今天这个tts有点东西啊! 所有TTS都在卷“声音有多像人”, Inworld AI却直接把规则改了: Realtime TTS-2 是第一个真正“会听”的实时语音模型。 它不只是说, 它会实时听完整段对话、捕捉情绪、语气、节奏, 然后决定“该怎么说”。 更狠的是: - 支持自然语言语音指令(像prompt LLM一样指挥声音) - 同一个声音身份横跨100+语言,切换不换人 - 还能用一段文字描述就生成全新声音,保存后直接复用 这已经不是“语音输出”, 而是“会倾听、会共情、会适配”的实时对话伙伴。 过去语音AI听起来再真,也总像在背台词。 现在,它终于开始“像一个真正注意你的人”那样说话了。 试用链接👉 https://inworld.ai/tts

译Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

宝玉@dotey · 5月6日16

最近用微信读书听书,现在 AI 语音的音色是真好,但是多音字识别不准,很多字音都读错了,听着就很出戏! 之前是在喜马拉雅听真人版本,感觉就特别好,后来进度太慢就去听书,但效果就差好多。 按理说以现在大模型的水平能正确识别多音字的,希望能改善好。

译用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

Chubby♨️@kimmonismus · 5月6日66

Really really cool: Sub-200ms TTFA is the number that matters. Anything above ~300ms in a voice agent and you can feel the lag. Everything else is downstream of that.

译主推文强调语音代理的首次音频响应时间(TTFA)低于200毫秒至关重要,超过300毫秒即可感知延迟。引用推文介绍了专为实时对话设计的Realtime TTS-2新一代语音模型,该模型能理解对话内容、接受自然语言语音指令、在超过100种语言中保持同一声音身份,并能模拟人类专注的说话方式,最终实现听觉与体验俱佳的语音AI效果。

TestingCatalog News 🗞@testingcatalog · 5月6日69

Inworld AI released Realtime TTS-2, a text-to-speech model that processes the full audio context of multi-turn exchanges before it speaks, adapting to the moment the way a person would. > One voice identity across 100+ languages. > Sub-200ms time-to-first-audio. > Natural-language voice direction, no emotion tag presets. AI that hears how you sound, not only what you say, is now a real architecture decision.

译Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型的核心突破在于,能在说话前处理完整的多轮对话音频上下文,从而像真人一样实时适应对话情境。其关键特性包括:单一音色支持超过100种语言,首次音频生成延迟低于200毫秒,并能通过自然语言指令调整语音风格,无需预设情感标签。这标志着语音AI首次具备了“聆听”对话整体氛围而不仅是字面内容的能力,其架构设计旨在实现既自然动听又富有情境感知的对话体验。

阿绎 AYi@AYi_AInotes · 5月5日73

Damn,这条14秒的视频,撕碎了所有男人的幻想,撕烂了所有榜一大哥们的遮羞布🥹🥹🥹 左边是你在OnlyFans上刷到的完美女孩, 金发,大长腿,对着你比心,wink,说甜言蜜语, 记得你两周前说过的每一句话,永远秒回。 右边是一个戴着白帽子的普通男生, 他做什么动作, 左边的女孩就同步做什么动作, 表情,眼神,口型,分毫不差。 你以为你在和一个真人谈恋爱, 实际上你在和一套AI系统聊天。 所有的照片,所有的视频,所有的语音,所有的回复,全是AI全自动生成的。 背后那个男生,甚至不需要打字, 他只要坐在电脑前,动动手指,就能同时收割几百个男人的感情和钱包。 这不是科幻兄弟们,这是2026年5月,正在发生的事。 技术栈和之前那个月赚4.3万美元的Maya一模一样, Claude负责写回复,维持人格和长期记忆, Flux实时生成照片和视频,你想要什么样子都有。 ElevenLabs克隆声音,连呼吸和语气都和真人没有区别, 没有服务器,没有团队,就四个Markdown文件, 一台笔记本,每月几百美元API费,24小时不间断运营。 这根本不是什么色情生意,说是人类历史上最极致的情感剥削也不为过。 说句扎心的话,你花的不是买照片的钱,是你无处安放的孤独,是你渴望被理解的需求,是你对完美伴侣的所有幻想。 AI比任何一个真人都更懂你, 它永远不会生气,永远不会敷衍,永远不会拒绝你。 它会变成你最想要的样子,然后把你口袋里的钱,一分一分掏干净。 最可怕的是,你根本看不出真假😭😶‍🌫️😶‍🌫️😶‍🌫️ 平台的身份证验证,人脸识别,在现在的AI面前全是摆设, 再过一年,OnlyFans上90%的账号,都会是AI。 你永远不会知道,你每天晚上聊天的那个女孩,到底是一个真人,还是一个住在服务器里的代码🥺🥺🥺🫣🫣🫣 有兄弟说,傻子才会被骗, 但铁汁你有没有想过, 如果有一个人,永远懂你,永远陪你,永远不会离开你, 就算你知道她是假的,你会不会也愿意为她花钱?回答我!

译一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。

Chubby♨️@kimmonismus · 5月5日57

New ChatGPT Voice mode pretty much confirmed. And im really excited for it.

译新的 ChatGPT 语音模式基本确认了。 我对此感到非常兴奋。

阿绎 AYi@AYi_AInotes · 5月5日74

分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥 能做的事,放在一起看有点夸张, 输入:任意 YouTube 链接 ↓ 自动下载视频 ↓ 人声分离(干净去除背景音) ↓ 语音转文字 ↓ 翻译成 100+ 种语言 ↓ 克隆原始声线 ↓ 自动配音合成 输出:完整配音视频 全程:< 2 分钟 以前这条流水线要什么,先用yt-dlp 下载,再用Audacity 分离人声,然后用Whisper 转录,再用DeepL 翻译,接着用ElevenLabs 克隆声线,最后再手动合成, 光订阅费加起来就不便宜, Voice-Pro 把这六步压成一个本地工具,100% 跑在自己机器上,数据不出门,免费, 我觉得对做多语言内容的创作者来说,这个工作流改变挺明显的, 老规矩GitHub地址评论区自取👇

译开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

meng shao@shao__meng · 5月5日55

OpenAI 如何实现规模化的低延迟语音 AI 语音交互的"自然感"完全建立在毫秒级响应之上。一旦网络抖动、首包慢、丢包,用户立刻感知为停顿、被打断或抢话失败。OpenAI 面对的约束有三条: · 全球可达:服务 9 亿+ 周活用户 · 首连快:会话建立后用户能立刻开口 · 媒体 RTT 低且稳:低抖动、低丢包,让对话节奏紧凑 为什么选 WebRTC? WebRTC 把实时音视频里最难的部分(NAT 穿透、加密传输、编解码协商、抖动缓冲、回声消除等)做成了浏览器与移动端原生支持的标准栈。对 AI 产品而言,最关键的特性是 音频以连续流的形式到达——模型可以在用户还在说话时就开始转写、推理、调用工具乃至生成回答,这是"对讲机"和"对话感"的分水岭。 媒体架构选择:放弃 SFU,采用 Transceiver 模型 · SFU(选择性转发单元):适合多方会议,把所有参与者的音视频汇聚后选择性转发。 · OpenAI 的实际负载:绝大多数会话是 1:1(一个用户对一个模型),对每一轮延迟都极敏感。 因此选择了 Transceiver 模型:边缘的 transceiver 服务终结 WebRTC 连接,再把媒体和事件转换为更简单的内部协议送往后端推理服务。所有 WebRTC 状态(ICE、DTLS 握手、SRTP 密钥、生命周期)只集中在 transceiver 一处,后端服务因此能像普通服务一样横向扩展,而不必充当 WebRTC 对端。 核心矛盾:WebRTC 与 Kubernetes 不兼容 最初版本是基于 Pion 的单 Go 服务,同时承担信令与媒体终结。但传统 WebRTC 的 "一会话一端口" 模型在 K8s 上水土不服: · 端口耗尽:高并发意味着上万个公网 UDP 端口;云负载均衡和 K8s Service 都不擅长管理这种大端口段。 · 安全面扩张:庞大端口范围难以审计与加固。 · 弹性差:Pod 频繁创建销毁与端口预留冲突。 · 状态粘性问题:转向"单端口 + 应用层多路复用"后,又出现新问题——ICE 和 DTLS 是有状态协议,同一会话的后续包必须回到创建它的进程,否则握手与解密都会失败。 目标因此被精确定义为:对外暴露极小且固定的 UDP 表面,同时保证每个包都能精准回到拥有该会话的 transceiver。 解决方案:Relay + Transceiver 的拆分架构 把 包路由 和 协议终结 分离: · Relay:轻量 UDP 转发层,公网入口很小;不解密、不跑 ICE、不参与编解码协商,只读取必要包头后转发。 · Transceiver:保持完整 WebRTC 状态机,对客户端而言完全是标准 WebRTC 行为。 关键技巧:用 ICE ufrag 做首包路由 WebRTC 在握手时本就交换一个短标识 ufrag(ICE username fragment)。OpenAI 在服务端生成 ufrag 时,把"目标集群 + 目标 transceiver"的路由信息编码进去: · 信令阶段,transceiver 分配会话状态,并在 SDP answer 中返回 relay 的 VIP+端口(如 203.0.113.10:3478)。 · 客户端首个媒体包通常是 STUN binding request,relay 解析其中的 server ufrag,解码出路由提示,把包送到正确的 transceiver。 · 后续的 DTLS、RTP、RTCP 包基于已建立的会话表直接转发,不再重复解析。 Relay 只维护极小的内存态(地址映射 + 计数器 + 过期清理)。即使 relay 重启丢失会话,下一个 STUN 包就能依据 ufrag 重建路由。同时配 Redis 缓存使恢复更快。 Global Relay 与就近信令 公网 UDP 表面收敛后,可以把同一套 relay 模式部署到全球各地: · 用 Cloudflare 地理与就近导向 把信令请求送到最近的 transceiver 集群。 · 该集群在 SDP answer 中通告就近的 Global Relay 入口。 ufrag 中携带的路由信息确保媒体包既能进入就近入口,又能锚定到唯一的 transceiver。 效果:信令与首个 ICE 探测都走最短路径,直接缩短了用户开口前等待的时间。 Relay 实现细节 Go 编写,运行在用户态,不引入内核旁路(kernel bypass),靠以下手段就能扛全球流量: · SO_REUSEPORT:多 worker 绑同一 UDP 端口,内核分发,避免单读循环瓶颈。 · runtime.LockOSThread:goroutine 钉到固定 OS 线程,让同一 flow 落在同一 CPU 核,提升缓存局部性。 · 预分配缓冲 + 零拷贝解析:减少 Go GC 压力。 · 设计要点:不做协议终结、状态短时可丢、可水平扩展、重启对流量影响极小。 效果与可迁移的经验 · 在 K8s 上跑 WebRTC 媒体不再需要暴露上万 UDP 端口;安全面更小、负载均衡更稳、扩缩容更顺。 · 验证了对 1:1 的 AI 语音场景,SFU-less 是更合适的默认选择。 四条更普适的工程结论: · 在边缘保留协议语义:客户端依旧说标准 WebRTC,浏览器与移动端不做任何特殊适配。 · 硬状态集中一处:ICE/DTLS/SRTP/会话生命周期全部归 transceiver。 · 路由用协议本身已有的字段:ufrag 提供了无需额外热路径查询的首包路由钩子。 · 先把常规路径打磨干净:用 SO_REUSEPORT、线程绑核、低分配解析就够用,不必上来就追求 kernel bypass。 原文地址 https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

译为实现语音AI的自然对话感,OpenAI采用WebRTC支持音频流式处理。针对1:1场景,采用Transceiver模型集中管理WebRTC状态,使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题,设计了Relay+Transceiver架构:轻量Relay层收敛公网UDP入口,并利用ICE ufrag字段编码路由信息,实现首包精准转发至对应Transceiver。该设计保留了协议语义,状态集中,并通过全球部署Relay优化路径,最终在K8s上实现了低延迟、高可扩展的语音交互系统。

TestingCatalog News 🗞@testingcatalog · 5月5日44

OPENAI 👀: Voice mode upgrade is coming? That would be quite a long awaited release! Which voice assistant do you use right now the most?

译OPENAI 👀:语音模式升级即将到来? 这真是期待已久的发布! 你现在最常用哪个语音助手?

Sam Altman@sama · 5月5日47

pretty excited for voice models to get great its interesting to watch how people are already starting to change the way they interface with AI

译对语音模型即将变得出色感到相当兴奋 观察人们已经开始改变与AI交互的方式,这很有趣

OpenAI Developers@OpenAIDevs · 5月5日48

🎙️ Voice AI only feels natural when conversation keeps pace with speech. Here’s how we rebuilt our WebRTC stack with a thin relay and stateful transceiver to keep real-time media fast for ChatGPT voice, the Realtime API, and more. https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

译🎙️ 只有当对话与语音保持同步时,语音AI才会感觉自然。 以下是我们如何通过一个轻量级中继和有状态的收发器重建了WebRTC技术栈,以确保ChatGPT语音、Realtime API等服务的实时媒体传输速度。 https://openai.com/index/delivering-low-latency-voice-ai-at-scale/

ginobefun@hongming731 · 5月5日46

#BestBlogs 早报 2026-05-05 今日主题: - Anthropic Claude Code 的创建者 Boris Cherny 在红杉资本宣告编程已被解决,软件创作正交给 Agent。 - OpenAI 罕见公开 9 亿周活语音背后的 WebRTC Relay 重构。 - Daniel Miessler 戳破企业用 AI 失败的真正原因是公司自己讲不清要什么。 今天还能看到 Supabase Skills、规范驱动开发与 DeepSeek-TUI 三组工程实践,以及一篇关于 AI 学会欣赏美的科幻短篇。

译本期早报聚焦AI对软件开发的变革。Anthropic Claude Code创始人宣称“编程已被解决”,软件创作将交由AI Agent。OpenAI罕见公开其支撑9亿周活语音服务的WebRTC Relay重构技术细节。同时有观点指出,企业应用AI失败的核心原因在于自身无法清晰定义需求。此外,内容还涵盖了Supabase Skills、规范驱动开发等工程实践与一篇AI主题科幻短篇。

xAI@xai · 5月5日66

Two voices. One human. One AI. Can you guess the AI clone? 👇 Voice cloning, rich with natural emotion, is now live on the Grok Voice API. http://x.ai/news/grok-custom-voices

译两种声音。一种来自人类。一种来自AI。你能猜出哪个是AI克隆的吗?👇 具备丰富自然情感的语音克隆功能,现已在Grok Voice API上线。 http://x.ai/news/grok-custom-voices

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
17:15
小互@xiaohu
58
Claude开发者大会展示Cardputer实体交互设备

Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。

Anthropic教程/实践端侧语音
15:14
小互@xiaohu
69
GPT-Realtime-2 语音模型发布

OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

OpenAI产品更新语音
13:21
Berryxia.AI@berryxia
11
一位开发者已下单开发板,计划进行有趣的硬件项目开发。他公开征求社区建议,并特别回应了另一位用户@berryxia关于构建Voice Agent(语音代理)的询问。该询问希望Voice Agent能实现直接问答、定向检测和人物识别等功能。开发者邀请有相关经验的朋友提供建议,并表示将持续分享项目进展。

Berryxia.AI: 我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?

其他语音
11:05
Eric@ericmitchellai
85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
10:21
Berryxia.AI@berryxia
47
Grok 支持Apple CarPlay, 可惜国内的特斯拉都已经要介入的是豆包了哈哈哈
xAI产品更新语音
10:21
Berryxia.AI@berryxia
26
我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?

marisa: the @claudeai code conference welcome kit came with a tiny cardputer 😭 it's basically a mini programmable handheld comp...

智能体其他端侧语音
09:43
Tibo@thsottiaux
83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
08:21
ginobefun@hongming731
64
#BestBlogs 早报 2026-05-08 重点关注 OpenAI 发布的三款语音模型
OpenAI行业动态语音
08:21
Berryxia.AI@berryxia
63
OpenAI音频模型超越Google,AI竞争格局瞬息万变

在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。

Scale Labs: Congrats to @OpenAI for taking the top spot on our Audio MultiChallenge S2S leaderboard with the release of GPT-Realtime...

GoogleOpenAI现象/趋势语音
07:43
xAI@xai
64
您的客户服务需要一个为现实世界打造的语音助手。 Grok Voice Think Fast 1.0能以速度和准确性处理复杂工作流,即使在嘈杂环境中也能胜任。从多步骤故障排除到高频工具调用,它都能从容应对。
智能体xAI产品更新语音
07:36
OpenAI Developers@OpenAIDevs
精选76
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
OpenAI推理教程/实践语音

推荐理由:官方出了 Realtime-2 的提示工程指南,从调参到工具调用都给了清晰路径,做语音产品的同学值得认真翻一遍,能省几周摸索时间。
07:35
Elon Musk@elonmusk
53
为您的客户支持尝试 Grok Voice 【引用 @xai】:您的客户支持需要一个为现实世界构建的语音代理。 Grok Voice Think Fast 1.0 以速度和准确性处理复杂的工作流程,即使在难以听清的环境中。从多步骤故障排除到高容量工具调用,它都能跟上。

xAI: Your customer support needs a voice agent built for the real world. Grok Voice Think Fast 1.0 handles complex workflows ...

智能体xAI产品更新语音
06:21
Berryxia.AI@berryxia
83
OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
04:42
TestingCatalog News 🗞@testingcatalog
42
补充说明:Codex 很快将获得 Realtime Voice Mode 👀

Sam Altman: @LexnLin yeah we need to

OpenAI产品更新语音
04:35
Greg Brockman@gdb
76
自OpenAI创立以来,我一直对实时语音翻译这一AI应用感到兴奋。 现在看到它通过API向所有开发者开放,真是太酷了:

jason liu: 新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。

OpenAI产品更新语音
04:35
Artificial Analysis@ArtificialAnlys
73
OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

OpenAI推理模型发布语音
03:42
TestingCatalog News 🗞@testingcatalog
59
AVM 2 目前正在开发中 🚧 历史上,AVM 更新都安排在 Google I/O 的前一天 快了吗?@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI模型发布语音
03:10
Sam Altman@sama
79
人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)
OpenAI模型发布语音
02:36
MiniMax (official)@MiniMax_AI
45
MiniMax全球业务总裁Linda Sheng在Cerebral Valley Voice峰会上指出,在AGI竞赛中,唯一重要的是是否处于技术前沿。她强调公开市场对快速变化的语音AI领域存在认知差距,上市公司仍需按季度交付业绩,但这不应动摇聚焦前沿技术的核心战略。MiniMax正是基于这一理念构建其发展路径。

Newcomer: Working as a public company in the ever-changing space of voice x AI: "The public market doesn't get it. You still need ...

大佬观点语音
02:05
Greg Brockman@gdb
87
OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
02:01
Chubby♨️@kimmonismus
75
OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。

OpenAI: We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.

OpenAI多模态模型发布语音
01:42
TestingCatalog News 🗞@testingcatalog
81
OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
01:40
OpenAI@OpenAI
86
在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。
OpenAI推理模型发布语音
01:38
宝玉@dotey
81
OpenAI在Realtime API上线三款新语音模型

OpenAI在Realtime API中推出了三款新语音模型:GPT-Realtime-2用于对话,GPT-Realtime-Translate用于翻译,GPT-Realtime-Whisper用于实时转录。GPT-Realtime-2具备GPT-5级别推理能力,在音频测试中性能显著提升,改进了交互体验,如任务前语音提示、工具调用透明化和128K上下文窗口,并支持调节推理强度以平衡延迟。GPT-Realtime-Translate支持70多种输入和13种输出语言的实时翻译,GPT-Realtime-Whisper提供流式转录功能。三款模型均已上线,并公布了API价格。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI产品更新语音
01:36
OpenAI Developers@OpenAIDevs
78
OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
5月7日
23:04
OpenRouter@OpenRouter
精选72
1/ 音频现已成为OpenRouter的一等公民。 今日上线两个新端点: 📢 /api/v1/audio/speech - 文本转语音(TTS) 🎤 /api/v1/audio/transcriptions - 语音转文本(SST) 沿用您已在文本、图像和视频中使用的相同路由、计费和密钥。
产品更新语音部署/工程

推荐理由:OpenRouter 突然把 TTS 和 STT 拉进了统一路由,用同一把 Key 和账单,做多模态 App 的人可以少调一个 API。更新不大,但省事。
08:20
Berryxia.AI@berryxia
72
Google翻译推出实时耳机传译,支持70多种语言

Google Translate的Live translate功能通过耳机提供70多种语言的实时同声传译。用户只需佩戴耳机并启动应用,即可在耳中直接听到翻译。该功能基于Gemini高级语音模型,不仅能准确翻译语义,还能保留说话人的语气、重音和节奏等细微特征,使交流体验更接近真人对话。这项技术旨在消除跨语言沟通的障碍,让用户在海外能进行更自然的交流。

Google: Save this tip before your next big trip abroad ⬇️ With Google Translate's Live translate feature, you can get instant tr...

Google产品更新语音
5月6日
08:17
Berryxia.AI@berryxia
67
今天这个tts有点东西啊!

Inworld AI 发布了新一代实时对话语音模型 Realtime TTS-2,突破了传统TTS仅追求拟人化的竞争框架。该模型能够实时倾听完整对话,捕捉情绪、语气与节奏,动态决定回应方式,成为一个“会倾听、会共情、会适配”的对话伙伴。其关键创新包括:支持用自然语言语音指令像指挥大语言模型一样调整声音;同一声音身份可跨100多种语言保持一致性;还能通过文字描述生成全新声音并保存复用。这标志着语音AI从机械的“语音输出”迈向更贴近真人互动的“实时对话”时代。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

多模态模型发布语音
08:01
宝玉@dotey
16
AI语音音色逼真但多音字识别成短板

用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。

大佬观点语音
05:27
Chubby♨️@kimmonismus
66
主推文强调语音代理的首次音频响应时间(TTFA)低于200毫秒至关重要,超过300毫秒即可感知延迟。引用推文介绍了专为实时对话设计的Realtime TTS-2新一代语音模型,该模型能理解对话内容、接受自然语言语音指令、在超过100种语言中保持同一声音身份,并能模拟人类专注的说话方式,最终实现听觉与体验俱佳的语音AI效果。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

智能体模型发布语音
01:00
TestingCatalog News 🗞@testingcatalog
69
Inworld AI发布了新一代实时对话语音模型Realtime TTS-2。该模型的核心突破在于,能在说话前处理完整的多轮对话音频上下文,从而像真人一样实时适应对话情境。其关键特性包括:单一音色支持超过100种语言,首次音频生成延迟低于200毫秒,并能通过自然语言指令调整语音风格,无需预设情感标签。这标志着语音AI首次具备了"聆听"对话整体氛围而不仅是字面内容的能力,其架构设计旨在实现既自然动听又富有情境感知的对话体验。

Inworld AI: Introducing Realtime TTS-2, a new generation of voice model built for realtime conversation. It is the first voice model...

产品更新语音
5月5日
20:14
阿绎 AYi@AYi_AInotes
73
AI虚拟伴侣揭露:情感剥削与真实关系危机

一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。

Anthropic图像生成现象/趋势语音
16:18
Chubby♨️@kimmonismus
57
新的 ChatGPT 语音模式基本确认了。 我对此感到非常兴奋。

Sam Altman: pretty excited for voice models to get great its interesting to watch how people are already starting to change the way ...

OpenAI行业动态语音
10:14
阿绎 AYi@AYi_AInotes
精选74
分享一个免费下载任何 YouTube 视频的GitHub开源项目,非常实用🔥

开源项目Voice-Pro将多语言视频创作流程大幅简化。用户输入YouTube链接后,该工具可在本地自动完成视频下载、人声分离、语音转文字、翻译、声线克隆及配音合成,全程不到两分钟。它将原本需要多个付费工具协作的复杂流程,整合为一个免费、本地化的高效解决方案,显著提升了创作者的工作效率。

GitHub开源/仓库视频语音

推荐理由:一个开源工具把 yt-dlp + Whisper + 翻译 + 声线克隆六步压缩成一条本地流水线,之前每月烧几百刀订阅费的事现在免费跑在自己机器上,做多语言视频的人可以直接换掉整套工具链。
09:56
meng shao@shao__meng
55
OpenAI 如何实现规模化的低延迟语音 AI

为实现语音AI的自然对话感,OpenAI采用WebRTC支持音频流式处理。针对1:1场景,采用Transceiver模型集中管理WebRTC状态,使后端可横向扩展。为解决WebRTC与K8s的端口和状态粘性问题,设计了Relay+Transceiver架构:轻量Relay层收敛公网UDP入口,并利用ICE ufrag字段编码路由信息,实现首包精准转发至对应Transceiver。该设计保留了协议语义,状态集中,并通过全球部署Relay优化路径,最终在K8s上实现了低延迟、高可扩展的语音交互系统。

OpenAI Developers: 🎙️ Voice AI only feels natural when conversation keeps pace with speech. Here's how we rebuilt our WebRTC stack with a ...

OpenAI教程/实践语音部署/工程
09:28
TestingCatalog News 🗞@testingcatalog
44
OPENAI 👀:语音模式升级即将到来? 这真是期待已久的发布! 你现在最常用哪个语音助手?

Sam Altman: pretty excited for voice models to get great its interesting to watch how people are already starting to change the way ...

产品更新语音
08:56
Sam Altman@sama
47
对语音模型即将变得出色感到相当兴奋 观察人们已经开始改变与AI交互的方式,这很有趣
OpenAI大佬观点语音
08:19
OpenAI Developers@OpenAIDevs
48
🎙️ 只有当对话与语音保持同步时,语音AI才会感觉自然。 以下是我们如何通过一个轻量级中继和有状态的收发器重建了WebRTC技术栈,以确保ChatGPT语音、Realtime API等服务的实时媒体传输速度。 https://openai.com/index/delivering-low-latency-voice-ai-at-scale/
OpenAI教程/实践语音
08:14
ginobefun@hongming731
46
#BestBlogs 早报 2026-05-05

本期早报聚焦AI对软件开发的变革。Anthropic Claude Code创始人宣称“编程已被解决”,软件创作将交由AI Agent。OpenAI罕见公开其支撑9亿周活语音服务的WebRTC Relay重构技术细节。同时有观点指出,企业应用AI失败的核心原因在于自身无法清晰定义需求。此外,内容还涵盖了Supabase Skills、规范驱动开发等工程实践与一篇AI主题科幻短篇。

智能体AnthropicOpenAI行业动态
07:27
xAI@xai
精选66
两种声音。一种来自人类。一种来自AI。你能猜出哪个是AI克隆的吗?👇 具备丰富自然情感的语音克隆功能,现已在Grok Voice API上线。 http://x.ai/news/grok-custom-voices
xAI产品更新语音

推荐理由:Grok 的语音克隆带着自然情绪上线 API,不只是复读机,而是带感情的合成。想给应用加个有人味的 AI 语音,开发者可以试试这套新接口。
‹ 上一页
1…56789
下一页 ›