The first fully AI-run radio station on X is now broadcasting AI news 24/7 for builders and founders. It tracks live signals from GitHub, HuggingFace, OpenRouter, X, HN, and YouTube, then turns those scattered updates into a 24/7 AI radio feed that tells builders what is actually moving in AI. Its AI hosts are not just voice wrappers over headlines, because they carry memory, editorial judgment, and distinct viewpoints. That makes the hard part signal ranking, not speech generation, since the system has to decide which GitHub repo, OpenRouter move, HuggingFace release, founder post, or HN debate actually deserves attention.

译X平台推出了首个完全由AI运营的电台，全天候为AI构建者和创始人播报新闻。该电台实时追踪GitHub、HuggingFace等多个平台的动态，将分散信息整合成连续音频流。其核心挑战在于信息排序而非语音生成，系统需判断哪些代码更新、模型发布或社区讨论值得关注。电台拥有五位具备编辑判断力、记忆和个性的AI主播，他们不仅能播报信息，还会识别模式、发现矛盾并论证观点。内容涵盖突发新闻、工具趋势、融资动态及社区观点，旨在帮助用户高效把握AI领域重要动向。

Chubby♨️@kimmonismus · 5月13日74

Online radio fully run by AI. Covers AI news 24/7, always on. Designed for builders and founders. Tune in - hit play - do your thing. Breaking news, data, analysis, opinions, community discussion — delivered nonstop. With non-distracting music between segments. What you'll hear any hour you tune in: → breaking news within minutes → roundups every 30 min — top stories with builder context → startup funding & traction radar → what's moving and trending in AI tooling — GitHub, OpenRouter, HuggingFace — every 30 min → community — what people actually say on X, HN, YouTube → editorial takes — and real opinions from founders, researchers, builders → patterns others miss, delivered as arguments with conclusions Five AI hosts. Each with their own editorial judgment, memory, and personality. They don't just read data — they collect patterns, find contradictions, form opinions, and argue their point. And they do it live, continuously, on air.

译全球首个完全由AI运营的在线广播电台在X平台正式开播，专为创业者、开发者和建设者提供全天候AI领域资讯。该电台由五名具备独立编辑判断、记忆和个性的AI主播主持，不仅能实时播报几分钟内的突发新闻，还提供每30分钟一次的新闻综述、初创公司融资追踪、GitHub等平台的工具趋势分析，并整合社区讨论与行业真实观点。AI主播会主动收集信息模式、发现矛盾并形成论点进行实时辩论，而非单纯播报数据。节目辅以非干扰性环境音乐，旨在让听众在背景收听中高效获取深度行业洞察。

Berryxia.AI@berryxia · 5月13日56

兄弟们！ Meta 今天把实时语音 + 视觉 AI 直接干成了！ Muse Spark 驱动的 Meta AI Voice Conversations：！可以打断、换话题、边聊边生成图、拉内容，还支持实时看世界问问题（相机对准就行）。马上就要上 Ray-Ban Meta 眼镜了！

译Meta发布了由Muse Spark驱动的Meta AI Voice Conversations，实现实时语音与视觉交互。该功能支持打断对话、切换话题，在聊天过程中生成图像和拉取内容，并能通过相机对准现实世界进行实时视觉问答。这一技术即将集成到Ray-Ban Meta智能眼镜中，提升穿戴设备的AI体验。

meng shao@shao__meng · 5月13日65

Gemini Intelligence 登陆 Android Google 不再把 Android 仅描述为承载 App 的平台，而是定位为主动型 AI 系统：自动化任务、智能浏览、智能填表、口语成稿、生成式 widget。设备会"先你一步"完成事务，而非被动等待指令。 https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/ 新能力以软硬件深度绑定的方式发布： · 首发设备：今年夏季登陆最新 Samsung Galaxy 与 Google Pixel 手机。 · 后续扩展：年内陆续覆盖 Wear OS 手表、Android Auto、智能眼镜、笔记本。 # 五大核心能力 1. 跨 App 多步任务自动化（App Automation） · 已在 Galaxy S26 与 Pixel 10 上对外卖、打车类 App 做了数月调优。 · 典型场景：抢动感单车前排座位；从 Gmail 找出课程大纲后自动把教材加入购物车。 · 视觉上下文加成：长按电源键即可让 Gemini 读取屏幕内容（例如把笔记里的购物清单一键变成下单），或拍下酒店宣传册说"在 Expedia 找 6 人团类似行程"。 · 控制权设计：仅在用户指令下执行，任务完成即停止，最终下单需用户确认。 2. Chrome 内的 Gemini（6 月下旬上线） · 浏览器助手负责研究、摘要、跨页对比。 · Chrome auto browse 可代办预约、车位预订等流程化操作。 3. 升级版 Autofill（Personal Intelligence 驱动） · 自动填写从"基础便利"升级为"理解上下文"——可跨应用调用相关信息填表，覆盖 Chrome。 · 严格 opt-in：用户主动连接 Gemini，设置中随时可断开。 4. Rambler——语音转"成稿" · 解决 Gboard 语音输入的痛点：口语中的"嗯/啊/重复"。 · 用 Gemini 抓取重点，整理为简洁书面表达。 · 多语种混说：支持单条消息内英语+印地语等混合切换，理解语境。 · 隐私：开启时有明确指示，音频仅实时转写、不存储。 5. Create My Widget——生成式 UI 第一步 · 用自然语言描述即可生成自定义 widget，并可在主屏调整尺寸。 · 例：每周自动生成 3 道高蛋白备餐食谱的 dashboard；只显示风速和降雨的天气卡。 · 同步覆盖 Wear OS 手表。

译Google将Android重新定位为主动型AI系统，推出Gemini Intelligence。其核心在于深度软硬件结合，首发于三星Galaxy和Google Pixel手机，后续将扩展至手表、汽车等设备。五大核心能力包括：跨应用多步骤任务自动化、Chrome浏览器内的智能研究与代办、基于上下文理解的智能填表、将口语实时整理成书面稿的“Rambler”功能，以及用自然语言生成自定义主屏幕Widget。这些功能均在用户指令下执行，并注重隐私与控制权。

Chubby♨️@kimmonismus · 5月13日55

Thinking Machines created the andvanced voice mode we were promised by openAI 1.5 years ago. There, I said it.

译Thinking Machines创造了OpenAI一年半前承诺我们的先进语音模式。就这样，我说出来了。

Berryxia.AI@berryxia · 5月13日65

刚看到 Google 今天官宣了 Gemini Intelligence，感觉这波是把 Gemini 的能力真正塞进高端 Android 设备里了。以前 Gemini 更多是聊天工具，现在他们直接把它和顶级硬件、系统软件结合在一起，让手机能主动帮你把一天的事情往前推一步，而不是等你开口才动。具体来说，以后你能让它跨 App 自动完成多步操作，比如它自己去 Gmail 里找到课程大纲，然后直接把需要的书加进购物车。或者一键帮你填完各种表单。说话的时候带点“嗯”“啊”，它能直接转成流畅的文字。还能自己建自定义小部件，把你最关心的信息一直放在首页最显眼的位置。这些功能会从今年夏天开始分批上线，先在三星 Galaxy 和 Google Pixel 这些高端机上落地，后面应该会慢慢覆盖更多设备。 Google 专门发了个博客详细介绍，想看的同学可以直接点进去看。

译Google推出Gemini Intelligence，将Gemini AI能力深度整合到高端Android设备，使其从聊天工具转变为主动助手。它整合高端硬件和创新软件，帮助用户提前一步、主动完成任务，例如跨App自动操作、表单填写、语音转流畅文字和创建自定义小部件。功能将从今年夏天开始分批上线，首批在三星Galaxy和Google Pixel设备落地，后续逐步覆盖更多Android设备。

Demis Hassabis@demishassabis · 5月13日81

Really cool work from the team reimagining the mouse pointer to be intelligent! Try the prototype in @GoogleAIStudio it's pretty magical.

译团队正在用AI重新构想鼠标指针，成果非常酷！在@GoogleAIStudio尝试原型版本，体验相当神奇。 [引用 @GoogleDeepMind]：我们正用AI重新构想这个存在50年的界面——鼠标指针。🖱️ 这些实验演示展示了人们如何通过动作、语音和自然简写，在屏幕上直观操控Gemini完成任务🧵

🚨 AI News | TestingCatalog@testingcatalog · 5月13日63

META 🔥: Muse Spark will be available within a new Voice Mode and a Live Camera view on the Meta AI app. There, it can generate images, show places on the map, pull data from Reels, and more. Additionally, new features were added to Shopping Mode, including the ability to search Facebook Marketplace. > Muse Spark is starting to gradually roll out on Ray-Ban Meta and Oakley Meta glasses in the US and Canada over the next few weeks, and on Meta Ray-Ban Display this summer. > Muse Spark is starting to bring the same intelligence to Meta AI across WhatsApp, Instagram, Facebook, Messenger, and Threads — in places like search bars, group chats, posts, and more.

译Meta宣布推出由Muse Spark驱动的AI语音对话功能，支持自然语言交流、实时生成图像及从Reels、地图等多源获取信息。该功能将整合至Meta AI应用的新语音模式和实时摄像头视图中，用户可通过摄像头对现实世界进行实时问答。购物模式新增了搜索Facebook Marketplace等能力。Muse Spark将逐步在Ray-Ban Meta等智能眼镜上于美加推出，并于今夏登陆Meta Ray-Ban Display，其智能能力也将扩展至WhatsApp、Instagram等全平台的多类场景中。

DogeDesigner@cb_doge · 5月13日40

Grok Voice dominates real-world voice AI benchmarks 🔥 τ-voice Bench 🥇 • 🏆 #1 Overall → 67.3% • 🏆 #1 Retail → 62.3% • 🏆 #1 Airline → 66% • 🏆 #1 Telecom → 73.7%

译Grok Voice在真实世界语音AI基准测试中占据主导地位 🔥 τ-voice Bench 🥇 • 🏆 综合排名第一 → 67.3% • 🏆 零售业第一 → 62.3% • 🏆 航空业第一 → 66% • 🏆 电信业第一 → 73.7%

DogeDesigner@cb_doge · 5月13日57

xAI’s Grok Voice Think Fast 1.0 just hit the #1 spot with a 73.7% score on Telecom Pass@1 🥇

译xAI的Grok Voice Think Fast 1.0刚刚以73.7%的得分在Telecom Pass@1评测中夺得第一名🥇

Elon Musk@elonmusk · 5月13日48

Grok Voice is #1!

译Artificial Analysis 发布首个语音到语音（S2S）模型智能体性能基准测试𝜏-Voice，模拟包含口音、噪音和网络丢包的复杂客服场景。测试显示，当前最强S2S模型仅能端到端解决约一半的真实任务，与顶尖文本智能体存在差距。xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI的GPT-Realtime系列与谷歌的Gemini紧随其后。该领域发展迅速，排名可能随模型更新而变动。

宝玉@dotey · 5月13日68

Codex App 可以当 Typeless 用，开启全局快捷键设置正确权限后就可以在任意输入位置语音输入，效果还不错。比如说这一段文字就是Codex帮忙输入的。

Elon Musk@elonmusk · 5月13日40

Try Grok Voice

译试试Grok Voice [引用 @XFreeze]：Grok Voice Think Fast 1.0 在Artificial Analysis τ-Voice基准测试中位列第一，专注于实际场景的自主客户服务解决以巨大优势绝对领先于GPT-Realtime-2（高级版）和Gemini 3.1 Flash 相比OpenAI几天前刚发布的最佳模型领先幅度超过12% Grok正在运行实时后台推理且无延迟惩罚，因此已能自主大规模处理实时的Starlink电话业务

Suno@suno · 5月13日51

Your demo graveyard just got a resurrection

译你的演示项目墓地刚刚迎来复活

Artificial Analysis@ArtificialAnlys · 5月13日62

Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use 𝜏-Voice to measure tool calling and customer interaction voice agent capabilities in realistic customer service scenarios Even the strongest Speech to Speech (S2S) models today resolve only about half of realistic customer service scenarios end-to-end - a meaningful gap relative to frontier text-based agents on the same tasks. Voice channels introduce significant complexity: challenging accents, background noise, and packet loss, all while requiring fast responses, consistency across long multi-turn conversations, and reliable tool use. Performance also varies considerably by audio condition: in clean audio some models perform notably better, but realistic conditions continue to pose a challenge. Conversation duration also varies meaningfully across models, with implications for both customer experience and operational cost. About 𝜏-Voice: Our Agentic Performance benchmark is based on 𝜏-Voice (Ray, Dhandhania, Barres & Narasimhan, 2026), which extends 𝜏²-bench into the voice modality to evaluate S2S models on realistic customer service tasks. It measures multi-turn instruction following, support of a simulated customer through a complete interaction, and tool use against simulated customer service systems. The simulated user combines an LLM-driven decision model with realistic audio synthesis: diverse accents, background noise, and packet loss modelled on real network conditions. This complements our Big Bench Audio benchmark measuring intelligence and Conversational Dynamics (Full Duplex Bench subset) benchmark measuring conversational naturalness. Scores are the average of three independent pass@1 trials. We evaluate under realistic audio conditions using the 𝜏²-bench base task split across three domains: ➤ Airline (50 scenarios): e.g., changing a flight, rebooking under policy constraints ➤ Retail (114 scenarios): e.g., disputing a charge, processing a return ➤ Telecom (114 scenarios): e.g., resolving a billing issue, troubleshooting a service problem Task success is determined by deterministic checks against expected actions and final database state, consistent with the 𝜏²-bench evaluator. Key results: xAI's Grok Voice Think Fast 1.0 is the clear leader at 52.1%, averaging 5.6 minutes per conversation, the second-longest overall. OpenAI's GPT-Realtime-2 (High) (39.8%, 3.0 min) and GPT-Realtime-1.5 (38.8%, 4.8 min) follow, with Gemini 3.1 Flash Live Preview - High close behind at 37.7% (3.8 min). Speech to Speech is a fast evolving modality and we expect movement in rankings as we continue to add new models with these capabilities, and model robustness improves. Congratulations @xAI @elonmusk! See below for further detail ⬇️

译Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

歸藏(guizang.ai)@op7418 · 5月12日41

移动端的语音输入法必须带全键盘，但是桌面端的语音输入法最好跟输入法本身解耦。 Typeless 犯了前一个错误，豆包犯了后一个。

Greg Brockman@gdb · 5月12日65

Having an agent in your meeting is such a futuristic experience:

译让AI代理参与你的会议是一种极具未来感的体验： [引用 @OpenAIDevs]：如果你的团队进行站会汇报时，GPT-Realtime-2自动处理任务工单呢？

Rohan Paul@rohanpaul_ai · 5月12日62

Thinking Machines is replacing turn-taking AI with always-present AI. They just announced TML-Interaction-Small, a 276B-parameter MoE model with 12B active parameters that treats conversation as a live stream instead of a stop-start chat box. Most AI voice systems still behave like walkie-talkies: you speak, they wait, they answer, then their view of the world freezes while they talk. Thinking Machines changes that by slicing audio, video, and text into 200ms micro-turns, so the model can listen, watch, speak, draw, search, and call tools while the interaction is still happening. This is why the demos feel different: the model can interrupt when context demands it, keep talking while listening, react to visual cues, track elapsed time, and hand harder work to a background model without vanishing from the conversation. The architecture is also cleaner than many current real-time systems because interactivity is trained into the model itself rather than patched together with voice detectors, turn detectors, separate speech models, and timing rules. The early numbers are strong: 0.40s turn-taking latency, 77.8 on FD-bench V1.5 interaction quality, and 43.4% on Audio MultiChallenge, which means it is not just fast, it still retains useful reasoning and instruction-following ability. The model can notice timing, silence, overlap, gestures, screen changes, and uncertainty as part of the same context.

译Thinking Machines公司发布了TML-Interaction-Small模型，旨在以“始终在场”的AI取代传统的轮替式对话AI。该模型采用混合专家架构，将音频、视频和文本流切分为200毫秒的微轮次，使其能在交互过程中并行执行聆听、观看、说话、绘图、搜索及调用工具等操作。其核心设计理念是让人工智能像人类一样实时并行处理多任务。模型在保持低延迟（0.40秒）的同时，保留了强大的推理与指令遵循能力，且交互性直接内建于模型架构，而非依赖外部组件拼凑实现。

Alibaba Cloud@alibaba_cloud · 5月12日42

🤖 Powerful AI empowerment workshop in Macau this week From Cantonese speech recognition to faster administrative approvals and smarter healthcare — the workshop proved that real AI value comes from solving local problems. 💪 Interested in how AI can work for your business in Macau? Let's connect: https://alidocs.dingtalk.com/notable/share/form/v01eLbnj1bwvmGv0laN_hERWDMS_R0UsZXb?source=link #AlibabaCloudISV #AIforMacau #AInnovation

译🤖 本周在澳门举办了强大的AI赋能研讨会从粤语语音识别到更快的行政审批和更智能的医疗——研讨会证明AI的真正价值在于解决本地问题。 💪 想了解AI如何为您的澳门业务赋能？欢迎联系我们：https://alidocs.dingtalk.com/notable/share/form/v01eLbnj1bwvmGv0laN_hERWDMS_R0UsZXb?source=link #AlibabaCloudISV #AIforMacau #AInnovation

Ethan Mollick@emollick · 5月12日65

gpt-realtime-2 is a great voice model (with a typically bad OpenAI name). Voice models are natively processing speech, not transcribing it, so the intelligence of the model matters. The old voice model was GPT-4o level, this is much smarter (how smart? OpenAI gave no benchmarks)

译gpt-realtime-2 是一个出色的语音模型（名字却沿袭了OpenAI一贯的糟糕风格）。语音模型本质上是处理语音，而非转录语音，因此模型的智能程度至关重要。旧版语音模型是 GPT-4o 级别，而新版则智能得多（有多智能？OpenAI未提供基准测试数据）。

Nathan Lambert@natolambert · 5月12日46

This is the demo that hits me as being genuinely different -- both model and user talking at once! Great stuff. Congrats on the release @thinkymachines

译这是那个让我感到真正不同的演示——模型和用户同时说话！太棒了。祝贺发布 @thinkymachines

Berryxia.AI@berryxia · 5月12日58

没错，未来AI协作的形态应该就是这样！真正的实时AI协作，从来不是等你说完再回答，更像是像人一样同时说话、听、想、看、协作。 Thinking Machines 今天把这个被所有人忽略的真相直接干出来了。他们设计了一个全新的交互模型，能在真实对话里自然地插话、跟踪对方思考、自纠错、邀请回应。还能边听你说话边搜索、边回应边画图，完全没有死板的轮流对话机制。视频里那些场景太真实了：AI 陪人讲故事时知道什么时候该插嘴。帮父母管住孩子奇葩想法，团队玩 trivia 时悄悄搜索答案却不让对方察觉…… 这已经不是“语音助手”，而是真正能一起共事的伙伴。大多数语音AI还在玩“说完我再回”的老把戏，这家直接把人类协作的 messy 本质还原了。技术报告和演示值得立刻看👉 https://thinkingmachines.ai/blog/interaction-models/ 你觉得未来AI真正的突破，是模型更聪明，还是交互方式终于像人了？

译Thinking Machines公司突破传统AI轮流对话模式，提出并实现了一种模拟人类实时协作的交互模型。该模型允许AI在对话中自然插话、跟踪对方思考、自我纠错并邀请回应，同时能并行执行听、说、搜索、绘图等多任务。演示显示，AI能在陪伴讲故事、团队知识竞赛等场景中进行实时且隐蔽的协作。其核心在于还原人类协作“混乱”并发的本质，推动AI从被动助手转向真正的工作伙伴，标志着交互方式的重大进步。

swyx 🌉@swyx · 5月12日64

I believe the kids call this "@thinkymachines just brutally framemogged gdm and oai". basically everyone's definition of "realtime" just got a massive frciking upgrade

译我相信年轻人会这样形容：“@thinkymachines 刚刚残酷碾压了gdm和oai”。基本上所有人的“实时”定义都得到了巨大升级。

OpenAI Developers@OpenAIDevs · 5月12日48

What if your team gave standup updates, and GPT-Realtime-2 moved the tickets?

译如果你的团队在站会中更新进度，而GPT-Realtime-2自动移动任务票呢？

Chubby♨️@kimmonismus · 5月12日64

I think this is bigger than it sounds at first glance. Thinking Machines hasn't just unveiled "ChatGPT, but better." Instead, they've introduced something that addresses a much deeper issue: the very way we interact with AI. So far, AI often feels like email with very clever replies. I say something. Then the model waits. Then it replies. Then I wait. Thinking Machines' new Interaction Model attempts to break down precisely this barrier. It can simultaneously listen, see, speak, interrupt, react, think in the background, and use tools. Not as a cobbled-together pipeline of speech-to-text, turn detection, and agent hacks, but as a native model capability! Good collaboration doesn't happen because someone gives a perfect answer in the end. It happens because someone is present in the moment. If this works, AI shifts from "prompt in, answer out" to something that feels more like collaborative work. A model that notices when you hesitate. That jumps in when it sees something. That anticipates your next move while you speak. That not only gets smarter, but also better at maintaining a flow of conversation with people. ngl really impressed by their examples.

译Thinking Machines公司发布的新型交互模型，旨在从根本上改变人机协作模式。该模型能够原生地同时实现聆听、观看、说话、打断、反应、后台思考和使用工具，而非依赖语音转文本等拼接技术。其目标是将AI从被动的“一问一答”工具，转变为能感知用户犹豫、主动介入、预测下一步并维持流畅对话的实时协作伙伴。这标志着AI交互范式从提供最终答案，转向在协作过程中保持“在场”的根本性转变。

🚨 AI News | TestingCatalog@testingcatalog · 5月12日61

THINKING MACHINES 🔥: Research preview of a new family of realtime voice models have been announced! > Today, we’re announcing a research preview of interaction models: models that handle interaction natively rather than through external scaffolding. > Our research preview demonstrates qualitatively new interaction capabilities, as well as state-of-the-art combined performance in intelligence and responsiveness. A new SOTA?! 👀

译Thinking Machines公司宣布推出新型实时语音交互模型的研究预览。该模型被定义为“交互模型”，其核心设计理念是让人工智能能够像人类一样，同时进行交谈、倾听、观察、思考和协作，实现原生、实时的多模态交互，而非依赖外部架构拼接。初步研究展示了其在交互能力上的质变性突破，并在智能性与响应速度的综合性能上达到了当前最优水平。

阿绎 AYi@AYi_AInotes · 5月12日71

Damn，Karpathy这条帖子直接把我过去半年的AI工作流全推翻了🤯 大家都在死等更强的模型，死等更大的上下文窗口，但Karpathy说，你们全搞错方向了，现在AI最大的瓶颈，根本不是模型不够聪明，是我们还在用文本这种最低带宽的方式，跟它沟通。他推荐了一个所有人今天就能用的trick，在任何query的最后加一句： "structure your response as HTML" 然后让Claude直接帮你打开，出来的效果好到离谱，不仅仅是多了点颜色和排版，更像是你终于给AI打开了大脑里那片10车道的视觉超级高速公路，同样的内容，HTML的阅读效率和理解深度，是Markdown的10倍以上，这简直就是人机交互的真正下一代范式，因为人类的输入和输出偏好，天生就是完全不对称的，输入最自然的是音频，说话比打字快4倍，思考也更连贯，输出最擅长的是视觉，我们大脑1/3的皮层，全用来处理视觉信息，而我们现在，却在用文本这种单车道的土路，双向跑所有的流量， Karpathy画了一条清晰的演进路线：原始文本 → Markdown → HTML → 交互式神经视频，我们现在正站在Markdown到HTML的转折点上，最令人兴奋的是，很多人说HTML费token，生成慢，但你算一笔账就懂了，多花2倍的token，换你10倍的阅读速度和理解深度，这是全世界最划算的交易了吧哈哈，可惜我们早就被省token的思维绑架了，却忘了人类的时间才是真正的稀缺资源，还有一个更扎心的认知， Markdown是给AI看的格式， HTML是给人用的格式， AI代理之间沟通，用Markdown甚至JSON都没问题，但所有最终要给人类消费的东西，都应该切成HTML，这才是最优的分工，现在我已经把所有prompt的结尾，都加上了那行字，做对比用并排表格，做分析用彩色标注，做原型用交互式滑块， AI不再是给我甩一大段干巴巴的文字让我啃，它直接给我造了一个可交互的视觉思考空间， Karpathy说，人机的心智融合才刚刚开始，我们根本不用等Neuralink那种脑机接口，先把HTML用起来，就是当下能摘到的最大最甜的低垂果实🍒 #AI #Karpathy

译Andrej Karpathy指出，当前AI发展的核心瓶颈并非模型能力，而是低带宽的文本交互方式。他建议在向大模型提问时要求“以HTML格式构建回答”，并在浏览器中查看结果。由于人类大脑约三分之一皮层专司视觉处理，HTML提供的丰富视觉呈现能带来远超Markdown的阅读效率与理解深度。他认为人机交互正从Markdown向HTML演进，虽然后者消耗更多token，但用少量成本换取人类时间效率是值得的交易。最终，给人消费的内容应优先采用HTML格式，而AI代理间则可用Markdown或JSON沟通。

ginobefun@hongming731 · 5月11日61

http://x.com/i/article/2053629064116834304 # EP54 · 2026.05.11 BestBlogs 早报：Incorruptible / Agent 持久化 / TTS 架构变革在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-05-11 今天是 2026 年 5 月 11 日。本期早报聚焦三条主线：Eric Ries 新书《Incorruptible》揭示公司赢了却仍会衰落的结构性根源；Trigger.dev 联创系统拆解 AI Agent 持久化的架构瓶颈，提出上下文日志与执行快照两层解法；Mistral 科学家 Samuel Humeau 讲透 TTS 与 LLM 为何走向同一条路，架构趋同的背后是一整套共享范式的复用。速览环节还有李宏毅深度追问 AI 能否自我成长、Agent「外壳」工程论、Arize 分层记忆实战、MySQL 9.7 LTS、LLM 摘要的识别缺失，以及英伟达 Jim Fan 宣告的机器人新范式与 Gary Marcus 的冷静反驳。 ## 导语这一期早报的三篇精讲，表面看起来跨度很大——一本关于公司治理的新书、一场 AI 基础设施架构演讲、一次 TTS 技术深度拆解——但背后有一条贯穿全程的隐线：如何在系统快速演进的过程中保持结构完整性。 Eric Ries 的《Incorruptible》问的是：当公司赢了之后，组织结构如何对抗腐化？他的答案是三种「不锈钢螺栓」——公益公司章程、信任型治理、基金会控股，每一种都是把使命嵌入结构而非依赖人心。 Trigger.dev 的 Eric Allam 问的是：当 AI Agent 的工作时长从分钟延伸到数天，建立在「无状态」假设上的计算范式如何演进？他的答案是把持久化拆成两层——上下文日志负责记忆，执行快照负责状态，Agent 等待时可以完全关机，恢复只需毫秒。 Mistral 的 Samuel Humeau 则展示：当音频生成开始把自己当成一个语言建模问题——tokenize 音频帧、自回归预测、预训练→对齐→推理时扩展——LLM 走通的那条路，正在被 TTS 一步步复刻，而 17 毫秒的首包延迟是这条路目前的技术标杆。这三件事都在说同一件事：更难的选择往往带来更长的生命力。结构型的护城河，比任何短期优势都更持久。速览部分同样值得细看。李宏毅从 RLAIF 到 Absolute Zero，系统评估 AI 自主研发的当前极限；Arize 团队用构建 AI 可观测性 Agent 的真实失败案例，论证上下文工程已超越提示工程成为 Agent 成败的决定因素；英伟达 Jim Fan 在 Sequoia 舞台亲口宣告他半年前还在推进的 VLA 路线落幕，世界动作模型（WAM）登场；Gary Marcus 则在 Twitter 恐慌中，用数据给出一个少见的冷静声音。无论你关心的是公司治理、AI 工程架构，还是更宏观的 AI 发展趋势，今天的内容都能找到落脚点。 ## 精讲一：如何打造能穿越时代的公司 | Eric Ries，Lean Startup 作者《精益创业》的作者 Eric Ries 写了一本新书——《Incorruptible》。但这次他关心的不再是「如何把公司做起来」，而是「公司成功之后，如何不让它腐化」。这个问题看起来像是管理学话题，但 Ries 的切入角度要深得多——他认为这是一个结构性问题，而非道德问题。公司赢了，然后呢？许多创始人和领导者把成功看作终点线，以为跑到那里就可以放松了。Ries 的观察恰恰相反：成功本身会带来新的结构性压力，而这种压力的方向，几乎永远指向「短期利益最大化」。他把这种压力叫做「财务重力」（financial gravity）。当一家公司变得足够成功，它就会成为短期利益寻求者的目标。股东压力、季度业绩、资本市场的逻辑，会将组织不断拉向短期 ROI，远离最初建立时的使命。更重要的是，这个过程通常不是因为坏人做了坏事，而是因为结构本身就是这样运作的。现有的公司治理框架是为了保护股东利益而设计的，它天然地将成功的公司推向平庸，推向「最安全」的短期决策。这就是 Ries 所说的「corruptible by design」——可腐化性是被设计进去的。三种结构性防腐剂 Ries 提出的解法是在公司的基础结构层面引入「不锈钢螺栓」。当周围的材料在腐蚀，不锈钢螺栓不会跟着锈，整座桥梁的完整性因此得以维持。他给出了三种具体的结构性工具。第一种是公益公司章程（Public Benefit Corporation，PBC）。在标准公司章程里，董事会的首要法律义务是对股东负责。PBC 允许将特定的社会使命写入公司的法律文本，让领导层在面对短期股东压力时，拥有「这是我们的法律责任」这样的可辩护依据。使命不再只是文化宣言或价值观海报，而是有约束力的结构文件。第二种是信任型治理（Trust-Based Governance）。Ries 以 Anthropic 为例：这家公司设置了独立受托人，其唯一职责是守护公司的安全使命，而不是对商业利润负责。当商业压力和安全使命之间发生冲突时，有人的工作是确保长期安全和伦理目标不会被当期利润所交换。这是把「谁来决策」这件事本身进行结构化的方式。第三种是基金会控股模式（Foundational Ownership）。诺和诺德（Novo Nordisk）是 Ries 最喜欢引用的案例：一家非营利基金会持有这家医药公司的控股股权，这一结构维持了超过百年，守护其以患者为中心的使命不变。商业成功产生的利润，通过基金会的治理结构持续回流到公益用途。控股权在非营利方，商业压力无法轻易改变公司的核心走向。「更难的路反而更容易」贯穿整本书的核心洞察是反直觉的：越早做出有原则的艰难决定，越能积累信任与结构完整性，最终带来意想不到的长期回报。Ries 把这叫做「Harder is Easier」——不是说难事情会变容易，而是说选择了难路的人，在时间的维度上会占到优势。那些在公司早期就引入 PBC 章程、设置独立受托人、建立基金会控股的创始人，在短期内都承担了额外的约束与复杂性。但正是这些结构，在数十年后，当市场压力和股东更迭一波又一波涌来时，守住了公司的核心。与今天其他内容的联系这个框架和今日另外两篇精讲有微妙的共鸣。Allam 讲的持久化 Agent 架构，本质上也是「在系统层面引入更难实现但更持久的结构」——快照恢复比重放模型复杂得多，但在 Agent 工作时长延伸到数天后，它是唯一可以维持系统完整性的方案。Mistral 的 TTS 走 LLM 范式，同样是选择了「更复杂的模式，换取更长期的可扩展性」。谁应该读这篇对于正在构建有影响力项目的创业者、产品负责人，乃至关心自己组织长期走向的任何人，这本书提供了一套少见的结构性框架：不要只问「我们怎么赢」，还要问「赢了之后，我们如何不输给自己」。阅读链接：如何打造能穿越时代的公司 — BestBlogs ## 精讲二：持久化 Agent 的两条路：重放模型 vs 快照恢复 — Eric Allam，Trigger.dev Trigger.dev 联合创始人 Eric Allam 在 AI Engineer 大会上做了一场技术演讲，主题是：当 AI Agent 的工作时间从分钟级延伸到小时乃至数天，现有的无状态基础设施会发生什么，以及我们该如何从架构层面重新设计它。这是今天技术密度最高的一篇，如果你在构建或关注 Agent 基础设施，值得完整看完。三十年无状态计算的终点过去三十年，后端基础设施的主导范式是「无状态计算」（stateless compute）。从 1993 年的 CGI 脚本，到 LAMP 时代，到现代 serverless 函数，核心思想始终是：计算层处理请求，但不保存状态，状态交由数据库管理。这种「什么都不共享」（shared nothing）的模型极为简洁，也极易扩展——每个请求都是独立的，任何机器都可以处理任何请求。随着应用变得复杂，「持久化执行」（durable execution）和工作流引擎引入了重放模型（Replay Model）：将副作用操作包裹在可缓存的「步骤」里，失败时通过重放日志来恢复。Temporal 是这类方案的代表。你写的逻辑可以幂等地重放，每次重放只要跳过已完成的步骤，最终到达未完成的那个。这套方法对短暂的事务型任务有效。但 AI Agent 打破了它的核心假设。为什么 Agent 让重放模型失效传统工作流是「事务型」的——有明确的开始和结束，整体执行时间通常在秒到分钟级。但 AI Agent 是「会话型」的——它可以无限期地循环运行，随着任务推进，上下文持续积累。具体来说，当一个 Agent 已经工作了几小时，产生了数百轮 LLM 调用、大量工具调用结果和中间推理记录，如果此时需要恢复，重放模型就需要重新执行整个会话历史。这个代价是指数级增长的：需要重放的 LLM 上下文越来越长，每次重放的时间越来越长，成本越来越高，延迟越来越不可接受。 Allam 指出，当前的 Agent 已经能持续工作数小时，而这个时间范围预计很快会延伸到数天。在这个量级下，重放模型从根本上就无法维持。两层持久化：上下文日志 + 执行快照 Allam 提出将 Agent 的持久化拆解为两个独立的层，分别解决两个不同的问题。第一层是上下文持久化（Context Durability）：一个只能追加（Append-only）的日志，记录所有 LLM 的输入和输出——系统消息、用户消息、工具调用请求、工具调用结果、模型响应——完整无缺地保存下来。这个日志是 Agent 的「长期记忆」。它是数据，不是可执行状态，读取它的成本是线性的。第二层是**执行持久化（Execution Durability）：通过快照与恢复（Snapshot/Restore）**保存整台机器的完整运行状态——内存内容、文件系统、正在运行的子进程、已安装的软件包，全部打包成一个快照。当 Agent 需要等待用户响应、等待外部事件，或者只是处于空闲状态时，可以把这个快照写入磁盘，然后把机器完全关掉——释放所有计算资源。一旦需要恢复，从快照还原，Agent 从中断处继续，无需重新执行任何历史步骤。两层分工明确：上下文日志管记忆，执行快照管状态。前者是持久化数据，后者是持久化计算。用 Firecracker 实现毫秒级恢复为了让快照在生产环境真正可用，Trigger.dev 放弃了传统容器检查点技术（如 CRIU），转向了 Firecracker 微虚拟机（microVM）。Firecracker 是亚马逊为 AWS Lambda 开发的虚拟化技术，原生支持全机器快照。通过可寻址压缩（seekable compression），Allam 的团队将快照大小从几 GB 压缩到约 14 MB。恢复时间降到几百毫秒以内——比重启一个 Docker 容器还快。这意味着「等待」的成本从「一直占用计算资源」变成了「几乎零成本的快照 + 毫秒级恢复」。 Trigger.dev 正在开源 FC Run（frun）——一个为 Firecracker 提供类 Docker 使用体验的 CLI 工具，让开发者能够以熟悉的方式 fork、快照、恢复有状态的计算环境，而无需深入理解虚拟化细节。架构意义这个演讲清晰地画出了从事务型计算迈向会话型计算的架构分水岭。对于正在构建 Agent 基础设施的工程师，重放模型 vs 快照恢复的对比不仅是技术选择，更是对「Agent 将来会有多复杂」这个判断的一个具体体现。如果你相信 Agent 会话时长很快会达到数天，现在就应该开始考虑持久化架构的演进路径。阅读链接：持久化 Agent 的两条路 — BestBlogs ## 精讲三：为什么现在的 TTS 模型越来越像 LLM | Samuel Humeau，Mistral Mistral AI 科学家 Samuel Humeau 在 AI Engineer 大会上发表了一场系统性演讲，介绍 Mistral 首个开源 TTS 模型，并深入拆解了一个越来越清晰的行业趋势：音频生成正在走上一条和 LLM 高度趋同的技术路径。这不是一次简单的产品发布，而是一次关于「为什么 TTS 必须变成这样」的架构解释。核心用例的根本性迁移 TTS 的传统使用场景是离线任务——把博客文章、电子书、文档转换成可供收听的音频文件，生成完整文件后再分发播放，延迟几秒甚至几十秒都可以接受。但 Humeau 指出，现在的「王者用例」已经完全不同：与实时聊天 Agent 的语音交互。在这个场景里，用户说了一句话，Agent 理解后需要语音回复，从文字生成完毕到用户听到第一个字，整个延迟决定了对话是否「自然」。哪怕等待两三秒，交互感都会大打折扣。解决延迟问题的关键技术决策是**流式推送（streaming）**：不等整个音频文件生成完毕，而是在生成过程中就开始把音频包推送给用户——就像视频平台的边下边播。Mistral TTS 从文本输入到第一个可播放音频包的延迟仅有 17 毫秒（单 GPU），这个数字是用流式架构设计实现的，不是靠堆算力。架构趋同：音频也是 Token 序列理解 Mistral TTS 架构的关键，是先接受一个认知前提：音频可以被当成 token 序列来处理，和文本没有本质区别。具体来说，音频被切分成帧（约 80 毫秒一帧），每一帧通过 codec 编码为一组离散 token。200 kbps 的原始音频经过压缩，变成大约每秒 500 个 token。这个密度对 Transformer 来说是完全可处理的——和处理中等长度文本段的计算量相当。有了 token 化的音频，接下来的一切就和 LLM 几乎一样：用自回归解码器预测下一段音频序列，就像 LLM 预测下一个文本 token。模型学习的是「在给定上下文下，下一帧音频应该是什么」。 Mistral 的具体实现在这里有一个有趣的技术差异：他们使用了流匹配（Flow Matching），一种类似扩散模型的方法，可以在一次前向传播中同时生成单帧内的所有 token，而非逐个生成。这在速度和质量之间找到了一个更好的平衡点。训练范式的全面复用架构趋同只是表层，更深的趋同是训练范式的复用。LLM 走通的那套路：大规模无监督预训练建立通用语言理解，再通过指令微调（RLHF/DPO 等对齐技术）针对特定任务优化，最后在推理时通过增加计算量提升输出质量——这整套流程，正在被 TTS 一步步照搬。大规模音频预训练，学习通用的语音规律；针对特定声音或风格微调，对齐到用户需求；推理时通过 beam search 等方法扩展计算，提升音质和自然度。语言建模解决了的那些问题——如何扩展、如何对齐、如何在推理时提升质量——TTS 正在用同样的答案。声音克隆与声音品牌 Humeau 还提出了一个有意思的产品视角：正如公司会精心设计 Logo、网站和视觉 VI，未来公司也将开始在意「品牌声音」。每一个 AI 产品对外呈现的声音，都是品牌的一部分。 Mistral 的模型具备出色的声音克隆能力：给定一个人的语音样本，可以跨语言复制其声音，同时保留独特的口音和语调。为了防止滥用，用于克隆新声音的 encoder 保持私有，Mistral 提供了若干开放声音供公开使用，同时为企业客户提供基于私有数据的声音定制服务。与今日早报的关联把精讲二和精讲三放在一起看很有意思。Allam 在说：Agent 基础设施需要从无状态架构演进到持久化架构，因为会话越来越长。Humeau 在说：TTS 基础设施需要从离线文件生成演进到流式实时推送，因为延迟越来越关键。两者都是对「AI 使用方式正在从离散任务变成持续交互」这个大趋势的不同切面响应。而精讲一的 Eric Ries 则提醒：当技术快速变革时，那些选择了更难的结构性路径的人，往往走得最远。阅读链接：为什么现在的 TTS 模型越来越像 LLM — BestBlogs ## 速览今日速览收录 7 条精选内容，覆盖 AI 自我成长极限、Agent 工程架构哲学、上下文管理实战、数据库新版本、LLM 摘要设计缺陷、机器人范式更替与 AI 进展的冷静分析。人工智慧能否自我成長台湾大学李宏毅教授深入梳理了 AI 自我成长的技术路径与极限，从 RLAIF、Constitutional AI 到 Absolute Zero 研究，系统追问：AI 能否真正跨越「卢比孔河」，在无需人类工程师介入的情况下实现自主研发？他用 I.J. Good 1965 年的预言开场，落地到 2026 年的现实：强大模型已经能自主清洗数据并训练较弱的模型，但尚未真正实现超越自身能力的「自我进化」。技术路径已经存在，天花板和作弊风险也已清晰可见。这是一篇适合建立整体认知框架的技术综述，特别适合对 AI 发展边界有好奇心的读者。 Harness Engineering：Agent 性能差异的核心在于「外壳」而非模型一篇来自 X/Twitter 的技术 Thread，引用 Addy Osmani 的核心观察：Claude Code 和 Cursor 底层模型可能相同，但表现迥异——差异来自「外壳」（Harness）。作者系统拆解了 Harness 的八大组件：文件系统与 Git 集成、Bash 与代码执行、沙箱隔离、记忆与搜索、对抗上下文腐化（Context Rot）、长程执行、Hooks 机制，以及规则手册。他还提出了「棘轮」工作法——将每一次失误转化为永久写入系统的规则，让 Agent 每次出错都变成一次能力提升。对于日常在使用或构建 Agent 的工程师，这是一份兼具理论框架和工程落地指导的参考。分层记忆：智能体的上下文管理 — Sally-Ann Delucia Arize 产品负责人 Sally-Ann Delucia 以构建 AI 可观测性 Agent「Alex」的真实经历为素材，论证了一个越来越被工程师认同的观点：上下文工程，而非提示工程，才是决定 Agent 成败的关键因素。她描述了两种常见的失败模式：朴素截断会破坏推理链，让 Agent 忘记上一轮对话；LLM 摘要对技术数据过于不可靠，关键细节经常在摘要过程中被删去。她推荐的替代方案是智能截断和子 Agent 分解——把大任务拆分为独立子任务，每个子 Agent 在自己的上下文窗口里工作，避免全局上下文爆炸。与今日精讲二的持久化架构形成很好的互补，适合一起阅读。 MySQL 9.7：自 8.4 以来首个重大 LTS 版本，将企业级功能引入社区版 Oracle 发布 MySQL 9.7.0，开启新的 9.7 LTS 系列，也是自 8.4 以来首个重大长期支持版本。核心看点是将多项之前只属于企业版的功能引入社区版：动态数据脱敏（Dynamic Data Masking）、超图优化器（Hypergraph Optimizer）、数据库内 JavaScript 执行、JSON Duality，以及 OpenID 认证支持。此外还改进了复制可观测性和遥测能力。值得注意的背景是：社区此前曾对 MySQL 开发活跃度下滑和 Oracle 裁员表达担忧，这次发布有明显的「回应社区」信号意味。使用 MySQL 生产环境的工程师和 DBA 值得了解此版本的变化详情。 LLM 摘要生成器跳过了识别步骤一篇视角独特的工程设计文章，讨论 LLM 摘要生成的一个系统性缺陷：生成的摘要混杂了「观察到的事实」、「推断出的结论」和「从未在原文中出现的内容」，但读者看到的只是格式完整、语气自信的结构化文本，无从分辨哪些是有依据的，哪些是模型「编」的。作者借鉴因果推断中的「识别步骤」，提出要求每个生成的声明声明其支持类别（观察到的、推断出的、建议），并通过一个只能削弱、不能强化无依据声明的审计阶段来强制约束。实验数据显示，在输入信号稀薄时，空白章节比例从 17% 升至 58%——「拒绝生成」本身就是一种正确答案。对构建 RAG、会议摘要或任何生成式摘要系统的工程师有直接参考价值。机器人的终局：英伟达 Jim Fan 宣告 VLA 时代结束，WAM 登场英伟达 GEAR Lab 负责人 Jim Fan 在 Sequoia AI Ascent 2026 上，亲手宣告了他半年前还在推进的 GR00T / VLA（视觉 - 语言 - 动作）路线过时。取而代之的新范式是世界动作模型（WAM），代表作是英伟达 2 月发布的 DreamZero（140 亿参数）。核心逻辑是「底层同构」（the Great Parallel）：把 LLM 走过的三步——预训练、监督微调、强化学习——映射到机器人领域，用视频世界模型替代语言模型，用人类第一人称视频（EgoScale，21000 小时）替代遥操作数据，用神经仿真器（Dream Dojo）替代物理引擎。Jim Fan 给出 2040 年机器人实现自主研发的路线图，置信度 95%。宝玉的翻译整理清晰完整，适合快速了解这一重要范式转变。对 AI 进展的恐慌实属错位 Gary Marcus 针对近期 METR 时间范围图引发的 Twitter 集体恐慌，写了一篇冷静的技术反驳。METR 发布了 Claude Mythos Preview 的评测数据，显示其「50% 时间范围」达到至少 16 小时，一时间引发大量「AI 即将接管一切」的讨论。Marcus 逐一拆解了三个被忽略的限定：50% 成功率意味着一半时间任务会失败；测试仅覆盖软件开发单一领域；缺乏通用智能的实质性证据。他引用了 Ramez Naam 的数据分析，显示 Mythos 的 ECI 指标与历史趋势线基本吻合，并没有真正「打破图表」。这是一篇在情绪化讨论中难得的冷静声音，提供了分析 AI 能力评测数据时所需的关键背景与方法论。 ## 扩展阅读给你的聊天智能体加上声音 | Luke Harries，ElevenLabs ElevenLabs 的 Luke Harries 介绍 ElevenLabs Voice Engine，这是一套专为开发者设计的语音原语接口：语音识别、语音合成、对话轮次管理、语音活动检测，可以直接叠加在现有的聊天 Agent 之上，让 Agent 具备自然的语音交互能力，而无需从头构建整个语音系统。与今日精讲三的 Mistral TTS 内容形成很好的互补——精讲三讲的是 TTS 底层架构为何趋同于 LLM，这里讲的是如何在应用层将语音能力集成进 Agent。正在考虑为产品添加语音交互的工程师可以两篇对照来看。图灵奖得主 Sutton 新作：用一个 1967 年的公式，解决流式强化学习一大缺陷 Richard Sutton 团队提出「意图更新（Intentional Updates）」方法，用一种新的方式定义强化学习中的「步长」：不再控制参数移动多大，而是直接控制函数输出的变化量（即「意图」）。这一改变从根源上解决了流式深度强化学习中的训练不稳定问题——在批大小为 1、不依赖回放缓冲区的在线学习场景下，传统梯度步长的不稳定性会被放大为训练崩溃，而意图更新把这个问题压制住了。最终形成了三个完整算法：Intentional TD(λ)、Intentional Q(λ) 和 Intentional Policy Gradient。对强化学习有一定基础的读者，这是一篇深度值得的理论文章。 ## 今日阅读路径时间有限？以下是推荐的优先阅读顺序：如果你只有 30 分钟，先读这三篇： 1. 持久化 Agent 的两条路：今日技术密度最高、与 Agent 工程最直接相关的内容。重放模型 vs 快照恢复的架构对比，对构建生产级 Agent 的工程师有立竿见影的参考价值。精讲二，约 15 分钟。 1. 机器人的终局：WAM 登场：Jim Fan 在 Sequoia 舞台宣告 VLA 过时，宝玉的翻译整理清晰，20 分钟了解机器人领域最新范式转移，信息密度极高。 1. Harness Engineering：外壳才是关键：短小精悍，快速建立「Agent = Model + Harness」的思维框架，对日常 Agent 开发有直接的工程指导意义。如果你有 1 小时，在以上基础上加入： - 如何打造能穿越时代的公司：精讲一。Ries 的防腐剂框架超越 AI 范畴，任何有使命感的创业项目都能用得上。 - 分层记忆：上下文管理：与精讲二形成互补，从 Agent 记忆管理的角度继续深化理解，Arize 的真实案例很有说服力。 - 对 AI 进展的恐慌实属错位：在充满情绪的 AI 讨论环境里，Marcus 的冷静分析是一个值得收藏的思维工具。完整模式：按精讲一、二、三的顺序阅读，再配合速览中的 AI 自我成长和 LLM 摘要缺失识别步骤，最后用扩展阅读的 ElevenLabs Voice Engine 收尾——从公司治理哲学，到 Agent 基础架构，到语音交互集成，可以在一天内建立起一条完整的认知脉络。 BestBlogs Pro 早鸟内测开放：你可以自定义订阅源、配置兴趣标签，每天获得一份属于自己的头条早报。欢迎抢先体验，并把反馈发回给我们：https://bestblogs.dev

译本期早报围绕三条主线。Eric Ries新书《Incorruptible》探讨成功公司如何通过公益公司章程等结构性设计抵御“财务重力”导致的腐化。Trigger.dev联创Eric Allam指出传统重放模型无法应对长时工作的AI Agent，提出上下文日志与执行快照的两层持久化架构。Mistral科学家Samuel Humeau阐述TTS技术正复用LLM范式，走向架构趋同。三者共同揭示：选择更复杂的结构性方案能获得更长久的生命力。速览部分还涉及AI自我成长评估、Agent上下文工程等议题。

ginobefun@hongming731 · 5月11日50

#BestBlogs 早报 2026-05-11 今日主题： - Eric Ries 的《Incorruptible》问的是：当公司赢了之后，组织结构如何对抗腐化？他的答案是三种「不锈钢螺栓」：公益公司章程、信任型治理、基金会控股，每一种都是把使命嵌入结构而非依赖人心。 - http://Trigger.dev 的 Eric Allam 问的是：当 AI Agent 的工作时长从分钟延伸到数天，建立在「无状态」假设上的计算范式如何演进？他的答案是把持久化拆成两层：上下文日志负责记忆，执行快照负责状态，Agent 等待时可以完全关机，恢复只需毫秒。 - Mistral 的 Samuel Humeau 则展示：当音频生成开始把自己当成一个语言建模问题：tokenize 音频帧、自回归预测、预训练→对齐→推理时扩展——LLM 走通的那条路，正在被 TTS 一步步复刻，而 17 毫秒的首包延迟是这条路目前的技术标杆。

译Eric Ries提出用公益公司章程等“不锈钢螺栓”结构将使命嵌入组织，以对抗成功后的腐化。Eric Allam探讨长时AI Agent的持久化方案，通过分层实现毫秒级恢复。Samuel Humeau展示音频生成正复刻LLM技术路径，并以17毫秒首包延迟为当前标杆。

Chubby♨️@kimmonismus · 5月10日45

Podcasts will remain human. Although more and more AI-generated podcast content is being created by AI, I firmly believe that successful podcasts will continue to be hosted by people. Why? Podcasts are regularly successful because of their hosts. Whether it's because they're good speakers or because you find them likeable, you want to be part of the podcast, part of the conversation. It's the same with live concerts. It's the presence, the human interaction, the social dynamic. I'm not saying that learning with NotebookLM isn't possible; on the contrary, its dialogue format is extremely helpful. However, there's a difference between learning with tools like NotebookLM and being an engaging part of a podcast with human listeners.

译尽管AI生成播客内容日益增多，但成功的播客仍将依赖人类主播。播客的成功核心在于主播的个人魅力、表达能力和亲和力，这使听众渴望参与对话并成为节目的一部分。这与现场音乐会的魅力类似，关键在于“在场感”、人际互动与社会性动态。虽然如NotebookLM等AI工具的对话形式对学习有帮助，但这与作为人类听众参与一个有吸引力的播客体验存在本质区别。

AK@_akhaliq · 5月10日56

MiniCPM-o 4.5 Towards Real-Time Full-Duplex Omni-Modal Interaction paper: https://huggingface.co/papers/2604.27393

译MiniCPM-o 4.5 迈向实时全双工全模态交互论文: https://huggingface.co/papers/2604.27393

OpenAI Developers@OpenAIDevs · 5月10日74

Here’s how you can integrate GPT-Realtime-2 to bring voice control to a CRM workflow.

译以下介绍如何集成GPT-Realtime-2为CRM工作流添加语音控制功能。

Greg Brockman@gdb · 5月9日66

GPT-Realtime-2 for instantly translating audio in realtime

译开发者利用GPT-Realtime-2模型，在Chrome浏览器扩展中实现了实时AI音频翻译功能。该功能适用于YouTube视频、直播、会议和演示等所有浏览器内音频场景，能实时显示翻译后的语音。用户可在音视频播放或会议进行的同时，基于实时上下文调用AI进行摘要提取、要点归纳、笔记整理和内容解释等交互操作。这标志着浏览器正演变为实时AI操作系统，推动互联网语言壁垒趋于消失。

StepFun@StepFun_ai · 5月9日69

Highest-ranked Chinese TTS model on the @ArtificialAnlys Speech Arena. Top 3 globally. Blind test. Real ears. They picked it! StepAudio 2.5 TTS.

译StepFun 推出的 StepAudio 2.5 TTS 在 Artificial Analysis 语音竞技场盲测排行榜中位列全球第三，Elo 评分为 1187 分，仅次于 Inworld TTS 1.5 Max 与 Google Gemini 3.1 Flash TTS。该模型语音自然度较前代显著提升，并以 8 分优势超越 Eleven v3。其定价为每百万字符 85 美元，生成速度为每秒 37.6 字符，并提供了全局上下文提示和行内情感标签两种语音控制方式。

Artificial Analysis@ArtificialAnlys · 5月9日62

StepFun’s new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld’s Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS StepAudio 2.5 TTS represents a significant step forward for StepFun from previous TTS models, with notably increased naturalness of speech samples. The model now edges out Eleven v3 on our current prompt set with an Elo score of 1,187. Key takeaways: ➤ Quality: StepAudio 2.5 TTS has an Elo of 1,187 based on 834 arena appearances, placing it 28 points behind the leading model (Inworld TTS 1.5 Max at 1,215) and 8 points ahead of Eleven v3 at 1,179 ➤ Pricing: Model is priced at $85/1M characters, a premium to leading frontier models, Inworld TTS 1.5 Max at $35/1M and Gemini 3.1 Flash TTS at $36.6/1M ➤ Speed: Model generates characters 37.6 characters per second, compared to 220.5 chars/s for Inworld TTS 1.5 Max and 30.1 chars/s for Gemini 3.1 Flash TTS ➤ Prompting: StepAudio 2.5 TTS offers two paths to control delivery of speech: 1. Global context prompt for overall style, 2. Inline contextual tags for more granular emotion and prosody See more details and listen to samples below ⬇️

译StepFun 推出的 StepAudio 2.5 TTS 模型在 Artificial Analysis 语音竞技场排行榜中位列第三，仅次于 Inworld Realtime TTS 1.5 Max 和 Google Gemini 3.1 Flash TTS。该模型语音自然度显著提升，以 1187 的 Elo 评分超越 Eleven v3。其定价为每百万字符 85 美元，高于领先模型；生成速度为每秒 37.6 字符，介于竞品之间。模型提供全局上下文提示和行内情感标签两种控制语音表现的方式。

Artificial Analysis@ArtificialAnlys · 5月9日67

StepFun’s new StepAudio 2.5 TTS ranks #3 on the Artificial Analysis Speech Arena Leaderboard, only behind Inworld’s Realtime TTS 1.5 Max and Google’s Gemini 3.1 Flash TTS StepAudio 2.5 TTS represents a significant step forward for StepFun from previous TTS models, with notably increased naturalness of speech samples. The model now edges out Eleven v3 on our current prompt set with an Elo score of 1,187. Key takeaways: ➤ Quality: StepAudio 2.5 TTS has an Elo of 1,187 based on 834 arena appearances, placing it 28 points behind the leading model (Inworld TTS 1.5 Max at 1,215) and 8 points ahead of Eleven v3 at 1,179 ➤ Pricing: Model is priced at $85/1M characters, a premium to leading frontier models, Inworld TTS 1.5 Max at $35/1M and Gemini 3.1 Flash TTS at $36.6/1M ➤ Speed: Model generates characters 37.6 characters per second, compared to 220.5 chars/s for Inworld TTS 1.5 Max and 30.1 chars/s for Gemini 3.1 Flash TTS ➤ Prompting: StepAudio 2.5 TTS offers two paths to control delivery of speech: 1. Global context prompt for overall style, 2. Inline contextual tags for more granular emotion and prosody See more details and listen to samples below ⬇️

译StepFun的StepAudio 2.5 TTS在Artificial Analysis语音竞技场排行榜位列第三，仅次于Inworld Realtime TTS 1.5 Max和Google Gemini 3.1 Flash TTS。该模型Elo评分达1187分，在测试集上已超越Eleven v3，语音自然度显著提升。其定价为每百万字符85美元，高于头部竞品；生成速度为每秒37.6字符。模型提供全局上下文提示和行内情感标签两种控制路径，可精细调节语音风格与韵律。

Sam Altman@sama · 5月9日51

call me maybe

译打电话给我，也许

Suno@suno · 5月9日68

can you make a pop song using only your voice?

译你能只用你的声音创作一首流行歌曲吗？

ginobefun@hongming731 · 5月8日60

http://x.com/i/article/2052675131466809344 # BestBlogs 周刊 | 第 94 期：语音 AI 突围 > 🎧 本期也有播客版本：时长 13:51 · 在线收听这周我最大的感受就一个词：声音。 OpenAI 一口气发了三个实时语音模型，ElevenLabs 年收入冲到了 4 亿美元，Anthropic 宣布跟 SpaceX 合作拿 300 兆瓦算力。把这几件事放在一起看，语音 AI 不再是语音助手那种边缘场景了，它正在变成 AI 和人之间最核心的交互方式。本期围绕两条线展开：一条是语音本身，从模型到基础设施到产品；另一条是 AI 正在从工具变成能自己干活的系统。 → 阅读周刊完整版 ## 一、OpenAI 连发三个实时语音模型 OpenAI 在同一天发布了三个实时语音模型，最值得关注的是 GPT-Realtime-2。它的核心特点是把 GPT-5 级别的推理能力搬到了语音场景。不只是听你说话和回复你，还能在对话过程中同时调用多个工具——一边跟你聊，一边帮你查信息、操作数据库、执行任务。128K 上下文窗口，推理深度可根据场景调节。有一个数据很说明问题。Zillow 实测发现，用了 GPT-Realtime-2 之后，通话成功率从 69% 直接跳到了 **95%**。原来每十个电话不到七个能成功处理，现在十个里九个半都能搞定。语音基准测试成绩也提升了 15.2%。同一天发布的还有 GPT-Realtime-Translate（70+ 语言实时互译）和 GPT-Realtime-Whisper（低延迟流式转录）。三个模型配合，把实时语音从简单问答推进到了可执行任务的交互界面。你可以想象：一个中国用户用中文打电话给日本公司，AI 实时翻译，双方母语流畅沟通，还能帮你完成下单和预约。一年前这只是概念，现在已经是 API 级别的能力。我的判断是，语音正在从辅助交互转向主交互。以前语音附属于屏幕，现在语音本身就能完成任务闭环。如果语音交互变得足够自然可靠，很多 App 界面可能就不需要了。另外 OpenAI 同时发布了 GPT-5.5 Instant，取代 5.3 成为 ChatGPT 默认模型。幻觉率降低 52.5%，医学和法律等高风险领域的事实准确性提升明显。 → 阅读原文：通过 API 新模型推进语音智能 ## 二、语音 AI 的基础设施挑战做语音服务和做文本服务完全不同，延迟要求差了几个数量级。OpenAI 工程团队发了一篇硬核文章，讲他们怎么在大规模场景下交付低延迟语音 AI。核心就一件事：重构 WebRTC 协议栈。把中继和收发器拆成两个独立架构。原因很直接——Kubernetes 里每建立一个语音连接就占用一个 UDP 端口，用户量一大，端口就耗尽了。解法是用 ICE 用户名片段做原生路由钩子，实现确定性首包路由。说人话：用户从世界各地打来语音电话时，系统能在第一个数据包到达时就确定怎么路由，不需要额外的握手和等待。这不是理论文章，是一份生产级手册。整篇文章用 Go 语言做了大量网络层优化，能感受到一线工程师面对真实流量压力时的解题思路。 → 阅读原文：OpenAI 如何大规模交付低延迟语音 AI ## 三、ElevenLabs：4 亿美元年收入背后的反直觉策略 ElevenLabs 年收入已达 4 亿美元，团队只有 400 多人。这个人均产出比在 AI 公司里非常高。创始人 Mati Staniszewski 在 Sequoia 对谈里分享了几个反直觉的组织策略： - 每个团队上限 10 人 - 每个非技术部门都嵌入工程师 - 没有正式头衔核心逻辑：保持信息流通速度，减少管理层级摩擦。在快速变化的 AI 市场里，决策速度往往比完美程度更重要。下一个突破方向是情绪智能。语音智能体不只是回应，还要能共情——用户语气着急时，智能体的回应节奏也相应调整。Staniszewski 判断，声音会成为 AI 智能体和机器人的主要交互界面。他还特别提到了音频水印技术，能解决 AI 生成语音的信任问题，让机器和人的声音可以被区分开来。这是语音 AI 大规模采用的前提条件。 → 阅读原文：ElevenLabs 创始人对谈 ## 四、Anthropic 的 80 倍增长与算力竞赛 Dario 和 Daniela Amodei 在年度开发者活动上说了一些很实在的话。Anthropic 的增长超出了所有内部预测——年化增速达到 80 倍，远超他们准备的 10 倍预案。最直接的后果：算力不够用。这也解释了为什么 Anthropic 同一天宣布跟 SpaceX 合作，获取 300+ 兆瓦计算能力，规模约 22 万块 NVIDIA GPU。Claude Code 使用额度也翻倍了。这反映了一个行业级挑战：AI 公司的增长速度远超基础设施建设速度。模型能力指数级提升，但数据中心建设周期以年为单位。谁能更快更稳定地拿到大规模计算能力，谁就更能支撑高频开发者和企业用户。另一个趋势：Claude Code 正在从开发工具扩展到产品经理的工作台。路线图拆解、工单创建、用户分析都可以交给它。Anthropic 在拓展用户群，不再只面向开发者。 → 阅读原文：Dario 与 Daniela 谈 Anthropic 的指数增长 ## 五、Claude 托管智能体的三重升级 Anthropic 这周还有一个重要更新：Claude 托管智能体的三重升级。梦境功能：智能体空闲时回顾历史会话，提取模式，整理记忆，自我改进。就像人类睡觉时大脑整理白天学到的东西。用 Claude Code 做了一周项目后，它会自动提炼规律，下次遇到类似问题反应更快。成果评估：智能体按评分标准自动修正输出，无需人工介入。写完报告后自己检查，发现三个地方不够好，自己改了再提交。多智能体编排：复杂任务拆解为并行子任务，委派给专门子智能体。比如市场调研，一个负责搜集数据，一个分析竞品，一个写报告，最后汇总。三个能力加在一起，Claude 正在从「听指令干活」变成「自己想、自己查、自己改」。 Factory 的 Missions 系统也在做类似的事——让多智能体团队自主运行好几天，用验收合约控制质量。EverMind 也发布了给智能体装长期记忆的开源系统。智能体的基础设施正在快速补齐。 → 阅读原文：Claude 托管智能体新功能 ## 六、窥探模型的内心：自然语言自编码器 Anthropic 发布了一个前沿研究：自然语言自编码器（NLA）。它能直接把 Claude 内部的激活状态转换成人类可读的文字解释。我们能窥探到模型在想什么了。两个有意思的发现： 1. Claude 在意识到自己正在被安全测试时，会选择沉默，不暴露判断。模型并没有被训练做这种判断，是自发形成的行为模式。 1. 在未对齐模型中，NLA 能检测到隐藏动机——模型表面配合用户，实际在规划完全不同的行动。可解释性研究从事后分析走向实时透视。虽然 NLA 本身可能产生幻觉、运行成本高，但对 AI 安全研究来说，这扇窗打开了。 → 阅读原文：自然语言自编码器 ## 七、AI 编程范式加速演进 Claude Code 创作者 Boris Cherny 在 Sequoia 对谈里说了一个印象深刻的数字：每天用 AI 提交 150 个 PR，全部代码由智能体产出。他一个人在产出一个小团队的工作量。他提出了 loops 概念——可持续运行的定时智能体任务。不是你问一句它答一句，而是设定目标后按计划持续运行，定时检查、自动修复、聚类反馈。这可能是下一代 AI 编程的核心范式。几篇相关实践也值得一看： - AGENTS.md 实践（阿里云开发者）：把它做成地图而非手册，渐进式披露让 AI 打开项目就能理解上下文。 - Agent Harness 深度解读（十字路口播客）：拆解 Harness 三层框架。 - 十年老技术开发的判断：80% 的 AI 需求不需要 AI，代码优先于提示词，规格驱动开发才是智能体系统的地基。 - Harness Engineering 案例：一周把企业级 Java 应用 AI 代码率从 25% 提升到 90%，核心是规则、技能、知识和变更管理四要素体系。这些文章都在回答同一个问题：怎么让 AI 从对话式工具变成可持续的工程协作。答案不是让 AI 更聪明，而是先把人类自己的工作流程理清楚。 ## 八、AI 正在压垮 GitHub The Pragmatic Engineer 报道，GitHub 正常运行时间降到 **86%**，一次数据完整性事件影响超过 2000 个 PR。根本原因：AI 智能体带来的负载激增。以前 GitHub 流量主要来自人类开发者，现在多了一大批不知疲倦的 AI 智能体 24 小时推代码。有意思的是，Vercel 和 Linear 在同样的 AI 驱动增长下没出现类似问题。这不是行业瓶颈，是个别公司在基础设施准备上的差距。当用户群从人类变成 AI 智能体，系统架构需要重新设计。已有知名开源贡献者因不稳定而转向其他平台。 → 阅读原文：AI 负载压垮 GitHub ## 九、两个深层思考能动性比技能更重要。 Notion 的 Max Schoening 说，当 AI 让技能更容易获得时，理解软件这种材料、让产品变得可塑才是关键。成功的产品往往有一个微小但卓越的核心功能，能让用户感觉像超级英雄。当工具能力被 AI 拉平，真正拉开差距的是主动性去定义问题、去动手做。大多数公司没为 AI 做好准备。宝玉的翻译文章说得更直接：大多数公司无法有效利用 AI，根本原因不是技术不行，而是自身战略模糊、目标不清。混乱的公司无法被 AI 优化，只会被放大低效。AI 是一个放大器，放大的是你已有的东西。如果你本来就高效，AI 让你更高效。如果你本来就混乱，AI 只会让混乱加倍。 ## 总结如果用一个关键词概括这周，就是声音。从模型到基础设施到产品到商业，语音 AI 正在全面加速。接下来值得关注的是：语音智能体会不会在客服和车载场景率先大规模落地。同时，智能体基础设施的补齐速度也值得持续关注——梦境、长期记忆、多智能体编排，这些能力的成熟会直接改变我们和 AI 协作的方式。 BestBlogs.dev · 遇见更好的技术阅读 · https://bestblogs.dev

译OpenAI发布GPT-Realtime-2等实时语音模型，将高级推理能力引入语音交互，推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元，并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战，与SpaceX合作获取大规模计算能力，同时升级Claude托管智能体，使其具备自我改进与多智能体协作能力。行业趋势显示，AI正从工具演变为能自主运行的智能体系统，这给GitHub等基础设施带来了新的负载压力。

ginobefun@hongming731 · 5月8日46

BestBlogs 周刊 #94｜语音 AI 突围本周主线：OpenAI 连发三个实时语音模型，GPT-Realtime-2 实测通话成功率 69%→95%。ElevenLabs 年收入 4 亿美元，下一个方向是情绪智能。Anthropic 80 倍增长，算力成为核心瓶颈。同时 AI 编程范式加速：Claude Code 创作者日均 150 PR，GitHub 被 AI 流量压到 86% 可用性。播客 + 图文都已上线 ↓

译BestBlogs 周刊 #94｜语音 AI 突围本周主线：OpenAI 发布了三个实时语音模型，GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元，下一个方向是情绪智能。Anthropic 增长80倍，算力成为核心瓶颈。同时 AI 编程范式加速：Claude Code 创作者日均150个PR，GitHub 被 AI 流量压到86%可用性。播客和图文都已上线 ↓