AIHOT

Berryxia.AI@berryxia · 4月30日52

Moonlake 推出 3D Agent！像专业技术艺术家一样的 AI 来了！ • 从单张图片生成带关节、可编辑的 3D 资产 + 大型场景（数百物体） • 支持从零建模（独立部件+关节绑定，无需预设规则） • 重建完整可编辑室内/室外场景 • 原生集成 Blender 实现真实工作流自动化

译Moonlake发布3D Agent，这是一个AI驱动的工具，能像专业技术艺术家一样从单张图片生成带关节、可编辑的3D资产和大型场景（包含数百物体）。它支持从零建模，自动处理独立部件和关节绑定，无需预设规则，并能重建完整可编辑的室内或室外场景。通过原生集成Blender，该工具实现了真实工作流的自动化，简化3D创作过程。

Luma@LumaLabsAI · 4月30日58

Great content deserves a global audience. Upload your video. Set the languages. Luma Agents handle translation, lip sync, and localization across every market from there. No reshoots. No separate production pipelines. Just your content, everywhere it needs to be. Go global → http://lumalabs.ai/app

译优质内容值得拥有全球观众。上传你的视频。设置语言。Luma Agents 会处理翻译、唇形同步和针对每个市场的本地化工作。无需重新拍摄。无需单独制作流程。只需你的内容，触达所有需要的地方。走向全球 → http://lumalabs.ai/app

OpenAI Developers@OpenAIDevs · 4月30日64

With the Figma plugin, Codex can now turn implementation plans into visual FigJam boards.

译通过Figma插件，Codex现在可以将实施计划转化为可视化的FigJam白板。

OpenAI Developers@OpenAIDevs · 4月30日62

⚙️ We made agent loops faster with WebSockets in the Responses API As Codex got faster, the bottleneck moved from inference to inefficient API calls WebSockets keep response state warm across tool calls, helping workflows run up to 40% faster end to end https://openai.com/index/speeding-up-agentic-workflows-with-websockets

译⚙️ 我们通过 Responses API 中的 WebSockets 让代理循环运行得更快随着 Codex 速度提升，瓶颈从推理转移到了低效的 API 调用 WebSockets 在工具调用之间保持响应状态活跃，帮助工作流程端到端运行速度提升高达 40% https://openai.com/index/speeding-up-agentic-workflows-with-websockets

OpenAI@OpenAI · 4月30日26

Still wondering how you can use Codex for (almost) everything? Codex can help with more of the work that supports the work, from organizing research to making spreadsheets, decks, and summaries.

译还在思考如何将Codex用于（几乎）所有事情吗？ Codex能协助更多支持性工作，从整理研究到制作电子表格、演示文稿和摘要。

Rohan Paul@rohanpaul_ai · 4月30日57

Abacus just launched Abacus AI Studio. Brings 100+ AI models, plus image, video, and voice, into 1 dashboard.

译Abacus 刚刚推出了 Abacus AI Studio。将 100 多种 AI 模型，以及图像、视频和语音功能，整合进一个仪表板。

Luma@LumaLabsAI · 4月30日56

Your subject nailed it. The background didn't. Fix it in seconds. Upload your reference, set the scene, and let Luma Agents drop your subject into any environment with seamless blending and consistent lighting. The result looks like it was always meant to be there. Change the scene → http://lumalabs.ai/app

译你的主体拍得很棒。背景却不尽人意。几秒钟内搞定它。上传你的参考图，设定场景，让Luma Agents将你的主体无缝融入任何环境，光照一致。结果看起来就像它本就该在那里。更换场景 → http://lumalabs.ai/app

Google AI Developers@googleaidevs · 4月30日55

Watch this demo from @thorwebdev to see Gemini 3.1 Flash Live in action as a real-time DJ. The model uses function calling (to the Gemini API) to generate custom 30-second clips using Lyria 3️⃣ Start your own studio session in @GoogleAIStudio: http://goo.gle/3PbcCXJ

译观看 @thorwebdev 的这个演示，看看 Gemini 3.1 Flash 如何作为实时 DJ 实际运作。该模型使用函数调用（调用 Gemini API），通过 Lyria 3️⃣ 生成定制的 30 秒片段。在 @GoogleAIStudio 中开启你自己的工作室会话：http://goo.gle/3PbcCXJ

SemiAnalysis@SemiAnalysis_ · 4月30日46

TEHRAN, April 29, 2026 -- Less than a week after the release of @deepseek_ai DeepSeek v4 Pro, the cracked team at @vllm_project and @inferact has achieved considerable improvement on GB200 (Dynamo+vLLM). This is largely due to the release of vLLM 0.20.0, which comes with MegaMoE kernel enabled for DEP deployments! Great work -- we are excited to highlight more improvements over the coming days.

译德黑兰，2026年4月29日——在@deepseek_ai DeepSeek v4 Pro发布不到一周后，@vllm_project和@inferact的破解团队在GB200（Dynamo+vLLM）上取得了显著改进。这主要得益于vLLM 0.20.0版本的发布，该版本为DEP部署启用了MegaMoE内核！出色的工作——我们期待在未来几天重点介绍更多改进。

ClaudeDevs@ClaudeDevs · 4月30日62

Claude Code ships with a built-in skill for working with the Claude Platform. Useful for model migrations, using API features (e.g., prompt caching), or onboarding to newer APIs like Claude Managed Agents.

译Claude Code 内置一项用于操作 Claude Platform 的技能。适用于模型迁移、使用 API 功能（例如提示缓存），或接入较新的 API 如 Claude Managed Agents。

阿绎 AYi@AYi_AInotes · 4月30日67

我等了整整一年的东西，终于来了， Cursor今天正式发布了它的SDK，这回可远不只是又一个编程工具的小更新，可以说是人类历史上第一次，把生产级的编程能力，变成了可以随便嵌入的基础设施，以前你只能在Cursor编辑器里用它的Agent，现在你可以把同一个Agent，塞进你的CI流水线，塞进你的自动化脚本，塞进你自己的产品里，甚至塞进任何你能想到的地方，最狠的是，它用的是和桌面端完全一样的runtime，一样的harness，一样的模型，你在编辑器里看到Agent有多聪明，你嵌入到产品里的Agent就有多聪明，不用自己搭沙箱，不用自己做上下文管理，不用自己写工具调用，所有Cursor过去一年踩过的坑，打磨过的所有细节，现在全部免费开放给你了，可能很多人还没意识到这件事的分量，这么说吧，过去所有的编程Agent，都只是在编辑器里帮你写代码，但从今天开始， Agent可以在任何地方写代码，它可以在后台自动修bug，自动提PR，可以在用户点击按钮的时候，实时生成功能，可以在CI失败的时候，自己修复构建错误，充当开发者的角色，第一次从写代码的人，变成了指挥Agent写代码的人，现在Cursor也不再只是一个更好的VS Code，它正在变成整个AI编程时代的操作系统，这意味着我们所有人，都站在了一个新时代的门口🚪🚀💻🤖

译Cursor正式发布SDK，将生产级编程Agent能力转化为可嵌入基础设施。此前Agent仅限于编辑器内使用，现可通过SDK集成到CI/CD流水线、自动化脚本或自有产品中，且采用与桌面端相同的runtime、harness和模型，确保智能程度一致。用户无需自行处理沙箱、上下文管理或工具调用，即可免费利用Cursor积累的经验。这使编程Agent能突破编辑器限制，在后台自动修bug、提PR、实时生成功能，甚至修复CI构建错误。开发者角色从直接编码转变为指挥Agent，Cursor正演变为AI编程时代的操作系统。

Google AI@GoogleAI · 4月30日52

http://x.com/i/article/2049546144930275328 # The Agentic Era: Unveiling Eighth Generation TPUs A decade in the making, the chips for the agentic era have arrived. At @GoogleCloud's Next '26 event last week, we unveiled our eighth-generation TPUs (the specialized computer chips we build for AI). These chips were specifically designed to handle the two biggest challenges in AI today: training the AI and serving the AI. So… what exactly does that mean? Let’s break it down: TPU 8t: Training the AI Before an AI can help you write an email or plan a trip, it has to "learn" from massive amounts of data. In the past, this could take months of expensive computer time. With TPU 8t, we’ve made that process significantly faster through two key advancements. - More power: It is roughly 3x more powerful than our previous generation of TPUs - More efficiency: We’ve cleared the "traffic jams" that usually slow down AI training. By making data move 10x faster from storage to the chips, we ensure the system is always working at full speed, never sitting idle. - Optimized scaling: In a system this size, parts eventually fail. TPU 8t is designed to automatically detect and reroute around hardware issues at large scale. This ensures that 97% of the resources are spent on productive work, preventing crashes that used to waste days of training time. So now, what used to take months of training now takes only weeks, meaning researchers can experiment and innovate at speed. TPU 8i: Serving the AI (Agents) If the "8t" is for teaching, the 8i is for doing. We built this chip specifically for "AI Agents,” the kind of AI that doesn't just chat with you, but actually acts for you (ex: booking a flight, managing a calendar, etc). To take action, an AI needs to "think" and "reason" through multiple steps very quickly, which TPU 8i enables through these advancements: - Better thinking: We tripled the chip’s internal memory so it can handle more complex logic. - More cost effective: It offers 80% better performance for every dollar spent. For a business, that means you can help twice as many customers without increasing your tech budget. - Latency: At the chip level, we have integrated a new engine which reduces latency by an additional 5x. Powering the Next Decade Whether it's a scientist training a new medical model or a business getting some much needed customer support help, these chips provide the raw power needed to make that future a reality.

译在Google Cloud Next '26大会上，谷歌正式推出专为智能体时代设计的第八代TPU芯片，分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练，其性能约为前代的3倍，并通过加速数据移动和优化硬件容错，将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务，内存扩大三倍以支持多步推理，每美元性能提升80%，延迟降低5倍，助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力，推动AI应用创新。

宝玉@dotey · 4月30日67

Cursor 今天开放了官方 TypeScript SDK 公测，把驱动自家编辑器、CLI 和网页版的智能体（agent，可自主执行编码任务的 AI 助手）整套打包交给开发者。装上 npm install @cursor/sdk 就能用。调用方式很灵活。Agent 可以跑在本机，也可以塞到 Cursor 云端的独立虚拟机里。云端模式下每个 agent 都有专属沙箱、克隆好的代码仓库和配置完整的开发环境，电脑休眠或断网都不影响任务继续，干完活还能直接开 PR、推分支、附上截图。模型层面不绑定，OpenAI、Anthropic、Google 的前沿模型可以一键切换，也能跑 Cursor 自家的 Composer 2（专为编码训练的模型，号称用更低成本接近前沿水平）。 SDK 把 Cursor 平时藏在编辑器里的那套 harness（智能体运行框架）整个开放了出来：代码库索引、语义搜索、即时 grep、MCP 工具接入、从仓库 .cursor/skills/ 目录自动加载的技能、可以观察和干预 agent 循环的 hooks，以及把任务拆给"子 agent"的能力。官方点名了几种典型场景：CI/CD 流水线里自动总结改动、定位失败原因、自动提修复 PR；做内部工具让销售和市场团队不写代码就能查产品数据；甚至把 Cursor 直接嵌进自家面向客户的产品里，让最终用户在不离开宿主应用的情况下用上 agent 体验。Faire 的工程经理 George Jacob 的说法是，他们以前要自己管虚拟机、绕开内存限制，现在能直接复用 Cursor 的云端运行时来维护代码库。计费按 token 用量算。GitHub 上的 cookbook 仓库放了几个示例项目，包括最简版的本地 agent、网页原型工具、能拖卡片自动开 PR 的看板，以及命令行工具。放进上下文里看：Anthropic 早些时候推出了 Claude Agent SDK，OpenAI 也有 Codex 相关 SDK，agent 基础设施本身正在变成一门独立生意。Cursor 这次相当于把自己卖给开发者的核心能力打包出售。你既可以付费用它的编辑器，也可以付费让它替你跑 agent。 Cookbook: https://github.com/cursor/cookbook

译Cursor开放官方TypeScript SDK公测，允许开发者使用其智能体（agent）框架，该框架驱动Cursor编辑器、CLI和网页版。智能体可在本机或云端独立虚拟机中运行，云端提供沙箱、代码仓库和完整开发环境，支持任务持续执行并自动提交PR。模型层面不绑定，可一键切换OpenAI、Anthropic、Google等前沿模型，或使用Cursor专为编码训练的Composer 2。SDK开放了代码库索引、语义搜索、MCP工具接入、技能加载和任务拆分等核心能力。应用场景包括CI/CD流水线自动化、内部工具开发以及嵌入客户产品，使最终用户获得智能体体验。计费按token用量计算，SDK基于Cursor自身的运行时、harness和模型，让开发者能构建与Cursor相同能力的智能体。

Ant Ling@AntLingAGI · 4月30日61

Thanks to the dedicated support for Ling-2.6-1T from day0 partner @vllm_project ! As the pioneer of the 1T sized models, we know how important hardware - software - llm co-design is. The best engineering ecosystem collaboration leads to the best optimization and user experience. Let's ROLL together! 🖖

译AntLingAGI 开源了 Ling-2.6-1T 模型，这是一个面向现实世界智能体工作流程的新旗舰模型。作为 1T 参数规模模型的先驱，团队强调了硬件、软件与 LLM 协同设计的重要性。vLLM 项目从发布首日（Day-0）起即提供支持，体现了顶尖工程生态系统的协作。这种合作旨在实现最佳的优化效果与用户体验，共同推动技术进步。

TestingCatalog News 🗞@testingcatalog · 4月30日60

Users can now use Mistral Vide directly in Le Chat! Besides that, Le Chat got a new Work Mode in Preview: an agent that can handle complex tasks across connected tools.

译Mistral AI宣布其Le Chat平台现已直接集成Mistral Vide功能。同时，平台推出了处于预览阶段的Work Mode，这是一个能够处理复杂、长期任务的智能体。该模式专为研究、分析和跨连接工具执行操作等场景设计，默认开启连接器，可自动从文档、电子邮件和日历中获取上下文信息。任务会话会持续进行，直至任务完成。

Replit ⠕@Replit · 4月30日56

The classroom changed. The homework changed. How we learn changed. 18 million students already build on Replit and now, there's a dedicated space just for them. No setup. No lectures. Just building. Teachers get free access. Students get 50% off Core. And if you're running a program, we'll help you scale it. Claim yours at http://replit.com/edu

译课堂改变了。作业改变了。我们的学习方式改变了。已有1800万学生在Replit上构建项目，现在，他们有了专属空间。无需设置。无需听课。只管构建。教师可免费使用。学生购买Core可享五折优惠。如果您正在运营项目，我们将助您扩大规模。立即申领：http://replit.com/edu

Replit ⠕@Replit · 4月30日56

Building apps is easy- keeping them running isn’t Introducing Replit Application Monitoring Replit Agent now watches your app in production, investigates issues, and helps fix them- so you don’t have to

译构建应用很容易——让它们持续运行则不然 Replit应用监控正式推出 Replit代理现可监控您生产环境中的应用，排查问题并协助修复——让您无需亲力亲为

TestingCatalog News 🗞@testingcatalog · 4月30日68

GOOGLE 🚨: Gemini now can generate Docs, Sheets, Slides, and PDFs directly in the chat. Available to all users already 👀

译GOOGLE 🚨：Gemini 现在可以直接在聊天中生成文档、表格、幻灯片和 PDF。已面向所有用户开放 👀 [引用 @joshwoodward]：Gemini 新功能：生成文件并导出告诉 Gemini 你想创建什么内容和格式，它现在就能为你完成工作。目前支持： 📄 Google 文档、Word (.docx) 和 PDF 📊 Google 表格、Excel (.xlsx) 和 CSV 🖥️ Google 幻灯片 🛠️ Markdown、LaTeX、TXT、RTF 现已全球全面上线！

OpenRouter@OpenRouter · 4月30日54

`stripe projects add openrouter/api` An easy way to accept @stripe payments for 400+ LLMs and image/video/audio models, now available to all! https://openrouter.ai/announcements/openrouter-on-stripe-projects

译`stripe projects add openrouter/api` 为 400 多种 LLM 及图像/视频/音频模型接受 @stripe 付款的便捷方式，现已向所有人开放！https://openrouter.ai/announcements/openrouter-on-stripe-projects

Josh Woodward@joshwoodward · 4月30日68

New in Gemini: Generate files and export them Tell Gemini what you want to create and the format, and it now does the work for you. Now supporting: 📄 Google Docs, Word (.docx) & PDFs 📊 Google Sheets, Excel (.xlsx) & CSV 🖥️ Google Slides 🛠️ Markdown, LaTeX, TXT, RTF Available now on all surfaces globally!

译Gemini 新功能：生成文件并导出告诉 Gemini 你想创建什么以及格式，它现在就能为你完成。现已支持： 📄 Google 文档、Word (.docx) 和 PDF 📊 Google 表格、Excel (.xlsx) 和 CSV 🖥️ Google 幻灯片 🛠️ Markdown、LaTeX、TXT、RTF 现已面向全球所有平台推出！

Sundar Pichai@sundarpichai · 4月30日67

You can now ask Gemini to create Docs, Sheets, Slides, PDFs, and more directly in your chat. No more copying, pasting, or reformatting, just prompt and download. Available globally for all @GeminiApp users.

译你现在可以直接在聊天中让Gemini创建Docs、Sheets、Slides、PDF等文件。无需再复制、粘贴或重新格式化，只需输入指令并下载即可。此功能已面向全球所有@GeminiApp用户开放。

Chubby♨️@kimmonismus · 4月30日52

Cursor is making a platform play. Right now they're an IDE. By releasing the SDK, they're turning their agent runtime into programmable infrastructure that runs headlessly in CI/CD pipelines, internal tools, and even third-party products. Every agent spun up through the SDK burns tokens on Cursor's billing. That means revenue scales with compute, not seats, and without a human in the loop, volume can go way higher. Smart move!

译Cursor正从集成开发环境转向平台化战略，通过发布SDK，将其智能体运行时转变为可编程基础设施。该基础设施可无头运行于CI/CD流水线、内部工具及第三方产品中。每次通过SDK启动的智能体都将消耗Cursor的计费代币，这意味着其收入模式将按计算量而非用户席位进行扩展。由于无需人工介入，使用量可大幅提升。此举旨在让开发者能利用驱动Cursor的相同运行时、工具链和模型来构建智能体。

Google Gemini@GeminiApp · 4月30日60

You can now generate a variety of downloadable files, including PDFs, @GoogleWorkspace files, Microsoft Word & Excel, and more directly in your chats with Gemini. Tell Gemini what content to create and the file format you want when you prompt without having to upload a template.

译现在您可以在与Gemini的聊天中直接生成多种可下载文件，包括PDF、@GoogleWorkspace文件、Microsoft Word & Excel等。只需在提示时告诉Gemini要创建的内容和所需文件格式，无需上传模板。

TestingCatalog News 🗞@testingcatalog · 4月29日36

Google is working on Mind Map customization for NotebookLM and a new integration with Google Play Books. What's Coming? 👀 > Users will be able to instruct NotebookLM to build a Mind Map for a specific topic or a set of sources. > Users will be able to use Google Play Books as sources. "Turn bestsellers into personalized insights. Add full-length books from leading authors to your notebooks."

译Google正在为NotebookLM开发思维导图定制功能以及新的Google Play Books集成。即将推出什么？👀 > 用户将能指导NotebookLM为特定主题或一组资料构建思维导图。 > 用户将能把Google Play Books用作资料来源。 "将畅销书转化为个性化见解。将知名作者的全本著作添加到你的笔记本中。"

TestingCatalog News 🗞@testingcatalog · 4月29日55

DeepSeek released DeepSeek Vision in Beta, a new mode in DeepSeek Chat dedicated to image-understanding tasks.

译DeepSeek 发布了 DeepSeek Vision 测试版，这是 DeepSeek Chat 中专门用于图像理解任务的新模式。

OpenAI Developers@OpenAIDevs · 4月29日48

Add Codex seats with a $0 seat fee for a limited time. Through the end of June, eligible ChatGPT Business and Enterprise customers can add Codex-only seats, making it easier to give more developers access to Codex in their day-to-day workflows.

译限时添加 Codex 席位，免收席位费。在六月底之前，符合条件的 ChatGPT Business 和 Enterprise 客户可以添加仅限 Codex 的席位，从而更轻松地让更多开发者在日常工作流程中使用 Codex。

TestingCatalog News 🗞@testingcatalog · 4月29日65

ElevenLabs launched ElevenMusic platform 🔥 ElevenMusic is built on top of ElevenLabs music generation model and is now available on the web and mobile.

译ElevenLabs 推出 ElevenMusic 平台 🔥 ElevenMusic 基于 ElevenLabs 音乐生成模型构建，现已在网页端和移动端上线。

Runway@runwayml · 4月29日63

Turn your camera roll into a visual effects engine with Runway. Just select a photo or video, type in what you want to happen and that's it. Everything's an opportunity to make something, get started at the link below.

译用Runway将你的相机胶卷变成视觉特效引擎。只需选择照片或视频，输入你想要的效果，就这么简单。万物皆可创作，通过下方链接开始使用。

向阳乔木@vista8 · 4月29日71

http://x.com/i/article/2049481992996323328 # OpenAI开源Symphony：给每一个任务配一个永不下班的 AI员工 OpenAI 最近开源了一个叫 Symphony 的项目。 > https://github.com/openai/symphony 感觉是给AI Agent用的任务管理系统，OpenAI 内部与Linear整合，大大提升了人管理Agent的能力，目前已经有1.8w Star。好像跟一个X友做的产品很像？让AI翻译介绍下： ## 从一个激进的实验说起六个月前，OpenAI 内部一个团队做了个当时看起来很激进的决定：仓库里不允许有任何人类写的代码。每一行，都必须由 Codex 生成。 > Codex 是 OpenAI 的 AI 编程助手，可以理解需求、读懂代码库、自主完成编程任务。他们重新设计了整个工程流程，大量投入自动化测试和防护机制，把 Codex 当成真正的团队成员。他们把这套方法叫做"harness engineering"（脚手架工程），并专门写了一篇博客记录这段历程。结果确实跑通了。但随即撞上了下一个瓶颈：上下文切换。 ## 真正的瓶颈是人的注意力每个工程师同时开几个 Codex 会话，分配任务，审查输出，调整方向，循环往复。实际操作下来，大多数人同时管理三到五个会话还算舒适，超过这个数字，效率就开始下降。忘了哪个会话在做什么，在几个终端之间来回跳，调试卡在一半的长任务…… AI 跑得很快，但系统的瓶颈是人的注意力。他们意识到，自己其实是雇了一批极其能干的初级工程师，然后让人类工程师去微观管理他们。这显然没法规模化。 ## 换一个视角问题出在思路上。他们一直在优化"编程会话"和"合并 PR"，但这些只是手段。 > PR（Pull Request）：工程师完成一段代码后，向主代码库提交合并请求，等待审查和合入。软件开发真正围绕的是可交付物：issues（问题单）、任务、里程碑。所以他们问了自己一个问题：如果不直接监督 AI，而是让 AI 自己从任务追踪系统里拉取工作，会怎样？这个想法变成了 Symphony。 ## Symphony 是什么一句话：把项目管理看板变成 AI 编码代理的控制中枢。他们用的是 Linear，一款工程团队常用的任务管理工具。每一个打开的任务，都会自动分配一个 AI 代理。代理持续运行，直到任务完成。人类只需要审查结果。具体来说，每个 Linear issue 对应一个独立的Agent工作空间。 Symphony 持续监视任务看板，确保每个活跃任务都有Agent在跑。 Agent崩溃了，自动重启；有新任务进来，自动接手。整个工作流用 Linear 的状态来驱动，像一台状态机： > Todo（待办）→ In Progress（进行中）→ Human Review（人工审查）→ Done（完成） AI 代理在这些状态之间流转，人类在"Human Review"节点介入。 ## 几个让人印象深刻的细节任务粒度可以很大不再局限于"改一个函数"这种小粒度。可以让代理先分析整个代码库、Slack 记录或 Notion 文档，产出实现方案，再自动拆解成一棵任务树，按依赖关系并行执行。他们用了一个词叫 DAG（有向无环图，Directed Acyclic Graph），本质就是一张"哪些任务依赖哪些任务"的执行顺序图，确保代理不会乱序执行。比如他们做过一个真实案例：先完成从 Webpack 到 Vite 的迁移，再升级 React。 Agent自己识别了这个依赖关系，等 Vite 迁移完成后才开始升级 React，完全符合预期。 Agent会自己创建任务在实现过程中，Agent如果发现了性能问题、重构机会或者更好的架构方案，会直接在 Linear 里开新 ticket，供人类评估和排期。很多后续任务也会被代理接手执行。从手机上也能工作因为编排器跑在开发服务器（devbox）上，从不睡觉，有个工程师在信号很差的小屋里，用手机 Linear App 提了三个重要改动，Agent照样接手执行了。数据很直接部分团队在前三周，合并的 PR 数量增长了 500%。 Linear 创始人 Karri Saarinen 也公开提到，Symphony 发布后，Linear 上新建工作区的数量出现了明显峰值。 ## 它的核心是一个 Markdown 文件这是 Symphony 最有意思的设计决策之一。打开 Symphony 的代码仓库，会发现它本质上就是一个 SPEC.md，一份对问题和解决方案的定义文档，而不是一个复杂的监控系统。他们定义好问题，给出高层次的指引，然后把这份规范扔给 Codex，让 Codex 来实现它。参考实现选了 Elixir，一门相对小众的编程语言，但在并发（同时处理大量任务）和进程监督方面有非常好的原语（基础构建块）。选它的理由也很直接：当代码成本趋近于零，终于可以为了语言的优势本身来选语言，而不是为了招人方便。 Codex 一次性就把 Elixir 实现写出来了。为了打磨规范本身，他们又让 Codex 用 TypeScript、Go、Rust、Java、Python 各实现了一遍，用这些实现来发现规范里的歧义和可以简化的地方。每种语言都成功了。 ## 工作流也被文档化了这里有个值得单独说的转变。以前，工程师们有一套隐性的工作流程：接到任务，切出分支，把任务标记为进行中，提 PR，移到 Review 状态，附上演示视频……这些步骤人人都懂，但从来没有被正式写下来。现在，这套流程被写进了 WORKFLOW.md，Symphony 确保 AI 代理遵循它。以前是人类遵循隐性规范，现在是把规范显式化，让 AI 来遵循。这个文件还有一个重要特性：热重载。修改 WORKFLOW.md 后，Symphony 会自动检测变化，无需重启，直接把新配置应用到后续任务上。如果以后想让代理在完成工作后附上自我反思，只需要在 WORKFLOW.md 里加一行，Symphony 就会引导Agent执行这一步。 ## Symphony 的技术架构（不想看可以跳过） Symphony 的内部由几个核心组件构成，理解它们有助于明白整个系统为什么可靠： Orchestrator（编排器）：整个系统的大脑，唯一有权修改调度状态的组件。它负责轮询任务、决定哪些任务该启动、重试或停止，并追踪所有正在运行的代理状态。 Workspace Manager（工作空间管理器）：每个任务都有自己独立的文件目录，Agent 只能在自己的目录里操作，不会互相干扰。这是一个重要的安全边界。 Agent Runner（执行器）：负责启动 Codex 进程，把任务提示词传给它，然后把执行结果反馈给编排器。 Issue Tracker Client（任务追踪客户端）：负责和 Linear 通信，拉取任务列表，同步状态变化。整个系统的并发控制也很细致，可以设置全局最大并发代理数（默认 10 个），也可以针对特定状态的任务单独限制并发数。重试机制用的是指数退避（exponential backoff）：第一次失败等 10 秒，第二次等 20 秒，第三次等 40 秒，以此类推，最长不超过 5 分钟。正常完成后的续跑检查只等 1 秒。 ## 一个重要的架构选择：App Server 模式 Symphony 使用了 Codex 的 App Server 模式，一种内置的无头（headless）运行模式。 > 无头（headless）：没有图形界面，完全通过程序接口控制，适合自动化场景。这种模式通过 JSON-RPC（一种轻量级的远程调用协议，用 JSON 格式传递指令和结果）以编程方式控制 Codex，比如启动一个对话线程、触发一个执行轮次、读取执行结果。比通过 CLI 命令行或 tmux 会话操控 Codex 方便和可扩展得多。另一个安全细节：为了避免把 Linear 的访问令牌（API token，相当于访问密码）直接暴露给Sub Agent，他们用动态工具调用（dynamic tool calls）的方式，封装了一个叫 linear_graphql 的函数。代理可以通过这个函数对 Linear 执行任意查询，但永远接触不到原始 token。 ## 遇到的新问题当然，这种工作方式也有代价，他们没有回避这一点。从实时干预Agent，变成在任务层面分配工作，意味着失去了随时纠偏的能力。有时候Agent会完全跑偏，产出的东西完全不对路。但他们的应对方式很有意思：不是手动修补结果，而是补充防护机制和技能，让Agent下次能自己成功。这倒逼他们持续完善系统，加入了端到端测试、通过 Chrome DevTools 驱动浏览器、管理 QA 冒烟测试等新能力，还大幅改善了文档质量。还有一个认知上的转变：不能把Agent当成状态机里的僵硬节点。早期版本只让 Codex 实现任务，这太局限了。 Codex 完全有能力同时管理多个 PR、读取 CI（持续集成，自动化测试和构建流程）日志、处理代码审查反馈。 > CI（Continuous Integration，持续集成）：每次代码提交后自动运行测试，确保新代码不破坏已有功能。所以他们最终的方向是：给Agent目标，而不是给它严格的状态转换规则。就像一个好的管理者，给直接下属分配目标，而不是每一步都手把手指导。给它工具，给它上下文，让它自己想办法。不是所有任务都适合 Symphony 的工作方式。涉及模糊问题或需要强判断力的工作，工程师还是会直接用交互式 Codex 会话。实际上，这些往往也是工程师最感兴趣、最享受的任务。 ## 用 Symphony 来构建 Symphony 这个细节值得单独说一下。 Symphony 基本功能跑通之后，他们就开始用 Symphony 来开发 Symphony 本身。当他们在内部演示这个系统，看到它自主管理任务、并附上功能演示视频作为工作证明时，反应非常热烈。Symphony 的内部项目频道迅速增长，各个团队开始自发使用它。在 OpenAI，内部产品市场契合度（PMF）是对外发布的前提条件。基于内部的使用情况，他们决定把 Symphony 分享给外部世界。 ## OpenAI 不打算把它做成产品这个项目开源后，三周内获得了超过 15,000 个 GitHub Star。社区已经有人做了各种移植版本： - 有人用 Go 语言加上 Charm CLI 的终端 UI 做了一个版本 - 有人把它改造成支持 Anthropic 的 Claude Code，并支持 GitHub Issues，还做成了 Homebrew 可以直接安装 - 有人用 Claude Code 重新实现了整套规范，取名 hatice 但 OpenAI 明确说了：不打算把 Symphony 作为独立产品来维护。它是一个参考实现，一个演示 Codex App Server 能力的例子。核心思路很简单： > 对每一个打开的任务，保证有一个Agent在它自己的工作空间里持续运行。他们希望大家把自己喜欢的编码代理指向这份规范，构建适合自己环境的版本。门槛其实出奇地低，直接把规范扔给 Codex，让它帮你实现一个就行。 ## 值得思考的地方 Symphony 解决的问题，表面上是"怎么让更多 AI 并行工作"，但更深层的变化是：当代码的边际成本趋近于零，整个软件开发的经济学都变了。每次改动的感知成本下降，意味着大家开始愿意做以前觉得"不值得"的事：试一个想法，探索一次重构，验证一个假设，不满意就扔掉。参与工作的人也变了。产品经理和设计师可以直接向 Symphony 提需求，不需要懂代码，不需要管理 AI 会话，描述功能，然后收到一个包含视频演示的审查包。在大型 monorepo（单一代码仓库，把所有项目代码放在一个仓库里管理）里，Symphony 还承担了"最后一公里"的工作：监视 CI 状态，需要时自动 rebase（同步最新代码），解决冲突，重试不稳定的检查项，把改动一路护送进主分支，不需要人类盯着。随着模型越来越强，能解决的问题越来越大，其他公司的瓶颈也会从"写代码"转向"管理 AI 工作"。 Symphony 提供的，是一种思路：不要管理Agent，管理任务就够了。 > 官方原文：https://openai.com/index/open-source-codex-orchestration-symphony/

译OpenAI开源项目Symphony旨在解决人类管理多个AI编码代理时的注意力瓶颈。其核心思路是将项目管理工具（如Linear）的任务看板作为控制中枢，为每个任务自动分配并运行一个独立的AI代理（基于Codex），直至完成。人类仅在“人工审查”节点介入，实现了从微观管理到任务级分配的转变。系统允许大粒度任务，代理能自主拆解依赖、创建新任务，并保证持续运行。初步数据显示，该方法能显著提升开发效率。

Qwen@Alibaba_Qwen · 4月29日60

🚀 Introducing FlashQLA: high-performance linear attention kernels built on TileLang. ⚡ 2–3× forward speedup. 2× backward speedup. 💻 Purpose-built for agentic AI on your personal devices. 💡Key insights: 1. Gate-driven automatic intra-card CP. 2. Hardware-friendly algebraic reformulation. 3. TileLang fused warp-specialized kernels. FlashQLA boosts SM utilization via automatic intra-device CP. The gains are especially pronounced for TP setups, small models, and long-context workloads. Instead of fusing the entire GDN flow into a single kernel, we split it into two kernels optimized for CP and backward efficiency. At large batch sizes this incurs extra memory I/O overhead vs. a fully fused approach, but it delivers better real-world performance on edge devices and long-context workloads. The backward pass was the hardest part: we built a 16-stage warp-specialized pipeline under extremely tight on-chip memory constraints, ultimately achieving 2×+ kernel-level speedups. We hope this is useful to the community!🫶🫶 Learn more: 📖 Blog: https://qwen.ai/blog?id=flashqla 💻 Code: https://github.com/QwenLM/FlashQLA

译FlashQLA是基于TileLang构建的高性能线性注意力内核，专为个人设备上的智能体AI设计。其核心创新包括门控驱动的自动片内计算并行、硬件友好的代数重构以及TileLang融合的Warp专用内核，通过提升流处理器利用率，在前向传播上实现2-3倍加速，反向传播实现2倍加速。该技术在小模型、长上下文工作负载和张量并行设置中效果显著，虽然在大批次处理时内存I/O开销略高，但在边缘设备和长上下文场景中实际性能更优。反向传播通过16级Warp专用流水线在严格片上内存限制下实现了核心级加速。相关资源已开源。

Orange AI@oran_ge · 4月29日60

http://x.com/i/article/2049437561408356352 # 只要你学得慢，就什么都不用学前几天看到一个朋友发了一条推，让我特别的共鸣。在过去一年里，我们招聘的时候，也发现很多年轻人，他们很有想法但是因为他们没有好的工具，始终无法做出他们心中的那个作品。这种感觉我特别懂。我在高中的时候学的理科，但在大学的时候自己选择了对外汉语专业，走上了文科生的不归路。大学毕业的时候，才发现文科生找工作的成功率只有理科生的十分之一。还好在大三的时候认识了一位程序员网友，大四我们一起搭档开始做黑莓手机上的软件，才碰巧进入移动互联网时代。我一直很羡慕身边的程序员朋友，因为他们想到什么就能做出什么。虽然我也尝试过两次自学编程，但因为各种原因，始终没能学会。直到今年，AI 的能力出现了质的飞跃，我终于可以想到什么就做什么出来了。我用 AI 写了语音输入法 TypeNo。又写了 Markdown 编辑器 ColaMD。从想法到上线，都是在一天之内，中间没有找过任何一个程序员帮忙。我还有一位同事，她平时要剪口播，最烦的一件事就是去掉说话中间那些"呃"、"然后"、"那个"的口水词。一条五分钟的视频，光去气口就能花掉半小时。她试了很多剪辑软件的自动功能，效果都不太行。后来她打开 Cola 描述了自己的需求：我想要一个工具，能自动识别音频里的停顿和语气词，然后帮我剪掉。来来回回聊了几轮之后，工具跑起来了，省下了大把时间。文科生的春天我和我的同事，我们都是文科生出身，但我们今天都可以通过 Cola 做出自己想要的任何东西。我有个老网友叫 Anti，因为他老婆是文科生，他经常在网上调侃文科生（秀恩爱？）。他说文科生狠起来用 AI，在一种情况下会超过懂技术的人。这是因为人们很容易陷入认知的诅咒，默认很多事情是不可能的做出来的。但当你什么不懂的时候，反而可以释放自己最狂野的想象，去做出最美好的作品。今年以来，我有一个很强烈的感觉：这个时代真正稀缺的，是想法、是审美、是那种"我就要这个结果"的执念。你不需要懂代码。不需要会装电脑。不需要做过网站。你只要能描述你想做什么。但这里的大提前是，你需要一件趁手的兵器，一个全能的贾维斯，一个阿拉丁神灯。这就是我们做 Cola 的目的所在。让每一个人都能言出法随，心想事成。让每一个人都能步履轻盈地跟上时代。你不用学 MCP、SKILL、AGENT 概念。你不用学新开话题、清空上下文、写提示词。你不用学操作电脑、制作文档、编写程序。你甚至都不需要学会打字... 只需要把你想要的东西说出来，Cola 就会实现你的一切愿望。只要你学得慢，就真的什么都不用学 AI 圈子里有句话叫：只要你学得慢，就什么都不用学。这句话其实很有道理。技术的发展一定有一个跨越鸿沟的过程，从 Geek 到大众，总需要一个发展的过程。从 Claude Code 到小龙虾到爱马仕，门槛越来越低，但依然需要学很多东西，依然在 Geek 圈子里自循环。而我们想直接给大众做产品，让人们使用AI就像打电话一样简单。说实话，Cola 内测的这一个月，是我创业以来最开心的一个月。我发现身边的朋友们，他们之前都完全不懂 AI 技术，但是却把 Cola 用得很好。我们终于可以让身边的朋友们都跟上我们，理解我们在兴奋什么。真的什么都不用学。让每个人都用上 Cola！经过一个整个春和景明的四月，五一假期终于要来了。 Cola 也终于迎来了第二轮内测。 Cola 第一轮内测的时候，用户给我们最多的反馈就是: 很好用，我爱她，但是她太贵了，我养不起... 但我们是真心希望每一个人都能用上 Cola 的。恰好，在前几天 DeepSeek V4 发布了，那个男人，他又一次成为了价格屠夫。定价2.5折+缓存1折，相当于直接把 Cola 的运行费用降低了100倍。于是我们做出决定，第二轮内测，我们直接让大家免费畅玩！现在大家下载 Cola 之后，模型选择 DeepSeek，就能直接免费使用。我们设定的每日额度非常大，应该够所有内测用户使用。如果真到上限了，我们再看情况调整。希望每一个人都能用上 Cola。希望每一个人和 AI 一起灵魂共鸣，一起随心创造。祝你五一快乐，祝你永远都在时代的浪潮之巅。 Cola 内测第二轮邀请码：Cola2-7CFADEFQ Cola 的下载地址： ColaOS.ai 目前只支持 Mac 电脑，对不起 Win 用户，我们预计 5月底支持。同时强烈建议购买 Macbook Air 和 Mac mini。投资自己永远是最好的投资。

译作者以文科生经历指出，过去因缺乏技术工具难以实现想法。如今借助AI，其团队开发的Cola平台让非技术人员无需编程，仅通过描述需求即可快速创建应用，如自动剪辑语气词的工具。作者强调，AI时代稀缺的是想法与审美，而非技术技能。Cola旨在像打电话一样简单使用AI。平台近期因集成低成本DeepSeek V4模型，开启第二轮免费内测，目前支持Mac设备，目标是让每个人都能轻松跟上技术浪潮，实现“言出法随”。

Kling AI@Kling_ai · 4月29日19

720p saw the leaf, but 4K sees an entire world inside a dewdrop. 💧 See more in Kling 4K.

译720p看见叶子，但4K看见露珠里的整个世界。💧 在Kling 4K中查看更多。

Kling AI@Kling_ai · 4月29日21

This is the prophecy Friedrich painted 200 years ago in Wanderer above the Sea of Fog 🎨 a back that refuses to show its face, a subject position anyone can step into. Every scene in this video was generated with Kling 4K. Acknowledgment to Kling AI Creator @wildpusa

译这是弗里德里希两百年前在《雾海上的漫游者》中描绘的预言 🎨 一个拒绝露面的背影，任何人都能代入的主体位置。本视频中每个场景均由Kling 4K生成。感谢Kling AI创作者@wildpusa

ginobefun@hongming731 · 4月29日57

BestBlogs 最近上新了一个新的内容栏目：主题解读。它不是简单把单篇文章列出来，而是围绕一个事件、一个领域、一个人物或一次横向对比，把站内多篇内容重新组织成一篇编辑式解读。比如 GPT-5.5、DeepSeek-V4、Claude Opus 4.7 这样的模型发布，Harness Engineering、Agent Memory、AI 原生产品团队这样的领域话题，以及 AI 编程工具、前沿大模型、中国旗舰模型的横向对比，都可以在这里更系统地看。我希望它能解决一个很实际的问题：很多时候我们不是缺信息，而是缺一个能帮我们把相关内容串起来的入口。欢迎体验，也欢迎反馈哪些主题值得继续补充。 https://www.bestblogs.dev/explore/topics

译BestBlogs 推出“主题解读”新栏目，旨在解决信息过载下内容分散的痛点。该栏目并非简单罗列文章，而是由编辑围绕特定事件、领域或横向对比，将站内多篇内容重新组织成系统性解读。内容涵盖大模型发布、技术领域话题及工具对比等，为用户提供串联知识的入口，并邀请读者反馈需补充的主题方向。

Tibo@thsottiaux · 4月29日42

With some small tweaks, Codex can work for days on hard tasks. We will release some changes to make this easier to use for everyone. What’s the hardest task you’ve seen GPT-5.5 succeed at?

译通过一些小调整，Codex 能在困难任务上连续工作数天。我们将发布一些更新，让每个人都能更轻松地使用它。你见过 GPT-5.5 成功完成的最困难任务是什么？

小互@xiaohu · 4月29日57

TRAE 也推出了内置语音功能可以直接进行语音输入... 还和 Insta360 推出了联名的 Mic Air 无线麦克风用嘴写代码用嘴办公正在流行起来🥲 这个内置语音功能,除了能将你嗯嗯啊啊很多语气词大段内容转录成结构化的文字外它有个牛P的功能就是：命令和技能也能语音识别除了，给你加在输入框... 用了一周，感觉还是很不错的，下面是体验↓

译TRAE推出内置语音功能，支持直接语音输入，并能将包含大量语气词的即兴口语转录为结构化文字。其核心亮点在于能够识别语音命令和技能，用户可通过语音直接操作输入框等功能。此外，TRAE还与Insta360合作推出了联名Mic Air无线麦克风。这一功能体现了“用嘴写代码、用嘴办公”的交互趋势，初步用户体验反馈积极。

OpenRouter@OpenRouter · 4月29日38

New public rankings: Audio Input! @GoogleDeepMind's Gemini models take the top 7 (!!) slots this week, with Gemini 3 and 2.5 Flash models processing >50% of prompts.

译新的公开排名：音频输入功能！ @GoogleDeepMind 的 Gemini 模型本周包揽前 7 名（！！），其中 Gemini 3 和 2.5 Flash 模型处理了 >50% 的提示词。

meng shao@shao__meng · 4月29日60

Warp 开源啦？！ @warpdotdev 👍🏻 Warp cline 正式宣布开源，AGPL License： https://github.com/warpdotdev/warp 和开源发布同步的是一套以 Agent 为中心的协作方式：用云端编排平台 Oz 让 Agent 承担大部分编码、规划、测试等重活，人类侧重方向、审阅与验证。 OpenAI 是新开源仓库的创始赞助方，Oz 工作流里用的是 GPT-5.5 模型。

译Warp 开源啦？！ @warpdotdev 👍🏻 Warp cline 正式宣布开源，AGPL License： https://github.com/warpdotdev/warp 和开源发布同步的是一套以 Agent 为中心的协作方式：用云端编排平台 Oz 让 Agent 承担大部分编码、规划、测试等重活，人类侧重方向、审阅与验证。 OpenAI 是新开源仓库的创始赞助方，Oz 工作流里用的是 GPT-5.5 模型。 [引用 @zachlloydtweets]：http://x.com/i/article/2049151514380267520

小互@xiaohu · 4月29日53

智能终端工具Warp 宣布开源并引入"AI 智能体驱动"的全新协作开发模式开源后启用新协作方式：Warp 的云端 AI（叫 Oz）负责写代码、测试、规划等繁重工作，你只需要 review即可 OpenAI 是首位赞助商，开源仓库的 agent 工作流由 GPT 模型驱动（含 GPT-5.5）同步推出三大产品改进“ 1、支持更多开源 AI 模型，包括 Kimi、MiniMax、通义千问（Qwen），还有"自动选最优开源模型"功能 2、界面和功能高度可定制：可以只用纯终端，也可以开启完整的 AI 开发环境 3、终于推出了配置文件（Settings File），方便跨设备迁移和程序化控制

译智能终端工具Warp宣布开源，并引入由云端AI（Oz）驱动的协作开发模式，该AI可负责代码编写、测试等任务，开发者主要进行审核。OpenAI成为首位赞助商，其GPT模型驱动开源仓库的智能体工作流。产品改进包括支持Kimi、MiniMax、通义千问等多款开源AI模型，具备自动选择最优模型功能；提供高度可定制的界面，支持从纯终端到完整AI开发环境；新增配置文件，便于跨设备迁移和程序化控制。

宝玉@dotey · 4月29日60

OpenAI 宣布与 AWS 扩大合作，把自家模型（包括最新的 GPT-5.5）、Codex 编程工具和托管智能体（Managed Agents）全部搬上 Amazon Bedrock 平台，目前以限量预览形式上线。这对企业客户意味着什么？以前想用 OpenAI 的模型，基本只能走 Azure。很多已经重仓 AWS 的公司要么迁移基础设施，要么放弃 OpenAI，两头都不划算。现在这个障碍没了。企业可以在自己熟悉的 AWS 环境里直接调用 OpenAI 的模型，安全策略、合规流程、账单体系全部复用，Codex 的使用费用甚至可以算进 AWS 的云消费承诺额度里。 Codex 这次上线 AWS 的方式也值得注意。企业只需要在 Codex 里把模型提供商配置成 Bedrock，CLI、桌面端、VS Code 插件都支持。OpenAI 公布的数据是 Codex 周活用户已超 400 万，而且用途早已不限于写代码，还延伸到了研究分析、文档处理、做 PPT 这些场景。另一个新品是 Amazon Bedrock Managed Agents。简单说就是企业可以在 AWS 上部署 OpenAI 驱动的智能体，能维持上下文、执行多步骤任务、调用工具。AWS 负责底层的编排、治理和安全合规，企业只需要关心智能体本身要做什么事。【注：Bedrock 是 AWS 的大模型托管平台，之前已经接入了 Anthropic 的 Claude、Meta 的 Llama 等模型。OpenAI 的加入让 Bedrock 凑齐了几乎所有主流前沿模型，也让 AWS 在跟 Azure 的云端 AI 竞争中多了一张重要的牌。】

译OpenAI宣布与AWS深化合作，将GPT-5.5等模型、Codex编程工具及Bedrock托管智能体引入Amazon Bedrock平台，以限量预览形式上线。企业客户现可直接在AWS环境中调用OpenAI模型，复用现有安全、合规与账单体系，加速AI应用落地。Codex配置简便，支持多端使用，周活用户超400万。此次合作使Bedrock集齐Claude、LLaMA等主流模型，增强了AWS在云端AI竞争中的优势。