Artificial Analysis@ArtificialAnlys · 7天前68

Microsoft's MAI-Image-2.5 ranks #2 in Text to Image and #3 in Image Editing in the Artificial Analysis Image Arena, behind only OpenAI's image models The latest addition to the MAI Image family is capable of handling both text to image generation and image editing, up to a maximum output resolution of roughly 1MP at flexible aspect ratios with a 32K token context. MAI-Image-2.5 is one of the strongest image models we have tested, ranking #2 in Text to Image behind only OpenAI's GPT Image 2. Its Image Editing capabilities rank at #3 on our leaderboard, ranking just behind OpenAI’s image models, with performance comparable to Google’s Nano Banana 2. MAI-Image-2.5-Flash, the faster, lower-cost variant, lands at #8 in Text to Image and #6 in Image Editing. MAI-Image-2.5 is priced at $48 per 1k images and MAI-Image-2.5-Flash at $20 per 1k images on the Foundry API. Both are also available in the MAI Playground, and MAI-Image-2.5 is available to users in PowerPoint and OneDrive. Congratulations to @MicrosoftAI on the release! See below for comparisons between MAI-Image-2.5 and other leading models in the Artificial Analysis Image Arena 🧵

译微软 MAI-Image-2.5 在 Artificial Analysis Image Arena 排行榜上位列文本到图像生成第2名、图像编辑第3名，仅次于 OpenAI 的图像模型。该模型支持文本到图像生成与图像编辑，最大输出分辨率约 1MP，支持灵活宽高比，上下文窗口 32K token。更快、更低成本的 MAI-Image-2.5-Flash 变体在文本到图像和图像编辑中分别排名第8和第6。API 定价：MAI-Image-2.5 为 $48/千图，Flash 版 $20/千图。模型已上线 Foundry API 和 MAI Playground，其中 MAI-Image-2.5 还可在 PowerPoint 和 OneDrive 中使用。

Ethan Mollick@emollick · 7天前70

This is a fascinating and important set of data which shows us where things are going, using OpenAI as a canary in the coal mine. The chatbot era is over, and agentic systems are coming to tasks beyond engineering. And skills show promise as a way to standardize AI use in firms.

译@daveholtz 以 OpenAI 访问经济学研究员身份，利用 Codex 数据记录 AI 向智能体（agentic）系统的快速转变。Ethan Mollick 评论称聊天机器人时代结束，智能体系统正扩展到工程之外的任务，而技能（skills）有望成为企业标准化 AI 使用的方式。

🚨 AI News | TestingCatalog@testingcatalog · 7天前45

OPENAI 🔥: GPT-5.6-Preview has been spotted in the ChatGPT code. It was likely made available to certain partner Enterprises too. This also potentially means that it will remain in a limited preview state for some time. Not soon? 👀

译OPENAI 🔥: GPT-5.6-Preview 已在 ChatGPT 代码中被发现。它可能也已向某些合作伙伴企业开放。这也意味着它可能会在有限预览状态下持续一段时间。不会很快？👀

Chubby♨️@kimmonismus · 7天前58

Google is reorganizing its AI coding strike team as it tries to close the gap with Anthropic in one of the most lucrative parts of the AI market. According to The Information, the months-old team is being expanded into a more formal "midtraining" group, sitting between pretraining and post-training. The goal is to improve Gemini’s coding abilities and extend those capabilities into broader business tasks like creating presentations. The move comes after two major departures: Noam Shazeer reportedly left for OpenAI after changes to his compute access, while Nobel Prize winner John Jumper is heading to Anthropic after recently being moved to the coding strike team. That is the uncomfortable part for Google. It has world-class researchers, TPUs, Gemini, Cloud, Search, YouTube, and enormous distribution. But coding has become the clearest monetization layer in AI, and Anthropic has turned that advantage into massive revenue momentum. Google now seems to be admitting that strong base models alone are not enough. Coding needs specialized training, dedicated compute, and a much sharper product loop.

译Google将数月前成立的AI编码突击队扩展为更正式的“midtraining”小组，位于预训练与后训练之间，旨在提升Gemini编码能力，并延伸至创建演示文稿等商业任务。此前，Noam Shazeer因计算资源变动转投OpenAI，Nobel奖得主John Jumper调至该团队后也加入Anthropic。Google承认，仅靠强大基座模型不够，编码已成为AI最明确的变现层，Anthropic借此获得收入增长。Google需专用训练、计算和更清晰的产品闭环来追赶。

gabriel@gabriel1 · 7天前65

"hey codex give me 20 variants of this page with one button per page to navigate between them" "okay pick variant 4" ai models are great at brainstorming and awful at making decisions, so use them as such

译“嘿 Codex，给我这个页面做 20 个变体，每页一个按钮用来切换” “好，选变体 4” AI 模型很擅长头脑风暴，但不擅长做决定，所以这样用它们就好。

Chubby♨️@kimmonismus · 7天前54

We are still not building enough data centers. That sounds almost absurd, given the scale of the current AI infrastructure boom. OpenAI and SoftBank’s Stargate campus in Texas alone is expected to cost well over $40 billion and draw around 1.2 gigawatts at peak load. Such an interesting article by @ChrisGillett tl;dr: AI labs need more compute. Compute needs more data centers. Data centers need enormous amounts of electricity. And the real bottleneck may not be chips, GPUs, or even energy generation itself. It may be the grid! Before a new data center or power plant can connect, grid operators have to study whether it will overload transmission infrastructure. In the US, the median wait for power plant interconnection reportedly increased from less than 20 months in 2005 to 55 months by 2023. That is a brutal constraint for an industry trying to scale in months, not decades. The current system often works on a first-come, first-served basis, which means serious projects can get stuck behind speculative or lower-value ones. The result is a growing mismatch between the speed of AI infrastructure demand and the speed of Western grid bureaucracy. America may not have an energy shortage. It has a grid connection problem. And if AI becomes one of the defining infrastructure races of the century, the winners may not just be the countries with the best models or the most chips, but the ones that can actually plug them in. Highly recommend you read his whole article

译AI算力需求激增推动数据中心扩张，但真正的瓶颈可能并非芯片或能源生产，而是电网接入。OpenAI与SoftBank在德州的Stargate园区耗资超400亿美元，峰值负载约1.2吉瓦。然而美国电网并网等待时间中位数从2005年的不到20个月增至2023年的55个月。现行先到先得的审批机制导致严肃项目被投机项目阻塞。未来赢家可能不是拥有最佳模型或最多芯片的国家，而是能快速接入电网的国家。

Chubby♨️@kimmonismus · 7天前43

GPT-5.6 spotted in internal model-access route. That GPT-5.6 is coming is no secret. The only question is when and how quickly it will arrive. My guess is that everything is being prepared to respond to a potential Fable 5 re-release by releasing GPT-5.6 shortly afterward. Given the increasing rumors surrounding Fable 5, it's not surprising that GPT-5.6 is back in the spotlight.

译GPT-5.6 在内部模型访问路径中被发现。 GPT-5.6 即将到来已不是秘密。唯一的问题是它何时以及多快到来。我猜测，一切准备工作都是为了应对潜在的 Fable 5 重新发布，随后很快发布 GPT-5.6。鉴于围绕 Fable 5 的传闻越来越多，GPT-5.6 重新成为焦点并不意外。

🚨 AI News | TestingCatalog@testingcatalog · 7天前48

ICYMI 👀: OpenAI upgraded its GPT-5.5-Instant model on ChatGPT for paid users and free users are getting it as well, shortly. > It handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive. Most of you won’t use it but there are also loads of free users who will.

译OpenAI 推出新版本 GPT-5.5 Instant，号称是使用最多的模型。新版本能更好地理解问题意图并调整回答，更可靠地处理复杂约束，同时让购物和本地推荐更实用、更连贯。该模型已向付费用户推送，明天起免费用户也将陆续获得。

jason@jxnlco · 6月25日13

:eyes:

译你们 OpenAI 中谁干的这个？😭 真是广告。

ginobefun@hongming731 · 6月25日43

http://x.com/i/article/2069928325951401985 # BestBlogs 早报 · 06-25｜OpenAI 联手 Broadcom 出芯片，Anthropic 谈人机协作，阿里代码评审 CLI 揽星 5k 在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲分别站在 AI 全栈竞争的三个不同层面：芯片、协作模式、代码质量。 OpenAI 与 Broadcom 联手把推理芯片的研发周期压缩到九个月，AI 行业的竞争正卷入硬件层。 Anthropic 罕见公开内部协作经验，给「人类与多智能体共享工作台」这种新协作模式立了规矩。另一边，阿里把验证两年的代码评审 CLI 开源即揽星 5k，提醒我们 AI 写代码和 AI 审代码远不是同一种能力。三条精讲合在一起看，正好勾勒出一条完整的链路：底层算力越来越便宜，协作方式从单人变成多人多智能体，但生产出来的代码质量仍需要专门工具来兜底，每一层都在同步进化，缺一不可。速览部分还覆盖了 Flutter 渲染机制、Gemini 3.5 Flash 的计算机操作能力、Qwen 的语言世界模型、Cisco 零日漏洞复盘、智能体记忆构建方法，以及一段 Gemini 对抗 DeepSeek 的幕后故事；补充阅读部分则提供了围绕今天三条精讲的更多一线信源和延伸视角。 ## ★ 精讲一：OpenAI 与 Broadcom 发布针对 LLM 优化的推理芯片背景：过去两年，AI 行业的竞争主线一直是模型能力和应用层产品，芯片更多被当作「买来的基础设施」。OpenAI 这次直接下探到芯片设计层，和 Broadcom（NASDAQ: AVGO）联合发布了 Jalapeño——OpenAI 第一款定制 LLM 推理芯片，也是双方多代计算平台合作的第一颗芯片。芯片由 Broadcom 总裁兼 CEO Hock Tan、总裁 Charlie Kawwas 当面交付给 OpenAI CEO Sam Altman 和总裁 Greg Brockman，象征意义大于一次普通的供应商发布会。关键事实：Jalapeño 从设计到流片仅用九个月，团队称这是高性能芯片史上最快的 ASIC 研发周期之一，而这个研发过程本身就由 OpenAI 自家模型加速完成——形成了「用模型设计芯片，再用芯片跑模型」的闭环。芯片围绕 OpenAI 对 LLM 推理需求的深度理解从零设计，设计阶段就充分参考了模型路线图、推理 kernel、服务系统和产品需求，并联合 Broadcom、Celestica 在芯片实现、板级与机柜系统集成、高性能网络、可扩展生产系统等环节实现工业化落地。工程样片已经在实验室以量产目标频率和功耗运行真实负载，包括 GPT‑5.3‑Codex‑Spark。早期测试显示，Jalapeño 的能效比（performance per watt）显著优于当前最先进水平，详细技术报告将在未来几个月公布。架构层面的核心思路是减少数据搬运、平衡计算/内存/网络资源，让实际利用率更接近理论峰值；Broadcom 的芯片实现能力和包括 Tomahawk 网络芯片在内的网络技术，则负责把这套平台真正落地到大规模生产环境，并计划从 2026 年起与 Microsoft 等数据中心伙伴一起以吉瓦级规模部署。OpenAI 硬件项目负责人 Richard Ho 提到，团队围绕对前沿模型最重要的 kernel、内存搬运、网络和服务模式优化架构，让 Jalapeño 在执行最重要的负载时能更接近硬件理论极限；Broadcom CEO Hock Tan 则把这次合作定义为面向未来十年 AI 物理基础设施扩张的「多代路线图的开端」。为什么重要：这标志着 OpenAI 的全栈战略从「模型 + 产品」正式下探到「芯片」这一层，构建出「模型反哺芯片设计、芯片支撑更便宜推理」的飞轮。Brockman 把这称为「计算驱动的经济」——通过自己设计更多层级的技术栈，用更高效率提供更多智能，让先进 AI 的访问成本持续走低，并能被用于解决更重要的问题。对于依赖云端推理成本的开发者和企业来说，这条芯片自研路线如果跑通，意味着未来几年大模型调用价格还有进一步下降空间；而对芯片产业来说，OpenAI 以「模型公司」身份亲自下场定制芯片，本身也是对英伟达等传统芯片供应商话语权的一次结构性挑战。与今日其他精讲的关系：如果说精讲一是 AI 竞争卷入硬件层的信号，精讲三里阿里开源的代码评审 CLI 则提醒我们，硬件红利最终还是要靠软件工程能力消化——芯片更快不代表代码质量自动变好，AI 写代码与 AI 审代码仍是两种需要分别打磨的能力。阅读建议：如果你关注 AI 基础设施和芯片产业链，这篇官方发布值得通读，重点看架构设计思路和量产时间线；如果只关心应用层，知道「推理成本可能继续下降」这一个结论即可，不必深究芯片实现细节。详见：OpenAI 与 Broadcom 发布针对 LLM 优化的推理芯片 ## ★ 精讲二：Anthropic 关于构建高效人机协作团队的经验 | Claude 背景：过去和 AI 协作基本是「一人对一个聊天窗口」的单机模式——一个人面对一个智能体完成单点任务。随着智能体能处理编码、研究、财务分析这类复杂长周期工作，使用形态也在变化，但本质上仍是「单人」体验。Claude Tag 这类工具的发布打破了这个边界：人类和智能体现在可以共处同一个工作空间，为团队共同目标协作，工作形态从「单机游戏」变成了「多人游戏」——人类团队设定策略，Claude 执行具体工作。关键事实：Anthropic 在文章中把能与多个不同人类同时协作的 AI 模型称为「多智能体（multiplayer agents）」。这类智能体需要三项基础能力：持久记忆（记住目标并据此调整执行）、不绑定个人的独立身份凭证（在安全可预期的边界内运作）、对组织信息的持续广泛访问权限（理解组织运作方式并据此行动）。文中举了一个具体场景：人类团队和智能体在 Slack 同一个频道里一起分析数据集，智能体能跟进对话上下文、调用工具、给出分析结果，整个过程就像团队里多了一名常驻成员，而不是临时被叫来回答一个问题就消失的助手。但 Anthropic 强调，光有技术基础还不够，团队还需要建立新的工作方式和共同规范，文章总结了四条经验：信息默认公开（团队内部尽量公开透明，因为智能体只能从可搜索的文本——Slack、代码、文档、会议记录——构建对世界的理解，私聊和口头沟通对智能体而言「不存在」，与其逐条决定哪份文档能给智能体看，不如直接设定工作空间级别的安全边界，让信息在边界内对人和智能体一视同仁地流动）；人和智能体各有清晰角色分工，避免责任边界模糊导致互相甩锅或重复劳动；由人类设定北极星目标，智能体负责执行细节，团队设定战略方向，Claude 执行具体工作，这种分工让人类可以专注在更高层的判断上；按可验证程度逐步放权，而不是一开始就给智能体完全自主权——风险越低、越容易验证结果的任务，越适合早期放权，高风险决策仍需人类把关。为什么重要：这是 Anthropic 少见的公开内部协作实践，相当于把「团队级智能体协作」这件事从概念阶段直接给出了一套可复制的治理框架。对正在把 AI 智能体引入团队协作流程的公司来说，这四条经验提供了具体的边界设计参考，而不只是停留在「智能体很强大」的宏观叙事，也回应了很多团队在引入智能体协作时最容易卡住的两个问题——信息要不要全量开放给智能体、放权节奏怎么把控。与今日其他精讲的关系：精讲一讲的是 AI 全栈竞争卷入硬件层，精讲二则是软件协作范式的进化——两者共同指向同一个趋势：AI 正在从「被使用的工具」变成「被设计进组织结构里的协作者」，无论是芯片层还是团队协作层，都需要重新设计底层架构来适配这种变化。阅读建议：如果你的团队已经或准备让多个智能体参与协作流程，这四条经验值得逐条对照自己的实践，尤其是「信息默认公开」和「按可验证程度放权」这两条最容易在落地时被简化掉；如果只是单人使用 AI 工具，可以重点看「信息默认公开」这一条，它对个人知识管理同样有参考价值。详见：Anthropic 关于构建高效人机协作团队的经验 | Claude ## ★ 精讲三：阿里开源 Open Code Review：一周揽下 5k star，更专业的代码评审 CLI 背景：AI 每天生成的代码量已经远超人工评审的承载上限——以前一天 review 几百行,现在动辄几千甚至几万行，代码评审正在成为研发效率新的质量瓶颈。Open Code Review 的前身是阿里集团内部官方 AI 代码评审助手，过去两年在内部服务了数万开发者、识别了数百万个代码缺陷，经过大规模生产验证后被孵化为开源项目，向社区开放。关键事实：文章直接点出了用通用 Agent（比如 Claude Code + Skills）做代码评审的三个常见痛点：覆盖不全（变更较大时 Agent 倾向于「偷懒」，选择性评审部分文件，导致遗漏）、位置漂移（报告的问题与实际代码位置经常对不上，出现行号或文件偏移）、效果不稳定（纯自然语言驱动的 Skills 难以调试，评审质量因提示词的细微差异大幅波动）。这些问题的根源在于纯语言驱动的架构缺乏对评审流程的强约束。Open Code Review 的解法是「确定性工程 + Agent」混合架构：精准的文件筛选（明确哪些文件需要评审、哪些应当过滤，确保重要改动一个不漏）、智能文件打包（把关联文件归并为同一评审单元，每个包作为独立 subagent 任务，上下文互相隔离，超大变更场景下更稳定也天然支持并发）、精细化规则匹配（针对不同文件特征匹配对应评审规则，用模板引擎而非语言模型保证规则匹配的稳定性和可预期性）、外挂的定位与反思组件（独立的评论定位模块和反思模块，系统性提升 AI 反馈的位置准确性和内容准确性），这些「不能出错」的环节全部交给工程逻辑负责的强约束环节；Agent 只负责动态决策和上下文召回这类真正需要推理的部分，包括场景化提示词调优和场景化工具集沉淀。阿里内部数据显示：月活用户 2 万、累计执行 370 万次真实评审任务、用户采纳率超过 30%、有效 AI 评论占比全集团范围内近 80%、评论位置准确率超过 97%。基于 50 个热门开源仓库、200 个真实 PR、覆盖 10 种编程语言、80+ 资深工程师交叉标注的开源评测集显示：Open Code Review 各模型组合准确率在 25%–38% 之间，远高于 Claude Code 的 7%–16%（以 Claude-4.6-Opus 为例，OCR 产出 889 条评论命中 301 个真实问题，准确率 33.90%；Claude Code 产出 5980 条评论命中 435 个真实问题，准确率仅 7.23%）；但 Claude Code 在召回率上更具优势，CC + Claude-4.6-Opus 以 28.90% 的召回率位居所有组合之首，比 OCR 最优组合多发现约 45% 的真实问题，CC + Qwen3.7-Max 和 CC + GLM-5.1 的召回率同样超过 OCR 多数组合，这对安全审计这类「宁可多查、不可遗漏」的场景仍有不可替代的价值。综合 F1 指标，Open Code Review 在准确率与召回率之间取得了更均衡的表现（最优 25.10% vs Claude Code 最优 14.13%），资源消耗也更低（Token 消耗 352K–743K，耗时 1–6 分钟，远低于 Claude Code 的 2,062K–5,664K Token、5–14 分钟）。文章还指出一个有意思的现象：更新的 Claude-4.8-Opus 在两个工具上都表现出「更精确但更保守」的特征，准确率最高但召回率明显低于上一代 Claude-4.6-Opus，说明模型代际升级不一定带来评审效果的全面提升。为什么重要：这组对比数据揭示了一个容易被忽视的事实——AI 写代码与 AI 审代码是两种截然不同的能力，即便是最强的编码 Agent，也需要专业的评审 Agent 来兜底。Open Code Review 团队甚至用 Claude Code 从零以 Go 语言重写了这个开源项目本身，再用 Open Code Review 反过来评审每一次变更，106 次代码变更中累计发现 145 个有效问题，涵盖严重 Bug、安全问题、错误处理不当、命名错误、代码重复、性能问题等多种类型，这个「自证」过程本身就是对工具能力的真实验证。与今日其他精讲的关系：精讲一和精讲二分别讲了 AI 在硬件层和团队协作层的进化，精讲三则把视角拉回最基础的软件工程环节——再快的芯片、再高效的人机协作，最终生产出来的代码质量仍然需要专门的工程化方案去把关，这是当前通用 Agent 普遍存在的短板。阅读建议：如果你的团队已经在用 AI 大量生成代码，这篇文章里「确定性工程 + Agent」的架构思路和评测数据值得细读，尤其是文件打包和定位反思组件的设计可以直接借鉴；如果只是想知道结论，记住一句话即可——通用 Agent 评审代码目前还不如专门工具准，但召回更全，两者可以搭配使用。详见：阿里开源 Open Code Review：一周揽下 5k star，更专业的代码评审 CLI ## 速览 [说好的艺术家呢？—— AI 时代，内容工业的三次死亡与创作者的重生](https://www.bestblogs.dev/podcast/e1238ff) 这是「屠龙之术」作者在 AEIS-AI 娱乐内容产业峰会上一场 40 分钟演讲的录制版本，围绕当前 AI 多模态领域的发展现状展开。文章深入剖析了 AI 如何从素材生产、生产流程、版权归属三个层面接连冲击传统内容工业，并指出创作者唯有放弃旧有的生产者身份、构建全新的价值愿景，依靠人类独有的直觉、品味与信任关系，才能在技术碾压之下实现真正的「重生」，而不是在旧赛道里继续被替代。演讲本身带有明显的行业一线视角，时间线里穿插了多个具体案例，适合从业者对照自己所在的细分赛道判断冲击程度和应对节奏。 [Flutter 底层渲染解析：BuildContext 与 Element Tree 详解](https://www.bestblogs.dev/article/c7c34649) 文章从一句常见的报错「Looking up a deactivated widget's ancestor is unsafe」讲起，深入剖析 Flutter 内部的三棵树结构——Widget Tree、Element Tree、RenderObject Tree——以及 BuildContext 究竟是什么、setState 调用之后框架内部到底发生了什么。比起照搬 Stack Overflow 答案，这篇文章更适合想真正理解 Flutter 渲染原理、从根上修复上下文相关错误的开发者。 [在 Gemini 3.5 Flash 中推出计算机操作功能](https://www.bestblogs.dev/article/16a75c47) Google 宣布计算机操作（computer use）现已成为 Gemini 3.5 Flash 的内置工具，此前这项能力只在独立的 Gemini 2.5 computer use 模型中提供。Gemini 在函数调用和搜索/地图等内置工具调用上本就表现不错，这次原生整合计算机操作能力之后，开发者可以直接用主力 Flash 模型构建能与浏览器、移动端、桌面环境交互的智能体，不再需要额外接入专门模型，开发链路更简洁。 [Qwen-AgentWorld 开源：让 Agent 学会“先预测，再行动”](https://www.bestblogs.dev/article/8810d85f) 通义实验室开源了 Qwen-AgentWorld，号称首个原生语言世界模型——核心思路是让 Agent 不再只在真实环境里反复试错（搭建沙箱成本高、危险操作可能直接搞崩环境），而是先学会「预测环境会发生什么」。环境建模从继续预训练阶段就作为训练目标，贯穿 CPT、SFT、RL 全流程，而不是对通用大语言模型的事后适配；单一模型同时覆盖 MCP、Search、Terminal、SWE 等文本类环境与 Web、OS、Android 等 GUI 类环境，实现跨领域知识迁移，在 AgentWorldBench 上超过了 GPT-5.4 等前沿模型。文章还展示了可控模拟和跨任务泛化两种应用范式，适合关注 Agent 训练方法论演进的读者。 [Cisco SD-WAN 管理器零日漏洞遭利用获取 Root 权限全过程](https://www.bestblogs.dev/article/bcfc7fba) Mandiant 详细复盘了一起真实攻击事件：威胁行为者在拿到某服务商的 SD-WAN 基础设施初始访问权限后，利用 Cisco Catalyst SD-WAN Manager 中的零日权限提升漏洞 CVE-2026-20245，通过文件上传功能缺乏校验的缺陷，把一个受限的管理员账号一路提权到 root 权限。拿到 root 之后，攻击者并未止步于横向移动，而是进行了大量针对性的反取证清理，试图抹去入侵痕迹，这也增加了事后溯源的难度。这篇分析对安全团队理解真实世界的零日利用链条、文件上传类漏洞的危害边界以及事后取证排查很有参考价值，建议运维和安全团队结合自己的 SD-WAN 部署情况核对补丁状态。 [如何为 AI 智能体构建记忆](https://www.bestblogs.dev/article/35c6d909) LangChain 这篇文章给出了一套构建智能体记忆的结构化方法：通过「捕获、分析、更新」三步循环的闭环，让智能体能从之前的交互中学习，避免用户每次都要重复纠正同样的问题。文章还结合 LangSmith 讲解了具体的可观测性、记忆引擎和上下文管理实现方式，适合正在给自己的 Agent 加记忆能力的开发者参考落地细节。 [40 天不睡、5 人死磕：DeepMind 主管爆料 Gemini 大战 DeepSeek 内幕](https://www.bestblogs.dev/article/87f785ef) 这篇编译自 Gemini 预训练主管 Vlad Feinberg 的播客访谈，讲述了 Gemini 2.0 Flash 背后只有 5 个人的团队、在硅谷和巴黎两地 24 小时倒班、连续 40 天不眠不休训练模型的真实故事，揭开了「顶尖实验室天天搞颠覆性算法」这种想象背后更朴素的工程真相——团队真正的日常是调整编译器和超参数、解决显存溢出、把微调任务硬塞进一堆老旧 TPU 卡里。文章还谈到预训练研究、量化、推理协同设计，以及程序员在 AI 时代应该往哪个方向转型，对关心大模型训练一线工作方式、想了解「干脏活」式工程贡献如何被认可的读者很有意思。 ## 补充阅读 [GitHub - BrightbeamAI/chap：协作人机交互协议（CHAP）](https://www.bestblogs.dev/article/c077a653)：一个开放协议，专门用于规范人类与 AI 智能体之间结构化、可审计的协作，把人工覆写行为记录为结构化数据，方便追溯决策过程和持续改进提示词，适合关注人机协作协议标准化的读者。 [从表单到 Agent：得物社区活动搭建的 AI 实践之路](https://www.bestblogs.dev/article/16cf7e6c)：得物技术团队分享了把社区活动搭建流程从「填表单」逐步演进到「AI 驱动 + 人工确认」两阶段 Agent 架构的实践过程，包含关键的取舍和架构设计细节，适合做内部工具 Agent 化改造的团队参考。 [超越 CLEAN 与 MVP：在 Android 中构建离线优先的响应式数据层](https://www.bestblogs.dev/article/4f0d0408)：介绍了响应式数据层架构（RDLA），通过强制分离公共 API 数据定义与私有实现数据源，解决响应式 UI 框架与移动端存储限制之间的矛盾，重点是离线优先和去耦同步，适合 Android 架构方向的工程师。 [Greg Brockman 宣布 OpenAI 推出全新 LLM 推理芯片 Jalapeño](https://www.bestblogs.dev/status/2069809298612621629)：OpenAI 总裁本人发布 Jalapeño 推理芯片的第一时间动态，可以作为精讲一官方公告的一线信源补充。 [OpenAI 发布首款 AI 芯片：Jalapeño](https://www.bestblogs.dev/status/2069770172802773292)：OpenAI 官方账号同步发布的芯片公告，与上面 Brockman 的个人动态相互印证，适合想看官方第一反应的读者。 [阿里重磅开源！Open Code Review：一周 5k star，为你的代码保驾护航](https://www.bestblogs.dev/article/ea5f8bff)：另一篇视角介绍 Open Code Review 开源始末，公开了更多评测数据细节和具体使用方式，适合看完精讲三还想了解上手步骤的读者。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读： 1. 精讲三 · Open Code Review —— 信息密度最高，「AI 写代码 vs AI 审代码」的结论对几乎所有用 AI 编程的团队都有直接参考价值。 1. 精讲一 · OpenAI 与 Broadcom 推理芯片 —— 了解 AI 行业竞争正在卷入硬件层这个大趋势，判断未来推理成本走向。 1. 精讲二 · Anthropic 人机协作经验 —— 如果你的团队已经或即将引入多智能体协作，这四条经验能帮你少踩一些治理上的坑。其余内容可以按兴趣挑选：关注移动端开发看 Flutter 渲染解析，关注 Agent 工程看 Qwen-AgentWorld 和智能体记忆构建，关注安全看 Cisco 零日漏洞复盘，关注行业幕后故事看 Gemini 对抗 DeepSeek 那篇。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译OpenAI与Broadcom发布首款定制LLM推理芯片Jalapeño，九个月流片，工程样片已跑GPT‑5.3‑Codex‑Spark，能效比显著领先，计划2026年吉瓦级部署。Anthropic公开多智能体协作经验，提出需持久记忆、独立凭证、广泛信息访问，总结信息公开、角色分工、人类定目标、按可验证程度放权四条规范。阿里开源内部代码评审CLI——Open Code Review，一周5k星，采用“确定性工程+Agent”混合架构解决覆盖不全、位置漂移、效果不稳定问题。

ginobefun@hongming731 · 6月25日46

BestBlogs 早报 · 06-25 # OpenAI / Jalapeño / Claude Tag / Open Code Review / Broadcom [1] ★ 精讲｜OpenAI 与 Broadcom 发布针对 LLM 优化的推理芯片 OpenAI 与 Broadcom 联合发布首款定制 LLM 推理芯片 Jalapeño，从设计到流片仅用九个月，号称高性能芯片史上最快的 ASIC 研发周期，且过程本身由 OpenAI 自家模型加速完成。这标志着 OpenAI 从模型、产品全面下探到芯片层，构建「模型反哺芯片设计、芯片支撑更便宜推理」的全栈飞轮，意在让先进 AI 的访问成本持续走低。来源：OpenAI News https://www.bestblogs.dev/article/41ff73d7 [2] ★ 精讲｜Anthropic 关于构建高效人机协作团队的经验 | Claude Anthropic 罕见公开内部实践：随着 Claude Tag 让智能体直接进驻团队协作空间，工作正从「一人一智能体」的单机模式，变成人类与多个智能体共享同一工作台的「多人游戏」。文章总结四条经验——信息默认公开、人和智能体各有清晰角色、由人类设定北极星目标、按可验证程度逐步放权——为团队级智能体协作给出一套可复制的治理框架。来源：Claude Blog https://www.bestblogs.dev/article/4929a2db [3] ★ 精讲｜阿里开源 Open Code Review：一周揽下 5k star，更专业的代码评审 CLI 阿里把内部验证两年、服务数万开发者的 AI 代码评审助手 Open Code Review 开源，一周揽下 5k star。它用「确定性工程 + Agent」混合架构解决通用 Agent 评审常见的覆盖不全、位置漂移、效果不稳定三大痛点：工程逻辑负责文件筛选与定位，Agent 只负责动态推理。实测准确率 25%-38%，远超 Claude Code 的 7%-16%，但召回率略逊，揭示「AI 写代码」与「AI 审代码」是两种截然不同的能力。来源：阿里技术 https://www.bestblogs.dev/article/3732f5a7 [4] 说好的艺术家呢？—— AI 时代，内容工业的三次死亡与创作者的重生 [播客] 演讲深度剖析 AI 如何从素材、流程、版权三个层面「杀死」传统内容工业，并指出创作者唯有构建全新愿景，以人类的直觉、品味与信任，才能在技术碾压下实现「重生」。来源：屠龙之术 https://www.bestblogs.dev/podcast/e1238ff [5] Flutter 底层渲染解析：BuildContext 与 Element Tree 详解本文深入剖析 Flutter 的渲染内部机制，详解三棵树（Widget、Element、RenderObject）、BuildContext 的本质以及 setState 的逐步工作原理，帮助开发者理解和修复常见的上下文相关错误。来源：freeCodeCamp https://www.bestblogs.dev/article/c7c34649 [6] 在 Gemini 3.5 Flash 中推出计算机操作功能 Google 宣布，计算机操作现已成为 Gemini 3.5 Flash 的内置能力，使开发者能够构建与浏览器、移动和桌面环境交互的智能体。来源：Google DeepMind News https://www.bestblogs.dev/article/16a75c47 [7] Qwen-AgentWorld 开源：让 Agent 学会「先预测，再行动」通义实验室开源 Qwen-AgentWorld，首个原生语言世界模型，从继续预训练阶段即开始环境建模，在 AgentWorldBench 上超越 GPT-5.4 等前沿模型，并展示可控模拟与跨任务泛化两种应用范式。来源：通义实验室 https://www.bestblogs.dev/article/8810d85f [8] Cisco SD-WAN 管理器零日漏洞遭利用获取 Root 权限全过程本分析详细描述了某威胁行为者利用 Cisco Catalyst SD-WAN Manager 中的零日权限提升漏洞 CVE-2026-20245，在通过恶意对等连接实现初始入侵后获取 root 权限，随后进行了广泛的抗取证清理。来源：Google Cloud Blog https://www.bestblogs.dev/article/bcfc7fba [9] 如何为 AI 智能体构建记忆本文来自 LangChain，介绍了一种为 AI 智能体构建记忆的结构化方法，涵盖概念框架、三步循环（捕获、分析、更新），以及使用 LangSmith 的可观测性、引擎和上下文中心的具体实现。来源：LangChain Blog https://www.bestblogs.dev/article/35c6d909 [10] 40 天不睡、5 人死磕：DeepMind 主管爆料 Gemini 大战 DeepSeek 内幕本文编译自 DeepMind Gemini 预训练主管 Vlad Feinberg 的播客访谈，曝光 Gemini 2.0 Flash 由 5 人团队 40 天不眠不休训练的幕后故事，并深入讨论了预训练研究、量化、推理协同设计以及程序员在 AI 时代的转型路径。来源：CSDN https://www.bestblogs.dev/article/87f785ef --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-25

译OpenAI 与 Broadcom 发布首款定制 LLM 推理芯片 Jalapeño，设计到流片仅九个月，过程由自家模型加速。Anthropic 公开内部实践：Claude Tag 让多智能体进驻协作空间，梳理信息公开、角色清晰、北极星目标、逐步放权四条经验。阿里开源代码评审工具 Open Code Review，采用“确定性工程+Agent”混合架构，准确率 25%-38%，远超 Claude Code 的 7%-16%，召回率略逊。

Artificial Analysis@ArtificialAnlys · 6月25日61

Agentic knowledge work can take frontier models over 20 minutes per task, as measured in AA-Briefcase, our new benchmark Last week we released AA-Briefcase, our proprietary agentic knowledge work benchmark testing models on long horizon tasks built by industry experts. AA-Briefcase requires models to build deliverables such as financial models, board presentations, and design mock-ups in the context of realistic multi week projects. One of the key metrics we measure in AA-Briefcase is average time per task. This is calculated using evaluation token usage, representative model output speeds, and tool execution time recorded during evaluation. Key time per task takeaways from AA-Briefcase: ➤ Claude Opus 4.8 is the highest-scoring available model, but it is also one of the slowest, taking ~23 minutes per task on average ➤ Several GPT-5.5 reasoning variants lie along the Pareto frontier of AA-Briefcase Elo vs. Time per Task, including medium, high, and xhigh. GPT-5.5 (xhigh) in particular stands out as one of the most efficient top-performing models, using around half the time per task of Opus 4.8 (11 minutes) while ranking top 5 on the overall AA-Briefcase Elo ➤ GLM-5.2 also sits on the Pareto frontier, scoring 1261, ahead of GPT-5.5 (xhigh, 1159) but also taking more time per task (16.3 minutes). It is also the top-performing open weights model on AA-Briefcase, with MiniMax-M3 the next best at 1113 ➤ If Claude Fable 5 were still available, it would likely take around 28.5 minutes per task: while it was live, we measured ~91 output tokens per second, ~3.1 minutes of tool execution time per task, and ~139,000 output tokens per task ➤ Time spent on tool calls and execution accounts for only ~12% of the total time, with the remaining amount explained by output verbosity, turn usage, and inference speed

译Artificial Analysis 发布 AA-Briefcase 基准测试，测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果：Claude Opus 4.8 平均每任务 23 分钟，得分最高但最慢；GPT-5.5 (xhigh) 仅 11 分钟，效率最高且 Elo 前五；GLM-5.2 得 1261 分耗时 16.3 分钟，为开源模型最佳；MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%，其余由输出冗余、回合数和推理速度决定。

jason@jxnlco · 6月25日9

wow @embirico

译哇 @embirico

jason@jxnlco · 6月25日14

please upvote your favourites here: https://codex-billboard.vercel.app/gallery

译请在此为你最爱的作品投票： https://codex-billboard.vercel.app/gallery [引用 @jxnlco]：发布你最好的 Codex Billboard 作品

Ethan Mollick@emollick · 6月25日57

Gemini 3 Pro was the first model to achieve at least 23% on ARC-AGI-2, which it did in November, 2025 (it actually scored 31%). So the 8-12 month gap between closed and open weights models still seems to hold. But they are also more jagged, better at some tasks, worse at others.

译Gemini 3 Pro 是首个在 ARC-AGI-2 上达到至少 23% 的模型，它在 2025 年 11 月就做到了（实际得分 31%）。所以闭源与开源模型之间 8-12 个月的差距似乎仍然存在。但它们也更参差不齐，有些任务表现更好，有些则更差。

DogeDesigner@cb_doge · 6月25日28

ChatGPT is heavily biased toward the left. Grok is the most balanced compared to ChatGPT.

译ChatGPT 严重偏向左派。 Grok 与 ChatGPT 相比是最平衡的。

ChatGPT@ChatGPTapp · 6月25日65

The new GPT-5.5 Instant is very smart, very intuitive, and very fun to chat with. Rolling out now to everyone, starting with Pro and then Plus users. Free users should have the new GPT-5.5 Instant model by tomorrow.

译新的GPT-5.5 Instant非常智能、非常直观，聊天起来非常有趣。现已开始向所有人推送，先从Pro用户，然后是Plus用户。免费用户应在明天前获得新的GPT-5.5 Instant模型。

OpenAI@OpenAI · 6月25日67

We have a new version of GPT-5.5 Instant for you, and it's much more fun to talk to. Our most-used model is now better at understanding the intent behind a question and adapting its response accordingly. It also handles complex constraints more reliably and makes shopping and local recommendations more useful and cohesive. Rolling out today to paid users, tomorrow to free users.

译我们为你带来了新版 GPT-5.5 Instant，它现在聊起天来有趣多了。我们最常用的模型现在能更好地理解问题背后的意图，并相应地调整回应。它也能更可靠地处理复杂约束，让购物和本地推荐更加实用和连贯。今天向付费用户推送，明天向免费用户推送。

Greg Brockman@gdb · 6月25日69

Big improvements to GPT-5.5 Instant, including being much more fun to talk to. Give it a try:

译OpenAI 推出 GPT-5.5 Instant 新版本，能更好理解问题意图、处理复杂约束，并改进购物与本地推荐。今日向付费用户推送，明日覆盖免费用户。

Tibo@thsottiaux · 6月25日65

Spicy

译OpenAI 设计并制造了其首款 AI 芯片：Jalapeño。该芯片由 OpenAI 从零设计，与 Broadcom 合作量产，专为支撑 ChatGPT、Codex、API 及未来智能体产品的大语言模型工作负载而打造。芯片是 AI 经济的基础，自研芯片扩展了 OpenAI 从产品到模型再到基础设施的全栈平台，将助力扩展智能、服务更多人、并扩大 AI 的可及性。主推文：「劲爆。」

Ethan Mollick@emollick · 6月25日31

The ability of Codex (and Code) to solve problems on my various Windows machines has saved me so much effort. Just one of the most annoying uses of time, and an example of a clear small win.

译Codex（和Code）在我各种Windows机器上解决问题的能力为我节省了大量精力。这只是最令人烦恼的时间消耗之一，也是一个明确的小胜利的例子。

jason@jxnlco · 6月25日53

Computah! Activate Firewall! with gpt-realtime-2 you can in context prompt your wake words, reasoning, and build some silly games check out me playing a game simon says... spoiler: it beat me

译计算机！启动防火墙！使用 gpt-realtime-2，你可以在上下文中提示唤醒词、进行推理，并构建一些傻乎乎的游戏。看我玩一个游戏 Simon Says... 剧透：它赢了我。

Berryxia.AI@berryxia · 6月25日63

别只吹OpenAI的芯片牛逼了… OpenAI今天官宣自研第一颗AI芯片「Jalapeño」（辣椒芯片），全网都在吹“垂直整合时代来了”…… 但真实情况没人说：这不是胜利宣言，是被推理成本逼到墙角后的无奈自救。推理（跑模型回答用户）成本正在爆炸式吞噬OpenAI的利润，甚至威胁生存。前因：ChatGPT每天要处理海量用户查询，NVIDIA GPU又贵又抢手。 2025年10月，OpenAI就和Broadcom宣布合作开发自定义AI加速器，目标10吉瓦规模。现在Jalapeño出来了，OpenAI自己从头设计，Broadcom负责生产。后果：如果2026年底实现吉瓦级部署——推理成本有望降低约50%（Broadcom CEO原话），性能功耗比大幅优于当前顶级加速器。让ChatGPT、API和未来Agent产品跑得更快更便宜。 OpenAI将从“模型公司”彻底变成“全栈AI基础设施公司”，服务更多人，但也意味着大公司对底层算力的掌控更深。别人最忽视的细节（这些才是真正震撼的点）： ✅ 开发速度离谱：从初始设计到制造流片仅用9个月！而且是用OpenAI自己的AI模型辅助设计的（AI在帮自己设计加速自己的硬件，meta到爆）。 ✅ 这颗芯片只针对Inference（推理），不是训练。训练阶段大概率还是得继续依赖NVIDIA。 ✅ 首批样片已经到手，正在实测中。早期数据：性能功耗比显著优于当前最先进的水平”。 ✅ Broadcom CEO直接说：性能能媲美NVIDIA Blackwell + Google TPU，同时成本省一半。 ✅ 它不是孤零零一颗芯片，而是OpenAI未来多代计算平台的第一步，还带Broadcom的网络技术。 ✅ 名字叫「Jalapeño」，够辣，够应景这个越来越“spicy”的AI时代。这枚芯片的出现，其实在无声宣告：AI已经开始用自己加速自己的基础设施建设。而人类对算力的胃口，只会越来越大。你怎么看？是OpenAI的聪明自救，还是AI军备竞赛又一次疯狂升级？

译OpenAI 发布首颗自研 AI 芯片 "Jalapeño"，专为 LLM 推理设计，与 Broadcom 合作生产。从设计到流片仅 9 个月，且由自身 AI 模型辅助设计。首批样片已到手，性能功耗比显著优于当前顶级加速器，Broadcom CEO 称性能媲美 NVIDIA Blackwell 与 Google TPU，同时成本降低约一半。目标 2026 年底实现吉瓦级部署，推理成本有望下降约 50%。该芯片将驱动 ChatGPT、Codex、API 及未来 Agent 产品，标志着 OpenAI 从模型公司向全栈 AI 基础设施公司转型。

Berryxia.AI@berryxia · 6月25日66

别只吹OpenAI的芯片牛逼了… OpenAI今天官宣自研第一颗AI芯片「Jalapeño」（辣椒芯片），全网都在吹“垂直整合时代来了”…… 但真实情况没人说：这不是胜利宣言，而是被推理成本逼到墙角后的无奈自救。推理（跑模型回答用户）成本正在爆炸式吞噬OpenAI的利润，甚至威胁生存。前因：ChatGPT每天要处理海量用户查询，NVIDIA GPU又贵又抢手。 2025年10月，OpenAI就和Broadcom宣布合作开发自定义AI加速器，目标10吉瓦规模。现在Jalapeño出来了，OpenAI自己从头设计，Broadcom负责生产。后果：如果2026年底实现吉瓦级部署——推理成本有望降低约50%（Broadcom CEO原话），性能功耗比大幅优于当前顶级加速器。让ChatGPT、API和未来Agent产品跑得更快更便宜。 OpenAI将从“模型公司”彻底变成“全栈AI基础设施公司”，服务更多人，但也意味着大公司对底层算力的掌控更深。别人最忽视的细节（这些才是真正震撼的点）： ✅ 开发速度离谱：从初始设计到制造流片仅用9个月！而且是用OpenAI自己的AI模型辅助设计的（AI在帮自己设计加速自己的硬件，meta到爆）。 ✅ 这颗芯片只针对Inference（推理），不是训练。训练阶段大概率还是得继续依赖NVIDIA。 ✅ 首批样片已经到手，正在实测中。早期数据：性能功耗比显著优于当前最先进的水平”。 ✅ Broadcom CEO直接说：性能能媲美NVIDIA Blackwell + Google TPU，同时成本省一半。 ✅ 它不是孤零零一颗芯片，而是OpenAI未来多代计算平台的第一步，还带Broadcom的网络技术。 ✅ 名字叫「Jalapeño」，够辣，够应景这个越来越“spicy”的AI时代。这枚芯片的出现，其实在无声宣告：AI已经开始用自己加速自己的基础设施建设。而人类对算力的胃口，只会越来越大。你怎么看？是OpenAI的聪明自救，还是AI军备竞赛又一次疯狂升级？

译OpenAI发布首款自研AI芯片Jalapeño，专为ChatGPT、Codex、API及未来Agent产品的LLM推理设计，由Broadcom生产。从设计到流片仅用9个月，借助AI模型辅助设计。首批样片实测性能功耗比显著优于当前顶级加速器，Broadcom CEO称性能媲美NVIDIA Blackwell与Google TPU，成本减半。若2026年底实现吉瓦级部署，推理成本有望降低约50%。Jalapeño仅针对推理，训练仍依赖NVIDIA。此举标志OpenAI从模型公司向全栈AI基础设施公司转型。

Greg Brockman@gdb · 6月25日64

Introducing Jalapeño — designed from scratch for LLM inference over nine months, accelerated by our models. Perf per watt looking incredible.

译OpenAI 联合 Greg Brockman 正式推出其首款 AI 芯片 Jalapeño，专为大语言模型推理任务从头设计，历时九个月。芯片已与 Broadcom 合作投入量产，将加速 ChatGPT、Codex、API 及未来智能体产品。Jalapeño 利用 OpenAI 自身模型进行加速，官方称其每瓦性能“令人难以置信”。这标志着 OpenAI 从产品到模型再到基础设施的全栈平台扩展，旨在规模化智能并扩大 AI 可及性。

Chubby♨️@kimmonismus · 6月25日56

Holy, Intercept aims to prevent both the common cold and the flu. Its eventual aim is to get rid of respiratory viruses altogether. Backed by OpenAI, Anthropic and Bill Gates fund. love it

译OpenAI、Anthropic、Stripe和比尔·盖茨向新组织Intercept投资5亿美元。Intercept的目标是预防普通感冒和流感，并最终彻底消除所有呼吸道病毒。Kim对此表示：“太棒了，我喜欢。”

Rohan Paul@rohanpaul_ai · 6月24日65

OpenAI rolls out its 1st chip through a Broadcom tie-up as part of its “build the full stack” push. Jalapeño is an ASIC, so it is less flexible than an Nvidia GPU, but can be cheaper and faster when the workload is known very well. They say "the architecture reduces data movement and balances compute, memory, and networking resources to achieve realized utilization much closer to theoretical peak performance." Overall better performance per watt. Jalapeño also signals OpenAI’s shift from buying compute to shaping the whole stack: models, software, servers, networks, and now silicon. There was a 9-month tape-out, means OpenAI and Broadcom finalized the chip design and moved it to manufacturing unusually fast for advanced AI silicon. OpenAI says its own models helped speed up parts of the design work.

译OpenAI与Broadcom合作推出首款自研AI芯片Jalapeño（ASIC），专为ChatGPT、Codex、API及未来AI智能体产品的LLM工作负载设计。在已知工作负载下，Jalapeño比NVIDIA GPU更便宜、更快，通过减少数据移动、均衡计算/内存/网络资源实现更接近理论峰值的实际利用率，能效更优。该芯片从设计到流片仅用9个月，OpenAI自己的模型加速了部分设计工作。这标志着OpenAI从购买算力转向构建完整堆栈（模型、软件、服务器、网络、芯片）的战略转变。

AYi@AYi_AInotes · 6月24日61

所有人都以为OpenAI的护城河是AI大模型，今天他们证明了，真正的胜负手在硅片里。和博通合作，九个月从设计到流片，首款自研AI芯片Jalapeño，专门面向大模型推理。不做训练，只负责用户对话时的响应计算，每瓦性能，明显优于当前最先进水平。有几个反常识的结论跟大家分享，第一个反常识，为什么先切推理，不做更酷的训练芯片。训练是一次性烧钱，烧完就结束，推理是每天几亿用户持续消耗，是真正的成本大头。把推理成本打下来三成到五成，规模上来就是天文数字的利润，这其实是最务实的商业选择。第二个反常识，九个月流片意味着什么，传统高性能芯片，两到三年才是正常设计周期。他们用大模型，辅助设计跑大模型的芯片。 AI造AI硬件的自循环一旦跑通，整个半导体的迭代速度，都会被彻底改写。最本质的战略意图是 OpenAI不想再当英伟达的超级客户了，他们要走全栈路线，从硅片到模型到产品全部自控，说白了谁掌握底层算力，谁就掌握定价权和利润空间。模型权重很重要，算力的话语权同样致命。以前是人类造硬件，硬件跑AI，以后是AI辅助人类造更好的硬件，硬件再跑出更强的AI，这个自增强的循环，才是真正的奇点序章。

译OpenAI与博通合作，九个月内完成首款自研AI芯片Jalapeño的设计到流片。该芯片专为大语言模型推理场景打造，用于ChatGPT、Codex、API及未来智能体产品，每瓦性能优于当前最先进水平。推理成本可降低30%–50%，为日常持续消耗大头。传统芯片设计周期2–3年，Jalapeño通过AI辅助设计跑通“AI造AI硬件”自循环。OpenAI意图走全栈路线，摆脱对英伟达依赖，掌握底层算力定价权。

Chubby♨️@kimmonismus · 6月24日55

Absolutely insane: "Jalapeño was co-developed from initial design to manufacturing tape-out in just nine months, and the custom AI accelerator program represents what we believe to be the fastest ASIC development cycle ever achieved in high-performance advanced semiconductors." ChatGPT helped design the chip so they could reach 9 months of developement cycle "If AI can help engineers design better chips faster, it can lower the cost of compute across the industry and help democratize access to advanced AI."

译OpenAI 推出首款自研 AI 芯片 Jalapeño，专为 LLM 推理从零设计。从初始设计到流片仅用 9 个月，ChatGPT 参与了芯片设计，堪称高性能先进半导体领域最快的 ASIC 开发周期。该芯片由 Broadcom 和 Celestica 代工，针对 ChatGPT、Codex、API 及未来 Agent 产品的实际负载优化。早期样片已在实验室达到目标频率和功耗，成功运行 GPT-5.3-Codex-Spark 等 ML 负载；性能功耗比显著优于当前 SOTA，详细基准后续公布。部署计划于 2026 年底启动，战略上旨在减少对外部 GPU 依赖，加强对算力经济的控制。

meng shao@shao__meng · 6月24日66

OpenAI 发布首款自研推理芯片 Jalapeño OpenAI 联合 Broadcom（和 Celestica）从零设计了一款专为 LLM 推理优化的加速器 Jalapeño，9 个月完成流片，宣称能效显著优于当前 SOTA，计划 2026 年底起以吉瓦级规模部署——这是 OpenAI 把"全栈"延伸到芯片层的标志性一步。为什么 OpenAI 要造芯片？官方用了 "full-stack advantage"（全栈优势）和一个飞轮模型来论证：更好的基础设施 → 更高算力效率 → 更好的训练与推理 → 更强模型 → 更好产品 → 更多使用与收入 → 再投入下一代基础设施。逻辑上是把芯片作为飞轮的最底层杠杆：只有自己掌握芯片架构，才能让内核、内存、网络、调度、产品体验围绕同一目标协同优化。这与 Google（TPU）、Amazon（Trainium/Inferentia）、Meta（MTIA）走的是同一条垂直整合路径——前沿 AI 公司自研推理芯片已成行业共识。对 OpenAI 而言，还有一个直接的商业落点：推理是 AI 触达用户的环节。每一点成本、速度、可靠性的改善，都会直接转化为更快的 ChatGPT 回答、能多走几步的 Codex 任务、更便宜的 API、以及高峰期更稳的访问。

译OpenAI 联合 Broadcom 与 Celestica 从零设计首款自研推理芯片 Jalapeño，9 个月完成流片，专为 LLM 推理优化，能效优于当前 SOTA。计划 2026 年底起以吉瓦级规模部署，用于 ChatGPT、Codex、API 及未来智能体产品。OpenAI 称这是“全栈优势”关键环节，通过自研芯片构建飞轮：更好基础设施→更高算力效率→更好训练与推理→更强模型→更好产品→更多使用与收入→再投入。推理芯片直接改善成本、速度与可靠性，是 AI 触达用户的环节。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日58

OpenAI 🤝 Broadcom OpenAI announced its first AI chip, designed and produced in a partnership with Broadcom. > New SOTA in performance per watt. > OpenAI models were used to accelerate its development. > Will be deployed at gigawatt scale over multiple generations. OpenAI is full stack now 👀

译OpenAI与Broadcom合作推出首款AI芯片Jalapeño，专为ChatGPT、Codex、API及未来Agent产品等大语言模型工作负载设计。该芯片在能效上实现新SOTA，开发过程使用OpenAI模型加速，计划以千兆瓦规模多代部署。此举标志着OpenAI从产品到模型再到基础设施的全栈化。

Chubby♨️@kimmonismus · 6月24日60

OpenAI just unveiled Jalapeño, its first custom AI chip designed from scratch for LLM inference- It is OpenAI moving deeper into the full stack: chips, kernels, memory, networking, racks, scheduling, deployment and product experience. OpenAI has learned from Cerebras-deal what is valuable in specialized inference hardware and is now attempting to translate that lesson into its own controllable platform. Built with Broadcom and Celestica, Jalapeño is optimized around the workloads OpenAI actually runs across ChatGPT, Codex, the API and future agentic products. Early samples are already running ML workloads in the lab at target frequency and power, including GPT-5.3-Codex-Spark. OpenAI says performance per watt should be substantially better than current state of the art, with detailed benchmarks coming later! The strategic angle is obvious: less dependence on external GPUs, more control over compute economics, and a stronger flywheel between models, products, revenue and infrastructure. Deployment is planned to start by the end of 2026.

译OpenAI 推出其首款自研 AI 芯片 Jalapeño，与 Broadcom 和 Celestica 合作构建，针对 ChatGPT、Codex、API 及未来智能体产品的工作负载优化。早期样品已在实验室以目标频率和功耗运行 ML 工作负载，包括 GPT-5.3-Codex-Spark。OpenAI 称每瓦性能显著优于当前最先进水平，详细基准稍后公布。部署计划于 2026 年底启动。此举旨在减少对外部 GPU 的依赖，增强对计算经济的控制，并强化模型、产品、收入与基础设施之间的飞轮效应。

OpenAI@OpenAI · 6月24日63

We’ve designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production with @Broadcom, Jalapeño is purpose-built for the LLM workloads powering ChatGPT, Codex, the API, and future agentic products. Chips are foundational to the AI economy. Building our own expands our full-stack platform from products to models to infrastructure, and will help us scale intelligence, serve more people, and expand access to AI.

译我们设计并制造了首款 AI 芯片：Jalapeño。由 OpenAI 从零设计，并与 @Broadcom 合作投入生产，Jalapeño 专为支撑 ChatGPT、Codex、API 及未来智能体产品的 LLM 工作负载而打造。芯片是 AI 经济的基础。自建芯片扩展了我们从产品到模型再到基础设施的全栈平台，并将助力我们扩展智能、服务更多人、扩大 AI 的普及。

Tibo@thsottiaux · 6月24日9

If you are at OpenAI, you would know that this never happens. Be right back celebrating 5 minutes of peace.

译如果你在OpenAI，你就会知道这从未发生过。马上回来庆祝5分钟的安宁。

Tibo@thsottiaux · 6月24日26

Codex loves slurping up bugs

译Codex 喜欢吸

meng shao@shao__meng · 6月24日70

[官方博客] Codex Remote 工程实践指南手机上远程操作 Codex 的真正作用是什么？真正用好的 10 个最佳实践是什么？Codex 官方这篇博客都讲到了，一起看看。 https://developers.openai.com/blog/mastering-codex-remote-for-engineering # 核心心智模型：手机是「控制面」，不是「终端」很多人第一眼会把 Codex Remote 当成「远程盯任务进度」的工具——能看，但价值有限。 Codex 官方给出的定位更准： · 开发机（Mac / Windows / devbox）：跑代码、跑测试、持有凭证与环境 · 手机：启动、指挥、审批、审查、组织工作关键决策——用哪个 repo、哪个 worktree、是否批准命令、diff 是否 OK——可以在离开工位时完成，而不必把 iPhone 伪装成迷你终端。 # 十个高杠杆能力（按工程价值排序） 1. 任务开始前：10 秒选对环境，省 10 分钟清理启动前可选：主机、workspace、分支、是否新建 worktree、是否先跑环境 setup。常见模式： · 当前 checkout → 快速排查 · 新 worktree → 隔离改动 · 指定 base branch → 避免事后修 Git 状态 · Composer 还支持附件（文件、截图、相机）、Skills/Plugins 内联确认——能消除歧义就先在第一轮带上。 2. Queue vs Steer：最不直观、但杠杆最高 Agent 已在运行时，后续消息有两种行为： · Queue：等当前回合结束再发送，适用于第二项任务、补测、默认安全选项 · Steer：注入到进行中的工作，适用于方向错了、需立刻纠偏 Steer 示例：「修复限定在 mobile 包内，不要重构 shared renderer」「只测 resume 路径，不测 live 路径」。官方建议：默认 Queue，Steer 刻意使用——误用 Steer 的代价通常高于多等一轮。 3. Side Chat：主线程干活，旁路理解 /side 或选中 transcript 文本 →「Ask in side chat」，开轻量旁路对话，不打断主线。适合：「为什么选这个架构？」「这个 error 什么意思？」「批准前该验证什么？」主线程 = 推进工作；旁聊 = 理解工作。 4. Plan vs Goal：路径 vs 结果 · Plan 模式：回答 - 怎么做？，适用于任务模糊、风险高、跨多系统 · Goal：回答 - 完成标准是什么？：适用于跨多轮持久目标，不必每轮重述典型流程：Plan → 审边界 → 定 Goal → 实现 / 测试 / review / cleanup 持续推进。 5. 对话内 Code Review：手机也能做「决策型审查」完整链路：变更摘要 → diff → 单文件语法高亮 → 行内 comment → 回传 Agent 修改 → 再审小 diff。态度客观：手机不能替代大屏深读；但很多 review 卡在 1–2 个决策点，不必等回工位。 6. 权限：工作流的一部分，不是麻烦对命令、文件变更、网络、工具的请求，可选一次性 / 当前 chat / 更宽范围批准。原则：选最窄权限让工作继续，而非全部放行。线程级审批策略应和 host、branch、model 一起在任务开始时想好。 7. 上下文生命周期：/status → /compact → /fork · /status：session、workspace、context 用量、限流 · /compact：目标不变、线程过长时压缩 · /fork：目标分叉时继承历史开新主线 Side chat ≠ fork：前者是旁问，后者是新工作线。 8. Thread Desk：小型运维台 Pin 活跃线程、按 outcome 重命名、完成后归档（归档非删除）。通知一键跳转到待审任务；Spotlight / Shortcuts / iPad 快捷键进一步缩短路径。定位：Chief of Staff——不只发 prompt，还管理哪些工作在跑、阻塞、待审、已完成。 9. 命令速查 /plan /goal /side /review /status /compact /fork /fast /feedback——输入 / 即暴露产品概念模型。 10. 五个典型工作流 1. Release Captain：单线程盯 release/PR，pin，steer 仅用于推翻当前调查方向 2. Interrupt Bug Fix：附件 + 先诊断再改，side chat interrogation 可疑 error 3. Mobile Reviewer：branch review + 行内 comment + 只改 comment 点 4. Long-running Goal： concrete 完成条件（测试绿、review 清、性能阈值），用通知/status 而非反复问「好了没」 5. Multi-machine Operator：按机器/环境命名 host，在「有 Mac 模拟器 / Windows 环境」的那台启动任务对 AI coding agent 的通用启示： 1. 异步 + 人机协作比同步 pair programming 更适合 mobile 2. Steer / Queue / Side / Fork 是在管理 agent 的「注意力与状态机」，不是聊天 UX 花样 3. Goal + Plan 是把 open-ended agent 约束成可交付工程任务的结构 4. 权限粒度决定 remote 能否用于生产环境

译OpenAI 发布 Codex Remote 工程实践官方博客。核心心智模型：手机是“控制面”而非终端——开发机跑代码，手机负责启动、指挥、审批、审查。十大高杠杆能力包括 Queue vs Steer、Side Chat、Plan vs Goal、对话内 Code Review、细粒度权限管理等。另有 /status /compact /fork 命令与五个典型工作流（Release Captain、中断修复、移动端审查等）。对 AI coding agent 的启示：异步协作、注意力与状态机管理、目标约束、生产级权限粒度。

Tibo@thsottiaux · 6月24日27

Codex **had** a bug. Fixed. More feedback. Better product. Keep it coming.

译Codex 存在一个可能不到一年内损坏 SSD 的 bug。该问题已修复。主推文表示：更多反馈，更好产品，继续提。

OpenAI Developers@OpenAIDevs · 6月24日22

Show us how you build with Codex. Chaotic desk, clean desk, couch desk, airport-floor desk. We don’t judge the workspace. Create your own Codex billboard here: https://codex-billboard.vercel.app

译展示你如何使用 Codex 构建。凌乱的桌子、整洁的桌子、沙发上的桌子、机场地板的桌子。我们不会评判工作空间。在这里创建你自己的 Codex 广告牌： https://codex-billboard.vercel.app

gabriel@gabriel1 · 6月24日14

up in the middle of the night and seeing this computer on it's just the windows computer i bought for my cofounder so he could ask codex to work for 3 days until the app runs on windows this is so absurd and awesome

译半夜醒来，看到这台电脑开着。就是我给联合创始人买的那台 Windows 电脑，这样他就能让 Codex 连续工作三天，直到应用能在 Windows 上运行。这太荒谬也太酷了。

OpenAI@OpenAI · 6月24日35

OpenAI DevDay 2026 applications are now open! Our biggest developer event gets even bigger. 📍 San Francisco 📅 September 29 Apply by July 10: https://devday.openai.com/

译OpenAI DevDay 2026 申请现已开放！我们最盛大的开发者活动将更加盛大。 📍 旧金山 📅 9 月 29 日 7 月 10 日前申请：https://devday.openai.com/