英文版早报

译英文版早报 [引用 @BestBlogsDev]：http://x.com/i/article/2069570049816530944

Google Workspace CLI 这项目当时我还转发过，没想到几个月过去，作者 Justin Poehnelt 因为这个项目被开除了。 Justin 在 Google 干了将近七年，岗位是 Workspace 开发者关系工程师。今年 3 月初，他用 Rust 写了一个 Google Workspace CLI，放在了 Google 官方 GitHub 组织下（http://github.com/googleworkspace/cli），可以用命令行操作 Gmail、Drive、Calendar 等所有 Workspace 服务，还内置了 MCP 服务器，AI agent 可以直接调用。 Addy Osmani 3 月 5 日发推介绍了这个项目。然后就爆了，Hacker News 第一名，GitHub star 数冲到两万多，几天之内就有了几千个实际用户。 Google 内部的反应是两极的：有总监和高管主动来问这个工具能教他们什么；同时法务开始盘问他，为什么项目上有 Google 的 logo 和品牌色。 4 月 22 日到 24 日的 Google Cloud Next 大会上，Google Workspace 官方博客宣布官方 Workspace CLI 即将推出。两天后，Justin 被开除了。他怀疑是 Workspace 的某些管理层和项目害怕被 AI agent 颠覆，而这种恐惧不只是针对他的 CLI，是针对整个 agent 对 Workspace 意味着什么。 Hacker News 上对这件事的观点两极分化。一派认为这是 Google 官僚主义碾压创新的典型案例，七年老员工做了个用户真正想要的东西，然后被自己公司干掉了。另一派指出，Google 有一套非常明确的开源发布审批流程，用公司品牌发布未经批准的项目，在任何大公司都可能被开除。 Justin 本人在 Hacker News 回复里的说法是：作为 DevRel 工程师，开源发布审批本来就是他日常工作的一部分，而且这个流程文档不清楚，还一直在变。这个项目本身还活着。最新一次更新是 6 月，GitHub 上 26000 多颗星，InfoQ 和 BetterStack 都有详细的教程。Justin 被开除后还在继续写技术博客，最近一篇是用 Claude Code 的 subagent 做 Gmail 分类。对于正在用这个 Workspace CLI 的开发者来说，眼下倒不用太担心，项目还在 Google 的 GitHub 组织下正常维护。

译谷歌开发者关系工程师 Justin Poehnelt 今年 3 月初用 Rust 创建了 Google Workspace CLI，支持命令行操作 Gmail、Drive、Calendar 等服务并内置 MCP 服务器。项目发布后登顶 Hacker News，GitHub 获两万多星。谷歌内部反应两极：高管主动请教，法务质疑品牌色。4 月 22–24 日 Google Cloud Next 大会官方宣布即将推出官方 CLI，两天后 Justin 被开除。他怀疑管理层害怕被 AI agent 颠覆。项目仍在 Google GitHub 组织下正常维护（26000+ 星）。

Rohan Paul@rohanpaul_ai · 6月24日60

Atomic Chat just made Cline run coding agents on local AI models. @cline is the agent layer: it can read files, edit code, run terminal commands, inspect errors, and ask approval before actions. Atomic Chat is the model layer: it runs open-weight models offline locally, supports 1000+ models, and exposes a local API that other tools can call. A quieter shift in many areas: powerful agents moving back onto private machines.

译Atomic Chat 集成 Cline，使代码智能体能在本地 AI 模型上运行。Cline 作为智能体层，可读文件、编辑代码、运行终端命令、检查错误并请求批准，已被 800 万+开发者信任。Atomic Chat 作为模型层，支持 1000+ 模型离线本地运行，并暴露本地 API 供其他工具调用。整个过程私有、免费、开源，体现了强大智能体回归本地私有设备的趋势。

AYi@AYi_AInotes · 6月24日45

兄弟们，华尔街六位数年费的投研能力，现在一套开源系统免费就能用。 4.6万GitHub星标，8千次分叉，MIT协议完全开源，一分钱不用花。不用凑两万五千美元的开户门槛，不用付彭博终端六位数年费，更不用给对冲基金交百分之二管理费加百分之二十业绩分成，十八位对应不同流派的智能体，直接在你笔记本上跑。巴菲特锚定合理价格的卓越企业，芒格死守每笔交易的安全边际，迈克尔贝瑞逆向挖掘被市场忽略的深度价值，木头姐高信念押注颠覆性成长赛道，还有格雷厄姆达莫达兰比尔阿克曼，外加十一位覆盖技术面情绪面风控基本面的专家，全员独立输出判断。输入一个股票代码，系统自动抓取实时财报资产负债表内幕交易动态与全量市场新闻。每位智能体严格遵循自身投资哲学做分析，风控模块同步排查仓位风险。最终由组合经理整合所有信号给出买卖持有结论，每一步都附完整推理链，全程没有黑箱。打开推理展示模式，相当于坐在上帝视角看这群大佬当场辩论。护城河拆解，风险点揪出，机会挖掘，正反两面全部摊开，所有决策逻辑一目了然。内置完整回测引擎，可用历史数据验证策略收益。配了可视化网页界面，不用敲复杂命令行，上手就能用。支持主流云模型接口，也能通过Ollama完全本地运行，所有数据永远不会离开你的设备。核心标的基础数据永久免费，连API密钥都不用申请。所有AI分析都只是参考，不能替代自主决策，但如果这套系统给你拿了半年的持仓票，发出了明确的卖出信号，你会重新审视这笔投资吗。仓库链接放评论区👇 #美股#AI投资#开源项目

译一个4.6万星标、8千次分叉的MIT协议开源项目，提供免费AI投研系统。输入股票代码后，18位分别模仿巴菲特、芒格、木头姐、格雷厄姆等流派的智能体会自动抓取实时财报、新闻，依据各自投资哲学独立分析，风控模块排查仓位风险，最终由组合经理输出买卖持有结论，推理链完全透明。内置回测引擎、可视化网页界面，支持云模型或通过Ollama完全本地运行，核心基础数据永久免费，无需API密钥。

Krea@krea_ai · 6月24日71

our technical report is out. deep dive on the data, architecture, and training techniques used to create Krea 2. https://www.krea.ai/blog/krea-2-technical-report

译我们的技术报告已发布。深入解析创建 Krea 2 所用的数据、架构及训练技巧。 https://www.krea.ai/blog/krea-2-technical-report

OpenAI Developers@OpenAIDevs · 6月24日47

🧵 Open source runs on more than code. Over the past week, we funded maintainers directly, invested in Rust and its ecosystem, launched Patch the Planet for AI-assisted security work, and expanded Codex for OSS to more maintainers.

译🧵 Open source runs on more than code. 过去一周，我们直接资助了维护者，投资了 Rust 及其生态系统，推出了用于 AI 辅助安全工作的 Patch the Planet，并将 Codex for OSS 扩展到了更多维护者。

Ethan Mollick@emollick · 6月24日47

All Mythos-level models are likely to invite similar risks. Those risks will only be greater with the release of open Mythos-class AI coming in the next 6-12ish months (assuming China allows it) The lack of clarity over what risks concern the government may be slowing preparation

译所有Mythos级别的模型都可能引发类似风险。随着未来6-12个月左右开源Mythos级AI的发布（假设中国允许），这些风险只会更大。政府对哪些风险感到担忧缺乏明确性，可能正在减缓准备工作。

Berryxia.AI@berryxia · 6月24日43

刚刚，鹅厂上线开源来EdgeOne Makers！ AI Agent 一句话部署应用，云平台的玩法变了！必须得吹一波了😂赶紧丢给Agent学习就在刚刚，腾讯做了一件没人注意到的事。他们发布了一个叫EdgeOne Makers的平台。没有发布会。没有大佬站台。只有一条推文和一个GitHub仓库。这个平台的核心理念只有一句话：让AI Agent自己部署应用。过去，部署一个Web应用需要什么。登录控制台。选区域。配域名。设环境变量。点部署。看日志。排错。再点部署。每一步都是人在操作界面。 EdgeOne Makers把这件事倒过来了。你只需要告诉AI一句"把这个Next.js项目部署了"，它就会通过CLI自动完成全部流程。 Git推送。CI/CD触发。边缘函数部署。预览链接生成。全程不需要打开浏览器。它的底层是一套标准化的Skill系统。每个Skill对应一个能力模块：边缘函数、云函数、KV存储、中间件、AI Agent框架。 Claude Code、Cursor、CodeBuddy都能直接调用。 AI Agent读取Skill文档后，就知道怎么用代码操控整个部署流程。这背后有一个更深层的趋势。过去十年，云平台的设计逻辑是"为人服务"——图形界面、拖拽操作、可视化配置。但AI Agent不需要GUI。它需要的是API、CLI和结构化的文档。EdgeOne Makers本质上是第一个为Agent设计的云平台。腾讯没有大肆宣传这件事。但GitHub上已经有完整的开源仓库，支持Node.js、Go、Python三种语言的云函数，V8边缘运行时，以及LangGraph、Claude SDK、OpenAI Agents等主流Agent框架的集成。当其他云厂商还在优化控制台界面的时候，腾讯已经把控制台本身变成了可编程的接口。这可能是云计算的下一个范式转变——不是人去适应云，而是Agent直接操控云。地址： GitHub：http://github.com/TencentEdgeOne/edgeone-makers-tools

译腾讯低调发布EdgeOne Makers平台，无发布会，仅一条推文和一个GitHub仓库。核心理念：让AI Agent一句话部署应用——通过CLI自动完成Git推送、CI/CD触发、边缘函数部署及预览链接生成，无需打开浏览器。底层标准化Skill系统支持边缘函数、云函数、KV存储等能力模块，Claude Code、Cursor等Agent可直接调用。GitHub已开源，支持Node.js、Go、Python云函数和V8边缘运行时，集成LangGraph、Claude SDK、OpenAI Agents等主流框架。这标志着云平台从为人设计转向为Agent设计。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日64

Latitude is released as an open-source, MIT-licensed platform for monitoring AI agents in production, letting users surface what an agent does once it meets real users, catch recurring failures, and route fixes back into the editor. Users can cluster thousands of live conversations into a single view of what people ask for and where they drop off, with plain-English search across every trace. AI observability 👀

译Latitude 以 MIT 许可证开源发布，用于监控生产环境中的 AI 智能体。平台可揭示智能体与真实用户交互时的行为、捕获重复失败，并将修复反馈回编辑器。用户能将数千条实时对话聚类为单一视图，了解用户需求与流失点，并支持纯英文搜索所有 trace。引用指出：AI 智能体的对话是企业最被低估的数据源，Latitude 改变了这一现状。

AYi@AYi_AInotes · 6月23日74

http://x.com/i/article/2069352641423896576 # 30 分钟给你的 Agent 搭好永久记忆：能 cat 能 git 能直接编辑，保姆级教程零门槛上手我最近搭Agent工作流有一个很大的感受，就是Openclaw、Hermes、以及Claude code、Codex等这些 Agent ，是不需要更大的上下文窗口的，它需要更好的记忆能力。我花了 30 分钟给常用的编码 Agent 接上持久记忆 —— 没开 Docker，没搭向量库集群，而且这次，它的大脑就是一堆我能直接打开、直接编辑的 Markdown 文件。 ## 一、你的 Agent，每天醒来都失忆做过 Agent 的人，大概都受过这个委屈：昨天它刚陪你定位完一个磨人的 bug，今天开个新会话，它对昨天发生的一切一无所知。你那些决策、工作流、好不容易踩明白的坑，没有一样跟着它走。上下文被锁在上一段对话里，关掉就蒸发了。我们的第一反应，通常是把 prompt 塞得更满。把历史记录、用户偏好、项目背景一股脑灌进上下文窗口，然后祈祷模型别忘。但这条路很快撞墙。窗口有上限，token 要花钱，更要命的是——你塞进去的那点"记忆"是一次性的，关掉窗口就没了。说到底，你缺的不是更大的 prompt，是一层持久记忆。这篇我会带你用大约半小时，给一个 Agent 接上 EverOS，一个开源、本地优先的记忆操作系统。不用搭 MongoDB，不用 Elasticsearch，也不用一整套向量数据库集群。最妙的一点是，它把记忆存成你能直接打开、阅读、甚至手动改的 Markdown 文件。跟着走完，你的 Agent 就有了跨会话的长期记忆，而这份记忆是透明的，是你的。那话不多说，咱们开始。 ## 二、为什么是 EverOS，而不是再自己搓一个向量库动手前，先花一分钟说清它跟"再写一个向量库"差在哪，因为这决定了这半小时值不值。大多数记忆方案是个黑箱，你把文本喂进去，它吐一串向量存进数据库，检索时再还你一堆相似度分数。那么问题来了：出错的时候，你根本不知道它到底"记住"了什么、为什么这么记，调试基本靠猜😂 EverOS 走的是另一条路，它的存储是一套本地三件套：Markdown 当唯一可信来源，SQLite 管状态和处理队列，LanceDB 管向量、BM25 全文索引和标量过滤。关键在第一件，你想知道 Agent 记住了什么？cat 一下就行，想改掉一条记错的？编辑器打开删掉就行，这种可检视性，是黑箱向量库怎么都给不了的。顺一句佐证，官方那几个跑分也不难看：LoCoMo 93\.05%、LongMemEval$\-S$ 83\.00%、HaluMem 大约 90%\+，都是官方口径，你自己掂量，但真正打动我的肯定不只是分数。说白了，我们的Agent 的大脑，就是一堆能打开的文件。好，理念讲完，咱直接上手操作。 ## 第一步：环境准备（约 5 分钟）一共三样东西。 Python 3\.10 以上，官方推荐 3\.12\+，一个叫 uv 的高性能包管理器，EverOS 用它管依赖和虚拟环境。还有两个 API key——默认配置下，一个 OpenRouter 管 LLM 和多模态，一个 DeepInfra 管向量化和重排。 uv 没装的话，一行搞定： key 这块先交个底：EverOS 兼容所有走 OpenAI 协议的端点。所以你手上要是已经有 OpenAI、自建 vLLM 或者本地 Ollama，完全可以换掉默认那两家，下一步配置我会讲怎么改。 ## 第二步：安装与初始化（约 5 分钟）两种装法，按目的二选一：想顺手读读代码、做点改造，从源码装：只想把它接进自己项目，直接装包：两种方式装完，用同一条命令初始化：它会生成一个起始 .env。打开，填进你那两个 key：这里插一句，别手滑：.env 里装着你的 key，记得先把它加进 .gitignore。提交进仓库这种事，翻一次车够你后悔半天。填完跑这两条确认没问题： ## 第三步：启动服务并验证（约 3 分钟）起服务：让它在这个终端保持运行。新开一个终端，做次健康检查：一切正常的话，你会看到：看到这行 ok，你的本地记忆服务就活了。小提醒：文档写的默认端口是 8000，但你本地起来后亲眼确认一下，别想当然。接下来是这篇的核心。 ## 第四步：第一条记忆——写进去，再搜回来（约 8 分钟）⭐ EverOS 最值钱的就一件事，我给它起了个名，叫核心循环：写入一条事实 → 落盘成持久的 Markdown → 通过本地索引搜回来。咱完整跑一遍。先写一条关于用户的事实。注意带上 user_id，它决定这条记忆归谁——这也是 EverOS 能在多用户、多 Agent 场景下不串味的关键。这里我得说句实在话。1\.0\.0 本地版写入/检索的确切调用方式（是 CLI 子命令还是 REST 请求体），请你一定以仓库根目录的 QUICKSTART.md 为准，README 自己也把权威示例指到了那儿。我不照搬旧版的接口字段，免得你跟着翻车。下面这条是示意，跑通后请换成你本地真实的命令：写完这一下，EverOS 在后台做了三件事：把这句话抽取成结构化记忆，落盘成 Markdown，同步进 SQLite 和 LanceDB 的本地索引。现在换个会话，假装是"第二天"，用大白话把它搜回来：跑通后，把你本地真实搜回来的那条结果贴在这——它该命中刚才那条偏好，还带着相关度。这背后是一套混合检索：BM25 抓关键词，向量 ANN 抓语义，标量过滤按 user_id 这类维度精确切片，三路由 LanceDB 统一撑着。所以你哪怕换个问法，它照样能搜回来。跑到这，你的 Agent 已经有跨会话记忆了。但 EverOS 最让我上头的，是下一步。 ## 第五步：掀开黑箱，看看记忆长啥样（约 5 分钟）⭐ 还记得开头那句"大脑就是一堆文件"吗？现在咱去把这堆文件翻出来。打开 ~/.everos： cat 一下 users/alice/user.md。你会发现刚才那条偏好，已经被结构化地写进了 Alice 的画像里，人能读，你也能直接改。对，就是字面意思——你的 Agent 的记忆，是一份你随手能打开的笔记。这就是"Markdown 作为唯一可信来源"的真正含义。更带感的是，你可以直接拿 Obsidian 打开整个 ~/.everos 目录，把 Agent 的记忆当成一座可视化知识库来逛。这个画面，强烈建议你截张图，它比任何一句文案都更能说明"透明记忆"是什么。你大概也注意到目录里有两条线，users/ 和 agents/，这正是 EverOS 的双轨记忆：用户轨记情景和画像（用户是谁、有啥偏好），Agent 轨记案例和技能（Agent 干过啥、学会了啥）。两条线分开抽取，互不污染。 ## 再往前一步，它还能玩什么这半小时咱只跑通了最核心那一圈，但 EverOS 能干的远不止这些，简单点几个方向，留给你接着探。多模态摄取——一次 API 调用，就能把 PDF、图片、文档、表格、网页 URL 吃进记忆。这里有个坑提前说：Office 文档的解析依赖系统装了 LibreOffice，没装的话 .docx/.pptx/.xlsx 会失败，但 PDF、图片、音频不受影响。自我演化——每个完成的任务被记成一个 Case，那些反复成功的模式会自我提升成可复用的 Skill，在整个 Agent 团队间共享，不用你手动整理。路线图上还有 Knowledge Wiki（把碎片记忆整理成可版本化的 wiki 页）和 Reflection（系统空闲时连接弱信号、压缩历史、改进画像）。方向我挺期待，但毕竟还在路上，这里只当个预告。 ## 几个容易翻车的点最大的一个坑，必须单拎出来说。网上很多"EverOS 教程"，其实讲的是它早期那个重型版本，要 docker-compose up 拉起 MongoDB、Elasticsearch、Redis 一整套。你要是照着抄，从第一步就翻车。本文这个 1\.0\.0 轻量版的全部价值，恰恰就是不需要这些——命令认准 everos init / everos server start 这套 CLI 就对了。剩下两个一句话带过：Office 文档解析记得装 LibreOffice；.env 一定进 .gitignore。 ## 收尾：记忆这件事，值得你认真对待半小时前，你的 Agent 每开一个会话都从零开始。现在，它有了一层跨会话的持久记忆——而且这份记忆不是黑箱里一串你看不懂的向量，是你能打开、能读、能改、能用 Git 版本化的文件。这正是我觉得它值得收藏的原因，它没把"记忆"做成一个玄乎的概念，而是给了开发者一套能跑、能看、能改的具体东西。如果你手上正有需要长期记忆的 Agent、LLM 应用或者编程助手，现在就把这个仓库收藏了，下次开新项目你会想起它： 👉 https://github\.com/EverMind\-AI/EverOS 本文基于 EverOS 1\.0\.0 轻量本地版整理，跑分均为官方口径。仓库更新较快，发布前请核对最新版本号、默认端口，以及 QUICKSTART\.md 里写入/检索的权威示例，并把你本地真实跑出的命令和返回替换进正文。

译EverOS 1.0.0是一款开源、本地优先的记忆操作系统，专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件（唯一可信来源），配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤，无需Docker或向量数据库集群。官方基准：LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取（PDF/图片/网页URL），任务可自我演化成可复用Skill，计划加入Knowledge Wiki和Reflection。用户通过CLI（everos init/server start）约30分钟上手。

Chubby♨️@kimmonismus · 6月23日26

My guess: Kimi k2.7 and/or Qwen 3.8 Huge win for all of us and really excited for the release! On top: remember that closed source releases are on the horizon as well: Sonnet 5, ChatGPT 5.6 and much more Super freaking excited for the coming week(s)!

译我听说其他万亿参数开源模型也即将推出。这对 token 定价和杰文斯悖论来说太棒了。我非常期待接下来的几周！

AYi@AYi_AInotes · 6月23日55

一个独立开发者因为太寂寞，用开源工具拼出了有记忆有性格的真人数字分身，我觉得这件事有些撕开了 AI 陪伴最容易被忽略的真相，作者最初只是想做个自己的分身陪自己说话，换成网红峰哥的人格后体验完全升级，整套方案用四款开源工具串起全链路，人格蒸馏把几百条笔记压缩成性格与说话风格，搭配长期记忆系统和实时语音框架，硬生生把延迟从最初的八到二十秒压到了一秒以内。更值得注意的是，整套方案没有依赖任何顶级商业 API，个人开发者靠开源工具组合加全链路优化，就做出了超越多数商业产品的体验感。这早就不是什么普通的换皮语音聊天机器人了兄弟们，我感觉是已经摸到了低成本数字人格孪生的落地门槛。以前大家默认 AI 陪伴要万能要温柔，可事实证明人格的独特性才是核心吸引力，有脾气有立场有记忆的实体，远比标准答案式的助理更能填补情感空白。也许未来每个人都能拥有专属数字分身这件事，比我们想象的来得要快得多，毕竟技术的起点从来都不是宏大的商业概念，只是一个人有点寂寞，想和自己说说话。 https://x.com/leaf_sanren/status/2069342335268507976/video/1

译独立开发者用四款开源工具做出有记忆性格的数字分身，未依赖商业API。通过人格蒸馏将几百条笔记压缩成性格，搭配长期记忆和实时语音框架，延迟从8-20秒降至1秒内。换网红峰哥人格体验更佳，认为人格独特性而非万能温柔才是AI陪伴核心。

SiliconFlow@SiliconFlowAI · 6月23日59

What happens when frontier models face the same prompt? We tested GLM-5.2, GPT-5.5, Opus 4.8, and GLM-5.1. And the result: GLM-5.2 closed the performance gap with Opus 4.8 at the cost of friction. Get Opus-level frontend generation with GLM-5.2 on SiliconFlow—at ~3.6× lower input cost and ~5.7× lower output cost Let's build more & spend less today😈 https://cloud.siliconflow.com/models?target=zai-org/GLM-5.2

译硅基流动测试了 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 的相同提示。据 @arena 引用，GLM-5.2 (Max) 在 Code Arena: Frontend 排名第 2，以 +29 分领先 Claude Opus 4.7 (Thinking)，仅次于 Fable 5；是最好的开源模型，大幅超越 Kimi-K2.6 和 Minimax-M3，并在 React（第 2）、HTML（第 4）及品牌营销、参考设计、数据分析等多个子类别中位居第一。主推文指出，在 SiliconFlow 上使用 GLM-5.2 可获得 Opus 级前端生成能力，输入成本降低约 3.6 倍，输出成本降低约 5.7 倍。

OpenRouter@OpenRouter · 6月23日56

GLM 5.2 vs DeepSeek V4: share of tokens on OpenRouter GLM 5.2 has had a very fast uptake relative to most open-weight launches

译GLM 5.2 vs DeepSeek V4：OpenRouter上token份额与大多数开源权重发布相比，GLM 5.2的采用速度非常快。

AYi@AYi_AInotes · 6月23日65

所有大模型排行榜都在骗你。 Cline团队用自己仓库的真实bug，在完全相同的环境下，测了GLM-5.2和Claude Opus 4.8。结果非常打脸。 Opus速度快3倍，token消耗少一半，价格贵一倍。它修完了bug，跑通了所有测试。但生产构建直接崩了，留下了未被发现的类型错误。 GLM速度慢，token多67%，工具调用多2.3倍，价格便宜一半。它不仅修好了bug，还主动清理了死代码。最终构建干净通过，没有任何隐患。这就是排行榜和真实世界的差距。 SWE-bench只能测出能不能修bug。测不出修完之后会不会偷偷搞崩你的生产环境。测试过了不等于代码能用。这在大型项目里，是致命的。本质不是谁更聪明，因为训练目标完全不一样。 GLM被强化学习训练出了验证文化。多花的token，全用在了跑构建，查类型，清垃圾，防回归上。它不是笨，是负责任。 Opus追求高效交差，GLM追求一次做对。更值得注意的是，这是开源模型。它不再只是闭源模型的廉价替代品。它在长周期代码智能体的维度上，找到了自己的差异化优势。智能体时代的性价比逻辑彻底变了。以前比每千token多少钱。现在比每次成功任务多少钱。多花点token一次做对。永远比快但要返工两次更划算。更别说省下的人工排查成本。给所有做智能体的人两个建议，第一，别信排行榜，拿自己仓库的真实bug跑一遍。第二，在你的系统提示里强制加一条，完成前必须跑构建验证，清理死代码。未来比拼的从来不是谁的模型更聪明，而是看谁的模型更负责任。

译Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍（1.6分钟vs 4.7分钟）、token少一半（660K vs 1.1M）、价格贵一倍（$0.81 vs $0.41），修好bug但生产构建崩溃，留下类型错误。GLM多花67% token、多2.3倍工具调用（28次vs 12次）、价格便宜一半，不仅修好bug还主动清理死代码，构建干净通过。根本差异在于训练目标：GLM被强化学习训练出验证文化，多花token跑构建、查类型、防回归；Opus追求高效却忽略隐患。排行榜只测修bug能力，测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。

Chubby♨️@kimmonismus · 6月23日57

Absolutely incredible: GLM-5.2 (max) sits at #3 overall on GDPval-AA, a real-world agentic work benchmark, even ahead of GPT-5.5 (xhigh). Oh and btw: looks like open source is no longer 7 months behind. GDPval-AA, a benchmark built around real professional and creative tasks. The models had to produce practical deliverables from identical briefs, including a retail supervisor’s task list, an emergency-stop circuit schematic, and a music video moodboard. Thats why we'll probably see a big leap with GPT-5.6. Even open source competition is catching up insanley fast.

译GLM-5.2（max）在真实世界智能体工作基准 GDPval-AA 上获 1524 Elo，排名第三，仅次于 Claude Fable 5（1783）和 Claude Opus 4.8（1615），与 GPT-5.5（xhigh，1509）持平。该模型以约 31 轮次任务平均完成零售主管任务清单、紧急停止电路图等交付物，领先开源权重模型（下一名 MiniMax-M3 仅 1408），并超过 Google Gemini 3.5 Flash（1357）、Qwen 3.7 Max（1289）等闭源模型。GLM-5.2 同时在 Artificial Analysis Intelligence Index、Agentic Index 和 AA-Briefcase 上领跑开源榜单。

Chubby♨️@kimmonismus · 6月23日59

GLM 5.2 keeps on winning GLM 5.2 is emerging as the first open-weights model capable of handling meaningful autoresearch tasks, from debugging setup issues to running and comparing RL training experiments across multi-node H100 clusters. The big caveat: it lacks image understanding, so unlike Opus or Fable, it has to analyze raw WandB data programmatically rather than visually interpreting charts. Still: while we are waiting for the come back of. Fable 5, zAI really nailed it with GLM 5.2

译Kim指出，GLM 5.2是首个能以开放权重处理真实自动研究任务的模型，包括调试设置、跨多节点H100集群运行并比较RL训练实验。其局限在于缺少图像理解能力，需程序化分析原始WandB数据而非可视化图表。引用介绍称，GLM 5.2是其自动研究pipeline上首个能胜任实际研究的开源模型，在Fable 5对研究设限的背景下意义重大。演示中，它基于SkyRL在两台8×H100节点上完成Harbour代码竞赛的完全异步vs同位置同步RL训练，自动解决设置问题并生成吞吐量与奖励稳定性对比。

OpenCode@opencode · 6月23日23

we've added unique user rankings some models are token heavy so they skew upwards in rankings - unique people using the model is a more accurate ranking we'll orient more of our data around this metric

译我们已添加独立用户排名某些模型 token 消耗大，导致它们在排名中偏高——使用模型的独立用户数是更准确的排名我们将围绕这一指标调整更多数据

Artificial Analysis@ArtificialAnlys · 6月23日59

GLM-5.2 leads open weights models and sits at #3 overall on GDPval-AA, a real-world agentic work benchmark GLM-5.2 from @Zai_org scores 1524 Elo on GDPval-AA, which measures performance on real-world, economically valuable knowledge work through long-horizon, multi-turn tasks. Key takeaways: ➤ #3 overall, behind only Claude Fable 5 (1783) and Claude Opus 4.8 (1615), and level with GPT-5.5 (xhigh, 1509) ➤ The leading open weights model by a wide margin: the next open model, MiniMax-M3, scores 1408 ➤ Ahead of many proprietary models, including Google's Gemini 3.5 Flash (1357), Qwen 3.7 Max (1289), Muse Spark (1158) ➤ The tasks are agentic. GLM-5.2 averaged ~31 turns per task across 1,999 matches ➤ Consistent with the rest of its launch, GLM-5.2 also leads open weights on the Artificial Analysis Intelligence Index, ranks #3 on the Agentic Index, and #3 on AA-Briefcase

译智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo，排名第三，仅次于 Claude Fable 5 和 Claude Opus 4.8，与 GPT-5.5 持平。它是开源权重模型中领先的，超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型，平均每任务约 31 轮。此外，GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重，并在 Agentic Index 和 AA-Briefcase 上均排名第三。

Emad@EMostaque · 6月23日67

Is there a market where folk are predicting when Reflection AI will drop their first model This is probably as much compute as currently used by all the Chinese open source companies together (more advanced chips!) so hopefully will be a banger

译SpaceX与Reflection AI签署63亿美元计算协议，Reflection将立即获得GB300芯片用于训练开源模型，并于2026年7月1日起每月支付1.5亿美元至2029年。Emad Mostaque（前Stability AI CEO）称该计算量可能相当于所有中国开源公司（使用更先进芯片）之和，并询问是否有市场预测Reflection AI何时发布首个模型。

Rohan Paul@rohanpaul_ai · 6月23日73

CNBC: SpaceX just landed a new compute lease deal with Reflection, an open-source AI startup. Reflection will pay $150M/month from 07-26 for access to Nvidia GB300s, If the deal runs to 2029, total payments would be around $6.3 B. The deal can be cancelled by either company, with 90 days’ notice after the first 3 months. SpaceX is now selling its GPU capacity like a cloud provider, using Colossus as infrastructure for outsiders. Reflection’s current business model appears to be B2B/B2G frontier open-weight AI: build powerful models, then sell access, customization, and controlled deployment to governments, national labs, enterprises. Reflection needs SpaceX’s GB300 cluster because its product is the model itself, and it still has to train a frontier-class base model, adapt it for scientific and national-security customers. Anthropic cutting off Fable and Mythos gave Reflection a sharper sales argument: critical AI customers should not build core workflows on closed models that can be revoked, changed, or restricted by a vendor they cannot inspect or control. --- cnbc. com/2026/06/22/spacex-ai-colossus-data-center-reflection.html

译SpaceX完成857亿美元IPO后，与开源AI初创Reflection签署GPU计算租赁协议。Reflection自2026年7月起每月支付1.5亿美元，使用SpaceX Colossus数据中心的Nvidia GB300集群，若延续至2029年总支付约63亿美元，协议可于3个月后提前90天取消。Reflection采用B2B/B2G开放权重模式，构建前沿模型并向政府、国家实验室和企业出售定制化部署。该集群用于训练基础模型并适配科学和国家安全场景。Anthropic切断Fable和Mythos服务后，Reflection强调关键AI客户不应依赖可被撤销或受限的闭源供应商。

StepFun@StepFun_ai · 6月22日22

Introducing the StepFun Startup Program. We’re supporting early-stage AI teams building real products with StepFun models — from multimodal applications to agentic systems. Selected startups may receive API credits, dedicated ecosystem support, co-marketing opportunities, showcase placement, and warm introductions to selected partners. We’d love to hear what you’re building. Apply now 👇 https://platform.stepfun.ai/startup-program

译推出 StepFun 创业计划。我们正在支持使用 StepFun 模型构建真实产品的早期 AI 团队——从多模态应用到智能体系统。入选的初创公司可能获得 API 额度、专属生态支持、联合营销机会、展示位，以及向特定合作伙伴的引荐。我们很期待了解你在构建什么。立即申请 👇 https://platform.stepfun.ai/startup-program

SenseTime@SenseTime_AI · 6月22日16

Thanks @xCreate for the great breakdown of 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨1! Great to see the model's powerful 𝘁𝗲𝘅𝘁-𝗶𝗺𝗮𝗴𝗲 𝗶𝗻𝘁𝗲𝗿𝗹𝗲𝗮𝘃𝗲𝗱 𝗿𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 and 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 capabilities featured — along with a 𝘀𝘁𝗲𝗽-𝗯𝘆-𝘀𝘁𝗲𝗽 𝗴𝘂𝗶𝗱𝗲 𝘁𝗼 𝗿𝘂𝗻𝗻𝗶𝗻𝗴 𝗶𝘁 𝗹𝗼𝗰𝗮𝗹𝗹𝘆 𝗮𝗻𝗱 𝘃𝗶𝗮 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗦𝘁𝘂𝗱𝗶𝗼. 🎥https://youtube.com/watch?v=395Fk3WveRk 🎛️SenseNova Studio: https://unify.light-ai.top (Try infographics; also join Discord for text-image interleaved gen) 🤗https://huggingface.co/collections/sensenova/sensenova-u1 🛠️https://github.com/OpenSenseNova/SenseNova-U1 👾Discord: https://discord.com/invite/BuTXPHmQub

译商汤SenseTime在推文中感谢@xCreate对SenseNova U1的深入解读，该模型具备强大的文本-图像交织推理与信息图生成能力。推文附有YouTube视频演示，并提供了SenseNova Studio在线试用链接、HuggingFace模型集合、GitHub本地运行指南及Discord社区入口，方便用户试用和部署。

Nathan Lambert@natolambert · 6月22日56

GLM-5.2 should be “DeepSeek moment” for agents. We enter a new world where the top end of agentic capabilities are available in open models. If you care about open, now is the time to inform regulators on how we should build a world with safe, frontier, open intelligence.

译GLM-5.2 应该是智能体的“DeepSeek 时刻”。我们进入一个新世界，开放模型中拥有了顶尖智能体能力。如果你关心开放，现在就是向监管者说明我们应该如何构建一个安全、前沿、开放智能世界的时候。

Nathan Lambert@natolambert · 6月22日67

TMax: An open RL recipe for terminal agents I’m very excited to get to share a new RL paper today that I got to have a small part in – a type of paper I suspect we’ll see much more of in the future. The key is that RL research is very different today, in mid-2026, than what most observers have in their context. The average conception of an RL paper is grounded in the RLVR revolution of early 2025, where many people could use vanilla RLVR libraries to hillclimb on math benchmarks. Crucially, this style of math work could be done on base models or fairly stably on already trained models. With agents, the tasks of focus are very hard, requiring complex tool-use, harnesses where the model automatically manages its history, and much more training to make smaller eval improvements. We’re shifting from a renaissance of RL study to rapidly needing to improve its empirical rigor and common community engagements. TMax is the best open data for hillclimbing on frontier terminal tasks. It’s been validated with rigorous experiments, and if the authors wanted to just form a “RL environments startup” they could probably sell it for millions of dollars. This data work is some of my favorite stuff to be around in my 2.5+ years at Ai2. As a general summary, the recipe is open data and recipe lessons from hillclimbing the Qwen 3.5 smaller, dense models on terminal tasks. These models are super hard to hillclimb in this area, as they’re already trained heavily on the task. The training is very infrastructure-dependent, and most of the RL innovations are more designed to make training stable than to improve the rate of learning. I strongly recommend this paper. I joke around that I was happy to be an author just so I had to read it twice! You can find Hamish’s thread sharing more here or read the paper here. You can click through to find the model weights, the data, and even some fun further artifacts to study like all the RL rollouts from a training run – where the model sometimes became aware that it was being tested. The biggest takeaway I have from following this work, and more of the work in the community, is how important recipe work is. Let me define “recipe work.” It is a style of paper that explains all the steps you need to make crucial model improvements – data, algorithm, codebase, pitfalls, etc. Getting started in meaningful RL experiments today is a substantial expense. There are a ton of companies, an entire industry emerging really, around the idea of taking open-weight language models and finetuning them with RL on your domain-specific tasks. What I see in many projects is that getting an initial baseline is very hard. This phase, which can cost weeks and anywhere from $10K to $1M+, feels like spinning your wheels (A fun fact is that an RL step on a model like Nvidia Nemotron 3 Ultra on Tinker costs $1K and a meaningful RL run would be hundreds of steps – credit Edward Hu). It takes a lot of time to get traction in learning signal on meaningful, hard RL tasks. What we need as a community is a way for people to study small ablations to established RL recipes, as most labs won’t have the resources to do it from scratch in a meaningful way. This is what I hope TMAX can be for terminal agents, or the start of. Yes the training jobs are expensive, as the paper documents a standard training job being 8 nodes of H100s (2 train 6 inference) for 2-3 days, but that is approaching something academics can study. The establishment of this recipe took O(100) of these training jobs to get right. This isn’t my first time trying to establish this direction. When we launched Olmo 3 we had the “RL Zero“ model families, which are clean RL runs from a base model on a certain domain. This type of recipe-dependent work is a clear indicator that meaningful post-training work today looks much more like pretraining work of years past. We need decision-making ladders, clear ways of seeing small improvements in the models, stability, and so on. Part of this is down to academic gatekeepers, who won’t reward a paper doing very clean empirical work to push a recipe 1-2% up. They’ll favor a “new algorithm” that matches results, or something sort of bogus. My hope is that we can have multiple, stable, clear recipes across agent types, so innovations can be tested more clearly in multiple domains. (If you’re working on this, please reach out – I’m happy to support if I can, but I likely can’t reply to every email). As a quick aside, the RL frameworks in vogue today seem to be SLIME and SkyRL. The libraries of choice have shifted throughout these seasons in RL, which further contributes to a form of fragility in the literature. A bit of continuity will go a long way. So, go read this paper. It’s a really great example of how seemingly simple data and infrastructure work can be very hard and impactful. It’s also got me looking for more applications of Divergence Proximal Policy Optimization (DPPO) as another small evolution to the best RL algorithms of the day, by virtue of being a bit more stable by improving token-level clipping.

译TMax 是面向终端任务的开源 RL 配方，基于 Qwen 3.5 较小密集模型，在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100（2 训练+6 推理）运行 2-3 天，配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂（1 万至百万美元），需要明确决策阶梯和稳定性改进。

AYi@AYi_AInotes · 6月22日57

GLM-5.2 的母公司智普年初上市，到现在半年时间涨了将近16倍，太离谱了，喵的我大腿都要拍断，当时觉得国内大模型公司股价泡沫严重，人真是只能赚自己认知内的钱啊😭 智普科技股价从上市初期约 131.50 HKD 上涨到目前约 2,094 HKD，YTD 涨幅约 1,492%，这个势头，估计很难有上车的机会了

译智谱年初上市，股价从约131.50 HKD涨至约2,094 HKD，YTD涨幅约1,492%。背后由GLM-5.2与Fable 5测评对比驱动：同一任务下GLM-5.2效果达Fable 5九成，但价格不到$0.10（Fable 5约$5），价差五十倍。该对比改变了设计探索默认选项——当开源模型做到“够好且便宜到可以随便用”，用户优先选择低成本方案。GLM-5.2此次正好踩上这条线。

MiniMax (official)@MiniMax_AI · 6月22日34

M3's 95% cache ratio tells the more interesting story hint: long-horizon coding loops appreciate @opencode making this usage visible.

译M3 的 95% 缓存命中率讲述了一个更有趣的故事提示：长时间跨度的编码循环感谢 @opencode 让这一使用量可见。

AYi@AYi_AInotes · 6月22日57

用Hermes Agent的最大痛点被解决了哈哈，要知道社区里那些神级工作流全都沉在 X 和 Discord 里了，直到我看到这个Hermes Bible，有好心人把Hermes Agent的所有干货都攒到一起了，这个站把 169 页官方文档吞进去，还反刍出 24 个能直接抄的真实工作流，比如从 Jira 到 PR 的自动过渡，这种例子直接摆在那给你看。三个让我决定推荐的理由： 1️⃣ ⌘K 即时搜索，想找什么不用翻目录跟 Alfred 一样，打关键词直接定位到对应章节 2️⃣ 完全社区驱动你把自己的工作流分享上去，个人资料页就挂在站里，每个人都能从别人那里偷师 3️⃣ 169 页文档全整合官方文档散在好几个地方，这个站帮你全捞到一个地方了，再不用开五个标签页来回翻一句话判断是否需要：如果你每次开 Hermes 都要重新想提示词，这个站就是给你准备的。

译Hermes Bible 将 Hermes Agent 169 页官方文档整合一体，提炼出 24 个可直接抄的真实工作流（如 Jira 到 PR 自动过渡），支持 ⌘K 即时搜索定位章节，社区可分享工作流并展示个人资料页。解决官方文档分散、优质工作流沉没在 X 和 Discord 的问题。

Yuchen Jin@Yuchenj_UW · 6月22日43

Looking at my timeline, it feels like GLM-5.2 is having its DeepSeek R1 moment. I never thought an open-source model could break into the top 3 coding models this soon.

译看我的时间线，感觉 GLM-5.2 正迎来它的 DeepSeek R1 时刻。我从未想过一个开源模型能这么快跻身编程模型前三。

Rohan Paul@rohanpaul_ai · 6月22日44

The original vibe coder

译一条推文调侃 Linus 是原始的 vibe coder：他只需在邮件列表上发一条愤怒邮件描述需求，全球数千工程师就免费实现。零 token 消耗、零 API 成本，拥有无限上下文（30 多年内核知识）。对比 OpenAI 和 Anthropic 试图用 AI 复制 Linus 从 1991 年起靠人类贡献者做的事，但 Linus 的“agents”不产生模型幻觉且完全免费。

elvis@omarsar0 · 6月22日56

Very impressive from GLM-5.2. Frontier open-weight model indeed. Now, can we get a Gemini model in the top 3 soon?

译GLM-5.2 的表现令人印象深刻。确实是前沿的开放权重模型。那么，我们很快能看到 Gemini 模型跻身前三吗？

Nathan Lambert@natolambert · 6月21日26

Open weights models, via GLM 5.2, had their "very practically useful" in coding harness moment before Gemini. ~200 days since the release of Opus 4.5.

译开放式权重模型，通过 GLM 5.2，在 Gemini 之前迎来了它们在编码测试中的“非常实用”时刻。自 Opus 4.5 发布以来约 200 天。

AYi@AYi_AInotes · 6月21日31

感觉GLM 5.2太强了，有点国产Fable 5的感觉了，会不会是下一个DeepSeek时刻，然后接棒DeepSeek成为中国大模型的新一代大哥和门店担当

Chubby♨️@kimmonismus · 6月21日67

Even the Vercel CEO is impressed/shocked at how good GLM-5.2 in coding is. open source, open weights.

译就连 Vercel CEO 都对 GLM-5.2 在编码上的出色表现感到印象深刻/震惊。开源，开放权重。

AYi@AYi_AInotes · 6月21日68

Greg 列的这张 AI 高价值技能清单，很多人只看了前几个条目，没看穿背后的筛选逻辑现在的AI 正在把单一工具的门槛碾平，纯写 prompt 的能力在贬值，纯撸代码的能力也在贬值，真正开始拉开差距的，全是交界处那些能打通全链路的东西倒不是说写代码不值钱了，是只会写代码不值钱了咱们先看清单里最容易被误读的三项： 1️⃣本地部署模型不是让我们装上多硬核的服务器，关键在于要给自己留一台应急服务器，毕竟云端再丝滑但控制权永远不在你手里， 2️⃣内容策展不意味着做搬运，尤其在AI 内容泛滥的时候，人的筛选和判断反而成了最稀缺的信号 3️⃣长期管理 agent关键在于搭好监控和重试机制，让一群聪明但容易走丢的猫能稳定干活这三个技能都指向同一个方向：builder 和 distributor 中间那个连接点，才是现在个人开发者最值钱的部分就像开小餐馆的老板，既要在后厨掌勺，又要去前厅揽客，菜做得再好没人进店也白搭，能把菜端到客人面前的人，才真正赚得到钱有三件小事可以做， 1. 把你一个核心 agent 工作流从云端迁到本地模型，哪怕只搭一个基础的可观测面板 2. 给你正在做的小产品做一次精准分发，不是广撒网那种，得送到 20 个潜在用户面前， 3. 约一场线下小聚或一对一聊天，收一次不带滤镜的真实反馈

译Greg 列出当下最有价值的六项技能：搭建管理 agent 并运行本地 AI 模型、懂渠道的营销、全能机器人、短内容策展、能出产品又能分发的 builder-distributor、线下社区建设。主推文指出 AI 抹平单一工具门槛，纯写提示词或代码贬值，真正拉开差距的是打通 builder 与 distributor 全链路。具体解读：本地部署保留应急控制权；内容策展是稀缺筛选力；管理 agent 需监控重试。建议三件事：迁核心工作流到本地并搭观测面板；精准分发产品给 20 个潜在用户；线下聊天获真实反馈。

AYi@AYi_AInotes · 6月21日55

难怪今天智谱股票突突突疯长26%，刚刷到一个GLM-5.2和Fable 5的测评，同一个任务，同一句 prompt，同一张参考图， Fable 5 确实更精致，间距、质感、整体完成度，一眼就能看出差距，但 GLM-5.2 做出来的东西也不差：整体布局、3D 地球、玻璃 UI、数据面板，该有的全有了然后咱们看价格，GLM-5.2 不到 $0.10，Fable 5 差不多 $5，可以说是五十分之一的价格，九十分的效果，这场对比的性质被这两个数字改了——它已经不是谁做得更好，是当价格差拉到五十倍的时候，你做第一版设计探索的时候，先打开哪个？打个比方会更有体感，以前只有一家打印店，打一张五块，你觉得贵但只能认，现在隔壁新开了一家，打一张一毛，效果有九成，你可能不会把所有东西都搬过去，但下次打草稿的时候，你很难不去一张一毛的这家，也就是说，开源模型追的不是最强，它想要的是最强那条线下面的另一条线：够好，且便宜到可以随便用而且这条线一旦跨过去，设计探索的第一步，默认选项就不再是 Fable 了，GLM-5.2 这次就是踩到了这条线上视频来源：微信AIcodingkai

译同一任务、同一 prompt、同一参考图下，GLM-5.2（价格 <$0.10）效果接近 Fable 5（约 $5）的九成，价格仅为后者五十分之一。作为最强开源模型，GLM-5.2 体积从 1.5TB 压缩 84% 至 238GB，可在 256GB Mac 本地运行，保留 82% 能力。当开源模型跨过“够好且便宜到随便用”的线，设计探索第一步的默认选项可能从 Fable 转向 GLM-5.2。

Yuchen Jin@Yuchenj_UW · 6月21日42

Fable still isn’t back (sad). GLM-5.2, meanwhile, is getting seriously good. If Fable or GPT-5.6 can’t be released due to safety risks, and Kimi K3 or GLM-5.3 drops first, OSS LLMs may have a shot at beating publicly available closed-source models.

译Fable 仍未回归（遗憾）。与此同时，GLM-5.2 变得非常出色。如果 Fable 或 GPT-5.6 因安全风险无法发布，而 Kimi K3 或 GLM-5.3 率先推出，那么开源大语言模型或许有机会击败公开的闭源模型。

Nathan Lambert@natolambert · 6月21日45

Something I haven't advertised much is that I made a Discord to go with my RLHF book, launching in print in a few weeks. Trying to create the place for the next generation of folks trying to learn post-training to learn and have community.

译我很少宣传的一件事是，我为我的 RLHF 书籍创建了一个 Discord 社区，该书几周后即将印刷出版。旨在为想要学习后训练的下一代人提供一个学习和交流的社区。

Emad@EMostaque · 6月21日32

There will be an open source fable-level model that runs on a base MacBook mini / Air or equivalent. I don’t think people have realised this.

译将有一个开源寓言级模型，可在基础MacBook mini / Air或同等设备上运行。我认为人们还没有意识到这一点。

OpenBMB@OpenBMB · 6月20日50

Huge thanks to @aijoey for building back-office agent swarm with MiniCPM5-1B 👏 This is a fantastic real-world case of scaling small models into production-grade systems——moving beyond “model capability” into “practical multi-agent systems at scale”. We’re especially impressed by the technical setup: 🔷128 concurrent agents on DGX Spark 🔷vLLM continuous batching for serving efficiency 🔷6,604 chunks streamed across agents in just 1.48s 🔷Clear demonstration of how a 1B model can power high-throughput, multi-agent workflows in parallel Really impressive work on the back-office swarm setup and the 128-agent parallelization. Excited to see what else you build with MiniCPM in the future 🚀

译面壁智能OpenBMB感谢@aijoey用MiniCPM5-1B构建后端智能体集群。128个并发智能体在DGX Spark上运行，通过vLLM连续批处理提供服务，每个智能体独立处理发票审核、退款路由、合规检查等8种业务队列。系统在1.48秒内跨智能体流式传输6604个chunks。该案例表明，1B模型的价值在于同时做出大量有用业务决策——用一群小型廉价worker并行清理队列。