开源技术教程「Deep Agents 实战」，LangChain 官方认证大使 @zhanghaili0610 出品，他也是「LangChain 实战」「LangGraph 实战」的作者 https://github.com/datawhalechina/deepagents-in-action 教程的核心是：基于 LangChain / LangGraph 生态，面向开发者讲解如何"用好" Deep Agents 这个 Harness 框架来构建真实应用。核心思想：Agent 开发的"三层架构" 1. Runtime（运行时）：LangGraph，持久化执行、断点恢复、流式输出、人机协作 2. Framework（框架）：LangChain，模型抽象、工具接口、Agent 循环、中间件 3. Harness（套件）：Deep Agents ←本课主角，预置文件系统、任务规划、子 Agent、长期记忆技术内核：上下文工程 Deep Agents 做法：引入虚拟文件系统，让 Agent 像人类一样工作： · 需要时才 read_file 按需读取 · 中间结果 write_file 落盘 · 大文件用 offset/limit 局部读取 · 上下文里只保留当前步骤真正需要的信息 · 这个文件系统还是可插拔的——内存、本地磁盘、数据库、远程沙箱、甚至混合路由，都可作为后端。章节结构（8 章 + 2 准备篇） · 准备篇 ── AgentSeek 环境搭建、开发技能安装 · 认知篇 ── ch01 三层架构 / ch02 5分钟快速上手 · 核心篇 ── ch03 虚拟文件系统 / ch04 任务规划 / ch05 子Agent / ch06 异步子Agent · 进阶篇 ── ch07 Skills / ch08 长期记忆 · 规划中 ── Human-in-the-Loop、沙箱执行、流式前端、数据分析Agent、生产部署四个核心能力的演进脉络值得注意： · 虚拟文件系统（ch03）—— 六大工具：read_file / write_file / edit_file / ls / glob / grep · 任务规划（ch04）—— write_todos 让 Agent 拆解并追踪复杂任务 · 子 Agent 委派（ch05-06）—— task 工具派发子任务，ch06 引入异步并行 · Skills 复用（ch07）—— 遵循开放的 Agent Skills 规范，编写的 Skill 可在 Claude Code、Cursor、Codex 等 30+ 工具中通用（"Skills 之于 AI Agent，就像 npm 包之于 Node.js"）

译LangChain 官方认证大使 @zhanghaili0610 推出开源教程《Deep Agents 实战》，基于 LangChain / LangGraph 生态，讲解如何用 Deep Agents Harness 框架构建真实 Agent 应用。核心是“三层架构”：Runtime（LangGraph）、Framework（LangChain）、Harness（Deep Agents）。技术内核为上下文工程，通过虚拟文件系统实现按需读取、中间结果落盘、大文件局部读取。教程共 8 章 + 2 准备篇，覆盖虚拟文件系统（六大工具）、任务规划、子 Agent 委派（异步并行）及 Skills 复用（可在 Claude Code、Cursor 等 30+ 工具中通用）。

AYi@AYi_AInotes · 6月20日75

还得是微软会闷声发大财啊，它现在已经成为全球最大的 AI 中间商，oh no ，是最大的中转站，不仅把ChatGPT卖给中国企业，也把DeepSeek 反向卖给西方客户😁 以上来自彭博社的最新报道，绝对权威可信，看完让我意外的不仅仅是微软把 GPT 卖给中国那部分，后面那一句：微软同时在测试 DeepSeek-R1 和 DeepSeek-V4，准备把这些中国模型卖给西方客户。好家伙，左手接 GPT 卖到中国，右手接 DeepSeek 卖到西方，这他么不是一家 AI 公司在卖模型，简直就是一个跨中美 AI 模型的双向贸易网络正在成形呀

译彭博社报道，微软已成为全球最大AI模型中转站，既将ChatGPT卖给中国企业，也反向将DeepSeek模型卖给西方客户。报道称微软正在测试DeepSeek-R1和DeepSeek-V4，计划向西方客户提供这些中国模型。这一模式构建起跨中美AI模型的双向贸易网络。

Yuchen Jin@Yuchenj_UW · 6月20日30

After using GLM-5.2 for a day, I’m surprised by how often it feels close to Opus 4.8/GPT-5.5 level. I compared it side by side with Opus 4.8, and sometimes I even preferred GLM-5.2’s results. OSS LLMs are impressive, especially given how many fewer GPUs they were trained on.

译使用 GLM-5.2 一天后，我惊讶于它经常感觉接近 Opus 4.8/GPT-5.5 的水平。我将它与 Opus 4.8 进行了并排比较，有时我甚至更喜欢 GLM-5.2 的结果。开源大语言模型令人印象深刻，尤其是考虑到它们训练的 GPU 数量少得多。

meng shao@shao__meng · 6月20日47

GLM 5.2 开源发布后这两天 X 上看到很多人的称赞，特别是国外的 AI 博主们，我自己还没体验，不过直观判断上，应该不止是 PR，还是真的能打才行。想到前段时间听智谱的朋友讲述他们内部的一些问题，包括我自己注册充值 GLM 时遇到的一些草台班子的感受，再反观智谱在港股股价飙升，甩开 MiniMax、追上小米的这种气势。突然感觉，AI 模型团队，现在还远没到需要精细化运营的阶段，只要模型足够强，用户想尽办法都能把钱塞到你口袋里。更重要的还不是用户，是资方和股民们。。

译GLM 5.2 开源发布后，国外 AI 博主纷纷称赞。作者认为模型够强是关键，用户会主动付费。同时智谱港股股价飙升，已甩开 MiniMax、追上小米。在作者看来，现阶段模型团队远未到精细化运营阶段，更重要的是资方和股民。

向阳乔木@vista8 · 6月20日21

前几天去上海，发现飞机上不是在看PPT就是再写PPT。怪不得好友们的PPT skill这么火爆哈哈哈。终于想写一个自己的PPT Skill了，特色： 1. 同时生成可编辑的PPTX格式文档、PDF和HTML。 2. GPT 5.5 Pro调研的PPT写作方法论 3. 判断环境，Codex中调生图设计5-12张PPT背景，不能生图时用SVG设计渐变背景。 4.融入echart、lucide icon、Google Font，让字体和图标更丰富内置抓取，无论X帖子/长文、论文PDF，都能拿内容和图片，作为素材。希望下周能开发测试完成开源。

译Vista 计划开发 PPT 生成 Skill，核心：同时输出可编辑 PPTX、PDF、HTML；基于 GPT 5.5 Pro 方法论；按环境在 Codex 生图或 SVG 渐变背景；集成 echart、lucide icon、Google Font；内置抓取 X 帖子、长文、论文 PDF 素材。预计下周开源。

Eric@ericmitchellai · 6月20日29

tired: model training wired: model selection

译过时：模型训练流行：模型选择

Chubby♨️@kimmonismus · 6月20日45

Another exponential, the Artificial Analysis one. It is that almost the entire field is moving upward at the same time. OpenAI, Anthropic, Google, xAI, Meta, DeepSeek, Alibaba, Mistral, Kimi and others are now *clustered much closer together* than they were two years ago. h/t @ArtificialAnlys

译另一个指数级增长，来自 Artificial Analysis。几乎是整个领域都在同时向上移动。 OpenAI、Anthropic、Google、xAI、Meta、DeepSeek、Alibaba、Mistral、Kimi 等公司现在*相互之间的聚集程度*比两年前更紧密了。鸣谢 @ArtificialAnlys

AYi@AYi_AInotes · 6月20日67

个位数Star的开源小项目也能白嫖半年ChatGPT Pro，这篇帖子手把手教大家怎么申请！这是OpenAI官方的Codex for Open Source计划，低调给开源维护者发资源 6个月ChatGPT Pro，带完整Codex权限，再加专项API额度，总价值1200美元没有任何硬性Star门槛，个位数、十几星的小项目只要你是真实核心维护者，都有人通过，申请别写乞讨式文案，核心思路就四个字：资源换效率重点写清三件事 1️⃣你具体的维护工作，审PR、分Issue、管发布 2️⃣项目的真实影响力，哪怕小众也有用户在依赖 3️⃣你打算怎么用这些资源优化维护流程审核是AI加人工滚动处理，写清真实贡献和具体使用场景，通过率并不低，很多人提交后几天到几周就收到通过邮件，整个过程零成本，十分钟就能填完不试白不试链接放评论区👇

译OpenAI 正式推出 Codex for Open Source 计划，为开源项目维护者免费提供 6 个月 ChatGPT Pro（含完整 Codex 权限）及专项 API 额度，总价值 1200 美元。无硬性 Star 门槛，个位数 Star 的小项目也可申请。申请需说明具体维护工作、项目真实影响力及资源使用计划。审核采用 AI 加人工滚动处理，通过率较高，整个过程零成本，约十分钟即可完成。

Nathan Lambert@natolambert · 6月19日32

Banning open-source AI in any form would be a mistake. A general audience PSA with @kevinsxu on why open source upholds American values. Managing frontier risks is hard, but reducing transparency, innovation, and education from kneecapping the open frontier would be worse.

译禁止任何形式的开源AI将是错误。与@kevinsxu共同发布的一则面向公众的公告，阐述为何开源维护美国价值观。管理前沿风险是困难的，但通过削弱开放前沿来减少透明度、创新和教育将更糟。

SemiAnalysis@SemiAnalysis_ · 6月19日65

We are selling, DM for pricing

译Bessemer 合伙人 Adam Fisher 称，一些新云公司担心若未购买英伟达全套硬件，可能被“关进 Jensen 监狱”——即失去芯片配额。黄仁勋似乎在暗示，若不买全套就会削减配额。主推文称正在出售，有意者私信询价。

MiniMax (official)@MiniMax_AI · 6月19日36

Thanks to the @BAI_AGI team for making M3 available from day one.

译MiniMax M3 已成为 B.AI 上最受欢迎的模型，目前免费使用。感谢 @BAI_AGI 团队让 M3 从第一天起就可用。

歸藏(guizang.ai)@op7418 · 6月19日22

唐老师和马斯克关于国内开源版本的 Fable 5 级别模型会在什么时候出现的对话，看起来我们不需要等到 27 年了

译唐老师与马斯克就国内开源版本的Fable 5级别模型何时出现展开对话。马斯克认为需要较长周期，而唐老师回复“won’t take that long”，暗示时间可能早于预期。主推文据此判断，国内开源Fable 5级别模型不必等到2027年。

宝玉@dotey · 6月19日74

baoyu-design skill 更新：可以在制作 PPT、动画视频或者网站时调用 AI 生图技能配图了，当然需要你本地 Agent 有配置画图 Skill。如果是 Codex 可以直接调用内置画图工具，如果你用 Claude Code 的话可以配合 baoyu-image-gen skill 去调用 Codex CLI 画图。用它来生成 PPT 效果特别好，可以自动帮你在 PPT 合适位置插入配图，最牛的是你可以连图片一起导出为 PPTX，还可以接着用 PowerPoint 或者 Keynote 二次编辑。推荐去试试看： baoyu-design Skill：https://github.com/jimliu/baoyu-design baoyu-image-gen Skill：https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen

译baoyu-design skill 更新，支持在制作 PPT、动画视频或网站时调用 AI 生图技能配图，可配合 Codex 或 Claude Code 使用。生成 PPT 时自动在合适位置插入配图，并可导出为 PPTX 格式，支持二次编辑。此外，该 skill 可在本地生成动画视频并导出 mp4，采用声明式动画引擎 f(t)，通过无头浏览器逐帧截图经 ffmpeg 合成，确保每帧精确无掉帧。项目已在 GitHub 开源（MIT），获 1.2K star。

AYi@AYi_AInotes · 6月19日79

卧槽，阿里把内部用了多年的向量数据库直接开源了，Pinecone每月70刀的能力，它pip一行免费就能用，十亿向量毫秒级还不用单独起服务🤯 以后做RAG和AI搜索的，不用再每月给Pinecone交70美金了！阿里内部跑了多年的向量数据库开叫Zvec，一行pip install就能跑，完全免费。三个最硬核的特性， 1️⃣十亿向量毫秒级检索，不用单独起服务，直接嵌进应用进程。 2️⃣从服务器到桌面端再到树莓派，全平台通吃。 3️⃣全语言官方SDK，v0.5.0新增原生全文混合搜索，向量关键词过滤器一次查完。我觉得阿里这是把自用的生产级轮子，直接拆给全行业用了，以后AI应用的底层底座，又多了一个免费的靠谱选项啦~ pip install zvec。

译阿里开源内部向量数据库Zvec，pip install zvec免费使用，对标Pinecone每月70美元能力。支持十亿向量毫秒级检索，无需单独起服务，全平台兼容；v0.5.0新增原生全文混合搜索。UCSD黄碧薇教授（causal-learn作者）提出AI四代范式：相关性小模型→因果小模型→相关性大模型（LLM）→因果大模型，认为当前正站在第四代门口。其创立的Aether AI完成首轮融资，致力于从视频中自动抽取物理规律，探索下一代因果AI范式。

ginobefun@hongming731 · 6月19日40

BestBlogs 早报 · 06-19 # OpenAI Codex / Claude Code Artifacts / A2A 协议 / Record & Replay / FoldRun [1] ★ 精讲｜OpenAI Codex Record & Replay：演示一次，即可复用浏览器工作流 [视频] OpenAI 为 Codex 上线 Record & Replay：用户只需演示一次完整操作（如在 YouTube Studio 填写元数据、上传缩略图、保存私密视频），Codex 就能把这次录制转化为可复用技能，在新任务里自主匹配素材、填写信息、核验结果。能力覆盖电脑操作、浏览器操作和已连接插件，未来还能扩展到整理 PR、安排日程等场景——把「写提示词」换成了「做一次示范」。来源：OpenAI https://www.bestblogs.dev/video/cb0632f [2] ★ 精讲｜Claude Code 现已支持 Artifacts 渲染功能 Claude Code 上线 Artifacts 功能：会话过程能被实时转化成可分享的可视化页面——PR 走查、系统说明、仪表盘、发布清单等，且随工作推进自动更新同一链接。基于会话上下文（代码库、连接器、对话本身）直接生成，无需额外搭建数据源。团队调试场景验证最多：工程师把故障排查过程发布成时间线、可疑提交和错误曲线，站会前已迭代两次，所有人对齐同一视图。目前 Beta 阶段面向 Team/Enterprise 组织开放。来源：Claude Blog https://www.bestblogs.dev/article/71cae674 [3] ★ 精讲｜A2A 如何构建一个协作智能体的世界 Google 的智能体协作协议 A2A 满周岁：相比把智能体当 API 调用，A2A 让智能体之间发起真正的协作——保护内部「秘方」逻辑不外泄、避免单一智能体上下文被海量依赖污染、支持智能体反馈不完整请求并追问。文章以蛋白质结构预测工具 FoldRun 为例：开发者只需把任务交给 FoldRun 这个独立智能体节点，无需自建 GPU 流水线和模型生命周期管理。A2A 的 Python/Go SDK 已 1.0 GA，正拓展到电商支付、企业数据流和跨平台运维场景。来源：Google Developers Blog https://www.bestblogs.dev/article/b9c75cf5 [4] 哪条路线，才能通往「世界模型」的终局？｜对话黄碧薇：Aether AI 创始人 [播客] 黄碧薇教授深度拆解世界模型的技术现状，提出以因果 AI 为核心的第四条路线，分享了因果世界模型如何让机器人真正理解物理规律并实现举一反三，以及她从学者到创业者的心路历程。来源：十字路口 Crossing https://www.bestblogs.dev/podcast/62e0e8d [5] 你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布本文提出一套面向 Harness 工作流的可量化、可回归、闭环的评测体系，通过「出题-答题-改卷」的考试机制，解决工作流效果无法客观评估的问题。来源：腾讯技术工程 https://www.bestblogs.dev/article/0e07faec [6] 超越流水线的 CI/CD：Robert Erez 谈渐进式交付、GitOps 与前滚恢复 [视频] Robert Erez 将 CI/CD 从流水线检查清单提升为一套务实的风险管理方法，其核心包括渐进式交付、实用主义 GitOps、前滚恢复以及规范的功能开关治理。来源：The Pragmatic Engineer https://www.bestblogs.dev/video/095dc0a [7] 从开源到 Agent，从组织到个体：AIEC 大会现场侧记 [播客] 两位资深行业观察者在 AIEC 大会现场，深度复盘了 AI 领域从模型、Agent 到组织变革的核心共识与非共识，并探讨了技术洪流下个体的价值与定位。来源：屠龙之术 https://www.bestblogs.dev/podcast/2784813 [8] MosaicLeaks：你的研究智能体还能保守秘密吗？ MosaicLeaks 引入了一个基准测试和一种隐私感知的强化学习方法（PA-DR），表明深度研究智能体会通过网页查询中的马赛克效应泄露隐私信息，并且仅针对任务性能进行训练会使泄露问题更加严重。来源：Hugging Face - Blog https://www.bestblogs.dev/article/67ee7e6d [9] 智能体化程度够了吗？用自有工具对开源模型进行基准测试本文介绍了一种基准测试框架，它不仅衡量智能体是否成功完成任务，还衡量其付出的工作量，并以 `transformers` 库为例，展示了新的 CLI 和 Skill 能帮助大型开源模型，但会损害小型模型。来源：Hugging Face - Blog https://www.bestblogs.dev/article/b50a486d [10] TPU 上的 MoE 推理优化：SGLang-JAX 用 Pallas 内核砍延迟 53% 本文详细介绍了在 TPU v7x 上优化服务 Ling-2.6-1T MoE 模型的过程，重点是一种新颖的 Pallas 内核（Fused MoE V2），它将数据移动隐藏在计算之后，实现了 MoE 预填充延迟降低 53%，并在解码吞吐量上最高达到 H200 GPU 的 1.77 倍。来源：LMSYS Blog https://www.bestblogs.dev/article/8efc1b4e --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-19

译OpenAI为Codex上线Record & Replay，演示一次完整操作即可复用浏览器工作流；Claude Code支持Artifacts渲染，会话实时生成可视化页面并自动更新，Beta面向Team/Enterprise组织；Google A2A协议满周岁，Python/Go SDK已达1.0 GA，以FoldRun为例展示智能体协作。其他动态：MosaicLeaks基准测试揭示深度研究智能体隐私泄露风险；SGLang-JAX在TPU v7x上优化Ling-2.6-1T MoE模型，延迟降低53%。

Berryxia.AI@berryxia · 6月19日66

这货Browser Use又整活了，兄弟们！这下真的是给你的“Agent 长眼睛了！” 开源还免费🆓 它直接开源了个浏览器agent模板B，让任何agent都能用上真实的云端浏览器，还能实时看到它在网页上操作。这个模板叫B，基于Vercel的Eve构建。给你的agent接上Browser Use Cloud browser后，它就能真正上网浏览、点击、填写表单，而且你能通过browser-harness实时看到整个过程。 GitHub上直接clone就能用，还支持初始化skills和MCPs。以前做browser agent最麻烦的就是：要么用模拟环境看不见真实交互，要么黑箱运行出问题不知道哪里错了。现在有了这个模板，agent在网页上的每一步都可视化、可调试，还能直接连真实云浏览器。这其实把browser automation从“能用”推向了“真正好用”的阶段。 Agent不再是只在代码里模拟网页，现在能在真实网页环境里执行任务，还能被人类实时观察和干预。最关键的是它开源了模板，任何人都能基于这个快速搭建自己的browser agent。未来可能越来越多agent会默认带上一个“看得见”的浏览器，而不是纯文本交互。现在开源的生态真好啊😆

译Browser Use 开源了基于 Vercel Eve 构建的浏览器 agent 模板 B。该模板让任意 agent 接入真实云端浏览器（Browser Use Cloud），实现网页浏览、点击、填表等操作，并通过 browser-harness 实时可视化执行过程，支持调试。模板已发布在 GitHub，可直接 clone 使用，支持初始化 skills 和 MCPs。开源免费，降低了开发可观测、可干预的 browser agent 的门槛。

Berryxia.AI@berryxia · 6月19日70

Matthew Berman直接建了个Loop Library，把各种agent loop集中起来，找现成模板、提交自己的，一键就能用。这个库专门收集可直接拿来用的agent循环流程，从简单的任务自动化到复杂的多步工作流。想找现成的就去搜，想贡献自己的就直接提交。背后还有http://here.now合作托管，目标就是让大家不用每次都从零设计loop。以前做agent最费时间的就是设计循环结构：怎么退出、怎么验证、怎么处理失败。现在有了社区库，这些“基础设施”被公开化了。你可以直接拿别人验证过的loop改一改就用，或者把自己的经验贡献出去，让更多人少踩坑。这其实在把agent开发从“每次都要重新发明轮子”往“搭积木”方向推。 Loop不是孤立的prompt，将其可复用、可迭代的工作单元。把这些loop开源和社区化，相当于给agent生态建了一个公共的“流程市场”。地址见评论区👇

译Matthew Berman推出Loop Library，一个专门收集可直接复用的agent循环流程的社区库。库中收录从简单任务自动化到复杂多步工作流的各种loop模板，开发者可直接搜索使用，也可提交自己的循环。该库由http://here.now合作托管，旨在解决agent开发中循环结构设计（退出、验证、失败处理）的重复劳动，推动agent开发从“每次重新发明轮子”转向“搭积木”模式。

elvis@omarsar0 · 6月19日64

Excited to share my new agent skill. /youtube-notetaker generates Artifacts from YT videos. Captures slides, notes, transcription, and whatever you want. Open-source, and you can customize it as you please.

译很高兴分享我的新AI智能体技能。 /youtube-notetaker 可从YouTube视频生成Artifacts。捕获幻灯片、笔记、转录以及你想要的任何内容。开源，你可以按需自定义。

Yuchen Jin@Yuchenj_UW · 6月19日39

I actually see it differently. More and more companies are moving from renting closed-source LLMs to “owning model weights” with open-source LLMs and post-training. Cursor did it. OSS LLMs’ revenue could surpass Anthropic at some point.

译我其实有不同看法。越来越多公司正从租用闭源大语言模型转向通过开源大语言模型和后训练“拥有模型权重”。 Cursor 已经做到了。开源大语言模型的收入某个时候可能超过 Anthropic。

MiniMax (official)@MiniMax_AI · 6月19日40

Big thank you to everyone using @opencode who has been testing M3, breaking it, and showing us what matters. @opencode has now extended the 3x limits so everyone can keep building 🚀

译非常感谢所有使用 @opencode 测试 M3、找出问题并告诉我们什么重要的人。 @opencode 现已将 3 倍限制延长，以便大家继续构建 🚀

Chubby♨️@kimmonismus · 6月19日32

The founder of zAI, the company that released GLM-5.2, says a Mythos-class model will be released before Q1 2027. Or in other words: He believes that open source won't lag behind Frontier Labs by seven months, but will catch up. It could get really interesting!

译zAI（发布GLM-5.2的公司）创始人表示，Mythos级模型将在2027年第一季度前发布。换句话说：他相信开源不会落后前沿实验室七个月，而是会迎头赶上。这将变得非常有趣！

Ethan Mollick@emollick · 6月19日44

Is there a business model for being profitable off training frontier open weights models? Other people can host, fine-tune, consult etc. as least as cheaply as you can. There are no ancilary product sales & it is fantastically expensive to make compared to most open source work

译训练前沿开放权重模型是否存在盈利的商业模式？其他人可以像你一样廉价地托管、微调、咨询等。没有辅助产品销售，而且与大多数开源工作相比，其制作成本极其高昂。

jason@jxnlco · 6月19日51

codex for open source: more than $760K behind open source this week ~ $160K in direct maintainer funding ~ $600K committed to Rust More than 3,000 maintainers approved for six months of ChatGPT Pro with Codex!

译codex for open source: 本周为开源投入超过 76 万美元 ~ 16 万美元直接资助维护者 ~ 60 万美元承诺用于 Rust 超过 3000 名维护者获批六个月的 ChatGPT Pro（含 Codex）！

elvis@omarsar0 · 6月19日40

I think it will happen close to EOY or the beginning of next year. Not a wild guess. I have seen enough research and results to know that the gap is closing fast. And I use models like DeepSeek, GLM, Qwen, Kimi, and MiniMax more than ever now.

译我认为这会在今年年底或明年初发生。这不是瞎猜。我已经看到了足够多的研究和结果，知道差距正在快速缩小。而且我现在比以往更多地使用DeepSeek、GLM、Qwen、Kimi和MiniMax等模型。

AYi@AYi_AInotes · 6月19日52

Damn，不能看图，没有任何视觉能力，却在视觉设计的擂台上排到了第一☝️ GLM-5.2，Elo 冲到 1360，压过了已经关服的 Claude Fable 5，而且是开源权重，不存在黑箱。 Design Arena 代码类的历史最高分，一下拉高了 27 分🤯

译GLM-5.2 在 Design Arena 上取得第一，Elo 达 1360，超越已关服的 Claude Fable 5。模型为开源权重，排名上升 4 位，Elo 提升 27 分，创下代码类历史最高分。

Z.ai@Zai_org · 6月19日37

GLM-5.2 is free when used with Hugging Face Inference Providers for the next 5 hours: http://huggingface.co/zai-org/GLM-5.2?inference_provider=zai-org&language=python&client=openai&inference_api=true

译智谱推出 GLM-5.2 模型，在 Hugging Face Inference Providers 上限时免费使用，主推文称持续5小时（引用称6小时）。支持提供商包括 Zai、Together AI、Novita、Fireworks、DeepInfra。该模型可搭配 Pi、opencode、Codex、Claude Code 等编程智能体，体现开源模型已迎头赶上。

AYi@AYi_AInotes · 6月19日74

把 1.5TB 的模型剁掉 84% 的体积，塞进本地跑，还剩 82% 的功力，这就是GLM-5.2，最强开源模型，现在缩骨到了 238GB，256GB 的 Mac 或者同档 RAM/VRAM 的机器就能带起来了技术博客：http://z.ai/blog/glm-5.2 权重：http://huggingface.co/zai-org/GLM-5.2 API：https://docs.z.ai/guides/llm/glm-5.2 编码计划：http://z.ai/subscribe

译GLM-5.2 发布开源权重，MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB，可在 256GB Mac 或同档硬件本地运行，保留 82% 性能。拥有 1M 上下文窗口，编码和智能体任务显著提升。提供两种推理力度：GLM-5.2 (max) 极限推理，GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

宝玉@dotey · 6月18日18

期待早日看到 Mythos 级别的开源模型👍

译@jietang 回复 @elonmusk 和 @teortaxesTex：“不会花那么久。” 主推文期待早日看到 Mythos 级别的开源模型👍

🚨 AI News | TestingCatalog@testingcatalog · 6月18日67

EXCLUSIVE 🔥: DeepSeek was just the beginning. Microsoft is evaluating "many" open models for Copilot Cowork. > This is adding internal pressure on MAI teams, as the GLM, MiniMax, and Kimi models are evolving more quickly > Microsoft is aiming to make models "interchangeable" and separate the harness from the underlying models themselves. > As smaller models evolve, it is also possible that some of the tasks will be executed locally in the future.

译微软正评估GLM、MiniMax、Kimi等多款开源模型用于Copilot Cowork，旨在降低推理成本。据Axios报道，微软考虑托管DeepSeek V4作为更便宜选项，同时将Copilot Cowork从无限定价转为按使用量计费。微软称用户每周执行数百任务，成本可能很高。若采用DeepSeek，模型将是可选、经微调和安全防护，并完全托管在Azure上。微软推动模型“可互换”策略，未来部分任务可能移至本地执行。

meng shao@shao__meng · 6月18日63

酷！Vercel 创始人把 Vercel DESIGN.md 发出来了用咱们的 Brand to DESIGN.md Skill 就可以复刻 Vercel 的设计品味和设计元素了 https://github.com/shaom/brand-to-design-md-skill 咱们的 Brand to DESIGN.md Skill 是两步： 1. 先去访问网站，提取其中的 DESIGN.md 2. 利用 DESIGN.md 为指导生成网站现在 @rauchg 发出了 DESIGN.md，那第 1 步就跳过了，直接走第二步。

StepFun@StepFun_ai · 6月18日61

Excited to partner with @cline to bring Step 3.7 Flash to more coding agent builders. Step 3.7 Flash is now free in Cline for the next month — capable, fast, and reliable for agentic coding workflows. Try it in Cline: /model → Step 3.7 Flash Big thanks to the Cline team.

译阶跃星辰宣布与 Cline 合作，Step 3.7 Flash 未来一个月在 Cline 免费使用。该模型在 SWE Bench 上击败 Gemini 和 DeepSeek flash 模型，性能接近前沿水平。支持开源权重、256k 上下文窗口，速度快且稳定。用户可通过 Cline 中 `/model` 命令选择 Step 3.7 Flash。

OpenBMB@OpenBMB · 6月18日51

SOAR 2026 has officially wrapped up! 🎉 Hosted by @OpenBMB, @SGLang, and @NVIDIA, the challenge tasked developers worldwide with maximizing the inference performance of MiniCPM-SALA — our sparse+linear hybrid attention model — on a single consumer GPU. On June 6, we brought the SOAR 2026 community together in Beijing for our final in-person Meetup. Developers, researchers, and open-source builders from @NVIDIA, @SGLang, and @OpenBMB gathered to share hard-won lessons from the frontlines of inference optimization. From Blackwell architecture tuning to SGLang-Omni and the Densing Law, it was a powerful reminder that inference efficiency is a full-stack, cross-community effort.☺️ Huge thanks to our co-hosts @SGLang and @NVIDIA for making this possible — and to every participant who submitted, iterated, and shared. 😘 Final Metrics: 📊 326 teams registered, 370 participants 📊 4,300+ total submissions 📊 69 teams on the final leaderboard 🏆 The winning team achieved an overall 6.33x speedup over baseline — peaking at 9.72x on single-request inference. Their solution combined: 🔹 NVFP4 quantization with hybrid GEMM dispatch 🔹 FlashInfer plan-cache optimization 🔹 Custom Triton kernels for GLA layers 🔹 EAGLE-3 speculative decoding with dynamic depth switching 🔹 Runtime-aware scheduling across different concurrency levels Low-bit quantization, speculative decoding, sparse attention, and phase-aware scheduling are emerging as the core pillars of next-gen efficient inference. SOAR 2026 put that thesis to the test — and the community delivered. The leaderboard is closed, but the optimizations, code, and conversations will live on in the open-source ecosystem. 🚀 🔗 MiniCPM-SALA: http://huggingface.co/openbmb/MiniCPM-SALA

译由 OpenBMB、SGLang 和 NVIDIA 联合主办的 SOAR 2026 挑战赛结束，旨在单消费级 GPU 上最大化 MiniCPM-SALA（稀疏+线性混合注意力模型）推理性能。最终 326 支队伍注册，4300+ 次提交，69 队入围排行榜。冠军团队实现整体 6.33 倍加速，单请求推理峰值达 9.72 倍，方案结合 NVFP4 量化、FlashInfer plan-cache 优化、自定义 Triton 内核、EAGLE-3 推测解码及运行时感知调度。低比特量化、推测解码、稀疏注意力和阶段感知调度被视为下一代高效推理核心支柱。

向阳乔木@vista8 · 6月18日45

Github 开源项目的 Star 不止好看，还能换成大模型 API Token！ EvoMap 搞了个活动，只要你有开源项目就能领Token。操作很简单： ① 提交自己参与或维护的Github仓库地址 ② 验证通过，立即领取积分（Star 越多基础奖励等级越高，一个Star就能参与）另外，他们想扩大开发者生态，只需把自己的工作流、Prompt或实用工具封装成EvoMap的Gene/Capsule提交。上传Skill能获得额外的API Credits。推荐有Github项目的朋友试试，先领个基础Token，视频中是操作教程。活动地址：https://evomap.ai/api-grant?invite=EY4E9CFJ 我琢磨，要不要把最近开源的 Skill 也都改造放上去，参与下排行榜PK，哈哈哈！

译EvoMap 发起开源激励活动：拥有 GitHub 开源项目的用户可按 Star 数量领取基础 API Token（最低 1 个 Star 即可参与）。操作流程为提交仓库地址、验证通过后领取积分。此外，开发者可将工作流、Prompt 或实用工具封装为 Gene/Capsule 并提交，以获取额外 API Credits。活动地址已附教程视频。

向阳乔木@vista8 · 6月18日79

免费开源乔木画布，一键部署Vercel为网站，简化版 PS。支持Seedream生图、GPT-image-2，图片模版存储分享。支持一键抠图、2w图标和常见Emoji，甚至都能画PRD了。随时创建不同尺寸画布（3:4/16:9/21:9）。原想做些高级功能收费，庆祝端午节，现全免费开源。在线体验：https://ps.qiaomu.ai/ Github见评论区。

译乔木画布推出免费开源在线图像编辑器，可一键部署Vercel为网站，功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji，甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费，庆祝端午节现全免费开源。在线体验：https://ps.qiaomu.ai/，GitHub见评论区。

Alibaba Cloud@alibaba_cloud · 6月18日31

Disrupting GenAI Costs: Alibaba Cloud's Strategy. Takahito Naito (Managing Executive Officer, CyberAgent @CyberAgentInc) and Takeshi Kurita (Regional Manager of Japan and Korea, Alibaba Cloud) discuss the strategic utilization and future of enterprise AI models. 👉 https://xtech.nikkei.com/atcl/nxt/special/18/00001/060300084/ #AlibabaCloud #CyberAgent #CloudComputing #GenerativeAI #Qwen #AgenticCloud

译颠覆GenAI成本：阿里云的策略。日本CyberAgent董事高官Takahito Naito与阿里云日本韩国区域总经理Takeshi Kurita讨论企业AI模型的战略利用与未来。 👉 https://xtech.nikkei.com/atcl/nxt/special/18/00001/060300084/ #AlibabaCloud #CyberAgent #CloudComputing #GenerativeAI #Qwen #AgenticCloud

Alibaba Cloud@alibaba_cloud · 6月18日31

Disrupting GenAI Costs: Alibaba Cloud's Strategy. Takahito Naito (Managing Executive Officer, CyberAgent) and Takeshi Kurita (Regional Manager of Japan and Korea, Alibaba Cloud) discuss the strategic utilization and future of enterprise AI models. 👉 https://xtech.nikkei.com/atcl/nxt/special/18/00001/060300084/ #AlibabaCloud #CyberAgent #CloudComputing #GenerativeAI #Qwen #AgenticCloud

译颠覆GenAI成本：阿里云的战略。 Takahito Naito（CyberAgent董事总经理）和Takeshi Kurita（阿里云日本韩国区域经理）讨论企业AI模型的战略利用与未来。 👉 https://xtech.nikkei.com/atcl/nxt/special/18/00001/060300084/ #AlibabaCloud #CyberAgent #CloudComputing #GenerativeAI #Qwen #AgenticCloud

meng shao@shao__meng · 6月18日58

Kimi K2.7 Code 和 Claude Fable 5 生成落地页的实验对比分析 @nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 分别生成 12 个落地页，进行并排对比。实验结果发布在 OVSC 网站上，同时包含 Claude Opus 4.8 的变体生成页面，可以查看总成本、token 用量和生成时间等详细数据。实验设计 · 基础提示：使用相同提示集，涵盖 B2B SaaS、屋顶 Speakeasy 鸡尾酒吧、SQL 查询转图表开发者工具等不同类别。 · 初始结果：仅凭提示生成时，两个模型均产生明显“AI 生成感”的页面（布局通用、视觉平淡）。 · 优化策略：为 Kimi 设置自定义 Design Inspiration MCP Server，提供高质量落地页截图、UI 元素及视觉参考。由于 Kimi 支持多模态，可直接将图像纳入提示。这显著提升输出质量：层次结构更清晰、排版更优、构图更具意图性，页面加载更快、无破损占位图、易读性更好。成本对比 · 单页成本示例：B2B SaaS 落地页，Kimi 仅需 4 美分，Claude Fable 则为 1.09 美元（约 27 倍差异）。 · 平均水平：Kimi 比 Fable 约 16 倍便宜，比 Opus 约 8 倍便宜。整体实验中 Kimi 总成本降低 94%（约 16 倍节省）。 · 迭代价值：落地页开发通常需生成多版本、迭代优化。低成本允许廉价快速实验，累积优势显著（如生成 100 页可节省约 94 美元）。质量对比使用 GPT-5.5 按标准化评分表（定位、视觉方向、内容结构、工艺、响应式、技术执行等）对截图和源码打分（0-100 分）。Claude Fable 在部分案例中得分略高，但差距较小。Kimi 在设计、结构和整体页面质量上保持竞争力，尤其在提供充足视觉上下文后，性价比优势突出。关键发现 · 上下文至关重要：单纯提示难以突破通用 AI 风格；引入高质量视觉参考（MCP）能让开源模型实现质的飞跃。 · 开源模型实用性：Kimi K2.7 Code 在成本、速度和 token 效率上表现出色，结合强上下文输入后，已足以支持实际落地页工作流。迭代时优势更明显。 · 实验启示：开源模型正成为生成式编码智能体的现实选择，尤其适合需要大量变体探索的场景。

译@nutlope 让 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页并排对比。初始两者均有“AI 生成感”；为 Kimi 设置自定义 Design Inspiration MCP Server（利用多模态能力）后质量显著提升。成本上，B2B SaaS 单页 Kimi 仅 4 美分，Claude Fable 1.09 美元（约 27 倍差）；平均 Kimi 比 Fable 便宜约 16 倍、比 Opus 便宜约 8 倍，总成本降低 94%。质量由 GPT-5.5 评分（0-100），Claude Fable 略高但差距小，Kimi 性价比突出。实验表明，结合高质量视觉参考后，开源模型已足以支持实际落地页工作流，批量迭代优势显著。

ginobefun@hongming731 · 6月18日54

http://x.com/i/article/2067387524339929088 # BestBlogs 早报 · 06-18｜GLM-5.2 开源、AI 化学家、对话闫俊杰在线阅读本期早报 ## 导语智谱 GLM-5.2 今天上线并开源，凭 Solid 1M 上下文把长程编程能力拉进开源模型第一梯队；OpenAI 让 GPT-5.4 与化学实验室协作，近乎自主跑通了一个药物合成关键反应的优化；MiniMax 创始人闫俊杰则在一场访谈里谈到 M3、10X 计划、10T 模型路线图，以及他眼中智能的终局形态。三条主线问的其实是同一个问题：模型到底能不能独立把一件复杂的事情做完，而不只是给出建议——无论是软件工程里的一整个长程任务，还是真实实验室里的一轮科研协作，衡量标准都正在从"说得对"转向"做得完"。除此之外，OpenAI 2025 年财报曝光、Claude Design 品牌一致性升级、淘宝主播 Agent 的 Harness 工程实战、NVIDIA 机器人自主科研系统、A2UI 与 MCP Apps 的融合方案，以及字节跳动 AI 业务的真实账本，共同构成了今天值得关注的全景。 ## 精讲一：GLM-5.2 上线并开源：专注 Coding 与长程任务智谱今天正式上线并开源 GLM-5.2，在全球百万用户参与盲测的前端开发评估系统 Code Arena 上，拿到了全球可用模型第一的成绩。这不是一次普通的版本迭代：从 2025 年初开始，智谱几乎把全部力量投入 Coding 攻关，先有 GLM-4.5 打下代码基座，再到 GLM-4.7 成为效果最好的国产 Coding 模型，如今 GLM-5.2 把目标对准了比写代码更难的能力——长程任务，也就是连续数天、数周甚至数月不间断地推进一项工程。支撑长程任务的关键是 Solid 1M 无损上下文。此前业界的 1M 上下文方案大多在超过数百 K 之后就开始劣化，原因是只扩展上下文长度，却没有同步增强 Coding Agent 的训练环境与数据。智谱花了几个月时间专门扩展面向 1M 长度的 Coding Agent 训练环境，覆盖自动化研究、性能优化等多个领域，使 GLM-5.2 在 1M 上下文下的表现保持稳定，部分场景甚至超过 Claude Opus。在 FrontierSWE（衡量 AI 能否像软件工程师一样在数小时尺度完成复杂技术项目）上，GLM-5.2 仅比 Opus 4.8 低 1%，超过了 GPT-5.5 与 Opus 4.7；不过在考察超长自主工程能力的 SWE-Marathon 上，与 Opus 4.8 还有 13% 的差距，说明长程任务的"持久力"仍是下一阶段的重点。最直观的例子是一次实测：GLM-5.2 完成了从开发、联调、测试到打包上线的全流程，独立交付了一个覆盖 Web、移动端与小程序的多端应用，累计处理了近 88 万 tokens，几乎用满整个 1M 上下文窗口。过去这种规模的工程往往需要一支团队协作数周，现在压缩进了一次长程任务里。能力提升背后是架构、推理系统与训练基础设施的协同优化：IndexShare 让相邻稀疏注意力层复用同一个索引器，在 1M 上下文下把单位 token 的 FLOPs 降低到 2.9 倍；改进后的投机解码层把接受长度最多提升 20%。模型 Day 0 就完成了对华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯等多家国产算力平台的推理适配，并以 MIT 协议全开源、无地域限制，开发者可以自由下载、部署和商用。在主流编程基准上，GLM-5.2 同样保持开源 SOTA，与 Claude Opus 4.8 处于可比区间：Terminal-Bench 2.1（评测 AI Agent 完成各类计算机终端任务）上比 Opus 4.8 低 4%，但相比上一代 GLM-5.1 提升了 17.5%；在大规模工具调用评测 MCP-Atlas 上，与 Opus 4.8 的差距只有 0.8%。智谱在正式发布前，已经把模型提前开放给数十万 GLM Coding Plan 开发者实测，反馈集中在四点：项目级上下文承载更强，能把完整工程放进同一条推理链路；长程任务执行更稳定，复杂任务不容易跑偏；生产级工程规范遵循更可靠；客户端与移动端工程能力更扎实，能完成真机调试闭环。模型还引入了 effort level（思考档位）控制，方便开发者在能力、速度与成本之间自己取舍。智谱也把目标摆在了 GLM-5.2 之后：下一座要翻越的山是完全自治的智能体系统，让 AI 能够自主驱动、协同作业、7×24 小时运转，团队称之为从"智能助手"走向"数字员工"的转变，但 Memory、持续学习、自我评判等核心技术还需要继续攻关。这条新闻和今天另外两条深读放在一起看会更清楚：当 GLM-5.2 在用长上下文死磕"能不能把一整个工程独立跑完"，OpenAI 的 AI 化学家在用真实实验室验证"能不能独立把一项科研任务跑完"，闫俊杰在访谈里谈的则是"模型变强之后，行业要往哪走"。如果你关心国产大模型在长程任务上的真实进度，这条值得通读全文，尤其是关于 1M 上下文训练方法和 SWE-Marathon 差距的部分。详见：GLM-5.2 上线并开源：专注 Coding 与长程任务。 ## 精讲二：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应 OpenAI 这次把 GPT-5.4 接入了 Molecule.one 旗下的智能化学 AI Maria，以及与之配套的高通量实验室，给了它一个开放式目标：改进药物合成中常用的几类关键反应之一。系统自己提出研究方案、设计并执行实验、分析数据，再提出下一轮实验建议；人类化学家的角色是设计引导与评分提示、挑选要测试的方案、对实验计划做有限修正，并独立验证最终结果——OpenAI 把这种模式称为"近乎自主"，而不是"完全自主"。最有价值的方案聚焦在 Chan-Lam 偶联反应的一个高难度版本上，这是化学家用来构建碳氮键的常用反应。GPT-5.4 从"改进 Chan-Lam 偶联反应"这个开放目标出发，自己识别出原代磺胺类底物是一类难度高但价值大的反应对象，并提出用 TEMPO 等温和氧化剂来提升反应表现。在 Maria 实验室的两轮实验中，这个想法被验证有效：优化条件下，88% 的硼酸底物和 83% 的磺胺底物产率都有提升，平均产率从 16.6% 升至 25.2%，产率超过 30% 的反应占比从 15.6% 提高到 37.5%。这一轮实验总共跑了 10080 次反应，相当于一名化学家每天做三个实验、连续十年才能积累的实验量。更关键的是，这个结果没有止步于微升级实验室的筛选数据。人类化学家随后在台架规模上重复了具有代表性的反应，结果证实了微升级实验的结论：14 组底物对中有 11 组产率提升，大多数还翻了一倍以上。这一点很重要，因为药物化学家需要的是能在真实实验室工作流程中复现的反应，而不只是在微升筛选里好看的数字。磺胺基团出现在抗癌药、抗菌药、利尿剂等多个治疗领域的药物里，但原代磺胺与硼酸的 Chan-Lam 偶联历史上产率一直偏低，这次的改进有机会让药物化学家获得一条更可靠、更实用的分子合成路径。这次合作也延续了 OpenAI 在科学领域的一条长期主线：此前模型已经在数学（单位距离问题的反例）、理论物理（胶子振幅的新结果）和生物学（GPT-5 帮助降低无细胞蛋白合成成本）上贡献过具体成果，OpenAI 还推出过专门面向生命科学研究与药物发现流程的模型 GPT-Rosalind。这次和 Molecule.one 的合作把这条主线延伸到了药物化学这个特别依赖实验验证、而不能只靠推理的领域——一个假设必须真的在分子、仪器和实验噪声构成的真实世界里站得住才算数。整个项目历时三个月，期间四位外部化学专家审阅了描述这一结果的预印本，认为结论新颖、值得与科学界分享，同时也指出更强的检验将来自后续在更大规模合成中的复现。OpenAI 也坦言这只是一个早期结果，但它为"AI 能不能成为科研全流程的真正合作者"提供了一个具体例证。把这条新闻和精讲一放在一起读会有意思的对照：GLM-5.2 验证的是模型在软件工程领域的长程自主能力，AI 化学家验证的则是模型在物理世界、需要真实实验验证的科研场景里的自主能力——后者更难，因为假设必须在分子、仪器和实验噪声构成的真实世界里站得住。如果你对 AI 与科学发现的结合感兴趣，这篇值得细看实验规模与产率数据部分。详见：近乎自主的 AI 化学家改进药物化学中的一项挑战性反应。 ## 精讲三：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局上周六的 MiniMax Dev Meetup 上，创始人兼 CEO 闫俊杰（IO）参加了一场圆桌对话，同台的还有 Multica 创始人张佳圆、DeerFlow 核心负责人何涛，以及一家上市金融公司的技术负责人虞扬。这篇文章是现场对话的完整实录，信息密度很高，但最值得抓住的是闫俊杰关于模型路线和智能终局的几段判断。谈到从 M1 到 M3 的进展，闫俊杰用通用消耗量作为客观指标回顾：M1 效果其实不够好，但团队在那时第一次跑通强化学习，体验到了"后背发凉"的震撼；M2 原计划做到日消耗一亿 token 就满意，结果在 M2.7 跑出了超出预期 10 倍的消耗量。到了 M3，目标更激进——让用户可以无限制、不计成本地用上 Sonnet 和 Opus 级别的模型，闫俊杰说团队"现在已经非常接近这个临界点了"。一旦达成，叠加行业大盘的增长，通用消耗量会进入一个全新量级。他也坦言 M2 阶段两个没达预期的目标：多模态没做成、模型没能在编程场景里直接充当主引擎；但 M2 后来意外地在 OpenClaw 等各种 Agent 生态里找到了自己的位置，这也是闫俊杰反复强调"行业生态比单点能力更重要"的一个例证。座谈中提到的上月启动的 10X 计划，邀请网络安全、金融、法律等垂直领域专家深度参与模型打磨，目的是让模型能力真正贴合专业场景的实际需求，而不是停留在通用对话层面。再往后看，闫俊杰提到下一步要攻克 10T 参数规模的模型——他直言国内模型的规模比美国同类模型小一个数量级，需要先把 3T 规模做实，再向 10T 迈进，而最大的卡点不是物理瓶颈，是工程积累。这与精讲一里 GLM-5.2 强调的"训练基础设施协同优化"形成呼应：扩规模和提升长程任务能力，本质上都在比拼同一类工程硬功夫。同台嘉宾的发言也很有参考价值。Multica 创始人张佳圆谈到，团队不再寄希望于单一模型的完美，而是尝试设计一个系统，把不同模型、不同 Agent 的能力聚合起来，比如让 M3 做 Coding，同时引入 Opus 或 GPT 这类模型做 Review 或当"导师"，在 token 消耗和产出质量之间找平衡——这其实和今天补充阅读里 OpenRouter Fusion 的多模型合议思路是同一个方向。DeerFlow 核心负责人何涛分享了开源项目如何用中国模型把 Deep Research 这类原本昂贵的能力价格打下来，目前已有超过 1000 名贡献者参与。金融公司技术负责人虞扬则谈到，AI 在金融场景里真正的价值不只是帮用户过滤信息，更要降低专业理解的门槛——不仅要告诉用户一个指标是多少，还要告诉用户这个数字对其投资决策意味着什么。对智能的终局，闫俊杰的判断是端到端交付结果，而不是给出建议——让模型直接修复漏洞、直接做出金融决策，这与精讲二里 AI 化学家"近乎自主"地跑完一整轮研究流程，方向是一致的。如果你只有时间挑一段精读，建议读到闫俊杰谈 M3 临界点和 10T 模型卡点的部分。详见：对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局。 ## 速览独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元。Ed Zitron 拿到了 OpenAI 2024 与 2025 年的审计财报，披露 2025 年收入为 130.7 亿美元，成本却高达 340 亿美元，其中 8.67 亿美元来自软银投资、3.03 亿美元来自微软。这组数字第一次把 OpenAI 真实的盈亏结构摆在公开视野里，和今天关于字节 AI 账本的报道放在一起看，能感受到整个行业在算力成本和商业化之间的紧张关系。详见：独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元。 Claude Design 日常工作中更稳定地保持品牌一致性。Claude Design 现在能跟项目里的设计系统保持一致，可以从 GitHub 仓库、设计文件或原始上传中导入一个或多个设计系统，与 Claude Code 之间的协作也更顺畅，支持直接在画布上编辑，并新增了管理员角色来锁定团队设计规范，方便大团队统一品牌标准。官方数据显示上线第一周就有超过一百万人使用 Claude Design，这次更新主要是把早期反馈转化为更稳的日常使用体验。详见：Claude Design 日常工作中更稳定地保持品牌一致性。更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战。文章系统拆解了在直播这种高压力场景下，如何用执行循环、工具注册、上下文管理、状态存储、生命周期钩子和评估接口这六个维度，把不确定的模型能力工程化成一个真正可用、可控、能持续演化的生产系统。直播场景的特殊之处在于操作即时生效且面向公众、主播注意力极度稀缺、多话题高频交织、会话动辄持续数小时还要支持中断后精确续连，这让 Harness 工程的要求比"个人助手"形态严苛得多。文章还提出框架层与业务层要划清责任边界：业务方只需要以 Skill 的形式声明能力和风险等级，剩下的安全防护、状态持久化、可观测性全部由框架兜底，是一篇少见的来自真实高压业务场景的工程实践总结。详见：更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战。 NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验。由 Jim Fan 联合领导的 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 推出 ENPIRE 系统，首次在物理世界里实现了 AI 自主科研的完整闭环：一组 AI 编程 Agent 自主管理机器人集群、GPU 资源和 token 预算，自动完成环境搭建、策略改进、真实机器人实验和失败分析迭代，人类只需要看报告。项目测试了 OpenAI Codex、Anthropic Claude Code 和月之暗面 Kimi Code 三款 Agent，并发现了"物理 scaling law"：8 台机器人并行探索的效率明显高于 1 台或 4 台。详见：NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验。 A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践。来自 Google Developers Blog 的文章提出三种架构模式，把 A2UI 的声明式原生渲染界面和 MCP Apps 基于 iframe 的自定义界面结合起来，试图同时拿到安全性、性能与视觉一致性。文章详细给出了实现指南和示例代码，是目前少见的把两套智能体 UI 范式系统对比并融合的实践方案。详见：A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践。当你的 AI 智能体扩展互相争斗时。这是 Microsoft for Developers 一个系列的第四篇，讨论一个容易被忽视的问题：单独测试时表现良好的 AI 编程智能体扩展，装在一起之后反而会让整体效果变差，因为扩展之间会争夺上下文窗口空间和模型注意力，引发语义冲突或资源竞争。文章提供了一套衡量和缓解这类组合问题的实用框架，对正在开发或维护多个 Agent 扩展的团队很有参考价值。详见：当你的 AI 智能体扩展互相争斗时。字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70%。《晚点 LatePost》独家披露字节跳动 AI 业务的真实财务数据：日活超 2 亿的豆包每天收入不足百万元，主要靠电商佣金，但豆包应用每天消耗的算力成本已达数千万元，仅维持豆包正常运行的花费就超过了整个 Bilibili 的经营成本。相比之下，视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%，单月收入超 10 亿元，几乎抵消了豆包的算力成本。文章透露字节高层两个月前到访 Anthropic 后，开始把 AI 资源重心从豆包这类大众产品转向服务企业的产品，大模型数据审核团队今年也从约 1500 人扩到 3000 多人，专门为编程模型清洗训练数据。详见：字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70%。 ## 补充阅读面向 Skills 编程：淘宝企业购端对端研发提效实践——提出把领域知识、工作流和约束规则封装成可版本化的 Skills 单元，让 LLM 在确定性框架内生成代码，实测交付周期缩短 65%。适合关注企业级 Agent 工程化落地的读者。详见：面向 Skills 编程-淘宝企业购端对端研发提效实践。 OpenRouter Fusion：从模型路由到复合智能栈——分析 OpenRouter Fusion 如何把多模型合议封装成 API 原语：同一个问题并行发送给一组模型面板，每个模型独立分析，再由 judge 模型产出共识、分歧、覆盖盲区等结构化审议结果，外层模型基于这份报告写出最终答案。这标志着 LLM 应用架构从单模型调用走向复合推理编排，核心价值不是更便宜地调用最强模型，而是用额外的推理时计算换取更高质量和更强的分歧诊断能力。适合关心多模型协同架构设计的读者，也可以和精讲三里张佳圆谈到的多模型系统拟合实践对照着读。详见：OpenRouter Fusion：从模型路由到复合智能栈。大疆还能低空飞多久？——深度拆解大疆如何靠无人机和云台相机两大品类定义实现年利润超 200 亿，从产品矩阵、第二增长曲线、全球化能力和组织风险几个角度分析它在地缘政治、新品类拓展和人才流失上面临的挑战。适合关注中国硬件出海与品类竞争的读者。详见：大疆还能低空飞多久？。 Cursor，为什么上了马斯克的飞船？——报道 SpaceX 以 600 亿美元全股票交易收购 AI 编程公司 Cursor 母公司 Anysphere，梳理交易背景、Cursor 的创业历程及其与 Anthropic 的竞合关系。适合关注 AI 编程赛道格局变化的读者。详见：Cursor，为什么上了马斯克的飞船？。 ## 今日阅读路径如果今天时间有限，建议按这个顺序读：第一，精讲一的 GLM-5.2，了解开源模型在长程编程任务上能做到什么程度，重点看 1M 上下文的训练方法和实测中独立交付多端应用的例子；第二，精讲三对话闫俊杰，理解头部大模型公司怎么看待规模、生态与智能终局，重点看 M3 临界点、10X 计划和 10T 模型卡点这几段判断；第三，精讲二的 AI 化学家，看看自主智能从代码世界延伸到真实实验室之后是什么样子，重点看产率数据和台架验证部分。三篇连起来读，正好是今天"模型能不能独立把事情做完"这条主线在软件工程、行业生态、科学发现三个领域的不同切片。如果还有余力，再补两篇：一篇是字节跳动的 AI 账本，从商业化的角度回看这条主线背后的真实代价——豆包的算力成本有多高、Seedance 的企业服务有多赚钱；另一篇是淘宝主播 Agent 的 Harness 工程实战，从工程落地的角度看一个真实高压场景里，模型能力是怎样被一步步约束成可控、可观测的生产系统的。这五篇加在一起，基本能拼出今天 AI 行业从模型能力、行业生态、商业化到工程落地的完整链路。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。它帮你判断什么值得读、协助你读懂，并逐渐理解你关注什么。

译智谱开源 GLM-5.2，Code Arena 全球可用模型第一，Solid 1M 无损上下文，FrontierSWE 仅比 Claude Opus 4.8 低 1%。OpenAI 将 GPT-5.4 接入智能化学 AI Maria，近乎自主优化 Chan-Lam 偶联反应，平均产率从 16.6% 升至 25.2%。MiniMax 创始人闫俊杰称 M2.7 消耗量超预期 10 倍，M3 目标让用户无限使用 Sonnet/Opus 级别模型。

ginobefun@hongming731 · 6月18日47

BestBlogs 早报 · 06-18 # GLM-5.2 / 智谱开源 / AI 化学家 / MiniMax 闫俊杰 / Chan-Lam 偶联反应 [1] ★ 精讲｜GLM-5.2 上线并开源：专注 Coding 与长程任务今天智谱上线并开源 GLM-5.2，在百万用户参与的 Code Arena 前端开发盲测中拿下全球可用模型第一。核心是 Solid 1M 无损上下文撑起长程任务：FrontierSWE 仅比 Opus 4.8 低 1%，超过 GPT-5.5 与 Opus 4.7；实测中模型用满近 88 万 tokens，一次性自主交付了一个覆盖 Web、移动端与小程序的多端应用。配合 IndexShare 稀疏注意力与改进投机解码，单位 token 的 FLOPs 降低至 2.9 倍。模型 Day 0 适配多家国产芯片，采用 MIT 协议全开源，无地域限制。来源：智谱 https://www.bestblogs.dev/article/3b64e7b6 [2] ★ 精讲｜近乎自主的 AI 化学家改进药物化学中的一项挑战性反应 OpenAI 将 GPT-5.4 接入 http://Molecule.one 的智能化学 AI Maria 及其高通量实验室，让其自主提出研究方案、设计并分析实验。系统聚焦改善药物合成常用的 Chan-Lam 偶联反应，提出用 TEMPO 等温和氧化剂提升一类历史上低产率的磺胺底物反应。两轮共完成 10080 次实验，平均产率从 16.6% 升至 25.2%，台架验证 14 组底物中 11 组产率提升、多数翻倍以上。全程三个月，化学家全程把关方案与实验，OpenAI 称这是近乎自主而非完全自主的科研协作范式。来源：OpenAI News https://www.bestblogs.dev/article/54116bca [3] ★ 精讲｜对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局 MiniMax 创始人闫俊杰透露：M3 目标是让用户无限制、不计成本地用上 Sonnet/Opus 级别模型，已逼近临界点；上月启动的 10X 计划邀请网络安全、金融、法律等垂直专家深度合作；下一步要攻克 10T 参数模型——国内模型规模比美国小一个数量级，需先做实 3T 再迈向 10T，最大卡点是工程积累而非物理瓶颈。他认为智能的终局是端到端交付结果：让模型直接修复漏洞、做出金融决策。来源：十字路口 Crossing https://www.bestblogs.dev/article/ed61bb66 [4] Claude Design 日常工作中更稳定地保持品牌一致性 | Claude Claude Design 现已集成你的设计系统、与 Claude Code 同步、支持直接画布编辑，并连接更多外部工具，使其在日常专业使用中更加稳定。来源：Claude Blog https://www.bestblogs.dev/article/adc8d33b [5] 更可靠的主播助理：淘宝主播 Agent 的 Harness 工程实战本文以淘宝主播 Agent 为例，系统阐述在直播高压力场景下，如何通过 Harness 工程（执行循环、工具注册、上下文管理、状态存储、生命周期钩子、评估接口）将不确定的模型能力工程化为可用、可控、可演化的生产系统。来源：阿里云开发者 https://www.bestblogs.dev/article/e75081f9 [6] NVIDIA GEAR 实验室发布 ENPIRE：AI 编程 Agent 自主操控真实机器人做实验 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布了 ENPIRE 系统，首次让 AI 编程 agent 在真实物理世界中自主完成机器人实验的全流程，包括环境搭建、策略改进、实验执行和代码迭代，人类只需查看报告。来源：宝玉(@dotey) https://www.bestblogs.dev/status/2067027033431875699 [7] A2UI + MCP Apps：融合声明式与自定义智能体 UI 的最佳实践本文来自 Google Developers Blog，提出了三种架构模式，将 A2UI 声明式、原生渲染的 UI 与 MCP Apps 基于 iframe 的自定义界面相结合，以构建安全、高性能且视觉一致的智能体 UI。来源：Google Developers Blog https://www.bestblogs.dev/article/e52759ce [8] 当你的 AI 智能体扩展互相争斗时本文解释了 AI 编程智能体扩展如何争夺上下文窗口空间和模型注意力，从而引发冲突并降低输出质量，同时提供了一个衡量和缓解这些组合问题的框架。来源：Microsoft for Developers https://www.bestblogs.dev/article/c36b8ce8 [9] 独家：OpenAI 2025 年财报显示收入 130 亿美元，成本 340 亿美元 Ed Zitron 独家报道，OpenAI 2025 年的审计财报显示收入为 130.7 亿美元，成本为 340 亿美元，其中 8.67 亿美元来自软银，3.03 亿美元来自微软。来源：Ed Zitron(@edzitron) https://www.bestblogs.dev/status/2066732330954478008 [10] 字节跳动的 AI 账本：豆包每天不足百万收入、Seedance 毛利 70% 本文独家披露字节跳动 AI 业务财务数据：豆包日活超 2 亿但日收入不足百万，而视频生成模型 Seedance 年化收入已达 20 亿美元、毛利率 70%，揭示 AI 商业化从 C 端免费转向 B 端付费的战略调整。来源：晚点 LatePost https://www.bestblogs.dev/article/84815714 --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你建立稳定、可信、个性化的高质量信息输入。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-18

译智谱开源GLM-5.2，Code Arena盲测全球可用模型第一，专注Coding与长程任务，支持百万token无损上下文，单位token FLOPs降至2.9倍，MIT协议全开源。OpenAI将GPT-5.4接入Molecule.one自主改进Chan-Lam偶联反应，两轮10080次实验后平均产率从16.6%升至25.2%，14组底物中11组提升。MiniMax闫俊杰称M3目标无限制用Sonnet/Opus级别模型，计划攻克10T参数模型。

SemiAnalysis@SemiAnalysis_ · 6月18日60

Great work to @vllm_project team and @NVIDIA on smooth, out-of-the-box day 0 @MiniMax_AI M3 experience with @inferact EAGLE3 spec decode. Here are the details of ongoing M3 workstream: NVIDIA, Inferact and SemiAnalysis are working hard on enabling disaggregated inferencing (PR 45879), and the Inferact team is working on enabling FlashInfer M3 MoE kernels (PR 45723). Performance should be much better once those PRs land. Huge shoutout to @rogerw0108 & @mgoin_ and the maintainers for the rapid review and mentorship here!

译vLLM 团队与 NVIDIA 合作，为 MiniMax M3 模型提供开箱即用的 day 0 体验，并集成 Inferact 的 EAGLE3 推测解码。当前工作包括：NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理（PR 45879），Inferact 团队启用 FlashInfer M3 MoE 内核（PR 45723），落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量，并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等，性能有望进一步提升。