5月26日

11:58

Ethan Mollick@emollick

据我所知，我们目前没有好的测试方法来评估自2025年12月出现的自主编码工具对生产力的影响。现有的所有论文都早于 Claude Code/Codex 革命。我们对编码领域正在发生的事情存在巨大的知识空白。

智能体现象/趋势编码

11:30

公众号：昆仑万维（天工）

天工AI发布SkyClaw-v1.0：面向真实工作流的百万上下文Agent模型

天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite，支持百万token上下文，深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6，在OpenClaw任务上接近更大规模模型，定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化，适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork，开放2至4周免费试用，并提供兼容OpenAI格式的免费API调用。

智能体模型发布编码

11:11

IT之家（RSS）

谷歌回应 Antigravity 用户额度抱怨：重置配额，推出 Gemini 3.5 Flash（Low）

谷歌针对Antigravity用户抱怨额度消耗过快，推出了新模型Gemini 3.5 Flash（Low）。该版本通过调整推理投入强度，处理简单任务时的token消耗比Medium版本减少约45%。同时，谷歌重置了所有免费和付费Gemini计划的配额。

Google 产品更新编码

10:57

meng shao@shao__meng

AI工具提升效率后团队遭裁员，工程师分享真实经历

一位工程师分享称，其团队每人每月获1000美元Cursor token预算，使用后AI提效显著。两个月后，老板因效率提升决定将20人团队缩减至5-6人，导致十余人被裁。

现象/趋势编码

09:58

Hacker News 热门（buzzing.cc 中文翻译）

利用人工智能写出更优质的代码，尽管速度会变慢

本文讨论了在使用人工智能辅助编程时存在的一种权衡关系。主要观点是，采用人工智能工具来生成或辅助编写代码，其核心目标在于产出质量更高、更可靠的代码。然而，这一过程可能会以牺牲开发速度为代价，使得编码的整体进程相对变慢。这揭示了在追求代码质量与开发效率之间的一种潜在平衡。

大佬观点编码

09:48

karminski-牙医@karminski3

智谱GLM-5.1-highspeed发布，实时语音编程响应仅需3秒

智谱发布了推理速度极快的GLM-5.1-highspeed版本。测试者发现其生成代码的速度已超过人类打字速度，因此构建了一个语音转文本的编程交互场景。从用户说完语音指令到代码修改完成、页面渲染，整个链路（包括语音识别、模型判断并发与prefill、tool call修改代码）耗时约3秒。这种量级的速度提升带来了全新的实时交互可能性。该模型目前正向部分企业用户提供内测。

编码评测/基准语音

09:31

ginobefun@hongming731

BestBlogs 早报：Claude Code 实践、AI 自动化悖论、百川医疗 AI

Anthropic 工程师 Ara 分享内部使用 Claude Code 的三项核心实践：将规格说明升级为 HTML 以提升结构密度；让模型通过 ask_user_question 工具主动采访需求；采用智能体原生 DOM 验证框架，实现人工、Opus 4.7 无头浏览器及 CI/CD 的统一验证。Every 公司 CEO Dan Shipper 用团队一年内从 15 人扩张至近 30 人的数据，反驳 AI 会大规模裁员的叙事，认为自动化反而催生需求增长与质量管控需求。百川智能创始人王小川透露，公司已收缩通用模型与金融等业务线，All in 医疗大模型，并即将发布新医疗大模型 M4。

智能体 Anthropic 现象/趋势编码

09:31

ginobefun@hongming731

#BestBlogs 早报 2026-05-26

推文从Anthropic工程师、Every公司CEO和百川创始人三个案例，探讨了AI智能体对工程实践与组织形态的影响。Anthropic分享了使用Claude Code的具体范式，如用HTML替代Markdown、让模型主持需求采访。Every公司CEO用团队从15人扩至近30人的数据，质疑AI导致裁员的观点。百川创始人则选择让公司专注医疗AI这一垂直方向。

智能体 Anthropic 现象/趋势编码

09:11

IT之家（RSS）

托瓦兹再发飙：AI 干扰 Linux 内核节奏，撑大 RC5 体量

大佬观点开源生态编码

08:53

meng shao@shao__meng

poteto的Cursor实践：验证是自动化的核心瓶颈

原重度Claude Code用户poteto转向Cursor，基于多模型协同更自然、上下文压缩速度更快、GUI更利于agentic coding等观察。她认为AI智能体像“失忆且智商不在线但可教的新员工”，其失败模式是教学机会。关键洞察是验证才是瓶颈，盲目并行多个智能体只是在加速生产低质量代码。她开源了技能集pstack，其核心元技能/poteto-mode可根据任务自动选择工作流，旨在封装工程严谨度以提升对智能体的信任。最终论点是：自动化边界取决于对智能体端到端处理能力（尤其是验证环节）的信任程度。

lauren: http://x.com/i/article/2057201109002059776

智能体 GitHub 大佬观点编码

08:00

HuggingFace Daily Papers（社区热门论文）

RAMP：生产系统中智能体模型的运行时评估基础设施

RAMP是一个基于YatCC平台的生产级运行时评估基础设施，用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构，引入含串行依赖和复杂工具链交互的编译器构造工作负载，结合分阶段恢复机制分析局部失败下的执行行为，并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示，传统静态基准无法发现的能力退化：串行工作流中任务完成率从初始阶段100%下降至最终阶段20%，且无一模型完成整个流水线；计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Verus-SpecGym：一个用于评估规格自动形式化的智能体环境

该研究引入了Verus-SpecBench基准测试集，包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务，以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制，并使用官方测试用例和对抗性用例进行评测。结果显示，最强模型Gemini 3.1 Pro解决了77.8%的任务，其他前沿模型解决率为51.1%-57.8%，开源模型仅为21.5%-25.5%。分析发现，LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及，但仍显脆弱。

智能体编码论文/研究

07:40

Orange AI@oran_ge

AI 让软件开发的第一版变得极其容易但是真正难的是后面的100个版本而且越到后面越难怎么回事…. 软件工程依然有很多事情要做

大佬观点现象/趋势编码

07:11

IT之家（RSS）

精选74

OpenAI GPT-5.6 模型曝下月发布：AI 上下文 150 万 tokens

多名开发者在 OpenAI Codex 后端日志中发现未官宣的 GPT-5.6 模型，内部代号 iris-alpha。该模型将支持 150 万 token 的上下文窗口，较当前 GPT-5.5 的 105 万 token 提升约 43%，有望于今年 6 月发布。测试显示，在输入达到 90 万 token 时仍能流畅响应。同系列还发现了 ember-alpha 与 beacon-alpha 版本。此外，GPT-5.6 在前端界面生成能力上也有所提升。基于爆料信息，Anthropic Claude、Google Gemini 及 xAI Grok 也可能瞄准同期发布新模型。

OpenAI 模型发布编码

推荐理由：开发者从后端日志扒出 GPT-5.6，150 万上下文是真香，直接生成商用级前端界面更让人眼馋，这代模型值得等。

06:48

swyx@swyx

作者认为AI开发中的厂商锁定概念并不牢固

推文指出，AI开发中的“厂商锁定”概念并不牢固。作者因不满首个选择的错误信息，在不到30分钟内就完全迁移了一个全栈AI应用，该应用包含流式、队列、竞技模式及媒体生成等语义。作者引用并回应了realGeorgeHotz关于“需要世界模型以实现全保真度”的观点，认为在实践中，可以通过“随心构建”可拆解的完整项目，并利用技能和审查来引导大语言模型，就能在无需更多额外努力的情况下高效地进行平行开发，成果显著。

智能体大佬观点编码

05:22

Elon Musk@elonmusk

Grok Build 仍处于测试阶段，预计还需一个月左右，但已能胜任生产任务。

Andrew Milich: Try it out! Favorite features: - <1 second web/X search - Editing and creating assets with Imagine - Great subagent/work...

智能体 xAI 产品更新编码

04:58

Rohan Paul@rohanpaul_ai

AI智能体以代码为主要工作层时性能更佳

Meta、斯坦福与伊利诺伊的研究论文指出，AI智能体在将代码作为主要工作层时性能更佳。论文认为，大语言模型（LLM）作为文本预测器，在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”，而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”，即工具、记忆、沙箱等系统。在此框架中，测试成为传感器，代码库成为记忆，日志成为历史，沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现，代码能通过可执行步骤帮助智能体推理，通过工具调用行动，并通过测试、日志等对环境进行建模。

智能体 arXiv Meta 编码

04:52

小互@xiaohu

xAI 推出 CLI 工具 Grok Build 开启测试，对标 Claude Code 与 Codex

xAI 正式推出命令行工具 Grok Build 并开启测试，直接对标 Claude Code 和 Codex。该工具面向 SuperGrok 和 X Premium+ 订阅用户开放，核心功能包括提供 Plan 与 Always-approve 模式、支持代码读写调试、子 Agent 并行处理复杂任务，以及完整的会话管理。此外，它通过 MCP 集成外部工具，支持自定义技能与插件，并具备多模态能力，可通过命令生成图片与视频。用户可通过指定命令安装启动。

智能体 MCP/工具 xAI 产品更新

03:28

Rohan Paul@rohanpaul_ai

Grok Build Beta 向更多用户开放

xAI的终端编程智能体Grok Build现已以Beta版向所有SuperGrok和X Premium+用户开放，此前仅限SuperGrok Heavy用户。用户通过单条命令一键安装，即可用自然语言指令（如“制作一个过山车模拟器”）驱动其工作。Grok Build支持规划模式（创建步骤供用户审核）、并行子智能体处理复杂任务、多文件编辑、使用git、运行测试、搜索网页，并能直接调用Imagine生成图片和视频。此外，它支持构建自动化流程或完整编排器，并可将会话转化为可复用的“技能”。

xAI: Grok Build is now available in Beta for all SuperGrok and X Premium+ users. Use Plan Mode, create images and videos with...

智能体产品更新编码

03:20

Emad@EMostaque

xAI的Grok基础模型V9-Medium（1.5T参数）已完成训练，评测结果良好。在补充训练中加入了大量Cursor数据。该模型即将开始微调，几天后启动强化学习，预计2至3周后向公众发布。这将是相较于目前服务所有Grok生产流量的0.5T参数v8-small模型的重大改进，尤其在复杂编码任务上。有人推测其后训练可能使用了类似Cursor调整Kimi时远超预训练的计算量。

Elon Musk: Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...

xAI 模型发布编码

02:40

DogeDesigner@cb_doge

xAI发布Grok Build Beta编程智能体

xAI为SuperGrok和𝕏 Premium+用户发布了Grok Build Beta。这是一款强大的编程智能体与CLI工具，专为复杂的软件工程任务设计。它能从终端完成规划、构建、测试和部署全流程，支持在编码前制定结构化计划，并使用子代理并行执行研究、测试和代码审查。该工具允许将工作流转化为可复用的技能和斜杠命令，可连接Linear、Sentry、Grafana等MCP服务器。Grok Build Beta还具备跨会话持久化决策和上下文的记忆能力，支持以无头模式在CI/CD管道中运行，并能在沙盒环境中执行代码。

智能体 MCP/工具 xAI 产品更新

01:54

elvis@omarsar0

/goal 真的太强了！这是目前能从编程智能体中获得最大收益的方法。为了效率，我发现最好在 /goal 之前先做规划。这能确保智能体拥有正确的上下文和目标，而这通常只有通过仔细规划才能实现。

智能体教程/实践编码

01:20

Berryxia.AI@berryxia

在Coding的过程中发现Claude的原则和底线和分明，"正义感"十足，非常有"人性"。相反Claude不给你干的活，GPT默认就是可以干的活。都不会吱声~，只会默默干活~

Anthropic OpenAI 大佬观点编码

5月25日

23:23

向阳乔木@vista8

Codex一键部署umami统计，实现口喷建站

用户通过Codex在VPS上自部署了umami统计工具，可为网站添加无限量流量监控。相比官方版有限制，自部署方案支持对任意网站通过指令快速启用统计功能。整个过程包括网站搭建、域名配置及数据统计均可由Codex通过SSH自动化完成，体现了“口喷建站”的便捷性。

OpenAI 教程/实践编码部署/工程

22:10

Orange AI@oran_ge

TypeNo v1.4.0 发布，集成流式预览

TypeNo 发布 v1.4.0。开发者使用 Cola Code 维护项目，核心更新为流式实时预览功能，并重新设计了 overlay 界面。本次修复了录音间歇性空文件、overlay 抢占键盘焦点、以及 Coli 模型下载状态检测误报等 bug。文档补充了卸载说明，澄清了 CLI 安装与模型下载为两阶段。 GitHub 发布链接：https://github.com/marswaveai/TypeNo/releases/tag/v1.4.0

产品更新编码语音

21:08

🚨 AI News | TestingCatalog@testingcatalog

Antigravity平台新增Gemini 3.5 Flash （Low）选项，其token消耗相比Gemini 3.5 Flash （Medium）版本减少约45%。据内部测试，该新选项在SWE任务上的表现通常优于上一代的Gemini 3 Flash （High）。此举旨在优化简单任务的token使用，同时所有付费计划的Gemini配额已重置。

Varun Mohan: We heard concerns that Antigravity consumes many tokens for simple tasks now. So, we're adding Gemini 3.5 Flash (Low) as...

Google 产品更新编码

20:38

Peter Steinberger 🦞@steipete

新的烦人点：CLI未经询问就在我的系统上安装新技能。

其他编码

17:28

The Decoder：AI News（RSS）

George Hotz 称编程智能体将成为软件开发中"代价最昂贵的错误之一"

程序员 George Hotz 在经过六个月测试后警告，AI 编程智能体将成为软件开发领域代价最昂贵的错误之一。他认为 LLM 虽然能快速生成原型，但在细节上会崩溃，产生越来越难以发现的 bug。他的立场体现了 AI 社区对于 LLM 在软件开发中角色的深刻分歧。

大佬观点编码

15:11

IT之家（RSS）

马斯克宣布 Grok V9-Medium 1.5T 模型完成训练：加入大量 Cursor 数据，两到三周内发布

xAI 模型发布编码

15:08

🚨 AI News | TestingCatalog@testingcatalog

Grok基础模型V9-Medium（参数规模1.5T）已完成训练，评估结果良好，预计2-3周内向公众发布。该模型相较于当前服务所有Grok生产流量的0.5T v8-Small版本有巨大改进，尤其针对高难度编码任务。训练中加入了大量Cursor数据，并且未来还会有更多补充训练。目前微调已进行，强化学习将在几天内开始。

Elon Musk: Grok foundation model V9-Medium (1.5T) has finished training. Evals look good. A lot of Cursor data was added in supplem...

xAI 模型发布编码

13:53

向阳乔木@vista8

X不让直接发音频，可以直接让Codex帮把音频转成MP4。当然，会ffmpeg指令的话也很简单，但大模型太适合做这种转格式操作了。

多模态教程/实践编码

13:50

Elon Musk@elonmusk

精选71

Grok基础模型V9-Medium（1.5T）已完成训练。评估结果良好。补充训练中加入了大量Cursor数据，后续还会有更多。微调正在进行中，强化学习将在几天后开始。预计2到3周内公开发布。这将比当前服务所有Grok生产流量的0.5T v8-small模型有重大改进，尤其在复杂编码任务上。

xAI 模型发布编码

推荐理由：Grok 参数翻到 1.5T，还专门喂了 Cursor 代码数据，这波升级明显奔着 coding 去的。如果 evals 不注水，两周后的 coding 排行榜可能变天。

09:31

ginobefun@hongming731

AI行业三大趋势：企业落地、下一代Claude开发与超级个体

AI行业呈现三大趋势。一是企业落地竞争加剧，OpenAI成立独立部署公司（TPG等投资40亿美元，估值140亿美元），Anthropic跟进成立类似咨询公司，Google Cloud大规模招募前场部署工程师（FDE），面试流程压缩至2天2轮。二是Anthropic揭秘下一代Claude开发逻辑，模型开发完全产品化，用户反馈经Claude自动处理直接用于训练，并引入“dreaming”记忆整理机制，认为瓶颈已从编码转向组织协调能力。三是探讨超级个体并非培训产出，而是由完整闭环工作流激发而成。

智能体 Anthropic MCP/工具 OpenAI

09:21

meng shao@shao__meng

DeepSeek 以简单低价和长期主义挑战行业现状

推文赞扬 DeepSeek 践行长期主义与大道至简，指出其通过提供足够低价的 API 及几乎可忽略的缓存命中价格来赢得用户，而非像国内其他厂商那样设计复杂的套餐与促销策略。这被视作将底层技术做扎实、积累长期用户反馈的体现。推文还引用观点，将 Anthropic 描述为“每个人都讨厌但又害怕的黄鼠狼”，并希望 DeepSeek 能改变这一行业格局。

DeepSeek 现象/趋势编码

09:21

meng shao@shao__meng

讨论用书籍学习AI知识的可行性及"橙皮书"命名现象

推文质疑用书学习AI知识的可行性，指出Claude Code、Agent框架等知识更新极快，书易过时。同时质疑AI写书的质量，认为审查难度高。此外，作者对国内书籍常使用“白皮书”“蓝皮书”“橙皮书”等命名方式表示好奇。

智能体大佬观点编码

08:51

meng shao@shao__meng

在AI智能体时代，工程师依然需要深度思考代码

本文反驳了“有了AI智能体，工程师无需深度思考代码”的观点。核心论点是：AI不会降低对“理解系统”的要求，反而会提升工程师的核心价值。这主要源于责任不可转移——生产环境事故需由工程师负责，AI无法承担决策后果。AI被定位为加速日志分析等环节的加速器，但最终决策仍需由人做出。由此推导的行业趋势是：工程师应更注重系统的可理解性与可控性，如减少依赖、偏好简单系统，并将时间投入系统设计与维护。最终，行业稀缺资源正从“写代码速度”转向“对系统理解的深度”，计算机基础与判断力将更加重要。

Lee Robinson: You might believe you should spend less time thinking about code because of AI. I strongly disagree! We're watching this...

智能体大佬观点编码

08:48

Elon Musk@elonmusk

xAI 宣布其 Grok Build 工具持续改进，并发布了 0.1.219 版本以修复一系列 bug。主要更新包括：修复提示词缓存用量限制；解决在 kitty 终端中的字符布局错位；在基于 VTE 的终端中将换行快捷键改为 Alt+Enter；改进滚动回溯中函数调用的默认展开行为；修复混合文本与 URL 粘贴时文本丢失问题；解决 `set_images` 字节长度冲突导致内容丢失的 bug；使跨行 Markdown 链接的 URL 可点击；以及移除压缩后 `read_file` 因重复读取检查而中断的问题。

skcd: Bug fixes shipping to Grok Build 0.1.219 (release notes will be available in the TUI) - fixing usage limit bugs with pro...

xAI 产品更新编码

08:11

IT之家（RSS）

Linux 7.1-rc5 内核发布，Linus 对不必要改动、代码规模膨胀不满意

开源生态编码行业动态

03:57

Hacker News 热门（buzzing.cc 中文翻译）

约束衰减：大型语言模型代理在后端代码生成中的脆弱性

论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性，特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时，其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。

智能体 arXiv 编码论文/研究

02:20

宝玉@dotey

在Codex App中查询/goal任务进展及进行操作

对于正在进行中的/goal长任务，可通过输入 /side 指令开启一个侧边对话来查询进度，该对话会话共享当前上下文且不影响主线程。任务启动后，输入框上方提供暂停、编辑或删除等操作选项。

宝玉: 如何在 Codex App 使用 /goal 的简单说明: 1. 升级 Codex App 到最新版本 2. 先在命令行运行一下下面的指令: > codex features enable goals 或者手动修改 ~/.codex/con...

智能体教程/实践编码