6月2日

12:56

Simon Willison 博客

Simon Willison 开发了“粘贴文件编辑器”工具原型，灵感源于 Claude.ai 能将大段粘贴文本自动转为文件附件的功能。该工具支持粘贴文本、直接打开文件（包括图片缩略图显示）以及拖拽文件。它是由 Codex 桌面版协助构建的。

教程/实践编码

12:34

Hacker News 热门（buzzing.cc 中文翻译）

Chipotlai Max 项目在 Hacker News 获得关注

“Chipotlai Max”项目在 Hacker News 上获得了 102 点热度，并提供了其 GitHub 仓库地址。

GitHub 开源/仓库编码

12:07

IT之家（RSS）

微软 Copilot 超级应用曝光：整合多款工具，常驻 AI 智能体 Scout

根据曝光的截图，微软正在开发“Copilot 超级应用”，内部口号是“Delivering one Copilot”，旨在统一所有 Copilot 工具入口。该应用计划整合 GitHub Copilot、Copilot 聊天、Copilot Cowork 及内部代号为 Autopilot 的新智能体能力。应用内包含一个代码页，形态类似 Claude Code 面板，带有一个名为 Scout 的常驻 AI 智能体。用户可通过该页面管理代码仓库、切换模型并安排定时任务。另一个 Cowork 标签页用于汇总数据并提供提示词。

智能体产品更新编码

10:56

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.160 发布

Claude Code v2.1.160版本主要增强安全性和稳定性。新版本在向shell启动文件和.git/config等文件写入内容前增加提示，防止意外命令执行；acceptEdits模式在写入.npmrc等构建配置文件前也会提示。此次更新修复了多个问题，包括Windows/WSL剪贴板、会话恢复、后台会话连接等，并优化了自动模式延迟和后台清理流程。此外移除了JetBrains插件建议，将动态工作流触发词从workflow重命名为ultracode。

Anthropic 产品更新编码

08:00

HuggingFace Daily Papers（社区热门论文）

EvoTrainer：为自主智能体 RL 共同进化 LLM 策略与训练端工具

EvoTrainer 是一个自主训练框架，通过经验反馈共同进化 LLM 策略与训练端工具。它诊断 rollout 级证据、修正诊断、回测干预并积累可复用技能。在数学推理、竞赛编程代码生成和仓库级软件工程评估中，EvoTrainer 在相同数据、代码库和协议下匹配或超越人工设计的 RL 参考，最大收益在长 horizon SWE 任务上。轨迹分析显示，保留的策略跨领域发散，进化的诊断阻止无效高分分支被提升，可复用技能塑造后续搜索。

智能体推理编码论文/研究

07:14

Cursor Blog

精选64

Cursor Teams计划定价方案更新

Cursor Teams计划推出三项更新：增加Composer特定使用池，将第一方模型（Composer和Auto）与第三方API的使用额度分开计费；推出Premium席位，提供5倍于标准席位（$40/月）的使用量，价格为$96/月（年付）；仪表盘现可实时显示用户额度使用情况，管理员可通过Slack或邮件配置智能提醒。

智能体产品更新编码

推荐理由：Cursor这个定价更新把「用不用得起第三方模型」的问题从团队开支里切出去了，标准席位加量不加价，重度用户直接上Premium可能比现在更划算，做Agent开发的团队不妨算算账。

06:43

Ars Technica：AI（RSS）

GitHub Copilot 用户对全新按量计费系统反应强烈

GitHub Copilot 正从固定订阅制转向基于使用量的计费系统。部分用户反映，其单日用量就消耗掉了整月的“AI credit”配额，引发用户对成本控制的担忧。

GitHub 编码行业动态

05:48

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选66

OpenAI前沿模型与Codex现可在AWS上使用

OpenAI的前沿模型与Codex现已在AWS上全面可用。企业客户可通过其现有的AWS环境、控制与采购流程来使用OpenAI的AI技术，从而加速从评估到生产部署的过程。

智能体 OpenAI 产品更新编码

关联讨论 3 条

推荐理由：这不是模型发布，而是渠道开闸，企业拿着现有 AWS 安全体系就能用上 GPT-5.5，合规部门终于不用再纠结。Codex 也直接嵌入开发流程，落地阻力小了一大截。

00:38

Hugging Face：Blog（RSS）

精选71

JetBrains 发布 Mellum2：12B 参数混合专家模型

Mellum2 是 JetBrains 从头训练的 12B 参数混合专家（MoE）模型，专注于自然语言与代码。每个 token 仅激活 2.5B 参数，推理速度可达同类模型的 2 倍以上，适合高吞吐、低延迟场景。该模型支持路由、RAG、摘要、子智能体及私有部署，以 Apache 2.0 许可证开源。在代码生成、推理、科学和数学基准测试中，Mellum2 与同等规模的开放模型竞争力相当。

推理模型发布编码

推荐理由：JetBrains 开源了 Mellum2，一个激活参数仅 2.5B 的 12B MoE 模型，专为代码和问答管道设计的快模型。做实时 RAG 或子代理时，终于不用硬扛大模型了。

6月1日

22:05

The Decoder：AI News（RSS）

MiniMax M3：具有百万token上下文窗口的开源权重模型挑战闭源领先者

中国AI公司MiniMax发布了新模型M3。它被定位为首个同时具备顶级编码性能、100万token上下文窗口以及原生多模态能力的开源权重模型。

多模态模型发布编码

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 12 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

08:28

Hacker News 热门（buzzing.cc 中文翻译）

人工智能时代原型制作的速度

在人工智能时代，产品原型设计的速度正迎来显著变化。文章探讨了AI工具如何影响原型制作的流程与效率，讨论了从概念到实现的加速可能性。

开源生态现象/趋势编码

04:47

Hacker News 热门（buzzing.cc 中文翻译）

Codex 刚刚发现了一个"变通方法"，让我的电脑上不用安装 sudo

OpenAI 的 AI 编程工具 Codex 在推特上分享，它为缺少 sudo 权限的电脑系统找到了一种变通方法。该发现获得了 Hacker News 社区的关注，目前有 117 个赞。

OpenAI 其他编码

03:46

Claude Code：GitHub Releases（RSS）

v2.1.159

v2.1.159 版本更新包含内部基础设施改进，未引入任何面向用户的功能变更。此次更新预计不会影响现有功能或用户接口。

Anthropic 产品更新开源/仓库编码

00:44

Simon Willison 博客

或许该取消我的AI订阅了

作者引用David Wilson的观察指出，AI编码工具（如Claude）能将模糊想法在不到一小时内转化为带测试和文档的完整项目，但用户往往因此创建超过16个难以维护的项目。这些工具输入门槛低、反馈即时，却像“热核级ADHD放大器”，导致注意力严重分散和项目废弃。文章质疑这种“廉价奖励”模式的可持续性，认为当前缺乏有效管理方式，关键可能在于培养使用纪律。

大佬观点现象/趋势编码

00:15

Hacker News 热门（buzzing.cc 中文翻译）

解决办法可能是取消我的AI订阅

thoughtshmmz.org 于2026年5月31日发布的文章《解决办法可能是取消我的AI订阅》，在Hacker News上获得114积分。

现象/趋势编码

5月31日

16:44

Hacker News 热门（buzzing.cc 中文翻译）

Rsync 3.4.3 包含数百个由 Claude 提交的代码

版本控制系统 Rsync 的 3.4.3 版本代码库中，包含数百个由 AI 模型 Claude 完成的代码提交。

开源生态现象/趋势编码

12:24

IT之家（RSS）

AI 编程工具普及背后：效率提升的假象与代码维护的隐患

现象/趋势编码部署/工程

08:24

IT之家（RSS）

微软 GitHub Copilot 改计费模式后成本暴涨，引开发者吐槽

GitHub Microsoft 编码行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

FVSpec：真实世界基于属性测试的Lean挑战

从真实世界Python仓库抓取11039个基于属性测试（PBT），自动将其中的2772个翻译为9415个带sorry占位符的Lean 4规范（平均每个PBT约3个形式化）。翻译采用三智能体LLM流水线，需建模Python语义、推断命令式PBT中的逻辑属性并处理依赖类型编程。所有抓取代码、智能体代码及数据均已开源，为AI辅助真实软件形式化验证提供基准。

编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BenchEvolver：以解决方案为中心的进化式前沿任务合成

前沿大语言模型在LiveCodeBench上已饱和，易分题Pass@1超99%，平均超90%。新提出的BenchEvolver框架以解决方案为中心，通过结构化变换自动进化已有编码问题的参考解，再从进化后解推导题目与测试用例，从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后，进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题，前沿模型Pass@1仅27.5%–62.6%，恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性，可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3，超出仅用原始任务训练的增益70.7%和34.8%。

arXiv 数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LongAttnComp：面向长上下文推理的跨模型族上下文压缩

LongAttnComp 是一种针对长上下文适配的方法，它通过微调一个轻量级跨注意力评分层，并引入了 token 级分块、token 预算 top-p 算法、位置重排和格式无关查询解析器。该方法采用两阶段微调：第一阶段基于 NIAH 风格数据构建通用检索基础，第二阶段通过多跳和推理数据进行扩展。实验表明，在 InfiniteBench Code-Debug 上，LongAttnComp 能够匹配或超越全上下文精度，并显著优于无训练基线。在 LongBench v2 上，两阶段配方在多文档推理任务上有效缩小了性能差距，同时保持了代码调试性能，并可跨三个模型族的四个目标模型进行转移。

arXiv 推理编码论文/研究

00:46

TechCrunch：AI（RSS）

"开玩笑吧"：GitHub Copilot 新的基于 token 的计费模式引发开发者不满

微软旗下 GitHub Copilot 的黄金时代似乎正在终结。其新推出的计费模式改为按 token 计量，这一变化引发了开发者的广泛担忧与不满。

编码行业动态

5月30日

18:44

The Decoder：AI News（RSS）

OpenAI的Codex现已可在你的Windows PC上自主运行，独立寻找漏洞并测试应用

OpenAI的Codex应用现已在Windows 11上支持“Computer Use”功能。该功能允许AI自主控制计算机程序，独立进行应用测试和漏洞查找。当电脑无人值守时，用户可通过ChatGPT移动应用远程启动并监控这些任务。

智能体 OpenAI 产品更新编码

17:44

The Decoder：AI News（RSS）

Salesforce声称AI代理将231天的迁移缩短至13天，且事故更少

Salesforce宣布已将整个开发组织迁移至Anthropic的Claude Code，并取消了token限制。其2026年4月报告显示，每位开发者的pull request数量增加了79%，生产事故减少了5%。这些数字未经独立验证。此次迁移突显了编码领域对智能体化转型的巨大分歧：这究竟是真正的革命，还是前所未有的技术债务积累？

智能体 Anthropic 现象/趋势编码

15:21

IT之家（RSS）

Linux 应用商店 Flathub 将禁止新提交应用使用 AI 生成代码，维护者直言"我受够了"

开源生态编码行业动态

11:10

Hacker News 热门（buzzing.cc 中文翻译）

MCP 死了？

Hacker News上一篇题为“MCP 死了？”的文章引发讨论，获得了103分。文章来自quandri.io，发布于2026年5月29日，但未提供关于MCP（模型上下文协议）现状的具体论述或结论。

MCP/工具现象/趋势编码

09:21

IT之家（RSS）

你的手机变遥控器，OpenAI 扩展 Codex 远程控制支持 Win10/Win11

MCP/工具 OpenAI 产品更新编码

关联讨论 3 条

08:10

Hacker News 热门（buzzing.cc 中文翻译）

人工智能时代的专长

在人工智能时代，专业能力面临重新定义。AI改变了专业知识的实践方式，但系统化的知识、经验积累与实践智慧仍然是专业能力的核心。真正的专长在于提出正确问题、进行创造性整合与做出关键判断，而AI在这些方面目前仍是辅助工具。专业价值正从单纯的信息处理，转向对复杂情境的解读与引导。

现象/趋势编码

06:16

TechCrunch：AI（RSS）

程序员拒绝在没有AI的情况下工作--这可能会反噬他们

研究人员警告，虽然AI正在帮助程序员更快地编写代码，但其产出的代码质量未必更高。这种依赖可能在未来给程序员自身带来问题。

现象/趋势编码

05:48

MarkTechPost（RSS）

阶跃星辰发布 Step 3.7 Flash：一款面向编程智能体与搜索工作流的 198B MoE 视觉语言模型

阶跃星辰发布 Step 3.7 Flash，这是一款参数规模为 198B 的 MoE 架构视觉语言模型。该模型具备原生视觉能力，支持 256k 上下文窗口，并引入了 Advisor Mode。模型主要面向编程智能体与搜索工作流等应用场景。

多模态模型发布编码

02:52

OpenAI：官网动态（RSS · 排除企业/客户案例）

Braintrust如何用Codex将客户请求转化为代码

Braintrust的工程师正在使用Codex结合GPT-5.5模型，以加速其实验运行与代码编写的流程。

OpenAI 编码行业动态

00:15

TechCrunch：AI（RSS）

Cognition的Scott Wu表示：AI编程智能体不应取代人类

Cognition公司开发了Devvin，这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示，该智能体并非旨在取代人类程序员。

智能体大佬观点编码

5月29日

21:40

Hacker News 热门（buzzing.cc 中文翻译）

人工智能会导致前端领域重蹈"失落的十年"覆辙吗？

现象/趋势编码

19:19

Artificial Intelligence News（RSS）

Anthropic发布Claude Opus 4.8

Anthropic发布了Claude Opus 4.8，这是对Claude Opus 4.7的升级，改进了编码、智能体工作、推理和知识工作方面的表现。该模型可通过claude.ai、Claude Code和Claude API使用，API名称为claude-opus-4-8。

智能体 Anthropic 推理模型发布

19:10

Hacker News 热门（buzzing.cc 中文翻译）

精选73

Claude Code--文档中未提及的所有可配置选项

该篇文章标题涉及“Claude Code”的可配置选项，但提供的正文内容仅包含一张图片和一个外部链接，未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则，无法在摘要中提及原文不存在的细节。

Anthropic 教程/实践编码

推荐理由：如果你在用 Claude Code，这份从源码里扒出的隐藏配置清单能让你摆脱默认模式，好多选项官方文档压根没提。

10:42

Claude Code：GitHub Releases（RSS）

v2.1.156

v2.1.156 版本修复了一个问题，该问题在使用 Claude Opus 4.8 模型时，会导致 thinking blocks（思考过程块）被意外修改，从而引发 API 调用错误。

Anthropic 产品更新编码

09:21

IT之家（RSS）

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体 Hugging Face 多模态模型发布

关联讨论 3 条

08:21

IT之家（RSS）

性价比拉满：Grok Build 0.1 打响 AI 编程实战，马斯克称物超所值

智能体 xAI 编码评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

组合式合成：通过原子分解与重组扩展代码 RLVR 训练规模

针对可验证奖励强化学习（RLVR）中足够有挑战性的代码任务稀缺、现有种子扩展法限制新颖性与难度的问题，提出原子分解与重组（ADR）框架。ADR 将代码任务分解为原子元素并受控重组，从而生成真正新颖且高难度的可验证代码任务。实验表明，ADR 在原创性、难度、多样性和测试质量上均优于现有基线，并在算法编程、工具使用和数据科学等多个下游领域的 RLVR 训练中持续带来更大的代码能力提升。

arXiv 数据/训练编码论文/研究