6月5日

09:28

Gary Marcus：The Road to AI We Can Trust（RSS）

精选59

Gary Marcus：无需恐慌Anthropic新博客

Anthropic发布最新博客后，推特圈热议不断。Gary Marcus在其博客中直接以“无需恐慌”为题发文，暗示不必过度反应。

Anthropic 大佬观点安全/对齐编码

推荐理由：这篇文章是评论圈难得的冷静声音，用逻辑拆解了 Anthropic 的恐慌叙事，顺便带来 S&P 500 不接纳 SpaceX 的利好，读起来像一份理性补丁。

08:14

IT之家（RSS）

三大运营商"词元产品"服务上架中国算力平台

6月3日，中国信通院宣布中国电信、中国移动、中国联通的“词元产品”服务正式登陆中国算力平台。词元是大模型最小信息单元，具有可计量、可定价、可交易特征。天翼云Token Plan分开发者/中小企业版（基于GLM-5）和个人/家庭版（基于DeepSeek V3.2）；移动云Coding Plan（基于MiniMax-2.5）支持Claude Code等编程工具；联通云推出Coding Plan（整合DeepSeek V4、GLM-5、MiniMax M2.5）和Token Plan（个人版支持DeepSeek V4-Flash、MiniMax M2.5，团队版采用Credits弹性计费）。服务已在中国算力平台·算力超市上架。

产品更新推理编码

08:00

HuggingFace Daily Papers（社区热门论文）

SWE-Explore：编码智能体仓库探索能力评测基准

SWE-Explore 是一个专为评测编码智能体仓库探索能力而设计的基准，覆盖 848 个 issue、10 种编程语言和 203 个开源仓库。每项任务要求探索者在固定行预算内返回相关代码区域的有序列表，ground truth 来自成功解决同一 issue 的独立智能体轨迹。评测从覆盖率、排名和上下文效率三个维度展开，发现这些指标与下游修复行为高度相关。结果显示，智能体探索器整体明显优于传统检索方法，但文件级定位已足够强，行级覆盖率和高效排名才是区分前沿探索器能力的关键。

智能体编码论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

研究分析了35,361条明确提及AI的GitHub代码注释及关联代码块，通过开放编码建立AI辅助开发活动分类法，并使用LLM分类器与Dawid-Skene模型标注全量数据。还分析了12,996条后续提交消息，追踪代码演变及2022年12月至2026年3月的时间趋势。结果显示，开发者主要用LLM进行代码实现，其次是增强、调试、文档和测试。后续提交常涉及重构清理、功能集成和Bug修复。随时间推移，AI引用从直接代码生成转向知识支持和代码增强。AI工具正嵌入为协作支持机制。

arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Socratic-SWE：基于轨迹提炼技能的自我进化SWE智能体

Socratic-SWE 提出闭环自我进化框架，将代码智能体历史解决轨迹提炼为结构化技能，总结失败与修复模式，并据此在真实仓库生成针对性修复任务。候选任务经执行验证与求解器梯度对齐奖励评分后，保留可验证且有益于提升 Solver 的任务。更新后的 Solver 产生新轨迹，使任务课程自适应调整。在 SWE-bench Verified 等基准上，相同计算预算下持续优于自我进化基线，三轮迭代后 SWE-bench Verified 达 50.40%。

智能体编码论文/研究

06:04

Claude Code：GitHub Releases（RSS）

精选70

Claude Code v2.1.163 发布

新增 requiredMinimumVersion 和 requiredMaximumVersion 托管设置，版本超范围时拒绝启动并引导用户使用经批准版本。新增 /plugin list 命令及 --enabled/--disabled 筛选；/btw 添加 "c to copy" 快捷键，复制原始 markdown 答案到剪贴板。Hooks 方面，Stop 和 SubagentStop 可返回 additionalContext 给 Claude 反馈并保持对话。Skills 新增 \$ 转义语法，支持在命令中数字前使用字面 $。stdio MCP 服务器在 --resume 时接收与 hooks/Bash 相同的 CLAUDE_CODE_SESSION_ID。修复了 claude -p 永久挂起、$TMPDIR 被覆盖、Windows 上 session-env 目录 EEXIST 错误、后台 agent 会话在更新后自动升级等多处问题。

Anthropic 产品更新编码

关联讨论 2 条

推荐理由：Claude Code 这次的版本管理设置对团队标准化很关键，plugin list 命令也让插件管理顺手多了，但这种工具更新属于用的人自然懂，不是所有人都需要关注。

05:56

Ethan Mollick：One Useful Thing（RSS）

精选61

共存与协同智能的终结

Ethan Mollick 在 One Useful Thing 博客中，以“共存与协同智能的终结”为题，并附带介绍了如何向 AI 推销一本书。

智能体 Anthropic 大佬观点编码

推荐理由：Mollick 这篇比单纯的新书预告有料，用自己给 AI 写推荐语的实验，把「AI 不再是助手而是守门人」这个新现实讲得很具体。对还在纠结怎么跟 AI 合作的人，是一个挺及时的视角更新。

01:46

Hacker News 热门（buzzing.cc 中文翻译）

谷歌员工内部分享吐槽公司AI的梗图

谷歌员工在内部渠道分享多张梗图，直指公司AI产品表现不佳。这些图片在员工间广泛传播，反映了团队内部对谷歌AI研发进度的普遍失望与自嘲。

Google 现象/趋势编码

6月4日

23:42

Hugging Face：Blog（RSS）

精选66

Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI，使其同时服务人类用户和编码智能体（Claude Code、Codex 等）。CLI 通过环境变量自动检测智能体驱动，输出紧凑无截断的 TSV 格式，避免 ANSI 和交互提示，大幅降低 token 消耗。复杂多步任务中，不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起，Hugging Face 追踪 Hub 智能体流量，Claude Code 约 4 万用户、近 4900 万次请求，Codex 紧随其后。

Hugging Face MCP/工具产品更新编码

推荐理由：HF CLI 现在会自动检测 agent 并切换输出，复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub，这是必读的升级指南。

21:00

公众号：昆仑万维（天工）

精选64

SkyClaw-v1.0 深度实测：Agent专属模型，顶尖性能表现，极致价格优势

5月26日，昆仑万维发布SkyClaw-v1.0，定位面向复杂工具使用和真实世界任务执行的高性能Agent模型，输入仅0.5元/百万token、输出4元/百万。实测显示，其从零生成番茄钟和记账本应用时，能自主用Web Audio API合成音效、用SVG手绘图表，细节处理成熟。在现有代码库修改任务中，越难的任务表现越好：单点bug修复精准，能准确诊断iOS Safari滚动问题并给出克制式修复方案。但官方未报告SWE-bench成绩，表明其优势集中在从零生成与模式匹配场景，而非大型仓库精确修改。极致低价使其在批量Agent任务与快速原型生成上性价比突出。

智能体编码评测/基准

推荐理由：这篇实测把SkyClaw的「从零生成」和「老项目修改」摊开了揉碎了测，不看广告看疗效，让我看清Agent模型的分化到底意味着什么——便宜好用但有边界，想省钱做小工具的你值得细读。

17:26

HuggingFace Daily Papers（社区热门论文）

精选70

RHO：利用过往轨迹优化LLM智能体工具链的自监督方法

Retrospective Harness Optimization (RHO) 是一种自监督方法，仅利用过往轨迹优化LLM智能体的工具链（技能、工具和工作流程集合）。RHO从历史任务中选取多样化的困难任务核心集，并行重新执行；智能体通过自我验证和自我一致性分析回放，生成候选工具链更新，并依据自身成对自我偏好选择最有效更新。在软件工程、技术工作和知识工作三个领域评估中，单轮优化将SWE-Bench Pro通过率从59%提升至78%，无需外部评分。分析表明RHO有效针对先前失败模式，优化后的工具链改变智能体行为模式，在长周期会话中维持更高准确率。

智能体 arXiv MCP/工具编码

推荐理由：不靠人工标注就能让 Agent 自我提升，单轮直接把 SWE-Bench Pro 通过率从 59% 拉到 78%，做自主 Agent 优化的同学应该仔细读一下。

16:47

OpenAI：官网动态（RSS · 排除企业/客户案例）

Endava 围绕 AI 智能体重塑软件交付

全球 IT 服务公司 Endava 利用 OpenAI 的 AI 智能体、ChatGPT Enterprise 和 Codex 加速软件交付与自动化工作流。ChatGPT Enterprise 帮助开发者提升代码质量、缩短上线时间，AI 智能体负责处理重复性任务，从而在企业内部构建 AI 原生文化。

智能体 OpenAI 编码行业动态

11:42

HuggingFace Daily Papers（社区热门论文）

AutoLab：前沿模型能否解决长周期自动研究与工程任务？

AutoLab是一个评估超长周期闭环优化能力的基准，包含36个专家设计的真实任务，覆盖系统优化、谜题挑战、模型开发和CUDA内核优化四个领域。每个任务从一个正确但刻意次优的基线开始，要求智能体在严格时间预算内迭代改进。对17个最先进模型的测试表明，成功关键在于持续进行基准测试、编辑和整合经验反馈的持久性。claude-opus-4.6展现出较强的长周期优化能力，但多数前沿模型要么过早终止，要么在预算内进展甚微。该基准、评估工具和任务工件已全部开源。

智能体 arXiv 编码论文/研究

07:26

OpenAI：官网动态（RSS · 排除企业/客户案例）

Wasmer 使用 Codex 构建边缘 Node.js 运行时

Wasmer 借助 Codex（基于 GPT-5.5）构建了一个用于边缘计算的 Node.js 运行时，将开发速度提升 10 到 20 倍，交付周期从数月缩短至数周。

OpenAI 编码行业动态部署/工程

07:15

TechCrunch：AI（RSS）

Lovable 与 Google Cloud 签署多年协议，将使用量扩大 5 倍

Lovable 与 Google Cloud 签署了一项扩大的多年期协议，将 Lovable 在 Google Cloud 上的使用量扩大 5 倍，并增加对 Anthropic Claude 的访问权限。

Anthropic Google 编码行业动态

05:58

Claude Code：GitHub Releases（RSS）

精选59

Claude Code v2.1.162 发布

Claude Code v2.1.162 发布，主要包含 Bug 修复和体验优化。claude agents --json 新增 waitingFor 字段，/effort 命令确认级别持久化，远程控制固定底部显示，/ide 菜单中 Windsurf 更名为 Devin Desktop。修复了配置文件只读导致启动黑屏、Windows 权限规则不匹配、LSP 的 workspaceSymbol 无结果、API 400 错误、MCP 超时低于 1000ms 被截断等十余项问题。

智能体 Anthropic 产品更新编码

推荐理由：一系列扎实的修复，尤其是 Windows 权限匹配和启动挂死问题的解决，对于日常用 Claude Code 做开发的来说稳定性提升明显，可以升级。

04:15

Cursor Blog

精选60

Cursor Enterprise 推出 Organizations 组织管理功能

Cursor Enterprise 正式推出 Organizations 结构，允许企业在统一面板中管理多个团队。每个团队可独立设置预算、安全策略、模型访问和功能控制。新增 Groups 作为跨团队或团队内的轻量级用户集合，用于分段管理模型访问、花销上限和智能体权限，不同设置取最宽松权限生效。管理员可创建沙箱团队预先测试新功能，再向全公司推送；也可按部门划分模型访问和预算。组织级仪表盘汇总所有团队的 token 用量与花费，支持按团队、用户等维度筛选。身份提供商和 SCIM 目录在组织层面一次配置，成员自动同步。该功能现已全面开放给所有 Enterprise 客户。

智能体产品更新编码

推荐理由：这是 Cursor 企业版在治理能力上的关键补丁，把多团队预算、模型权限和沙盒测试管了起来，对想把 AI 编程推到千人规模的团队是实打实的基建更新。

03:09

Hacker News 热门（buzzing.cc 中文翻译）

优步每月 1，500 美元的 AI 使用上限为 AI 工具定价提供参考

优步将 AI 工具每月使用上限定为 1500 美元，这一做法为行业 AI 工具定价提供了有价值的参考信号。

编码行业动态

6月3日

22:09

IT之家（RSS）

同事件精选73

月之暗面 Kimi Work Beta 版开启内测：面向知识工作者的通用型本地 Agent

月之暗面今日宣布，Kimi Work Beta 版随最新版 Mac 和 Windows 客户端开启内测。Kimi Work 是基于 Kimi Code 的通用型本地 Agent，支持安装使用技能、运行定时任务，并继承在线版的专业技能与数据库，内置可调用浏览器的 Kimi WebBridge。用户用自然语言描述目标即可自动拆解任务、并行执行并交付产物。支持 Agent 集群，最高可创建含 300 个子 Agent 的团队。官方透露，Kimi Work 自身由 Kimi Code 写成，工程师一周内完成客户端开发，累计产出超 5 万行有效代码，其中 92% 由 AI 自主生成。

智能体产品更新端侧编码

同一事件，精选展示《Kimi Work Beta版发布：面向知识工作者的本地Agent》

推荐理由：月之暗面把AI Agent搬到了本地，不是聊天窗口，而是直接操控你的电脑。92%的代码由AI自己写的自举能力，比功能本身更吓人。做办公自动化的同行该看看怎么被卷了。

22:07

Hacker News 热门（buzzing.cc 中文翻译）

每个字节都至关重要

文章标题为《Every Byte Matters》，来自 fzakaria.com，讨论字节级优化的重要性。

教程/实践编码

20:57

Simon Willison 博客

Uber限制AI编程工具每月token支出上限

优步（Uber）将员工使用AI编程工具（如Cursor和Claude Code）的每月token支出限制为每工具1,500美元，不同工具预算互不影响。按工程师平均使用两种工具计，年人均AI支出上限为36,000美元，约占美国软件工程师中位数年薪330,000美元的11%。该限额是2026年AI预算四个月内超支后的理性调整。作者Simon Willison个人每月token用量约1,000美元（个人订阅补贴后仅100美元），若在优步工作仍有约500美元/工具的余额。

Anthropic 现象/趋势编码

20:09

IT之家（RSS）

豆包：计划针对专业人群生产力需求推出豆包专业版，基础功能保持免费

豆包通过官方公众号宣布，计划推出面向专业人群的豆包专业版，涵盖软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等服务。日常使用的搜索问答、写作生图、语音和视频对话等基础功能保持免费，专业版也在一定额度内免费。专业版目前处于测试阶段，正式上线时间待定。同时辟谣称，近期不实信息称豆包将降低基础功能体验以推动会员购买，该说法完全不实。

产品更新编码

14:09

IT之家（RSS）

OpenAI 将在 ChatGPT 应用中集成 Codex 功能

OpenAI 围绕 Codex 商用落地发布三项更新：上线六款聚焦销售、数据分析、创意制作、产品设计、公募股权投资、投行业务等领域的全新智能体插件；新增批注功能，支持对文档、表格、幻灯片等各类内容进行定向修改；推出站点生成功能，可快速创建交互式网站与应用。此外，OpenAI 计划未来数周内在所有版本 ChatGPT 应用中集成 Codex 智能体能力，旨在直观展示两款工具的协同关系。

智能体 OpenAI 产品更新编码

13:36

Hacker News 热门（buzzing.cc 中文翻译）

智能体工具 Mfw 官网发布

一个名为 Mfw 的智能体工具发布了其官方网站 agenticmotherfucking.website。由于原文未提供功能、性能、参数等技术细节，摘要仅能基于现有信息进行陈述。

智能体现象/趋势编码

11:09

IT之家（RSS）

谷歌付费获取安卓开发者私有代码库访问权以改进AI编程工具

据IT之家报道，谷歌正联系安卓应用开发者，希望付费获取其私有代码库的访问权。此举旨在获取“高质量、真实世界代码库”，用于改进Gemini、Antigravity 2.0等开发者工具。邮件强调授权为非独占方式，开发者保留100%知识产权。谷歌表示，真实代码包含生产环境中的复杂逻辑与业务背景，比公开仓库更利于训练面向真实工程场景的AI编程工具。报道指出，该计划反映了谷歌在编程AI领域面临来自GitHub Copilot和Anthropic Claude Code等产品的竞争压力。

Google 数据/训练编码行业动态

11:05

Hacker News 热门（buzzing.cc 中文翻译）

GitHub Copilot 应用

GitHub Copilot App 已发布。这是一个预览版应用，可通过 github.com 访问。

智能体 GitHub 产品更新编码

07:09

IT之家（RSS）

OpenAI 推出 Codex Sites 功能，可将用户想法转化为交互式网站

OpenAI 为 Codex 推出 Sites 功能，目前以预览版形式向 Business 和 Enterprise 订阅用户开放。该功能可将用户的工作、想法与计划转化为仪表盘、规划器、项目看板等交互式托管网站和应用程序，并可通过 URL 分享给团队指定用户，以实现协作与共享决策。

智能体 OpenAI 产品更新编码

关联讨论 5 条

06:57

Claude Code：GitHub Releases（RSS）

Claude Code v2.1.161 发布

Claude Code v2.1.161 发布了多项功能改进与问题修复。功能方面，现在可将 OTEL_RESOURCE_ATTRIBUTES 的值作为指标数据点的标签，支持按团队或代码库等维度查看使用情况；claude agents 命令在分发任务时会显示“已完成/总数”；/mcp 改进了连接器列表的展示；并行工具调用时，单个 Bash 命令的失败不再取消同批次的其他调用；全屏模式在 Linux 上优化了剪贴板支持。本次更新还修复了包括管理策略阻止第三方会话、后台子智能体输出损坏以及终端渲染性能在内的多个问题。

Anthropic 产品更新编码

关联讨论 5 条

06:57

Simon Willison 博客

微软发布新MAI模型

微软发布了MAI-Thinking-1与MAI-Code-1-Flash两款新大语言模型。MAI-Thinking-1为35B参数的推理模型，目前向部分早期合作伙伴开放，官方称其在盲测中优于Sonnet 4.6。MAI-Code-1-Flash为5B参数模型，专为GitHub Copilot和VS Code优化，将逐步向VS Code的Copilot个人用户推出。两款模型均强调使用清洁、商业授权的数据从零开始进行端到端训练，未使用第三方模型进行蒸馏。

Microsoft 大佬观点推理编码

05:35

Hacker News 热门（buzzing.cc 中文翻译）

微软推出 MAI-Thinking-1 模型

微软通过其AI官方网站 microsoft.ai 发布了新模型 “MAI-Thinking-1”。该消息随链接一同发布，并出现在相关技术社区中。

Microsoft 推理模型发布编码

05:16

Claude：Blog（网页）

同事件精选77

Claude Code 新增动态工作流功能

Claude Code 新增动态工作流功能，允许模型在运行时即兴创建和协调多智能体框架来处理复杂任务。该功能通过执行特定的 JavaScript 文件来生成和协调拥有独立上下文窗口的子代理，可解决单一上下文窗口中长时间执行任务可能出现的智能惰性等问题。工作流适用于研究、安全分析、代码审查等场景，通常消耗更多 token，更适合高价值复杂任务，其最佳实践仍在发展中。

智能体 Anthropic MCP/工具产品更新

同一事件，精选展示《在Claude Code中引入动态工作流》

推荐理由：Claude Code 现在能自己动态生成多代理协调器，这在调试、审查、研究等复杂任务上是个真正的生产力跃迁，但普通编码工作用它反而是杀鸡用牛刀。

04:05

Hacker News 热门（buzzing.cc 中文翻译）

微软 MAI-Code-1-Flash 以 50 亿参数在 SWE-Bench Pro 取得 51% 成绩

微软推出 MAI-Code-1-Flash 模型，仅使用 50 亿个活动参数（5B Active Params），在 SWE-Bench Pro 基准测试中获得了 51% 的成绩，展示了高参数效率。

Microsoft 模型发布编码

03:09

IT之家（RSS）

微软发布其首款高级推理模型 MAI-Thinking-1：承诺未蒸馏第三方模型，自研 AI 模型阵容进一步扩充

微软在 Build 2026 大会上发布了其首款高级推理模型 MAI-Thinking-1。该模型为中等规模，在软件工程基准测试中达到业界领先水平，且完全基于干净数据从零开始训练，未使用第三方模型的蒸馏数据。同时，微软还推出了 MAI-Image 2.5（文生图/图像编辑）、MAI-Transcribe-1.5（语音转写，速度达竞争对手五倍）、MAI-Voice-2（语音合成，新增15种语言支持）和 MAI-Code-1（编程辅助，已集成至 GitHub Copilot 和 VS Code）等多款新模型。

Microsoft 推理模型发布编码

02:43

The Decoder：AI News（RSS）

OpenAI 扩展 Codex：为非开发者用户推出角色专用插件以打造通用应用

OpenAI 正在为旗下编程工具 Codex 扩展功能，新增针对数据分析、销售和投资银行业务的角色专用插件。该公司表示，Codex 每周有500万用户，其中五分之一并非开发者。非开发者用户群体的增长速度是开发者群体的三倍，这表明 OpenAI 正将 Codex 定位为面向所有人的通用工作应用。

OpenAI 产品更新编码

02:09

IT之家（RSS）

微软发布智能终端 0.1 版本：自动检测 Shell 命令错误，现已开放下载

微软推出了基于 Windows Terminal 的开源实验性分支“智能终端”（Intelligent Terminal）0.1 版本，现已通过微软商店和 WinGet 开放下载。该终端将 AI 编程能力直接集成到命令行环境，默认使用 GitHub Copilot CLI，其核心是一个可停靠的 Agent 窗格，能感知 Shell 输出上下文。当命令执行失败时，终端会自动检测错误并在状态栏显示图标，用户点击即可打开加载了错误上下文的 Agent 窗格，由智能体解释问题并建议修复方案。此版本发布后，微软将弃用 Canary 通道中的 Terminal Chat 功能。

智能体 Microsoft 产品更新编码

01:56

GitHub Blog

精选72

GitHub Copilot应用：智能体原生的桌面体验

在微软 Build 2026 大会上，GitHub 发布了新的工具和更新，并将 Copilot 应用定位为“智能体原生的桌面体验”。其核心目标是让 AI 智能体能够以用户已经习惯的方式进行工作。

智能体 GitHub 产品更新编码

关联讨论 1 条

推荐理由：GitHub 把 Copilot 从插件变成了独立桌面应用，Agent 不再躲在 IDE 背后，这是 AI 编程从辅助工具走向桌面中枢的标志，开发者现在可以直接在桌面上跟 AI 协作了。

6月2日

19:51

Artificial Intelligence News（RSS）

GitHub Copilot用户面临token定价上涨

GitHub Copilot从今年4月起宣布的计费方式变更已开始实施，由固定月度订阅制转为按token使用量计费。变更刚启动一天，用户已普遍反映成本上涨。新的计费模式使得大语言模型服务的实际成本更直接地反映使用量，给企业和个人用户带来了不同的财务影响。

编码行业动态

17:12

OpenAI：官网动态（RSS · 排除企业/客户案例）

Codex正在成为每个人的生产力工具

The Next Era of Knowledge Work报告指出，Codex正通过AI增强的研究、数据分析、工作流自动化与内容创作，变革知识工作的生产力。

OpenAI 现象/趋势编码

15:07

IT之家（RSS）

OpenAI调整Codex免费及Go订阅额度重置周期：从7天延至30天

多名用户发现，OpenAI将Codex平台针对免费账号和Go订阅账户的额度重置周期从7天延长至30天。Plus、Pro、Business、Edu和Enterprise等付费订阅用户的额度仍维持每周重置。这一调整意味着免费用户每月可用额度次数从约4次减少为1次，而单次配额数值未变。Codex是OpenAI开发的AI代码生成与智能体平台。

OpenAI 产品更新编码

14:07

IT之家（RSS）

JetBrains 开源 Mellum2 模型：12B 参数，升级为 AI 智能体编程助手

JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数，采用稀疏 Mixture-of-Experts 框架，激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。

开源生态模型发布编码