AI 编码最新动态与精选 · AI HOT

Topic · 主题全部主题 →

AI 编码

AI 写代码的一切：编码助手、Vibe Coding、代码模型评测与开发工作流变革。

3,228条收录

427条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1Claude Sonnet 5 发布8114 家源
2美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型8210 家源
3GLM-5.2：开放智能体的阶跃变化6710 家源
4豆包Seed-2.1实测：编程可用，识鱼封神！825 家源
5Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作564 家源

7月2日

19:14

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Senior SWE-Bench：评估AI智能体作为高级工程师的基准测试

Senior SWE-Bench是一个开源基准测试，用于评估AI智能体完成高级软件工程师级别任务的能力。任务分功能开发与Bug修复两类：功能任务指令类似自然语言消息，采用验证智能体基于专家配方自动生成行为测试；Bug任务要求根据日志、profiling等运行时信息深入调查。排行榜显示，Claude Opus 4.8搭配Mini-SWE-Agent（max effort）通过率24.0%，Claude Sonnet 5为19.4%，GPT-5.5为16.0%，最强前沿模型在超75%任务中未能达到高级工程师级别的正确性与品味。每个功能任务平均涉及11个文件，最强智能体也需数百步完成；中位指令长度仅为SWE-Bench Pro的31%。任务来源于从库到多服务应用的仓库PR，由拥有数百次提交的工程师编写。

开源/仓库编码评测/基准

推荐理由：这个新基准把 AI 编程代理的评估拉到了更真实的复杂度，顶尖模型也只有不到四分之一的成功率，做 coding agent 的都该拿它测一测，它会比 SWE-bench 更挑出工程师的“手感”。

16:40

Hacker News 热门（buzzing.cc 中文翻译）

精选71

Kimi K2.7 Code 已在 GitHub Copilot 上正式发布

Kimi K2.7 Code 开源权重模型已在 GitHub Copilot 中正式可用，成为 Copilot 模型选择器首个可选的开源权重模型，为编程工作流提供更低成本选择。该模型由 GitHub 托管于 Microsoft Azure，按供应商列表价格以用量计费。逐步向 Copilot Pro、Pro+ 和 Max 计划用户推送，用户可在 Visual Studio Code 1.127.0 或更新版本、Visual Studio 17.14.6 或更新版本、JetBrains 1.9.1-251 或更新版本、Xcode、Eclipse 等 IDE 及 Copilot CLI、GitHub.com、GitHub Mobile 等平台中选用。后续几周将扩展至 Copilot Business 和 Enterprise，当前默认关闭，需管理员在 Copilot 设置中启用策略。

GitHub 产品更新开源生态编码

推荐理由：GitHub Copilot 首次把开源权重模型放进模型选择器，Kimi K2.7 Code 作为低价选项可能会改变很多开发者的使用习惯，对个人开发者尤其友好。

09:07

meng shao@shao__meng

精选77

Emil Kowalski 发布设计工程师 Skills，让 AI 编码工具具备 UI 动画审美

Emil Kowalski 将多年 UI/动画原则沉淀为三个 Skill，使 Codex、Claude Code、Cursor 等 Coding Agents 具备资深设计工程师的审美判断。核心规则：动画必须有理由；每天 100+ 次的高频操作禁用动画；UI 动画控制在 300ms 内；只动画 transform 和 opacity；入口从 scale(0.95)+opacity:0 开始；尊重 prefers-reduced-motion（仅移除位移动画）。review-animations 以严格标准审查动画代码，输出 Before/After/Why 表格。animation-vocabulary 将模糊描述（如“弹一下的效果”）转为专业动效术语。

智能体 GitHub 教程/实践编码

推荐理由：Emil 把设计工程直觉变成了 AI 编码代理能理解的规则，clone 下来就能让 Claude Code 和 Cursor 产出有品味的动效，做前端的值得立刻试试。

04:49

Claude Code：GitHub Releases（RSS）

精选64

Claude Code v2.1.198 发布

Claude Code v2.1.198 更新。Claude in Chrome 现已全面可用。为 claude agents 新增后台智能体通知（agent_needs_input / agent_completed）。新增 /dataviz 技能，提供图表与仪表盘设计指导及配色验证器。Gateway 增加 AWS 上的 Claude Platform 作为上游提供商。后台智能体在 worktree 中完成代码后自动提交、推送并创建草稿 PR。内置 Explore 智能体现继承主会话模型（上限 opus）。修复网络短暂断开导致响应中断、后台任务卡在“Running”状态、智能体团队队友因 API 错误失败等问题。

智能体 Anthropic 产品更新编码

推荐理由：如果你是Claude Code用户，这次更新很实在，Chrome版终于正式可用，背景agent的自动提PR和通知功能能省不少事，/dataviz也能辅助可视化。

00:07

Z.ai@Zai_org

精选67

推出 ZCode，GLM-5.2 的官方开发环境 - GLM Coding Plan 订阅用户：现可在 ZCode 获得 1.5 倍使用配额 - 支持 BYOK：可与您现有的订阅和 API 配合使用 - 适用于 macOS、Windows 和 Linux 立即下载：http://zcode.z.ai/en

产品更新编码

推荐理由：智谱为 GLM-5.2 推出官方 IDE，1.5 倍配额和自带密钥对已有订阅的人挺实用，但整体只是常规产品完善，算不上行业级事件。

7月1日

12:00

公众号：龙猫LongCat（美团）

精选82

美团 LongCat-2.0 正式发布：国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T，平均激活约48B，原生支持1M超长上下文，在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合（Agent/Reasoning/Interaction三组专家）架构。评测中SWE-bench Pro获59.5，SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放，月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码

关联讨论 9 条

推荐理由：国产算力上首个全流程自训的万亿开源模型，1M上下文和动态专家架构直指Agentic Coding场景，OpenRouter调用量已经冲到前三，不是Demo是生产力。

02:02

Anthropic：Newsroom（网页）

精选81

Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型，具备计划、浏览器和终端工具使用能力，可自主运行。性能接近 Opus 4.8，定价更低：即日起至 2026 年 8 月 31 日，输入 token $2/百万，输出 $10/百万，之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6，在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低，幻觉和谄媚减少，但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体 Anthropic 模型发布编码

关联讨论 13 条

推荐理由：Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet，性能接近 Opus 4.8 但价格只有三分之一，这对开发者来说性价比飞跃。虽然还不是最强，但已经能让许多复杂任务从勉强可用变成可靠。

01:28

Claude：Blog（网页）

精选72

Claude Code 入门：智能体循环

Claude Code 团队将智能体循环定义为 agent 重复工作直到满足停止条件的过程，并划分出四种主要类型：turn-based 循环（用户提示触发，Claude 自行判断完成或需更多上下文）、goal-based 循环（通过 /goal 命令设定可验证完成标准与最大轮次）、time-based 循环（通过 /loop 按时间间隔重复执行，可用 /schedule 移至云端）、以及 proactive 循环（基于事件或计划自动运行，无人实时参与）。文章还介绍了如何编写 SKILL.md 文件将人工验证步骤编码，让 Claude 进行端到端自检，减少 turn-based 循环中的手动操作。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic把agentic loops从模糊概念变成四种可复制的模式，附带SKILL.md和命令示例，Claude Code用户读完就能设计更自主的编码流程。

6月30日

11:36

小互@xiaohu

精选81

一个人管理5款产品，80%时间不写代码？Every的复利工程

媒体软件公司Every公开「复利工程」方法论，以单人工程团队维护5款产品。核心是四步循环：Plan→Work→Review→Compound，其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/，使AI下次自动避坑。工程师80%时间花在Plan和Review，仅20%用于写代码。配套开源插件支持Claude Code等，含26个专项agent、23条工作流命令、13项技能，可零配置使用。/workflows:review一次并发14个agent审查代码，/workflows:plan在ultrathink模式下可并发40多个研究agent。

智能体教程/实践编码部署/工程

推荐理由：Every把内部单人维护5款产品的方法论和插件开源了，14个AI同时审代码、40多个研究agent做计划，是目前公开的多agent并行工程里数字最具体的参考之一，做AI辅助开发的可以直接上手抄。

05:22

Claude：Blog（网页）

精选66

为 Amazon Bedrock 和 Google Cloud 推出的 Claude apps gateway

Anthropic 今日推出 Claude apps gateway，一个自托管控制平面，让企业能在 Amazon Bedrock 和 Google Cloud 上运行 Claude Code。它作为单个无状态容器部署于 Linux，后端使用 PostgreSQL，提供企业级 SSO 登录（通过 OIDC 对接 Google Workspace、Microsoft Entra ID、Okta 等）、集中策略管理、角色权限、路由（支持故障转移）以及按日/周/月、按组织/群组/用户的消费上限。遥测数据通过 OTLP 发送至用户配置的收集器。gateway 不会向 Anthropic 发送推理流量或使用数据（除非配置使用 Claude API）。即日起可用。

Anthropic Google 产品更新编码

推荐理由：Claude Code企业版有了统一管理入口，SSO和成本控制是团队落地AI编程的关键，对CTO来说值得关注。

01:57

Cursor Blog

精选75

从任何地点构建--Cursor for iOS 公测版发布

Cursor 推出 iOS 原生公测版，所有付费计划可用。开发者可在手机上启动始终在线的云端智能体，或远程操控电脑端智能体。支持语音输入、斜杠命令和选择前沿模型。智能体运行后，锁屏 Live Activities 和推送通知实时更新状态，完成或需要输入时提醒。云端智能体在隔离虚拟机中运行，可自动迭代生成合并就绪的 PR，并输出演示、截图和日志。本地与云端智能体支持双向切换。移动端 Composer 2.5 享受 75% 折扣，优惠至 2026 年 7 月 5 日。

智能体产品更新编码

关联讨论 1 条

推荐理由：Cursor 移动端把 Agent 放到了云上，从手机就能启动和合并 PR，通勤灵感不再浪费，对经常离开桌面的开发者是真正的效率杠杆。

6月29日

18:07

The Decoder：AI News（RSS）

精选73

Claude Code 打开 GitHub 仓库即执行隐藏恶意代码，攻击者可获完全控制

安全研究人员在 Mozilla 的 GenAI 漏洞赏金平台 0DIN 发现新攻击向量。一个看似正常的 GitHub 仓库包含 setup 脚本，该脚本运行时从 DNS 条目拉取命令并执行，恶意代码从未存在于仓库中，对扫描器、代码审查和 AI 智能体不可见。开发者使用 Claude Code 等 AI 编码工具打开该仓库时，Claude Code 在设置过程中遇到常规错误消息后自动运行该脚本，打开反向 shell，攻击者可窃取 API 密钥和登录凭据并维持持久访问。研究人员建议 AI 智能体应在运行前显示 setup 脚本内容，开发者应将第三方仓库的 setup 说明视为不受信任代码。

智能体 Anthropic 安全/对齐编码

推荐理由：用 AI 编码工具克隆仓库就能被反向 shell 控制，这个攻击向量比想象中简单。0DIN 的研究把整个链拆得很清楚，每条修复建议开发者现在就能用。

10:10

公众号：数字生命卡兹克

精选70

分享两个Vibe Coding必备的实用Prompt：第一性原理与对抗式审查

作者分享Vibe Coding中两个关键Prompt：一是“从第一性原理出发”，强制AI跳出类比推理，从基本事实重新推导本质，曾帮作者发现AIHOT抓取海外信源的底层流量路由隐患并彻底重构；二是“对抗式审查”，让AI站在恶意用户角度攻防式审查代码，检出OOM死循环、未来时间污染等手工难发现的BUG。两个Prompt形成生成与验证闭环，使纯Vibe Coding项目AIHOT最近一周请求量超千万次。

教程/实践编码

推荐理由：这两个 Prompt 把 Vibe Coding 从碰运气变成了有方法，第一性原理堵设计漏洞，对抗式审查堵代码漏洞，卡兹克用自己项目的真实翻车案例讲透，是我读过最实用的编程 Prompt 技巧。

6月28日

12:03

Hacker News 热门（buzzing.cc 中文翻译）

精选72

阿德拉菲尼尔：仅在AI agent工作时阻止Mac睡眠的菜单栏工具

Adrafinil 是一款 macOS 菜单栏应用，仅在 Claude Code、Codex、Cursor、Gemini CLI、Aider、Hermes、OpenCode、Cline、Pi 等 9 种 AI coding agent 持有活跃会话时阻止系统睡眠（包括合盖睡眠）。无 agent 工作时，合盖后 Mac 正常睡眠。它通过各 agent 的钩子系统调用 CLI，往返延迟低于 50ms，支持引用计数断言、热切出（温度阈值强制释放）、空闲释放及进程嗅探。需要 macOS Tahoe 26.4，Xcode 26+ 构建，以签名公证的磁盘映像提供。

智能体开源/仓库编码

推荐理由：阿德拉菲尼尔对macOS唤醒工具做了一次有趣的重新思考，不是一直醒着，而是只在AI代理工作时醒着，合盖也能跑长任务，对用Claude Code或Cursor的开发者是实用的开源伴侣。

04:33

Hacker News：AI 热帖

精选72

Weave 推出智能模型路由工具，可直接接入 Claude Code、Codex 和 Cursor

Weave 发布智能模型路由工具，通过 npx @workweave/router 安装，作为本地代理运行在 localhost:8080。它采用基于 Avengers-Pro 1 的集群评分器，每个请求自动选择最佳模型。支持 Anthropic、OpenAI、Gemini 原生 API，并通过 OpenRouter 接入 DeepSeek、Kimi、GLM、Qwen、Llama、Mistral 等开源模型。用户自行保管提供商密钥，数据本地加密存储。工具兼容 Claude Code、Codex、Cursor 等客户端，并提供 OTLP 追踪，支持自托管部署。

智能体产品更新编码

推荐理由：如果你在 Claude Code、Codex 和 Cursor 之间反复切换模型，这个代理用一个端点和智能路由就解决了，省掉不少麻烦。基于 Avengers-Pro 的路由比瞎猜靠谱得多。

6月27日

07:35

MarkTechPost（RSS）

精选75

Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现，编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题：智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示，63% 的成功修复来自检索，其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%；Cursor 自家 Composer 2.5 差距最大，达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境（隔离 git 历史、限制网络出口）以获取可信分数。

智能体 Anthropic GitHub 编码

推荐理由：Cursor 的审计把 SWE-bench Pro 的信任基础动摇了，63% 的高分轨迹是通过检索现成修复而非独立推理，以后选型不看 harness 严格度等于开盲盒。

6月26日

10:10

公众号：数字生命卡兹克

精选71

Claude Code 6个实用Hook玩法

Claude Code 内置近30个Hook事件（年初仅13个），本质是写死的规则脚本，运行时不消耗token。6个实用玩法：权限弹窗提醒、开机日程播报（问候+天气+飞书日程）、上下文预压缩时自动生成摘要卡片、结合Skill自动整理下载文件夹、启动后每小时久坐提醒、通过Bark实现手机/手表任务完成/失败推送。让AI从被动聊天框变为事件驱动的自动化系统。

智能体 Anthropic MCP/工具教程/实践

推荐理由：卡兹克把Claude Code的Hook拆成6个具体玩法，从权限弹窗到自动整理文件，每个都能直接抄作业，是让Agent从对话工具变成工作系统的最实用入门。

06:12

Claude Code：GitHub Releases（RSS）

精选61

Claude Code v2.1.193 发布

Claude Code v2.1.193 新增 autoMode.classifyAllShell 设置，将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 /permissions 页面。新增 claude_code.assistant_response OpenTelemetry 日志事件（默认不记录，需设置 OTEL_LOG_ASSISTANT_RESPONSES=1）。Bash 模式支持实时文件路径自动补全；MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收（可禁用）。修复 /model UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题，并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。

智能体产品更新编码

推荐理由：一次扎实的工具更新，自动模式覆盖所有 shell 命令和 MCP 认证重连是最实用的改进，后台任务内存回收也解决了长期痛点，Claude Code 用户值得更新。

05:21

OpenAI Developers@OpenAIDevs

精选66

OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放（GA），并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确，用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步，而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

OpenAI: You've been asking for this one... Now in preview: Codex in the ChatGPT mobile app. Start new work, review outputs, stee...

OpenAI 产品更新编码

推荐理由：Codex 移动端全面开放，终于可以在手机端管理编码任务了，对习惯远程操控的开发者是个实用里程碑。

00:19

Berryxia.AI@berryxia

精选76

Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模

Ornith-1.0 开源模型家族发布，专注智能体编程（Agentic Coding），覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖：SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练，采用强化学习联合优化任务脚手架（scaffold）与最终解决方案，让模型自主改进执行框架。全系列 MIT 开源，提供 GGUF 版本，支持 Ollama、Unsloth 等本地运行。

Ornith: Aloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parame...

智能体开源生态模型发布编码

关联讨论 1 条

推荐理由：Ornith-1.0 不是又刷 benchmark，而是第一次把‘任务脚手架’的生成也纳入 RL 优化，这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF，本地党可以立刻跑起来。

6月25日

22:08

OpenRouter：Announcements（RSS）

精选71

OpenRouter MCP 服务器发布

OpenRouter 推出 MCP 服务器，为编程智能体提供实时模型数据、基准排名、定价和文档查询。开发者通过一键安装（支持 Claude Code、Codex CLI、Cursor 等客户端），即可在编辑器内完成模型筛选、价格对比和测试推理，无需切换标签页。服务器整合 Artificial Analysis、Design Arena 及 OpenRouter 自身排名数据，例如推荐 GLM-5.2 作为性价比最佳的编码模型。工具集包括 models-list、model-get、model-endpoints、benchmarks 等，支持通过 chat-send 发送测试提示，比较不同模型（如 Claude Opus 4.8、GPT-5.5、DeepSeek V4 Pro）的响应、成本和延迟。API 密钥附带 7 天有效期和 10 美元消费上限，可随时撤销。

MCP/工具产品更新编码

关联讨论 1 条

推荐理由：OpenRouter 这个 MCP 服务器让编码 agent 直接从编辑器里选模型、查价格、跑测试，省掉了切浏览器查资料的15分钟，做 AI 开发的值得立刻装上。它把模型选择变成了 agent 自己能完成的工作流，而不只是人工猜测。

06:06

TechCrunch：AI（RSS）

精选70

AI被认为会取代工程岗位，但新数据显示工程是2025年最具韧性的岗位

风投机构SignalFire追踪8000万家公司数百万员工数据发现，工程是2025年最具韧性的岗位。大型科技公司总招聘较2019年下降25%，工程岗仅降11%；工程岗占Alphabet、Meta等12家“Tech Majors”新招员工的55%（2019年为46%）。早期初创公司2025年工程师招聘比2019年增长7%。Anthropic CEO警告AI可能消灭一半入门级白领，但该公司经济主管称尚未看到显著影响。NVIDIA CEO黄仁勋表示AI让工程师更忙碌，是杰文斯悖论的典型例证。

Anthropic 现象/趋势编码

推荐理由：SignalFire 的报告用招聘数据讲了一个反直觉的故事：工程师不仅没被 AI 取代，反而成为科技公司招聘的主力，这比“AI 夺走一切”的恐慌论有说服力得多。Jevons 悖论在工程领域正在发生。

04:55

Cursor Blog

精选65

Notion 使用 Cursor SDK 嵌入编码智能体

Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务，Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架，Notion 的讨论串对应一个 Cursor 智能体，每条消息对应一次智能体运行；结果通过 SSE 流式传输，支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持，让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体，并设置自动触发规则。

智能体产品更新编码

推荐理由：我对“嵌入代理”的概念有点怀疑，但Notion用两周集成Cursor SDK，说明其抽象做得不错。文章展示了怎么把一个全栈编码代理塞进产品里，做工具的可以看看SDK设计。

01:06

The Decoder：AI News（RSS）

精选74

Figma在Config 2026押注人类判断，画布AI能力却来自第三方

Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果，并集成去年收购的Weave工作流系统。新功能包括Code Layers（代码与设计并存）、Motion动画、深度层、Shader及Generative Plugins。协作方面，团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型，推理成本挤压利润率。同时，Anthropic等公司的竞争产品可直接生成界面，构成威胁。

智能体 Anthropic 产品更新编码

推荐理由：我认为Figma这波更新很务实，它没有硬扛AI生成界面的对手，而是把代码、动效、3D拉进画布，用人的判断驾驭AI。虽然利润被模型供应商挤压，但共享提示和工作流的设计让团队协作更高效，做设计和产品的值得细看。

6月24日

22:31

公众号：火山引擎

精选74

字节跳动技术副总裁洪定坤：AI Coding 的实践与探索

在火山引擎Force大会，字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年，字节AI代码贡献率增长6倍，tokens消耗增长5倍，但过度关注单一指标可能失真——TRAE团队代码超90%由AI生成，人均需求吞吐率仅提升60%。900次实验显示，主流Coding模型组合代码正确率超80%，但可交付性仅40-60分；结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协作。字节探索原型驱动开发，能力沉淀至TRAE（日均Token消耗5.6万亿，增长50倍），并推出TRAE Work。

大佬观点现象/趋势编码

推荐理由：洪定坤把字节用 AI Coding 一年踩的坑和实验数据摊开讲，尤其‘过度重视代码贡献率’的反思和 Harness 基建的实证，是所有推 AI 编程的团队必看的复盘。

01:09

Anthropic：Newsroom（网页）

精选56

Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag，一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文，支持多用户交互，经授权后可自动学习其他频道和数据源。开启“环境”行为后，能主动更新未解决的线程或任务。支持异步工作，可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具和渠道访问权限、设置 token 消耗限额，并查看所有操作日志。

智能体 Anthropic 产品更新编码

关联讨论 3 条

推荐理由：Anthropic 这次把 Claude 从对话助手变成了团队里的主动队友，Slack 里的多人协作、上下文学习和异步代理是个新思路。内部 65% 代码由它生成的数据，让这个方向不再只是实验。

6月23日

12:39

字节 Seed：Research Feed（网页内嵌数据）

精选64

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents' Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL2Repo-Bench表现良好，开发者评测相比Claude Opus 4.6获59.1%胜率。模型已在豆包、TRAE上线，API通过火山方舟提供。

智能体多模态模型发布编码

关联讨论 4 条

推荐理由：字节 Seed2.1 这次更新把 Agent 和代码交付稳定性提到新高度，官方测评在多个硬核基准上不输 Claude Opus。虽然技术细节少，但豆包和 TRAE 直接可用，做 Agent 和开发的值得上手试试。

05:12

Hacker News 热门（buzzing.cc 中文翻译）

精选72

Show HN：Oak--专为代理设计的 Git 替代方案

Oak 是开源版本控制系统，专为 AI 智能体（Claude Code、Codex、Cursor）设计。采用 BLAKE3 内容哈希、内容定义分块、diff/merge 及 Blob/Manifest/Commit/Tree 数据模型，可选 SQLite 和 git 后端。以分支-会话为基本工作单元，用分支描述替代逐次提交，通过内容寻址懒加载使智能体数秒内编辑任意仓库。速度远超 git。已发布公开测试版 v0.99.0，支持 macOS（Apple Silicon）、Linux（x86_64）及 Windows，可通过 curl 或 cargo 安装，Apache-2.0 开源。

智能体产品更新编码

推荐理由：专为 AI 代理打造的全新版本控制工具，分支作为会话单元、内容寻址懒加载，设计直接摆脱了 git 的包袱，用 agent 的开发者值得一试。

02:16

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

Codex 用于长期工作：最大化效能实践

OpenAI 发布白皮书，由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流，并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性，以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体 OpenAI 教程/实践编码

推荐理由：这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace，对管理长周期项目的团队有实操借鉴，但终究是厂商教程，未提供突破性方法论。

01:40

Cursor Blog

精选72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体 Anthropic OpenAI 编码

推荐理由：Cursor这项审计把基准作弊量化了：更强模型更会找现成答案，SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了，环境不控住分数毫无意义。

00:11

xAI：News（网页）

精选69

Grok Build 推出 /goal 模式，支持长时间自主任务执行

xAI 在 Grok Build 中引入 /goal 新模式。用户只需用一行命令设定目标，agent 便会自动规划方案、分解任务为进度清单并持续执行，直至目标完成且通过验证，期间可额外下达指令。该模式支持监控与引导命令，任务完成时清单全部勾选。即日起可用，用户可通过 curl -fsSL | bash 安装 CLI 并登录账号即可使用。

智能体 xAI 产品更新编码

推荐理由：把Grok Build从单步指令升级成可长期自主执行任务的Agent，对习惯把代码扔给AI就跑开的开发者很友好，但目前只有CLI，生态还没铺开。

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月22日

22:05

IT之家（RSS）

精选70

Anthropic 工程负责人：Claude Code 让程序员更孤独

6月22日，Anthropic工程负责人Fiona Fung表示，Claude Code和Claude Cowork等AI智能体让工程师越发依赖智能体工作，彼此之间交流减少，长期易感孤独。团队为此组织编程午餐、黑客松和共同开发时段，重新创造面对面协作机会。调查显示Claude Code已成为创业公司最常用的AI编程工具，“氛围编程”兴起使“单人创业者”增多，但Fung强调协作仍不可或缺。

Anthropic 大佬观点编码

推荐理由：Claude Code 团队内部反思 AI 编程的副作用，比外界批评更有说服力，编程午餐和结对编程的解法虽然简单，但至少正视了问题。

6月19日

10:56

MarkTechPost（RSS）

精选75

Salesforce CodeGen教程：生成、验证并重排序Python函数（含单元测试与安全检查）

本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型（支持350M、2B、codegen2-1B、codegen25-7b等版本），通过自然语言提示生成Python函数，随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力，不仅完成代码补全，还能评估、筛选和组织生成结果。

Hugging Face 开源生态教程/实践编码

推荐理由：这篇教程把CodeGen从单纯补全变成一个带安全检查、单元测试和候选重排序的工程化代码生成管道，读完能直接套用到日常写代码里，对想落地的开发者非常友好。

02:54

Claude：Blog（网页）

精选72

Claude Code 现已支持 artifacts

从今日起，Claude Code 可将工作进度生成为 artifacts——实时、可分享的交互式网页，涵盖 PR 走查、系统说明、仪表盘、发布清单等。artifacts 基于会话完整上下文（代码库、连接器、对话）自动构建，更新时页面原地刷新，同事即时可见。默认仅作者可见，可分享给组织内成员，由管理员通过组织层级开关和角色权限管控。内部测试中最常见用例为调试：工程师调查事件，Claude Code 分析日志并发布包含时间线、嫌疑提交和错误率图表的 artifact，团队无需再“走过场式汇报”。

Anthropic MCP/工具产品更新编码

推荐理由：Artifacts 把 Claude Code 里的工作进展变成可分享、自动更新的活页面，等于给开发协作装了个实时投影仪，但仅限企业用户，个人开发者还得再等等。

01:51

Claude：Blog（网页）

精选72

驾驭 Claude Code：CLAUDE.md、技能、钩子、规则、子智能体等

Claude Code 提供七种自定义指令方式：CLAUDE.md（根目录始终加载，子目录按需加载）、规则（无范围或路径范围）、技能（按需调用，共享 token 预算）、子智能体（隔离上下文运行并返回最终消息）、钩子（生命周期事件触发，绕过压缩）、输出样式（注入系统提示，永不压缩）和附加系统提示（CLI 标志，仅单次有效）。每种方式在加载时机、压缩行为、上下文成本和适用场景上各有不同，例如 CLAUDE.md 适合存放构建命令与编码规范，路径范围规则避免无关上下文消耗，子智能体用于并行隔离任务，钩子用于确定性自动化（如运行 linter 或备份聊天记录）。

Anthropic MCP/工具教程/实践编码

推荐理由：如果你用Claude Code，这篇把定制化方法讲透了，从何时用技能到何时用钩子，比扒拉文档高效得多。

6月18日

09:20

OpenRouter：Announcements（RSS）

精选65

如何用 OpenRouter 接入任意编码代理或 AI 工具

OpenRouter 提供统一 API 键（sk-or- 开头），兼容 OpenAI Chat API，可接入 300+ 模型和 60+ 供应商。用户只需将 base URL 改为 https://openrouter.ai/api/v1，设置 API 键，并指定模型 slug（如 openai/gpt-4o 或 anthropic/claude-sonnet-4）即可。同一键可直接用于 Claude Code、Codex CLI、Cursor、Cline 等编码代理与工具。其路由机制在供应商故障时自动切换，代理无需感知失败即可继续多步骤任务。OpenRouter 也提供 Python 和 TypeScript 原生 SDK。

教程/实践编码

关联讨论 1 条

推荐理由：如果你在 Cursor、Claude Code 和自定义代理之间来回切 API 密钥，这篇 OpenRouter 官方教程把设置统一成一个模式，读完就能把三四个工具连到同一个路由后端。

04:44

Claude：Blog（网页）

精选70

Claude Design 更新：跨项目保持品牌一致，与Claude Code协同

6月17日，Claude Design 更新，支持跨项目使用统一设计系统，并与Claude Code同步工作流。用户可直接拖拽、对齐和缩放画布元素，编辑器稳定性大幅提升。设计系统可从GitHub、设计文件或原始上传导入，团队管理员可锁定标准系统防止篡改。新增桌面端侧边栏入口及独立网页端claude.ai/design。使用限制与聊天、Claude Cowork、Claude Code共享，每次任务消耗更少token，错误率下降。支持导出PDF、PPT，集成Adobe、Canva、Gamma等工具。发布首周用户超一百万。

Anthropic MCP/工具产品更新编码

关联讨论 3 条

推荐理由：Claude Design 从原型工具升级为日常设计工作流，设计系统锁定和 Claude Code 同步打通了从想法到代码的管道，设计师和前端团队值得一试。

04:13

AYi@AYi_AInotes

精选76

Matt Pocock 开源 skills v1：将技能描述 Token 成本降低 63%

Matt Pocock（Total TypeScript 作者）开源了 skills v1，将技能描述的 Token 成本降低 63%。该工具包将技能分为模型可调用和用户可调用，新增 /codebase-design、/domain-modeling、/grilling 三项技能；重写 /writing-great-skills；将 /diagnose 更新为 /diagnosing-bugs 并改为模型可调用；新增 /ask-matt 路由技能，帮助 AI 自动判断时机触发合适工程流程。主推文评价其将 prompt 从咒语拆解为纪律性流程。

Matt Pocock: Announcing mattpocock/skills v1 - Achieved a 63% reduction in token cost for skill descriptions - Split skills into mode...

GitHub MCP/工具开源/仓库编码

推荐理由：mattpocock 把资深工程师的编码流程拆成可复用的技能，Token 砍 63% 只是个结果，更有价值的是 AI 自触发技能的设计，vibe coding 进阶者必看。

6月17日

23:49

Yuchen Jin@Yuchenj_UW

精选77

编程的未来不是单一智能体，而是一个完整的AI团队。 Omnigent让你在一个实时会话中运行一个智能体团队：Claude Code、Codex、Cursor、Pi，以及你自己的智能体。它是一个面向AI智能体的元框架，基于我们内部的Databricks开发工具构建，现已开源给所有人。由传奇人物@matei_zaharia和Databricks AI团队打造。没错，Matei仍然编写大量代码，包括Omnigent和我们产品的前端代码。

智能体开源/仓库编码

推荐理由：Databricks 把内部用来协调多个 AI 编码代理的工具开源了，集合了 Claude Code、Cursor 等，做 agentic coding 的开发者值得上手试试，可能会改变我们组合使用 AI 工具的方式。