5月27日

10:09

Peter Steinberger 🦞@steipete

autoreview是我添加到技术栈中最具影响力的技能（仅次于http://crabbox.sh）。它能在PR合并前自动审查你的代码。发现许多边缘情况。有时运行数小时。

智能体 GitHub 教程/实践编码

09:30

meng shao@shao__meng

基于 Claude AI、Claude Code、Claude Cowork 三款产品工程实践对 Agent 安全的实战总结

Anthropic 基于 Claude AI、Claude Code 和 Claude Cowork 的工程实践，系统总结了构建安全 AI 智能体的经验。核心原则是防御应随智能体能力演进，并优先使用沙箱来限制破坏性动作。文章详述了三层防御架构（环境层、模型层、外部内容层）及三款产品的隔离模式：Claude AI 使用短暂容器，Claude Code 采用人机协同沙盒，Claude Cowork 则部署密封虚拟机。关键数字包括：Claude Opus 4.7 在 Gray Swan Agent 红队基准上单次攻击成功率约 0.1%，100 次尝试后约 5-6%；Claude Code 自动模式拦截约 83% 的过度积极行为。通过真实攻击案例，强调了环境层防御（如出站阻断）的关键性。

Anthropic: New on the Engineering Blog: The access and permissions we grant agents should evolve with their capabilities. In our ow...

智能体 Anthropic 安全/对齐部署/工程

09:00

meng shao@shao__meng

微软发布终端原生 Web Agent 框架：Webwright

微软开源了终端原生Web Agent框架Webwright。其核心创新是“代码即动作”：让大语言模型直接编写可执行的Playwright Python脚本，而非传统的“观察-预测-点击”循环，由此生成的程序可复用。在性能上，基于GPT-5.4在Odysseys长程任务基准上达60.1%，较此前SOTA提升15.6个百分点；基于Claude Opus 4.7在难例上达80.5%，超越GPT-5.4。框架架构极简，核心代码约1000行，并已与Claude Code、OpenAI Codex等集成。用户评论表达了对该工具在浏览器自动化方面相比Playwright能带来巨大提升的期待。

Omar Shahine: Need to try this. Hoping for massive boost over Playwright for browser automation. https://github.com/microsoft/webwrigh...

智能体 Microsoft 开源/仓库

08:59

宝玉@dotey

Skill自我进化需明确标准，SkillOpt框架实现迭代优化

文章指出，只有具备明确、可程序自动验收标准的Skill才能有效自我进化，例如优化代码性能。微软等机构提出的SkillOpt框架，通过让AI评估并迭代优化Skills，使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并，并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”，这标志着提示词工程与模型训练界限的融合。

karminski-牙医: 什么?! skill 也能"训练"了? 以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了. 但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让...

智能体大佬观点论文/研究

08:39

🚨 AI News | TestingCatalog@testingcatalog

Atomic Bot发布了Hermes Agent的iOS应用，将移动端控制功能引入一个在您自己的VPS上24/7运行的自托管智能体。 > 通过Tailscale、Cloudflare或ngrok进行远程访问 > 默认开源且私密

atomicbot.ai: We released iOS app for Hermes Agent 📱 Connect to your self-hosted agent over Tailscale, Cloudflare Tunnel or ngrok. Or...

智能体产品更新

08:29

meng shao@shao__meng

开发者 AlexFinn 在长期并行对比后，为何选择转向 Codex？

开发者 AlexFinn 在连续两个月、每天数小时并行使用 Codex 和 Claude Code 后，决定转向 Codex。其核心原因在于 Codex 拥有强大的自测闭环功能：每次代码改动后，它会在内置浏览器中自动验证，形成“改→测→修”的自动化循环。这一机制将首次交付有 bug 的改动比例从约 40% 显著降低至 ≤3%，可靠性大幅提升，更利于开发者保持心流。他建议开发者不要对任何公司忠诚，应始终使用当下最好的工具。

Alex Finn: I'm 100% Codex pilled now Been using Codex and Claude Code side by side hours a day for 2 months straight No longer usin...

智能体编码评测/基准

08:27

Berryxia.AI@berryxia

Gemma 4新玩法：开源地牢游戏让AI实时构建Web应用

Google Gemma团队开源了AIventure项目，这是一款地牢爬行游戏。玩家可以向游戏中的NPC输入提示词，AI会实时构建可运行的Web应用。AI核心由Gemma 4驱动，负责理解指令、规划步骤并生成代码。项目将智能体工作流与氛围编程融入游戏，是面向开发者的实操大师课，从游戏设计到智能体集成均已开源。

Google Gemma: Gemma 4 meets retro gaming! 🕹️✨ Introducing AIventure: an open-source dungeon crawler designed as a developer mastercla...

智能体 Google 开源生态教程/实践