Anthropic推出Claude Managed Agents,将推理循环与代码执行沙箱解耦,凭证存入独立Vault,自托管沙箱支持内网,首字延迟中位数降低六成、长尾降低九成。阿里工程师复盘Harness工程化,提出三层加载架构与G1-G8门禁。Google DeepMind的Logan Kilpatrick称模型正“吞掉”脚手架,Gemini 3.5 Flash编程能力完全来自后训练。另,Qwen3-VL-4B在支持SME2的旗舰手机上Prefill提速超80%;Fable AI实现1770%性能提升并发现关键Bug;此外涉及AI取代工程师、多智能体数字人、CFO用GPU替代加薪等讨论。
BestBlogs 早报 · 06-12
Claude Managed Agents / Harness 工程化 / 模型吞脚手架 / Logan Kilpatrick / Gemini 3.5 Flash
【1】 ★ 精讲|智能体交互界面的演进:使用 Claude Managed Agents 进行构建 | Claude Anthropic 推出 Claude Managed Agents,把智能体的「大脑」(推理循环)和「双手」(代码执行沙箱)彻底解耦,靠可恢复的事件日志连接两端:凭证统一存进独立的 Vault,绝不暴露给生成的代码,自托管沙箱还能让代码留在企业内网,首字延迟中位数降低六成、长尾降低九成以上,Notion、Sentry、Rakuten 等都已在生产环境跑通。 来源:Claude Blog https://www.bestblogs.dev/article/8e6ddfdf
【2】 ★ 精讲|AI 不缺智商缺纪律:一场 Harness 工程化实践 一位阿里工程师复盘两个月的 AI Harness 演进:从把所有规则堆进 CLAUDE.md 导致「读完规则没脑容量读代码」,到三层加载架构 + dispatcher 状态机 + 文件交接 + G1-G8 门禁,再用 7 维确定性评分给每次改动打分,结论是「用更好的结构约束 AI,而不是用更多的字」。 来源:阿里技术 https://www.bestblogs.dev/article/07b28cbc