本周,DeepMind、Anthropic、Alibaba等实验室的论文共同显示,AI智能体正从聊天机器人转向可工程化、可审计的生产力系统。Agentic Harness Engineering将智能体支架转化为可观测的工程闭环,提升性能且优化可跨模型迁移。Alibaba的AgenticQwen-30B-A3B通过并行强化学习飞轮,在低激活参数下实现接近大模型的工具使用能力,重塑成本。RecursiveMAS革新多智能体通信,大幅降低消耗并提升效率。这些进展标志智能体系统正从实验阶段走向生产级工程,其工程化可能成为AI落地关键。
本周AI agent领域悄然发生了一个有意思的现象。
DeepMind、Anthropic、Alibaba等顶级实验室的最新论文集体指向同一个方向:智能体不再是简单调用工具的"聊天机器人",而是正在变成可工程化、可审计、可规模化的真正生产力系统。
先看Agentic Harness Engineering--它把目前最头疼的"智能体支架"从手工调优、试错进化的黑箱,变成了可观测、可证伪的工程闭环。
系统被拆成三层:可版本回滚的组件文件、从百万轨迹token中提炼的结构化经验证据、以及可验证的决策预测。
每一次修改都变成可审计的契约。
结果?
Terminal-Bench Pass@1从69.7%提升到77.0%,超越人类设计的Codex-CLI,还节省12% token。
更重要的是,这个框架的优化能跨模型迁移,证明它抓到了结构本质而非特定模型的过拟合。
再看Alibaba的AgenticQwen-30B-A3B-一个只有30B参数的MoE模型,激活参数仅3B,却在真实工具使用任务上接近235B级别的Qwen3表现。