本文指出,评估面向生产环境的 AI 智能体,应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向:针对 Cursor、Claude Code 等工具的 Benchmark-maxxer,旨在刷能力上限;针对客服、银行等自主智能体的 Floor-raiser,旨在抬高可靠性下限。指南推荐一个工作闭环:上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括:多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级,以及让评估套件成为防止问题复发的“记忆”。
2026 年面向生产环境 AI Agent 的评估指南
Agent 评估 ≠ 实验室 benchmark Agent 评估 ≠ chatbot / RAG 评估 https://www.howtoeval.com/
看两个关键概念:Benchmark-maxxer vs. Floor-raiser Benchmark-maxxer(刷能力上限) · 让专家用户更强 · 用于 Cursor、Claude Code、Codex 等场景 · 抽象测试集、能力分数
Floor-raiser(抬可靠性下限) · 让普通用户敢用、敢信 · 用于客服、银行、医疗等自主 Agent · 读真实 trace、找致命失败模式
完整工作流(作者主张的闭环) 上线前摸底 → 离线 code-aware eval → 上线后读日志 → 分类/修复 → 回归测试 → 再上线
值得重视的洞见(与业界共识一致的部分) 1. Floor raising = Hamel Husain 式的 error analysis:先读真实交互,找「最后成功一步」和「第一次真失败」,再修模式而非个案。 2. Agent eval ≈ E2E 测试:和 OpenAI macro evals、Sentry vitest-evals 方向一致。 3. Eval 套件应是「拒绝复发的记忆」,不是覆盖想象的巨型测试集。 4. 轨迹可观测性在模型越来越「黑箱 agentic」时会更重要;未来 harness 可能坍缩进模型,端到端 + 生产监控会更主导。 5.「我不知道」是 floor-raising 的低成本杠杆--对替代人类的产品,信任 > 炫技。