meng shao@shao__meng

2026-05-28 08:35·36天前

AI 摘要

本文指出，评估面向生产环境的 AI 智能体，应与实验室 benchmark 及聊天机器人/RAG 评估严格区分。核心是确定评估方向：针对 Cursor、Claude Code 等工具的 Benchmark-maxxer，旨在刷能力上限；针对客服、银行等自主智能体的 Floor-raiser，旨在抬高可靠性下限。指南推荐一个工作闭环：上线前摸底、离线代码感知评估、上线后日志分析与修复。总结的五个关键经验包括：多数产品应优先抬下限、评估需基于真实失败案例、离线评估需代码感知、按流量分阶段升级，以及让评估套件成为防止问题复发的“记忆”。

2026 年面向生产环境 AI Agent 的评估指南

Agent 评估 ≠ 实验室 benchmark Agent 评估 ≠ chatbot / RAG 评估 https://www.howtoeval.com/

看两个关键概念：Benchmark-maxxer vs. Floor-raiser Benchmark-maxxer（刷能力上限） · 让专家用户更强 · 用于 Cursor、Claude Code、Codex 等场景 · 抽象测试集、能力分数

Floor-raiser（抬可靠性下限） · 让普通用户敢用、敢信 · 用于客服、银行、医疗等自主 Agent · 读真实 trace、找致命失败模式

完整工作流（作者主张的闭环）上线前摸底 → 离线 code-aware eval → 上线后读日志 → 分类/修复 → 回归测试 → 再上线

值得重视的洞见（与业界共识一致的部分） 1. Floor raising = Hamel Husain 式的 error analysis：先读真实交互，找「最后成功一步」和「第一次真失败」，再修模式而非个案。 2. Agent eval ≈ E2E 测试：和 OpenAI macro evals、Sentry vitest-evals 方向一致。 3. Eval 套件应是「拒绝复发的记忆」，不是覆盖想象的巨型测试集。 4. 轨迹可观测性在模型越来越「黑箱 agentic」时会更重要；未来 harness 可能坍缩进模型，端到端 + 生产监控会更主导。 5.「我不知道」是 floor-raising 的低成本杠杆--对替代人类的产品，信任 > 炫技。

值得提炼的五个观点和经验 · 先选目标：刷上限还是抬下限--多数产品 Agent 该选后者。 · 抬下限 = 读真实失败，AI 可帮忙聚类 trace，但分类逻辑要人定。 · 离线 eval 必须 code-aware、跑真路径，像单元/E2E 测试，不像 prompt 打分。 · 上线后按流量升级：stumble → issue → signal → experiment，别跳步。 · 闭环：真实失败 → 少量高信号回归 → 修 → 在线验证；别让 eval 套件变成没人看的博物馆。

ben hylakintroducing howtoeval dot com. the no-bullshit guide to eval'ing AI agents. from personal experience, and from working with the best companies in the world. the...

智能体大佬观点

在 X 查看原推

meng shao@shao__meng · X

68导出 Markdown