# 微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为

- 来源：IT之家（RSS）
- 发布时间：2026-06-03 03:10
- AIHOT 分数：65
- AIHOT 链接：https://aihot.virxact.com/items/cmpx2m49s0023slck40mnhzk3
- 原文链接：https://www.ithome.com/0/959/024.htm

## AI 摘要

微软推出开源框架 ASSERT，旨在将自然语言行为规范直接转换为可执行的评估流程。该框架能从需求文档等文本出发，自动生成测试场景、评估指标并对目标模型进行测试。它将评估系统化为四个阶段：细化规范、生成测试用例、运行测试并记录轨迹、对轨迹评分。验证研究表明其生成的测试集覆盖更广，且大语言模型判定器与人工审核一致率较高。该框架适用于行为定义明确的场景，旨在使评估更快速、明确。

## 正文

IT之家 6 月 3 日消息，微软今日宣布推出开源框架 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动评分），旨在将自然语言写成的行为规范直接转换为可执行的评估流程。

据介绍，ASSERT 能够从产品需求、政策文件或系统提示等文本出发，自动生成测试场景、数据集、评估指标和计分卡，并针对目标模型、应用或智能体运行测试。

该框架建立在这样一个前提之上：行为规范本身应当成为评估的核心输入，而非仅仅作为背景参考。ASSERT 将这一过程系统化为四个阶段：

首先，将宽泛的行为描述细化为明确的概念规范，进而转换为可编辑的许可与不许可行为分类体系；

随后，基于开发者指定的维度（如任务类型、角色、工具可用性等）生成分层测试用例，涵盖单轮提示、多轮场景以及善意交互和对抗性探测；

接着，对目标系统运行这些用例并记录完整轨迹，包括工具调用、中间决策等；

最后，对照行为分类和策略立场对每个轨迹进行评分，输出通过与否标签、判断理由、策略引用以及作出该裁决的具体回合或动作。

为了验证 ASSERT 的有效性，微软团队开展了两项覆盖率研究和人工评审对比。

第一项覆盖率研究显示，相比直接从意图生成的评估集，ASSERT 在多项行为（IT之家注：如社会评分、拍马屁行为、任务遵循、工具使用规范、不安全健康建议）上生成的测试集覆盖更广，暴露出更多值得检查的案例，区分强弱系统的能力更强，同时显现出更多独特的失败模式。

第二项验证通过对比 LLM 判定器与人工审核，显示两者一致率通常在 80%–90%，而人工标注者之间一致率约为 90%，表明 LLM 判定器能够捕捉大部分目标信号，但在策略细微差别或高度专业领域仍需谨慎。

微软指出，ASSERT 最适用于行为定义明确、约束清晰的场景。丰富的工具、政策和边界描述有助于生成更精确的测试用例。开发者不应将汇总评分视为最终结论，更多情况下，收集的失败案例和操作轨迹对改进系统和评估方法更有价值。ASSERT 并不能替代人工判断、遥测数据或领域专家评审，而应将其作为使评估更快速、更明确和更易于迭代的一种方式。

参考资料：

代码库：https://github.com/responsibleai/ASSERT

项目网站：aka.ms/ASSERT

实例：travel-planning agent