# OpenAI 评估团队谈模型评估重要性

- 来源：OpenAI (@OpenAI)
- 发布时间：2026-06-17 01:23
- AIHOT 分数：31
- AIHOT 链接：https://aihot.virxact.com/items/cmqgx6xv301e5slpu10oacx9e
- 原文链接：https://x.com/OpenAI/status/2066934692641956231

## AI 摘要

我们来聊聊评估。

我们一直在寻找更好的方法来衡量和预测模型进展，尤其是在基准测试逐渐饱和或被钻空子的时候。

领导我们前沿评估团队的 @tejalpatwardhan 与 @andrewmayne 谈到了评估为何重要，以及接下来模型需要被评判的标准。

## 正文

Let's talk about evals.

We're always looking for better ways to measure and forecast model progress， especially as benchmarks get saturated or gamed.

@tejalpatwardhan， who leads our frontier evals team， spoke to @andrewmayne about why evals matter and what models need to be judged on next.
