# 两年过去，LLM 测试时计算缩放仍被忽视

- 来源：Noam Brown (@polynoamial)
- 发布时间：2026-06-09 23:35
- AIHOT 分数：68
- AIHOT 链接：https://aihot.virxact.com/items/cmq6t1fiy0bk8sl5ialihze8o
- 原文链接：https://x.com/polynoamial/status/2064370734806532289

## AI 摘要

自 @OpenAI o1 以来，我们就知道 LLM 测试时计算缩放。
然而两年后，实验室仍在报告模型的标量评测；安全组织仍对某个脚手架通过 100 倍推理表现更好感到惊讶；而 RSP 在决定关键阈值时仍忽略推理预算。

## 正文

We've known about LLM test-time compute scaling since @OpenAI o1.
Yet 2 years later labs still report scalar evals for models； safety orgs are still surprised when a scaffold does better via 100x inference； and RSPs still ignore inference budget when deciding critical thresholds.

### 引用推文

> Noam Brown：http://x.com/i/article/2057694226981257216