# 关于模型 one-pass 能力与测评方向的讨论

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-12 07:32
- AIHOT 分数：56
- AIHOT 链接：https://aihot.virxact.com/items/cmqa4yvw00i7fslld6sesyh8z
- 原文链接：https://x.com/karminski3/status/2065215584372211909

## AI 摘要

karminski认为，one-pass能力强（少思考即正确）的模型才是SOTA；需用agentic coding修复首次错误反显模型差，bug应在thinking中修复，而非依赖n+1次上下文，否则有诱导购买coding plan之嫌。@iamai_omni建议测评转向长期任务一致性，可构建loop测评，重点看后续几轮修复表现。

## 正文

我的使用经验是， one-pass 能力越强（且能在较少的思考下one-pass） 模型才是SOTA的. 要用 agentic coding 才能修复第一次犯的错反而是模型拉夸的表现， 再不济也要在Interleaved thinking过程中修复. agentic coding 是用来解决工程量和运行时问题的. 不是用来修静态检查就行发现的bug的.更简单的说， 你有bug不在thinking中修， 反而非要在n+1次上下文中修复， 是不是骗我买coding plan（x）？

### 引用推文

> ✧ IAMAI ✧：@karminski3 兄弟,测评方向错了,前沿模型的能力要往长期任务一致性上去看,这种几分钟的短期任务真的看不出什么,而且你可以尝试构建 loop 来测评这个任务,重点看后面模型用几轮来修复。