# 作者谈模型编程能力取决于"代码直觉"--以GPT-5.5-pro-xhigh修复路网断裂bug为例

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-12 11:26
- AIHOT 分数：64
- AIHOT 链接：https://aihot.virxact.com/items/cmqadln760kilslldbbewntuo
- 原文链接：https://x.com/karminski3/status/2065274584954450133

## AI 摘要

作者认为模型编程能力取决于“代码直觉”，由海量开发经验堆出，极难训练。他以路网断裂bug为例：GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile，实际需2个tile，多模态截图也无法纠正。作者费4小时，让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷，随后告知每个tile对应单位长度并应用规则，修复变简单。不同模型表现：有的开始不犯错，有的迭代修复，有的怎么都修不好。

## 正文

我现在的体感是，模型能力到底强不强（仅讨论编程），会极度体现在代码直觉上，而这部分是最难训练的。这是海量的开发经验堆出来的。

比如我这个bug， 生成的路网是断裂的， GPT-5.5-pro-xhigh都修不好. 但其实问题很简单， 我跟他说路网断裂， 他就觉得， 你矩形地块就是4条边， 对应4个tile， 然后4个角再来4个tile， 完事了， 怎么会断裂呢？

而实际上每条边需要用2个tile才能填充完毕， 这种"每条边一个tile"的固有直觉， 直到你发现之前， 你让它修， 是怎么都修不好的， 多模态模型截图打他脸也没用（强烈怀疑向量空间映射到一起了）. 只能靠你自己发现问题的根源， 并反推模型在哪里出现了问题.

我这个case断断续续修了4小时了， 直到我意识到了， 我得自己下场了， 于是让它给每个tile编上ID，然后直接问他， 你觉得这两个tile之间可以容纳几个tile. 立刻露馅了， 他就觉得填充一个tile就ok了…

修复过程立刻就变得极其弱智， 告诉它应用规则， 每个tile对应几个单位长度. 然后计算填充就完事了…

而现在有一个模型， 上来就不会犯这个错误. 然后又有一个模型， 虽然会犯错误， 但是迭代几次修好了， 最后就是怎么都修不好. 大家会觉得哪个模型能力强？
