karminski-牙医@karminski3

2026-06-12 11:26·21天前

AI 摘要

作者认为模型编程能力取决于“代码直觉”，由海量开发经验堆出，极难训练。他以路网断裂bug为例：GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile，实际需2个tile，多模态截图也无法纠正。作者费4小时，让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷，随后告知每个tile对应单位长度并应用规则，修复变简单。不同模型表现：有的开始不犯错，有的迭代修复，有的怎么都修不好。

我现在的体感是，模型能力到底强不强（仅讨论编程），会极度体现在代码直觉上，而这部分是最难训练的。这是海量的开发经验堆出来的。

比如我这个bug，生成的路网是断裂的， GPT-5.5-pro-xhigh都修不好. 但其实问题很简单，我跟他说路网断裂，他就觉得，你矩形地块就是4条边，对应4个tile，然后4个角再来4个tile，完事了，怎么会断裂呢？

而实际上每条边需要用2个tile才能填充完毕，这种"每条边一个tile"的固有直觉，直到你发现之前，你让它修，是怎么都修不好的，多模态模型截图打他脸也没用（强烈怀疑向量空间映射到一起了）. 只能靠你自己发现问题的根源，并反推模型在哪里出现了问题.

我这个case断断续续修了4小时了，直到我意识到了，我得自己下场了，于是让它给每个tile编上ID，然后直接问他，你觉得这两个tile之间可以容纳几个tile. 立刻露馅了，他就觉得填充一个tile就ok了…

修复过程立刻就变得极其弱智，告诉它应用规则，每个tile对应几个单位长度. 然后计算填充就完事了…

而现在有一个模型，上来就不会犯这个错误. 然后又有一个模型，虽然会犯错误，但是迭代几次修好了，最后就是怎么都修不好. 大家会觉得哪个模型能力强？