作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。
我现在的体感是,模型能力到底强不强(仅讨论编程),会极度体现在代码直觉上,而这部分是最难训练的。这是海量的开发经验堆出来的。
比如我这个bug, 生成的路网是断裂的, GPT-5.5-pro-xhigh都修不好. 但其实问题很简单, 我跟他说路网断裂, 他就觉得, 你矩形地块就是4条边, 对应4个tile, 然后4个角再来4个tile, 完事了, 怎么会断裂呢?
而实际上每条边需要用2个tile才能填充完毕, 这种"每条边一个tile"的固有直觉, 直到你发现之前, 你让它修, 是怎么都修不好的, 多模态模型截图打他脸也没用(强烈怀疑向量空间映射到一起了). 只能靠你自己发现问题的根源, 并反推模型在哪里出现了问题.
我这个case断断续续修了4小时了, 直到我意识到了, 我得自己下场了, 于是让它给每个tile编上ID,然后直接问他, 你觉得这两个tile之间可以容纳几个tile. 立刻露馅了, 他就觉得填充一个tile就ok了…
修复过程立刻就变得极其弱智, 告诉它应用规则, 每个tile对应几个单位长度. 然后计算填充就完事了…
而现在有一个模型, 上来就不会犯这个错误. 然后又有一个模型, 虽然会犯错误, 但是迭代几次修好了, 最后就是怎么都修不好. 大家会觉得哪个模型能力强?