karminski-牙医@karminski3

2026-04-19 16:44·74天前

AI 摘要

花费106美元在OpenRouter上实测Claude-Opus-4.7显示，其视觉能力较4.6版本显著提升，在颜色识别、细节捕捉和空间理解方面表现突出，可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑，核心问题在于即使开启xhigh reasoning effort，模型的思考预算仍显不足，导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

花费106刀测试！ Claude-Opus-4.7 到底更新了啥？

给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试！

本次测试多模态前端测试采用 pass@3 （相同prompt运行3次取最好结果），复杂前端测试采用 pass@6，后端能力测试采用 pass@3.

从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的，包括颜色识别，细微的画面元素，都比 Opus-4.6 有明显的提升，甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错（毕竟价格在那摆着）.

但是在其余考验硬实力的测试上均有不同程度的下降，甚至这个下降我觉得不是因为模型能力导致的（只要prompt做更具体的提示，比如跟他说你要用xxx算法实现），它其实是能写出来的. 但是如果用在 Harness 场景，让它自己采取最优的算法自己去实现和验证，通常就得不到比 Opus-4.6 更好的结果了.

为什么会这样？核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间（budget）也是不太够的（具体表现就是感觉模型偷懒了），它的能力强，但是需要更多的思考才能达到更强的水平. （阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level）.

所以在实际使用中，如果遇到性能下降问题，只能反复提示它，让他跨多个会话反复思考，才能达到预期的效果.

最后本次测试所有API调用均在 openrouter 完成，总计开销在 106USD 左右.

#claudeopus47 #opus47 #anthropic #claude #opus