花费106美元在OpenRouter上实测Claude-Opus-4.7显示,其视觉能力较4.6版本显著提升,在颜色识别、细节捕捉和空间理解方面表现突出,可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑,核心问题在于即使开启xhigh reasoning effort,模型的思考预算仍显不足,导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。
花费106刀测试! Claude-Opus-4.7 到底更新了啥?
给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试!
本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3.
从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 有明显的提升, 甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错 (毕竟价格在那摆着).
但是在其余考验硬实力的测试上均有不同程度的下降, 甚至这个下降我觉得不是因为模型能力导致的(只要prompt做更具体的提示, 比如跟他说你要用xxx算法实现), 它其实是能写出来的. 但是如果用在 Harness 场景, 让它自己采取最优的算法自己去实现和验证, 通常就得不到比 Opus-4.6 更好的结果了.
为什么会这样? 核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间(budget)也是不太够的(具体表现就是感觉模型偷懒了), 它的能力强, 但是需要更多的思考才能达到更强的水平. (阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level).
所以在实际使用中, 如果遇到性能下降问题, 只能反复提示它, 让他跨多个会话反复思考, 才能达到预期的效果.
最后本次测试所有API调用均在 openrouter 完成, 总计开销在 106USD 左右.