# 106美元实测Claude-Opus-4.7：视觉飞跃但推理偷懒

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-04-19 16:44
- AIHOT 链接：https://aihot.virxact.com/items/cmo5jntcy00jpsl4rda5w6tf8
- 原文链接：https://x.com/karminski3/status/2045785559516262778

## AI 摘要

花费106美元在OpenRouter上实测Claude-Opus-4.7显示，其视觉能力较4.6版本显著提升，在颜色识别、细节捕捉和空间理解方面表现突出，可替代GPT-4o Pro用于多模态前端任务。但在后端硬实力测试中表现下滑，核心问题在于即使开启xhigh reasoning effort，模型的思考预算仍显不足，导致"偷懒"现象。实际使用中需通过反复提示和跨会话思考才能发挥最佳性能。

## 正文

花费106刀测试！ Claude-Opus-4.7 到底更新了啥？

给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试！

本次测试多模态前端测试采用 pass@3 （相同prompt运行3次取最好结果）， 复杂前端测试采用 pass@6， 后端能力测试采用 pass@3.

从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的， 包括颜色识别， 细微的画面元素， 都比 Opus-4.6 有明显的提升， 甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错 （毕竟价格在那摆着）.

但是在其余考验硬实力的测试上均有不同程度的下降， 甚至这个下降我觉得不是因为模型能力导致的（只要prompt做更具体的提示， 比如跟他说你要用xxx算法实现）， 它其实是能写出来的. 但是如果用在 Harness 场景， 让它自己采取最优的算法自己去实现和验证， 通常就得不到比 Opus-4.6 更好的结果了.

为什么会这样？ 核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间（budget）也是不太够的（具体表现就是感觉模型偷懒了）， 它的能力强， 但是需要更多的思考才能达到更强的水平. （阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level）.

所以在实际使用中， 如果遇到性能下降问题， 只能反复提示它， 让他跨多个会话反复思考， 才能达到预期的效果.

最后本次测试所有API调用均在 openrouter 完成， 总计开销在 106USD 左右.

#claudeopus47 #opus47 #anthropic #claude #opus
