根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名,Anthropic的Opus 4.6模型以1.3的指数位居榜首,显示其用户满意度最高,甚至超越了其后续版本Opus 4.7(指数1.5)。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元,结论表明新版模型在关键用户体验指标上可能出现倒退。
对,你没看错,Opus 4.6 是比Opus 4.7强,相信不少人有体感。
评测来自 @lyricwai 做的llmsnare,为了这个Benchmark测试,他说之前每天消耗接近 100 刀。
这个结论跟Base44的评测一致,他们的挫败指数排行(越低用户越满意),第一名也是Opus 4.6
第一名:opus 4.6 - 1.3 第二名:sonnet 4.6 - 1.4 第三名:opus 4.7 - 1.5 第三名:gpt 5.5 - 1.5 第四名:gpt 5.4 - 1.6 第五名:Gemini 3.1 - 2.2
评测网站和文章见评论区