向阳乔木@vista8

2026-05-07 21:23·56天前

AI 摘要

根据@lyricwai的llmsnare基准测试及Base44的“挫败指数”排名，Anthropic的Opus 4.6模型以1.3的指数位居榜首，显示其用户满意度最高，甚至超越了其后续版本Opus 4.7（指数1.5）。Sonnet 4.6以1.4位列第二。该测试每日消耗近100美元，结论表明新版模型在关键用户体验指标上可能出现倒退。

对，你没看错，Opus 4.6 是比Opus 4.7强，相信不少人有体感。

评测来自 @lyricwai 做的llmsnare，为了这个Benchmark测试，他说之前每天消耗接近 100 刀。

这个结论跟Base44的评测一致，他们的挫败指数排行（越低用户越满意），第一名也是Opus 4.6

第一名：opus 4.6 - 1.3 第二名：sonnet 4.6 - 1.4 第三名：opus 4.7 - 1.5 第三名：gpt 5.5 - 1.5 第四名：gpt 5.4 - 1.6 第五名：Gemini 3.1 - 2.2

评测网站和文章见评论区