Berryxia.AI@berryxia

2026-06-10 06:59·23天前

AI 摘要

Matthew Berman 一周实测 Fable（Mythos），认为这是真正的下一代模型，但存在明显怪癖。优点：Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查，找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上；自主性极强，敢于长时间自主完成超长时域任务。缺点：极度啰嗦、信息密度过高；喜欢反复问澄清问题；速度慢，简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结：Fable 5 是当前最强模型，适合最复杂的任务，但价格高昂，简单任务不推荐。

http://x.com/i/article/2064479983104602112

Fable 测评了一周的真实感受：这才是真正的下一代模型，但也是也有不少"怪癖"！（译）

【Matthew Berman 最新测评】Fable（Mythos）测了一周：这才是真正的下一代模型，但也有一堆"怪癖"！

原帖见👇

申明：本文由海外博主@MatthewBerman 测评，以下的"我"指其本人哈，请悉知。

tl；dr：我这周一直在狂测 Fable（Mythos），用完之后只有一个感觉--它和其他模型完全不是一个次元的东西。

无论是使用体验还是定价，都给我一种"下一代正式登场"的震撼。但它也确实有一些很明显的怪癖。

优点篇（The Good）

Workflow 模式直接封神。我随便扔给它一个"full code review"的指令，结果它瞬间拉起几百个 agent 并行狂干，给我项目里的几乎每个文件都单独配了一个专属 agent。

bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。

我之前给 Claude、GPT 下过一模一样的 prompt，它们找出来的问题连它一半都不到。

更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活，一干就是好几个小时。

最关键的是--我敢把任务彻底扔给它。

它会毫不犹豫地烧一大堆 token，直到把目标彻底干完。

每次我一启动 Fable，就感觉它像接了个史诗级大项目一样，斗志满满。

我现在给它扔超级复杂、长周期的任务时，信心前所未有的足。

几乎想不出有什么任务能把它难住，它也特别"渴望"挑战这种硬骨头。

这就是 Fable 最亮眼的地方--超长时域任务（long horizon tasks）。

我现在都想象不出它的超长时域任务极限到底在哪。

槽点篇（Quirks）

不过它也不是无敌神模型，有几个毛病还挺明显：

1. 极度啰嗦 + 信息密度爆炸解释一个东西能直接钻进草丛深处。

我专门更新了 claude.md 来压它，结果还是压不住。

我得反复让它"说人话"。

不光是字多，信息密度高到让我一度怀疑自己是不是变笨了……

说真的，信息密度这事儿我以前真没那么重视。

现在发现：在固定 token 预算下，谁能塞更多有效信息，谁就等于"更聪明且更便宜"。

这也是未来 agent 自己发明超高密度语言的绝佳理由。

1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成：问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略（并行还是串行）→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。

Berryxia.AI@berryxia · X

62导出 Markdown