Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显 · AI HOT
Berryxia.AI@berryxia62
2026-06-10 06:59·23天前
AI 摘要Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
Berryxia.AI@berryxia · X2026-06-10 06:59·23天前
在 X 看原推· x.comAI 摘要Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。
1. 速度真的慢 比之前的 Opus 甚至 GPT 都慢。启动慢,思考过程也慢,和我以前爱 Opus 的点完全相反(Opus 以前又快又会抄近道)。
Fable 哪怕简单任务也慢慢爬,我看着计时器往上跳,输出 tokens 半天不动,五分钟才用几千 token。它就是想把每件事都做到极致彻底,这就必然要花时间。
Pro tip:把 effort level 直接拉到最低,比你以为的还低。
它在中档的时候就已经想得非常非常多,低档依然强得离谱,只是思考时间会短一些。
所有这些怪癖其实都是能修的--模型优化 + 更多算力提速,再加上 fine-tuning/RL 和 system prompt 调教,就能解决啰嗦和过度谨慎的问题。
最终 结果: Fable5 真的强到离谱,我现在还在摸索怎么把它用出最爽的体验。
它给我的感觉是--它就想吃最难的任务,简单活儿都觉得不过瘾。
这是全新测试运行 的第一次公开亮相,就已经是我用过的最强模型了。
Berryxia:原文来自 Matthew Berman,实际测评等我门自己来看看。
目前这么高的价格来说,还是用起我的opus4.7 吧,博主大哥说的就是简单的任务就没有必要选择它。
难啃的骨头更适合它,而不是拿小Case测试它。就一点才大用的感觉,杀鸡焉用牛刀啊!
bug、边缘 case、文档缺失、UX 体验问题……全都被它挖出来了。
我之前给 Claude、GPT 下过一模一样的 prompt,它们找出来的问题连它一半都不到。
更离谱的是它的自主性。比以前任何 Claude 或 GPT 都敢自己闷头干活,一干就是好几个小时。
它会毫不犹豫地烧一大堆 token,直到把目标彻底干完。
每次我一启动 Fable,就感觉它像接了个史诗级大项目一样,斗志满满。
我现在给它扔超级复杂、长周期的任务时,信心前所未有的足。
几乎想不出有什么任务能把它难住,它也特别"渴望"挑战这种硬骨头。
这就是 Fable 最亮眼的地方--超长时域任务(long horizon tasks)。
1. 极度啰嗦 + 信息密度爆炸 解释一个东西能直接钻进草丛深处。
我专门更新了 claude.md 来压它,结果还是压不住。
不光是字多,信息密度高到让我一度怀疑自己是不是变笨了……
现在发现:在固定 token 预算下,谁能塞更多有效信息,谁就等于"更聪明且更便宜"。
这也是未来 agent 自己发明超高密度语言的绝佳理由。
1. 疯狂问 clarifying questions 一个简单 prompt 能被它拆成:问问题 → 总结我的回答 → 确认总结 → 出 spec → 确认 spec → 确认 agent 策略(并行还是串行)→ 最后才开始干活…… 我其实希望它自己做决策。Anthropic 官方说更新 system prompt 之后就能好。
1. 速度真的慢 比之前的 Opus 甚至 GPT 都慢。启动慢,思考过程也慢,和我以前爱 Opus 的点完全相反(Opus 以前又快又会抄近道)。
Fable 哪怕简单任务也慢慢爬,我看着计时器往上跳,输出 tokens 半天不动,五分钟才用几千 token。它就是想把每件事都做到极致彻底,这就必然要花时间。
Pro tip:把 effort level 直接拉到最低,比你以为的还低。
它在中档的时候就已经想得非常非常多,低档依然强得离谱,只是思考时间会短一些。
所有这些怪癖其实都是能修的--模型优化 + 更多算力提速,再加上 fine-tuning/RL 和 system prompt 调教,就能解决啰嗦和过度谨慎的问题。
最终 结果: Fable5 真的强到离谱,我现在还在摸索怎么把它用出最爽的体验。
它给我的感觉是--它就想吃最难的任务,简单活儿都觉得不过瘾。
这是全新测试运行 的第一次公开亮相,就已经是我用过的最强模型了。
Berryxia:原文来自 Matthew Berman,实际测评等我门自己来看看。
目前这么高的价格来说,还是用起我的opus4.7 吧,博主大哥说的就是简单的任务就没有必要选择它。
难啃的骨头更适合它,而不是拿小Case测试它。就一点才大用的感觉,杀鸡焉用牛刀啊!