# 与Mythos合作是一种怎样的体验

- 来源：Hacker News 热门（buzzing.cc 中文翻译）
- 作者：swolpers
- 发布时间：2026-06-10 04:42
- AIHOT 分数：80
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq74v13800baslopzq03mrjy
- 原文链接：https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos

## 精选理由

Ethan Mollick 对 Mythos 的深度测试揭示了一个黑箱化的未来——你不再指挥，而是委托，AI 从工具变成工作室，人从操作员变成赞助人，这对产品与协作模式有足够冲击。

## AI 摘要

一篇来自 oneusefulthing.org 的文章，探讨了与 Mythos 合作的个人感受。原英文标题为 “What it feels like to work with Mythos”，中文译为“与Mythos合作是一种怎样的体验”。该文章在 Hacker News 上获得 101 个点赞，发布于 2026 年 6 月 9 日。

## 正文

与 Mythos 共事是什么感觉

Claude Fable 代表着人工智能领域的又一次重大飞跃

伊桑·莫里克

2026年6月9日

我提前拿到了首款面向公众的 Mythos 级 AI 模型——Claude 5 Fable 的早期访问权限。关于 Mythos 的讨论大多集中在它对软件安全的影响上，但我在除安全之外的所有方面都测试了它（Fable 周围的安全护栏从根本上防止了它被用于网络安全领域）。我的结论是：它在我用过的所有模型面前代表了一次非常真实的飞跃，而且或许更重要的是，它表明我们与 AI 的关系正在发生剧烈变化。

首先，Fable 有多出色？在我进行的一个又一个实验中，它的表现基本上大幅超越了我用过的所有其他公开模型。它在很多问题上都表现出色，并且产出了一些令人震惊的结果——它能够花费长达十几小时来执行多页规格说明书。我稍后会带你看几个更复杂、更严肃的用例，但你能看到它在所有任务上的全面改进。在文章中传达这一点的问题是，许多最令人印象深刻的结果只对我的一部分读者有吸引力。例如，它仅凭一条提示词和一次反馈，就写出了一篇我见过的由 AI 生成的最精深的学术社会科学论文。它还创作了一首关于理发的 10 页史诗级押韵诗，诗中每个单词都以字母 s 开头。

所以，作为一个更容易上手、更有趣的示例，我还让它制作了一些你可以试玩的游戏。所有这些游戏都是通过 Claude Code 中的一个初始提示词完成的，Fable 需要根据我模糊的提示词生成可运行的内容，然后再加上几条带有轻微鼓励（“做得更好”）或反馈的补充提示词。这些游戏之所以尤其令人印象深刻，是因为 Claude 无法生成图像，所以每一张美术作品或 3D 对象都是仅靠数学计算完成的，没有使用任何外部素材。你可以试试其中任何一个：一款关于抛硬币的游戏（提示词：“类似 Balatro，但用于抛硬币的游戏”），相当有趣；一款贪吃蛇游戏，蛇有自我意识，会发生各种疯狂的事情；或者一款关于不断下潜、看看深处有什么的游戏。

所以，输出结果令人印象深刻。但是，尤其在我转向更严肃的项目时，我经常觉得使用这个工具的感觉介于愉悦和不安之间。愉悦是因为我只是提出了要求，事情就发生了。不安也是因为我只是提出了要求，事情就发生了。

地图与方法

要理解为什么，就得先了解 Fable 是如何完成工作的，为此我想举一个我之前在很多 AI 模型上测试过的例子：构建一张等时线地图。这种地图显示的是在给定时间内可以到达的距离范围，第一张这样的地图绘制于 1881 年，展示的是从伦敦出发的旅行时间。

原始地图

之前的模型在尝试制作这样一张地图时，没有一个是勉强能做好的，因为这涉及研究数千个潜在的行程距离，以及大量微小的判断和决策。我决定用 Fable 和 Claude Code 来试试，提示词是：我希望你构建一个经过充分研究且美观的等时线地图，让我可以选择不同的城市，并基于真实数据查看真实的等时线。我希望设计独一无二。你需要考虑机场（以及往返机场的行程时间）、火车、步行、驾车。数据不需要是实时的，但必须基于你的研究和数据真实可靠。你可以从几个城市开始，但越全面越好，这应该是一个全新的项目。然后它建议按照原版地图的风格来完成。我同意了，于是它开始工作。

值得再看一眼 AI 在长达数小时的自主构建会话中的记录，因为你可以看到一些不寻常的事情。首先，AI 启动了多个其他 AI（我相信主要是更便宜的 Claude Sonnet）来协助它进行行程时间的研究，最终获取了超过 2200 条具体航班信息、从 TGV 到新干线的铁路时刻表，以及来自多篇学术论文的各国公路速度。在这些智能体运行的同时，它开始编写代码。接着，它又启动了更多智能体和测试来验证其代码，并在此期间不断记录自己的进度。

最终成果是一张功能完备、复杂程度令人印象深刻的地图，看起来很像 1881 年的原版，但这并不意味着它完美无缺。我注意到许多偏远地区（比如格陵兰）只包含了行程时间的估算值，而非精确数字，所以我告诉 Fable 去修复，指示包括：获取前往偏远机场和地点的实际行程时间。这一次，AI 启动了一个工作流，由对抗性的智能体组执行研究并相互检验结果。它弄清楚了前往太平洋皮特凯恩岛的船只航行频率，以及如何从渥太华到达格赖斯峡湾。而且它在极短的时间内消耗了数量惊人的模型 token（稍后会详细介绍）。

结果令人印象深刻。我又朝自己感兴趣的几个方向尝试了几次（包括要求其他可视化方式等）。我建议花几分钟点击浏览一下结果，你可以在图表底部看到它的方法和来源。

AI 生成的内容。点击地图可进入交互式版本。

除非你真的很喜欢旅行和地图，否则这个项目对你来说可能没什么用，但它表明 AI 解决了涉及研究、数学、视觉开发、审美、判断、复杂编码等多方面的难题。而且，令人不安的是我做的事情如此之少。我给出了一个非常宏大的指令，AI 就照做了。我给了几个小小的反馈，AI 就自己解决了。我的角色极其有限。

重要的是，不仅我相对于模型所做的工作量有限，而且我对模型如何行事、为何选择特定方法、甚至其结果深入程度的控制也非常有限。AI 决策的细节并未向我展示，而这个过程又太长，根本不值得跟进。这张地图需要 AI 对数百个小选择做出判断，它就这么做了，而我既不理解这些选择，也没有机会参与权衡。从很多方面看，这堪称奇迹（我总能在最后要求修改），但另一方面，它把 AI 变成了终极黑箱。

与 Mythos 级模型合作

我从 Fable 那里接手的最具雄心项目，需要多做一些解释。我做了大量研究，人类常常给出混乱的答案，而任何形式的分析都需要对这些答案进行恰当分类：一个想法有多创新？人们为什么喜欢这本书？为了解决这个问题，我们聘请人类研究人员对某条信息做出判断，并统计性地将他们的答案与其他人的答案进行比较，从而判断数据是否可信。近期大量研究表明，人工智能或许能够承担这项重要工作，但让人工智能与人类判断对齐一直困难且昂贵。因此，我请 Fable 来解决这个问题，它首先生成了一份复杂的 19 页设计文档，然后执行了该方案。

它持续运行了九个半小时。

最终产出的是一款极为复杂的软件，AI 将其命名为 Concord，它能够接收多个数据集，校准人类与 AI 的回答，然后对结果进行复杂的数据分析。同样，它并非完美无缺。作为专家，我能够发现一些错误和遗漏（其中部分是我要求的设计所导致的），并让 AI 加以修正。但这个项目以及许多其他项目的交付范围，远远超出了我以前见过的任何成果。在这个案例中，这是一款研究人员多年来一直需要、却从未有利可图去创建的软件。现在你可以直接使用或修改此处的代码。我确信它并不完美（我只花了一个小时处理结果），但软件工程师会解决我无法快速找到的其余潜在 bug（这也是我们未来可能需要更多、而非更少程序员的原因之一——以应对软件新用途的爆发式增长）。

这种能力伴随着怪异和局限。其中一个局限就是它的 token 用量。Fable 的成本是 Opus 的两倍，而且它以极快的速度消耗 token，这表明其生产运行成本“非常高”——尽管它巧妙地委托给更便宜的模型可能会显著降低实际价格。Fable 的护栏也会在出现最轻微的安全问题迹象时触发，降级到能力较弱的 Claude 4.8 Opus，而且这种情况发生得太过频繁。前沿尖峰依然存在。例如，AI 仍然以同样古怪的风格写作（事实上，Fable 生成的软件带有 Claude 式用语的痕迹；其进度报告也是如此，全都在“承担重任”和“赢得答案”）。但更深层的怪异之处在于，我几乎不需要做什么，而且在工作进行的过程中，我能看到的东西也少得可怜。

去年，我把这比作与巫师合作：你吟诵咒语，然后事情就发生了。有了 Fable，咒语已经变得足够强大，以至于我不再确定自己是不是那个巫师。我更接近于一位赞助人。我描述我想要什么，我为此付钱，然后我评判结果。法术的施展发生在我看不到的地方，体现在数百个我从未有机会投票的小选择中。工作已经从过程转向了结果。我不再掌舵，而是委托创作。

这种边缘化可能是暂时的，只是界面尚未跟上的产物，我们将会拥有更好的窗口来观察这些模型在做什么，并能在流程中更有效地引导它们。但也有可能情况恰恰相反：模型能力越强，人类能实际有意义参与的部分就越少，而黑箱正是这种力量的代价。我猜测这更可能是真正的方向。这些情况并非显而易见的失控。我仍然可以引导 Fable，它也非常出色地遵循指令：指令越雄心勃勃，结果就越好。但引导已不再等同于亲手去做。我给模型布置任务，它自行启动自己的智能体来研究、写作，并相互检查彼此的作品，最终交回来的是成品。委托人只雇佣一位艺术家。Fable 更像是一整间工作室，而我则是那个只在最终作品上签字批准、却从未踏足现场的客户。

关于本文的讨论

暂无文章

想查看更多？
