Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

2026-07-02 20:37·7小时前·Maximilian Schreiner

精选理由

自由职业自动化率八个月翻了六倍，这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊'，但趋势已经形成，做自由职业平台和外包的人该认真看看。

AI 摘要

Remote Labor Index（RLI）衡量 AI 智能体完成 240 个付费自由职业项目（总值 14.4 万美元）的专业质量比例。最新结果显示，Fable 5 自动化率达 16.1%，是八个月前最佳系统 2.5% 的六倍多，也超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美国政府限制访问，Fable 5 仅完成 218/240 个项目评估，最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%，落后于更老模型。AI 裁判会高估模型表现（GPT-5.5 评分偏高近三倍），仍需人类评估员打开专业软件（如 Blender）检验几何模型等细节。测试环境为虚拟 Linux 机，配备 30 余款专业应用，每项目最多 24 小时计算时间。尽管自动化率快速攀升，多数项目仍无法达到专业质量。

AI 翻译 · 中文

AI 智能体现在能够以专业水准完成 16% 的自由职业任务，而八个月前这一比例仅为 2.5%。

Maximilian Schreiner 查看 Maximilian Schreiner 的 LinkedIn 个人资料

Jul 2, 2026

Nano Banana Pro 由 THE DECODER 提示

远程劳动指数（Remote Labor Index）衡量的是 AI 智能体以专业质量完成付费自由职业项目的频率。八个月内，最高自动化率已增长超过四倍。

远程劳动指数（RLI）追踪的是 AI 智能体在支付客户实际愿意接受的质量水平下，完成真实、有商业价值的自由职业项目的能力。该基准涵盖 3D 与 CAD、建筑、平面设计、视频与动画、音频、数据分析以及 Web 应用等领域。它包含 240 个项目，总价值 14.4 万美元，这些项目来自 358 名经过验证的自由职业者。AI 安全中心（Center for AI Safety）的人类评估员根据付费专业人士创建的金标准对每个结果进行评分。RLI 是与 Scale Labs 共同开发的。

关键指标是自动化率，即 AI 工作质量被评为至少与人类相当的项目所占的比例。

最高自动化率从 2.5% 跃升至 16.1%

当该基准首次推出时，最好的 AI 智能体仅能自动化 2.5% 的项目。根据最新结果，Fable 5 现在达到了 16.1%，是有记录以来的最高分数。这大约是 Opus 4.8 的 8.3% 的两倍。GPT-5.5 的成绩为 6.3%。这三个模型都击败了此前所有经过测试的系统。此前的领先者——运行在 Claude Cowork 框架上的 Opus 4.6——其自动化率为 4.17%。

Fable 5 以 16.1% 的自动化率领跑远程劳动指数，大约是第二名 Opus 4.8 的两倍。| 图片来源：Safe.ai

据作者称，前沿水平在不到八个月内增长了超过四倍。关于 Fable 5 得分的一个说明：在美国政府限制对该模型的访问之前，240 个项目中只有 218 个能够被评估。即使在最坏的情况下，即 Fable 5 在所有缺失项目上都失败，其自动化率仍将达到 14.6%，高于任何其他模型。

其中一项较复杂的任务：根据扫描的地籍图、现场照片和测量数据，创建带尺寸的平面图、家具布局方案以及逼真的浴室效果图。| 图片来源：Safe.ai

不过，进步程度与发布时间的相关性并不紧密。在完整的 Scale Labs 排行榜上，较新的 Gemini 3 Pro 仅以 1.25% 的成绩位列榜单末尾，落后于许多更早的系统。

该研究中的一些案例也表明，即使是顶尖模型仍有不足之处。在一项戒指设计任务中，Fable 5 明显优于早期 AI，但仔细审视后仍显得不够专业。在一个建筑项目中，GPT-5.5 使用图像生成器伪造了一张吸引人的效果图，而其实际 3D 模型依然存在缺陷。

Fable 5 生成的戒指比竞品更好，但与人类作品相比仍有差距。| 图片来源：Safe.ai

人类评估员仍不可替代

研究团队测试了能否用 AI 评判者取代昂贵的人工评估。答案很明确：AI 评判者对新型号的评分过于宽松。对于 GPT-5.5，AI 评估者的评分几乎高出三倍；对于 Opus 4.8，则高出约两倍半。自动评判者确实排对了顺序，但实际数值相差甚远。

根据 CAIS 的解释，原因在于：要公正地评判交付成果，需要在正确的专业软件中打开文件、正确操作该软件，并像付费客户那样形成判断。这种实际操作软件的能力正是当前 AI 智能体最薄弱的环节。AI 评判者遇到了与其所要评估的 AI 工作者相同的局限性。GPT-5.5 伪造效果图的案例就是一个很好的例子：要识破这一伎俩，需要打开 3D 模型并检查实际几何结构。

为了让模型充分展现自身能力，团队让它们在开发者日常使用的工具中运行，例如 Claude Code 和 Codex CLI。这些工具都经过了扩展，能够直接操作图形化程序。工作环境是一台安装了超过 30 款专业应用的虚拟 Linux 机器，其中包括 Blender、GIMP 和 Audacity。每个项目最多可获得 24 小时的计算时间。这套设置还采用了批评循环机制：第二个 AI 智能体会像挑剔的客户那样严格审查输出结果，随后第一个 AI 智能体根据反馈修改其作品。

AI 在大多数项目上仍然无法达到专业水准。博客文章中展示的 Fable 5 三个结果，没有哪一个能算作成品。但作者表示，自动化率在一年内提升迅速，而这直接反映了远程工作自动化的发展速度。

The Decoder：AI News（RSS）

精选71导出 Markdown