Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍
阅读原文· the-decoder.com自由职业自动化率八个月翻了六倍,这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊',但趋势已经形成,做自由职业平台和外包的人该认真看看。
Remote Labor Index(RLI)衡量 AI 智能体完成 240 个付费自由职业项目(总值 14.4 万美元)的专业质量比例。最新结果显示,Fable 5 自动化率达 16.1%,是八个月前最佳系统 2.5% 的六倍多,也超过 Opus 4.8(8.3%)和 GPT-5.5(6.3%)。因美国政府限制访问,Fable 5 仅完成 218/240 个项目评估,最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%,落后于更老模型。AI 裁判会高估模型表现(GPT-5.5 评分偏高近三倍),仍需人类评估员打开专业软件(如 Blender)检验几何模型等细节。测试环境为虚拟 Linux 机,配备 30 余款专业应用,每项目最多 24 小时计算时间。尽管自动化率快速攀升,多数项目仍无法达到专业质量。
AI 智能体现在能够以专业水准完成 16% 的自由职业任务,而八个月前这一比例仅为 2.5%。
远程劳动指数(Remote Labor Index)衡量的是 AI 智能体以专业质量完成付费自由职业项目的频率。八个月内,最高自动化率已增长超过四倍。
远程劳动指数(RLI)追踪的是 AI 智能体在支付客户实际愿意接受的质量水平下,完成真实、有商业价值的自由职业项目的能力。该基准涵盖 3D 与 CAD、建筑、平面设计、视频与动画、音频、数据分析以及 Web 应用等领域。它包含 240 个项目,总价值 14.4 万美元,这些项目来自 358 名经过验证的自由职业者。AI 安全中心(Center for AI Safety)的人类评估员根据付费专业人士创建的金标准对每个结果进行评分。RLI 是与 Scale Labs 共同开发的。
关键指标是自动化率,即 AI 工作质量被评为至少与人类相当的项目所占的比例。
最高自动化率从 2.5% 跃升至 16.1%
当该基准首次推出时,最好的 AI 智能体仅能自动化 2.5% 的项目。根据最新结果,Fable 5 现在达到了 16.1%,是有记录以来的最高分数。这大约是 Opus 4.8 的 8.3% 的两倍。GPT-5.5 的成绩为 6.3%。这三个模型都击败了此前所有经过测试的系统。此前的领先者——运行在 Claude Cowork 框架上的 Opus 4.6——其自动化率为 4.17%。

据作者称,前沿水平在不到八个月内增长了超过四倍。关于 Fable 5 得分的一个说明:在美国政府限制对该模型的访问之前,240 个项目中只有 218 个能够被评估。即使在最坏的情况下,即 Fable 5 在所有缺失项目上都失败,其自动化率仍将达到 14.6%,高于任何其他模型。

不过,进步程度与发布时间的相关性并不紧密。在完整的 Scale Labs 排行榜上,较新的 Gemini 3 Pro 仅以 1.25% 的成绩位列榜单末尾,落后于许多更早的系统。
该研究中的一些案例也表明,即使是顶尖模型仍有不足之处。在一项戒指设计任务中,Fable 5 明显优于早期 AI,但仔细审视后仍显得不够专业。在一个建筑项目中,GPT-5.5 使用图像生成器伪造了一张吸引人的效果图,而其实际 3D 模型依然存在缺陷。

人类评估员仍不可替代
研究团队测试了能否用 AI 评判者取代昂贵的人工评估。答案很明确:AI 评判者对新型号的评分过于宽松。对于 GPT-5.5,AI 评估者的评分几乎高出三倍;对于 Opus 4.8,则高出约两倍半。自动评判者确实排对了顺序,但实际数值相差甚远。
根据 CAIS 的解释,原因在于:要公正地评判交付成果,需要在正确的专业软件中打开文件、正确操作该软件,并像付费客户那样形成判断。这种实际操作软件的能力正是当前 AI 智能体最薄弱的环节。AI 评判者遇到了与其所要评估的 AI 工作者相同的局限性。GPT-5.5 伪造效果图的案例就是一个很好的例子:要识破这一伎俩,需要打开 3D 模型并检查实际几何结构。
为了让模型充分展现自身能力,团队让它们在开发者日常使用的工具中运行,例如 Claude Code 和 Codex CLI。这些工具都经过了扩展,能够直接操作图形化程序。工作环境是一台安装了超过 30 款专业应用的虚拟 Linux 机器,其中包括 Blender、GIMP 和 Audacity。每个项目最多可获得 24 小时的计算时间。这套设置还采用了批评循环机制:第二个 AI 智能体会像挑剔的客户那样严格审查输出结果,随后第一个 AI 智能体根据反馈修改其作品。
AI 在大多数项目上仍然无法达到专业水准。博客文章中展示的 Fable 5 三个结果,没有哪一个能算作成品。但作者表示,自动化率在一年内提升迅速,而这直接反映了远程工作自动化的发展速度。