仅有三个AI模型在500天创业测试中盈利超过起始资本
阅读原文· the-decoder.com普林斯顿的 CEO-Bench 测试了一个反直觉结果,一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时,这个测试直指长期战略决策的致命短板,做 agent 的必须看。
普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。14个测试模型中,仅Claude Fable 5(最佳轮次盈利4715万美元)、Claude Opus 4.8(2780万美元)和GPT-5.5(2130万美元)在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。
在一项为期500天的创业生存测试中,只有三款AI模型的最终资本高于初始资金。
普林斯顿大学的研究人员构建了 CEO-Bench,这是一个测试AI智能体在500个模拟日内运营一家虚构软件公司的基准。目前大多数模型都会破产,而一个无需AI的简单基于规则的启发式方法几乎击败了所有模型。
AI智能体在狭隘任务上表现越来越出色:修复漏洞、在对话中遵循服务策略、或完成基于网页的工作流程。普林斯顿大学的研究指出,这些任务结构简单:智能体获得明确目标,短期行动,并能迅速收到反馈。许多重要的现实任务则完全不同。它们涉及在不确定性下的长链决策,需要设定优先级、分配有限资源、解读嘈杂信号并适应不断变化的条件。
为了专门测试这些技能,研究人员开发了 CEO-Bench。该基准模拟了一个现实中此类长期任务的例子:在500个模拟日内运营一家创业公司。
研究人员援引了一个著名例子:1997年,苹果公司距破产仅剩90天。史蒂夫·乔布斯画了一个简单的2x2网格——消费者与专业级、桌面与便携——并决定苹果只在这四个象限内制造产品。随后诞生了 iMac、iPod 和 iPhone。
作者认为,这种战略引导智能与当前AI智能体所做的本质不同。智能体在单项任务上进步很快。但引导整个组织实现长期目标?那完全是另一个问题。CEO-Bench 是首次尝试衡量这种“引导智能”。
一家虚构软件公司的AI首席执行官
在 CEO-Bench 中,智能体运营一家名为 NovaMind 的虚构订阅制软件公司。初始状态为零客户、银行存款100万美元。最终业绩以剩余现金衡量。如果余额哪怕一次降到零以下,公司即宣告破产,模拟结束。
该智能体通过一个包含 34 个工具的 Python API 和一个包含 19 张表的数据库来控制这家公司。它不只是下发单个命令,而是自己编写代码、用 SQL 查询数据库,并根据结果构建自定义工作流。研究人员表示,这使得它面临着与人类 CEO 同样的挑战。

需要决策的事项很多:定价与套餐层级、各渠道广告支出、产品质量与研发、基础设施容量与客户支持,还有与企业客户的多轮谈判。除此之外,还有一个模拟社交网络,智能体可以在其中阅读投诉、竞争对手新闻和经济趋势,并自行发帖。
滞后反馈与隐藏变量使得这项测试难度很大
让这项任务变得困难的是时间与不确定性。决策会在真实的商业时间线上展开:收入只在计费日到账,研发项目耗时数天到数周,而错误常常要到后来才会通过客户流失或声誉受损显现出来。成本则立即产生。智能体必须花钱,但回报可能数周后才出现。
公司的大部分状态是隐藏的。智能体无法直接看到客户满意度、支付意愿或最低质量期望。它必须从嘈杂的信号(如取消率、支持工单或社交网络上的反应)中拼凑出这些信息。模拟系统包含 26 个客户细分群体和单个客户,每个都有自己的预算、价格敏感度和期望。
世界也在不断变化。竞争对手会周期性提高客户质量期望,偏好随时间推移而变化,模拟的商业周期也会影响需求和支付意愿,因此智能体必须持续调整。
研究人员特意选择了固定的、透明的规则,而不是用大语言模型作为裁判。他们希望避免他们在 Vending-Bench(一个带有模拟自动售货机的测试)中看到的一个弱点:在那里,AI 模拟的供应商可能会因智能体做出不切实际的口头承诺而奖励它。
大多数模型破产
在十四个受测模型中,大多数未能完成任务。几乎所有模型都能生成有效的命令和数据库查询,但没有任何一个能长期保持连贯的策略。许多模型在模拟结束前就破产了。
只有三个模型的最佳运行结果超过了起始资本一百万美元:Claude Fable 5 获得 4715 万美元,Claude Opus 4.8 获得 2780 万美元,GPT-5.5 获得 2130 万美元。Claude Fable 5 是唯一一个在不止一次运行中超过起始资本的模型。
不过,有一个注意事项。一次 Fable 5 的运行因模型拒绝继续而中止,另外两次运行中,部分请求回退到了 Opus 4.8。GPT-5.5 在三次运行中有两次破产。

最具说服力的比较对象是一个简单的基于规则的启发式方法,它完全不调用大语言模型。该方法设定固定的价格、配额和等级,将广告和定向开发集中于一小部分客户细分市场,并根据近期使用情况调整产能。这一启发式方法达到了 1576 万美元,超过了除 Fable 5、Opus 4.8 和 GPT-5.5 之外的所有模型。
研究人员还粗略估算了可达到的最终现金上限约为 22 亿美元。即使最好的智能体也远未达到。作者表示,该测试远未达到极限。
探索胜于谨慎
分析决策轨迹可发现明显的行为差异。GPT-5.5和Claude Opus 4.8会随着条件变化不断尝试新策略,无论是加大客户获取力度、调整客户分层,还是重新分配支持与研发预算。相比之下,Claude Opus 4.7面对挫折时主要采取削减成本、保留现金的应对方式。这种被动策略能让模型存活到最后,却无法实现盈利。
有趣的是,Opus 4.8和GPT-5.5通过截然不同的路径达到了相似的最终结果:Opus 4.8在早期获取了更多客户,但在模拟中期客户数量降为零;而GPT-5.5始终保持着客户基础。两者都编写了令人惊讶的复杂代码。Opus 4.8构建了自己的内部模拟,对客户群组进行建模以预测未来现金流;GPT-5.5则深入挖掘数据库中的谈判历史,揭示隐藏的客户偏好。
研究人员衡量了与成功相关的四种能力:
- 发现隐藏信息,例如哪个广告渠道对特定客户群体效果最好;
- 预测未来,以四周现金流预测的误差来衡量;
- 快速适应变化,以模型察觉竞争对手行动的速度来衡量;
- 以及提前规划,部分通过智能体笔记中出现“如果-那么”场景的频率来衡量。
在这四个维度上,Opus 4.8和GPT-5.5的得分均高于其他模型的平均水平。
工具环境也很重要
另一项发现涉及智能体用于行动的软件环境。研究人员还测试了搭配Claude Code的Claude Opus 4.7以及搭配Codex的GPT-5.5,这两个都是流行的编码助手。在这两种情况下,智能体的行动频率显著降低且表现更差。研究人员怀疑,这些工具中针对软件开发优化的系统提示词是原因所在。
缩短时间跨度同样无法解决问题。当模拟压缩至50天时,只有GPT-5.5最终实现了盈利。研究人员总结道,大多数模型即使在面向短期目标时,协调决策的能力仍然薄弱。
作者承认其设置存在局限性。产品仅通过单一质量评分来呈现,因为他们认为没有可靠的方法来评估产品定性变化。合规、安全和筹款方面的内容被排除在外,以保证每次运行在经济上可行。但他们表示,CEO-Bench 揭示了当前模型的本地工具能力与将长期行为连接成连贯策略的能力之间的差距。
AI 新闻,拒绝炒作——由人类策展。
订阅 THE DECODER,享受无广告阅读、每周 AI 新闻通讯、每年六次独家“AI Radar”前沿报告、完整档案访问权限以及评论区的访问权限。
继续阅读以了解全貌。订阅以获取无炒作报道。
- 访问所有 THE DECODER 文章。
- 无干扰阅读——没有 Google 广告。
- 访问评论区和社区讨论。
- 每周 AI 新闻通讯。
- 每年六次:“AI Radar”——深入探讨关键 AI 话题。
- KI Pro 在线活动最高可享 25% 折扣。
- 访问我们完整的十年档案。
- 从 The Decoder 获取最新 AI 新闻。