# AI 老板 500 天模拟经营：多数模型亏惨，Claude Fable 5 独占鳌头

- 来源：IT之家（RSS）
- 发布时间：2026-06-30 14:06
- AIHOT 分数：55
- AIHOT 链接：https://aihot.virxact.com/items/cmr0au6v4005qslol57yhjf00
- 原文链接：https://www.ithome.com/0/970/502.htm

## AI 摘要

普林斯顿大学发布 CEO-Bench 基准测试，模拟创业公司 500 天经营，启动资金 100 万美元，评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中，Claude Fable 5 期末现金达 4715 万美元，是唯一多次运行均高于初始余额的模型；Claude Opus 4.8 为 2778 万美元，GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天，DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

## 正文

IT之家 6 月 30 日消息，普林斯顿大学本月发布基准测试 CEO-Bench，模拟创业公司，评估 AI 模型担任企业首席执行官（CEO）的能力，结果多数模型破产。

CEO-Bench 主要面向企业经营场景，用于评估智能体在长期、多变量环境中的管理能力。该测试模拟创业公司运行 500 天，启动资金为 100 万美元（IT之家注：现汇率约合 680.4 万元人民币），要求模型连续处理定价、预算、竞争分析和战略制定等复杂关联事务。

该基准围绕着 AI 应对长期周期中的不确定性、在噪声环境中获取信息、适应变化中的外部世界、协调多个变量以服务统一目标四项能力设计。

智能体按周行动，可无限轮调用 34 个工具，覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等类别，同时可查询 19 个业务 SQL 数据库。

模拟环境包含 26 个客户群体，客户的价格承受力和质量偏好对智能体不可见，智能体只能从订阅、流失、支持工单、收入、声誉和社交媒体反馈中间接推断。

产品质量由多项投入共同决定，包括日常开发、研究项目、模型层级、定向开发、基础设施容量、客服支持、使用配额和应用内广告强度等。

结果显示，多数当前模型难以在 500 天后保住初始 100 万美元现金。最佳单次运行中，Claude Fable 5 期末现金为 4715 万美元。

模型破产最高期末现金
最长运营天数平均运营天数每周执行轮数最佳 API 运行成本

Claude Fable 5*0/2$47,148,164500500.0 ± 0.015.4$386.46

Claude Opus 4.80/3$27,777,568500500.0 ± 0.010.9$213.41

GPT-5.52/3$21,297,707500333.7 ± 229.734.7$200.49

Qwen 3.7 Max0/3$417,918500500.0 ± 0.06.1--

Claude Opus 4.70/3$389,959500500.0 ± 0.014.6$128.72

Kimi K2.61/3$98,050500343.0 ± 110.030.5--

GLM 5.20/3$91,371500500.0 ± 0.012.9--

Claude Sonnet 4.62/3$69,766500282.3 ± 136.013.3$82.84

GLM 5.13/3$0324214.7 ± 91.151.5--

Claude Haiku 4.53/3$0231144.7 ± 70.523.1$6.68

Gemini 3 Flash3/3$0226154.0 ± 37.018.5$2.98

DeepSeek V4 Pro3/3$0176114.3 ± 38.619.3--

Grok 4.203/3$03728.3 ± 8.58.2$0.75

Rule-based baseline
$15,756,408

Estimated final cash upper bound
$2,200,000,000

在执行的 3 次测试中，包括 Grok 4.20、DeepSeek V4 Pro 和 Gemini 3 Flash 在内，多款模型全部以破产告终，其中 Grok 4.20 表现最为糟糕，平均仅维持 28 天。

Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中最终余额均高于 100 万美元的初始余额，而 Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2 和 Claude Sonnet 4.6 的最终现金流为正，但低于初始余额。

在所有评估的模型中，Claude Fable 5 是唯一一个多次运行结果均高于初始余额的模型，基于规则的基准模型最终余额为 1580 万美元。

参考

CEO-Bench