# OpenAI发布GPT-5.5，重点提升AI自主执行复杂任务能力

- 来源：向阳乔木 (@vista8)
- 发布时间：2026-04-26 22:45
- AIHOT 分数：85
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmofx0ctt00f4slo65zv7pr95
- 原文链接：https://x.com/vista8/status/2048413233326043397

## 精选理由

GPT-5.5 的核心叙事不是跑分，而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token，这两个信号叠加在一起，做 Agent 和科研工具的人该认真评估了。

## AI 摘要

OpenAI发布GPT-5.5，核心目标是增强模型自主规划与执行多步骤复杂任务的能力，减少人工干预。在多项基准测试中表现突出：在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品；在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高，科研能力显著提升，甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强，其响应速度与GPT-5.4持平。

## 正文

http://x.com/i/article/2048407268547522560

# OpenAI GPT-5.5官方介绍 【AI翻译重写】

OpenAI 在 4 月 23 日发布了 GPT-5.5，4 月 24 日 API 正式开放。

每次大模型发布，都会有一堆跑分截图刷屏，然后大家看完就散了。

但这次读完OpenAI的博客原文，有几个地方值得认真拆开来说。

> https://openai.com/index/introducing-gpt-5-5/

## 它到底想解决什么

先说一个很多人都有过的体验。

用 AI 做复杂任务，你得像个项目经理一样全程盯着它。

稍微多几个步骤，它就开始跑偏，或者干脆停下来问你"接下来怎么办"。

你花在"管理 AI"上的精力，有时候比自己动手还多。

GPT-5.5 想解决的，就是这个问题。

OpenAI 的原话是：给它一个乱糟糟的、多步骤的任务，它会自己规划、调用工具、检查结果、处理模糊情况，然后一直做下去，直到完成。

这个方向比跑分数字更值得关注。

跑分可以调参刷出来，但"能不能真的把一件复杂的事做完"，才是实际工作里最重要的能力。

OpenAI 把这类能力叫做 Agentic，中文可以理解为"自主行动能力"，也就是模型能像一个真正的执行者一样，自己规划步骤、调用外部工具、处理中途遇到的障碍，而不是每一步都等人指令。

## 跑分数据，先看这几个关键的

这张表对比了 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 六个模型。

几个重点数字：

Terminal-Bench 2.0（测试复杂命令行工作流，需要规划、迭代和工具协调）：GPT-5.5 拿到 82.7%，GPT-5.4 是 75.1%，Claude Opus 4.7 是 69.4%。提升幅度不小。

GDPval（测试 AI 在 44 种职业里完成知识工作的能力）：GPT-5.5 是 84.9%，GPT-5.4 是 83.0%，Gemini 3.1 Pro 只有 67.3%。

OSWorld-Verified（测试模型能不能独立操作真实电脑界面，比如点击、输入、切换软件）：GPT-5.5 是 78.7%，GPT-5.4 是 75.0%，Claude Opus 4.7 是 78.0%，基本持平。

FrontierMath Tier 4（顶级数学难题，人类专家解起来也很吃力）：GPT-5.5 是 35.4%，GPT-5.4 是 27.1%，Claude Opus 4.7 是 22.9%，Gemini 3.1 Pro 只有 16.7%。这个提升幅度相当明显。

BrowseComp（测试模型在网上深度搜索和研究的能力）：GPT-5.5 Pro 拿到 90.1%，是所有模型里最高的。

## 代码能力：不只是"写代码更快"

这两张图有个很有意思的地方：GPT-5.5 的点在右上角（得分更高），但横轴的位置（token 消耗）并没有比 GPT-5.4 多，甚至更少。

更聪明，同时更省。 这在大模型里不常见，通常能力越强，消耗越大。

Expert-SWE 是 OpenAI 内部的评测基准，专门测那种"长周期编程任务"，每道题的人类预计完成时间中位数是 20 小时。GPT-5.5 在这个测试上同样超过了 GPT-5.4。

> 视频地址：https://openai.com/index/introducing-gpt-5-5/?video=1185606271

演示里，有一个是从一张截图出发，让模型用 WebGL 和 Vite（两个前端开发工具）实现一个阿尔忒弥斯二号任务的 3D 轨道可视化 app，用的是 NASA 真实数据，还要支持交互操作和真实的轨道力学。

这种任务以前需要一个有经验的前端工程师花好几天。

两个真实测试者的反馈值得引用：

Dan Shipper（Every 创始人）发布 app 后遇到了一个棘手 bug，调了好几天，最后让公司最好的工程师重写了部分系统才解决。

他拿 GPT-5.5 做了个回溯测试：把 bug 出现时的代码状态给模型，让它判断该怎么修。

GPT-5.4 做不到，GPT-5.5 给出了和那位工程师基本一致的方案。

他说 GPT-5.5 是"第一个让我感受到真正概念清晰度的编程模型"。

Pietro Schirano（MagicPath CEO）让 GPT-5.5 把一个有几百处前端改动和重构的分支，合并进一个同样有大量变更的主分支。

这种合并在工程上是噩梦级别的，人工做可能要花一整天。

模型大概用了 20 分钟，一次搞定。他说"感觉像是在和一个更高智能合作，甚至有一种尊重感"。

还有一个 NVIDIA 工程师说：

> "失去 GPT-5.5 的使用权，感觉像是被截肢了。"

Cursor 的联合创始人 Michael Truell 也给出了具体描述：GPT-5.5 比 GPT-5.4 更持久，在复杂的长任务里不会轻易停下来，这对他们用户最依赖的那类工作影响最大。

## 知识工作：从"回答问题"到"帮你干活"

GDPval 这个测试很有意思，它不是考数学或者写代码，而是测模型在 44 种真实职业里完成知识工作的能力，比如财务分析、法律文件、市场研究。

GPT-5.5 以 84.9% 的胜率领先，Gemini 3.1 Pro 只有 67.3%，差距相当大。

OSWorld-Verified 测的是模型能不能真正"用电脑"，不是在对话框里聊天，而是看屏幕、点击、输入、在不同软件之间切换。

GPT-5.5 达到 78.7%，接近 Claude Opus 4.7 的 78.0%。

Tau2-bench Telecom 测的是复杂客服工作流，GPT-5.5 达到 98.0%，GPT-5.4 是 92.8%。

而且这个测试是在没有针对性调整提示词的情况下跑的，其他模型的数据是调整过提示词之后的结果，所以这个对比对 GPT-5.5 来说其实更有说服力。

OpenAI 内部的真实使用数据：

- 超过 85% 的 OpenAI 员工每周在用 Codex，覆盖工程、财务、市场、数据科学等几乎所有部门。

- Finance 团队用它审查了 24，771 份 K-1 税务表格（K-1 是美国的一种合伙人税务申报表），共 71，637 页，比去年提前了两周完成，而且流程里排除了个人隐私信息。

- Comms 团队用它分析了六个月的演讲邀请数据，建立了一套评分和风险框架，低风险请求自动处理，高风险的还是走人工审核。

- Go-to-Market 团队有人用它自动生成每周业务报告，每周省了 5 到 10 小时。

## 科研能力：这个方向有点超出预期

GeneBench 是一个专门测多阶段科学数据分析的基准，聚焦遗传学和定量生物学。

这类任务的特点是：数据可能有错误或歧义，模型要自己判断，还要正确使用现代统计方法，而且很多题目对应的是科学专家需要花好几天的项目。

GPT-5.5 在这里的提升幅度比其他测试更明显：从 GPT-5.4 的 19.0% 跳到了 25.0%，Pro 版更是到了 33.2%。

BixBench 是围绕真实生物信息学和数据分析设计的基准（生物信息学，Bioinformatics，是用计算机方法分析生物数据的学科，比如基因序列分析）。

GPT-5.5 达到 80.5%，GPT-5.4 是 74.0%，是目前有公开成绩的模型里最高的。

数学证明的案例值得单独说。

一个内部版本的 GPT-5.5 配合自定义工具，帮助发现了一个关于拉姆齐数的新证明。

拉姆齐数（Ramsey numbers）是组合数学里的核心研究对象。

组合数学研究离散对象怎么组合在一起，比如图、网络、集合、模式。

拉姆齐数问的是：一个网络要多大，才能保证某种有序结构必然出现？这类结果极少，技术难度很高。

这个证明后来在 Lean 里得到了验证。

Lean 是一个数学形式化验证工具，可以用计算机严格检验数学证明是否成立。

也就是说，不是模型"说"它发现了证明，是真的经过了独立验证的数学结论。

两个研究者的真实使用案例：

免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个有 62 个样本、近 28，000 个基因的基因表达数据集，生成了详细研究报告，还挖出了关键问题和洞察。

他说这些工作，他的团队做可能要几个月。

数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里，从一个提示词出发，11 分钟内构建了一个代数几何 app，可以可视化两个二次曲面的交线，并把结果转换成 Weierstrass 模型（一种椭圆曲线的标准形式，在数论研究里很常用）。

他后来还扩展了 app，加入了更稳定的奇点可视化和精确系数输出，可以直接用于后续研究。

他说，这类自定义数学可视化工具以前需要专门的软件才能实现，现在一个提示词就能搞定。

## 推理效率：模型帮助优化了运行自己的基础设施

这部分是原文里最容易被忽略、但技术上最有意思的地方。

GPT-5.5 是一个更大、更强的模型，按常理应该更慢、更贵。

但 OpenAI 说它的单 token 延迟和 GPT-5.4 持平，也就是响应速度没有变慢。

怎么做到的？

GPT-5.5 是专门为 NVIDIA GB200 和 GB300 NVL72 系统设计和训练的。

这是英伟达最新一代的 AI 推理硬件，专门为大规模语言模型推理优化。

但硬件只是一部分。他们还对推理系统做了大量软件层面的优化，其中最有意思的一个：

以前，每个请求在 GPU 上会被切成固定数量的块来处理，这样大请求和小请求可以在同一块 GPU 上运行。

但固定分块对所有流量形状都不是最优的。

Codex 分析了几周的生产流量数据，写出了自定义的启发式算法，动态决定怎么分块和负载均衡。

这个优化让 token 生成速度提升了 20% 以上。

也就是说，模型帮助优化了运行自己的基础设施。 这个递归关系有点微妙，但非常真实。

Artificial Analysis 的智能指数是由外部机构跑的 10 个评测的加权平均，包括编程、科学、推理等多个维度。

GPT-5.5 在这张图上的位置：智能指数最高，同时 token 成本处于中等水平，也就是 OpenAI 说的"顶级智能，一半的成本"。

## 网络安全：能力越强，管控越严

这次发布在网络安全方向有专门的篇幅，值得单独说。

OpenAI 把 GPT-5.5 的生物化学和网络安全能力都评定为 High（高风险），但还没到 Critical（临界）级别。

这是他们内部 Preparedness Framework（准备框架，用来评估模型潜在风险等级的体系）里的分级。

CyberGym 测的是模型在网络安全任务上的能力：GPT-5.5 是 81.8%，GPT-5.4 是 79.0%，Claude Opus 4.7 是 73.1%。

CTF（Capture the Flag） 是网络安全领域的一种竞赛形式，参赛者需要找到系统漏洞、获取隐藏的"Flag"字符串。

这个内部测试用的是更难的 CTF 题目，GPT-5.5 达到 88.1%，GPT-5.4 是 83.7%。

OpenAI 的应对策略分三层：

第一层，加强管控。

针对高风险网络安全请求部署更严格的分类器，他们自己也承认"一开始可能会误伤一些正常用户"，会持续调整。

第二层，开放可信访问。

推出 Trusted Access for Cyber 计划，从 Codex 开始，通过身份验证的用户可以获得更少限制的网络安全能力访问权限，用于合法的防御性工作。

负责保护关键基础设施的组织可以申请访问 GPT-5.4-Cyber（专门的网络安全版本），但需要满足严格的安全要求。

申请地址是 chatgpt.com/cyber。

第三层，和政府合作。

探索如何用 AI 支持负责保护关键基础设施的政府机构，包括数字系统、电网、供水系统等。

## 长上下文能力：这个提升幅度很惊人

MRCR（Multi-Round Conversation Retrieval） 测的是模型在超长对话里找到正确信息的能力。

8 根针，意思是在对话里藏了 8 条关键信息，看模型能不能全找到。

在 512K 到 1M token 的超长上下文里，GPT-5.5 达到 74.0%，GPT-5.4 只有 36.6%，Claude Opus 4.7 是 32.2%。

翻倍的提升。 这意味着 GPT-5.5 在处理超长文档、超长对话时，信息检索能力远超前代。

Graphwalks 测的是在超长图结构数据里做推理（比如找路径、找父节点）。

在 1M token 的场景下，GPT-5.5 的 BFS（广度优先搜索）得分是 45.4%，GPT-5.4 只有 9.4%。

## 抽象推理：ARC-AGI-2 的数字很有意思

ARC-AGI 是一个专门测试抽象推理和模式识别的基准，被认为是衡量"类人推理能力"的重要指标。

ARC-AGI-1（相对简单版本）：GPT-5.5 是 95.0%，Gemini 3.1 Pro 是 98.0%，GPT-5.5 略低。

ARC-AGI-2（更难版本）：GPT-5.5 是 85.0%，GPT-5.4 是 73.3%，Claude Opus 4.7 是 75.8%，Gemini 3.1 Pro 是 77.1%。GPT-5.5 在这里反而领先了。

## 定价和可用性，说清楚

ChatGPT 里：

- GPT-5.5 Thinking：Plus、Pro、Business、Enterprise 用户可用

- GPT-5.5 Pro（更难问题，更高精度）：Pro、Business、Enterprise 用户可用

Codex 里：

- GPT-5.5：Plus、Pro、Business、Enterprise、Edu、Go 计划可用

- 上下文窗口：400K token

- Fast 模式：速度快 1.5 倍，价格是 2.5 倍

API（开发者接口）：

OpenAI 特别说明：虽然 GPT-5.5 比 GPT-5.4 贵，但因为完成同样任务用的 token 更少，实际总成本对大多数用户来说不会增加太多，在 Codex 里甚至可能更省。

## 最后说一个更大的背景

这次发布有一句话值得反复读：

> "过去一年，AI 在软件工程领域的渗透速度极快。GPT-5.5 想做的，是把这种渗透扩展到科学研究和更广泛的知识工作。"

软件工程是第一个被大规模改变的领域，因为代码是结构化的，对错容易验证，反馈循环很快。

科学研究更难，因为数据有噪声，结论需要专业判断，验证周期很长。

但从 GeneBench、BixBench、数学证明这些案例来看，模型正在从"回答科学问题"变成"参与科学过程"。

这两件事之间的距离，比看起来要大得多。

能不能真的做到，还需要时间验证。但方向已经很清楚了。