向阳乔木@vista8

精选85

2026-04-26 22:45·67天前

精选理由

GPT-5.5 的核心叙事不是跑分，而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token，这两个信号叠加在一起，做 Agent 和科研工具的人该认真评估了。

AI 摘要

OpenAI发布GPT-5.5，核心目标是增强模型自主规划与执行多步骤复杂任务的能力，减少人工干预。在多项基准测试中表现突出：在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品；在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高，科研能力显著提升，甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强，其响应速度与GPT-5.4持平。

http://x.com/i/article/2048407268547522560

OpenAI GPT-5.5官方介绍【AI翻译重写】

OpenAI 在 4 月 23 日发布了 GPT-5.5，4 月 24 日 API 正式开放。

每次大模型发布，都会有一堆跑分截图刷屏，然后大家看完就散了。

但这次读完OpenAI的博客原文，有几个地方值得认真拆开来说。

https://openai.com/index/introducing-gpt-5-5/

它到底想解决什么

先说一个很多人都有过的体验。

用 AI 做复杂任务，你得像个项目经理一样全程盯着它。

稍微多几个步骤，它就开始跑偏，或者干脆停下来问你"接下来怎么办"。

你花在"管理 AI"上的精力，有时候比自己动手还多。

GPT-5.5 想解决的，就是这个问题。

OpenAI 的原话是：给它一个乱糟糟的、多步骤的任务，它会自己规划、调用工具、检查结果、处理模糊情况，然后一直做下去，直到完成。

这个方向比跑分数字更值得关注。

跑分可以调参刷出来，但"能不能真的把一件复杂的事做完"，才是实际工作里最重要的能力。

OpenAI 把这类能力叫做 Agentic，中文可以理解为"自主行动能力"，也就是模型能像一个真正的执行者一样，自己规划步骤、调用外部工具、处理中途遇到的障碍，而不是每一步都等人指令。

跑分数据，先看这几个关键的

这张表对比了 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 六个模型。

几个重点数字：

Terminal-Bench 2.0（测试复杂命令行工作流，需要规划、迭代和工具协调）：GPT-5.5 拿到 82.7%，GPT-5.4 是 75.1%，Claude Opus 4.7 是 69.4%。提升幅度不小。

GDPval（测试 AI 在 44 种职业里完成知识工作的能力）：GPT-5.5 是 84.9%，GPT-5.4 是 83.0%，Gemini 3.1 Pro 只有 67.3%。

OSWorld-Verified（测试模型能不能独立操作真实电脑界面，比如点击、输入、切换软件）：GPT-5.5 是 78.7%，GPT-5.4 是 75.0%，Claude Opus 4.7 是 78.0%，基本持平。

FrontierMath Tier 4（顶级数学难题，人类专家解起来也很吃力）：GPT-5.5 是 35.4%，GPT-5.4 是 27.1%，Claude Opus 4.7 是 22.9%，Gemini 3.1 Pro 只有 16.7%。这个提升幅度相当明显。

BrowseComp（测试模型在网上深度搜索和研究的能力）：GPT-5.5 Pro 拿到 90.1%，是所有模型里最高的。

向阳乔木@vista8 · X

精选85导出 Markdown

2026-04-26 22:45·67天前

在 X 看原推· x.com

精选理由

AI 摘要

http://x.com/i/article/2048407268547522560

OpenAI GPT-5.5官方介绍【AI翻译重写】

OpenAI 在 4 月 23 日发布了 GPT-5.5，4 月 24 日 API 正式开放。

每次大模型发布，都会有一堆跑分截图刷屏，然后大家看完就散了。

但这次读完OpenAI的博客原文，有几个地方值得认真拆开来说。

https://openai.com/index/introducing-gpt-5-5/

它到底想解决什么

先说一个很多人都有过的体验。

OpenAI GPT-5.5官方介绍【AI翻译重写】

它到底想解决什么

跑分数据，先看这几个关键的

OpenAI GPT-5.5官方介绍【AI翻译重写】

它到底想解决什么

代码能力：不只是"写代码更快"

知识工作：从"回答问题"到"帮你干活"

科研能力：这个方向有点超出预期

推理效率：模型帮助优化了运行自己的基础设施

网络安全：能力越强，管控越严

长上下文能力：这个提升幅度很惊人

抽象推理：ARC-AGI-2 的数字很有意思

定价和可用性，说清楚

最后说一个更大的背景

跑分数据，先看这几个关键的

代码能力：不只是"写代码更快"

知识工作：从"回答问题"到"帮你干活"

科研能力：这个方向有点超出预期

推理效率：模型帮助优化了运行自己的基础设施

网络安全：能力越强，管控越严

长上下文能力：这个提升幅度很惊人

抽象推理：ARC-AGI-2 的数字很有意思

定价和可用性，说清楚

最后说一个更大的背景

OpenAI GPT-5.5官方介绍 【AI翻译重写】

它到底想解决什么

跑分数据，先看这几个关键的

OpenAI GPT-5.5官方介绍 【AI翻译重写】

它到底想解决什么

代码能力：不只是"写代码更快"

知识工作：从"回答问题"到"帮你干活"

科研能力：这个方向有点超出预期

推理效率：模型帮助优化了运行自己的基础设施

网络安全：能力越强，管控越严

长上下文能力：这个提升幅度很惊人

抽象推理：ARC-AGI-2 的数字很有意思

定价和可用性，说清楚

最后说一个更大的背景

跑分数据，先看这几个关键的

代码能力：不只是"写代码更快"

知识工作：从"回答问题"到"帮你干活"

科研能力：这个方向有点超出预期

推理效率：模型帮助优化了运行自己的基础设施

网络安全：能力越强，管控越严

长上下文能力：这个提升幅度很惊人

抽象推理：ARC-AGI-2 的数字很有意思

定价和可用性，说清楚

最后说一个更大的背景

OpenAI GPT-5.5官方介绍【AI翻译重写】

OpenAI GPT-5.5官方介绍【AI翻译重写】