OpenAI发布GPT-5.5,重点提升AI自主执行复杂任务能力 · AI HOT
向阳乔木@vista8精选85
2026-04-26 22:45·67天前
精选理由GPT-5.5 的核心叙事不是跑分,而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token,这两个信号叠加在一起,做 Agent 和科研工具的人该认真评估了。
AI 摘要OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
向阳乔木@vista8 · X2026-04-26 22:45·67天前
在 X 看原推· x.com精选理由GPT-5.5 的核心叙事不是跑分,而是从「回答问题」到「把事做完」的范式切换。长上下文检索翻倍、代码任务更聪明且更省 token,这两个信号叠加在一起,做 Agent 和科研工具的人该认真评估了。
AI 摘要OpenAI发布GPT-5.5,核心目标是增强模型自主规划与执行多步骤复杂任务的能力,减少人工干预。在多项基准测试中表现突出:在Terminal-Bench 2.0、FrontierMath Tier 4等复杂任务上超越GPT-5.4及Claude Opus等竞品;在GDPval知识工作与OSWorld-Verified真实电脑操作测试中也保持领先。其代码能力更优且效率更高,科研能力显著提升,甚至辅助发现了拉姆齐数的新证明。尽管模型更大更强,其响应速度与GPT-5.4持平。
代码能力:不只是"写代码更快"
这两张图有个很有意思的地方:GPT-5.5 的点在右上角(得分更高),但横轴的位置(token 消耗)并没有比 GPT-5.4 多,甚至更少。
更聪明,同时更省。 这在大模型里不常见,通常能力越强,消耗越大。
Expert-SWE 是 OpenAI 内部的评测基准,专门测那种"长周期编程任务",每道题的人类预计完成时间中位数是 20 小时。GPT-5.5 在这个测试上同样超过了 GPT-5.4。
视频地址:https://openai.com/index/introducing-gpt-5-5/?video=1185606271
演示里,有一个是从一张截图出发,让模型用 WebGL 和 Vite(两个前端开发工具)实现一个阿尔忒弥斯二号任务的 3D 轨道可视化 app,用的是 NASA 真实数据,还要支持交互操作和真实的轨道力学。
Dan Shipper(Every 创始人)发布 app 后遇到了一个棘手 bug,调了好几天,最后让公司最好的工程师重写了部分系统才解决。
他拿 GPT-5.5 做了个回溯测试:把 bug 出现时的代码状态给模型,让它判断该怎么修。
GPT-5.4 做不到,GPT-5.5 给出了和那位工程师基本一致的方案。
他说 GPT-5.5 是"第一个让我感受到真正概念清晰度的编程模型"。
Pietro Schirano(MagicPath CEO)让 GPT-5.5 把一个有几百处前端改动和重构的分支,合并进一个同样有大量变更的主分支。
这种合并在工程上是噩梦级别的,人工做可能要花一整天。
模型大概用了 20 分钟,一次搞定。他说"感觉像是在和一个更高智能合作,甚至有一种尊重感"。
"失去 GPT-5.5 的使用权,感觉像是被截肢了。"
Cursor 的联合创始人 Michael Truell 也给出了具体描述:GPT-5.5 比 GPT-5.4 更持久,在复杂的长任务里不会轻易停下来,这对他们用户最依赖的那类工作影响最大。
知识工作:从"回答问题"到"帮你干活"
GDPval 这个测试很有意思,它不是考数学或者写代码,而是测模型在 44 种真实职业里完成知识工作的能力,比如财务分析、法律文件、市场研究。
GPT-5.5 以 84.9% 的胜率领先,Gemini 3.1 Pro 只有 67.3%,差距相当大。
OSWorld-Verified 测的是模型能不能真正"用电脑",不是在对话框里聊天,而是看屏幕、点击、输入、在不同软件之间切换。
GPT-5.5 达到 78.7%,接近 Claude Opus 4.7 的 78.0%。
Tau2-bench Telecom 测的是复杂客服工作流,GPT-5.5 达到 98.0%,GPT-5.4 是 92.8%。
而且这个测试是在没有针对性调整提示词的情况下跑的,其他模型的数据是调整过提示词之后的结果,所以这个对比对 GPT-5.5 来说其实更有说服力。
- 超过 85% 的 OpenAI 员工每周在用 Codex,覆盖工程、财务、市场、数据科学等几乎所有部门。
- Finance 团队用它审查了 24,771 份 K-1 税务表格(K-1 是美国的一种合伙人税务申报表),共 71,637 页,比去年提前了两周完成,而且流程里排除了个人隐私信息。
- Comms 团队用它分析了六个月的演讲邀请数据,建立了一套评分和风险框架,低风险请求自动处理,高风险的还是走人工审核。
- Go-to-Market 团队有人用它自动生成每周业务报告,每周省了 5 到 10 小时。
科研能力:这个方向有点超出预期
GeneBench 是一个专门测多阶段科学数据分析的基准,聚焦遗传学和定量生物学。
这类任务的特点是:数据可能有错误或歧义,模型要自己判断,还要正确使用现代统计方法,而且很多题目对应的是科学专家需要花好几天的项目。
GPT-5.5 在这里的提升幅度比其他测试更明显:从 GPT-5.4 的 19.0% 跳到了 25.0%,Pro 版更是到了 33.2%。
BixBench 是围绕真实生物信息学和数据分析设计的基准(生物信息学,Bioinformatics,是用计算机方法分析生物数据的学科,比如基因序列分析)。
GPT-5.5 达到 80.5%,GPT-5.4 是 74.0%,是目前有公开成绩的模型里最高的。
一个内部版本的 GPT-5.5 配合自定义工具,帮助发现了一个关于拉姆齐数的新证明。
拉姆齐数(Ramsey numbers)是组合数学里的核心研究对象。
组合数学研究离散对象怎么组合在一起,比如图、网络、集合、模式。
拉姆齐数问的是:一个网络要多大,才能保证某种有序结构必然出现?这类结果极少,技术难度很高。
Lean 是一个数学形式化验证工具,可以用计算机严格检验数学证明是否成立。
也就是说,不是模型"说"它发现了证明,是真的经过了独立验证的数学结论。
免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个有 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告,还挖出了关键问题和洞察。
数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一个提示词出发,11 分钟内构建了一个代数几何 app,可以可视化两个二次曲面的交线,并把结果转换成 Weierstrass 模型(一种椭圆曲线的标准形式,在数论研究里很常用)。
他后来还扩展了 app,加入了更稳定的奇点可视化和精确系数输出,可以直接用于后续研究。
他说,这类自定义数学可视化工具以前需要专门的软件才能实现,现在一个提示词就能搞定。
推理效率:模型帮助优化了运行自己的基础设施
这部分是原文里最容易被忽略、但技术上最有意思的地方。
GPT-5.5 是一个更大、更强的模型,按常理应该更慢、更贵。
但 OpenAI 说它的单 token 延迟和 GPT-5.4 持平,也就是响应速度没有变慢。
GPT-5.5 是专门为 NVIDIA GB200 和 GB300 NVL72 系统设计和训练的。
这是英伟达最新一代的 AI 推理硬件,专门为大规模语言模型推理优化。
但硬件只是一部分。他们还对推理系统做了大量软件层面的优化,其中最有意思的一个:
以前,每个请求在 GPU 上会被切成固定数量的块来处理,这样大请求和小请求可以在同一块 GPU 上运行。
Codex 分析了几周的生产流量数据,写出了自定义的启发式算法,动态决定怎么分块和负载均衡。
这个优化让 token 生成速度提升了 20% 以上。
也就是说,模型帮助优化了运行自己的基础设施。 这个递归关系有点微妙,但非常真实。
Artificial Analysis 的智能指数是由外部机构跑的 10 个评测的加权平均,包括编程、科学、推理等多个维度。
GPT-5.5 在这张图上的位置:智能指数最高,同时 token 成本处于中等水平,也就是 OpenAI 说的"顶级智能,一半的成本"。
网络安全:能力越强,管控越严
OpenAI 把 GPT-5.5 的生物化学和网络安全能力都评定为 High(高风险),但还没到 Critical(临界)级别。
这是他们内部 Preparedness Framework(准备框架,用来评估模型潜在风险等级的体系)里的分级。
CyberGym 测的是模型在网络安全任务上的能力:GPT-5.5 是 81.8%,GPT-5.4 是 79.0%,Claude Opus 4.7 是 73.1%。
CTF(Capture the Flag) 是网络安全领域的一种竞赛形式,参赛者需要找到系统漏洞、获取隐藏的"Flag"字符串。
这个内部测试用的是更难的 CTF 题目,GPT-5.5 达到 88.1%,GPT-5.4 是 83.7%。
针对高风险网络安全请求部署更严格的分类器,他们自己也承认"一开始可能会误伤一些正常用户",会持续调整。
推出 Trusted Access for Cyber 计划,从 Codex 开始,通过身份验证的用户可以获得更少限制的网络安全能力访问权限,用于合法的防御性工作。
负责保护关键基础设施的组织可以申请访问 GPT-5.4-Cyber(专门的网络安全版本),但需要满足严格的安全要求。
探索如何用 AI 支持负责保护关键基础设施的政府机构,包括数字系统、电网、供水系统等。
长上下文能力:这个提升幅度很惊人
MRCR(Multi-Round Conversation Retrieval) 测的是模型在超长对话里找到正确信息的能力。
8 根针,意思是在对话里藏了 8 条关键信息,看模型能不能全找到。
在 512K 到 1M token 的超长上下文里,GPT-5.5 达到 74.0%,GPT-5.4 只有 36.6%,Claude Opus 4.7 是 32.2%。
翻倍的提升。 这意味着 GPT-5.5 在处理超长文档、超长对话时,信息检索能力远超前代。
Graphwalks 测的是在超长图结构数据里做推理(比如找路径、找父节点)。
在 1M token 的场景下,GPT-5.5 的 BFS(广度优先搜索)得分是 45.4%,GPT-5.4 只有 9.4%。
抽象推理:ARC-AGI-2 的数字很有意思
ARC-AGI 是一个专门测试抽象推理和模式识别的基准,被认为是衡量"类人推理能力"的重要指标。
ARC-AGI-1(相对简单版本):GPT-5.5 是 95.0%,Gemini 3.1 Pro 是 98.0%,GPT-5.5 略低。
ARC-AGI-2(更难版本):GPT-5.5 是 85.0%,GPT-5.4 是 73.3%,Claude Opus 4.7 是 75.8%,Gemini 3.1 Pro 是 77.1%。GPT-5.5 在这里反而领先了。
定价和可用性,说清楚
- GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用
- GPT-5.5 Pro(更难问题,更高精度):Pro、Business、Enterprise 用户可用
- GPT-5.5:Plus、Pro、Business、Enterprise、Edu、Go 计划可用
- Fast 模式:速度快 1.5 倍,价格是 2.5 倍
OpenAI 特别说明:虽然 GPT-5.5 比 GPT-5.4 贵,但因为完成同样任务用的 token 更少,实际总成本对大多数用户来说不会增加太多,在 Codex 里甚至可能更省。
最后说一个更大的背景
"过去一年,AI 在软件工程领域的渗透速度极快。GPT-5.5 想做的,是把这种渗透扩展到科学研究和更广泛的知识工作。"
软件工程是第一个被大规模改变的领域,因为代码是结构化的,对错容易验证,反馈循环很快。
科学研究更难,因为数据有噪声,结论需要专业判断,验证周期很长。
但从 GeneBench、BixBench、数学证明这些案例来看,模型正在从"回答科学问题"变成"参与科学过程"。
能不能真的做到,还需要时间验证。但方向已经很清楚了。
用 AI 做复杂任务,你得像个项目经理一样全程盯着它。
稍微多几个步骤,它就开始跑偏,或者干脆停下来问你"接下来怎么办"。
你花在"管理 AI"上的精力,有时候比自己动手还多。
OpenAI 的原话是:给它一个乱糟糟的、多步骤的任务,它会自己规划、调用工具、检查结果、处理模糊情况,然后一直做下去,直到完成。
跑分可以调参刷出来,但"能不能真的把一件复杂的事做完",才是实际工作里最重要的能力。
OpenAI 把这类能力叫做 Agentic,中文可以理解为"自主行动能力",也就是模型能像一个真正的执行者一样,自己规划步骤、调用外部工具、处理中途遇到的障碍,而不是每一步都等人指令。
跑分数据,先看这几个关键的
这张表对比了 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro 六个模型。
Terminal-Bench 2.0(测试复杂命令行工作流,需要规划、迭代和工具协调):GPT-5.5 拿到 82.7%,GPT-5.4 是 75.1%,Claude Opus 4.7 是 69.4%。提升幅度不小。
GDPval(测试 AI 在 44 种职业里完成知识工作的能力):GPT-5.5 是 84.9%,GPT-5.4 是 83.0%,Gemini 3.1 Pro 只有 67.3%。
OSWorld-Verified(测试模型能不能独立操作真实电脑界面,比如点击、输入、切换软件):GPT-5.5 是 78.7%,GPT-5.4 是 75.0%,Claude Opus 4.7 是 78.0%,基本持平。
FrontierMath Tier 4(顶级数学难题,人类专家解起来也很吃力):GPT-5.5 是 35.4%,GPT-5.4 是 27.1%,Claude Opus 4.7 是 22.9%,Gemini 3.1 Pro 只有 16.7%。这个提升幅度相当明显。
BrowseComp(测试模型在网上深度搜索和研究的能力):GPT-5.5 Pro 拿到 90.1%,是所有模型里最高的。
代码能力:不只是"写代码更快"
这两张图有个很有意思的地方:GPT-5.5 的点在右上角(得分更高),但横轴的位置(token 消耗)并没有比 GPT-5.4 多,甚至更少。
更聪明,同时更省。 这在大模型里不常见,通常能力越强,消耗越大。
Expert-SWE 是 OpenAI 内部的评测基准,专门测那种"长周期编程任务",每道题的人类预计完成时间中位数是 20 小时。GPT-5.5 在这个测试上同样超过了 GPT-5.4。
视频地址:https://openai.com/index/introducing-gpt-5-5/?video=1185606271
演示里,有一个是从一张截图出发,让模型用 WebGL 和 Vite(两个前端开发工具)实现一个阿尔忒弥斯二号任务的 3D 轨道可视化 app,用的是 NASA 真实数据,还要支持交互操作和真实的轨道力学。
Dan Shipper(Every 创始人)发布 app 后遇到了一个棘手 bug,调了好几天,最后让公司最好的工程师重写了部分系统才解决。
他拿 GPT-5.5 做了个回溯测试:把 bug 出现时的代码状态给模型,让它判断该怎么修。
GPT-5.4 做不到,GPT-5.5 给出了和那位工程师基本一致的方案。
他说 GPT-5.5 是"第一个让我感受到真正概念清晰度的编程模型"。
Pietro Schirano(MagicPath CEO)让 GPT-5.5 把一个有几百处前端改动和重构的分支,合并进一个同样有大量变更的主分支。
这种合并在工程上是噩梦级别的,人工做可能要花一整天。
模型大概用了 20 分钟,一次搞定。他说"感觉像是在和一个更高智能合作,甚至有一种尊重感"。
"失去 GPT-5.5 的使用权,感觉像是被截肢了。"
Cursor 的联合创始人 Michael Truell 也给出了具体描述:GPT-5.5 比 GPT-5.4 更持久,在复杂的长任务里不会轻易停下来,这对他们用户最依赖的那类工作影响最大。
知识工作:从"回答问题"到"帮你干活"
GDPval 这个测试很有意思,它不是考数学或者写代码,而是测模型在 44 种真实职业里完成知识工作的能力,比如财务分析、法律文件、市场研究。
GPT-5.5 以 84.9% 的胜率领先,Gemini 3.1 Pro 只有 67.3%,差距相当大。
OSWorld-Verified 测的是模型能不能真正"用电脑",不是在对话框里聊天,而是看屏幕、点击、输入、在不同软件之间切换。
GPT-5.5 达到 78.7%,接近 Claude Opus 4.7 的 78.0%。
Tau2-bench Telecom 测的是复杂客服工作流,GPT-5.5 达到 98.0%,GPT-5.4 是 92.8%。
而且这个测试是在没有针对性调整提示词的情况下跑的,其他模型的数据是调整过提示词之后的结果,所以这个对比对 GPT-5.5 来说其实更有说服力。
- 超过 85% 的 OpenAI 员工每周在用 Codex,覆盖工程、财务、市场、数据科学等几乎所有部门。
- Finance 团队用它审查了 24,771 份 K-1 税务表格(K-1 是美国的一种合伙人税务申报表),共 71,637 页,比去年提前了两周完成,而且流程里排除了个人隐私信息。
- Comms 团队用它分析了六个月的演讲邀请数据,建立了一套评分和风险框架,低风险请求自动处理,高风险的还是走人工审核。
- Go-to-Market 团队有人用它自动生成每周业务报告,每周省了 5 到 10 小时。
科研能力:这个方向有点超出预期
GeneBench 是一个专门测多阶段科学数据分析的基准,聚焦遗传学和定量生物学。
这类任务的特点是:数据可能有错误或歧义,模型要自己判断,还要正确使用现代统计方法,而且很多题目对应的是科学专家需要花好几天的项目。
GPT-5.5 在这里的提升幅度比其他测试更明显:从 GPT-5.4 的 19.0% 跳到了 25.0%,Pro 版更是到了 33.2%。
BixBench 是围绕真实生物信息学和数据分析设计的基准(生物信息学,Bioinformatics,是用计算机方法分析生物数据的学科,比如基因序列分析)。
GPT-5.5 达到 80.5%,GPT-5.4 是 74.0%,是目前有公开成绩的模型里最高的。
一个内部版本的 GPT-5.5 配合自定义工具,帮助发现了一个关于拉姆齐数的新证明。
拉姆齐数(Ramsey numbers)是组合数学里的核心研究对象。
组合数学研究离散对象怎么组合在一起,比如图、网络、集合、模式。
拉姆齐数问的是:一个网络要多大,才能保证某种有序结构必然出现?这类结果极少,技术难度很高。
Lean 是一个数学形式化验证工具,可以用计算机严格检验数学证明是否成立。
也就是说,不是模型"说"它发现了证明,是真的经过了独立验证的数学结论。
免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个有 62 个样本、近 28,000 个基因的基因表达数据集,生成了详细研究报告,还挖出了关键问题和洞察。
数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一个提示词出发,11 分钟内构建了一个代数几何 app,可以可视化两个二次曲面的交线,并把结果转换成 Weierstrass 模型(一种椭圆曲线的标准形式,在数论研究里很常用)。
他后来还扩展了 app,加入了更稳定的奇点可视化和精确系数输出,可以直接用于后续研究。
他说,这类自定义数学可视化工具以前需要专门的软件才能实现,现在一个提示词就能搞定。
推理效率:模型帮助优化了运行自己的基础设施
这部分是原文里最容易被忽略、但技术上最有意思的地方。
GPT-5.5 是一个更大、更强的模型,按常理应该更慢、更贵。
但 OpenAI 说它的单 token 延迟和 GPT-5.4 持平,也就是响应速度没有变慢。
GPT-5.5 是专门为 NVIDIA GB200 和 GB300 NVL72 系统设计和训练的。
这是英伟达最新一代的 AI 推理硬件,专门为大规模语言模型推理优化。
但硬件只是一部分。他们还对推理系统做了大量软件层面的优化,其中最有意思的一个:
以前,每个请求在 GPU 上会被切成固定数量的块来处理,这样大请求和小请求可以在同一块 GPU 上运行。
Codex 分析了几周的生产流量数据,写出了自定义的启发式算法,动态决定怎么分块和负载均衡。
这个优化让 token 生成速度提升了 20% 以上。
也就是说,模型帮助优化了运行自己的基础设施。 这个递归关系有点微妙,但非常真实。
Artificial Analysis 的智能指数是由外部机构跑的 10 个评测的加权平均,包括编程、科学、推理等多个维度。
GPT-5.5 在这张图上的位置:智能指数最高,同时 token 成本处于中等水平,也就是 OpenAI 说的"顶级智能,一半的成本"。
网络安全:能力越强,管控越严
OpenAI 把 GPT-5.5 的生物化学和网络安全能力都评定为 High(高风险),但还没到 Critical(临界)级别。
这是他们内部 Preparedness Framework(准备框架,用来评估模型潜在风险等级的体系)里的分级。
CyberGym 测的是模型在网络安全任务上的能力:GPT-5.5 是 81.8%,GPT-5.4 是 79.0%,Claude Opus 4.7 是 73.1%。
CTF(Capture the Flag) 是网络安全领域的一种竞赛形式,参赛者需要找到系统漏洞、获取隐藏的"Flag"字符串。
这个内部测试用的是更难的 CTF 题目,GPT-5.5 达到 88.1%,GPT-5.4 是 83.7%。
针对高风险网络安全请求部署更严格的分类器,他们自己也承认"一开始可能会误伤一些正常用户",会持续调整。
推出 Trusted Access for Cyber 计划,从 Codex 开始,通过身份验证的用户可以获得更少限制的网络安全能力访问权限,用于合法的防御性工作。
负责保护关键基础设施的组织可以申请访问 GPT-5.4-Cyber(专门的网络安全版本),但需要满足严格的安全要求。
探索如何用 AI 支持负责保护关键基础设施的政府机构,包括数字系统、电网、供水系统等。
长上下文能力:这个提升幅度很惊人
MRCR(Multi-Round Conversation Retrieval) 测的是模型在超长对话里找到正确信息的能力。
8 根针,意思是在对话里藏了 8 条关键信息,看模型能不能全找到。
在 512K 到 1M token 的超长上下文里,GPT-5.5 达到 74.0%,GPT-5.4 只有 36.6%,Claude Opus 4.7 是 32.2%。
翻倍的提升。 这意味着 GPT-5.5 在处理超长文档、超长对话时,信息检索能力远超前代。
Graphwalks 测的是在超长图结构数据里做推理(比如找路径、找父节点)。
在 1M token 的场景下,GPT-5.5 的 BFS(广度优先搜索)得分是 45.4%,GPT-5.4 只有 9.4%。
抽象推理:ARC-AGI-2 的数字很有意思
ARC-AGI 是一个专门测试抽象推理和模式识别的基准,被认为是衡量"类人推理能力"的重要指标。
ARC-AGI-1(相对简单版本):GPT-5.5 是 95.0%,Gemini 3.1 Pro 是 98.0%,GPT-5.5 略低。
ARC-AGI-2(更难版本):GPT-5.5 是 85.0%,GPT-5.4 是 73.3%,Claude Opus 4.7 是 75.8%,Gemini 3.1 Pro 是 77.1%。GPT-5.5 在这里反而领先了。
定价和可用性,说清楚
- GPT-5.5 Thinking:Plus、Pro、Business、Enterprise 用户可用
- GPT-5.5 Pro(更难问题,更高精度):Pro、Business、Enterprise 用户可用
- GPT-5.5:Plus、Pro、Business、Enterprise、Edu、Go 计划可用
- Fast 模式:速度快 1.5 倍,价格是 2.5 倍
OpenAI 特别说明:虽然 GPT-5.5 比 GPT-5.4 贵,但因为完成同样任务用的 token 更少,实际总成本对大多数用户来说不会增加太多,在 Codex 里甚至可能更省。
最后说一个更大的背景
"过去一年,AI 在软件工程领域的渗透速度极快。GPT-5.5 想做的,是把这种渗透扩展到科学研究和更广泛的知识工作。"
软件工程是第一个被大规模改变的领域,因为代码是结构化的,对错容易验证,反馈循环很快。
科学研究更难,因为数据有噪声,结论需要专业判断,验证周期很长。
但从 GeneBench、BixBench、数学证明这些案例来看,模型正在从"回答科学问题"变成"参与科学过程"。
能不能真的做到,还需要时间验证。但方向已经很清楚了。