ChatGPT 更新推出 GPT-5.5 Instant 模型,幻觉减少且答案更个性化
阅读原文· the-decoder.comGPT-5.5 Instant换到默认模型,减少一半幻觉是个硬指标进步,记忆源让用户知道ChatGPT为什么这样回答,透明度这块终于追上了。
OpenAI 将 ChatGPT 的默认模型更新为 GPT-5.5 Instant。内部测试显示,该模型在医学和法律等高风险主题上产生的幻觉声称减少了 52.5%。新功能“记忆来源”允许用户查看影响特定回答的存储上下文。该模型正立即向所有用户推出,但基于过去聊天记录、文件和 Gmail 的个性化功能将首先在网页版上向 Plus 和 Pro 用户开放。此次更新旨在提升回答的准确性和个性化体验。
ChatGPT 更新推出 GPT-5.5 Instant,模型幻觉减少,回答更个性化
要点
OpenAI 正在将 ChatGPT 的默认模型替换为 GPT-5.5 Instant,该模型在医学、法律和金融等高危话题上的幻觉减少了 52.5%,同时在数学、科学和视觉推理方面取得了显著的基准提升。
一项名为“记忆来源”的新功能现在可以向用户展示哪些个人上下文——历史对话、已保存的提醒或上传的文件——影响了某条回答,并支持用户修正或删除单个条目。
GPT-5.5 Instant 现已面向所有 ChatGPT 用户推送,但通过历史对话、文件和 Gmail 实现的高级个性化功能最初仅限 Plus 和 Pro 订阅用户使用,未来几周内将逐步扩大适用范围。
OpenAI 正在将 ChatGPT 的默认模型替换为 GPT-5.5 Instant。此次更新减少了模型幻觉,并提高了回答的精准度,同时新推出的“记忆来源”功能可以让用户看到哪些存储的上下文影响了某条回复。
GPT-5.5 Instant 取代了 GPT-5.3 Instant,同时也以“chat-latest”的名称通过 API 提供。在 OpenAI 的内部测试中,针对医学、法律和金融领域的高风险提示,GPT-5.5 Instant 生成的幻觉性陈述比其前身减少了 52.5%。OpenAI 声称,在用户曾因事实错误而标记过的困难对话中,不准确陈述减少了 37.3%。
OpenAI 以一个代数问题为例。用户上传了一张手写方程式的照片,其中包含一道计算错误。GPT-5.3 Instant 起初认可了该解法,随后注意到 x=3 行不通,但错误地得出结论认为无实数解。GPT-5.5 Instant 也先认同了用户的数学计算,但随后发现了用户在重新整理方程时的错误,并成功解出了修正后的二次方程。
基准测试成绩也反映出类似趋势。在竞争性数学考试 AIME 2025 上,准确率从 65.4% 跃升至 81.2%。测试博士级科学推理能力的 GPQA 从 78.5% 上升至 85.6%。用于科学图表解读与推理的基准 CharXiv 从 75.0% 提升至 81.6%。
衡量模型处理跨文本和图像专家级问题能力的 MMMU-Pro 从 69.2% 升至 76.0%。在复杂文档结构化数据提取测试 OmniDocBench 上,错误率从 14.6% 降至 12.5%。
基准 | 基准描述 | 指标 | GPT-5.3 Instant | GPT-5.5 Instant ---|---|---|---|--- CharXiv-reasoning | 科学图表推理 | 准确率 | 75.0% | 81.6% MMMU-Pro | 专家级多模态推理 | 准确率 | 69.2% | 76.0% OmniDocBench | 文档解析 | 平均错误率(越低越好) | 14.6% | 12.5% GPQA | 博士级科学知识 | 准确率 | 78.5% | 85.6% AIME 2025 | 竞赛数学 | 准确率 | 65.4% | 81.2%
更简洁的回答与更智能的个性化
OpenAI 还着力精简冗余内容。该公司表示,模型给出的回答更短了,但信息量不减;它减少不必要的追问,去掉多余的 emoji,并跳过繁重的格式化排版。OpenAI 写道:"它能传递同等的信息,往往比以前的模型更具实用性,同时减少了导致回答过长的冗词和过度格式化。"
当相关功能开启时,该模型还能更好地利用历史对话、上传的文件以及关联的 Gmail 账户中的上下文。据称 GPT-5.5 Instant 在判断何时加入个性化元素才能真正提升回答质量方面表现更佳,并且能更快地搜索之前的对话。
OpenAI 还在所有 ChatGPT 模型中推出了记忆来源功能。当回答基于已存储的上下文时,用户现在可以看到使用了哪些信息——无论是一条保存的笔记还是一次历史对话。用户可以将条目标记为相关或不相关,也可以进行编辑或删除。
不过 OpenAI 表示,记忆来源并不总是会显示回答背后的每一个因素。例如,只有模型搜索的某些对话会以来源形式呈现。该公司计划随着时间的推移让该视图更加完整。当对话被分享时,记忆来源不会一同传递,而临时对话既不会读取记忆也不会更新记忆。
按计划分阶段推送
OpenAI 表示,GPT-5.5 Instant 现已面向所有 ChatGPT 用户推送。付费用户仍可在模型设置中继续使用 GPT-5.3 Instant 三个月,之后该模型将被下线。
基于历史对话、文件和 Gmail 的增强个性化功能将首先面向网页端的 Plus 和 Pro 用户推出,移动端即将跟进。Free、Go、Business 和 Enterprise 计划预计将在未来几周内获得该功能。记忆来源将首先面向网页端的所有个人用户计划推出,移动端随后跟进。部分个性化功能可能并非在所有地区可用。
OpenAI 近日推出了 GPT-5.5 Thinking 作为更高阶的模型,而 GPT-5.5 Instant 则是 ChatGPT 的日常默认模型。Thinking 版本依然更加强大:据称在网络安全任务中,它可与 Claude Mythos 相媲美,并且取代了专门的 Codex 编码模型。
AI 新闻不炒作——由人工精选