OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。
这非常好。
OpenAI 刚刚将前沿级别的健康 AI 功能,从高级推理模型下放到了免费的 GPT-5.5 Instant 模型。
GPT-5.5 Instant 现在在健康评估方面的表现接近 OpenAI 的 Thinking 模型,这意味着这个更便宜、更快的默认模型正在被训练得更像那些花费额外计算资源来检验自身推理的慢速模型。
这次更新瞄准的差距,在于一个听起来流畅的聊天机器人和一个知道何时放慢脚步、询问缺失细节、承认不确定性,以及在症状看起来紧急时推动用户寻求医疗关怀的健康助手之间的区别。
OpenAI 表示,每周有超过 2.3 亿人向 ChatGPT 提出健康与保健问题,因此将这一能力纳入免费产品,将改变其规模——从高级辅助转变为大众可及。
从 OpenAI 的博客来看,他们似乎通过大规模的“蒸馏”实现了这一点。即一个更强的教师模型和人类专家生成高质量回复,而一个更便宜的学生模型学习这些回答模式,无需每次重复同样的昂贵内部搜索。
也就是说,OpenAI 的训练循环在很大程度上是由医生塑造的:来自 60 个国家、涵盖 49 种语言和 26 个专业的 260 多位医生,审阅了超过 70 万条模型回复,并评判了答案是否准确、谨慎、清晰、完整和有用。
OpenAI 可能采用的机制似乎是监督微调与偏好训练的结合:在前者中,Instant 模型被展示更优的答案;在后者中,当两个输出存在差异时,它会学习在医生主导的评估标准下哪种答案更受青睐。
医生参与的部分至关重要,因为目标不仅是“医学事实”,更是临床应答行为——例如在给出指导之前,先询问年龄、怀孕状态、病程时长、用药史、剧烈疼痛、呼吸困难、发烧、神经系统症状或其他缺失的背景信息。
因此,最显著的改进并非医学冷知识,而是在不确定性下的行为表现,因为一个好的健康回答往往意味着要说明哪些信息尚无法获知、哪些背景信息缺失、哪些危险信号需要重视,以及下一步最安全的行为应该是什么。
OpenAI 还报告称,在实际健康流量中,被标记的事实性问题在两个月内减少了 71%,这表明这次更新不仅提高了基准测试分数,还在日常使用中减少了错误陈述。
[引用 @OpenAI]:GPT-5.5 Instant 在健康相关问题上的表现已与我们前沿的 Thinking 模型持平。
每周,超过2.3亿人向ChatGPT咨询健康和保健问题,而GPT-5.5 Instant在识别何时可能需要紧急护理、询问相关背景信息、解释不确定性以及使复杂信息更易于理解方面表现更佳。
由于GPT-5.5 Instant在ChatGPT中面向所有免费用户开放,这些改进能够帮助更多人。
由医生主导的评估对于实现这些重大的智能提升至关重要。