一年前的o1在真实急诊信息最不全、时间最紧的环节胜过急诊医生,这不是实验室刷榜,是直接冲击医疗流程。做AI落地的朋友可以拿这篇当说服医院的弹药。
一项发表于《科学》的研究显示,OpenAI一年前发布的o1模型在急诊诊断中表现优于医生。该模型在真实、混乱的急诊数据测试中,正确或接近正确诊断率达67%,而医生为50-55%,尤其在信息有限的早期分诊阶段优势最明显。研究指出,o1模型在结构化病例中的临床推理近乎完美,且该模型按AI标准已属旧版,当前模型可能更强。研究未涵盖长期住院数据及影像诊断,下一步需验证AI系统能否实际改善患者预后。
医生不借助 AI 进行诊断是不道德的!
《科学》杂志发表的一项新研究显示,OpenAI 的 o1 模型(不是 5.5,而是已经发布超过一年的 o1!)在患者诊断方面优于急诊科医生,在 67% 的情况下能给出正确或接近正确的诊断,而医生的这一比例为 50%–55%,尤其是在信息有限的早期分诊阶段。
该模型在结构化病例的临床推理方面也获得了近乎满分的成绩,远超主治医生。
再次强调:这是一个发布超过一年的模型,在 AI 时代已经算是老模型了。
这是首批将大语言模型与真实、混乱的急诊数据(而非精心挑选的教科书案例)进行对比测试的研究之一。性能差距最大的地方恰恰是错误最危险的环节——即急诊流程早期,医生信息不全且面临时间压力的时候。
而接受测试的模型(o1)按 AI 标准已经过时,这意味着当前模型的表现可能更胜一筹。
该研究仅涵盖短暂的急诊接诊,并未涉及需要数天累积数据的长期住院场景。研究也没有测试模型在影像学检查(扫描、X 光)上的表现,而这些在许多真实诊断中至关重要。下一步是要证明这些系统在实际应用中确实能改善患者的治疗结果,而不仅仅是在受控对比中表现出色。但我打赌,在这些案例中模型的表现也会优于人类医生。