Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生
两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平,但更值得关注的是那个被埋起来的实验:更强的模型一上来,精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。
德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。
《自然》杂志新研究显示,AI 系统在诊断能力上可与医生媲美,但其中一项结果表明,这项技术可能随时间推移而效果下降。
发表于《自然》的两项新研究表明,在模拟患者病例中,专用 AI 系统在疾病诊断和治疗决策方面与医生不相上下,有时甚至表现更优。这两个系统均基于已过时的基础模型运行。
专为医学领域构建的 AI 程序正日益接近真正的临床价值。这是同时发表于《自然》的两篇论文的核心结论。德国系统 MIRA 在诊断胰腺癌和肺炎等疾病方面优于医生。谷歌系统 AMIE 则能制定出更准确的检测与治疗方案。
MIRA 如同一位在模拟医院中工作的医生
MIRA 全称为“医疗推理与行动智能”(Medical Intelligence for Reasoning and Action),由德累斯顿工业大学、海德堡大学等机构共同开发。与标准聊天工具不同,该系统作为一个自主智能体,在一个封闭的虚拟电子健康记录系统中运行。研究显示,MIRA 可从十一项工具的八万五千多个选项中做出选择。它能采集病史、开具实验室检查、微生物学检测及影像学检查申请单、解读结果、生成鉴别诊断,并制定包括处方、手术计划和住院方案在内的治疗计划。
研究团队使用公开的 MIMIC-IV 数据集中的五百多个真实急诊病例对 MIRA 进行了测试。第二个 AI 智能体扮演患者角色,仅分享实际病历中的信息。
在横跨八个疾病类别中,MIRA 的正确诊断率达到 88.9%,这是以数据集中记录的诊断结果为对照标准得出的。在直接一对一对比中,双方在相同条件下处理了 311 个案例的子集。MIRA 得分为 87.8%。四位经验丰富的专科医生达到 78.1%。由住院医生和专科医生组成的混合团队取得了 71.1% 的成绩。MIRA 在阑尾炎(98.6%)和胰腺炎(92.3%)上表现最佳。AI 和医生都在肺炎(72.4%)和尿路感染(77.6%)上遇到了更多困难。
研究人员还检查了这些建议的安全性。不知推荐结果来自 MIRA 还是人类的盲审专科评审员未发现任何危险的药物相互作用、未在肾功能受损患者中发现错误剂量、也未发现存在风险的止痛药处方。MIRA 在获取患者当前用药方面近乎完美。它还准确判断了患者是否需要住院:没有遗漏任何需要住院的病例。即使在测试患者只说德语或法语、或表现出特别焦虑时,其表现依然稳定。源代码已在 GitHub 上公开。
AMIE 将两个智能体与临床指南配对
谷歌的 AMIE 采用了一种不同的方法:跨多次就诊管理患者。该系统由两部分组成。一个对话智能体负责与患者进行快速、友好的对话。另一个智能体在后台工作,进行更仔细的思考,并将案例与医疗指南进行交叉对照。
在一项严格控制的研究中,谷歌将 AMIE 与 21 名初级保健医生在横跨多次就诊的 100 个案例中进行了比较。基准是英国的 NICE 指南和 BMJ 最佳实践指南。由演员通过文本聊天扮演患者。根据研究,AMIE 在治疗决策上与医生持平,并在方案准确性和指南依从性上超越了医生。在首次就诊时,AMIE 的总体方案在 95% 的案例中被评为适当。而医生这一比例为 72%。无论是专科评审员还是患者演员,都更倾向于选择 AMIE,而非人类医生。
为了测试药物知识,团队基于两种国家药物处方集构建了一个专用基准 RxQA,并由持证药剂师验证。AMIE 在较难的问题上得分超过了初级保健医生。不过,这项测试对双方来说都很困难。即使在较简单的问题上,最高得分也低于 75%。
两个团队都警告不要急于下结论
作者明确指出了他们研究结果的局限性。MIRA 对“一小部分但非零”的患者推荐了“偏离最佳实践的护理”。模拟患者的回答也可能“比急诊科患者的真实语言更有条理”。而且不能完全排除自由可用的 MIMIC-IV 数据集已经包含在所使用模型的训练数据中。如果是这样,那么测得的性能更像是上限而非实际估计。作为对照的医生也在德国急诊系统工作,这与其他国家不同。
AMIE 的开发人员称他们的研究是一个“里程碑”,但强调无论是病例选择还是纯文本对话都无法反映真实的临床环境。该系统显示出“有前景的能力”,但“尚未准备好应用于现实世界”。还需要更多工作来解决可能在系统隐藏推理步骤中潜藏的“潜在推理错误”。
共同开发 MIRA 的研究团队负责人 Jakob Kather 向英国《金融时报》表示:“我们正在预览人工智能如何改变医学。”他将此类 AI 智能体比作飞机的自动驾驶仪:“这些系统可以通过接管常规任务来支持和减轻医疗专业人员的负担,但最终责任始终由医生承担。”
独立专家给兴奋情绪降温
未参与这两项研究的研究人员称赞了其严谨的方法论,但指出这些只是模拟。牛津大学医学社会学教授 Catherine Pope 向《金融时报》表示,这“与现实医疗保健中混乱、复杂、人性化的世界相去甚远”。
爱丁堡大学健康信息学教授朱莉·杰科表示,报告中的许多优势归结为“方案的精确性和完整性”,而非“临床正确性方面的明显差异”。该研究“展示的是针对结构化标准的性能表现,而非完全捕捉真实临床决策的复杂性”。
脚手架对弱模型帮助最大,强模型并不需要它
最值得注意的发现之一隐藏在 AMIE 的补充实验中。与同行评审研究的常见情况一样,这两个系统都依赖较旧的 AI 模型。AMIE 仍然运行在谷歌较旧的 Gemini 1.5 Flash 上。MIRA 则使用 OpenAI 的 GPT-4o 和 o1-preview。所有这些模型后来都已被新一代模型超越。
谷歌的研究人员逐一替换了各个组件,以找出真正驱动性能的因素:是双智能体架构、指南匹配和专门训练构成的复杂脚手架,还是底层的大语言模型本身。
对于较旧的 Gemini 1.5 Flash,该专门设置带来了研究中描述的大幅性能提升。但当研究人员将相同的设置移植到更新的 Gemini 2.5 Flash 上时,优势几乎消失了。
换句话说,专用系统通过强制进行结构化推理、让模型引用指南并抑制幻觉,来弥补旧模型的弱点。更强的模型可以自行完成所有这些工作。该论文承认,随着基础模型的改进,AMIE 的价值正在缩小。事实上,像 Gemini 2.5 Pro、o3 和 GPT-5 这样的新通用模型,在 RxQA 药物测试中已经达到了“大致相当”于完整 AMIE 系统的得分。
在实践中,AMIE 似乎已经被 AI 发展的速度所超越。这是一个不断重复的模式:随着更强模型的到来,围绕语言模型的脚手架变得多余,有时是因为脚手架本身为下一代模型的训练数据提供了素材。这并不意味着它背后的想法毫无价值:在编程领域,且越来越多地扩展到其他领域,像 Claude Code、OpenAI Codex 和 Claude Cowork 这样的脚手架工具为模型提供了工具、上下文和记忆。即使更强的模型,在获得这类支持后,也能在复杂任务上表现得更好。但脚手架必须跟上模型的性能,否则最终会变成累赘。
MIRA 缺乏这种分析。不过,其架构的一部分更多是将 AI 连接到医院的临床系统,而不是修补模型的弱点。这部分不会随着更强模型的出现而变得过时。
摒弃炒作的人工智能新闻——由人类精心策划
订阅 THE DECODER,享受无广告阅读、每周 AI 新闻简报、每年六期独家“AI Radar”前沿报告、完整档案访问权限以及评论区的使用权限。
阅读全文,了解全貌。订阅即可获得无炒作报道。
- 访问所有 THE DECODER 文章。
- 无干扰阅读——没有谷歌广告。
- 访问评论区和社区讨论。
- 每周 AI 新闻简报。
- 每年六期:“AI Radar”——深入探讨关键 AI 话题。
- KI Pro 线上活动最高可享 25% 折扣。
- 访问我们完整的十年档案。
- 从 The Decoder 获取最新 AI 新闻。