The Decoder：AI News（RSS）

精选78

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

2026-06-18 22:37·3天前·Maximilian Schreiner

精选理由

两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平，但更值得关注的是那个被埋起来的实验：更强的模型一上来，精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。

AI 摘要

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

AI 翻译 · 中文

《自然》杂志新研究显示，AI 系统在诊断能力上可与医生媲美，但其中一项结果表明，这项技术可能随时间推移而效果下降。

马克西米利安·施赖纳查看马克西米利安·施赖纳的 LinkedIn 个人资料

Jun 18, 2026

Nano Banana Pro 由 THE DECODER 提供提示词

发表于《自然》的两项新研究表明，在模拟患者病例中，专用 AI 系统在疾病诊断和治疗决策方面与医生不相上下，有时甚至表现更优。这两个系统均基于已过时的基础模型运行。

专为医学领域构建的 AI 程序正日益接近真正的临床价值。这是同时发表于《自然》的两篇论文的核心结论。德国系统 MIRA 在诊断胰腺癌和肺炎等疾病方面优于医生。谷歌系统 AMIE 则能制定出更准确的检测与治疗方案。

MIRA 如同一位在模拟医院中工作的医生

MIRA 全称为“医疗推理与行动智能”（Medical Intelligence for Reasoning and Action），由德累斯顿工业大学、海德堡大学等机构共同开发。与标准聊天工具不同，该系统作为一个自主智能体，在一个封闭的虚拟电子健康记录系统中运行。研究显示，MIRA 可从十一项工具的八万五千多个选项中做出选择。它能采集病史、开具实验室检查、微生物学检测及影像学检查申请单、解读结果、生成鉴别诊断，并制定包括处方、手术计划和住院方案在内的治疗计划。

研究团队使用公开的 MIMIC-IV 数据集中的五百多个真实急诊病例对 MIRA 进行了测试。第二个 AI 智能体扮演患者角色，仅分享实际病历中的信息。

在横跨八个疾病类别中，MIRA 的正确诊断率达到 88.9%，这是以数据集中记录的诊断结果为对照标准得出的。在直接一对一对比中，双方在相同条件下处理了 311 个案例的子集。MIRA 得分为 87.8%。四位经验丰富的专科医生达到 78.1%。由住院医生和专科医生组成的混合团队取得了 71.1% 的成绩。MIRA 在阑尾炎（98.6%）和胰腺炎（92.3%）上表现最佳。AI 和医生都在肺炎（72.4%）和尿路感染（77.6%）上遇到了更多困难。

研究人员还检查了这些建议的安全性。不知推荐结果来自 MIRA 还是人类的盲审专科评审员未发现任何危险的药物相互作用、未在肾功能受损患者中发现错误剂量、也未发现存在风险的止痛药处方。MIRA 在获取患者当前用药方面近乎完美。它还准确判断了患者是否需要住院：没有遗漏任何需要住院的病例。即使在测试患者只说德语或法语、或表现出特别焦虑时，其表现依然稳定。源代码已在 GitHub 上公开。

AMIE 将两个智能体与临床指南配对

谷歌的 AMIE 采用了一种不同的方法：跨多次就诊管理患者。该系统由两部分组成。一个对话智能体负责与患者进行快速、友好的对话。另一个智能体在后台工作，进行更仔细的思考，并将案例与医疗指南进行交叉对照。

在一项严格控制的研究中，谷歌将 AMIE 与 21 名初级保健医生在横跨多次就诊的 100 个案例中进行了比较。基准是英国的 NICE 指南和 BMJ 最佳实践指南。由演员通过文本聊天扮演患者。根据研究，AMIE 在治疗决策上与医生持平，并在方案准确性和指南依从性上超越了医生。在首次就诊时，AMIE 的总体方案在 95% 的案例中被评为适当。而医生这一比例为 72%。无论是专科评审员还是患者演员，都更倾向于选择 AMIE，而非人类医生。

为了测试药物知识，团队基于两种国家药物处方集构建了一个专用基准 RxQA，并由持证药剂师验证。AMIE 在较难的问题上得分超过了初级保健医生。不过，这项测试对双方来说都很困难。即使在较简单的问题上，最高得分也低于 75%。

两个团队都警告不要急于下结论

作者明确指出了他们研究结果的局限性。MIRA 对“一小部分但非零”的患者推荐了“偏离最佳实践的护理”。模拟患者的回答也可能“比急诊科患者的真实语言更有条理”。而且不能完全排除自由可用的 MIMIC-IV 数据集已经包含在所使用模型的训练数据中。如果是这样，那么测得的性能更像是上限而非实际估计。作为对照的医生也在德国急诊系统工作，这与其他国家不同。

AMIE 的开发人员称他们的研究是一个“里程碑”，但强调无论是病例选择还是纯文本对话都无法反映真实的临床环境。该系统显示出“有前景的能力”，但“尚未准备好应用于现实世界”。还需要更多工作来解决可能在系统隐藏推理步骤中潜藏的“潜在推理错误”。

共同开发 MIRA 的研究团队负责人 Jakob Kather 向英国《金融时报》表示：“我们正在预览人工智能如何改变医学。”他将此类 AI 智能体比作飞机的自动驾驶仪：“这些系统可以通过接管常规任务来支持和减轻医疗专业人员的负担，但最终责任始终由医生承担。”

独立专家给兴奋情绪降温

未参与这两项研究的研究人员称赞了其严谨的方法论，但指出这些只是模拟。牛津大学医学社会学教授 Catherine Pope 向《金融时报》表示，这“与现实医疗保健中混乱、复杂、人性化的世界相去甚远”。

爱丁堡大学健康信息学教授朱莉·杰科表示，报告中的许多优势归结为“方案的精确性和完整性”，而非“临床正确性方面的明显差异”。该研究“展示的是针对结构化标准的性能表现，而非完全捕捉真实临床决策的复杂性”。

脚手架对弱模型帮助最大，强模型并不需要它

最值得注意的发现之一隐藏在 AMIE 的补充实验中。与同行评审研究的常见情况一样，这两个系统都依赖较旧的 AI 模型。AMIE 仍然运行在谷歌较旧的 Gemini 1.5 Flash 上。MIRA 则使用 OpenAI 的 GPT-4o 和 o1-preview。所有这些模型后来都已被新一代模型超越。

谷歌的研究人员逐一替换了各个组件，以找出真正驱动性能的因素：是双智能体架构、指南匹配和专门训练构成的复杂脚手架，还是底层的大语言模型本身。

对于较旧的 Gemini 1.5 Flash，该专门设置带来了研究中描述的大幅性能提升。但当研究人员将相同的设置移植到更新的 Gemini 2.5 Flash 上时，优势几乎消失了。

换句话说，专用系统通过强制进行结构化推理、让模型引用指南并抑制幻觉，来弥补旧模型的弱点。更强的模型可以自行完成所有这些工作。该论文承认，随着基础模型的改进，AMIE 的价值正在缩小。事实上，像 Gemini 2.5 Pro、o3 和 GPT-5 这样的新通用模型，在 RxQA 药物测试中已经达到了“大致相当”于完整 AMIE 系统的得分。

在实践中，AMIE 似乎已经被 AI 发展的速度所超越。这是一个不断重复的模式：随着更强模型的到来，围绕语言模型的脚手架变得多余，有时是因为脚手架本身为下一代模型的训练数据提供了素材。这并不意味着它背后的想法毫无价值：在编程领域，且越来越多地扩展到其他领域，像 Claude Code、OpenAI Codex 和 Claude Cowork 这样的脚手架工具为模型提供了工具、上下文和记忆。即使更强的模型，在获得这类支持后，也能在复杂任务上表现得更好。但脚手架必须跟上模型的性能，否则最终会变成累赘。

MIRA 缺乏这种分析。不过，其架构的一部分更多是将 AI 连接到医院的临床系统，而不是修补模型的弱点。这部分不会随着更强模型的出现而变得过时。

摒弃炒作的人工智能新闻——由人类精心策划

订阅 THE DECODER，享受无广告阅读、每周 AI 新闻简报、每年六期独家“AI Radar”前沿报告、完整档案访问权限以及评论区的使用权限。

阅读全文，了解全貌。订阅即可获得无炒作报道。

访问所有 THE DECODER 文章。
无干扰阅读——没有谷歌广告。
访问评论区和社区讨论。
每周 AI 新闻简报。
每年六期：“AI Radar”——深入探讨关键 AI 话题。
KI Pro 线上活动最高可享 25% 折扣。
访问我们完整的十年档案。
从 The Decoder 获取最新 AI 新闻。

Subscribe to The Decoder

智能体GitHubGoogleOpenAI

阅读原文