# 百川智能联合清华发布医疗增强大模型 Baichuan-M4，登顶 OpenAI 医疗评测

- 来源：IT之家（RSS）
- 发布时间：2026-06-22 17:12
- AIHOT 分数：69
- AIHOT 链接：https://aihot.virxact.com/items/cmqp1un16067oslx6ilufkjn9
- 原文链接：https://www.ithome.com/0/967/106.htm

## AI 摘要

6月22日，百川智能与清华大学联合发布医疗增强大模型Baichuan-M4。该模型在OpenAI提出的HealthBench及Hard、Professional三个榜单上同时位列世界第一，综合得分68.6，领先第二名GPT-5.5超10分，幻觉率仅3.3%。M4会主动追问症状细节并优先排查危急重症。在基于OSCE构建的动态问诊评测SCAN-bench中，M4初诊79.0、复诊74.7，全面领先GPT-5.5等模型。模型具备“全病程记忆”，长上下文临床记忆得分86.9；首创“证据锚定”循证引用，精度达90.0，远超GPT-5.5和OpenEvidence。

## 正文

IT之家 6 月 22 日消息，百川智能与清华大学研究团队今日联合发布新一代医疗增强大模型 Baichuan-M4。

该模型在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一，全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro，幻觉率低至 3.3%。

在 OpenAI 提出的医疗评测 HealthBench 上，M4 综合得分 68.6，位列世界第一，领先第二名 GPT-5.5 超过 10 分；在最考验复杂临床决策的 Hard 子集上，M4 领先达 15.9 分。

M4 会主动追问症状的性质与诱因，优先识别和排查危急重症，而不是被动等待用户提供完整信息，更不会为了尽快给出答案而跳过该问的关键病史。

百川智能介绍称，该公司借鉴医学教育中长期使用的 OSCE（客观结构化临床考试）方法，联合 150 多位一线医生，构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆，而是以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。

在这套评测中，M4 初诊 79.0、复诊 74.7，均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

此外，Baichuan-M4 推出「全病程记忆」，打通历史病历、多轮问诊、化验趋势与用药反馈，让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化，而不必每次从零开始。

在长上下文临床记忆评测中，M4 取得 86.9 分，为同类最高，较上一代 M3 提升 21.1 分。

百川还首创“证据锚定”，要求模型生成的每一句医学结论，都精确对应到原始论文或指南中的具体段落，而不只是标注引自哪篇文献。依托六源循证范式，模型只在权威医学来源中检索，不从开放网络抓取资料。

M4 在此之上，把权威指南、专家共识与真实诊疗流程，进一步拆解为标准化、可复用的临床路径单元，目前已超过 1000 个、覆盖 200 余种疾病，每一条都由资深临床专家定义和校验。

在百川构建的循证医学评测 Baichuan-EBM 上，M4 的循证引用精度达到 90.0，GPT-5.5 为 54.7，OpenEvidence 为 55.9。

IT之家附技术报告链接如下：

https://arxiv.org/abs/2606.08982