6月19日

00:55

Noam Brown@polynoamial

Noam Brown 发文称，OpenAI 公开 o1 后，有其他实验室研究者认为这是战略失误，应保密以拉开差距。但他引用的最新研究让他确信公开正确：OpenAI 与波士顿儿童医院、哈佛合作，在 NEJM AI 发表研究，展示 o3 Deep Research 帮助临床医生重新审视未解决的罕见儿科疾病病例，为等待多年的家庭找到答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI 推理论文/研究

00:51

Greg Brockman@gdb

OpenAI 与波士顿儿童医院、哈佛大学合作，在 NEJM AI 发表研究，使用 o3 Deep Research 重新审视 376 例此前未解的罕见儿科疾病案例，帮助找到 18 种新诊断。其中包含一例 Kyra 自 9 岁起出现肌无力的罕见肌原纤维肌病，在她 28 岁生日前不久得到确诊，为等待多年的家庭提供了答案。

OpenAI: Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...

OpenAI 推理搜索论文/研究

00:22

Anthropic：Research（发表成果 · 网页）

精选77

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

智能体 Anthropic 具身智能论文/研究

关联讨论 1 条

推荐理由：Anthropic 用 Claude Opus 4.7 自主操作机器狗，比当初的人类志愿者快 18-37 倍，代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条，做具身智能和 agent 的人都该看一眼。

6月18日

23:51

elvis@omarsar0

OpenAI 推出 LifeSciBench，用于衡量 AI 支持真实世界生命科学研究的能力。该基准与 173 位生物技术与制药科学家共同开发，包含 750 个专家编写任务，覆盖七种生物研究流程。DAIR.AI 的 Elvis Saravia 推荐阅读，并指出通用模型在处理复杂结构时仍然失败，而面向科学研究的专用模型表现显著更优。

OpenAI: Introducing LifeSciBench, a benchmark for measuring and improving how well AI supports real-world life science research....

OpenAI 评测/基准

23:45

HuggingFace Daily Papers（社区热门论文）

Discriminator-Guided RL：用数据自身奖励修正流匹配模型

针对流匹配模型匹配损失与生成质量的结构不匹配，提出Discriminator-Guided RL（DRL）。在预训练表示空间中训练判别器区分真实数据与基模型样本，将其logit作为KL正则化RL的奖励——该奖励近似数据与模型的对数似然比，直接优化数据分布。在SiT、JiT、REPA、RAE上，DRL一致降低无引导FID（SiT从9.38降至2.62）和语义空间FD（SiT在DINOv3上从88.2降至19.3），且在不依赖人类偏好数据的情况下提升人类偏好奖励。偏好微调中，DRL改善偏好奖励与图像保真度的帕累托前沿，减少过饱和等低层次伪影。

arXiv 图像生成数据/训练论文/研究

23:21

OpenAI@OpenAI

与波士顿儿童医院和哈佛的研究人员合作，我们在NEJM AI上发表了一项研究，展示了o3 Deep Research如何帮助临床医生重新审视此前未解决的罕见儿科疾病案例，并为等待多年的家庭找到答案。

OpenAI 推理论文/研究

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

22:52

The Decoder：AI News（RSS）

精选78

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

智能体 GitHub Google OpenAI

推荐理由：两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平，但更值得关注的是那个被埋起来的实验：更强的模型一上来，精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。