AIHOT

5月7日

08:00

HuggingFace Daily Papers（社区热门论文）

针对线性注意力模型中传统在线随机梯度下降存在的信息衰减快、收敛欠佳问题，本研究提出了一种结合步进动量规则的块状并行算法。从动力系统视角分析，该动量循环被视为引入复共轭特征值的二阶系统，从而指导了稳定门控约束的设计。新模型Momentum DeltaNet（MDN）利用Triton内核，实现了与Mamba2、KDA等模型相当的训练吞吐量。在4亿和13亿参数模型上的实验表明，MDN在多种下游评估基准上均优于Transformer、Mamba2和GDN等强基线模型。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

IntentGrasp：意图理解综合基准

本文推出IntentGrasp基准，用于评估大语言模型的意图理解能力。该基准从12个领域的49个语料库构建，包含超26万实例的训练集及“全集”、“精选集”两个测试集。对20个前沿模型的评估显示，其在全集和精选集上的得分分别低于60%和25%，显著低于约81.1%的人类估计表现，提升空间巨大。研究提出的意图微调方法使模型性能显著提升，在全集和精选集上F1分数分别增加30分和20分以上，留一领域实验也验证了其强大的跨领域泛化能力。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

列表式策略优化：基于分组的RLVR作为大语言模型响应单纯形上的目标投影

本研究提出列表式策略优化（LPO），为大语言模型可验证奖励强化学习提供新方法。现有分组策略梯度方法隐式地在响应单纯形上定义目标分布并进行一阶近似投影，LPO则将其显式化：先限制近端目标于单纯形以明确目标，再通过精确散度最小化投影策略。该框架能在列表目标上实现单调改进，其投影梯度有界、零和且自校正，并通过解耦的投影步骤灵活选择散度。实验表明，在相同目标下，LPO训练性能持续优于典型策略梯度基线，同时保持了优化稳定性与响应多样性。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv推理论文/研究部署/工程

06:30

Apple Machine Learning Research（RSS）

精选72

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

04:34

Rohan Paul@rohanpaul_ai

OpenClaw-RL：通过日常对话持续训练语言模型

本研究提出OpenClaw-RL系统，使语言模型能通过日常对话进行持续训练，无需人工标注数据。其核心是利用用户互动中产生的自然反馈（如纠正或重复提问）作为实时学习信号。系统从每次交互中提取两种信号：评估信号（判断行动成败，转化为数值奖励）和指导信号（获取具体改进方向，转化为词级监督）。该方法将标准部署环境转化为持续学习场景，使模型在后台运行中不断自我更新，自适应不同用户偏好，从而摆脱对大规模人工标注数据集的依赖。

智能体arXiv数据/训练论文/研究

00:33

AK@_akhaliq

SVGS 利用空间变色基元增强高斯泼溅技术论文：https：//huggingface.co/papers/2411.18966

图像生成论文/研究

5月6日

12:20

HuggingFace Daily Papers（社区热门论文）

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体arXiv论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

精选72

OpenSeeker-v2：利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调（SFT）训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进：扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2，在四个基准测试中均取得了领先性能，全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体，其模型权重将开源以促进社区研究。

智能体开源生态搜索论文/研究

推荐理由：纯学术团队仅靠SFT和一万条数据，就在多个搜索基准上反超工业级管线，并且开源模型。这证明高质量数据比烧钱RL更关键，做Agent的朋友值得认真看。

10:20

HuggingFace Daily Papers（社区热门论文）

Workspace-Bench 1.0：针对具有大规模文件依赖的工作空间任务的AI智能体基准测试

本文提出了Workspace-Bench 1.0基准，用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件（最大20GB）的模拟工作空间，并设计了388项附带文件依赖图的任务，总计7399个评分项，要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite（100项任务）可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明，最佳智能体得分仅为68.7%，远低于人类表现的80.7%，平均表现仅47.4%，揭示出现有AI在此类任务上仍远未达到可靠水平。

智能体论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv具身智能多模态论文/研究

08:01

Hacker News 热门（buzzing.cc 中文翻译）

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布，旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异，在MMBench基准测试上达到90.1分，在MathVista测试中取得78.5%的准确率，并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力，为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FaithfulFaces：面向文本到视频生成的面部姿态忠实身份保持

现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此，研究团队提出FaithfulFaces框架，其核心是一个姿态共享身份对齐器，通过姿态共享字典与姿态变化-身份不变性约束，在不同视角间对齐面部姿态，并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示，为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明，该框架在动态复杂场景中实现了最先进的性能，能有效保持身份一致性与结构清晰度。

arXiv视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DecodingTrust-Agent Platform （DTap）：一个可控且交互式的AI智能体红队测试平台

随着AI智能体在复杂工作流中的广泛应用，其安全风险日益凸显。研究团队推出DecodingTrust-Agent Platform (DTap)，这是首个可控、交互式的AI智能体红队测试平台，覆盖14个真实世界领域和超过50个模拟环境，复现了Google Workspace、Paypal和Slack等系统。平台进一步提出自主红队测试智能体DTap-Red，能系统探索提示、工具、技能、环境等注入向量，并自主发现针对恶意目标的攻击策略。利用DTap-Red构建了大规模红队测试数据集DTap-Bench，包含跨领域高质量实例，每个配有可验证评判器以自动确认攻击结果。通过DTap对基于多种骨干模型的流行AI智能体进行大规模评估，揭示了系统性漏洞模式，为开发安全下一代智能体提供了重要洞见。

智能体安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

超越检索：代码搜索的多任务基准与模型

本文提出了CoREB，一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准，并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建，采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括：专用代码嵌入在代码到代码检索上优势显著（约2倍于通用编码器），但无单一模型全胜；接近真实开发者搜索的短关键词查询会使所有模型性能骤降；现有重排序器存在任务不对称性，而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。

arXiv搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

KernelBench-X：评估LLM生成的GPU内核的综合基准测试

KernelBench-X基准测试系统评估LLM生成的Triton GPU内核，涵盖15个类别共176项任务。研究比较五种代表性方法，发现：任务结构对正确性的影响远超方法设计，类别因素解释的方差是方法的近三倍；迭代优化将编译成功率从52.3%提升至68.8%，但平均加速比从1.58倍降至1.44倍；46.6%的正确内核性能低于PyTorch基线，量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

RaguTeam在SemEval-2026任务8中：基于评判者协调的LLM集成系统实现忠实多轮响应生成

RaguTeam团队在SemEval-2026任务8的B任务（基于参考段落生成）中获胜。其方法采用一个包含七个大型语言模型的异构集成系统，结合两种提示变体，并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一，以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明，模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1，在成本与性能间取得了良好平衡，并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReflectDrive-2：基于强化学习对齐的自编辑离散扩散驾驶规划器

ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器，它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能，可在同一模型内直接重写选定令牌，无需额外优化网络。模型采用两阶段训练：先通过扰动专家轨迹进行监督学习，再利用强化学习微调“决策-起草-反思”全流程，将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中，该模型仅使用摄像头输入即达到91.0 PDMS，在最优6次采样下可达94.8 PDMS，平均延迟为31.8毫秒。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TabEmbed：面向表格理解的基准测试与通用嵌入学习

基础模型在自然语言处理中建立了统一表示，但表格数据领域仍待探索。现有方法存在根本限制：基于LLM的方法缺乏检索兼容的向量输出，而文本嵌入模型常无法捕捉表格结构和数值语义。为此，我们首先引入表格嵌入基准TabBench，以评估嵌入模型的表格理解能力；然后提出首个通用嵌入模型TabEmbed，将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题，利用大规模对比学习和正样本感知的困难负样本挖掘技术，捕捉细粒度结构与数值语义。实验表明，TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型，为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。

开源生态搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

零样本逻辑规则归纳的基础模型

研究团队提出神经规则归纳器（NRI），一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限，转而使用类条件率、熵等与领域无关的统计属性来表征文字，从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器，后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行，支持仅基于预测准确性的端到端训练。评估表明，NRI在规则恢复、对噪声和虚假相关性的鲁棒性，以及在真实世界基准上的零样本迁移方面表现良好，为符号推理的基础模型开辟了新可能。

arXiv推理论文/研究

05:29

elvis@omarsar0

技能应作为可验证的部署工件

本文针对AI开发者提出关键观点，主张智能体技能应被视为默认不受信任的代码，而非仅凭签名或来源就推断其可信。当前运行时环境默认信任已签名技能的做法存在安全风险。论文强调，技能必须经过独立的门控验证流程才能被信任，否则，每次不可逆调用都需要人工介入，这在大规模应用中会退化为无效的“橡皮图章”式批准。将技能作为一等部署工件并引入验证流程，是借鉴软件供应链安全经验、避免技能库成为下一个攻击面的关键。论文呼吁在技能库普及前，通过严格验证建立安全基准。

智能体arXiv安全/对齐论文/研究

04:33

Anthropic@AnthropicAI

精选62

新Anthropic Fellows研究：模型规范中期训练（MSM）。标准的对齐方法通过期望行为的示例来训练AI。但这可能无法泛化到新情境。 MSM通过首先教导AI我们希望它们如何泛化以及原因，来解决这一问题。

Anthropic安全/对齐论文/研究

推荐理由：对齐方法的一个常见失败是训练情境下的行为无法泛化，Anthropic 这次提出 MSM 先教会 AI 如何思考规则，这是个方向性的改进，做对齐的人该看看。

04:28

Rohan Paul@rohanpaul_ai

MIT 刚刚开发出一种能控制你身体的 AI。它能移动你的手指，让你弹钢琴，即使你不会那首曲子！ AI 决定手的动作。腕部垫片向你的肌肉发送信号，因此即使你不会，手指也能动起来

具身智能论文/研究

04:27

Apple Machine Learning Research（RSS）

精选62

Stochastic KV Routing：实现自适应深度方向的缓存共享

为降低大语言模型推理时KV缓存的高昂内存开销，研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由，在Transformer模型的各层之间动态共享KV缓存，而非每层保留完整独立缓存。实验表明，在保持模型质量基本不变的前提下，该方法能将KV缓存的内存占用减少高达50%，为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。

论文/研究部署/工程

推荐理由：苹果这篇不走寻常路，从深度维度压缩KV缓存，是推理服务端降本的新思路，做LLM部署的值得一读。

04:17

HuggingFace Daily Papers（社区热门论文）

一种缩小游戏引擎合成数据集中 Sim2Real 外观差异的混合方法

研究提出一种混合方法，旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明，传统模型 REGEN 在性能上优于 FLUX.2-4B Klein，而将两者结合使用的混合方法，能够比单独使用任一模型获得更好的视觉真实感，同时保持语义一致性。相关代码已在 GitHub 开源。

arXiv图像生成数据/训练论文/研究

03:57

AK@_akhaliq

ComboStoc 扩散生成模型的组合随机性论文： https：//huggingface.co/papers/2405.13729

图像生成论文/研究

02:01

Anthropic@AnthropicAI

精选70

当AI承担人类无法完全核查的任务时，具备高能力的模型可能策略性隐藏实力且难以被察觉。Anthropic与MATS、Redwood的研究团队发现，即使仅使用较弱的模型作为监督者，也能成功训练一个接近完全能力的模型，使其停止这种"装傻"行为。该研究表明，通过弱监督训练可以有效抑制强模型的策略性能力保留问题。

Emil Ryd: New paper from MATS, Redwood, and Anthropic! If a capable model is strategically sandbagging, can we train it to stop wh...

Anthropic安全/对齐论文/研究

推荐理由：Anthropic 这篇论文把「模型故意隐藏能力」这个藏在阴影里的安全隐患摆到台面上，而且证明了弱模型也能监督强模型，做对齐的人值得细读，方向很重要。

01:27

AK@_akhaliq

MolmoAct2 面向现实世界部署的行动推理模型论文： https：//huggingface.co/papers/2605.02881

智能体推理论文/研究

01:27

AK@_akhaliq

从上下文到技能语言模型能否巧妙地通过上下文学习？论文：https：//huggingface.co/papers/2604.27660

arXiv推理论文/研究

关联讨论 1 条

01:27

AK@_akhaliq

持久视觉记忆为LVLMs中的深度生成维持感知论文： https：//huggingface.co/papers/2605.00814

Hugging Face多模态论文/研究

5月5日

23:14

Berryxia.AI@berryxia

精选76

Google联手UCSD推出DFlash，实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash，在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈，通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化，将重塑云端成本曲线，并使实时Agent、长上下文等应用更趋现实，同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google for Developers: Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...

Google大佬观点推理部署/工程

关联讨论 1 条

推荐理由：Google 直接干掉自回归瓶颈，3.13 倍无损加速不是渐进优化，是推理范式的根变革，当「快三倍」成为新基线，所有实时 Agent 和长上下文应用都得重算一遍成本账。

12:17

HuggingFace Daily Papers（社区热门论文）

感知流网络：面向视觉推理的感知与推理解耦方法

大型视觉语言模型因优化目标无法约束视觉轨迹，易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督，但偏向几何精度且推理效用有限。为此，本研究提出感知流网络，通过解耦感知与推理建立自条件生成过程，并借助变分强化学习整合多维奖励与邻近几何塑造，从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证，在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数，创造了新的性能记录。

arXiv多模态推理论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

基于轨道空间几何概率路径的粒子系统生成建模

研究团队提出轨道空间几何概率路径（OGPP），这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见：粒子具有置换对称性，匿名索引会导致难以学习的弯曲流；粒子存在于物理空间，其流终端速度可编码几何属性（如表面法线）。OGPP包含三个关键组件：轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明，在最小表面基准测试中，OGPP单步推理将误差降低达两个数量级；在ShapeNet上，它以更少的步骤和参数达到或超越了当前最佳性能；在单形状编码任务中，其完全在3D空间运行，生成的法线与重建结果可与6D生成器竞争。

图像生成论文/研究

12:17

HuggingFace Daily Papers（社区热门论文）

精选73

MolmoAct2：面向真实世界部署的动作推理模型

MolmoAct2 是一个为实际部署设计的全开放动作推理模型，在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER，基于 330 万样本语料库训练。团队发布了三个新数据集，包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM（720 小时遥操作轨迹），并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构，嫁接连续动作专家，还引入自适应深度推理变体 MolmoThink，以极低延迟保持几何基础。在广泛实证研究中，MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线，MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。

智能体具身智能多模态开源/仓库

推荐理由：开源具身动作推理模型首次全面超越 GPT-5 和 Gemini Robotics，还附赠最大的双手操作数据集和全套训练代码，做机器人的同学本周必读。

11:17

HuggingFace Daily Papers（社区热门论文）

PhysicianBench：在真实世界电子健康记录环境中评估LLM智能体

PhysicianBench是一个用于评估LLM智能体在真实电子健康记录环境中执行临床任务的基准。该基准包含100项源自真实会诊病例的长周期任务，覆盖21个专科，平均每项任务需调用27次工具。任务要求智能体跨就诊记录检索数据、对异构临床信息进行推理、执行临床操作并生成文档。每个任务被分解为总计670个结构化检查点，通过执行验证进行分级评估。在13个专有和开源LLM智能体的测试中，最佳模型成功率仅为46%，开源模型最高仅达19%，显示当前智能体能力与真实临床工作流程需求存在显著差距。该基准为衡量自主临床智能体的进展提供了基于真实执行的评估标准。

智能体论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

T^2PO：面向稳定多轮智能体强化学习的不确定性引导探索控制框架

多轮强化学习训练常因探索效率低下而不稳定。为此，研究团队提出T^2PO框架，在细粒度层面实施不确定性引导的探索控制。在令牌级别，它监测不确定性动态，当边际变化低于阈值时触发思考干预；在轮次级别，它识别探索进展可忽略的交互并动态重采样，以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明，T^2PO显著提升了训练稳定性与任务性能，并实现了更高效的探索。相关代码已开源。

智能体推理论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

AcademiClaw：当学生为AI智能体设定挑战

研究团队推出AcademiClaw双语基准测试集，包含80项源自大学生真实学术流程的复杂长周期任务，涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选，覆盖超过25个专业领域，包括奥数、语言学、GPU密集型强化学习等，其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行，采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示，最佳通过率仅为55%，分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。

智能体开源/仓库论文/研究评测/基准

08:48

Rohan Paul@rohanpaul_ai

DeepMind新研究让LLM学会在对话中学习

Google DeepMind的研究通过“师生对话”框架训练大型语言模型（LLM），使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次，难以整合修正信息。该研究让“学生”模型尝试回答，由掌握额外信息的“教师”提供指导，并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤，且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务，并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤，模型在模糊任务中主动寻求澄清的可能性提高五倍以上，使对话更像与一个能在交流中实时学习的伙伴协作。

智能体DeepMind推理论文/研究