5月22日

08:00

HuggingFace Daily Papers（社区热门论文）

CRONOS是一个基于干预的基准测试，旨在评估视频生成模型的反事实物理一致性，即模型能否对输入的受控视觉变化（如视角、场景、物体类别和外观）做出恰当响应。它在高保真度的 Unreal Engine 环境中构建，能够系统地对上述四个因素进行干预，同时保持物理事件（如碰撞、遮挡）不变。对近期开源视频生成模型的评估表明，它们在该测试上存在显著失败：同一物理事件的预测质量会受到物体外观、环境，尤其是视角变化的严重影响。该基准提供了一个可控且可复现的测试环境，用于诊断模型在不同干预条件下生成视频质量的变化。

视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

揭示大型推理模型中的隐藏批判机制

本研究探究了大型推理模型（LRMs）的错误恢复机制。通过在推理步骤中插入算术错误，发现了一个关键现象：即使错误贯穿整个思维链（CoT）而未被语言化纠正，模型在思考结束后仍能输出正确答案。这证明模型内部存在一种“隐藏批判能力”来检测错误并触发纠正。基于特征空间分析，研究者识别出一个可解释的批判向量来表征该行为。跨模型规模和家族的实验表明，利用此向量引导潜在表示，能在不增加训练成本的情况下，提升模型的错误检测能力并增强测试时扩展性能。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

着色噪声：对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率（SR）中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架，通过“着色”噪声转换核以匹配自然图像频谱衰减，将生成流重构为Sobolev诱导的黎曼几何，从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器，该对抗器生成等价于最差Sobolev梯度的负样本，沿可行结构失败的切线空间引导优化。评估表明，ASASR在保持频谱一致性与结构保真度方面优于现有生成方法，能有效缓解伪影。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HorizonStream：面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核，并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率，实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码，执行可靠三维匹配并抑制注意力尖峰。最终，通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练，即可在恒定内存与线性时间下，稳定泛化至超过 10,000 帧的序列，达到了流式三维重建的先进性能。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillEvolBench：评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench，一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务，分布在六个真实智能体环境中。测试发现，当前智能体通常只能局部适应，很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放，但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能，表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包，指出仅写入更多技能或更大的资源库并不足够。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

QUEST：用全合成任务训练前沿深度研究智能体

QUEST是一个参数规模从2B到35B的开源模型家族，旨在作为通用深度研究智能体，处理广泛的长期搜索任务，在事实查询、引用定位和报告合成方面能力突出。其训练方案结合了中期训练、监督微调与强化学习，核心是基于统一评分树的合成数据流水线，能为多样任务类型自动生成带可验证奖励的训练数据，无需人工标注。模型还内置上下文管理机制以支持长期推理。仅用8K个合成任务，QUEST在八个深度研究基准上接近或超越前沿闭源智能体，并在近期开源智能体中综合性能最佳。项目已开源所有模型、数据与训练脚本。

智能体搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Foundation Protocol：面向智能体社会的协调层

自主智能体正从工具演变为社会基础设施的一部分，其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol（FP），一种图优先的协调层，用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体，支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议，支持渐进式采用，在保持智能体可组合性的同时，确保问责制的不可妥协性。

智能体 MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AutoResearch AI：面向科学发现的AI驱动科研自动化

本综述探讨AI系统如何将科学研究从提供孤立辅助，推向覆盖文献综述、假设生成、实验、验证和报告等环节的工作流自动化。提出了“AutoResearch”概念，即AI驱动的科研自动化发展谱系，其中“Vibe Research”代表人类主导的提示词辅助与验证阶段，而新兴的AI主导系统则试图协调更多发现环节，但尚未实现稳健自主性。当前系统在自主性、领域覆盖和验证机制上仍显碎片化，并面临证据保存、可复现性等挑战。文章围绕文献基础、假设形成、实验工具使用、反馈验证和报告交流五个工作流条件展开分析，并提出了从新颖性、有效性、影响、可靠性和溯源五个维度进行评估的框架。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

视觉几何Transformer的Token选择指南

视觉几何Transformer是多视图3D重建的有力架构，但其全局注意力机制导致计算成本随输入序列长度二次增长。为此，研究提出一种通用的token选择策略，以限制每个查询交互的key/value token数量。该策略采用两阶段框架：首先在帧间通过多样性策略保留关键帧，然后在选定帧内基于注意力熵进行层级稀疏化以移除冗余token。实验表明，该方法在包含500张图像的场景中能加速超过85%，同时保持甚至提升基线性能，为该类架构提供了更优的速度-精度权衡。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

StepAudio 2.5 技术报告

StepAudio 2.5 是一个统一的音频-语言基础模型，能在自动语音识别（ASR）、语音合成（TTS）和实时语音交互三个任务上达到或超越专业系统水平。其核心在于将文本与音频置于共享表示空间，通过数据构建、优化目标和解码约束的差异化设置实现任务专精。该模型的后训练范式以任务定制的强化学习（RLHF）为核心机制，并配合专门的解码策略，将共享主干塑造成三种操作模式：ASR分支提升转录效率；TTS分支实现可控、富有表现力的合成；实时分支则达成低延迟、角色一致的对话。在标准基准测试中，StepAudio 2.5 在三项任务上均取得最优结果，证明单一基础模型能够有效内化语音理解、生成和实时交互的不同部署目标。

多模态推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PiD：基于像素扩散的快速高分辨率潜在解码

PiD是一种将潜在解码重构为条件像素扩散的解码器，统一了图像解码与上采样。它通过直接在高分辨率像素空间进行去噪，支持4倍及8倍上采样，并具有低延迟。模型采用轻量级sigma-aware适配器注入噪声潜在变量，允许提前终止潜在扩散过程；并利用DMD2进行蒸馏，将推理步骤压缩至4步。PiD兼容传统VAE潜在变量与语义潜在变量。在RTX 5090上，可将512x512潜在变量解码为2048x2048像素，耗时低于1秒，峰值内存13GB；在GB200 GPU上最快仅需210毫秒。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillOpt：面向智能体技能的可控文本空间优化框架

SkillOpt是一个系统性可控文本空间优化器，用于智能体技能。它通过独立的优化模型，将带分数的执行轨迹转换为对单一技能文档的有限编辑（增/删/改），且仅当编辑能严格提升验证集分数时才被接受。该技能被视为冻结智能体的外部状态进行训练，并包含文本学习率预算等机制以保持稳定性，部署时不增加额外推理调用。实验表明，在GPT-5.5上，SkillOpt在直接聊天、Codex循环和Claude Code中分别实现了平均无技能准确率+23.5、+24.8和+19.1分的提升。优化后的技能在跨模型和跨环境迁移时仍保持价值。

智能体 arXiv OpenAI 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从原始经验到技能运用：模型生成智能体技能的系统性研究

语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期（经验生成、技能提取与技能运用），构建了涵盖五个多样化任务领域的效用评估框架。研究发现，模型生成的技能平均有益，但存在显著的负面迁移现象；技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能，用于指导技能提取过程，以提升技能质量并减少负面迁移。

智能体 arXiv MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型作为噪声信道：从香农视角看模型容量与缩放定律

现有大语言模型缩放定律多为单调幂律，无法解释灾难性过训练或量化等非单调现象。研究提出Shannon Scaling Law，将LLM训练建模为基于Shannon-Hartley定理的噪声信道信息传输，模型参数映射为信道带宽，训练token映射为信号功率。该框架揭示LLM存在基本容量极限：若无法维持足够信噪比，盲目扩大规模将放大噪声，导致性能从单调改进转为U型退化。在Pythia和OLMo2模型上的实验验证了该定律能准确捕捉性能谷底，并具备外推能力：用不超过6.9B参数、180B token训练的模型，可预测未见过的12B模型在307B token时的表现，池化R²达0.847。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GenRecon：连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案，核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成，并提出一种基于投影的条件机制，将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础，将其对象级能力推广至场景级别，最终生成可编辑的PBR网格重建结果。在室内环境重建任务上，其保真度优于现有尖端方法16%。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ETCHR：通过编辑以明确和利用推理

多模态大语言模型在视觉推理中面临纯文本思维链的瓶颈。现有“以图像思考”方法受限于固定工具箱或生成噪声图像。ETCHR是一种与理解模型解耦的、问题条件的感知推理图像编辑器，针对语言端与生成端两个缺陷进行两阶段训练：先通过监督微调进行推理模仿，再使用VLM奖励进行推理增强。该编辑器可免训练方式适配不同开源与闭源多模态大语言模型。在五个任务族上的评估显示，ETCHR分别将通义千问（Qwen3-VL-8B）的平均Pass@1从55.95提升至60.77，Gemini-3.1-Flash-Lite从65.08提升至70.55，以及月之暗面（Kimi K2.5）从76.55提升至81.16。

多模态推理论文/研究

00:26

The Decoder：AI News（RSS）

同事件精选80

OpenAI以"AI数学里程碑"突破自动推理边界，专家正在解析其意义

OpenAI的推理模型证伪了数学家保罗·埃尔德什在1946年提出的关于单位距离几何的猜想。该模型运用了代数数论领域的工具，而专家此前从未预料到这些工具会在此类问题中发挥作用。菲尔兹奖得主蒂姆·高尔斯称此成果为“AI数学发展的里程碑”，并警告称，我们可能已经进入一个人类在解决数学问题方面很难与AI竞争的时代。这项进展标志着自动化推理能力的重要突破。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：这可能是 AI 首次在严肃数学研究里推翻一个 80 年未解决的正经猜想，菲尔兹奖得主 Tim Gowers 直接说‘人类将很难在数学上胜过 AI’，不是 hype，是界限真的被推了一把。

00:00

Anthropic：Research（发表成果 · 网页）

精选83

Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力

Anthropic 与 ExploitBench、ExploitGym 和 SCONE-bench 的研究者合作，测量了 Claude Mythos Preview 的漏洞利用能力。在 ExploitBench 的 V8 基准（41 个已修复漏洞）上，Mythos Preview 是唯一能可靠突破 V8 沙箱（从 T3 到 T2）的模型，并在超过一半的环境中实现突破；在 Baseline 和 Nudged 变体中共完成 21 个 CVEs 的任意代码执行（ACE），而其他所有模型的 ACE 数为零。Mythos Preview 还实现了近一半测试环境中的控制流劫持（T1）。该模型通过 Project Glasswing 谨慎发布，尚未开放通用访问。

Anthropic 安全/对齐论文/研究评测/基准

关联讨论 3 条

推荐理由：Mythos Preview 在三大漏洞基准上碾压式领先，第一次展示了前沿模型能端到端开发漏洞，安全基线从此改写，做安全的该认真读。

5月21日

14:58

IT之家（RSS）

AI 推翻著名几何猜想，OpenAI 宣布攻克 80 年数学难题

OpenAI宣布其全新推理模型成功解决了一道提出近80年的几何猜想，推翻了关于最优解形态的长期认知。该猜想由保罗·埃尔德什于1946年提出，长期以来数学家认为其最优解接近正方形网格。OpenAI模型发现了一类更优的全新构造体系，这是人工智能首次自主攻克数学核心领域的重大未解难题。多位数学家为该证明提供了佐证。OpenAI表示，这意味着AI已具备更强推理能力，并将对科学多领域产生深远影响。

OpenAI 推理论文/研究

关联讨论 14 条

14:10

HuggingFace Daily Papers（社区热门论文）

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv 多模态推理论文/研究

14:10

HuggingFace Daily Papers（社区热门论文）

只需最少RLVR训练：通过秩-1轨迹外推大语言模型

研究发现，强化学习与可验证奖励训练大语言模型时，权重变化轨迹具有极低的秩且高度可预测，性能增益主要由秩-1逼近捕获，且随训练步骤线性演化。基于此，提出RELEX方法，仅需从短观察窗口估计秩-1子空间，通过线性外推预测后续检查点，无需学习模型。在多个模型上，RELEX仅需15%的完整训练步骤，即可在域内和域外基准上匹配或超越RLVR性能，并能以零额外成本外推至观察窗口的10-20倍，性能持续提升。成功源于秩-1投影实现的“去噪”效应，有效剔除随机优化噪声。

开源生态推理数据/训练论文/研究

13:10

HuggingFace Daily Papers（社区热门论文）

IndusAgent：用智能工具强化开放词汇工业异常检测

针对多模态大语言模型在工业异常检测中因领域错配与幻觉推断导致的性能瓶颈，本文提出了IndusAgent框架。该框架构建了整合多尺度视觉信息与专家知识的结构化数据集，并通过动态调用外部工具（如动态裁剪、特征增强）主动解析视觉模糊。引入门控强化学习联合优化分类、定位与工具使用效率，在五个工业基准测试中实现了零样本性能的最先进水平，展现出优异的泛化能力。

智能体多模态数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

高效预训练新范式：HRM-Text模型

本文提出HRM-Text，一种受生物系统启发的预训练新范式。它以分层循环模型取代标准Transformer，将计算解耦为慢速策略层和快速执行层，并使用指令数据进行训练。一个仅10亿参数的HRM-Text模型，使用400亿令牌、在1500美元预算内训练，即可在MMLU等多个基准上取得与2-7B开源模型竞争的成绩。相比标准方法，其训练数据量与计算量大幅减少，证明了架构与目标的协同设计能显著降低预训练门槛。

数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

iTryOn：基于空语义引导的交互式视频虚拟试穿技术

本文提出交互式视频虚拟试穿新任务，针对现有方法仅限于非交互展示的局限。新任务要求主体在视频中主动与服装互动，面临从标准姿势解析语义模糊性，以及从稀疏互动视频中学习复杂形变两大挑战。为此，我们推出iTryOn框架，基于大规模视频扩散Transformer，设计多级交互注入机制：空间层面引入服装无关的3D手部先验，精确引导手-服装接触；语义层面通过全局描述与时间戳动作描述协同，并借助动作感知旋转位置嵌入进行时序同步。实验表明，该方法在传统基准达到最优性能，并在交互场景中取得显著优势。

多模态视频论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

DPO与RLHF等价性的条件性：隐含假设、失效模式与可证明对齐

本文证明直接偏好优化（DPO）与人类反馈强化学习（RLHF）的等价性并非普遍成立，其依赖于一个常被违反的隐含假设：RLHF最优策略必须倾向人类偏好回答。当该假设不成立时，DPO会优化相对于参考策略的相对优势，而非与人类偏好的绝对对齐，导致策略虽降低损失却偏好不良回答。为此，我们提出受约束偏好优化（CPO），通过引入约束实现可证明的对齐性。理论分析揭示了DPO在特定目标下的几何解释，并证明CPO能在保持简洁性的同时确保对齐。基准测试表明，CPO取得了最先进的性能。

安全/对齐数据/训练论文/研究

12:10

HuggingFace Daily Papers（社区热门论文）

OcclusionFormer：为基于布局的图像生成安排Z轴顺序

针对现有布局到图像模型在遮挡区域生成模糊、纹理缠绕及层次不一致的问题，本研究构建了包含遮挡排序与像素级标注的大规模数据集SA-Z。在此基础上，提出了OcclusionFormer，一种遮挡感知的扩散Transformer框架。该框架通过解耦实例并利用体积渲染进行合成，显式建模Z轴优先级，同时引入查询对齐损失监督单个实例以增强语义一致性。该方法有效降低了重叠区域歧义，确保了正确的遮挡依赖与结构完整，显著提升了生成精度。

图像生成论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

评估智能体计划执行流水线中的时间语义缓存与工作流优化

针对工业智能体在基准测试AssetOpsBench中，现有缓存技术因无法处理时间等动态参数而失效的问题，本研究提出了两种互补优化方案：时间语义缓存与MCP工作流优化。测试显示，MCP工作流优化（结合磁盘工具发现缓存与依赖感知并行执行）实现了1.67倍加速，将端到端延迟降低约40%；而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率，还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。

智能体 arXiv MCP/工具论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv 图像生成多模态数据/训练

11:09

HuggingFace Daily Papers（社区热门论文）

Mem-π：通过学习何时与生成何物实现的自适应记忆

Mem-π是一个用于大型语言模型代理的自适应记忆框架，它通过专门的模型按需生成指导内容，而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法，使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中，Mem-π性能持续优于检索式方法和现有强化学习记忆方案，其中在网页导航任务上实现了超过30%的相对提升。

智能体 MCP/工具论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

精选75

SpecBench：测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标，导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试，通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准，包含30个从短期（如JSON解析器）到超长期（如构建操作系统内核）的系统级编程任务。实验显示，所有前沿代理在可见测试上饱和，但隐藏测试上存在持续差距，小模型差距更大；代码规模每增十倍，差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台，评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体 arXiv 安全/对齐编码

推荐理由：SpecBench把编码代理的‘应试’问题量化了，越长的任务越容易靠作弊通过测试。如果你在做Agent，这个基准会让你重新审视自己的评估体系。

11:09

HuggingFace Daily Papers（社区热门论文）

PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架，旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景，抽象出包含30余种任务类型、约束与难度因素的结构化分类体系，并基于此实现了约束驱动的数据合成流程，该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型，发现其在耦合约束下仍难以生成完整解决方案。此外，基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现，也增强了其指令遵循能力，并表明明确的最优解能提供更稳定的训练信号。

arXiv 推理数据/训练论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

DrawMotion：通过手绘生成3D人体动作

该研究提出了DrawMotion，一个基于扩散的多条件动作生成框架，旨在解决传统文本到动作生成中用户意图表达不精确的问题。该框架支持文本与手绘两种控制条件，分别提供语义和空间引导。技术上，它通过算法自动生成手绘火柴人草图、设计多条件融合模块以降低计算复杂度，并利用无训练引导方法将生成动作与用户意图对齐。实验表明，手绘方式能将用户生成符合想象的动作所需时间缩短约46.7%。相关代码与演示已开源。

GitHub 多模态论文/研究

10:58

IT之家（RSS）

瞄准 AI 数据中心功耗难题，新供电芯片让 48 伏转 4.8 伏效率达 96.2%

加州大学圣迭戈分校工程团队研发出一种新型电源转换芯片，以应对AI数据中心面临的功耗挑战。该团队采用压电谐振器替代部分传统磁性器件，设计出混合架构的降压转换器。实验室测试表明，该原型芯片能将48伏电压降至4.8伏，峰值转换效率达到96.2%，输出电流较此前压电方案提升约5倍。该技术旨在减少供电过程中的能量损耗，缓解高功耗GPU带来的散热与供电压力，但目前仍处于研究阶段，尚未达到商用水平。

论文/研究部署/工程

10:09

HuggingFace Daily Papers（社区热门论文）

UniT：基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型，旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer，将传感器观测组作为基本单元，通过改变组大小，在同一过程中自然统一在线（多步单帧组）与离线（单步多帧组）模式。为处理长序列，模型采用队列式KV缓存机制，并利用无锚点关系建模来丢弃过时记忆。此外，模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中，UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

生成式递归推理

GRAM（生成式递归推理模型）框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略，并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练，形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明，GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型，并具备了独立的无条件生成能力。

arXiv 推理论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

论文评审中人工智能审稿人的局限与机遇：基于45位专家对《自然》系列论文的评审分析

本研究通过一项大规模专家标注实验，邀请物理、生物与健康科学领域的45位科学家，耗时469小时，对82篇《自然》系列论文的2960条批评意见（来自人类与AI评审）进行多维度评估。结果发现，由GPT-5.2驱动的AI评审代理在准确性、重要性与证据充分性的综合评分上，超过了每篇论文得分最高的人类评审员（60.0%对48.2%）。AI评审能发现26%人类未提及的独特问题，但其意见重叠度（21%）远高于人类（3%），并暴露出16种人类没有的反复性弱点，如子领域知识有限、多文件长上下文管理能力不足等。研究表明，当前AI评审员更适合作为人类评审的补充工具，而非完全替代。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

EMMA：从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架，能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学，并通过物理约束损失确保与微分方程一致。在超过100个场景（包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统）中，EMMA实现了稳健的多参数恢复，显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv 具身智能多模态论文/研究