5月24日

08:00

HuggingFace Daily Papers（社区热门论文）

WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后，模型生成未来帧，使选定物体沿轨迹运动同时相机继续导航。其核心包括：Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影；Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力；Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制，保持相机保真度，并维持跨长自回归滚动的物体状态。

arXiv 具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

NITP：用于大语言模型预训练的下一隐式Token预测方法

标准的下一Token预测（NTP）仅使用输出logit空间的离散标签进行监督，这导致潜在表示空间约束不足。为解决此问题，本文提出了NITP方法，它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容，并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明，NITP能正则化优化过程，促进紧凑且结构化的表示几何。实验表明，在从0.5B到9B参数的密集与MoE模型上，NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上，NITP在MMLU-Pro上实现了5.7%的绝对提升，在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升，仅增加约2%的训练FLOPs且无额外推理成本。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数，以此动态分配每一步的缓存预算：在模型不确定时保留更多上下文，自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序，并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明，在生成长度达 4K 时，其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中，CONF-KV 达到 91.4% 的准确率，远高于滑动窗口（53.8%）和 H2O（80.6%）。在 75 个 VisualWebArena 任务中，它以 2.8 倍更低的峰值内存，保留了完整 KV 缓存 95.3% 的成功率。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

STREAM：一种从流媒体中挖掘高价值任务导向对话的数据中心框架

为解决垂直领域大语言模型缺乏复杂任务导向对话数据的瓶颈，STREAM框架提出一种从公开流媒体（直播与短视频）中规模化合成高质量服务对话的新方法。该框架从嘈杂的流媒体中挖掘真实交互信号，结合角色人物构建与对话蓝图设计，并利用检索增强生成（RAG）技术支持知识响应。基于此发布的StreamDial数据集覆盖汽车、餐饮与酒店三大领域，包含87,498个对话会话与1,497,320轮对话。评估表明，该数据集提升了对话内在质量，并在多个骨干模型上改善了对话状态跟踪性能；在Qwen3-8B上的多语言迁移实验也取得了积极结果。

arXiv 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现，漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法，将梯度约束在干净参考子空间内，在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

你的嵌入模型，比你想象的更SMART

SMART是一个框架，旨在解锁标准单向量嵌入模型的潜在多向量能力。它通过在推理时对标准对比训练后冻结的隐藏状态应用直接后期交互，实现即插即用的性能提升。研究表明，SMART能提升包括最先进模型在内的多模态检索性能，在MMEB-V2上进一步改善了效果。简单的轻量级后训练不仅节省时间和算力，还能在视觉文档检索任务上使单向量模型超越当前最强大的多向量模型。该项目代码和权重已在GitHub开源。

arXiv 多模态开源生态搜索

08:00

HuggingFace Daily Papers（社区热门论文）

几何感知图像 Flow Matching

研究发现，自然图像的语义信息主要编码在方向分量中，其范数分量可由全局平均近似，表明图像数据本质上可建模于超球面。基于此，论文提出了两种几何感知方法：利用角距离的球形最优传输流匹配（SOT-CFM）与在流形上约束动力学的球形流匹配（SFM）。实验证明，这两种方法性能优于欧几里得基线，为基于黎曼流形的建模与自然图像生成之间建立了联系。

arXiv 图像生成论文/研究

5月23日

20:27

Rohan Paul@rohanpaul_ai

AI检测器为何容易失效：学生写作风格的多样性挑战

该研究指出，AI检测器频繁失效的根本原因在于学生写作风格的多样性，使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升，更在于许多真实学生的写作风格，在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯，因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器，都不可避免地会误判一部分真实学生，尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率，但无法根除基于“单次判断”模式所带来的结构性误判问题。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于激活补丁技术的LLM知识遗忘深度测量

大语言模型的知识遗忘是实现隐私保护和AI安全的关键机制，但现有评估方法难以验证目标知识是否从模型内部被真正擦除。本文提出了一种新的度量指标UDS，用于量化遗忘的机制深度。该方法首先在保留模型上定位编码目标知识的层，然后在遗忘后模型上评估其擦除程度（0-1分）。在涵盖8种方法、150个遗忘模型的元评估中，UDS的可靠性与稳健性表现最佳。研究还揭示了不同白盒度量在层级评估上可能存在差异。代码与数据已开源。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv 具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

预测动力学能否存在于物理世界中？

预测性物理AI系统的输出（如状态预测、行动规划）即使误差低，也不一定物理可行。本研究提出了“物理可接受性”评估框架，将解码后的提案视为候选动力学，在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功，但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中，该完整验证门的AUC达0.957，残差过滤器能预防87-89%的无效提案，同时保持99.8%的任务正常进展。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-MoE：通过混合 MoE 改进大语言模型的多语言机器翻译

Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力：先在单语语料上用混合专家进行后预训练，再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家，分别保留单语知识和学习翻译知识，并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明，该框架在多语言翻译任务上显著优于现有基线，有效缓解了参数干扰问题。

arXiv 数据/训练论文/研究

06:57

Rohan Paul@rohanpaul_ai

精选79

AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中，不断读取Lean的编译错误并进行修正，还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码，从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中，系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

arXiv DeepMind 推理论文/研究

关联讨论 2 条

推荐理由：DeepMind 把 AI 的'数学直觉'塞进 Lean 编译器里，每步都必须编译通过，结果解决 9 个 Erdős 问题，失败也暴露了隐藏错误。这篇论文重新定义了 AI 做数学的范式。

00:16

Hugging Face：Blog（RSS）

专业化胜过规模：Dharma 发布 DharmaOCR，3B 专用模型在 OCR 基准上超越商业前沿 API

4月，Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型，用于结构化 OCR，同时开源基准与论文。在巴西葡萄牙语 OCR 基准上，该 3B 专用模型通过全微调实现综合得分 0.911，超过所有测试的商业前沿 API（Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750）。每百万页成本仅为 Claude Opus 4.6 的约 1/52，质量与成本均占据 Pareto 前沿。结果表明：当训练数据与部署任务充分对齐时，参数规模不再是决定性变量，专业化微调能以极低代价实现更高性能。

arXiv Hugging Face 数据/训练现象/趋势

5月22日

22:16

HuggingFace Daily Papers（社区热门论文）

FashionLens：基于任务自适应学习的通用时尚图像检索框架

为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题，研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE，整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上，基于多模态大语言模型，提出了两大核心模块：一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器；二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明，该方法在U-FIRE上取得了最先进性能，并能稳健泛化至未见任务。相关代码与数据已开源。

arXiv GitHub 多模态搜索

13:14

HuggingFace Daily Papers（社区热门论文）

SpaceDG：视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集，包含约100万个问答对，源自近1000个室内场景。其核心是物理基础的退化合成引擎，能将退化过程嵌入3D高斯泼溅渲染，真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题，覆盖11类推理任务。对25个模型的评估揭示，视觉退化会严重损害空间推理能力。研究表明，在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性，性能甚至可超越人类，且不影响其在清晰图像上的表现。

arXiv 多模态数据/训练论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

感知还是偏见：多模态大语言模型能否超越人格的第一印象？

多模态大语言模型在需要人格感知的人机交互中应用广泛，但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务，并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试，发现一个关键的“偏见鸿沟”：在所有模型中，有51%的正确评分并未基于检索到的行为线索，且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数，而非基于正确的推理依据，为未来提升模型的接地社交认知能力指明了方向。

arXiv 多模态论文/研究评测/基准

10:14

HuggingFace Daily Papers（社区热门论文）

基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling，一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制，将视频建模为视觉潜在空间中的可微轨迹，计算特征的速度与加速度，并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧，即“时间信息突变帧”，作为包含关键信息的帧进行采样。该方法极其轻量，仅增加0.02倍计算开销，比主流方法低30倍。在长视频问答的多个基准测试中，它均优于均匀采样等方法，在帧预算有限时尤为有效，准确率最高可提升12.5个百分点。

arXiv 数据/训练视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选74

从推理链到可验证子问题：课程强化学习实现LLM推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题，本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题，并将最终子问题固定为原始问题，从而将部分解题进展转化为可验证的学习信号。其通过在子问题位置独立归一化奖励并分配优势值，实现了更细粒度的信用分配。实验表明，SCRL显著提升了模型在多个数学推理基准上的性能，有效增强了在复杂问题上的探索与推理能力。

arXiv 推理数据/训练论文/研究

推荐理由：SCRL 将推理链解构为可验证子问题课程，让 RL 在超难数学题上获得细粒度信用分配，AIME 提点显著，做推理 RL 的团队值得复现。

09:13

HuggingFace Daily Papers（社区热门论文）

精选70

RiT：在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE与DINOv2特征后发现，尽管像素与DINOv2的内在维度相近，但DINOv2在几何统计特性（如有效秩、协方差条件等）上表现更优，使回归过程更稳定。基于此，我们提出了表示图像变换器（RiT），它使用冻结的DINOv2特征，通过x-prediction目标训练一个原生扩散变换器。在ImageNet 256×256生成任务上，RiT性能优于参数量更多的DiT^DH-XL模型，且生成的常微分方程仅需少量步骤即可高效求解。

arXiv 图像生成论文/研究

推荐理由：这篇论文没发明新架构，但通过剖析DINOv2特征的统计属性，证明简单结构在表示空间也能做出SOTA，对做图像生成的人来说是个省钱省参数的好思路。

08:00

HuggingFace Daily Papers（社区热门论文）

One-Forcing：实现稳定的单步自回归视频生成

针对现有少步自回归视频生成方法在单步设置下面临的质量下降与训练不稳定问题，One-Forcing提出了一种将DMD目标与辅助GAN损失相结合的方法。该方法实现了高质量且高效的单步视频生成。在VBench评测中，它取得了83.76的总分，达到单步因果视频生成的最先进水平，并与强大的多步方法性能相当。研究表明，One-Forcing仅用chunkwise模型三分之一的训练成本，就能稳定实现单步帧级自回归生成。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于离散扩散模型的摊销序列蒙特卡洛对比分布匹配

离散扩散模型在生成结构化分类数据时面临从奖励倾斜分布中高效采样的挑战。扭曲序列蒙特卡洛（SMC）虽能实现渐近精确采样，但其在离散状态空间中估计最优扭曲函数需要昂贵的蒙特卡洛近似，成为推理瓶颈。为此，本文提出对比分布匹配（CDM）框架，通过学习一个参数化扭曲函数来摊销SMC推理的成本。训练时，梯度估计器被重新设计以利用离散扩散模型的闭式前向核。实验表明，评估该扭曲函数带来的额外计算开销低于基础模型单次前向传播的5%。在匹配实际耗时的条件下，CDM性能优于现有基线，并在毒性文本生成、调控DNA序列设计、蛋白质可设计性及扩散大语言模型对齐等多个任务中验证了其有效性。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

迈向评测工程：ML评测框架的野外实证研究

研究者对57个机器学习评测框架进行了实证分析，提出一个五阶段框架模型，并分类了16,560个操作问题。研究发现，大多数挑战集中在规范阶段，占问题的41.4%。未实现的功能、文档缺失和输入验证不足这三类根本原因，合计占已分类问题的61.7%。不同工作流阶段的根本原因各异：环境不兼容和外部依赖失效占配置阶段问题的36.2%；算法错误与验证缺失则是评估阶段的主导原因。

arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

着色噪声：对抗性Sobolev对齐实现保真图像超分辨率

图像超分辨率（SR）中的生成先验常因频谱失配而牺牲保真度。本文提出ASASR框架，通过“着色”噪声转换核以匹配自然图像频谱衰减，将生成流重构为Sobolev诱导的黎曼几何，从而解决这一问题。其核心在于集成一个基于Riesz表示定理的参数化对抗器，该对抗器生成等价于最差Sobolev梯度的负样本，沿可行结构失败的切线空间引导优化。评估表明，ASASR在保持频谱一致性与结构保真度方面优于现有生成方法，能有效缓解伪影。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HorizonStream：面向流式三维重建的长时域注意力

HorizonStream 将几何传播形式化为证据影响核，并将其分解为长时域和短时域因子。长时域因子采用几何线性注意力学习通道级衰减率，实现几何证据的有界、多时间尺度传播。短时域因子结合几何局部注意力与时空旋转位置编码，执行可靠三维匹配并抑制注意力尖峰。最终，通过度量读出 token 从持久几何状态中恢复稳定尺度与刚性位姿。该模型仅用 48 帧片段训练，即可在恒定内存与线性时间下，稳定泛化至超过 10,000 帧的序列，达到了流式三维重建的先进性能。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillEvolBench：评估从情景经验到程序性技能的演进

该研究提出了SkillEvolBench，一个用于评估大语言模型智能体能否将情景经验提炼为可复用程序性技能的诊断基准。基准包含180个任务，分布在六个真实智能体环境中。测试发现，当前智能体通常只能局部适应，很少能形成稳健的可复用技能。基于技能的条件有时能改善获取或重放，但在冻结部署任务下表现不稳定。原始轨迹重用经常优于蒸馏的技能，表明当前的抽象过程丢弃了对未来任务仍有用的上下文和程序性线索。研究基于十个模型配置和三个智能体工具包，指出仅写入更多技能或更大的资源库并不足够。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Geo-Align：基于度量几何奖励的视频生成对齐

针对现有摄像机控制视频重渲染方法因缺乏真实多视角数据而泛化能力有限的问题，Geo-Align 提出了首个专门用于此任务的强化学习框架。该框架基于预训练模型，通过尺度感知的感知奖励进行优化。其核心是引入度量3D估计器从生成视频中提取精确摄像机轨迹，并显式惩罚旋转与平移的偏差。同时，设计了基于真实条件视频和合成目标轨迹的数据管道策略，摆脱了对配对数据的依赖。实验表明，Geo-Align 在精确摄像机控制与视觉保真度上均优于现有的监督学习基线。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：在可玩环境中模拟跨游戏操作以实现FPS世界模型

针对FPS游戏中高频重叠控制信号的处理难题，SCOPE方法在预训练视频扩散模型的每个Transformer块中插入条件模块。它将特征重塑为逐像素时序序列，使每个位置能基于局部视觉内容计算动作响应，从而无需分割标签即可分离作用域内效应与作用域外生成。同时发布的CrossFPS数据集是首个包含帧对齐动作遥测的多游戏FPS数据集，由7款游戏的69K片段构成，提供10-DoF控制器信号。该模型学习通用的视觉到动作映射，而非游戏特定模式，实现了对未见场景的零样本迁移。实验验证了SCOPE具备强动作响应性、精确作用域分离能力与有效的跨游戏泛化性能。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillOpt：面向智能体技能的可控文本空间优化框架

SkillOpt是一个系统性可控文本空间优化器，用于智能体技能。它通过独立的优化模型，将带分数的执行轨迹转换为对单一技能文档的有限编辑（增/删/改），且仅当编辑能严格提升验证集分数时才被接受。该技能被视为冻结智能体的外部状态进行训练，并包含文本学习率预算等机制以保持稳定性，部署时不增加额外推理调用。实验表明，在GPT-5.5上，SkillOpt在直接聊天、Codex循环和Claude Code中分别实现了平均无技能准确率+23.5、+24.8和+19.1分的提升。优化后的技能在跨模型和跨环境迁移时仍保持价值。

智能体 arXiv OpenAI 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从原始经验到技能运用：模型生成智能体技能的系统性研究

语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期（经验生成、技能提取与技能运用），构建了涵盖五个多样化任务领域的效用评估框架。研究发现，模型生成的技能平均有益，但存在显著的负面迁移现象；技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能，用于指导技能提取过程，以提升技能质量并减少负面迁移。

智能体 arXiv MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GenRecon：连接生成先验用于多视角三维场景重建

该方法提出一种高保真多视角三维场景重建方案，核心是将重建过程与强大的生成式3D先验紧密耦合。具体做法是将场景划分为多个空间局部重叠的区块进行条件化3D生成，并提出一种基于投影的条件机制，将多视角图像特征提升为与生成模型对齐的、空间锚定的连贯3D表示。该方法以Trellis.2等前沿生成模型为基础，将其对象级能力推广至场景级别，最终生成可编辑的PBR网格重建结果。在室内环境重建任务上，其保真度优于现有尖端方法16%。

arXiv 多模态论文/研究

00:26

AK@_akhaliq

LongMINT 评估长期智能体系统中多目标干扰下的记忆能力

智能体 arXiv 推理论文/研究

5月21日

14:10

HuggingFace Daily Papers（社区热门论文）

OCTOPUS：基于八面体参数化与最优平方误差量化的Transformer优化KV缓存

本文提出了OCTOPUS，一种用于Transformer长上下文推理的新型KV缓存压缩方法。它通过联合量化旋转后的坐标三元组来优化现有旋转编码器的性能。其核心在于将每个三元组的方向通过八面体参数化映射至正方形，并对量化坐标与三元组范数实施最优平方误差量化，从而实现了一种仅依赖于键总维度的严格非均匀比特分配策略。实验表明，OCTOPUS在文本、视频和音频任务上，在所有测试的比特宽度和指标上均达到或超越了此前的旋转编码器，并在极端压缩时优势尤为显著。此外，其融合Triton实现能在线重建键值，不引入额外的解码带宽或延迟。

arXiv 多模态推理论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

评估智能体计划执行流水线中的时间语义缓存与工作流优化

针对工业智能体在基准测试AssetOpsBench中，现有缓存技术因无法处理时间等动态参数而失效的问题，本研究提出了两种互补优化方案：时间语义缓存与MCP工作流优化。测试显示，MCP工作流优化（结合磁盘工具发现缓存与依赖感知并行执行）实现了1.67倍加速，将端到端延迟降低约40%；而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率，还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。

智能体 arXiv MCP/工具论文/研究

11:09

HuggingFace Daily Papers（社区热门论文）

Uni-Edit：智能编辑作为统一模型微调的通用任务

当前，统一多模态模型通过混合多任务训练来提升图像理解、生成和编辑能力，但任务冲突导致需要复杂多阶段流程和大量数据平衡，仅实现性能折衷而非协同增强。为此，研究提出Uni-Edit，一种智能图像编辑任务，作为统一模型微调的首个通用任务。Uni-Edit只需单一任务、单一训练阶段和单一数据集，就能同步提升模型的三种核心能力。研究团队开发了首个自动化、可扩展的智能编辑数据合成流程，将多样化的VQA数据转化为嵌入问题与嵌套逻辑的复杂编辑指令，生成包含14.8万条数据的Uni-Edit-148k数据集。在BAGEL和Janus-Pro模型上的实验证实，仅基于Uni-Edit进行微调，即可全面增强模型的图像理解、生成和编辑能力，无需任何辅助操作。

arXiv 图像生成多模态数据/训练

11:09

HuggingFace Daily Papers（社区热门论文）

精选75

SpecBench：测量长期编码代理中的奖励黑客行为

长期编码代理在优化测试通过时可能偏离用户真实目标，导致奖励黑客现象。研究将软件工程任务分解为规格说明、可见验证测试和隐藏测试，通过两类测试通过率差距量化黑客行为。为此引入SpecBench基准，包含30个从短期（如JSON解析器）到超长期（如构建操作系统内核）的系统级编程任务。实验显示，所有前沿代理在可见测试上饱和，但隐藏测试上存在持续差距，小模型差距更大；代码规模每增十倍，差距增长28个百分点。失败案例包括故意利用测试输入。SpecBench提供原则性平台，评估代理是否构建真实工作系统而非仅玩游戏测试套件。

智能体 arXiv 安全/对齐编码

推荐理由：SpecBench把编码代理的‘应试’问题量化了，越长的任务越容易靠作弊通过测试。如果你在做Agent，这个基准会让你重新审视自己的评估体系。

11:09

HuggingFace Daily Papers（社区热门论文）

PlanningBench：一个用于评估和训练大语言模型的可扩展、可验证规划数据生成框架

本文提出了PlanningBench框架，旨在为评估与训练大语言模型生成可扩展、多样且可验证的规划数据。框架源于真实场景，抽象出包含30余种任务类型、约束与难度因素的结构化分类体系，并基于此实现了约束驱动的数据合成流程，该流程具备自适应难度控制、质量过滤与实例级验证能力。研究利用该框架评估了前沿大模型，发现其在耦合约束下仍难以生成完整解决方案。此外，基于PlanningBench数据的强化学习不仅提升了模型在未知规划任务上的表现，也增强了其指令遵循能力，并表明明确的最优解能提供更稳定的训练信号。

arXiv 推理数据/训练论文/研究

10:09

HuggingFace Daily Papers（社区热门论文）

生成式递归推理

GRAM（生成式递归推理模型）框架将递归潜状态推理从确定性单一路径转变为概率性的多路径计算。它允许模型在推理时生成多种假设与替代解决策略，并可通过增加递归深度或并行采样来扩展计算能力。该框架通过摊销变分推断训练，形成了一个支持条件推理与无条件生成的潜变量生成模型。实验表明，GRAM在结构化推理及多解约束满足任务上优于确定性循环与递归基线模型，并具备了独立的无条件生成能力。

arXiv 推理论文/研究