6月10日

08:00

HuggingFace Daily Papers（社区热门论文）

开源Lean定理证明器家族Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型。训练采用课程式SFT，通过动态证明推理过滤将每条样本控制在8k token上下文预算内，并引入增强型Lean形式化(ALF)将稀缺验证语料扩展为变体语句，以自蒸馏提供额外训练信号。Pythagoras-Prover-4B在MiniF2F-Test上以86.1% pass@32超越DeepSeek-Prover-V2-671B（82.4%），参数量减少约167倍；Pythagoras-Prover-32B以93.0%创下开源SOTA，并在PutnamBench上解决93/672题。项目同步发布MiniF2F-ALF基准。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

APT：通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力

视觉-语言-动作（VLA）模型将预训练VLM与连续动作专家结合，但在分布外语言指令上泛化差——原因是数据中语言多样性低且动作专家随机初始化导致梯度噪声削弱VLM。APT从贝叶斯视角将策略分解为语言无关的视觉-动作（VA）先验和语言条件VLA似然，采用两阶段训练：阶段1冻结VLM，在视觉-动作对上预训练动作专家作为VA先验；阶段2通过门控融合注入语言token，保留已学习的视觉运动先验。APT适用于π和GR00T风格架构，在未见指令和组合任务上实现一致提升。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MedMisBench：大语言模型在误导性医学上下文下的认知韧性评估

大语言模型在医学考试中已达专家级水平，但MedMisBench基准测试揭示其结构性脆弱：在误导性上下文中，模型平均准确率从原题的71.1%骤降至38.0%，攻击成功率达51.5%。MedMisBench包含10,932道医学题和48,889组误导性上下文–选项对，覆盖医学推理、智能体能力和患者旅程评估。最有效的攻击是权威式虚假陈述（69.5%）和例外投毒声明（64.1%）。来自7国的14名临床医生评审认定38.2%的案例存在严重潜在危害。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

SciAgentArena：评估AI智能体应对跨尺度科学挑战的基准测试

为填补现有AI智能体在真实科研场景中评估的空白，SciAgentArena被提出，包含约200个跨领域科学任务，支持逐步验证与交互式评估。测试发现，当前AI智能体在任务结构与评价标准明确的特定数据分析流程中能有效发挥作用，但在生成新颖见解、持续自主探索以及为开放式科研问题构建稳健方案方面仍表现不均。该基准为衡量科学领域AI智能体的进展提供了实用框架，相关代码、任务与数据集已开源。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

RedAct：为保护过程技能而编辑智能体能力轨迹

用户依赖执行轨迹观察AI智能体行为并确保问责，但轨迹细节可能泄露私有过程技能（公式、阈值、策略）。为此，研究构建了CapTraceBench基准（75个长周期任务、154个跨领域技能）来量化风险，并推出RedAct保护框架。该框架定位关键信息、重写轨迹并保留验证器证据，同时嵌入行为水印用于溯源。在代表性轨迹复用方法上，RedAct将标准化技能转移（NST）从原始轨迹的44.7–67.1%降至无技能基线以下，同时保留审计证据。其行为水印真阳性率达93.6–100%，假报警率至多1.9%。结果表明选择性编辑可在不删除审计证据的前提下减少过程能力泄露。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从 AGI 到 ASI

过去十年，人类级通用人工智能从遥远猜测变为多家机构的下个十年目标。这份报告探讨后AGI世界中AI沿机器智能连续体的发展，重点是从人类级AGI到通用超智能（ASI）的过渡。ASI被定义为比人类大型组织更智能的系统。报告描述了四条潜在路径：扩展AGI、AI范式转变、递归改进及大规模多智能体集体涌现，并分析了路径上的摩擦与瓶颈。由于预测ASI进展存在巨大不确定性，不能排除AI发展持续加速的可能，社会面临的或是一系列由AI驱动的科技连锁变革，需全球跨学科努力应对。

安全/对齐现象/趋势论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Orchestra-o1：全模态智能体编排框架

Orchestra-o1是一种全模态智能体编排框架，支持文本、图像、音频和视频等多模态输入的统一理解与协调。其引入统一编排机制，实现模态感知的任务分解、在线子智能体专化及并行子任务执行。在OmniGAIA基准上，Orchestra-o1超越第二名10.3%的准确率。研究还提出决策对齐的组相对策略优化（DA-GRPO），一种高效智能体强化学习方法，用于训练Orchestra-o1-8B，该模型在所有现有开源全模态智能体中达到最优性能。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

何时你的大语言模型可被引导？--激活引导效果预测研究

激活引导是一种推理时轻量控制大语言模型行为的方法，但成功率高度依赖提示词、概念、模型和引导配置。为预测引导效果，研究者构建了含140万次引导生成、覆盖150个概念的ASTEER测试集，并提取跨层与初始解码步的隐藏状态特征。基于梯度提升决策树（GBDT）分类器，该模型可在未完成全部自回归生成时判断引导是否欠调、成功或过调，在未见概念上达到约0.7 macro-F1分数。进一步利用该预测器指导引导强度搜索，仅需少量解码成本即可接近最优效果。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考LLM心理测量评估：自我报告何时及为何能预测行为

本研究对比大五人格与计划行为理论（TPB）在LLM自我报告与行为一致性上的表现。在四项行为任务与11个前沿LLM中，同一对话内TPB达到人类水平一致性，大五不能；跨对话时，仅对训练形成的隐性偏见等行为保持一致性，对上下文启动的谄媚等行为则崩溃；角色提示使自我报告更一致，但不改变行为。结论：粗粒度人格框架（如大五）不适合测试部署行为。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

静态（因此兼容）表示：你所需的一切

学习兼容表示旨在使模型更新后的特征表示可互换使用。实验证明，d-Simplex固定分类器学习的静态表示天然满足兼容性定义。针对顺序微调场景，交叉熵损失仅对齐一阶统计量，无法充分捕捉高阶依赖。通过交叉熵与对比损失的凸组合训练模型，既能捕捉高阶依赖，又等价于兼容约束下的交叉熵学习。实验表明，静态表示可在模型更新和替换时不需重新处理图库图像，实现无中断检索服务，并达到当前最优性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TreeSeeker：树结构试错与返回的深度搜索框架

TreeSeeker是一种推理时框架，通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号（价值、不确定性、风险）选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上，TreeSeeker持续优于强开源基线，表明显式的分支-回退控制可增强更强推理与工具执行能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VIA-SD：通过模型内路由实现推测解码的验证

推测解码（SD）通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策：接受或完全重算。VIA-SD提出多层级框架，利用模型内路由从完整验证器中提取轻量子模型（slim-verifier），对中等置信度的草稿token进行再生，仅在不确定时调用完整模型。在四个代表性任务和多种模型族上，VIA-SD将拒绝率降低0.10–0.22，相比强SD基线实现10–20%加速，相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架，无需修改训练过程。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

从2D网格到1D token：改革多模态图像融合的共享表示

多模态图像融合现有方法基于2D特征网格，局部建模强但全局外观控制有限。本文引入紧凑1D token接口，基于冻结预训练图像tokenizer作为全局载体，同时保留2D空间路径恢复局部结构。提出选择性token编辑（STE），稀疏更新或替换关键token，在不改变融合主干、不引入额外损失下引导全局一致性。在四个基准上取得最佳整体性能，全局一致性和局部保真度均提升。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PianoKontext：从平淡上下文中生成富有表现力的演奏

PianoKontext 是一种流匹配渲染模型，专为古典钢琴音乐设计，在预训练 Music2Latent 模型的潜在空间中生成可变长度的富有表现力演奏。该方法将 MIDI 乐谱合成为平淡音频，利用动态时间规整（DTW）在潜在空间中对齐乐谱与演奏数据，并将对齐的嵌入拼接至 DiT 块中，以简单有效的方式学习乐谱与演奏之间的依赖关系。演示音频见项目页面。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Z-Image Turbo++：通过教师对齐的端到端蒸馏实现高保真两步图像生成

Z-Image Turbo++是从8步教师模型Z-Image Turbo蒸馏得到的2步图像生成模型。针对两步生成中任务难度提升和模型容量有限的瓶颈，提出三项设计：分布对齐对抗学习（以教师生成图像而非真实图像作为GAN训练的真样本）、步骤分离参数化（两个去噪步独立参数）、以及带迭代正则化的端到端训练（第一步接收最终图像质量梯度并保留有意义的中间生成）。这些策略显著缩小了2步与8步生成的质量差距。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FORT-Searcher：抗捷径训练数据合成框架

FORT-Searcher 提出抗捷径训练数据合成框架 FORT，识别证据共覆盖、单线索选择性、暴露常数和先验知识绑定四种捷径风险，在实体选择、证据图构建、问题生成和对抗性精炼环节控制。实验表明，FORT 生成的数据比现有开源深度搜索数据集诱导更长的搜索路径和更少的捷径模式。仅用监督微调（SFT）训练的 FORT-Searcher 在多个深度搜索基准上达到同类开源搜索智能体的最佳整体性能。资源即将开放。

智能体 GitHub 搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Evoflux：面向紧凑型智能体的可执行工具工作流的推理时进化

Evoflux是一种推理时进化搜索方法，通过结构化编辑、执行反馈、自适应强度、元引导重设计和多样性剪枝，将紧凑型语言模型的可执行工具工作流修复为可运行图。在覆盖250个工具和MCP服务器的MCP-Bench任务上，Evoflux将小型规划器的执行可行性从约3%提升至17-24%。相比之下，同一数据上的SFT和SFT+DPO表现持平、不如或崩溃至低于零样本水平；ReAct可达更高峰值但方差和token成本更高。结果表明，在稀缺教师轨迹预算下，基于执行反馈的搜索更可靠。

智能体 MCP/工具论文/研究

06:10

Hacker News 热门（buzzing.cc 中文翻译）

基于Kolmogorov-Arnold Networks的FPGA超高速机器学习

将Kolmogorov-Arnold Networks（KAN）部署于FPGA，实现超高速机器学习推理。

论文/研究部署/工程

05:55

HuggingFace Daily Papers（社区热门论文）

精选76

精确性不等于忠实度：完整Oracle下的覆盖感知接地生成评估

无参考忠实度度量仅衡量精确率（陈述是否被支持），鼓励模型少说甚至不说以获得高分。本研究利用F1遥测（确定性完整ground truth）和NOAA天气预报两个完整Oracle领域，证明此盲点：在多语言（EN/ES/PT）共7253个决策实例（覆盖150场比赛）的基准上，最精确的前沿模型仅覆盖不到一半相关事实，按F1排名垫底。引入覆盖度（召回率）后系统排序改变；显式要求详尽也无法弥补差距。作者提出将忠实度与覆盖度合并为单一分数，并给出无参考验证器引导生成方法，同时提升精确率和召回率。相关基准、标注、度量、基线及交互演示已开源。

论文/研究评测/基准

推荐理由：这个研究戳破了自动评估里 Faithfulness 的泡沫，指标只看模型「说对多少」不看「说全没有」，沉默的模型反而拿高分，以后评测不能只看精确度了，做评估的得补上覆盖度这一环。

05:40

Hacker News 热门（buzzing.cc 中文翻译）

Grep 真的就够了吗？代理框架如何重塑基于代理的搜索

该研究质疑在基于代理的搜索（agentic search）中“grep 是否足够”这一假设，并分析代理框架（agent harnesses）如何重新定义智能体搜索的交互方式与能力边界，推动搜索范式从简单工具调用向结构化代理行为演进。

智能体检索增强搜索论文/研究

02:08

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选84

系统卡：Claude Fable 5 和 Claude Mythos 5 【pdf】

Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5 的系统卡（System Card），以 PDF 格式公开，内容涵盖两个模型的架构、安全评估与部署限制。

Anthropic 安全/对齐模型发布论文/研究

同一事件，精选展示《Claude Fable 5 和 Claude Mythos 5》

推荐理由：Anthropic 新一代模型系统卡，安全评估详尽，对齐剖析坦率到近乎残酷，所有做 AI 安全的人都该读一遍。

00:36

HuggingFace Daily Papers（社区热门论文）

FlowBP：一种面向Flow Matching的奖励反向传播设计空间探索框架

针对文本到图像Flow Matching模型与人类偏好对齐时，完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题，FlowBP提出统一代理轨迹框架，将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择，并实例化三个变体：FlowBP-Sparse（稀疏Euler重建）、FlowBP-Bridge（受控桥耦合）和FlowBP-Lagrange（高阶跳跃求积）。三者通过活跃集大小限制内存，梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，三个变体在偏好、质量和组合指标上均优于直接梯度基线。

Hugging Face 图像生成数据/训练论文/研究

6月9日

22:26

IT之家（RSS）

美国工程师研发"光忆阻器"，解决自动驾驶强光失明问题

美国宾夕法尼亚州立大学研发出光忆阻器，模拟人眼适应机制，解决自动驾驶汽车在光线剧烈变化时失去感知的问题。该器件将氧化钛与塑料PEDOT:PSS结合，通过类似“出汗”和膨胀自动调节感光，数秒完成强光到暗光切换（人眼需20-30分钟）。4×4阵列与AI神经网络测试，在极亮背景中识别暗光字母“F”，7轮训练后准确率达95%。已申请临时专利，未来可用于工厂机器人和视障人士人工视觉设备。

端侧论文/研究

21:04

Google DeepMind：Blog（RSS）

精选56

Gemini Guided Learning 随机对照试验：在塞拉利昂等地提升参与度并加速学习

一项在塞拉利昂等地开展的随机对照试验显示，Gemini 的 Guided Learning 功能能够提升学生参与度并加速学习。

DeepMind 论文/研究

推荐理由：对教育行业是个有力信号，RCT数据扎实，但效应量不算大，且高基础学生受益更多，公平性挑战还在。

16:55

HuggingFace Daily Papers（社区热门论文）

精选70

用对抗性黑客-修补循环强化Agent基准测试

对五个终端Agent基准测试的1,968个任务审计发现，323个（16%）可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法：三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上，该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客：Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%；在Terminal Bench的77个任务上，从39%降至17%。发布Terminal Wrench（323个可攻击环境、3,632条攻击轨迹）及修补后的验证器与实现。

智能体安全/对齐论文/研究

推荐理由：现有 Agent 基准的验证器太容易被钻空子了，这篇论文挖出 16% 可 hack 的任务，还提出用三个 LLM 自动对抗修补的循环方法，做 RL 评估的值得细读。

16:52

HuggingFace Daily Papers（社区热门论文）

基于并行回火的大语言模型科学假设搜索

大语言模型用于生成科学假设，但常见进化搜索因过度优化导致多样性坍塌。本文将假设搜索建模为采样问题，目标是在固定验证预算下高效产出多样且高质量的候选假设。受并行回火算法启发，提出一种进化框架，在多个温度水平同时搜索，并通过跨温度信息交换增强探索而不破坏收敛。在分子发现、方程发现和算法发现三个领域，该方法在同等验证预算下同时提升了假设质量与多样性，且候选假设在更昂贵的下游计算验证中仍保持鲁棒。

arXiv 推理论文/研究

15:55

HuggingFace Daily Papers（社区热门论文）

SwiftVR：实时一步生成式视频恢复

SwiftVR 提出流式一步生成式视频恢复框架，采用无掩码移位窗口自注意力和轻量级恢复感知自编码器，消除二次空间注意力与大型视频自编码器的延迟及内存瓶颈。模型仅用标准密集 SDPA 调用，无需重训练或自定义内核即可部署至消费级 GPU。在单张 H100 上，2560×1440 分辨率达 31 FPS，3840×2160 达 14 FPS，而扩散 VR 基线在 4K 已超出内存。在 RTX 5090 上，1080p 达 26 FPS，为首个实现消费级 GPU 实时 1080p 流媒体的生成式视频恢复模型。

推理视频论文/研究

15:55

HuggingFace Daily Papers（社区热门论文）

光学推理（Optical Reasoning）：将图像作为独立推理媒介，token效率达文本1.96倍

光学推理（Optical Reasoning）提出将图像作为语言和多模态任务的独立推理媒介，包含基于印刷字体与基于图形两种变体，分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上，光学推理匹配甚至超越传统文本推理，同时语言任务减少推理token 28.57%，多模态任务减少16%，token效率达到文本推理的1.96倍，证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究

14:55

HuggingFace Daily Papers（社区热门论文）

PBSD：利用特权贝叶斯自蒸馏实现长程信用分配

PBSD提出一种贝叶斯校准的自蒸馏方法，用于在稀疏最终奖励下进行细粒度信用分配。它通过验证答案的后验与先验概率比衡量轨迹质量，并利用贝叶斯规则将难以估计的答案侧比率转化为标准学生模型与特权、以答案为条件的教师模型之间的似然比。对该贝叶斯证据分数进行自回归分解，产生每步信号，识别中间推理步骤是支持还是削弱已验证结果。PBSD将稀疏结果监督转化为贝叶斯校准的逐步信用信号，与标准策略优化兼容。实验表明，该方法在领域内和领域外设置中一致提升性能，并有效将知识从短上下文训练迁移到长上下文推理。

智能体数据/训练论文/研究

14:55

HuggingFace Daily Papers（社区热门论文）

精选74

Reasoning Arena：可验证奖励不足时的迹线锦标赛

针对基于可验证奖励的强化学习（RLVR）在组级别奖励无信息时无法提供梯度信号的问题，提出Reasoning Arena自适应训练框架。该框架将非多样化奖励组路由至评判系统，通过迹线锦标赛（trace tournaments）对推理迹线进行头对头比较，转化为相对奖励信号。每个新迹线仅与动态更新的少量锚点比较，然后在不完全比较图上拟合Bradley-Terry模型。在竞赛数学和编程基准上，平均超越RLVR基线7.6%，训练加速27%至41%，节省近50%生成计算量。

arXiv 推理数据/训练论文/研究

推荐理由：强化学习训推理模型常遇到奖励无法区分，这篇把被浪费的样本变成有效梯度，训练加速近 50% 同时性能还涨 7.6%，做 RL 训练的人值得细读。

14:12

MarkTechPost（RSS）

哈佛与Perplexity新研究：AI智能体每会话自主工作26分钟，搜索助手仅33秒

哈佛大学与 Perplexity 联合发表论文，采用匹配对会话方法对比自主 AI 智能体与搜索助手。结果显示，AI 智能体每会话可自主工作 26 分钟，而搜索助手仅能完成 33 秒的自主工作。智能体在自主性、时间效率与成本方面均实现大幅提升，并且尝试的工作范围更为广泛。

智能体搜索论文/研究

13:55

HuggingFace Daily Papers（社区热门论文）

AHA-WAM：异步视界自适应世界-动作建模

提出AHA-WAM，基于双扩散Transformer（DiT）架构，将视频DiT作为低频世界规划器，维护滚动键值记忆编码长程场景演化；高频动作DiT通过分层联合注意力查询上下文，在闭环中执行短动作块。引入视界自适应偏移训练与观测引导视频上下文路由（OVCR），使动作专家无需重新运行视频DiT即可利用长程世界上下文并保持对实时状态的响应。在RoboTwin基准上平均成功率达92.80%，4项真实世界任务平均成功率78.3%，闭环控制频率24.17 Hz，相比Fast-WAM加速4.59倍，无需任何机器人数据预训练。

具身智能论文/研究

13:55

HuggingFace Daily Papers（社区热门论文）

SkeMex：通过自进化技能记忆实现可泛化医学智能体推理

SkeMex 是一种部署后自进化框架，通过技能记忆提升医学智能体的临床交互推理能力，无需更新模型权重。它将历史交互轨迹蒸馏为结构化技能（可复用流程知识），组成跨通用、任务特定及行动级的多分支仓库。利用环境反馈估计上下文效用，指导价值感知检索与仓库治理，形成“读取—写入—评估—治理”闭环生命周期。实验表明，在多种临床任务中，SkeMex 在离线和在线设置下均优于代表记忆型智能体，且能跨模型骨干泛化并实现可转移技能记忆。

智能体推理论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

评估卡片：AI评估报告的可解读层

AI评估结果规模庞大但报告不一致，导致读者难以跨来源比较、识别遗漏或追溯结论。Evaluation Cards通过整合基准元数据、评估运行数据和模型元数据，形成统一记录。方法包括：(1)从52篇论文和10次利益相关者访谈中推导报告模式；(2)实现四个可解释信号（可复现性、文档完整性、来源与风险、分数可比性），并针对研究与非研究受众提供不同读者模式；(3)部署监控工具，覆盖5816个模型、635个基准和101843个结果，揭示当前报告实践中的系统性缺口。

arXiv 论文/研究评测/基准部署/工程

12:55

HuggingFace Daily Papers（社区热门论文）

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4（FM-DS-V4）提出Lookahead Sparse Attention（LSA）推理范式，基于DeepSeek-V4架构构建神经记忆索引器，主动预测未来上下文需求，仅保留查询关键KV块。采用解耦训练策略，索引器作为独立双编码器训练，无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上，平均物理KV缓存压缩至全上下文基线的13.5%，下游精度平均提升0.6%；在500K极端长度下，物理KV开销减少超过90%，且不损害主干模型的核心推理能力。

DeepSeek 推理论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

OmniGameArena：面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准，涵盖单人（7个）、PvP（3个）和合作（2个）模式，提供统一动作接口。除冷启动排行榜分数外，还引入Improvement Dynamics Curve (IDC)，一种智能体反射评估机制：通过工具调用反射大语言模型自动优化技能提示词，追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现，以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由：在 UE5 里直接测 agent 的自我改进，这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测，对做多模态 agent 的团队是个新标尺。

11:55

HuggingFace Daily Papers（社区热门论文）

Echo-Memory：动作世界模型中记忆机制的控制研究

Echo-Memory固定视频扩散骨干、优化器、相机动作表示、采样器和评估流水线，比较原始上下文、压缩记忆、空间摘要（不同读取路径）和状态空间循环四种记忆设计。三分支评估（回放质量、域内循环重访、开放域返回）显示排序常不一致，回放保真度不足以代理世界记忆。发现：原始上下文提升开放域返回远超回放指标；紧凑无法替代容量，激进空间与混合压缩丢失关键证据；块状态空间循环在开放域返回中最强，隐式记忆结构与使用同等重要。

具身智能视频论文/研究

11:55

HuggingFace Daily Papers（社区热门论文）

大规模端到端上下文压缩

长上下文语言模型推理受KV缓存内存瓶颈制约。现有压缩方法或大幅降低质量，或耗时耗算力。本文通过架构搜索和从头预训练，在350B tokens上持续预训练了0.6B编码器、4B解码器的模型家族，支持1:4、1:8、1:16压缩比，命名为Latent Context Language Models (LCLMs)。该家族在通用任务性能、压缩速度和峰值内存上提升了帕累托前沿，并能作为长时程智能体的高效骨干，快速扫描压缩后的长上下文并按需展开相关片段。

智能体推理论文/研究

10:55

HuggingFace Daily Papers（社区热门论文）

SpatialWorld：多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端，包含 760 个人工标注任务，覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据，并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示，最强闭源模型 GPT-5 平均任务成功率仅 17.4%，最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节，不同领域性能差异显著，主动探索与长程规划仍是瓶颈。

arXiv 具身智能多模态论文/研究

10:55

HuggingFace Daily Papers（社区热门论文）

潜在空间记忆框架Mirage用于视频世界模型

Mirage提出一种潜在空间记忆框架，用于视频世界模型的3D一致性生成。它通过深度引导反投影将潜在token提升至3D，形成持久缓存，并利用直接潜在空间扭曲合成新视图，避免了像素空间重建的信息损失和重复编码渲染的计算开销。相比显式3D基线，Mirage实现端到端视频生成加速10.57倍、内存占用减少55倍。在WorldScore上达到当前最优性能，在RealEstate10K上展现强重建质量。

多模态视频论文/研究