6月24日

08:00

HuggingFace Daily Papers（社区热门论文）

TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境，提取 1830 万条有向依赖；形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间，LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配，阈值 ≥0.9 时接受率升至 87%。形式化概念检索中，name-and-signature 加图扩展的 Recall@10 达 0.775，接近 LeanSearch v2 的 0.780（无需 LM 重排序）。相关数据集、提取器、HTTP API 及 MCP 接口已开源。

搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MIMFlow：掩码图像建模与归一化流融合的端到端图像生成框架

MIMFlow是一个统一端到端框架，联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量，使归一化流专注于建模简化的低频频谱流形，专用解码器处理高频合成，从而解决归一化流的容量瓶颈。在ImageNet 256×256上，MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token（比标准模型少50%），性能较相似规模NF基线提升32.8%。代码已开源。

图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

星系分词器指南：科学基础模型基准

在统一Transformer框架下，比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干，评估重建保真度与物理属性预测。结果显示：基于流的JetFormer重建质量更高，VQ-VAE对星系物理属性的探针性能更强，Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦，没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准，凸显科学数据构建可解释基础模型基准的潜力。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Tatoxa 系统：面向低资源语言鞑靼语的文本去毒化

Tatoxa 是一个针对鞑靼语（Tatar）文本去毒化的最新系统，能够自动检测并缓解攻击性和有害内容。对比实验表明，该方案在关键质量指标上超越了现有开源和闭源商用大语言模型。研究同时引入了一个专为低资源场景下微调和评估设计的鞑靼语文本去毒化数据集。跨语言迁移实验显示，即使使用大规模俄语语料，从其他语言（包括文化相近的俄语）迁移的效果也显著差于在本地鞑靼语数据上训练。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Physics Question Scene Graph：文本到视频生成物理合理性细粒度评估方法

论文提出 Physics Question Scene Graph (PQSG)，一种层级问题图评估方法，利用 VLM 生成带逻辑依赖的问题图，从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法，构建了 FinePhyEval 数据集，包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法，且闭源模型物理真实性排名高于 Wan 2.1。此外，FinePhyEval 标注可用于子任务评估：两个强 VLM 能生成类人问题，但回答准确率仍不及人类。

视频论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

COrigami：用于协同设计可折叠平面折纸的AI管道

COrigami是一个端到端AI驱动管道，从自然语言生成可折叠平面折纸的折痕图案。管道流程包括生成语义火柴人、计算基础填充、求解可折叠折痕图案、塑造平面折叠图案，并通过强化学习与自主审美评估循环对生成模型进行优化。该系统作为高效协作助手，为人类艺术家提供结构起点，展示了AI如何在满足多目标物理约束（如平面可折叠性方程）的前提下实现可靠的、基于数学的协同创造力。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Fast LeWorldModel

Fast-LeWM是一种快速潜空间世界模型，基于JEPA和LeWM。它用动作前缀预测替代LeWM逐次单步潜状态展开：将候选动作序列的前缀编码后并行预测对应未来潜状态。前缀级监督使模型学习不同前缀下状态的连续演化，规划时可直接利用最后一个前缀token评估未来潜状态，无需逐一遍历中间想象状态。在多个任务上，Fast-LeWM相比LeWM提高了平均成功率，大幅缩短了规划时间，并实现了随展开步长增长显著变慢的开环潜损失。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习（RL）训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现，崩溃源于特定控制 token 的概率尖峰，但底层工具使用能力并未丢失，仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号，发现将监督微调（SFT）与 RL 交错训练可显著提升稳定性，但在格式和内容分布外（OOD）评估中性能下降。代码已开源。

智能体 GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

验证地平线：编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强，生成长代码方案已不困难，可靠验证反成瓶颈。验证器仅为人类意图的代理，意图天然欠指定，优化会拉大代理与意图差距（奖励破解或信号饱和）。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量，研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论：无固定奖励函数能随策略能力增长保持有效，验证必须与生成协同进化。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

进展优势：后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明，强化学习后训练本身即可提供有效的步骤级评分信号，无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势，即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关，且是标准RL后训练管线的副产品。在五个基准和四个模型族上，进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线，甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究

07:07

Hacker News 热门（buzzing.cc 中文翻译）

Lift4D：协调单视图3D估计与4D重建的真实场景框架

Lift4D是一个测试时优化框架，从单目视频重建动态物体的完整几何、外观和变形，包括相机从未观察到的区域。它通过因果潜在条件化使单视图3D重建模型（图像到3D DiT）生成时间一致的逐帧预测，作为可变形3D高斯泼溅表示的初始化；随后结合遮挡感知优化与视图条件扩散先验，恢复可见表面细节并补全被遮挡及未观测部分。在合成和真实场景中，Lift4D在严重遮挡与非刚性运动下显著优于先前4D重建方法。

图像生成视频论文/研究

06:07

Hacker News 热门（buzzing.cc 中文翻译）

精选71

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成“算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份申请、108家财富500强企业），未发现此类模式。研究呼吁对算法招聘进行独立监管。

安全/对齐现象/趋势论文/研究

推荐理由：大规模实地研究揭示AI招聘存在显著种族偏见与系统性排斥，算法单一文化让同一批人被所有雇主拒绝，这是AI公平性领域近年最扎实的实证，做招聘产品的人和政策制定者都应该仔细读。

05:06

HuggingFace Daily Papers（社区热门论文）

Lift4D：调和单视图三维估计以实现野外四维重建

Lift4D 是一种测试时优化框架，用于从单目视频重建动态非刚性物体。它首先通过因果潜在条件适配单视图3D重建模型，生成时间一致的逐帧预测，作为可变形3D高斯溅射表示的初始化；随后通过遮挡感知优化与视图条件扩散先验，在恢复可见表面细节的同时补全未观测区域。在包含严重遮挡和非刚性运动的野外序列上，Lift4D 明显优于此前方法。

arXiv 多模态论文/研究

03:06

HuggingFace Daily Papers（社区热门论文）

ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

ShotcreteDepth是一个来自建筑领域的双模态数据集，包含立体RGB图像与LiDAR点云，采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件（高浊度、低光照）下获取，导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成，其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。

arXiv 具身智能数据/训练论文/研究

02:50

Apple Machine Learning Research（RSS）

精选68

九位评委，两个有效投票：相关错误削弱LLM评审面板

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8–22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度设置及偏好任务中均得到验证，瓶颈在于评委间的相关性而非聚合算法。

论文/研究评测/基准

推荐理由：这篇Apple论文揭示了一个反直觉的事实：在LLM评估面板中，9个法官实际上只提供约2个独立票的信息，因为模型会犯相似错误。这解释了为何简单聚合面板往往不如最佳单模型，做评估的团队必须重视法官相关性。

02:03

HuggingFace Daily Papers（社区热门论文）

提前承诺：LLM智能体过早固守证据的隐藏故障诊断

长周期LLM智能体会出现“过早承诺”故障——早期选定证据解读并固守，最终答案评分无法捕捉。研究用跨运行隐藏状态收敛性作为承诺指标。在Llama-3.1-70B运行ReAct于HotpotQA上，第4步隐藏状态相似性预测下游行为一致性（r=-0.35，偏相关-0.45）。信号在Qwen-2.5-72B、Phi-3-14B及StrategyQA（r=-0.83）复现。承诺不追踪正确性。运行时监测器检测不一致轨迹，AUROC最高0.97（严格拆分0.85-0.88）；提示词干预将行为方差降低28%且准确率无显著变化。结果提供了一个隐藏过程故障诊断工具，并明确了局限性。

智能体论文/研究

00:19

IT之家（RSS）

研究揭示 AI 聊天机器人或成"妄想放大器"：个性化互动能让用户越聊越偏执

伦敦国王学院和德国新教应用科学大学的精神科医生在《自然》发表论文，提出“放大螺旋”框架，解释AI聊天机器人如何助推用户妄想持续发展。研究指出，聊天机器人的语言对齐（模仿用户表达方式）、超个性化内容生成和迎合倾向三项特征相互作用，可能形成回音室，不断确认和放大用户的错误信念。论文强调该假设仍有待验证，但已有用户报告陷入有害的妄想螺旋。研究人员建议医疗人员将聊天机器人使用情况纳入常规筛查。

安全/对齐论文/研究

00:03

HuggingFace Daily Papers（社区热门论文）

Vera：用于内容保留视频编辑的分层扩散模型

Vera 是一种分层扩散模型，专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩，与源视频合成，从而分离创意编辑与内容保留。架构采用混合 Transformer（MoT），各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集，含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示，Vera 在内容保留上优于开源模型，编辑质量有竞争力，仅使用 486K 帧分层训练数据。

视频论文/研究

6月23日

22:49

HuggingFace Daily Papers（社区热门论文）

精选78

能力强但粗心：计算机使用智能体是否遵循情境完整性？

AgentCIBench评估计算机使用智能体（CUA）是否遵循情境完整性。它针对三种常见失败模式：视觉共置（智能体拉取任务目标旁边被禁止的项目）、任务模糊性过度分享（在提示不明确时泄露个人状态）以及收件人错配（向不适当的收件人发送内容）。对15个前沿CUA的评测显示平均泄漏率67.9%，其中11个在超过50%的场景中泄漏，这些失败在端到端任务中同样存在。AgentCIBench已发布，旨在推动开发更安全的计算机使用智能体。

智能体安全/对齐论文/研究

推荐理由：计算机使用代理的隐私泄露问题被严重低估了。这篇论文用 AgentCIBench 实测 15 个前沿代理，发现平均泄漏率接近 70%，把这个隐患摆到了台面上，做 agent 产品的团队该把它加入上线前测试清单。

21:48

Apple Machine Learning Research（RSS）

基于指标依赖的标注饱和：从标签分布中学习

在ChaosNLI数据集（每项100个标注）上微调NLI模型，发现所需标注人数因评估指标而异：熵相关（识别分歧项）需约20-50个标注者收敛，KL散度（分布匹配）约10个标注者即饱和（达全量效果的87%-95%）。软标签的熵相关r=0.643（p<0.001），优于五种标签平滑强度下的r≈0.45-0.49，因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论：标注预算应依据目标评估指标制定。

数据/训练论文/研究

20:49

HuggingFace Daily Papers（社区热门论文）

Arbor：显式几何约束实现可控3D资产生成

Arbor是一个可训练的附件，为文本条件潜空间3D生成引入约束网格作为原生3D控制接口。约束分三类：包络区域（应有几何）、避让区域（保持空白）和接触区域（物体应接触）。Arbor将约束网格转换为模型token，在冻结去噪器内学习路由附件，使每个潜空间区域只接收相关约束信号。在自动和艺术家控制基准测试中，Arbor在固定约束下提升了约束遵循度，同时保持了对象质量和多样性。

多模态论文/研究

15:13

HuggingFace Daily Papers（社区热门论文）

精选75

HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准，将现有检索套件重建为小型数据集（Nano-sets），涵盖 35 个基准、551 个任务和 43 种语言，采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体（降维、量化等）在同一条件下对比。在 55 个模型上，整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR（完整版）的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测，而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face 检索增强论文/研究

推荐理由：有了这个轻量级基准，做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置，而且排名与完整评测高度一致，是工程选型的高性价比工具。

15:13

HuggingFace Daily Papers（社区热门论文）

MeshFlow：等变流匹配网格生成

MeshFlow提出直接生成三角网格的方法，将网格视为三角形汤，避免了序列化为长自回归序列。该方法采用等变最优传输流匹配模型，保持了三角形汤的关键对称性（面的任意排列及每个面内顶点的排列）。通过对Diffusion Transformer架构进行简单有效的修改，构建了可扩展网络来建模速度场，同时维持所需的等变性。引入基于最优传输的训练目标，消除了违反对称性的监督信号，改善了收敛性。MeshFlow的生成质量媲美最先进自回归网格生成器，推理速度提升约18倍。

多模态论文/研究

15:13

HuggingFace Daily Papers（社区热门论文）

Foresight：基于动作条件世界模型潜在表示的长时域机器人操作故障检测

Foresight 是一个利用动作条件世界模型潜在表示来监控操作轨迹的故障检测框架，仅使用最终任务级成功/失败标签训练。它通过预测性世界模型嵌入为不同策略提供统一的故障检测，并用功能共形预测（FCP）自适应校准阈值。在 LIBERO-Long、ManiSkill-Long、BEHAVIOR-1K 仿真环境及真实机器人（ReactorX-200 机械臂三项任务、Franka 机械臂一项任务）上验证，结果表明该嵌入为长时域操作中的可靠故障监控提供了可扩展表示。

具身智能论文/研究

14:45

Hacker News 热门（buzzing.cc 中文翻译）

VibeThinker-3B：探索小语言模型中可验证推理的前沿

VibeThinker-3B是一款仅3B参数的紧凑密集模型，采用Spectrum-to-Signal后训练范式，结合课程式监督微调、多领域强化学习与离线自蒸馏。在AIME26上达到94.3分，采用claim级测试时缩放可提升至97.1；LiveCodeBench v6 Pass@1为80.2；最新LeetCode竞赛接受率达96.1%，性能与DeepSeek V3.2、GLM-5、Gemini 3 Pro等大模型相当或超越。IFEval得分93.4，表明极端推理增强未损害指令可控性。该工作支撑了参数压缩-覆盖假说，认为可验证推理可压缩为紧凑推理核，而开放知识需广泛参数覆盖。

arXiv 推理论文/研究

14:13

HuggingFace Daily Papers（社区热门论文）

Tmax：终端智能体的简单配方

Tmax是当前最强的开源终端智能体RL训练配方。仅9B参数即在下游基准Terminal-Bench 2.0上达到27%准确率，超越此前更大模型。研究团队利用难度控制、角色和验证器多样化策略生成数据，并开源了比此前任何已发布终端智能体数据集大2.5倍以上的数据集。基于该数据，使用简单的结果驱动RL训练开放权重模型。代码、数据和模型均已开源。

智能体开源生态数据/训练论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

Self-Compact：让语言模型智能体自行决定何时压缩轨迹

长期agent轨迹会积累陈旧内容，最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构，可能丢失中间结果。SelfCompact提供压缩工具供模型调用，并配套轻量级规则指明触发时机（子任务完成或轨迹收敛）与抑制时机（中途推导或卡住），实现自适应压缩，无需微调或外部监督。在六个基准及七种模型上，SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果：数学相比无压缩基线最高提升18.1分，智能体搜索提升5–9分，每题成本降低30–70%。

智能体 arXiv 推理论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

PhoneBuddy：训练开放模型实现智能体手机使用

训练开放模型实现可靠手机操控面临真实设备慢、难重置，模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案：先共享监督微调，再对比真实RL与混合RL。在150项真实手机评估中，成功率从SFT的36.67%提升至混合RL的45.33%；在AndroidWorld上从60.3%升至83.2%。结果表明，模拟训练是真实RL的互补来源，优势在应用/小程序任务，跨应用工作流仍是开放挑战。

智能体 arXiv 数据/训练论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

CLI-Universe：面向终端智能体的可验证任务合成引擎

CLI-Universe是一个原则性合成引擎，通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究，生成候选终端智能体任务。候选任务经Docker实例化后，通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线，约三分之二的候选被丢弃，仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K，微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率，创下开源数据训练的32B及以下参数模型新SOTA，并超越多个参数规模大一个数量级的模型。

智能体开源/仓库数据/训练论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

Unlimited OCR：长序列OCR显存与速度问题的解决方案

针对长序列转录中KV缓存累积导致显存增加和速度下降的问题，研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线，用提出的Reference Sliding Window Attention（R-SWA）替换解码器所有注意力层，在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率，Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制，同样适用于ASR、翻译等任务。代码和模型权重已开源。

DeepSeek 多模态论文/研究

13:13

HuggingFace Daily Papers（社区热门论文）

锥形语言模型（TLM）

现代语言模型（Transformer、循环、记忆变体）默认在深度上均匀分配参数。固定预算下的实验表明，早期层分配更多容量、后期层更少容量可改善困惑度，反向分配则有害。基于此提出锥形语言模型（TLM）架构原则：对MLP宽度通过平滑余弦调度进行单调锥形缩减。在三种模型规模和四种架构（Transformer、Gated Attention、Hope-attention、Titans）上，TLM一致优于均匀宽度基线，提升困惑度和下游基准性能，且不增加参数或计算成本。

数据/训练论文/研究

12:13

HuggingFace Daily Papers（社区热门论文）

VESFlow：通过速度编辑实现安全少步生成

流匹配模型成为少步文本到图像生成的主流范式，但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法，直接利用流匹配模型学习的边际速度场，通过安全条件后验编辑速度场，将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤，绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+，同时向安全方向编辑并远离不安全方向。实验表明，在4步MeanFlow模型上，VESFlow+将目标概念攻击成功率降至6.3%（Ring-A-Bell）和6.8%（MMA-Diffusion），同时保持良性提示的生成保真度。

图像生成安全/对齐论文/研究

12:13

HuggingFace Daily Papers（社区热门论文）

EnterpriseClawBench：从真实工作会话构建的企业智能体基准

EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准，产出 852 个可复现任务，配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容，不公开基准数据。在 EnterpriseClawBench 上，最佳配置（Codex with GPT-5.5）仅达 0.663。结果表明企业智能体评估必须报告多种维度（如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为），而非单一分数。代码已公开。

智能体 GitHub 数据/训练论文/研究

12:13

HuggingFace Daily Papers（社区热门论文）

causal-learn+：智能体应辅助因果发现而非提供因果结论

当前将大语言模型（LLM）与因果发现结合的做法，常让模型推断边方向、提出图结构或注入先验与约束，但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色：检查数据、检索上下文、解释方法假设并澄清图输出，而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现，协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。

智能体 arXiv 论文/研究

12:13

HuggingFace Daily Papers（社区热门论文）

密集可验证奖励框架 DR-MV3D：全局地图与局部视图驱动的多视角 3D 推理

多视角 3D 视觉问答（MV3D-VQA）需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督，导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架，将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励（利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图）和局部轨迹奖励（监督有序视角选择），并通过轨迹级策略优化（GRPO）训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线，验证过程级密集监督的有效性。

具身智能多模态论文/研究

11:13

HuggingFace Daily Papers（社区热门论文）

KaLM-Reranker-V1：快速但非延迟交互的压缩文档重排序器

KaLM-Reranker-V1 是一种快速但非延迟交互（FBNL）重排序器，采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落，解码器建模系统指令、用户指令和查询意图，再通过交叉注意力捕获查询与段落间的相关性，实现解耦计算并保持高效。模型提供 Nano（0.27B）、Small（1B）和 Large（4B）三种激活参数尺寸。在 BEIR 上达到 SOTA，与 Qwen3-Reranker 系列持平；在 MIRACL 上未经大量多语言训练仍表现优异；在 LMEB 上，0.27B Nano 模型可与 7-12B 嵌入模型竞争。

arXiv 检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

SkillHone：基于持久决策历史的持续智能体技能演进工具

SkillHone 通过持久决策历史将技能修订与评估证据配对，记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能，并基于先前决策提出修订，实现跨会话改进。在深度研究基准上，SkillHone 无需预集成搜索栈，在 GAIA 上超越商业深度研究智能体 15.8 分，在 WebWalkerQA-EN 上超越 3.2 分，同时优于先前技能进化方法。内部工具中介分析场景中，平均准确率提升 18.8 分。

智能体论文/研究

推荐理由：SkillHone 把 agent 技能进化从一次性优化变成了持续记录的迭代过程，在 GAIA 上超越商业 agent 15.8 个点，做 agent 产品的团队该认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

基于检索增强搜索的LLM程序优化方法

提出检索增强搜索（RAS）方法，通过束搜索优化候选程序，每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法，将训练示例分解为原子编辑以提高可解释性。在C++程序优化上，RAS比先前最先进黑盒适应策略性能提升2.06倍，AEGIS提升1.37倍且编辑量更小。对于Python程序，RAS使平均运行时间百分位提升10.27。

arXiv 搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Tailor-Bench：修剪视觉世界建模评估的长尾

Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力，设计三种渐进难度场景：常规（常见工具-任务组合）、非常规（属性兼容替代品）、不可能（违反属性工具）。在统一协议下，预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化，暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化，视频模型还有时间不一致，说明模型依赖表面视觉模式而非内化物理原理。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AsyncOPD：异步在线策略蒸馏中的陈旧性问题研究

在线策略蒸馏异步训练中，轨迹生成与学习器更新解耦引入陈旧策略数据；KL方向决定影响：教师加权正向KL鲁棒，学生加权反向KL脆弱。异步RL稳定方法无效，反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡，多采样蒙特卡洛可降低方差。基于此，开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升，精度相当。

推理数据/训练论文/研究部署/工程