6月9日

08:00

HuggingFace Daily Papers（社区热门论文）

WebChallenger：不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem（从 DOM 确定性构建的带摘要语义层次页面结构）设计三种机制：分而治之的观测管线（让智能体扫读摘要、仅提取任务相关区域细节）、轻量级网站探索与记忆系统（遍历一次网站即可复用页面与元素行为地图）、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型，在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%，接近前沿闭源系统但成本极低。代码已开源。

智能体 GitHub 开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于累积FLOPs的计算感知对抗鲁棒性评估框架

提出基于累积FLOPs的计算感知评估框架，以计算压力替代固定查询预算，引入风险-计算曲线和两项总结指标。在三个系列、四个训练/对齐阶段的十个模型上，使用梯度、迭代优化和模板三种攻击策略在两个越狱鲁棒性基准上测试发现：对齐训练对计算空间鲁棒性呈非单调影响；模型规模扩大降低梯度攻击效果但对低成本模板攻击影响有限；梯度攻击可跨模型迁移；单个模型内不同危害类别间计算成本差异约5倍；安全对齐的RL增加整体攻击成本，但部分类别仍较易攻破。框架已开源。

安全/对齐开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-GMM：面向可扩展软聚类的内存高效内核

Flash-GMM 是一个基于 Triton 的融合内核，可在单次 GPU pass 中高效计算大规模高斯混合模型（GMM）。它无需在 GPU 内存中实例化完整责任矩阵，相比现有实现实现 20 倍加速，并支持在单设备上训练比之前大 100 倍以上的数据集。将 Flash-GMM 集成到 IVF 粗量化器中用于近似最近邻搜索（ANN）后，软 GMM 聚类可替代 k-means，利用 GMM 责任矩阵将边界向量分配到多个簇。该方法达到固定召回目标时所需距离计算减少 1.7 倍，或在同等计算成本下召回@10 提升 2–12。该内核已作为开源项目发布。

搜索数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

IDEAL：深度对齐使离散表示自编码器更优

基于预训练视觉基础模型（VFM）的表示自编码器（RAE）在图像生成中构建语义丰富的潜空间，但重建质量受限于深层特征丢失细节。IDEAL框架通过联合对齐量化token与浅层和深层VFM特征，使离散视觉token同时保留视觉保真度和丰富语义。在ImageNet上，IDEAL达到0.61 rFID，比之前最优方法提升0.28；用于自回归图像生成时取得1.89 gFID，创下新SOTA。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

N-GRPO：嵌入级语义邻居混合用于增强策略优化

针对token级采样易产生冗余轨迹、嵌入级随机噪声破坏语义一致性的问题，N-GRPO将语义邻居混合（Semantic Neighbor Mixing）机制集成到GRPO框架中。该方法通过混合锚点token及其最近语义邻居的嵌入构造输入表示，在注入多样性的同时保持局部语义流形。在DeepSeek-R1-Distill-Qwen系列不同规模模型上的实验表明，N-GRPO在数学推理基准上持续优于强基线，并在分布外任务上展现稳健泛化能力。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ComBench：面向奥林匹克级组合数学的推理与构造基准

ComBench是一个面向奥林匹克级组合数学的基准，包含100个人工标注的竞赛级别问题，分为分析型（侧重严谨数学论证）和构造型（需要明确构造及正确性证明）。评估结合评分指南的证明评分与确定性构造验证，揭示证明质量与构造有效性的差异。前沿模型在该基准上远未饱和：最强模型整体平均分65.4%，Best@4达75.3%。Kimi-K2.6在分析型证明评分上落后于GPT-5.5，但在构造型Best@4上反超；存在性和构造类问题对所有代表性模型始终最难。

arXiv 推理论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

DeNovoSWE：扩展长周期环境以从零生成完整仓库

DeNovoSWE 是一个大规模完整仓库生成数据集，包含4,818个高质量实例，每个实例要求从文档生成完整仓库。该数据集通过沙盒智能体工作流自动构建，无需人工标注，采用分治与批评修复策略以及难度感知轨迹过滤保证质量。微调 Qwen3-30B-A3B 后，在 BeyondSWE-Doc2Repo 基准上的得分从5.8%提升至47.2%。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

i1：面向强文生图模型的简单且完全开源配方

i1 是一个 3B 参数的文本到图像扩散模型，仅使用公开数据集训练。在 GenEval、DPG、PRISM、CVTG-2K 和 LongText 五个基准上，i1 性能与领先模型相当，平均比最佳现有完全开源模型高 29.5 个百分点。研究基于 300 余项控制实验（超 700K TPU v6e 小时），发现等权重混合 curated 数据集是强默认配置、更大文本编码器适配器以极少参数提升性能。i1 的检查点、训练与推理代码及数据处理流程已全部开源。

arXiv 图像生成多模态开源生态

推荐理由：i1 是第一个用全公开数据、完全开源代码/权重/数据管线打造的 3B 模型，直接把全开放模型的性能拉到可与闭源竞争，对做文生图研究的同行是个扎实起点。

08:00

HuggingFace Daily Papers（社区热门论文）

精选78

Embodied-R1.5：通过具身基础模型演化物理智能

Embodied-R1.5是一个统一具身基础模型，将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线，团队搭建超过150亿模型token的数据系统，并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA，超越Gemini-Robotics-ER-1.5与GPT-5.4，并可微调为VLA，在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。

arXiv 具身智能开源生态论文/研究

推荐理由：仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics，还把模型权重、训练代码全开源了，做具身智能的团队不跟进就是犯罪。

04:42

Rohan Paul@rohanpaul_ai

AdaCoM：独立小模型管理上下文，智能体长任务提升39%

论文提出 AdaCoM，一个独立的 LLM，在智能体每步操作前编辑其工作上下文。它可重写、合并、剪枝或保留任务历史，使主智能体保持冻结，无需重新训练或暴露权重。与简单摘要不同，AdaCoM 学习不同智能体需要不同类型上下文——强智能体保留更多原始历史，弱智能体需更短更清晰的笔记。在 web search 和 deep research 任务上测试，平均提升 39%。

智能体论文/研究

04:16

elvis@omarsar0

AI智能体重塑知识工作的三个维度

一篇新论文从自主性、效率和工人移交任务的范围三个维度，分析AI智能体如何重塑知识工作。研究指出，当前人们使用智能体的主要障碍并非模型质量，而是几乎没有人接受过如何以这种方式工作的培训。

智能体 arXiv 论文/研究

01:46

Anthropic：Research（发表成果 · 网页）

精选77

为生物学AI智能体铺路

一项实验让Claude、Biomni、Edison Analysis、GPT等科研智能体从病毒学数据库NCBI Virus中检索序列数据，即使最强模型也无法稳定达到可靠数据集构建所需的准确率。加入确定性检索层gget virus后，准确率接近100%。研究指出，当前生物学数据基础设施存在碎片化、格式特殊、接口不统一等问题，导致AI智能体难以像在软件领域那样高效工作。确定性检索工具是实现可靠智能体工作流的关键，生物学数据库需为智能体作为规模化用户而设计。

智能体 Anthropic 论文/研究

推荐理由：再强的模型在 NCBI Virus 上检索病毒序列都会翻车，Anthropic 加了个确定性检索层后准确率飙到近 100%。做 AI for science 的人该看看这个基础设施层的解法。

01:41

Rohan Paul@rohanpaul_ai

"CL-BENCH 基准测试：AI 智能体全上下文记忆优于复杂记忆系统"

新论文构建 CL-BENCH 基准，评估 AI 智能体在编程、数据库、预测、无线电信号、扑克、疾病研究 6 个领域中的持续学习能力。每个任务隐藏可随时间习得的模式，考察智能体能否超越预训练知识。测试前沿 LLM 系统采用全上下文记忆、草稿笔记、检索记忆、剧本式记忆及编码智能体设置，结果发现当前记忆密集型 AI 智能体并未可靠优于简单保留完整对话上下文。Claude Sonnet 4.6 使用普通上下文取得最佳总体分数。论文指出智能体仍需更好方法记住有用经验、遗忘过时信息并适应环境变化。

智能体 arXiv 论文/研究

01:09

MarkTechPost（RSS）

小米MiMo与TileRT推出MiMo-V2.5-Pro-UltraSpeed，万亿参数模型在8-GPU节点上解码超1000 tokens/s

小米MiMo团队与TileRT合作发布MiMo-V2.5-Pro-UltraSpeed服务模式，专为MiMo-V2.5-Pro模型设计。该方案在单个8-GPU消费级节点上，实现了1万亿参数模型超过1000 tokens/s的解码速度。

推理论文/研究部署/工程

00:57

Perplexity@perplexity_ai

精选76

我们与哈佛大学发表新研究，关于从聊天界面转向像Computer这样的自主智能体的转变。超过3个月的研究结果表明，使用Computer的工人在完成任务上比仅使用搜索快87%，成本低94%，且满意度更高。 https://research.perplexity.ai/articles/how-ai-agents-reshape-knowledge-work

智能体论文/研究

关联讨论 1 条

推荐理由：Perplexity 和哈佛的联合研究，用三个月数据把“AI 代理取代聊天界面”从口号变成了硬数字——87% 时间缩减和 94% 成本下降，做企业决策的人该仔细读一下。

00:00

MiniMax：Blog（网页）

同事件精选76

MaxProof框架：MiniMax M3在IMO 2025和USAMO 2026超越人类金牌线

MiniMax M3采用MaxProof框架，在IMO 2025和USAMO 2026两项数学奥赛基准上超越人类金牌线。框架分三阶段训练：Proof RL使用生成式验证器提供奖励，进行长程强化学习提升证明生成能力；Verifier Alignment将验证对齐为错误定位任务；Refinement Augmentation利用训练中产生的错误证明与验证分析对，通过拒绝采样微调修复能力。三者合并为M3通用模型。系统通过低假阳性率过滤噪声，保证RL稳定性。

推理论文/研究

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：M3在数学奥赛上搞定人类金牌，靠的是用生成验证器做RL和进化搜索，这套组合对复杂推理任务的普适性可能比提高一个benchmark分数更有价值。

6月8日

18:59

Hacker News 热门（buzzing.cc 中文翻译）

精选74

招聘中的算法单一化

一篇来自 algorithmichiring.github.io 的文章指出招聘行业正面临算法单一化风险——多数企业采用少数几种相同的算法模型评估候选人，可能导致系统性偏差和同质化。该文在 Hacker News 获得 102 个点赞。

安全/对齐论文/研究

推荐理由：这项研究用 340 万份真实申请第一次把算法招聘的种族歧视和系统拒绝摆在了台面上，结论是求职者投多家也可能被同一套算法全面筛掉，做招聘产品或关心就业公平的人都该认真读。

14:14

Tencent Hy@TencentHunyuan

精选69

腾讯混元联合多家机构发布首个音频编辑基准MMAE

腾讯混元联合上海交大、南洋理工等机构推出MMAE（Massive Multitask Audio Editing Benchmark），这是首个全面评估AI语音/音频编辑能力的基准。MMAE要求模型理解现有音频并按自然语言指令精确修改，而非简单生成。当前模型在该基准上的精确匹配率（EMR）低于5%，暴露了可靠音频编辑的短板。MMAE包含2000个真实场景高保真样本、17741条细粒度评估项，覆盖声音/音乐/语音及混合共7种模态、6种任务复杂度（基础修改到多跳推理及多轮编辑）、8种操作类型（局部到全局）。论文、代码、数据集和演示已公开。

多模态论文/研究语音

推荐理由：过去一年语音和音乐生成很热，但音频编辑还没人正经测过，腾讯这个基准把现状血淋淋地摆出来了，不到5%的准确率意味着整个方向都还在起步期。

12:38

Rohan Paul@rohanpaul_ai

斯坦福、MIT、哈佛与Anthropic联合论文：为什么更大模型能学到小模型学不会的罕见技能

该论文指出，更大模型能学到罕见技能，是因为训练中遗忘更少，其额外容量保护了弱学习信号。核心机制：常见任务先抢占神经元，罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号，但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型（4M–4B参数）验证：大模型在低频任务上表现更优，保留更多任务特征，且常见任务更新对罕见任务的梯度干扰更小。作者强调，问题不仅在于小模型能否表征任务，更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。

Anthropic arXiv 数据/训练论文/研究

11:38

Rohan Paul@rohanpaul_ai

AutoLab 基准揭示：AI 智能体成功关键在于持续测试而非初始方案

斯坦福、MIT、英伟达、谷歌等顶级实验室联合提出新基准 AutoLab，包含 36 个任务。每个任务中，智能体从可工作的弱代码起步，需在固定时间内迭代优化。任务涵盖系统加速、谜题、模型开发和 CUDA 内核。17 个前沿模型测试结果显示，成功的关键不是初版方案有多好，而是能否持续测试、频繁实验并利用实证反馈。Claude Opus 4.6 领跑基准，靠的是坚持迭代而非初始判断力，而其他前沿模型要么提前放弃，要么思考过久导致超时。

智能体论文/研究评测/基准

09:37

meng shao@shao__meng

AGENTS.md 在 Coding Agents 中真的有用吗？

论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite（300 任务）和新建 AGENTBENCH（138 任务）上测试 Claude Code、Codex、Qwen Code 等组合。核心发现：LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降，平均 -0.5%（SWE-bench）/-2%（AGENTBENCH），成本增加 +20%+；开发者手写仅平均 +4%。冗余假说：移除其他文档后，自动生成反而 +2.7%。建议避免自动生成，精简测试/lint 命令，优先写入仓库专用工具。

Sebastian Raschka: http://x.com/i/article/2063647807437705216

智能体 arXiv 编码论文/研究

09:19

IT之家（RSS）

AI算法助力打击海洋野生动物走私，识别准确率达92%

麦考瑞大学科研团队利用神经网络训练算法，改造机场现有X射线CT扫描设备，在三维影像中识别鱼翅、海马、海参等常见走私海洋生物样本。基于298组扫描样本训练与测试，算法整体识别准确率达92%，其中鱼翅95%、海马96%、海参86%，误报率为13%。该智能检测系统可自动标记可疑行李，但误报仍需人工复核，且CT设备成本高、非所有机场配备，目前仅作为现有检查手段的补充。

数据/训练论文/研究

08:59

Hacker News 热门（buzzing.cc 中文翻译）

如果大型语言模型具备人类般的特质，那么《帝国时代II》也是如此

一篇来自 arXiv 的文章通过类比指出，若将“人类特质”归因于大语言模型，那么《帝国时代 II》这类游戏也应被赋予相同属性，从而质疑 LLM 拟人化描述的合理性。该讨论在 Hacker News 上获得 101 点热度。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

iOSWorld：面向个人化智能手机智能体的基准

iOSWorld 是首个基于持久用户身份构建的原生 iOS 模拟器基准，包含 26 个新开发的互联应用及 133 个任务，分为单应用（27 个）、多应用（60 个，跨 2–8 个应用）和记忆与个性化（46 个，需从个人数据推断模式）三类。在纯视觉和特权视觉+XML 设置下评估前沿及开源模型，最佳准确率 52%（多应用仅 37%）；特权 XML 使前沿模型提升最多 26 个百分点，小模型未受益。基准已开源发布。

智能体端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TRIAGE：基于LLM辩证推理的不规则医疗时间序列可解释风险预测

针对电子健康记录中不规则采样的医疗时间序列（ISMTS），LLM在临床早期预警中常将分级风险压缩为过度自信的二分类预测，导致校准失效。TRIAGE框架通过训练LLM生成对抗性临床结局的辩证推理，产出连续风险评分并附带可验证的临床依据。在三个ISMTS基准上，TRIAGE平均AUPRC提升3.3%，校准误差降低81%；LLM-as-a-judge评估显示其推理质量较基线提升20%。源代码已开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

对机器文本检测器的攻击保留风格指纹

现有攻击（如提示工程、检测器引导优化）虽能降低标准检测器性能，但无法抹去机器文本底层的风格指纹；利用风格特征空间的少样本检测器可抵御这些攻击。然而，一种同时优化不可检测性与贴合特定人类风格的改写方法成功绕过了所有检测器（包括基于写作风格的检测器）。不过这种规避并非绝对：随着分析的文档数量增加，人类与机器文本的分布重新变得可区分。因此可靠检测需从单文档分析转向多文档分析。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

iMaC：将动作转化为运动与接触图像用于具身世界模型

iMaC提出将原始视觉图像作为具身世界模型的原生动作表征，替代传统低维动作向量。其双分支架构包括图像动作编码器和动态世界预测器：编码器将目标视觉图像压缩为紧凑动作嵌入，预测器基于图像动作学习环境转移规则，实现高保真未来状态预测和闭环控制。在公共基准和真实机器人场景中，iMaC在预测精度、任务成功率与跨场景泛化上超越基于向量的基线，且无需手动定义动作空间，可灵活控制异构智能体。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AlloSpatial：基础模型中的异中心空间推理智能体框架

多模态基础模型因无法将自我中心观察转化为全局异中心空间表征，导致物理世界空间推理脆弱。AlloSpatial引入World2Mind认知映射沙盒，将观察转换为异中心空间树（ASTs）和路线图，支持查询对象拓扑、几何关系等。通过Spatial Reasoning Harness进行工具使用判断和几何-语义仲裁，并利用冷启动强化学习内化至Qwen3-VL。在VSI-Bench和MindCube上，无需训练提升专有模型5%-18%；仅ASTs即使无视觉输入也支撑强推理；训练后智能体超越更大通用模型与竞争基线。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MBench：面向视频世界模型记忆能力的综合基准测试

现有视频世界模型基准主要关注视觉质量、运动连贯性和文本-视频对齐，忽略了作为世界模型核心能力的长期记忆。MBench将记忆能力系统分解为实体一致性、环境一致性和因果一致性三个层级维度，并细化为12个可量化子维度。基于精心挑选的真实长视频，结合规则量化矩阵和视觉语言模型进行客观评估。对多个主流视频世界模型的评测揭示了现有方法在长期状态保持方面的系统性局限，为领域提供了标准化基准和明确研究方向。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

利用形态学进行历史手稿计量分析

本文提出基于Transformer的检测架构与原型行重建模块，仅需行级转录监督即可学习字符原型及其变形、位置信息，显著超越Learnable Typewriter基线，实现准确字符边界框预测。在14世纪手稿codex Paris, BnF, fr. 2813的160页上验证，仅用单列文本即可自动测量字符、双字母组及图形单元间距，能区分不同抄写者的图形轮廓，并发现分析细微变化。数据与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SG-OPD：通过符号一致门控和分阶段教师采样的符号门控在线策略蒸馏

在线策略蒸馏（OPD）依赖学生-教师轨迹对齐及教师偏好逐token可靠性的隐含假设，但实际常失效。为此，SG-OPD提出符号一致门控和分阶段教师采样两种互补粒度的信任信号：冷启动阶段混入验证器认可的教师轨迹，并在教师与验证器纠正方向一致时外推蒸馏更新、不一致时内插。在竞赛级数学推理基准上，SG-OPD相比标准OPD每样本平均提升1.98分，每问题平均提升7.50分。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Visual Para-Thinker++：一种用于视觉推理的单策略多智能体框架

Visual Para-Thinker++ 是一种单策略多智能体框架，将共享 MLLM 策略实例化为角色条件化的 Main、Worker 和 Summary Agent。Main Agent 按固定模式分解任务，Worker Agent 在上下文隔离下并行推理，Summary Agent 整合全部 Worker 推理轨迹而非对最终标签进行多数投票。共享策略通过多智能体能力注入和角色解耦多智能体优化训练，为对应 token 片段分配角色特定奖励和优势以减少梯度冲突。推理引擎通过共享视觉前缀和 KV cache 重用实现高效多智能体 rollout。在 V*、CountBench、RefCOCO 系列和 HallusionBench 上，该框架一致优于单轨迹和推理时并行基线，在幻觉敏感任务上增益尤为显著。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WeaveBench：面向计算机使用智能体的长时域混合界面基准

WeaveBench 包含 114 个任务，覆盖 8 个真实工作领域，要求智能体在单次轨迹中结合 GUI 操作、CLI 与代码执行。评估在真实 Ubuntu 桌面进行，并设计了轨迹感知评判器以检测伪造视觉证据等捷径。前沿模型-运行时组合的最佳 PassRate 仅为 41.2%，表明基准远未饱和；仅依据结果评分会显著高估智能体性能。该基准揭示了当前计算机使用智能体评估的关键缺口。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

τ-Rec：面向智能体型推荐系统的可验证基准

τ-Rec 是一个面向智能体型推荐系统的评估基准，用可验证奖励和 reveal-tagged elicitation（RTE）机制替代主观的 LLM-as-a-judge 评估。该基准通过结构化目录谓词测试智能体，并采用 pass^k 可靠性指标衡量一致性推理。对五个模型族（GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Flash、DeepSeek V4 Flash、Qwen3-32B 和 GPT-5 mini）的九种配置评估发现显著的可靠性悬崖：最佳模型在 pass^1 上仅约 57%，在 pass^4 上降至约 38%，暴露出当前对话智能体部署中的关键差距。全部代码和数据已公开。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

FlowLet：基于小波流匹配的条件3D脑MRI合成

FlowLet是一种条件生成框架，在可逆3D小波域中利用流匹配合成年龄条件的3D脑MRI，避免潜在压缩伪影并降低计算开销。实验表明，仅需少量采样步即可生成高保真体积；用其数据训练脑年龄预测模型可改善欠代表性年龄组的表现，区域分析证实解剖结构得以保留。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Z-Reward：通过推理内化分数分布超越标量奖励

Z-Reward 是一种教师-学生奖励建模框架，用于文生图后训练。教师为 27B VLM，采用 Group-wise Direct Score Optimization (GDSO) 结合策略梯度奖励与分数分布监督；学生通过 Reasoning-Internalized Score Distillation (RISD) 将教师推理条件分布压缩进 9B VLM，推理时无需显式推理链。在内部评测集上，27B 教师达 89.6% 人类偏好准确率，超越 SFT、RewardDance 和 GRPO；9B 学生达 88.6%，超越 O

图像生成推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TRL-Bench：标准化跨范式表格编码器表示级评估基准

TRL-Bench 是一个多粒度表格表示学习基准，通过统一协议评估行级、列级和表级嵌入。包含三个测试套件：TRL-CTbench（列/表）、TRL-Rbench（行）和 TRL-DLTE（组合式数据湖表增强）。发布的数据资产包括 50 个 OpenML 表（123 个验证目标）、16 个行对链接改写任务及 47,772 表 DLTE 湖。在 20 个模型和 16 个任务上的评估表明，标准化下游条件后，编码器质量呈能力特定性，通用文本编码器在表面文本信号强的任务上领先，表格专用模型在其预训练目标与任务对齐时胜出，最强 DLTE 管线需组合能力匹配的专用模型。

arXiv 数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

DPVR-LF：晚期融合即可--双路径视觉Token路由应对多模态大模型视觉饱和

通过逐层分析LLaVA-1.5发现，视觉token在中间层饱和：文本-图像注意力从层0的0.68降至层4的0.07，层18后稳定在0.04附近，而文本token持续受益于深层处理。为此提出双路径视觉Token路由框架DPVR-LF，在饱和点将视觉token路由至单层侧分支，文本token独立经过13层深层，仅在最后层融合。仅增加约3%可训练参数，即可在标准基准上保持竞争力并大幅减少视觉计算。结果表明，视觉token无需遍历所有深层语言模型层，单个晚期融合层足以维持感知能力。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考LLM强化学习中的散度正则化

针对LLM强化学习离线策略训练中信任区域控制问题，现有PPO/GRPO的比率裁剪难以准确表示长尾词汇分布偏移，DPPO虽改用散度边界但依赖硬掩码，丢弃边界外的梯度。本文提出DRPO，采用平滑的advantage加权二次正则化替代硬掩码，保留DPPO的信任区域几何结构，产生有界连续梯度权重，衰减有害发散更新并在边界外提供修正信号。实验表明DRPO提升了LLM RL训练的稳定性和效率。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SearchSwarm：面向长周期深度研究的代理大语言模型委托智能

研究团队提出SearchSwarm，通过设计引导框架将长周期任务分解与委托决策编码为高质量轨迹，并用作监督微调数据，将委托智能内化到模型权重中。由此训练的SearchSwarm-30B-A3B模型在BrowseComp上达到68.1分，在BrowseComp-ZH上达到73.3分，均为同规模最佳。团队将开源引导框架、模型权重和训练数据。

智能体开源/仓库论文/研究