5月21日

08:00

HuggingFace Daily Papers（社区热门论文）

针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题，现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架，适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险，实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题，引入了基于扩散模型的场景生成框架，可生成真实且具对抗性的场景。最终，该框架集成了统一风险图的建模与学习，以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明，该方法显著超越现有基线，提升了碰撞时间指标。

具身智能安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体CLEAR：LLM智能体多层级评估自动化

现有LLM智能体评估工具局限于基本观测能力或静态错误分类。Agentic CLEAR是一个自动、动态、易用的评估框架，它在系统、轨迹和节点三个粒度层级上，对智能体行为生成文本洞察。该框架运行于可观测性层之上，具备直观UI便于集成。在四个基准、七种智能体设置和数万次LLM调用上的实验表明，Agentic CLEAR能产生高质量、数据驱动的反馈，其分析与人类标注错误高度吻合，并能预测任务成功率。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

理解数据时间性对大语言模型预训练的影响

研究比较了按时间顺序排列数据与传统打乱数据两种预训练方式，针对一个在6B参数模型上训练的实验。研究引入了包含超过7000个时间锚定问题的新基准。结果发现，时间有序预训练的模型在通用语言能力上与打乱预训练基线持平，但其知识更及时、时间定位更准确；打乱预训练则在旧数据上表现达到峰值。代码、模型检查点和数据集已开源。

arXiv GitHub 开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MotiMotion：基于视觉推理的运动控制视频生成

该研究指出当前运动控制视频生成模型存在轨迹僵硬、因果不完整的问题。为此，MotiMotion框架将运动控制重新定义为“先推理再生成”的任务。其核心是利用一个无需训练的视觉语言推理器来完善主轨迹坐标，并“幻想”出合理的次要运动。同时，框架引入置信度感知控制方案，根据计划的可信度调整引导强度。为系统评估，研究还构建了新的运动交互基准MotiBench。评估表明，MotiMotion能生成物体行为和交互更合理可信的视频，效果优于现有方法。

图像生成推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

表征优于路由：克服多时间尺度PPO中的替代目标劫持

在强化学习中，多时间尺度PPO虽旨在平衡短期与长期规划，但在复杂延迟奖励任务中盲目融合多时间信号会导致严重的算法问题。研究发现，将时间注意力路由机制暴露于策略梯度会导致替代目标劫持，而无梯度不确定性加权则会引发不可逆的短视退化。为此，研究提出Target Decoupling架构：Critic侧保留多时间尺度预测以辅助表征学习，Actor侧则严格隔离短期信号并仅基于长期优势更新策略。在LunarLander-v2环境中的实验证明，该架构无需超参数调整即可稳定超越解决阈值，消除策略崩溃并跳出局部最优。实验代码已开源：https://github.com/ben-dlwlrma/Representation-Over-Routing。

arXiv 开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ThriftAttention：用于长上下文FP4注意力的选择性混合精度

针对长上下文场景下FP4量化推理的质量下降问题，ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对，对其使用FP16精度计算，其余块使用FP4计算。最后，两路计算结果通过在线softmax合并。实验表明，仅对5%的块使用FP16计算，该方法就能平均恢复FP4与FP16间89.1%的性能差距，且优势随序列长度增加而更加显著。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

面向自回归MRI重建的"下一加速尺度预测"

针对高加速欠采样下MRI重建因模糊性导致高频细节丢失的问题，该研究将重建过程移至离散多尺度潜空间，并构建为自回归的“下一加速尺度预测”任务。方法利用视觉自回归建模中有效的离散先验，将解空间约束在紧凑的码本token序列中，从而即使从极度稀疏的测量中也能实现清晰重建。该框架自然适配大语言模型的后训练技术，并引入了在线策略蒸馏，利用教师模型在推理时不可用的特权上下文（完全采样数据）监督学生模型。在fastMRI基准测试的多种极端欠采样模式下，该方法均展现出改进的重建效果。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

虚假的推理：通过零思维链截断揭露大语言模型中的规避型数据污染

大语言模型在多项任务中展现强大推理能力，但数据污染问题，特别是发布者采用改写基准数据等规避策略，严重削弱了其评估的客观性。研究发现，模型生成的推理步骤会主动掩盖其底层的记忆化现象。为此，研究者提出 Zero-CoT Probe 检测方法，通过截断整个 CoT 过程来暴露潜在的捷径映射。该方法将模型在原始基准与同构扰动参考集上的零思维链表现进行对比，并引入“污染置信度”指标。在已知污染模型与专门微调的污染模型上的实验表明，该方法能有效检测直接与规避型数据污染。代码已开源：https://github.com/Yifan-Lan/zero-cot-probe。

数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

感知的代价：在整体框架内实现可信的多模态推理

当前视觉语言模型常出现“功能性失明”，即利用强大的语言先验绕过视觉表征瓶颈，而非真正融合多模态信息。本研究挑战了依赖数据消融的传统评估方法，提出了信息论框架下的“模态翻译协议”来量化“感知的代价”。该方法定义了三个新指标（Toll, Curse, Fallacy）与语义充分性准则。研究还假设存在多模态缩放的“分歧定律”：随着语言模型推理能力增强，视觉知识瓶颈带来的性能惩罚可能不降反升。这为构建更可信的多模态推理系统提供了新的评估工具与设计思路。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VGenST-Bench：一个基于主动视频合成的时空推理基准

VGenST-Bench 是一个用于评估多模态大语言模型时空推理能力的新基准，采用生成模型主动合成高度可控的多样化评估场景，克服了现有基准依赖静态图像或被动视频数据的局限。该基准通过包含人类质检阶段的多智能体流水线构建，建立了涵盖空间尺度、视角和场景动态性的 3x2x2 视频分类体系。其设计的层级任务套件，解耦了低级视觉感知与高级时空推理，实现了对模型能力的细粒度诊断。

多模态视频论文/研究评测/基准

06:44

智谱：研究（网页内嵌数据）

精选69

ZCube：超大规模大模型推理的网络优化

针对超大规模大模型推理，ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计，有效解决了推理网络的拥塞问题。该架构在集群实测中，实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%，同时将首token延迟的P99值大幅降低40.6%，在降低成本的同时显著提升了推理性能。

推理论文/研究部署/工程

关联讨论 1 条

推荐理由：千卡以上推理集群的团队该看一眼，智谱这个网络设计砍掉三分之一交换机成本，吞吐还涨15%，尾时延降四成，有实测数据不是白皮书。

06:08

HuggingFace Daily Papers（社区热门论文）

基础模型在AI检测器下更"像人"

本研究发现了一个有趣现象：当使用GPTZero等商业AI文本检测器时，基础模型生成的文本常被判定为人类文本，而指令调优模型生成的文本则不然。基于此，研究团队提出了“通过迭代释义实现人性化”的方法。该方法通过微调基础模型并迭代应用，以在语义保持和规避检测之间取得平衡。实验表明，该方法在不同规模的Llama-3和Qwen-3模型上均能有效提升文本在检测器眼中的人类相似度。研究指出，现有检测器可能更多地关注了指令调优产生的特征，而非机器生成文本的本质，这为未来的检测器设计提供了新的方向。

论文/研究

06:08

HuggingFace Daily Papers（社区热门论文）

并非每个评分准则都同等有效：用于RLVR的策略感知评分准则奖励

针对基于评分准则的强化学习（RLVR）奖励机制中静态权重的局限性，本研究提出POW3R框架。该框架在训练过程中动态调整各准则的奖励权重，以强调那些能有效区分当前策略输出的准则，同时保留整体人类权重分布。实验在三个基础策略和两个数据集上进行，结果显示POW3R在30项比较中赢得24项，提高了平均评分准则奖励和严格完成率，并将达到相同性能所需的训练步数减少2.5至4倍。POW3R通过策略感知的权重优化，使奖励信号更具信息性，提升了RLVR的训练效率。

数据/训练论文/研究

04:28

TechCrunch：AI（RSS）

同事件精选79

OpenAI 声称其解决了一道存在了80年的数学问题--这次来真的

OpenAI 宣布其推理模型成功证伪了一道自1946年起悬而未决的几何猜想。与以往不同，此次声称获得了此前曾指出OpenAI相关声明存在错误的数学家们的认可与支持，这为其结论的可靠性提供了关键背书。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：从上次的虚报到这次拿出数学家背书，OpenAI 真的让 AI 自主推翻了一个 80 年猜想，这不仅是数学突破，更证明推理模型能处理超长链条的复杂问题。

04:03

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选93

OpenAI的一个模型推翻了离散几何学中的一项核心猜想

OpenAI宣布其开发的人工智能模型成功证伪了离散几何学领域的一个核心猜想。该模型通过自动化推理与证明过程，推翻了这一长期存在的数学假设，标志着AI在抽象数学研究与定理证明方面取得了实质性突破。这项成果不仅展示了大型语言模型在科学发现中的潜力，也为利用AI解决复杂科学问题提供了新的范例。

OpenAI 推理论文/研究

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：一个通用推理模型自主攻破了 80 年未解的厄尔多斯单位距离猜想，证明被顶级数学家背书。这不再是辅助证明，而是独立的数学发现，对 AI 推理能力的证明比任何基准都直接。

03:25

HuggingFace Daily Papers（社区热门论文）

他们能走多远？用大语言模型红队测试在线影响力

该研究聚焦于本地部署的开源大语言模型，提出了一套红队测试框架，用于测量模型在争议性话题上可可靠表达的“政治表达范围”（Overton Windows），并量化简单自然语言越狱技术如何扩大此范围。研究评估了超过30个大语言模型，发现系统性政治表达不对称：开源模型通常更倾向生成左倾社交媒体内容；政治表达范围随模型规模增大而收缩；尽管生态参与不均，地域差异仍然显著。此外，越狱技术的有效性在不同模型家族间差异明显。

安全/对齐论文/研究

03:07

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选88

OpenAI模型证伪了离散几何中的一个核心猜想

OpenAI开发的人工智能模型成功解决了数学界悬而未决逾80年的“单元距离问题”，并由此推翻了离散几何领域的一个核心猜想。这一突破被视作人工智能驱动数学研究的里程碑事件，标志着AI在基础科学理论探索中取得了实质性进展。该模型通过创新算法处理复杂的几何问题，展示了机器在自动化发现与验证数学猜想方面的巨大潜力。

OpenAI 推理论文/研究

关联讨论 12 条

推荐理由：数学界等了80年的猜想被AI自己证伪了，而且用的是代数数论这种“跨界”手法，这个里程碑说明AI的创造性推理已经进入前沿研究。虽然实战还用不上，但作为能力信号，值得每个关心AI前沿的人看。

02:08

HuggingFace Daily Papers（社区热门论文）

面向网格上三角剖分无关流匹配的马顿噪声

该研究解决了在三角网格上生成信号时需适应不同网格与三角剖分的问题。理论上，本文提出了一种数学上定义的、与三角剖分无关的噪声分布——Matérn高斯随机场的离散化，作为流匹配框架中的噪声模型。方法上，采用梯度域学习的PoissonNet作为去噪器。实验任务包括生成弹性静止状态与类人姿态。结果表明，该方法能处理超过百万三角形的高精度网格，其生成结果在真实感与多样性上显著超越现有技术。

arXiv 论文/研究

00:08

HuggingFace Daily Papers（社区热门论文）

基于时空注意力链的快速4D网格生成

该研究提出一种无需训练的4D网格生成新方法，通过“时空注意力链”框架实现动态三维结构的快速重建。方法从锚定网格顶点出发，在潜在空间中追踪时间对应关系，避免了显式匹配的高计算成本。实验显示，新方法仅需9秒即可生成4D网格，速度比现有最优方法提升13倍且质量更优，还能处理长达16倍的视频序列而不降低质量。改进的对应关系使其在2D物体跟踪和4D跟踪任务中达到有竞争力的零样本性能，并首次在4D网格生成中实现了可靠的相机参数估计。

多模态视频论文/研究

5月20日

22:08

HuggingFace Daily Papers（社区热门论文）

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXiv Hugging Face 多模态推理

21:08

HuggingFace Daily Papers（社区热门论文）

精选74

优化_anything：通用文本参数优化API

该研究提出了一种基于大语言模型的通用文本优化系统，将优化问题统一表述为通过评分函数改进文本产物。在六项任务中达到最优结果：智能体架构使Gemini Flash在ARC-AGI上的准确率从32.5%提升至89.5%；调度算法降低40%云成本；87%的CUDA内核匹配或超越PyTorch表现；圆包装问题超越AlphaEvolve。实验表明，可操作的附加信息比仅使用分数反馈收敛更快、得分更高；多任务搜索通过跨任务迁移学习，在同等预算下优于独立优化，且任务数量越多收益越大。该工作首次证明基于LLM的文本优化是通用问题解决范式，能统一传统领域特定算法。系统已开源，支持多种后端。

智能体 arXiv GitHub 搜索

推荐理由：让一个LLM同时优化agent架构、调度算法和CUDA内核，还能将ARC-AGI从32%拉到89%，这可能是今年最突破认知的通用问题求解范式，做agent的人必须看。

18:07

HuggingFace Daily Papers（社区热门论文）

TideGS：通过核外优化实现超过十亿3D高斯溅射原语的可扩展训练

该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题，提出了核外训练方案。它利用训练过程固有的稀疏性，将GPU内存作为工作集缓存，并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明，TideGS仅需单张24GB显卡即可训练超过十亿高斯，并在大规模场景中达到了所评测单GPU基线中的最优质量，相比此前方法实现了数量级的规模突破。

数据/训练论文/研究部署/工程

17:07

HuggingFace Daily Papers（社区热门论文）

PixVerve：推进原生超高清图像生成至100MP

本文介绍了PixVerve-95K，一个高质量、开源的超高清（UHR）文生图数据集，包含95K张图像（每张至少100M像素）及七维注释。基于此，研究团队探索了三种训练方案，成功将现有文生图基础模型扩展至原生100MP图像生成。同时，提出了PixVerve-Bench评估基准，全面评估UHR图像的视觉质量与语义对齐。实验与探索为该领域的未来突破提供了关键见解与实用策略。

arXiv 图像生成数据/训练论文/研究

17:07

HuggingFace Daily Papers（社区热门论文）

作者身份信号在编码器语言模型中的涌现位置

该研究发现，使用相同预训练编码器、数据和损失函数微调的作者归属模型，仅因评分机制不同，性能差异可达四倍。研究利用机械可解释性工具揭示了这一差距的来源：词长、标点密度、功能词频率等风格特征在所有模型的每一层中均等可得，因此差距并非源于表征质量差异。因果介入实验表明，评分器决定了编码器在哪个层次整合作者身份信号——均值池化迫使信号在早期至中期层整合，而晚期交互则将其推迟到更晚的层。这一差异源于各评分器的梯度结构不同。

arXiv 论文/研究

15:07

HuggingFace Daily Papers（社区热门论文）

精选72

CopT：基于连续空间对比验证的在策略推理

CopT提出了一种反转传统链式思考（CoT）顺序的推理框架：先生成草稿答案，再进行策略内反思。其核心是将连续嵌入向量转化为推理时的对比验证器，通过比较模型在离散令牌与连续嵌入输入下对同一生成令牌的支持度，构建序列级反向KL估计器，以此评估答案的可靠性。当答案不可靠时，CopT会执行进一步思考，并利用第二个KL估计器动态控制草稿答案的可见性，在保留有用信息与规避误导间取得平衡。在无需额外训练的前提下，该方法在数学、编程等任务上显著提升了准确率（最高达23%）并大幅减少了令牌消耗（高达57%）。

智能体 GitHub 推理论文/研究

推荐理由：CopT把推理流程反了过来，先草稿答案再自我反思，用连续嵌入对比验证可靠性，在数学/编码/Agent任务上提点23%省token57%，思路可能改写推理范式。

13:05

HuggingFace Daily Papers（社区热门论文）

PEEK：面向长上下文LLM智能体的上下文映射缓存

针对现有方法在处理重复长外部上下文时未能有效保存和重用定向知识的问题，本文提出PEEK系统。该系统将关于上下文内容、组织方式及历史有用实体的知识缓存为一个小型固定大小的上下文映射，并置于智能体提示中，以持续辅助处理外部上下文。PEEK通过蒸馏、制图和驱逐模块的可编程缓存策略维护映射。实验表明，在长上下文推理和信息聚合任务上，PEEK相比强基线提升6.3-34.0%，迭代次数减少93-145次，成本比ACE低1.7-5.8倍；在上下文学习任务中，解决率和标准准确率分别提升6.0-14.0%和7.8-12.1%，成本降低1.4倍。这些成果在多种模型和智能体架构（包括OpenAI Codex）上均有效，证明了上下文映射能帮助智能体更准确高效地处理重复外部上下文。

智能体推理数据/训练论文/研究

12:05

HuggingFace Daily Papers（社区热门论文）

精选72

GoLongRL：面向能力的长期上下文强化学习与多任务对齐

GoLongRL是一个全开源的长期上下文强化学习方案，聚焦于使用可验证奖励的强化学习。该工作提出了面向能力的数据构建方法，公开发布了包含23K样本的数据集、完整构建管线及训练代码。数据集依据长期上下文能力分类，涵盖9种任务类型，由真实文档生成的问答对构成；实验证明该数据集性能优于闭源的QwenLong-L1.5数据集。训练得到的Qwen3-30B-A3B模型在长期上下文任务上达到了与DeepSeek-R1-0528等先进模型可比的性能。此外，提出了TMN-Reweight多任务优化方法，通过任务级归一化和难度自适应加权，在提升平均性能的同时保持或增强了通用能力。

开源生态推理数据/训练论文/研究

推荐理由：开源长上下文RL的配方直接放出来了，数据集+代码全都有。更狠的是单靠数据多样性就干掉了闭源竞品，甚至摸到了DeepSeek-R1的水平，做长上下文的值得复现。

11:05

HuggingFace Daily Papers（社区热门论文）

精简草稿，多做检索：投机解码的混合树构造

现有投机解码方法为提高接受率而构建庞大草稿树，导致显存带宽和计算开销激增，反而制约了加速效果。动态剪枝虽能降低延迟，但会损失有效候选，无法达到理想接受率。为此，研究提出了Graft补偿框架，通过“剪枝-再嫁接”的机制，利用剪枝释放的计算预算驱动检索操作，用检索到的高预测性令牌补偿剪枝造成的覆盖损失，从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能，在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明，它在短上下文任务中最高可实现5.41倍加速，并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。

推理论文/研究部署/工程

11:05

HuggingFace Daily Papers（社区热门论文）

AutoResearchClaw：具备自我强化与人机协作的自主研究系统

AutoResearchClaw是一种旨在突破现有系统线性流程局限的多智能体自主研究系统。其核心在于五大机制：结构化多智能体辩论用于假设生成与分析；具备自修复能力的执行器可将失败转化为信息；可验证的结果报告防止数据伪造与引用幻觉；提供从全自动到逐步监督的七种人机协作模式；以及能将过往经验转化为未来保障的跨运行进化能力。实验表明，该系统性能显著优于基线模型，且精准、定向的人机协作模式始终优于完全自主或穷举式监督。它被定位为一种增强而非取代人类科研判断力的研究放大器。

智能体 arXiv 开源/仓库论文/研究

11:05

HuggingFace Daily Papers（社区热门论文）

OpenComputer：为计算机使用智能体构建可验证软件世界

OpenComputer是一个验证器基础框架，旨在为计算机使用智能体构建可验证的软件世界。它集成了四个核心组件：针对特定应用的状态验证器、利用执行反馈进行自我优化的验证层、用于生成真实桌面任务的任务生成器，以及可记录轨迹并计算部分奖励的评估工具。目前，该框架已覆盖33款桌面应用，生成了包含浏览器、办公、创意等六类软件的1000个可机检任务。实验表明，其硬编码验证器比大语言模型评估更贴近人类判断。同时，研究揭示当前前沿智能体在端到端任务完成上仍面临瓶颈，表明稳健的计算机自动化仍存在挑战。

智能体 arXiv 论文/研究评测/基准

11:05

HuggingFace Daily Papers（社区热门论文）

SceneCode：面向可编辑带关节物体室内场景的可执行世界程序

现有室内场景合成方法常生成静态网格，难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括：通过规划-设计-批评循环生成对象资产请求，经五种代码生成策略转化为分部件的Blender Python程序，并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产，并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明，SceneCode提升了场景生成与提示词的一致性，产生了网格结构更清晰、包含可加载关节元数据的资产。

具身智能多模态论文/研究

11:05

HuggingFace Daily Papers（社区热门论文）

MSAVBench：迈向全面可靠的多镜头音视频生成评估

本文提出MSAVBench，首个面向多镜头音视频生成的综合评估基准及自适应混合评估框架。该基准覆盖视频、音频、镜头和参考四个维度，支持最多15个镜头的多样化任务设置。评估框架通过镜头分割自适应校正、主观指标实例化评分等机制提升鲁棒性，并与人类判断达到91.5%的高相关性。对19个先进模型的系统评估表明，当前模型在导演级控制和精细音视频同步上仍存在瓶颈，而模块化或智能体生成流程为缩小开源与闭源模型差距提供了可行路径。

多模态视频论文/研究评测/基准

11:05

HuggingFace Daily Papers（社区热门论文）

CogOmniControl：基于创意意图认知的推理驱动可控视频生成

针对现有视频生成模型在抽象或复杂控制下表现不佳的问题，CogOmniControl框架将任务解耦为创意意图认知与内容生成。该研究通过动画数据训练专用CogVLM，提升对模糊用户意图的专业理解与推理能力。同时，利用CogOmniDiT模块统一多种条件控制，并通过强化学习将其输出与CogVLM推理对齐。系统还基于专业工作流数据构建了CogReasonBench和CogControlBench基准。实验证明，CogOmniControl性能超越现有开源模型。

推理视频论文/研究

10:05

HuggingFace Daily Papers（社区热门论文）

CEPO：基于对比证据的策略优化方法

针对强化学习（RLVR）中对所有生成token给予相同奖励导致的信用分配问题，本文提出对比证据策略优化（CEPO）。该方法通过对比正确与错误答案对每个token的偏好，精准区分关键推理步骤与普通填充token，从而获得更细粒度的奖励信号。CEPO利用训练批次中已有的拒绝样本构建错误答案教师模型，不产生额外采样成本。实验表明，在2B和4B参数规模下，CEPO在多个数学推理基准上分别取得43.43%和60.56%的平均准确率，优于GRPO等基线方法。

开源/仓库推理论文/研究

09:55

IT之家（RSS）

微信AI团队模式识别中心论文首获ICASSP最佳工业论文奖

2026年5月，微信AI团队模式识别中心的论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》在西班牙巴塞罗那举办的ICASSP 2026上荣获最佳工业论文奖。这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出的WalkVLM-LR模型专为视障人士行走辅助设计，其核心创新在于减少输出与时间冗余，优化了视觉语言模型的提醒时机。目前模型延迟控制在百毫秒量级，实时性较为可用，但距离实际落地应用仍需进一步优化。

多模态端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ACL-Verbatim：面向研究的无幻觉问答

针对学术研究中大语言模型（LLM）存在幻觉的问题，研究者将抽取式问答系统VerbatimRAG应用于ACL Anthology论文集，实现用户查询到文档原文片段的直接映射。团队构建了一个新基准数据集，由NLP研究人员基于ScIRGen方法生成的合成用户查询进行人工标注，用于训练和评估多种抽取式模型。其中，一个参数规模为150M的ModernBERT分类器，在基于ScIRGen方法生成的查询和论文片段上进行训练后，在词级F1分数上达到53.6，超越了被评估的最强LLM抽取器（48.7）。

检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Flat-Pack Bench：通过家具组装任务评估大型视觉语言模型的时空理解

现有大型视觉语言模型基准测试主要关注粗粒度任务，且依赖易于语言描述的实体。为此，研究者提出了Flat-Pack Bench，这是一个专注于家具组装任务的新基准，旨在评估模型的细粒度时空理解能力。该基准采用选择题与视觉提示的形式，考察模型在组装动作排序、状态定位、部件匹配理解与追踪等方面的表现。实验表明，最先进的模型在此类细粒度推理任务上表现欠佳，暴露出其在利用视频时序信息、进行目标追踪以及理解物理空间交互方面的不足。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于大语言模型函数调用的反思式提示词微调

提示词设计仍需大量人力且对格式高度敏感。现有自动化方法受限于候选搜索或固定流程，难以系统性地捕捉错误模式。文章提出反思式提示词微调（RPT）框架，通过LLM函数调用模拟人类工程师工作流：LLM优化器调用诊断函数评估目标模型，总结重复性失败模式并返回结构化报告；优化器依据该报告及历史记忆修订提示词进行下一轮迭代。框架支持置信度感知优化。实验显示，在三个推理任务上RPT最高提升12.9分，与当前最佳方法持平，并改善了置信度校准。分析表明其对多跳与数学推理任务尤为有效，能生成针对性修订。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ZeroUnlearn：大语言模型中的少样本知识遗忘

ZeroUnlearn 提出一种将机器遗忘重新定义为通过模型编辑进行精确知识重映射的方法。该框架以少样本方式运行，通过乘法参数更新与闭合解强制表示正交性，将敏感输入覆盖并映射到中立目标状态，从而高效定向地移除其原始表示。此方法还扩展为基于梯度的多样本遗忘变体。实验表明，ZeroUnlearn 在保持模型通用效用的同时，性能优于现有基线。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

用生成式AI拓宽交通安全数据的可及性：一种面向空间自然语言查询的基于数据模式的框架

交通安分析依赖整合事故记录、道路属性等地理空间数据，但许多机构和社区利益相关者因技术门槛难以使用。该论文提出了一个基于数据模式的自然语言接口，利用大语言模型（LLM）解释用户查询意图，同时通过结构化语义帧、规则验证层等设计，将查询转化为确定性的空间操作图并在PostGIS数据库上执行，确保了结果的可重复性与可审查性。该框架在马萨诸塞州全州数据库上进行评估，所有查询均成功执行，且验证层修正了29%的查询错误。

搜索论文/研究部署/工程