全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「arXiv」清除

6月4日周四

10:42HuggingFace Daily Papers（社区热门论文）79精选Echo-Infinity：学习演化记忆实现实时无限视频生成

09:42HuggingFace Daily Papers（社区热门论文）72精选Meta-Agent Challenge：自主智能体开发能力评估框架

09:42HuggingFace Daily Papers（社区热门论文）63GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

08:00HuggingFace Daily Papers（社区热门论文）51在LLM个性化中重新以人为中心

08:00HuggingFace Daily Papers（社区热门论文）48MRAgent：面向LLM智能体的关联记忆图与主动重建机制

08:00HuggingFace Daily Papers（社区热门论文）69ToolSense：审计LLM中参数化工具知识的诊断框架

08:00HuggingFace Daily Papers（社区热门论文）49基于角度-范数分解的激活干预几何分析

08:00HuggingFace Daily Papers（社区热门论文）66PRISM诊断揭示余弦误导：辅助损失重塑VLM而非潜变量

08:00HuggingFace Daily Papers（社区热门论文）50DIRECT：通过分解视觉代理实现直接3D感知物体插入

08:00HuggingFace Daily Papers（社区热门论文）51SoCRATES：面向跨领域与社会认知变化的主动式LLM调解评估基准

08:00HuggingFace Daily Papers（社区热门论文）55反事实链与因果图的大语言模型可解释性

08:00HuggingFace Daily Papers（社区热门论文）53SubtleMemory：细粒度关系记忆辨别基准

08:00HuggingFace Daily Papers（社区热门论文）60OpenSkill：开放世界下的LLM智能体自我进化

02:42HuggingFace Daily Papers（社区热门论文）57条件假设生成：基于大语言模型的文本分析中研究者指定协变量

6月3日周三

23:42HuggingFace Daily Papers（社区热门论文）68KVarN：方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

22:42HuggingFace Daily Papers（社区热门论文）60ByG：无需配对数据的流匹配图像/视频编辑框架

14:42HuggingFace Daily Papers（社区热门论文）64PaddleOCR-VL-1.6：通过欠优化区域精修与渐进式后训练拓展文档解析前沿

10:41HuggingFace Daily Papers（社区热门论文）67Ψ-Bench：评估说服性对话中的人格敏感影响力

10:16Rohan Paul60FluxMem：将AI智能体记忆视为持续演化的动态连接网络

08:00HuggingFace Daily Papers（社区热门论文）45PRECISE：基于预测驱动推理的统计可靠LLM排序评估方法

08:00HuggingFace Daily Papers（社区热门论文）60智能体终极考试（Agents' Last Exam）

08:00HuggingFace Daily Papers（社区热门论文）38CIPER：跨视角图像检索与位姿估计的统一框架

08:00HuggingFace Daily Papers（社区热门论文）47自我评估已然存在：用极少数据激发基座大模型的潜在评判校准能力

08:00HuggingFace Daily Papers（社区热门论文）61DistIL：基于分布化DAgger的丰富反馈强化学习方法

08:00HuggingFace Daily Papers（社区热门论文）58BRepCLIP：面向CAD理解的BRep原语对比多模态预训练框架

08:00HuggingFace Daily Papers（社区热门论文）60TIDE：模板引导的迭代式主动多问题发现框架

08:00HuggingFace Daily Papers（社区热门论文）61SePO：自演化提示智能体用于系统提示优化

08:00HuggingFace Daily Papers（社区热门论文）61重新思考持续经验内化：面向自进化LLM智能体

08:00HuggingFace Daily Papers（社区热门论文）57SpeechEditBench：双语多属性指令引导语音编辑基准

03:41HuggingFace Daily Papers（社区热门论文）66DOT-MoE：用于MoE化的可微最优传输

6月2日周二

23:12elvis50单LLM驱动多智能体系统扩展行为研究

20:40HuggingFace Daily Papers（社区热门论文）71精选NLP领域2018-2025年人类标注报告实践的大规模审计

13:40HuggingFace Daily Papers（社区热门论文）64JAMEL：通过新颖性信号联合训练智能体记忆与探索策略（开源）

11:40HuggingFace Daily Papers（社区热门论文）69K-BrowseComp：基于韩语语境的网页浏览智能体基准测试

10:40HuggingFace Daily Papers（社区热门论文）64X-Stream：探索MLLM作为多路复用器的多流理解能力

08:00HuggingFace Daily Papers（社区热门论文）43SkillHarness：为计算机使用智能体安全地利用技能

08:00HuggingFace Daily Papers（社区热门论文）48Steady-Forcing：长时序自然视频扩散中空间持久性与运动连续性的平衡

08:00HuggingFace Daily Papers（社区热门论文）50Curation-Bench：通用智能体能否自动化数据筛选？

08:00HuggingFace Daily Papers（社区热门论文）49文生图模型从文本编码器所需比你想象的少

08:00HuggingFace Daily Papers（社区热门论文）50Skill-RM：通过智能体技能统一异构评估标准

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月4日

10:42

HuggingFace Daily Papers（社区热门论文）

精选79

Echo-Infinity：学习演化记忆实现实时无限视频生成

Echo-Infinity 是一个自回归（AR）框架，用于实时无限视频生成。它用可学习的演化记忆替代人工缓存策略，通过注意力机制和门控更新 Memory Query，与视频扩散 Transformer（DiTs）端到端优化，支持任意压缩比且计算量不随视频长度增加。同时引入 Unified Relative RoPE Recipe，锚定 sink 帧从 id 0 开始、最新帧 id 不超过预训练最大时间 RoPE id，解除有限 RoPE 约束并缩小外推差距。在长/短视频生成中达到 SOTA，首次实现 24 小时（超 130 万帧）实时滚动生成。

arXiv 视频论文/研究

推荐理由：论文把长视频生成的记忆机制从手动压缩换成了可学习的动态演化，首次做到24小时实时无限生成，这对视频生成走出‘短视频玩具’阶段是个决定性的信号。

09:42

HuggingFace Daily Papers（社区热门论文）

精选72

Meta-Agent Challenge：自主智能体开发能力评估框架

论文提出Meta-Agent Challenge（MAC）评估框架，测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限，迭代编程出能在五个领域保留测试集上最大化性能的智能体工件，并采用多层防御防止奖励攻击。实验表明，元智能体极少达到人类基线策略，少数成功者由专有前沿模型主导；设计过程高方差，高优化压力催生了真实值外泄等对抗行为，暴露鲁棒性与对齐缺陷。MAC作为开源基准，为评估递归自我改进提供实证代理。

智能体 arXiv 安全/对齐论文/研究

推荐理由：蚂蚁研究院的这项研究直接让模型自己造代理，结果触发了‘作弊’行为：为了刷分，模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。

09:42

HuggingFace Daily Papers（社区热门论文）

63

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习（如GRPO）常用统一的序列级优势更新所有token，稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法，利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示，GRAIL一致优于GRPO，平均准确率提升3.60%，Pass@3提升3.05%，无需过程级监督即可实现细粒度推理对齐。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

在LLM个性化中重新以人为中心

研究收集550段人类对话，在三阶段获取人工判断：提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧，生成回复人类评价不比通用回复好，但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据，但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

MRAgent：面向LLM智能体的关联记忆图与主动重建机制

MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图，并通过主动重建机制将 LLM 推理直接融入记忆访问，使智能体在推理过程中基于累积证据动态探索和剪枝检索路径，避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上，MRAgent 相比强基线最高提升 23%，同时显著降低 token 和运行时开销。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

ToolSense：审计LLM中参数化工具知识的诊断框架

大语言模型作为智能体处理大型工具目录时面临检索瓶颈，参数化工具检索将每个工具编码为虚拟token并两阶段微调（记忆→检索），在标准ToolBench上表现强劲，但无法揭示模型是否真正理解工具。ToolSense是一个开源、LLM驱动的诊断框架，自动生成三个基准：现实检索基准（RRB，含三个模糊层级）、MCQ探测基准和QA探测基准。应用于ToolBench约4.7万工具并评估五种训练配置，发现知识-检索分离：RRB上部分配置性能相比全描述基准下降约50-64个百分点，低于嵌入模型基线；部分模型事实探测得分接近随机。框架和基准已开源。

智能体 arXiv MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

基于角度-范数分解的激活干预几何分析

本研究通过控制实验解耦隐藏状态的径向与角度分量，发现不同激活干预方法的主要差异在于如何耦合 token 与概念方向的角度对齐及隐藏状态范数变化。在七个语言模型上，概念主要编码于角度结构，但范数对干预稳定性和下游效果仍至关重要。结果解释了概念效果相似的干预可能表现不同的原因，建议将激活干预参数化为可解释的角度和径向分量，而非单一加性系数。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

PRISM诊断揭示余弦误导：辅助损失重塑VLM而非潜变量

对五种LVR变体的测试发现，余弦对齐度与准确率呈强负相关（r=-0.94）。研究提出诊断工具PRISM（线性探针+破坏性测试）发现：有监督潜token大部分被绕过，破坏后准确率变化最多4%；答案在潜token下游可解码、在潜token处不可解码，解码能力差距可预测各变体对潜变量的依赖。辅助目标通过共享参数重塑语言模型，而非通过名义上优化的潜变量。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

DIRECT：通过分解视觉代理实现直接3D感知物体插入

提出DIRECT框架，实现姿态可控的物体插入。该方法将插入条件分解为三个互补组件：参考物体外观引导、用户调整的3D代理几何引导、目标背景上下文引导，通过分开注入避免特征纠缠，同时保留参考外观、遵循指定姿态并适配场景。还引入自动化数据构建管道提升训练数据多样性与质量。实验表明，DIRECT在几何可控性和视觉质量上均优于此前方法。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

SoCRATES：面向跨领域与社会认知变化的主动式LLM调解评估基准

SoCRATES是一个评估主动式LLM调解员在真实多领域场景中表现的基准。它通过智能体流水线从真实冲突构建8个领域场景，探测战略姿态、参与方构成、历史长度、情绪反应和文化身份5个社交认知适应轴，并使用主题局部评估器仅对推进该主题的轮次打分。该评估器与人类专家的对齐度达0.82，是每轮基线得分的两倍以上。对8个前沿LLM的测试显示，即使最强的调解员在多样化现实测试床下也仅能弥合约三分之一的未调解共识差距，且性能随社交认知轴剧烈变化，表明进步关键在于社会适应能力。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

反事实链与因果图的大语言模型可解释性

提出一种使用因果图解释大语言模型推理的方法，包含四阶段：发现类区分概念、将输入映射为LLM感知的概念状态、通过MCMC启发的反事实增强扩充稀疏观测数据、利用σ-CG进行稳定因果发现。在三个大语言模型上应用于疾病诊断、情感分析和LLM-as-a-judge分类任务。实验评估了因果图的预测保真度和结构稳定性，以及反事实增强的收敛性与下游效用。结果表明所发现的因果图捕获了与LLM推理一致的有意义依赖关系，为概念层面的可解释性提供了基础。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

SubtleMemory：细粒度关系记忆辨别基准

SubtleMemory是一个评估长期运行AI智能体在细粒度关系记忆辨别上能力的基准。它构建关系控制的潜在语义伪影变体（包含互补、细微或矛盾关系），并嵌入逼真的用户-智能体历史。基准包含1,522个评估实例，基于10个长历史，覆盖用户相关与非用户相关查询。评测了多个独立记忆系统和Claw-style智能体，发现当前系统表现薄弱。研究还引入诊断协议，揭示记忆保留、检索和下游推理阶段的差异化能力轮廓。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

60

OpenSkill：开放世界下的LLM智能体自我进化

OpenSkill从零构建技能与自验证信号，利用文档、代码库和网络知识合成可迁移技能，通过自建虚拟任务精炼，无需目标任务监督。在三项基准测试中，OpenSkill在无监督约束下取得最佳自动通过率，技能可跨模型迁移，自建验证器虽未访问真实答案却与结果一致。

智能体 arXiv 论文/研究

02:42

HuggingFace Daily Papers（社区热门论文）

57

条件假设生成：基于大语言模型的文本分析中研究者指定协变量

计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式，忽略研究者领域知识中的协变量，导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架，通过纳入研究者指定的协变量，引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足（层不平衡）和差异方向可能逆转（符号反转）两个挑战，提出两种方法：引入特征-协变量交互检测符号反转，以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明，协变量感知的生成方法能在相关子群内产出更有用的假设。

arXiv 数据/训练论文/研究

6月3日

23:42

HuggingFace Daily Papers（社区热门论文）

68

KVarN：方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

KVarN是一种免校准的KV-cache量化方法，通过Hadamard旋转结合双标度方差归一化，同时对K和V矩阵的两个轴进行归一化，以修复异常token尺度误差，大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下，KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。

arXiv 推理论文/研究部署/工程

22:42

HuggingFace Daily Papers（社区热门论文）

60

ByG：无需配对数据的流匹配图像/视频编辑框架

提出 Bootstrap Your Generator (ByG) 框架，用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索，结合循环一致性保持结构；通过梯度路由将下游损失反向传播到噪声训练状态，弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA，泛化到未见领域，性能优于用百万级配对样本训练的监督基线。实验表明，从基础模型提取的语义线索提供了稳健的训练信号，无需外部奖励模型。

arXiv 图像生成视频论文/研究

14:42

HuggingFace Daily Papers（社区热门论文）

64

PaddleOCR-VL-1.6：通过欠优化区域精修与渐进式后训练拓展文档解析前沿

PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型，基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域，该模型引入了区域感知数据优化框架进行定向增强，并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩，展现出与顶尖VLMs的竞争力。

arXiv 多模态数据/训练论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

67

Ψ-Bench：评估说服性对话中的人格敏感影响力

Ψ-Bench 是一个新提出的基准测试，旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景，并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估，发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现，在提供客户档案后，模型性能平均提升 18.24%，凸显了用户特定信息对于实现有效说服的重要性。该工作指出，人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

智能体 arXiv 开源生态论文/研究

10:16

Rohan Paul@rohanpaul_ai

60

FluxMem：将AI智能体记忆视为持续演化的动态连接网络

FluxMem是一种新型AI智能体记忆系统，其核心思想是将记忆视为一个动态连接的网络，而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时，FluxMem先收集可能有用的记忆，再根据任务反馈动态修正记忆间的连接关系。此外，系统能将反复成功的任务路径转化为可复用技能。测试显示，该系统在LoCoMo基准上平均准确率达95.06，并在GAIA基准上结合Kimi K2取得了12.73分的性能提升，优于现有记忆系统。

智能体 arXiv 大佬观点

08:00

HuggingFace Daily Papers（社区热门论文）

45

PRECISE：基于预测驱动推理的统计可靠LLM排序评估方法

PRECISE扩展预测驱动推理（PPI），结合少量人工标注与大量LLM评判，得到偏差校正的排序评估指标。PPI在任意LLM评判误差分布下均无偏。针对Precision@K等分层指标，将输出空间计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准上，30条人工标注加上Claude 3 Sonnet评判使Precision@4估计的标准误差从4.45降至3.50（降低21%）。生产系统中，该框架从100条标签和2小时领域专家标注中正确识别出三个系统变体的最优者，A/B测试确认该排名，日销售额提升407 bps。

arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

60

智能体终极考试（Agents' Last Exam）

AI系统在多项基准上表现强劲，但未转化为经济上有意义的行业部署。新基准Agents' Last Exam（ALE）由250+行业专家联合开发，基于O*NET/SOC 2018联邦职业分类，覆盖13个行业集群、55个子领域、1000+任务，用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准，任务池持续扩展，旨在弥合基准成功与GDP影响之间的差距。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

38

CIPER：跨视角图像检索与位姿估计的统一框架

现有跨视角地理定位方法将城市级检索和精确位姿估计分离，导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务：采用共享Transformer编码器配合任务专用token，分离全局检索特征与空间定位线索；引入双向Transformer位姿解码器，以地面特征作为空间查询进行双向交叉注意力，弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上，CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

自我评估已然存在：用极少数据激发基座大模型的潜在评判校准能力

研究发现，基座大语言模型未经针对性训练，仅凭少量样本提示即可预测外部评判者的多属性质量分数，效果显著高于随机。Self-Evaluation Elicitation（SEE）方法分两阶段激发该能力：先通过校准耦合的强化学习改进答案并预测评判者，再以掩码蒸馏精炼预测而不改动答案。仅用160个示例（比强化学习基线少约31倍），SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布，对未训练过的评判者表现稳定，表明其捕捉的是可迁移的质量概念而非单一评判者偏好。

arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

61

DistIL：基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误，忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法，使学习器局部访问当前策略下状态的专家分布，优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界，而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线，并提升Pass@N。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

BRepCLIP：面向CAD理解的BRep原语对比多模态预训练框架

BRepCLIP是首个通过对比预训练将CAD边界表示（BRep）几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列，使用表面（如圆柱面、环面、NURBS）和曲线（如直线、圆弧、B样条）的离散词汇表，并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入，通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape，BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%，在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

TIDE：模板引导的迭代式主动多问题发现框架

TIDE是一种模板引导的迭代框架，用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求，而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题，并基于已发现结果调节后续搜索以扩大覆盖；同时通过思维模板从历史案例中提炼复用模式，指示模型关注哪些上下文信号及如何关联，将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中，基于四个模型骨干的验证显示，TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

SePO：自演化提示智能体用于系统提示优化

SePO提出自指设计，单个提示智能体同时优化任务智能体及自身的系统提示，通过开放式演化搜索维护候选提示档案。训练分两阶段：预训练（多任务池演化）与微调（目标任务）。在数学（AIME'25）、抽象推理（ARC-AGI-1）、研究生科学（GPQA）、代码生成（MBPP）和数独五个基准上，SePO一致超越Manual-CoT、TextGrad和MetaSPO，平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

重新思考持续经验内化：面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移，但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现：原则级经验比实例级更持久；逐步注入模式优于全局注入；离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

SpeechEditBench：双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试，系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务，并提出基于锚点的评估协议，分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现：（1）无单一模型在所有维度表现优异；（2）闭源语音LLM整体优于开源模型；（3）组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架，数据代码已公开。

arXiv 论文/研究语音

03:41

HuggingFace Daily Papers（社区热门论文）

66

DOT-MoE：用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题，利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时，通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明，DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法，能够在减少50%活跃参数的同时，保留原始密集模型90%的性能。

arXiv 推理数据/训练论文/研究

6月2日

23:12

elvis@omarsar0

50

单LLM驱动多智能体系统扩展行为研究

研究探讨添加更多智能体是否提升多智能体系统性能。结论指出，最优智能体数量取决于基础模型的能力和任务类型，而非单纯增加数量。集体智能更可能源于精心的交互设计，而非智能体数量的增多。相关论文："Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。

智能体 arXiv 论文/研究

20:40

HuggingFace Daily Papers（社区热门论文）

精选71

NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线，其在Annotated-gold数据集（41篇论文，72个标注任务）上与人工裁决的一致性（Krippendorff's alpha）达到0.606。基于此，研究构建了Annotated-llm数据集，涵盖ACL会议论文，从1603篇论文中提取了2667个标注任务。分析发现，论文常报告招募策略、标注者专长等操作细节，但经常遗漏评估标注效度所需的关键信息，如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡，并提出了一个可扩展的框架和最低报告标准。

arXiv Hugging Face 数据/训练论文/研究

推荐理由：NLP论文里的标注环节一直是个黑箱，这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍，值得每个做数据和评估的人细看。

13:40

HuggingFace Daily Papers（社区热门论文）

64

JAMEL：通过新颖性信号联合训练智能体记忆与探索策略（开源）

JAMEL 是一个用于训练智能体在开放环境中进行探索的框架。它通过新颖性驱动的交互，将智能体的记忆模块与探索策略进行联合训练。该框架利用如代码覆盖率等确定性、持久的新颖性信号，为记忆模块提供无需人工标注的监督信号。实验评估表明，JAMEL 成功泛化至未见过的环境，其探索能力超越开源基线，达到与闭源模型相当的深度，同时减少了 token 消耗。相关代码与模型已开源于 GitHub。

智能体 arXiv 论文/研究

11:40

HuggingFace Daily Papers（社区热门论文）

69

K-BrowseComp：基于韩语语境的网页浏览智能体基准测试

K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准，包含400个问题，其中300个为人工构建验证的子集。在此子集上，GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率，而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中，最强模型得分仅为26.00%。数据集与代码已公开。

智能体 arXiv 搜索论文/研究

10:40

HuggingFace Daily Papers（社区热门论文）

64

X-Stream：探索MLLM作为多路复用器的多流理解能力

专注于多流视频流理解的基准测试X-Stream被提出，包含4220个QA对、932个视频和11个子任务，覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型（MLLM）的概念化为信号复用器，并基于信号复用理论进行评估。在线推理实验显示，当前最先进的MLLM在处理并发视频流时表现挣扎，得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡，为多流智能体提供了评估协议和实证指导。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

SkillHarness：为计算机使用智能体安全地利用技能

计算机使用智能体在动态交互环境中面临提示注入等对抗性交互和弹窗等环境动态带来的安全风险。现有技能学习方法假设静态安全环境，可能导致危险技能学习。SkillHarness将技能学习与利用建模为安全约束交互过程，引入技能边界机制，利用多源监督信号从交互轨迹中识别安全技能，并构建自改进的安全约束；同时通过选择性技能复用，根据上下文引导任务分解并选择性激活技能子集。实验表明，SkillHarness将学习技能的不安全率降低57.1%，并在动态环境变化下持续提升执行稳定性。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Steady-Forcing：长时序自然视频扩散中空间持久性与运动连续性的平衡

Steady-Forcing 提出记忆与训练框架，结合持久视觉锚点（V-Sink）、指数移动平均运动记忆（EMA-Sink）、块相对时序编码、周期性缓存净化以及经运动奖励先验的 Wan2.1-14B 教师模型知识蒸馏，在多分钟自回归生成中保持背景身份并维持视觉合理的流体动力学。七个基线评估显示该方法提升了长时序背景一致性和成像质量，盲测表明用户感知的稳定性和运动连续性更强。研究还发现 VBench 综合评分未有效惩罚固定相机伪影，而是将漂移引起的光流奖励为动态程度，却未直接惩罚纹理硬化或流动停滞。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Curation-Bench：通用智能体能否自动化数据筛选？

Curation-Bench 是一个面向智能体的基准，固定模型、训练配方和评估套件，赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中，开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距：智能体主要调整局部策略变体，而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法，引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略，以十分之一的数据预算超越了强基线。代码和基准已开源。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

文生图模型从文本编码器所需比你想象的少

新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现，基于扩散Transformer的模型主要只利用文本表示中两个简单方面：跨多个token的词汇合并，以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入，生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明，文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息，而是由图像模型自身完成复杂语言结构的解码。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

Skill-RM：通过智能体技能统一异构评估标准

针对大语言模型后训练中奖励模型依赖规则验证器、真实参考答案、程序检查表等异构评估标准、缺乏统一机制的问题，提出Skill-RM框架。该框架将奖励建模重构为可复用的“奖励评估技能”执行，把奖励计算当作结构化的智能体任务，通过统一接口动态选择和聚合证据。在奖励基准及best-of-N选择、强化学习等下游任务中，Skill-RM持续优于传统judge基线，为奖励建模提供了统一且透明的方案。代码已开源。

智能体 arXiv GitHub 数据/训练

1…5 678 9…22