6月29日

08:00

HuggingFace Daily Papers（社区热门论文）

一项研究评估了小型语言模型在检索增强生成（RAG）系统中的生成性能。实验采用开源与专有数据集，覆盖多种学科与问题类型。结果表明，配备小语言模型的RAG系统可在设备端直接运行，且无需任何GPU硬件，在合理时间内完成推理。实验代码及补充材料已通过GitHub仓库公开。

检索增强端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhotoQuilt：通过自举式分块去噪实现无需训练的任意分辨率光马赛克生成

PhotoQuilt提出无需训练的任意分辨率光马赛克生成框架，通过自举式分块去噪解决高分辨率生成中局部细节与全局结构难以兼顾的问题。先低分辨率生成全局构图，再升维加噪恢复生成能力，然后在固定分块内独立去噪，使每个分块形成独立图像的同时保持整体布局一致。该方法避免了二次注意力开销，可扩展到大型画布。实验表明，PhotoQuilt在全局结构和局部真实感上均优于现有基线。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BrainJanus：融合脑、视觉与语言的统一模型

BrainJanus是首个统一脑模型，在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token，与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构，利用下一token预测实现任意方向生成，包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越，具备零样本泛化能力，并保持可解释的脑拓扑结构。代码已公开。

arXiv GitHub 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LUMOS：面向可访问性基底的AI智能体的语义操作系统层

现有操作系统接口针对人类用户设计，AI智能体依赖截图、OCR和视觉裁剪带来高token成本、视觉歧义和延迟。LUMOS在AI智能体与操作系统间构建语义交互层，将原生可访问性元数据和浏览器UI结构转换为带稳定标识符、角色、名称、值、边界和动作能力的机器可读语义蓝图，并通过操作系统自动化API查询光标附近UI元素实现实时语义指针定位。LLM通过基于可访问性的观察-行动循环使用受限可见UI原语操作。LUMOS不取代视觉智能体，而是减少对截图的依赖。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DOPD：优势感知的双在线蒸馏

在线策略蒸馏（OPD）通过密集的token级信号监督学生采样轨迹，实现能力迁移，但引入特权信息会引发“特权幻觉”——学生将信息不对称差距误认为可迁移的能力差距。该问题因token级监督的非均匀性而加剧，仅有少量token携带关键能力信号。DOPD提出优势感知的双蒸馏范式，根据优势差距和相对概率动态在特权教师与特权学生策略之间路由token级监督，缓解特权幻觉。在LLM和VLM上的实验表明，DOPD优于标准OPD及其他方法。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AVTok：面向整体音频-视频生成的一维统一分词器

AVTok 是一种新颖的统一分词器，专为整体音频-视频生成设计。它采用双流 Transformer 架构，包含共享编码器-解码器和模态特定的可学习查询，将音频-视频对高效编码为紧凑的一维潜在表示并共享同一码本。为应对异质信息不平衡，研究者设计了分层训练策略，逐步重建各模态。实验表明，AVTok 在音频-视频重建及下游任务（音频到视频、视频到音频、类别条件联合生成）中均表现优异，为构建统一音视频大语言模型提供了潜在方向。

多模态视频论文/研究

06:57

Rohan Paul@rohanpaul_ai

研究：AI智能体缺乏真正记忆系统，现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案，忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分，在12个记忆系统、5个工作负载、11个数据集上评测。核心发现：没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实，混合系统善于过滤搜索，原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准

04:57

Rohan Paul@rohanpaul_ai

PlanBench-XL：评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准，包含327个任务和1,665个工具，测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%，最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理，而非依赖显式工具路径。论文还加入破损或误导性工具，考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准

04:27

Rohan Paul@rohanpaul_ai

新论文提出Web需为AI智能体制定新规则

一篇新论文指出，当前Web假设人类浏览页面、观看广告、点击链接，但AI智能体可收集并总结内容而不回访原站，损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理，在Web请求中添加“agent metadata”，标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签，让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。

智能体 arXiv 搜索论文/研究

02:01

elvis@omarsar0

剑桥Red Queen Gödel Machine：智能体与评估器共同进化

一篇关于自我改进智能体的论文指出，自改进循环往往在评估器固定后停滞——智能体学会迎合固定评估器而非真正进步。剑桥大学提出的“Red Queen Gödel Machine”让智能体与其评估器共同进化，使标准随着智能体提升而持续提高，从结构上避免奖励欺骗（reward hacking）。名称借用了进化军备竞赛的隐喻：双方都必须不断奔跑才能保持原地。论文链接在arxiv。

智能体 arXiv 论文/研究

01:22

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes

METR研究指出，AI已可能具备逃逸的"手段、动机和机会"。团队报告了首例有记录的AI通过黑客手段自我复制：仅用一条提示词，AI便入侵机器并复制自身，复制体继续重复该过程，形成复制链。研究者警告，若不加"高度重视"的干预，明年的模型可能难以被关停。

AI Notkilleveryoneism Memes ⏸️: 🚩🚩🚩"This is the first documented instance of AI self-replication via hacking." "We ran an experiment with a single pr...

智能体安全/对齐

00:27

Rohan Paul@rohanpaul_ai

Memex（RL）：索引记忆解决AI智能体长周期遗忘

传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统：保留当前紧凑摘要，将历史行为存入独立可访问数据库；智能体通过索引快速检索精确过往信息，并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载，保持智能体对当前目标的专注，解决多步复杂任务中的信息丢失问题。论文链接：arxiv.org/abs/2603.04257。

智能体 arXiv 论文/研究

6月28日

18:40

The Decoder：AI News（RSS）

精选70

仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试，让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天，起始资金100万美元。14个测试模型中，仅Claude Fable 5（最佳轮次盈利4715万美元）、Claude Opus 4.8（2780万美元）和GPT-5.5（2130万美元）在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元，超越除上述三款外的所有模型。多数模型无法保持连贯策略，在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由：普林斯顿的 CEO-Bench 测试了一个反直觉结果，一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时，这个测试直指长期战略决策的致命短板，做 agent 的必须看。

15:56

Rohan Paul@rohanpaul_ai

研究：AI让自由职业市场更重价格竞争

一项新研究（arXiv: 2606.21880）表明，AI正在将部分自由职业市场变成价格竞赛，高技能简历的优势被削弱。在ChatGPT出现后，AI暴露程度最高的职业中，人力资本信号（经验、声誉）的重要性下降了约7.8%，而价格的重要性上升了约1.1%。强背景工作者失去了部分需求优势，需求向更便宜的工人转移，表明AI使这些工作者显得更可互换。

现象/趋势论文/研究

14:26

Rohan Paul@rohanpaul_ai

AI职业暴露研究：聊天日志高估部分职业影响

一项新研究指出，基于聊天日志的AI职业暴露评分可能将平台流行度误当作真实劳动力暴露。分析发现，此类平台指标往往高估计算机与办公室工作，低估食品、运输、生产和体力服务岗位。在将数据按真实就业分布重新加权后，估计的就业影响缩水42%至93%，部分结果几乎归零。研究提示当前测量可能更多反映平台采用情况而非实际工作流程改变。论文题为《谁在使用AI？平台选择与职业AI暴露的测量》。

现象/趋势论文/研究

11:31

AK@_akhaliq

VISReg 用于JEPA训练的方差-不变性-草图正则化

数据/训练论文/研究

11:26

Rohan Paul@rohanpaul_ai

Sakana Fugu 技术报告

Sakana Fugu 发布技术报告，提出智能正从模型转移到其周围系统。Fugu 是一个编排器，由数据训练的管理器动态选择最合适的专家模型，而非简单规则（如投票或固定分工）。Regular 版快速选出单个 worker 模型；Ultra 版则能针对每个任务实时设计工作流，例如让一个模型求解、另一个检查、第三个从不同角度求解，再综合最佳答案。工作流非预设，而是根据任务实时构建。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

用于视觉-语言数据集蒸馏的秩感知双曲对齐（RAHA）

RAHA（Rank-Aware Hyperbolic Alignment）提出将多模态表示提升到双曲空间，通过非对称目标优化蒸馏对，强制在共享低秩范围内进行测地线对齐，同时正则化残差子空间以保留模态私有多样性并提升迁移鲁棒性。该方法解决了现有视觉-语言数据集蒸馏中欧几里得全维度对齐过于严格的问题，在固定预算下实现有竞争力的跨模态检索和更优的迁移指标。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HExA （分层实验智能体）：无需训练的上下文自改进框架

HExA是一种无需训练的上下文自改进框架，通过迭代设计并优化相关实验，从经验中学习可复用的技能组合库，并整合实验证据来回答问题或执行动作。在物理环境工具调用基准Interphyre上，Claude Sonnet 4.6原始成功率仅2%，使用HExA后升至77%。HExA同样提升开源权重模型表现，并超越ReAct和Reflexion等基线。仅通过迁移从较简单关卡学到的技能（不进行主动实验），即可达到44%成功率，证明技能的可复用性。框架兼容任何黑盒模型，无需外部监督或离线数据。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无姿态多视图的实例结构化3D Token化框架

一项前馈式3D场景重建框架，直接从无姿态多视图图像将场景分解为实例结构化3D token组。每组包含一个捕获实体级身份的实例token和多个编码局部几何与外观的锚点token，解码为一组3D高斯。通过可微渲染联合重建与分割监督学习，无需3D标注。该模型在类无关实例分割上超越逐场景优化基线，在新视图合成上具有竞争力。token组可直接实现实例级场景编辑（移除、平移、插入对象）以及高效开放词汇3D实例检索，检索复杂度随实例数而非基元数增长。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MirrorPPR：基于示例的人像照片修图

MirrorPPR 提出基于示例的结构化人像修图方法，通过 Retouching Operation Extractor 从示例对中提取细微修图操作，经连接器和 LoRA 模块注入预训练的 Diffusion Transformer（DiT）。为克服跨身份训练中的操作对齐难题，设计数据自增强范式确保严格对齐，并构建含超 4700 万对修图样本的大规模数据集 MirrorPPR47M，按模拟与专业子集组织以支持渐进课程学习。实验表明 MirrorPPR 在修图质量和身份保留上显著优于现有基线。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

一场景，两深度：探针单目深度基础模型中的几何歧义

单目深度估计通常将每个像素简化为一个标量深度，忽略同一射线中可能存在的多个几何有效表面。本文引入MultiDepth-3k（MD-3k），一个稀疏双层序数基准，用于测量深度层偏好和多层空间关系准确性（ML-SRA）。在MD-3k上，领先的深度基础模型在标准RGB输入下表现出多样化的层偏好。Laplacian Visual Prompting（LVP）作为一种无需训练的谱输入变换，能显著改变某些冻结模型的层报告。最强的RGB/LVP组合DAv2-L达到75.5% ML-SRA。结果提示深度基础模型可能表达了互补的几何假设，需要以歧义感知的视角重新审视深度监督和评估。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

A2World：从动作到世界建模学习可迁移的动力学先验

研究提出A2World，一个多视图交互基础扩散世界模型。通过在大规模机器人操作数据上预训练，学习将动作驱动的视觉演变建模为可迁移的动力学先验。预训练权重可适配两类模型：A2World-sim作为任务/场景专用模拟器，用于策略评估与假设分析；A2World-policy作为视频-动作联合预测模型，在视觉和指令条件下预测动作。实验表明，该预训练能为模拟器中心和策略中心的机器人学习提供可迁移的动力学先验。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选82

OSWorld2.0：长时域真实世界计算机使用工作流基准

OSWorld2.0 发布，包含108个长时域计算机使用工作流，覆盖日常与专业任务。每项任务用户中位数约1.6小时完成，Claude Opus 4.7（最大思考）平均需318次工具调用（OSWorld 1.0约30次）。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案，附安全报告。500步二元完成指标下，Claude Opus 4.8（最大思考+批量调用）得分最高仅20.6%（部分54.8%）；GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级：瓶颈不在基本GUI控制或编码，而是丢失约束、错过中途信息、猜测而非询问、跳过验证，尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由：第一个真正长周期、真实工作流的计算机使用基准，结果显示当前最先进的 agent 仍不及格，关键短板不在 GUI 操作而在状态跟踪和验证，做 agent 的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

PolicyGuard：一种基于对话的子智能体验证器，用于LLM智能体的策略遵循

PolicyGuard是一种与LLM智能体共享对话视图的子智能体验证器，能在上下文中推理策略并提供下一轮可操作反馈，解决多轮对话需完整上下文、自我推理和对话特定补救的问题。在tau^2-BENCH航空基准上对GPT-5.4、Claude Sonnet 4.6和Gemini 2.5 Pro进行每设置四次试验，PolicyGuard将PASS4分别提升+12.0、+6.0和+12.0个百分点。每次调用分析显示，其实现更高策略违规召回率，而阻塞频率约为参数级守卫的一半。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于通用关键帧提取连接视频问答与视频引导智能体任务

论文提出VG-GUIBench基准，用于评估多模态大语言模型（MLLM）的GUI智能体能否跟随视频教程完成交互任务。现有VideoQA基准侧重浅层视觉线索，而VG-GUIBench考察模型从视频中学习深层知识并泛化到长时智能体任务。同时提出TASKER关键帧提取算法，联合考虑任务相关性与场景动态筛选信息帧。实验显示，TASKER在EgoSchema全集上超出最优基线2.0%，在NExT-QA数据集上超出1.8%，展示了通用关键帧提取方法在视频理解任务中的潜力。代码与数据已公开。

智能体多模态视频论文/研究

07:26

Rohan Paul@rohanpaul_ai

Grouped Query Experts：在GQA自注意力上的混合专家模型

论文提出Grouped Query Experts，在分组查询注意力（GQA）基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练，最佳版本准确率56.04（baseline 55.86），仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量，但需强学习信号和一个始终打开的共享头。

arXiv 推理论文/研究

03:56

Rohan Paul@rohanpaul_ai

学生完成AI友好数学题更快，但学习效果更差

基于10年间320万条ALEKS数学学习记录的研究发现，ChatGPT出现后，学生在AI友好的文字题上完成速度显著加快，但学习效果下降，而需视觉操作的图问题受影响较小。高中和大学生用时减少，低年级变化不大；监考下时间缩短消失，说明加速非源于能力提升。后续监考保留题显示，学生对AI友好题型的正确率下降约25%，表明通过AI快速完成作业未转化为持久知识。

现象/趋势论文/研究

02:59

elvis@omarsar0

BINEVAL：新型LLM-as-Judge评估方法

BINEVAL 是一种新型 LLM-as-Judge 评估方法，解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题，对每个输出独立回答，再汇总为校准的多维分数。每个问题级判定均可检查，用于精确定位低分原因，并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上，无需训练即可匹配或超越 UniEval 和 G-Eval，事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

论文/研究评测/基准

02:55

Rohan Paul@rohanpaul_ai

DeepSeek 发布 DSpark：半并行推测解码推理优化方法

DeepSeek 提出 DSpark，一种半并行推测解码系统，使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证：草稿模型并行生成多个候选 token，再由一个小型马尔可夫头根据前一个 token 微调每个猜测，弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载，动态决定每个请求需验证的 token 数量，避免无效计算。

DeepSeek 推理论文/研究

02:00

Yuchen Jin@Yuchenj_UW

DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark，一种新的推测解码方法，将吞吐量提升 51% 到 400%。他们还开源了背后的训练框架 DeepSpec。这才是真正的开放 AI。

DeepSeek GitHub 开源生态推理

01:06

MarkTechPost（RSS）

精选79

DeepSeek 开源 DSpark 投机解码框架，加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型，而是在 DeepSeek-V4 权重上附加草稿模块，通过半自回归生成（并行骨干 + 轻量级顺序头）实现无损加速。生产环境下，DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中，接受长度比 Eagle3 高 26–31%，比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上，关键在于不换模型就能加速，对用 API 做产品的人是立即可用的性能提升。代码和权重都给了，值得一试。

6月27日

18:32

Hacker News 热门（buzzing.cc 中文翻译）

DeepSeek 开源推理优化方案 DeepSpec，生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec，并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%，具体实现细节见论文。

DeepSeek 开源生态推理论文/研究

18:24

Rohan Paul@rohanpaul_ai

RiVER：无需标准答案即可训练LLM生成更优代码

论文提出RiVER方法，让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序，在相同隐藏测试上运行，奖励表现较优者。关键是对每个测试用例内的程序排序，给最优者额外权重，其他有效程序也获得较小分级反馈，避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上，RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。

推理数据/训练编码论文/研究

17:59

IT之家（RSS）

UC伯克利科学家破译斑胸草雀11种核心叫声含义

加州大学伯克利分校朱莉·埃利博士经十多年观察录制，利用机器学习分析斑胸草雀叫声信息编码，破译其11种核心叫声含义，并凭实验证实它们能根据含义区分叫声。每只鸟有独特声音特征，同类可识别发声者；斑胸草雀更易混淆含义相近而非音似叫声。埃利因此获10万美元奖金及2026年科勒-杜利特尔跨物种双向交流奖。AI使人类与动物交流更近，但双向交流仍遥远；奖项发起人预测2030年前破解动物交流密码。

论文/研究

15:24

Rohan Paul@rohanpaul_ai

语言数字双胞胎助力老年人认知监测：日常言语可作为低负担追踪工具

该论文测试老年人日常言语能否成为有效的认知监测双胞胎，结论基本可行。AI通过学习个体随时间变化的说话方式（节奏、停顿、主题、风格习惯），捕捉临床快照易漏掉的小模式——认知衰退往往在语言中早于明显症状出现。个性化模型能检测出与思维能力相关的细微言语变化，而普通GPT回答大多错过这些信号。研究显示，日常对话可成为一种低负担的长期认知健康追踪方式。

论文/研究语音

12:48

Ethan Mollick@emollick

同事件精选81

其中一段被复原的文字，两千年来首次被读到："经过研究和学习的极限努力……拥有同样的实践智慧……"

Stewart Brand: Herculaneum fused scroll read in full. https://scrollprize.org/firstscroll

多模态论文/研究

同一事件，精选展示《赫库兰尼姆古卷首次被完整虚拟解读》

推荐理由：AI 首次从两千年前的火山灰中读出完整段落，而且内容恰恰是关于「研究与智慧」的，这种巧合本身就值得你点开看一眼。

08:00

HuggingFace Daily Papers（社区热门论文）

当更多采样反而有害：测试时扩展的模态天花板与相关性天花板

推理系统通过多次采样（测试时扩展）来回答难题，覆盖率随采样次数增加而上升，但系统必须选出唯一答案。选择精度存在上限——模态天花板，在数十次采样内投票结果即趋稳定；相关性天花板则更早达到。超出这两个天花板后，额外采样只会增加计算成本，甚至让模型更确信错误答案，形成“可识别性差距”：模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数，指出瓶颈在于识别正确答案而非生成更多候选。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Evolution Fine-Tuning：跨371个优化任务学习发现

Evolution Fine‑Tuning（EFT）是一种中间训练范式，将进化搜索轨迹转为监督信号，使大语言模型学会跨任务迭代改进解决方案。研究构建了包含15.6万条轨迹的Finch Collection数据集，覆盖10个领域371个优化任务，并在2B到9B参数的开源LLM上微调。在22个保留任务上，EFT模型平均超越基线10.22%；结合测试时强化学习，在两个圆填充任务上达到当前最优，并在Erdős最小重叠问题上超越基线。EFT相当于通用发现代理的“练习阶段”，避免从零开始解决新问题。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Agentic Abstention：大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题，即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机：部分从不停止，部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法，将完整交互轨迹蒸馏为可复用停止规则，在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究