全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2699 条

全部一手资讯 X 论文

标签「论文/研究」清除

6月23日周二

08:00HuggingFace Daily Papers（社区热门论文）57ConvFill：对话式填充实现语音智能体响应与能力兼得

08:00HuggingFace Daily Papers（社区热门论文）75精选推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

08:00HuggingFace Daily Papers（社区热门论文）49Lite Any Stereo V2 （LAS2）：更快更强的零样本立体匹配

08:00HuggingFace Daily Papers（社区热门论文）62中间层知晓：从熵动力学检测越狱攻击

08:00HuggingFace Daily Papers（社区热门论文）69CAVEWOMAN：语言输入与输出压缩对大语言模型的影响

08:00HuggingFace Daily Papers（社区热门论文）45我们准备好迎接智能体原生记忆系统了吗？

08:00HuggingFace Daily Papers（社区热门论文）50RoPE感知的KV缓存量化位分配方法Block-GTQ

08:00HuggingFace Daily Papers（社区热门论文）43面向艺术字场景文本识别的数据集WATER-S与模型WATERec

08:00HuggingFace Daily Papers（社区热门论文）44IV-CoT：面向结构感知文本到图像生成的隐式视觉思维链

08:00HuggingFace Daily Papers（社区热门论文）45MEMPROBE：基于隐藏用户状态恢复的长期记忆智能体探测基准

05:12Hacker News 热门（buzzing.cc 中文翻译）46提示注入理论（以及为何应研究角色）

01:41Hacker News 热门（buzzing.cc 中文翻译）51Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

00:08Google Developers Blog（RSS）61精选Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

6月22日周一

08:00HuggingFace Daily Papers（社区热门论文）54程序性记忆管理：LLM智能体的控制、适应与评估

08:00HuggingFace Daily Papers（社区热门论文）43HeRA：面向多模态大语言模型的逐头表示对齐方法

08:00HuggingFace Daily Papers（社区热门论文）44RaysUp：基于几何感知射线表示的超轻量通用特征上采样框架

08:00HuggingFace Daily Papers（社区热门论文）52ReasoningLens：大型推理模型层级可视化与诊断审计框架

08:00HuggingFace Daily Papers（社区热门论文）35SingGuard：政策自适应多模态LLM护栏模型系列

08:00HuggingFace Daily Papers（社区热门论文）50GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

08:00HuggingFace Daily Papers（社区热门论文）43ABACUS：适配统一基础模型以桥接图像计数理解与生成

08:00HuggingFace Daily Papers（社区热门论文）65计划不持久：为何上下文管理对LLM智能体至关重要

08:00HuggingFace Daily Papers（社区热门论文）49ReNIO：为大语言模型同策略蒸馏重加权负轨迹重要性

08:00HuggingFace Daily Papers（社区热门论文）60VeriEvol：通过可验证进化指令扩展多模态数学推理

08:00HuggingFace Daily Papers（社区热门论文）36AI智能体模型批判--从笛卡尔思想到GIC通用架构

08:00HuggingFace Daily Papers（社区热门论文）42语义浏览：图像生成的可控多样性

08:00HuggingFace Daily Papers（社区热门论文）36ChartWalker：面向跨图表RAG任务的基准框架

08:00HuggingFace Daily Papers（社区热门论文）48AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

08:00HuggingFace Daily Papers（社区热门论文）48FedOT：面向联邦LDMs的所有权验证与泄漏追踪水印方法

6月21日周日

08:00HuggingFace Daily Papers（社区热门论文）55交错式语音语言模型在文本中隐式工作

08:00HuggingFace Daily Papers（社区热门论文）61Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

08:00HuggingFace Daily Papers（社区热门论文）37Libretto：赋予LLM智能体音乐结构感知

08:00HuggingFace Daily Papers（社区热门论文）47PolicyTrim：提升VLA模型内在策略效率

08:00HuggingFace Daily Papers（社区热门论文）52PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

04:08HuggingFace Daily Papers（社区热门论文）51Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

6月20日周六

16:59IT之家（RSS）49中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

08:00HuggingFace Daily Papers（社区热门论文）52OpenBioRQ：未解决生物医学研究问题的智能体基准测试

08:00HuggingFace Daily Papers（社区热门论文）45EBench：通用移动操控策略的细粒度诊断基准

08:00HuggingFace Daily Papers（社区热门论文）74精选可验证搜索不是可学习的链式思维

08:00HuggingFace Daily Papers（社区热门论文）57BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

08:00HuggingFace Daily Papers（社区热门论文）54更深并非总是更好：通过Confident Decoding缓解对齐税

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月23日

08:00

HuggingFace Daily Papers（社区热门论文）

57

ConvFill：对话式填充实现语音智能体响应与能力兼得

语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”（conversational infill）方法：用小参数 talker 模型实时生成上下文响应，隐藏外部 reasoner 模型的推理延迟，并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间，准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中，ConvFill 整体与前沿模型持平，检索密集型任务更受青睐，响应性显著更高。代码、模型和数据集已开源。

推理论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

推理模型的思考Token真的有助于提升安全性吗？--来自GPT-OSS、Qwen、Olmo和Phi家族的证据

对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现，所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令，在第一个token的

arXiv 安全/对齐推理论文/研究

推荐理由：这篇论文直接挑战了「思考令牌提升安全性」的业界直觉，证据表明拒绝行为在思考的极早期就已锁定，现有安全干预反导致过度谨慎。安全团队必读，需要重新审视推理模型的对齐方式。

08:00

HuggingFace Daily Papers（社区热门论文）

49

Lite Any Stereo V2 （LAS2）：更快更强的零样本立体匹配

Lite Any Stereo V2 (LAS2) 是专为零样本立体匹配设计的超高速模型系列。它采用仅2D的成本聚合框架，针对实际推理延迟而非理论MACs进行优化。训练采用三阶段策略：合成监督、自蒸馏和真实世界知识蒸馏，并通过伪标签过滤和误差钳制操作提升伪标签可靠性。LAS2包含多个前馈变体和一个迭代变体。其中LAS2-H在零样本整体性能上优于迭代方法Fast-FoundationStereo，且在H200和Orin上推理速度分别快1.8倍和2.7倍。项目页面、演示和代码已公开。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

中间层知晓：从熵动力学检测越狱攻击

通过分析冻结大语言模型各层的 token 级预测熵轨迹，发现越狱攻击相关信息主要编码在中间层而非输出头。静态聚合熵统计量（如均值、方差）区分力弱，而反映熵随 token 位置演化的特征（如单调排名趋势分数）更具判别力。该信号在 Llama、Qwen、Gemma 等多个模型和对抗性基准上表现一致，无需额外训练。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

CAVEWOMAN：语言输入与输出压缩对大语言模型的影响

研究提出两通道评估协议Cavewoman，同时测量任务准确率、实际成本及与无约束基准的文本一致性。在5个数据集上对8个模型进行5级压缩测试，发现输出压缩降低API模型实际成本1.4–2.4倍（最佳达3倍），开源权重模型同样受益；输入压缩则严格双输：平均成本升高约1.15倍（最差1.8倍，强压缩2.7倍），准确率暴跌，半数正确生成不再蕴含模型自身无约束基准文本。该分歧在长度控制重评分、多重比较校正及补充语义度量下仍然稳健。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

我们准备好迎接智能体原生记忆系统了吗？

从数据管理视角对LLM智能体记忆系统进行系统性实验研究，将其分解为表示与存储、提取、检索与路由、维护四个核心模块。评估了12个代表性记忆系统和两个参考基线，覆盖5个基准工作负载共11个数据集。端到端结果显示无单一架构占优，效果取决于记忆结构与工作负载瓶颈的对齐。细粒度消融实验量化了各模块对表示保真度、检索精度、更新正确性和长期稳定性的影响。实际工作负载下局部维护比全局重组更具成本效益。代码已公开。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

RoPE感知的KV缓存量化位分配方法Block-GTQ

现有低比特KV量化器将每个key视为平面向量，而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE，为每层和KV头计算每个RoPE块的无标签能量分数，通过边际增益贪心分配整数位宽。在10模型诊断集上，2/3 b/dim单K量化下每层MAE降低32–80%，367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下，六任务NIAH平均分从70.6提升至97.4，LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上，K3V2无fp16近期key缓冲区时得分51.7/37.5，接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上，K3V3实现3.24倍压缩，128K下比fp16 FlashAttention2快1.34倍，峰值内存从56.31GB降至19.85GB，并在256K和512K下仍可运行。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

43

面向艺术字场景文本识别的数据集WATER-S与模型WATERec

针对艺术字高度定制化的字体、纹理与布局导致的识别困难，研究构建了2M规模的合成数据集WATER-S，包含两部分：由升级渲染管线SynthWordArt生成的高精度可控数据，以及结合Qwen3-VL挖掘提示词与Z-Image图像合成生成的多样化真实感数据。同时提出WATERec模型，采用支持任意形状输入的视觉编码器与自回归解码器，突破了固定模板限制。在WordArt-Bench上达到90.40%准确率，大幅超越通用视觉语言模型和OCR专用模型。代码与数据已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

IV-CoT：面向结构感知文本到图像生成的隐式视觉思维链

统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架，将视觉条件查询分解为结构查询与语义查询的级联：结构查询先形成潜在视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息，推理时无需草图或中间解码，单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。

图像生成多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

MEMPROBE：基于隐藏用户状态恢复的长期记忆智能体探测基准

MEMPROBE是一个评估长期记忆AI智能体的新基准，通过隐藏用户状态恢复直接衡量记忆质量。基准在受控任务中模拟50个用户，每个携带31个隐藏维度（共1550个恢复目标），让配备记忆的智能体辅助完成任务，随后从记忆中重构用户状态，支持全存储与top-k两种访问模式。测试5种代表性记忆系统后，任务完成率几乎饱和（无记忆基线也达），但类别平衡恢复率仅约0.6，在top-k检索下进一步下降。MEMPROBE是首个直接研究记忆恢复的基准，将恢复率作为可优化目标。

智能体论文/研究

05:12

Hacker News 热门（buzzing.cc 中文翻译）

46

提示注入理论（以及为何应研究角色）

一篇理论论文提出提示注入的本质是角色混淆（role confusion）——攻击通过让模型误判系统角色与用户角色的边界来达成注入。作者论证当前防御措施多聚焦于输入过滤，却忽视了角色本身的可欺骗性，并主张从角色建模入手增强模型对指令来源的区分能力。该工作为理解提示注入提供了统一的理论框架，而非具体防御方案。

安全/对齐论文/研究

01:41

Hacker News 热门（buzzing.cc 中文翻译）

51

Moebius：0.22B参数轻量级图像修复框架，性能媲美百亿级模型

Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction（LλMI）模块，将空间上下文与全局语义先验压缩为固定大小线性矩阵，大幅减少参数。结合自适应多粒度蒸馏策略，在隐空间中从教师模型迁移表征能力，动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上，Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越，参数量不足其2%，总推理速度提升超过15倍。

arXiv 图像生成论文/研究

00:08

Google Developers Blog（RSS）

精选61

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug（1178 个 CL），通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示：Jules 在单轮探索下洞察相关性评分平均 4.5/5；探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据，并探索纳入问题追踪器、对话等更丰富的上下文。

智能体 Google 编码论文/研究

推荐理由：AI 编码代理的评估从任务修复转向目标洞察，Google 这个思路让评估更接近真实开发场景，但实验还是内部数据，等公开 GitHub 版本再看落地效果。

6月22日

08:00

HuggingFace Daily Papers（社区热门论文）

54

程序性记忆管理：LLM智能体的控制、适应与评估

程序性记忆可帮助LLM智能体在重复工作中产生可复用技能，但其迁移能力尚不明确。AFTER基准包含382个真实企业任务，覆盖6种职业角色和22个程序性技能，评估跨任务、跨角色、跨模型的技能迁移。实验表明，单轮优化使整体性能提升3.7–6.7个百分点；基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率，优于所有单模型轨迹。部分技能可广泛泛化，另一些则专化于特定角色流程，迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

43

HeRA：面向多模态大语言模型的逐头表示对齐方法

HeRA在单个注意力头级别执行跨模态对齐，基于柏拉图表示假说，利用互K近邻（MKNN）度量定义对比损失，作为匹配局部拓扑结构的可微代理。训练时选择MKNN对齐分数最低的注意力头进行对齐，发现对齐最差的头反而带来最大收益。在多个MLLM和18项基准上的评估表明，HeRA一致提升视觉密集任务性能，并通过自然抑制对语言先验的过度依赖，有效缓解视觉幻觉。代码已开源。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

RaysUp：基于几何感知射线表示的超轻量通用特征上采样框架

RaysUp是一个超轻量、任务无关且与视觉基础模型无关的特征上采样框架，通过将重建提升至几何感知光线域，在任意分辨率下重建高分辨率特征图。核心组件包括空间解耦引导编码器、任意分辨率交叉注意力机制、基于6D Plücker射线坐标的RayPE（射线位置编码）和几何感知邻域注意力模块。在多种密集预测任务中取得SOTA性能，参数量仅为AnyUp的16%，推理速度提升约7倍。代码已开源。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

52

ReasoningLens：大型推理模型层级可视化与诊断审计框架

ReasoningLens是一个开源框架，用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题：将推理轨迹组织成交互式层级，分离高级策略与低级执行；利用智能体审计器自动检测错误并进行工具增强验证；综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察，为解释、调试和优化推理AI提供基础。

开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

SingGuard：政策自适应多模态LLM护栏模型系列

SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列，可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式，并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准，含56,340个样本，覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族（35个数据集）上均取得平均F1 SOTA；动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

50

GUI vs. CLI：屏幕仅限与技能中介的计算机使用智能体的执行瓶颈

该研究引入一项匹配执行层基准测试（440个桌面任务、18个应用、12个工作流类别），对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比，两者接受相同目标、状态和最终状态验证器，但仅限使用模态原生操作。最强GUI智能体全通过率59.1%，高于最强原始技能CLI智能体的48.2%；经验证器引导的技能增强后，CLI成功率升至69.3%，表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈：GUI受限于长时程工作流中的可靠接地交互，CLI受限于技能接口的覆盖率和可扩展性。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

43

ABACUS：适配统一基础模型以桥接图像计数理解与生成

ABACUS是一个统一的视觉语言模型，无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型，通过三项创新适配目标定位：基于目标图的密度感知自适应缩放实现空间定位；GRPO边界感知计数策略消除裁剪边界错误；循环一致GRPO策略让理解分支自我批判生成输出，无需外部标注缩小理解-生成差距。在七个基准上取得SOTA，超越任务专用专家和更大通用模型。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

计划不持久：为何上下文管理对LLM智能体至关重要

研究揭示标准LLM智能体依赖上下文窗口保持计划信息，而非将其内化为持久状态。在Llama-3.1-70B上，计划信号写入一步后从0.453骤降4.1倍，HotpotQA下降12.4倍。推理模型（DeepSeek-R1-Distill-Llama-70B）的思维链痕迹会重新推导计划，严格剥离后恢复样本内+163%、样本外+153%信号，非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748，R1专用分类器达1.000。压力测试中，丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

ReNIO：为大语言模型同策略蒸馏重加权负轨迹重要性

同策略蒸馏平等对待所有学生生成输出。实验发现，仅用错误输出训练效果优于仅用正确输出，因错误输出保留模型能力边界附近的探索性推理。为此，ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token，聚合为归一化样本权重，无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上，ReNIO同时提升同策略蒸馏和同策略自蒸馏，对Qwen3-1.7B最高提升8.90%，对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。

GitHub 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

VeriEvol：通过可验证进化指令扩展多模态数学推理

VeriEvol 是一个迭代框架，将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示；HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上，将进化 SFT 数据从 10K 扩展至 250K 样本，平均准确率从 35.42 升至 54.73；固定 backbone、SFT 初始化和 GRPO 配方后，VeriEvol 相比未进化 RL 基线累积提升 +3.88，其中进化提示贡献 +1.82，验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

AI智能体模型批判--从笛卡尔思想到GIC通用架构

论文基于笛卡尔独立思想奠基与科幻自主存在体描绘，从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力（含社交互动）内生的agentive系统。提出Goal-Identity-Configurator（GIC）通用架构，融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习，并讨论agentive系统在人类监督下的可审计性、可控性与安全性。

智能体安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

语义浏览：图像生成的可控多样性

现有文本到图像模型虽保真度高，但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”，让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离，直接在文本层面诱导多样性：利用视觉语言模型（VLM）操作完整场景上下文，并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间，每种变化对应一个可理解的语义决策。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

36

ChartWalker：面向跨图表RAG任务的基准框架

ChartWalker是一个面向跨图表检索增强生成（RAG）任务的新框架。它采用层次知识图谱构建方法，按粒度组织实体与关系，并设计结构感知采样算法生成语义一致的多跳推理路径，显式控制查询难度与粒度，以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准，覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距，同时提供ChartWalker-Agent基线辅助分析。

检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

AOHP：面向个性化、高效与安全交互的开源操作系统级智能体框架

AOHP（Android Open Harness Project）基于Android开源项目（AOSP）构建，将AI智能体视为操作系统的一等角色，提供自适应UI和智能体友好运行时环境，同时保留安卓软硬件生态。系统引入三种智能体导向机制：个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中，AOHP的任务完成率提升21.12%，token成本降低51.55%，并满足安全策略合规要求。

智能体开源/仓库论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

48

FedOT：面向联邦LDMs的所有权验证与泄漏追踪水印方法

联邦学习（FL）中的潜扩散模型（LDM）面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端，且可通过替换解码器轻易移除。为此提出FedOT框架，设计分块水印：第一部分用于所有权验证，第二部分用于客户端身份识别；同时引入潜向量变换（LVT），修改VAE原始潜分布以强化VAE与U-Net潜空间连接，使任何替换VAE去除水印的尝试都会导致图像质量严重下降，令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。

安全/对齐数据/训练论文/研究

6月21日

08:00

HuggingFace Daily Papers（社区热门论文）

55

交错式语音语言模型在文本中隐式工作

通过logit lens分析不同家族和规模的交错式语音语言模型，发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列，随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练，交错数据和文本LM初始化是诱发该机制的关键因素。

多模态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

61

Look Light， Think Heavy：多模态Chain-of-Thought推理能做什么、不能做什么

系统评估12个多模态任务（14个非推理模型、8个推理模型），发现：①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能，在数学、科学、多图像推理中有效；②现有开源多模态推理模型相比原始模型整体提升有限，可能因过度侧重数学推理而牺牲其他能力；③视觉推理是瓶颈，模型呈现“Look Light, Think Heavy”模式——语言反思起伏，视觉反思持续减弱，缺乏全程深度视觉内省。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

37

Libretto：赋予LLM智能体音乐结构感知

Libretto是一个面向LLM智能体的符号音乐生成与修订框架，采用包含显式onset槽、声部和小节组织的LLM原生语法，并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中，Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

PolicyTrim：提升VLA模型内在策略效率

VLA模型部署受执行效率制约，现有工作多聚焦单步推理延迟，未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架，通过动态探索策略奖励更长可执行动作块长度，并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上，动作块利用率提升3倍，物理执行步减少51.4%，端到端部署速度提升5.83倍，任务成功率未受影响。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

PlanBench-XL：评估大规模工具生态中LLM智能体的长时域规划

PlanBench-XL是一个交互式基准测试，包含327个零售任务和1,665个工具，用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性，迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示，GPT-5.4在无阻塞条件下准确率为51.90%，最严重阻塞下骤降至11.36%。分析表明，当故障缺乏明确错误信号或恢复需要更长替代工具路径时，智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。

智能体 MCP/工具推理论文/研究

04:08

HuggingFace Daily Papers（社区热门论文）

51

Lexical Consensus：人工智能体基于具身经验的词汇习得与共享意义

Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器，实验发现感知连贯性梯度主导学习效果：原生类别最易习得，远析取概念接近随机。CIFAR-100解离实验证实，感知距离显著预测习得准确率（partial R²=0.245, p<1e-7），语义距离无显著解释力。双向评估显示，样例机制在标签到图像检索中优于质心原型，命名与检索是分离的能力。控制实验表明，冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。

arXiv 多模态论文/研究

6月20日

16:59

IT之家（RSS）

49

中国科学家提出BabelTele"AI语言"：压缩至27.9%仍保留99.5%语义，人类难懂但LLM能懂

上海交通大学等六所高校于6月18日在arXiv发布研究，提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情，生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”，可将文本压缩至27.9%，语义准确率保持99.5%。在QuALITY问答中，人类阅读压缩文本后准确率下降，而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2，支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token，任务完成度超96%。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

OpenBioRQ：未解决生物医学研究问题的智能体基准测试

OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试，覆盖 12 个领域。问题无固定答案密钥，迫使模型通过多步工具调用自主验证证据，从而评估其真实性及弃权能力。当前智能体极少捏造引用（超 99% 可解析），但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上；在最难子集中同系列模型仅解决约 17%，而前沿智能体（Gemini-3-Pro、Opus-4.7、GPT-5.5）表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后，评分者间一致性从 Spearman 0.35 提升至 0.82。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

EBench：通用移动操控策略的细粒度诊断基准

EBench是一个模拟基准，用于细粒度诊断通用移动操控策略的能力，而非仅评估单一成功率。它包含26个多样化任务，沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型，发现成功率相近的模型能力画像存在显著差异：π₀.₅测试成功率最高且训练-测试保留最佳；InternVLA-A1在移动操控任务上占优，但在灵巧任务上崩溃；XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力，揭示了不同分布偏移因素的影响。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选74

可验证搜索不是可学习的链式思维

论文以九个确定性生成器推理任务为测试床，证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中，即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练，蒸馏后准确率始终为0.01–0.07，而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八（71%），但无法前向推导。干预实验揭示密码键后，同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录，让模型仅做回忆加验证，才能学会该任务（Private LB 0.92）。结论：蒸馏学到的是记忆和验证，而非搜索。

推理数据/训练论文/研究

推荐理由：这篇论文给CoT蒸馏泼了盆冷水，证明回溯搜索这种过程是学不会的，模型只能记住验证步骤。做推理微调的团队该重新审视自己的数据生成策略了。

08:00

HuggingFace Daily Papers（社区热门论文）

57

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

更深并非总是更好：通过Confident Decoding缓解对齐税

大语言模型自动回归生成传统上从最终层解码，但研究发现最终层可能将预测扰动到通用或对齐偏好的token，造成对齐税。Confident Decoding是一种无需训练的解码策略，通过熵引导的保守向后搜索动态选择最可靠的近最终层，并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上，该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进，零内存开销，延迟增加不到2%。结果表明，动态绕过最终层扰动可以解锁更强推理能力。

安全/对齐推理论文/研究

1…5 678 9…50