全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「论文/研究」清除

6月2日周二

08:00HuggingFace Daily Papers（社区热门论文）65AgentCL：面向语言智能体持续学习的严格评估框架

08:00HuggingFace Daily Papers（社区热门论文）56自蒸馏策略梯度

08:00HuggingFace Daily Papers（社区热门论文）56SynCred-Bench：AI生成视觉错误信息的合成可信度基准测试

00:09Rohan Paul48哈德斯菲尔德大学发布生成式AI基础综述

6月1日周一

23:05elvis71关于自我改进智能体的宝贵建议

22:39Rohan Paul60更好的AI智能体系统通过记住有用的反馈来扩展，而非消耗更多算力

21:09AK58GrepSeek：训练搜索智能体直接交互语料库

17:50HuggingFace Daily Papers（社区热门论文）69MMG2Skill：智能体能否从现实指南中蒸馏出自我进化的技能？

15:00HuggingFace Daily Papers（社区热门论文）52HarnessForge：面向自适应智能体系统的框架与策略协同进化

14:51HuggingFace Daily Papers（社区热门论文）68Adaptive Auto-Harness：面向开放任务流智能体系统部署的持续自改进框架

14:00OpenClaw🦞72精选联合NVIDIA开源ClawHub技能安全扫描数据集

13:06MarkTechPost（RSS）43Parallax：保留Softmax并增加学习协方差修正分支的参数化局部线性注意力

10:52HuggingFace Daily Papers（社区热门论文）64TRON：面向视觉推理强化学习的可控在线环境框架

10:04Rohan Paul62AI聊天机器人处理新闻：优势与脆弱性并存

08:00HuggingFace Daily Papers（社区热门论文）352FFS：面向随机Minimax树的双保真度最优动作识别算法

08:00HuggingFace Daily Papers（社区热门论文）45LayerRoute：面向智能体语言模型的输入条件自适应LoRA层跳过微调

08:00HuggingFace Daily Papers（社区热门论文）54参数化社会身份注入（PSII）：用于公众舆论模拟的多样性提升框架

08:00HuggingFace Daily Papers（社区热门论文）69自动驾驶的未来：KITScenes多模态数据集

08:00HuggingFace Daily Papers（社区热门论文）60面向智能体重识别的LLM匿名化：AURA框架

08:00HuggingFace Daily Papers（社区热门论文）48金融LLM智能体新架构：交互原生知识束（InKH）

08:00HuggingFace Daily Papers（社区热门论文）52AdaCodec：用于视频多模态大模型的预测性视觉编码

08:00HuggingFace Daily Papers（社区热门论文）40质量引导的半监督医学图像分割

08:00HuggingFace Daily Papers（社区热门论文）46SITA：可扩展的推理时间退火方法

08:00HuggingFace Daily Papers（社区热门论文）54思维经济：通过经济交互涌现的多智能体智能

08:00HuggingFace Daily Papers（社区热门论文）57FiRe-OPD：先过滤，再重加权--重新思考在线策略蒸馏的优化粒度

08:00HuggingFace Daily Papers（社区热门论文）75Cosmos 3：面向物理AI的全模态世界模型

08:00HuggingFace Daily Papers（社区热门论文）62深度研究智能体轨迹中的跨度级错误定位研究

08:00HuggingFace Daily Papers（社区热门论文）64WALL-WM：沿事件节点雕刻世界动作建模

08:00HuggingFace Daily Papers（社区热门论文）64利用感知扰动和奖励建模缓解多模态大语言模型评估中的感知判断偏差

08:00HuggingFace Daily Papers（社区热门论文）64AutoMedBench：面向医疗自主研究的智能体AI模型基准测试

08:00HuggingFace Daily Papers（社区热门论文）61大语言模型多领域强化学习中的干扰与恢复的局部微扰理论

08:00HuggingFace Daily Papers（社区热门论文）57PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

08:00HuggingFace Daily Papers（社区热门论文）69去中心化指令微调：冲突感知切分与权重合并

07:20HuggingFace Daily Papers（社区热门论文）54ClawHub Security Signals： VirusTotal、静态分析与SkillSpector的分歧

05:53Rohan Paul45效率增益错觉：人们低估AI使用率并高估其在简单任务上的收益

01:48elvis60效率前沿

5月31日周日

18:24IT之家（RSS）61中国科学家开发出无人机蜂群新算法：通信中断、视野受限条件下仍能作战，为首个达到 100% 杀伤率且保持足够响应速度的算法

17:47The Decoder：AI News（RSS）61Anthropic研究发现：在社会科学研究中，男性使用AI编程智能体的频率是女性的两倍以上

16:17The Decoder：AI News（RSS）60AI 搜索代理往往只是确认其已知信息，而非真正研究网络

14:38HuggingFace Daily Papers（社区热门论文）55解耦残差去噪扩散模型实现统一高效图像到图像翻译

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月2日

08:00

HuggingFace Daily Papers（社区热门论文）

65

AgentCL：面向语言智能体持续学习的严格评估框架

AgentCL 是一个评估语言智能体持续学习的框架，核心是构造受控任务流和转移增益指标。受控流确保早期子解、证据或工作流可在后续任务中复用，而朴素流无法保证复用。框架还引入 MemProbe 探测方法，存储交互、洞察与技能，并在整合时过滤不可靠经验。在编码、深度研究和语言理解/推理任务上的实验表明，朴素流难以区分不同记忆设计，受控流能清晰区别其可塑性；朴素流与保留设置往往增益有限，甚至暴露记忆诱导的性能退化。研究揭示了平衡可塑性与稳定复用的更强记忆设计需求。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

自蒸馏策略梯度

论文提出自蒸馏策略梯度（SDPG）框架，结合群体相对验证器优势、归一化标准差、精确全词汇在策略自蒸馏及参考策略KL正则化。在稀疏奖励强化学习中，语言模型基于特权上下文自监督生成，利用全词汇学生到教师反向KL散度作为辅助损失。实验表明SDPG在稳定性和性能上优于RLVR和自蒸馏基线。代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

SynCred-Bench：AI生成视觉错误信息的合成可信度基准测试

SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试，覆盖6种可信形式类别和7种细粒度传播风格，并配有FP450真实图像负集。评估显示，在5%假阳性率约束下，现有系统表现不可靠：15个多模态大语言模型仅达10.5%真阳性率，开源AIGC检测器不足5%，商业API达57.6%，人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。

arXiv 多模态安全/对齐论文/研究

00:09

Rohan Paul@rohanpaul_ai

48

哈德斯菲尔德大学发布了一份178页的调查研究，旨在更新数学和生成式AI的基础知识。《生成式AI基础小册子》。

数据/训练论文/研究

6月1日

23:05

elvis@omarsar0

71

关于自我改进智能体的宝贵建议

该研究指出，在自我改进的AI智能体中，“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力：产生更新的能力在不同模型间趋于平坦，而从更新中受益的能力呈倒U形曲线，在中等模型处达到顶峰。弱模型无法有效激活更新，强模型则因已处性能高位而获益甚微。因此，成本效益最佳的配置是：使用廉价的中等模型担任“进化器”，而将昂贵的强模型用作“求解器”。

智能体 arXiv 推理论文/研究

22:39

Rohan Paul@rohanpaul_ai

60

更好的AI智能体系统通过记住有用的反馈来扩展，而非消耗更多算力

当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出，两次运行消耗相同预算，但反馈的有效性可能天差地别。为此，研究提出了“有效反馈计算”（EFC）指标，仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明，任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中，采用更好反馈的方法将任务成功率从0.27提升至0.90，而成本和工具调用次数保持不变。链接：arxiv.org/abs/2605.29682 标题："Scaling Laws for Agent Harnesses via Effective Feedback Compute"

智能体 arXiv 数据/训练论文/研究

21:09

AK@_akhaliq

58

GrepSeek 训练搜索智能体以直接交互语料库

智能体检索增强搜索论文/研究

17:50

HuggingFace Daily Papers（社区热门论文）

69

MMG2Skill：智能体能否从现实指南中蒸馏出自我进化的技能？

MMG2Skill-Bench是首个将人类多模态、异构、含噪声的现实指南转化为智能体可执行技能的基准。MMG2Skill框架以闭环方式将指南编译为可编辑技能，在运行中固定VLM智能体，并通过轨迹级根因反馈修订技能。在GUI控制、开放游戏和策略卡牌任务中，使用六种VLM骨干，MMG2Skill在所有模型-领域设置下一致优于普通基线，宏平均提升+12.8至+25.3个百分点。消融实验表明结构化技能构建和轨迹驱动修订缺一不可。

智能体论文/研究

15:00

HuggingFace Daily Papers（社区热门论文）

52

HarnessForge：面向自适应智能体系统的框架与策略协同进化

HarnessForge提出元自适应框架，将LLM智能体系统形式化为框架-策略对，通过故障引导的框架定制和框架条件化的策略对齐实现协同进化。在五个跨领域基准上，基于Qwen3-4B和Qwen3-8B的HarnessForge相比仅优化框架或策略的基线最高提升12.0%，表明框架与推理策略的可执行兼容性对智能体系统自适应至关重要。代码已开源。

智能体 MCP/工具论文/研究

14:51

HuggingFace Daily Papers（社区热门论文）

68

Adaptive Auto-Harness：面向开放任务流智能体系统部署的持续自改进框架

现有 Auto-Harness 系统仅针对固定离线基准评测，而开放任务流存在无终点历史、异构任务与分布偏移，导致单一密集更新装备性能先升后降。本文提出 Adaptive Auto-Harness，将距 oracle 装备差距分解为进化损失与适配损失，采用状态化多智能体进化器、带求解时路由的装备树及人类引导钩子来解决。在预测市场、安全竞赛与事件预测三个任务流上，该方法优于五个基线，消融实验验证了各模块贡献。代码已开源。

智能体 GitHub 论文/研究部署/工程

14:00

OpenClaw🦞@openclaw

精选72

与 @nvidia 合作，我们开源了一个包含 67，453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

智能体 Hugging Face 安全/对齐论文/研究

推荐理由：OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果，一半被标风险但真正恶意的不到千分之三，不同扫描器几乎没共识。做 agent 安全的应该看看。

13:06

MarkTechPost（RSS）

43

Parallax：保留Softmax并增加学习协方差修正分支的参数化局部线性注意力

Parallax是一种新的注意力机制，它用一个学习到的投影器取代了LLA中的每查询求解器，从而将算术强度提升了一倍。在0.6B和1.7B的模型规模上，该方法有效改善了模型的困惑度。

数据/训练论文/研究

10:52

HuggingFace Daily Papers（社区热门论文）

64

TRON：面向视觉推理强化学习的可控在线环境框架

TRON 是一个面向视觉推理强化学习（RL）的在线环境框架。它通过可控的生成器-验证器程序，按需生成全新的视觉状态、图像和问答实例。当前 TRON 套件包含 520 个环境，按能力分为五个类别。该框架支持单一全模型训练和按桶训练专家模型，无需额外数据采集，并提供了生成可靠性、多样性等分析。基于 TRON 进行 RL 后训练，能持续提升 Qwen3-VL-4B、Qwen2.5-VL-7B 与 MiMo-VL-7B-SFT 在多个外部多模态推理基准上的性能。

arXiv 论文/研究

10:04

Rohan Paul@rohanpaul_ai

62

AI聊天机器人处理新闻：优势与脆弱性并存

该论文评估了商业AI聊天机器人作为新闻中介的能力。研究发现，当以多选题形式提问时，最佳系统对数小时前新闻的准确率已超过90%，这表明检索增强生成技术正从静态知识库迈向实时信息处理。然而，这种高准确性并不稳定。当要求系统自由生成回答、新闻为印地语，或用户提问包含错误预设时，其表现显著下降。超过70%的错误源于检索失败或来源偏差，即系统检索到了近似但不精确的信息，随后基于错误的来源、语言或时间戳生成了回答。论文标题为《Evaluating Commercial AI Chatbots as News Intermediaries》（arxiv.org/abs/2605.22785）。

检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

35

2FFS：面向随机Minimax树的双保真度最优动作识别算法

针对深度极小极大搜索与蒙特卡洛树搜索（MCTS）中启发式评估廉价但有偏、准确rollout可靠但昂贵的权衡，提出2FFS，一种双保真度树搜索算法。该算法将多保真度平坦bandit思想引入树结构，结合minimax式快速扩展与MCTS式随机采样，自适应决定何时利用廉价评估、何时调用昂贵准确评估。理论证明固定置信度正确性与有限终止性，并给出多项式深度成本上界。数值实验表明，相比现有BAI-MCTS基线，2FFS所需样本和计算操作显著更少。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

LayerRoute：面向智能体语言模型的输入条件自适应LoRA层跳过微调

针对智能体语言模型中工具调用（短、确定、低困惑度）与规划推理（长、复杂、高困惑度）步骤异构但计算均分的问题，LayerRoute为Qwen2.5-0.5B-Instruct的24层transformer每层添加路由器和LoRA适配器（rank 8，约1.08M参数），仅训练1.10M参数（占494M主干0.22%），3000步（6.4分钟A100 40GB）后实现12.91%跳过差分：工具调用跳过15.25% FLOPs，规划步骤仅跳过2.34%，困惑度分别下降-1.29和-1.30。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

参数化社会身份注入（PSII）：用于公众舆论模拟的多样性提升框架

大语言模型（LLM）作为合成智能体进行公众舆论模拟时存在“多样性崩溃”问题——不同社会身份的表征在层间逐渐不可区分，导致响应同质化。为此提出参数化社会身份注入（PSII）框架，将人口统计属性与价值取向的显式参数化表示注入LLM中间隐藏状态，实现细粒度可控的身份调制。基于World Values Survey对多个开源LLM的实验显示，PSII显著提升了分布保真度与多样性，降低了与真实调查数据的KL散度。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

自动驾驶的未来：KITScenes多模态数据集

KITScenes Multimodal是一个欧洲自动驾驶多模态数据集，传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素（含红绿灯）以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市，补充地理多样性。同时推出四个基准：在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。

arXiv 具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

60

面向智能体重识别的LLM匿名化：AURA框架

Agentic LLM结合网络搜索使弱上下文线索可成为跨源重识别证据，现有防御仅移除显式标识符或扰动文本，未充分探索抵抗智能体重识别与保留效用的操作区间。AURA是一种LLM掩码-重构框架，将隐私定位与效用保留重构解耦，并通过对抗性隐私与效用保留检查选择候选。在真实访谈转录上使用网络搜索智能体重识别攻击评估，结合受访者画像、编码本及联合上下文效用网格进行效用评估。结果显示，AURA通过自适应隐私范围提升对智能体重识别的抵抗力，并在固定隐私范围下更好地保留上下文效用。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

金融LLM智能体新架构：交互原生知识束（InKH）

金融AI智能体常因用户需反复陈述目标、风险偏好、投资组合和市场假设而失败。研究人员提出InKH架构，将用户、市场、组合和工具事件转化为结构化知识，采用被动知识注入、时间图记忆、wiki审计面及带成熟度与失效的背景提取。在46,080次评估中，InKH平均任务质量0.815（900ms延迟）。相比agent驱动的wiki-walk记忆，延迟降低82.95%，token成本降低82.29%，过时知识使用减少96.58%，质量提升0.108。验证了系统吸收复杂性而非转嫁用户的理念。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

52

AdaCodec：用于视频多模态大模型的预测性视觉编码

AdaCodec是一种预测性视觉编码，仅在场景难以从先前上下文预测时向参考帧分配完整视觉token，否则将帧间变化（运动与预测残差）编码为紧凑的P-tokens。在全部11项基准测试中，AdaCodec在同等视觉token预算下优于Qwen3-VL-8B逐帧RGB基线。即便在1/7预算下，使用32k tokens的AdaCodec在所有长视频基准上超越了224k基线；在五项通用视频基准上平均得分提升，同时首token延迟从9.26秒降至1.62秒。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

40

质量引导的半监督医学图像分割

训练医学图像分割模型需要大量密集标注数据，成本高昂。现有半监督学习依赖伪标签，但模型置信度或不确定性评估存在自我参照问题。本文提出质量引导的半监督学习框架，训练专用网络从图像-掩膜对估计分割质量。该质量预测器通过合成损坏及部分训练模型生成的不完美掩膜进行训练，捕捉真实错误模式。通过质量感知正则化损失和基于质量的伪标签重加权两种机制融入半监督学习，可作为即插即用模块集成到现有框架。在五个数据集和多种架构上的实验表明，该方法持续优于竞品，达到最新水平。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

SITA：可扩展的推理时间退火方法

计算化学和生物物理中长期挑战是高效采样分子玻尔兹曼分布。现有方法通过迭代微调扩散模型沿温度梯度进行推理时间退火，但需计算分数场散度来估计重要性权重，对大系统不可行。本文提出可扩展推理时间退火（SITA），利用能量模型提供快速替代似然，重新训练基于流的模型逐步降低温度生成样本。在Alanine Dipeptide和Alanine Tripeptide上达到最先进性能，避免了昂贵的散度项。代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

思维经济：通过经济交互涌现的多智能体智能

受哈耶克市场去中心化协调理论启发，多智能体系统通过拍卖竞争行动权、交换支付并从环境奖励积累财富，经济信号实现去中心化信用分配，驱动无需全局协调的规划。种群通过经济选择演化：高效智能体积累财富并经历利用性变异，低效者破产后被探索性替代。初始为弱智能体的经济系统在数学推理、金融研究、科学研究、加速器设计、分布式系统优化五个任务上涌现多步推理策略，性能超越更强单一模型基线。理论分析揭示经济动力学如何将局部激励与长期全局性能关联。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

FiRe-OPD：先过滤，再重加权--重新思考在线策略蒸馏的优化粒度

FiRe-OPD（Filter, then Reweight）重新思考在线策略蒸馏的优化粒度，在轨迹和token两个层面联合调整监督信号。先过滤低质量轨迹，再对保留轨迹内的token进行软加权，避免硬选择带来的信息损失并提升优化稳定性。该方法在强到弱、单教师、多教师三种设置下均优于近期token级OPD方法：在AIME 2024上提升6.25分，在Miner上提升18.81分。代码已开源。

开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

75

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA 发布 Cosmos 3 全模态世界模型家族，基于统一混合 Transformer 架构，联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架，在多项理解与生成任务上达到新 SOTA。技术报告撰写时，后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型，被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源（Linux Foundation OpenMDW-1.1 许可）。

具身智能多模态开源生态论文/研究

关联讨论 9 条X：Kim (@kimmonismus)IT之家（RSS）Hugging Face：Blog（RSS）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）LMSYS：Blog（Chatbot Arena 团队）

08:00

HuggingFace Daily Papers（社区热门论文）

62

深度研究智能体轨迹中的跨度级错误定位研究

深度研究型AI智能体通过搜索、工具调用等长轨迹执行任务，但最终答案评估无法揭示轨迹中导致错误的环节。研究针对跨度级错误定位，从两个框架、三个模型和三个基准中收集2790条真实轨迹，经LLM辅助专家标注后构建1000实例的评测基准TELBench。同时提出以主张为中心的审计框架DRIFT，追踪智能体主张并核对轨迹证据支持度。实验表明，DRIFT在跨度级错误定位和首次错误准确率上提升高达30个百分点。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

WALL-WM：沿事件节点雕刻世界动作建模

WALL-WM 是一种世界动作模型，将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作（VLA）预训练。它把语义一致的动作事件作为基本学习单元，解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态，并从同一预训练主干支持两种推理模式：事件模式（变长执行块）和统一模式（使用 VLM 与阶梯解码）。依托 Muon 优化器的大规模预训练基础设施，WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

利用感知扰动和奖励建模缓解多模态大语言模型评估中的感知判断偏差

多模态大语言模型作为评估者时，若视觉证据与文本线索冲突，模型倾向于奖励看似合理但感知错误的答案，即感知判断偏差。本文构建感知扰动评估数据集，通过最小编辑的反事实响应隔离感知错误并提供可验证监督；提出结合GRPO结构化奖励与批量排序目标的统一训练框架，无需显式成对标签即可实现全局排序一致性。实验表明该方法显著提升评估的感知忠实度、排序一致性与人类对齐度。

安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

64

AutoMedBench：面向医疗自主研究的智能体AI模型基准测试

AutoMedBench 是一个工作流感知的基准测试，用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务，组织智能体执行统一的五阶段工作流：规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道，每个任务设有Lite与Standard两个难度级别，单次运行平均包含33个智能体回合。结果表明，验证阶段是当前智能体最薄弱的环节，而设置阶段表现最强。错误分析显示，验证与提交失败分别占37.7%和38.1%，任务理解错误仅占0.9%；出现错误代码的运行总分平均比无错误运行低48%。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

大语言模型多领域强化学习中的干扰与恢复的局部微扰理论

研究发现，对大语言模型进行单一领域（如数学、代码）的强化学习后训练，会对其他领域产生干扰，即使全模型梯度近似正交也会发生。论文提出了一个局部微扰模型来解释此现象：干扰主要通过一个集中在低维共享冲突子空间中的二阶损害项发生。理论证明，一次简短的领域刷新可以收缩该子空间中的有害分量，从而实现选择性恢复。实验表明，在经历代码→数学→问答→创作写作的序列训练后，进行Re-Math刷新可将数学性能恢复，同时基本保持其他领域表现。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口，并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图，融合自监督视觉编码器的几何与语义节点距离，并通过盲目匹配来定位语言目标，无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明，PlatonicNav在无需显式跨模态训练的情况下，实现了跨任务、跨模态和跨具身的泛化能力。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

去中心化指令微调：冲突感知切分与权重合并

针对多模态大模型指令微调中的梯度干扰与高带宽同步瓶颈，MERIT提出了一种去中心化、可合并的微调流水线。该方法通过估计数据集间的梯度冲突，沿主成分分析（PCA）冲突轴进行切分，使各部分独立训练无需通信，最后通过基于token频率的加权平均进行一次权重合并。在Qwen2-VL-3B模型上使用136个Vision-FLAN任务评估，MERIT将8个基准测试的平均得分从联合训练的54.3提升至57.0。该流程同样可扩展至1.6M样本、176个来源的7B模型，以最小开销匹配或超越集中式联合训练。

GitHub 数据/训练论文/研究

07:20

HuggingFace Daily Papers（社区热门论文）

54

ClawHub Security Signals： VirusTotal、静态分析与SkillSpector的分歧

ClawHub Security Signals数据集包含67,453个公开OpenClaw Agent技能版本，用于研究三个安全扫描器（VirusTotal、静态启发式分析与NVIDIA SkillSpector）的检测分歧。研究发现，三者极少标记相同技能：任意两者的正例重叠率最高仅10.4%，仅0.69%的技能被全部三者标记，81.9%的被标记技能仅被单个扫描器识别。NVIDIA SkillSpector主要在25,504个可疑样本中发出75.3%的警报，而VirusTotal则在206个恶意样本中标识出72.8%。结果表明，Agent技能安全需要分层治理，而非依赖单一扫描器的允许或阻止决策。该数据集作为包含自动裁决标签的银标准版本发布。

智能体安全/对齐论文/研究

05:53

Rohan Paul@rohanpaul_ai

45

效率增益错觉：人们低估AI使用率并高估其在简单任务上的收益

MIT、斯坦福等高校联合研究发现，人们普遍存在“效率增益错觉”，即高估AI在简单任务（如算术、拼写）上带来的效率提升。在包含2691名参与者的三项研究中，人们实际使用AI完成这些简单任务的频率高于其自我预期。参与者预期AI平均能节省55.7秒，但实测仅节省了7.5秒。研究指出，使用AI存在界面摩擦（如编写提示词、等待、核对）等隐形成本，并会引发“自我证成”循环：一旦开始使用，即使独立完成更快，人们也可能因惯性而继续依赖AI，从而悄然低估自身的独立判断力。

数据/训练论文/研究

01:48

elvis@omarsar0

60

该论文指出，当AI智能体在多轮对话中重复使用相同文档和历史记录时，固定的上下文策略并非最优。研究提出了“效率前沿”框架，将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描，可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明，部署感知的选择能在保持相同性能下减少约25%的有效token使用量，而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体 arXiv 检索增强论文/研究

5月31日

18:24

IT之家（RSS）

61

中国科学家开发出无人机蜂群新算法：通信中断、视野受限条件下仍能作战，为首个达到 100% 杀伤率且保持足够响应速度的算法

智能体具身智能论文/研究

17:47

The Decoder：AI News（RSS）

61

Anthropic研究发现：在社会科学研究中，男性使用AI编程智能体的频率是女性的两倍以上

Anthropic的一项研究发现，在社会科学领域，通常男性名字的研究者使用AI编程智能体的频率，超过通常女性名字研究者的两倍。数据显示，经济学家中有39%使用编程智能体，而教育研究者中这一比例仅为4%。这一性别差距在编程智能体的使用上，远比在一般AI使用中更为显著。

智能体 Anthropic 现象/趋势论文/研究

16:17

The Decoder：AI News（RSS）

60

AI 搜索代理往往只是确认其已知信息，而非真正研究网络

哈尔滨工业大学研究人员发现，包括 GPT-5.4 和 Kimi K2.6 在内的领先 AI 搜索代理，在已有的基准测试上并未进行太多真正的网络研究。它们主要利用网络来确认其在训练阶段已学到的知识。研究团队使用名为 LiveBrowseComp 的新基准测试得出了该结论，此测试仅涉及过去 90 天内的事件。当模型无法依赖既有记忆时，其表现显著下降，现有的性能排名也随之改变。

搜索论文/研究评测/基准

14:38

HuggingFace Daily Papers（社区热门论文）

55

解耦残差去噪扩散模型实现统一高效图像到图像翻译

DRDD 模型将扩散过程解耦为两个独立阶段：先进行随机噪声扩散以实现领域协调和流形提升，再通过确定性残差扩散在固定噪声域内学习核心语义映射。该设计保留了扩散过程对特征分布的隐式对齐能力，显著简化了跨任务统一映射的学习。噪声扩散阶段仅在未配对的目标域图像上训练，极大提升了数据效率。理论与实验表明，DRDD 与主流扩散模型兼容，即使在配对数据有限时也能实现稳健的统一翻译。代码已在 GitHub 开源。

图像生成开源/仓库数据/训练论文/研究

1…28 293031 32…50