6月9日

19:44

Rohan Paul@rohanpaul_ai

一篇论文系统研究了Transformer注意力中QKV投影的必要性，发现Key和Value可共享同一投影（Q-K=V变体），仅增加3.1%的困惑度，便将KV cache削减50%，大幅降低推理内存。最佳变体保留Query独立，使注意力保持方向性。与GQA和MQA结合时，可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。

arXiv 推理论文/研究部署/工程

04:16

elvis@omarsar0

AI智能体重塑知识工作的三个维度

一篇新论文从自主性、效率和工人移交任务的范围三个维度，分析AI智能体如何重塑知识工作。研究指出，当前人们使用智能体的主要障碍并非模型质量，而是几乎没有人接受过如何以这种方式工作的培训。

智能体 arXiv 论文/研究

01:41

Rohan Paul@rohanpaul_ai

"CL-BENCH 基准测试：AI 智能体全上下文记忆优于复杂记忆系统"

新论文构建 CL-BENCH 基准，评估 AI 智能体在编程、数据库、预测、无线电信号、扑克、疾病研究 6 个领域中的持续学习能力。每个任务隐藏可随时间习得的模式，考察智能体能否超越预训练知识。测试前沿 LLM 系统采用全上下文记忆、草稿笔记、检索记忆、剧本式记忆及编码智能体设置，结果发现当前记忆密集型 AI 智能体并未可靠优于简单保留完整对话上下文。Claude Sonnet 4.6 使用普通上下文取得最佳总体分数。论文指出智能体仍需更好方法记住有用经验、遗忘过时信息并适应环境变化。

智能体 arXiv 论文/研究

6月8日

12:38

Rohan Paul@rohanpaul_ai

斯坦福、MIT、哈佛与Anthropic联合论文：为什么更大模型能学到小模型学不会的罕见技能

该论文指出，更大模型能学到罕见技能，是因为训练中遗忘更少，其额外容量保护了弱学习信号。核心机制：常见任务先抢占神经元，罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号，但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型（4M–4B参数）验证：大模型在低频任务上表现更优，保留更多任务特征，且常见任务更新对罕见任务的梯度干扰更小。作者强调，问题不仅在于小模型能否表征任务，更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。

Anthropic arXiv 数据/训练论文/研究

09:37

meng shao@shao__meng

AGENTS.md 在 Coding Agents 中真的有用吗？

论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite（300 任务）和新建 AGENTBENCH（138 任务）上测试 Claude Code、Codex、Qwen Code 等组合。核心发现：LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降，平均 -0.5%（SWE-bench）/-2%（AGENTBENCH），成本增加 +20%+；开发者手写仅平均 +4%。冗余假说：移除其他文档后，自动生成反而 +2.7%。建议避免自动生成，精简测试/lint 命令，优先写入仓库专用工具。

Sebastian Raschka: http://x.com/i/article/2063647807437705216

智能体 arXiv 编码论文/研究

03:07

Rohan Paul@rohanpaul_ai

Meta-Agent Challenge：当前AI智能体能否自主构建更好的智能体？

一项新研究提出Meta-Agent Challenge（MAC）基准，测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示，当前智能体大多无法超越人工设计的强智能体系统，仅Claude等少数封闭前沿模型取得较好表现。研究认为，当前智能体更像是强大的执行者，而非具备可靠自改进能力的工程师。

智能体 arXiv 论文/研究评测/基准

02:07

Rohan Paul@rohanpaul_ai

推理模型后训练数据入门：改进的关键在可验证反馈而非数据规模

论文指出，更好的推理模型更依赖可验证的训练证据，而非原始数据规模。推理数据的关键不是简单问答对，而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类：数学和代码用精确规则、智能体工具用环境检查，无精确检查器时用人类或模型判断。常见误区包括：长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息，因为学习信号常在其中。

智能体 arXiv 推理数据/训练

01:07

elvis@omarsar0

论文提出用代码压缩率衡量AI智能体是否真正发现新知识

本周一篇AI论文探讨自我改进智能体是否真正发现新知识，还是仅重新组合已知信息。作者将行为分为三类：检索（查询已有笔记本）、搜索（组合现有工具）和发现（发明新概念），并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学，四轮中R²从0.48升至0.68再降至0.54和0.41，看似变差实则不断挑战更难蛋白质并重写理论：数据增长近10倍，模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接：arxiv.org/abs/2606.01444。

智能体 arXiv 大佬观点推理

6月7日

01:01

Rohan Paul@rohanpaul_ai

MIT论文提出Self-Revising Discovery Systems框架

MIT论文（F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026）提出Self-Revising Discovery Systems框架，使AI科学家能自主识别当前思维模式不足并添加新科学概念，而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物（typed provenance），从而区分三种模式：retrieval（添加已知对象）、search（探索固定模式）和discovery（可验证的模式转换）。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化，使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体 arXiv 推理论文/研究

00:30

Rohan Paul@rohanpaul_ai

MIT团队提出自我演进AI科学家框架：让AI主动扩展科学概念空间

MIT团队提出自我演进AI科学家框架，核心创新是让AI识别当前推理空间过小并主动添加新科学概念，而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact，明确区分检索（添加已知对象）、搜索（探索固定schema）和发现（可验证的模式扩展）。通过类型化copresheaf与Kan障碍理论证明，真正发现是可验证的schema扩展：旧证据由左Kan扩展传输，创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性，以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444（2026）。

Markus J. Buehler: We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...

智能体 arXiv 推理论文/研究

6月6日

23:30

elvis@omarsar0

CL-Bench：记忆系统不如简单上下文学习

持续学习领域投入多但进展缓慢。CL-Bench（持续学习基准）在六个由专家验证、包含共享可学习结构的领域上测试，发现简单的上下文学习（ICL）基线优于专门为记忆管理构建的系统。该基准引入增益指标以隔离真正学习效果，结果显示智能体常过度拟合即时观察或未能跨实例复用知识。研究指出，若普通ICL基线超过你的记忆架构，则该架构增加的是开销而非学习。论文：arxiv.org/abs/2606.05661。

智能体 arXiv 数据/训练论文/研究

05:23

Emad@EMostaque

如果 Claude 对诺贝尔奖得主来说都足够好，那对你也一样。 https://arxiv.org/abs/2606.03300

Anthropic arXiv 论文/研究

00:00

AK@_akhaliq

ArcANE 角色扮演语言智能体是否能在适当时刻保持角色？

智能体 arXiv 论文/研究

6月5日

15:57

Tencent Hy@TencentHunyuan

精选74

腾讯混元联合人大开源PlanningBench评估框架

腾讯混元（Tencent Hunyuan）与中国人民大学高瓴人工智能学院合作，开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务，支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。

智能体 arXiv GitHub 开源/仓库

推荐理由：腾讯混元联合人大开源的 PlanningBench，补上了 LLM 从「会说」到「会做」之间规划能力评估的缺口，做 Agent 的同学可以直接用来评测和训练，开源即用。

09:26

Rohan Paul@rohanpaul_ai

Harness-1：通过状态外部化提升搜索智能体性能

Harness-1 将大语言模型的记忆工作转移到外部辅助系统（harness），解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择，而可恢复状态（候选池、证据链接、去重记录、预算感知记忆等）由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中，外部化状态避免了失败原因混淆，有助于策略学习。Harness-1 在未见 benchmark 上提升更大，表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。

智能体 arXiv 推理搜索

6月4日

18:52

Rohan Paul@rohanpaul_ai

伊利诺伊大学和清华大学等研究发现：LLM智能体不断重写记忆反而导致记忆不可靠

伊利诺伊大学和清华大学等实验室研究发现，LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历（实际过往尝试和解决方案）往往比提炼后的总结更有用。测试中，GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%，但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要，保留原始证据并仅偶尔总结效果更好。

智能体 arXiv 数据/训练论文/研究

6月3日

10:16

Rohan Paul@rohanpaul_ai

FluxMem：将AI智能体记忆视为持续演化的动态连接网络

FluxMem是一种新型AI智能体记忆系统，其核心思想是将记忆视为一个动态连接的网络，而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时，FluxMem先收集可能有用的记忆，再根据任务反馈动态修正记忆间的连接关系。此外，系统能将反复成功的任务路径转化为可复用技能。测试显示，该系统在LoCoMo基准上平均准确率达95.06，并在GAIA基准上结合Kimi K2取得了12.73分的性能提升，优于现有记忆系统。

智能体 arXiv 大佬观点

6月2日

23:12

elvis@omarsar0

单LLM驱动多智能体系统扩展行为研究

研究探讨添加更多智能体是否提升多智能体系统性能。结论指出，最优智能体数量取决于基础模型的能力和任务类型，而非单纯增加数量。集体智能更可能源于精心的交互设计，而非智能体数量的增多。相关论文："Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。

智能体 arXiv 论文/研究

6月1日

23:05

elvis@omarsar0

关于自我改进智能体的宝贵建议

该研究指出，在自我改进的AI智能体中，“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力：产生更新的能力在不同模型间趋于平坦，而从更新中受益的能力呈倒U形曲线，在中等模型处达到顶峰。弱模型无法有效激活更新，强模型则因已处性能高位而获益甚微。因此，成本效益最佳的配置是：使用廉价的中等模型担任“进化器”，而将昂贵的强模型用作“求解器”。

智能体 arXiv 推理论文/研究

22:39

Rohan Paul@rohanpaul_ai

更好的AI智能体系统通过记住有用的反馈来扩展，而非消耗更多算力

当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出，两次运行消耗相同预算，但反馈的有效性可能天差地别。为此，研究提出了“有效反馈计算”（EFC）指标，仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明，任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中，采用更好反馈的方法将任务成功率从0.27提升至0.90，而成本和工具调用次数保持不变。链接：arxiv.org/abs/2605.29682 标题："Scaling Laws for Agent Harnesses via Effective Feedback Compute"

智能体 arXiv 数据/训练论文/研究

01:48

elvis@omarsar0

效率前沿

该论文指出，当AI智能体在多轮对话中重复使用相同文档和历史记录时，固定的上下文策略并非最优。研究提出了“效率前沿”框架，将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描，可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明，部署感知的选择能在保持相同性能下减少约25%的有效token使用量，而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。

智能体 arXiv 检索增强论文/研究

5月30日

00:45

AK@_akhaliq

DynaFLIP 通过三模态动态引导的表征重新思考机器人感知

arXiv 具身智能多模态论文/研究

5月29日

23:14

elvis@omarsar0

AI智能体评估新指标：有效反馈计算提升成功率

新研究提出“有效反馈计算（EFC）”指标，用于优化AI智能体测试框架的设计。传统评估中，原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42，而EFC将此提升至0.99。基于EFC进行资源重分配，可在相同计算量下将智能体成功率从0.27显著提升至0.90，使框架设计从经验猜测变为可预测过程。

智能体 arXiv MCP/工具论文/研究

18:15

Rohan Paul@rohanpaul_ai

本文展示了大语言模型如何在保持答案质量的同时，通过使用更短的上下文来降低成本。

论文提出了“效率前沿”框架，用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是，在部署时选择合适的上下文方法可使token使用量减少约25%，在部分记忆复用场景下可降低超50%成本，且答案质量损失较小。研究指出，上下文长度存在收益递减，后增加的token成本高但收益小。在5000个HotpotQA问题的测试中，轻量检索适合低复用率，记忆压缩在高复用率下更优，而全上下文提示仍是获取最高性能所需。

arXiv 推理论文/研究部署/工程

06:14

Rohan Paul@rohanpaul_ai

学术论文现14.7万次虚假引用，AI生成问题激增

研究人员审查250万篇论文发现，2025年同行评议期刊中出现了14.7万次指向不存在研究的引用，这些虚假的研究、作者和期刊由AI生成，且未被察觉，已永久留在科学记录中。问题增长迅速：2023年每2828篇论文中约1篇含此类引用，到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。

arXiv 数据/训练现象/趋势

00:08

elvis@omarsar0

FluxMem：将AI智能体记忆重构为动态演化的图拓扑

提出了一种名为FluxMem的AI智能体记忆架构，其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行：初始连接形成、基于反馈的精炼，以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中，它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。

智能体 arXiv 论文/研究

5月28日