一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。
一篇论文系统研究了Transformer注意力中QKV投影的必要性,发现Key和Value可共享同一投影(Q-K=V变体),仅增加3.1%的困惑度,便将KV cache削减50%,大幅降低推理内存。最佳变体保留Query独立,使注意力保持方向性。与GQA和MQA结合时,可分别实现87.5%和96.9%的cache缩减。弱变体Q=K-V因导致因果注意力过于对称且无cache节省而无效。
一篇新论文从自主性、效率和工人移交任务的范围三个维度,分析AI智能体如何重塑知识工作。研究指出,当前人们使用智能体的主要障碍并非模型质量,而是几乎没有人接受过如何以这种方式工作的培训。
新论文构建 CL-BENCH 基准,评估 AI 智能体在编程、数据库、预测、无线电信号、扑克、疾病研究 6 个领域中的持续学习能力。每个任务隐藏可随时间习得的模式,考察智能体能否超越预训练知识。测试前沿 LLM 系统采用全上下文记忆、草稿笔记、检索记忆、剧本式记忆及编码智能体设置,结果发现当前记忆密集型 AI 智能体并未可靠优于简单保留完整对话上下文。Claude Sonnet 4.6 使用普通上下文取得最佳总体分数。论文指出智能体仍需更好方法记住有用经验、遗忘过时信息并适应环境变化。
该论文指出,更大模型能学到罕见技能,是因为训练中遗忘更少,其额外容量保护了弱学习信号。核心机制:常见任务先抢占神经元,罕见任务在出现频率足够形成稳定知识前就被覆盖。小模型可能短暂捕捉到罕见信号,但随即被下一波常见任务更新覆盖。实验使用OLMo语言模型(4M–4B参数)验证:大模型在低频任务上表现更优,保留更多任务特征,且常见任务更新对罕见任务的梯度干扰更小。作者强调,问题不仅在于小模型能否表征任务,更在于训练中罕见任务能否在众多常见任务反复冲击下持续存在。
论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。
http://x.com/i/article/2063647807437705216
一项新研究提出Meta-Agent Challenge(MAC)基准,测试AI智能体能否在没有人类设计帮助的情况下自主构建更优智能体。智能体需在安全工作区内自行发明策略、编写代码、测试并从失败中学习。实验覆盖数学、科学问答、竞赛编程、代码修复和长终端任务5个领域。结果显示,当前智能体大多无法超越人工设计的强智能体系统,仅Claude等少数封闭前沿模型取得较好表现。研究认为,当前智能体更像是强大的执行者,而非具备可靠自改进能力的工程师。
论文指出,更好的推理模型更依赖可验证的训练证据,而非原始数据规模。推理数据的关键不是简单问答对,而是提供答案、步骤、工具操作或完整尝试好坏判断的反馈信号。每个训练样本应描述为包含任务、模型行为、检查信号和元数据的记录。研究者按检查方式分类:数学和代码用精确规则、智能体工具用环境检查,无精确检查器时用人类或模型判断。常见误区包括:长推理链可能虚假、更难样例对部分模型无效、更大数据集仍可能缺失关键覆盖。智能体数据应保留失败动作、重试、恢复、状态差异和终端检查等“混乱”信息,因为学习信号常在其中。
本周一篇AI论文探讨自我改进智能体是否真正发现新知识,还是仅重新组合已知信息。作者将行为分为三类:检索(查询已有笔记本)、搜索(组合现有工具)和发现(发明新概念),并用范畴论和左Kan扩展定义——若旧版本能产生相同结果则非发现。他们构建Builder/Breaker agent研究蛋白质力学,四轮中R²从0.48升至0.68再降至0.54和0.41,看似变差实则不断挑战更难蛋白质并重写理论:数据增长近10倍,模型代码仅增长1.3倍。论文提出用代码压缩率作为真实发现信号。链接:arxiv.org/abs/2606.01444。
MIT论文(F.Y. Wang & M.J. Buehler, arXiv:2606.01444, 2026)提出Self-Revising Discovery Systems框架,使AI科学家能自主识别当前思维模式不足并添加新科学概念,而非仅更努力搜索。系统将数据、模型、工具输出、失败及声明均视为类型化产物(typed provenance),从而区分三种模式:retrieval(添加已知对象)、search(探索固定模式)和discovery(可验证的模式转换)。论文通过Kan obstruction和Left Kan extension数学化定义了真正新颖性——由旧证据传输后的逐点残差量化,使novelty可客观测量。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
MIT团队提出自我演进AI科学家框架,核心创新是让AI识别当前推理空间过小并主动添加新科学概念,而非仅在固定模式内搜索。论文将数据点、模型、工具输出、失败、声明均视为带类型的artifact,明确区分检索(添加已知对象)、搜索(探索固定schema)和发现(可验证的模式扩展)。通过类型化copresheaf与Kan障碍理论证明,真正发现是可验证的schema扩展:旧证据由左Kan扩展传输,创新性通过逐点残差量化。案例包括Builder/Breaker模型发现蛋白质模式条件顺应性,以及CategoryScienceClaw发现各向异性纤维网络刚度规则。论文arXiv:2606.01444(2026)。
We've made a breakthrough in self-evolving AI scientists moving from "search" to "principled discovery": Scientific disc...
持续学习领域投入多但进展缓慢。CL-Bench(持续学习基准)在六个由专家验证、包含共享可学习结构的领域上测试,发现简单的上下文学习(ICL)基线优于专门为记忆管理构建的系统。该基准引入增益指标以隔离真正学习效果,结果显示智能体常过度拟合即时观察或未能跨实例复用知识。研究指出,若普通ICL基线超过你的记忆架构,则该架构增加的是开销而非学习。论文:arxiv.org/abs/2606.05661。
腾讯混元(Tencent Hunyuan)与中国人民大学高瓴人工智能学院合作,开源PlanningBench——一个可扩展、可验证的LLM规划能力评估与训练框架。该框架包含30+真实世界规划任务,支持自动验证和训练。PlanningBench旨在推动LLM从“说”到“做”的规划能力发展。资源已发布于arXiv、GitHub及HuggingFace。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
伊利诺伊大学和清华大学等实验室研究发现,LLM智能体重复重写自身记忆会导致记忆变得更不可靠。原始经历(实际过往尝试和解决方案)往往比提炼后的总结更有用。测试中,GPT-5.4在小型ARC-AGI数据集上无记忆时正确率100%,但建立记忆并持续更新后降至约54%。失败原因包括分组不当、教训过度泛化及过拟合。研究建议智能体不应自动将每个经历重写为摘要,保留原始证据并仅偶尔总结效果更好。
FluxMem是一种新型AI智能体记忆系统,其核心思想是将记忆视为一个动态连接的网络,而非静态存储。它将事实、过往任务经历与可复用技能作为图中的节点进行存储。执行任务时,FluxMem先收集可能有用的记忆,再根据任务反馈动态修正记忆间的连接关系。此外,系统能将反复成功的任务路径转化为可复用技能。测试显示,该系统在LoCoMo基准上平均准确率达95.06,并在GAIA基准上结合Kimi K2取得了12.73分的性能提升,优于现有记忆系统。
研究探讨添加更多智能体是否提升多智能体系统性能。结论指出,最优智能体数量取决于基础模型的能力和任务类型,而非单纯增加数量。集体智能更可能源于精心的交互设计,而非智能体数量的增多。相关论文:"Scaling Behavior of Single LLM-Driven Multi-Agent Systems"。
该研究指出,在自我改进的AI智能体中,“更强模型总能写出更好进化器提示词”的直觉是错误的。工作区分了两种能力:产生更新的能力在不同模型间趋于平坦,而从更新中受益的能力呈倒U形曲线,在中等模型处达到顶峰。弱模型无法有效激活更新,强模型则因已处性能高位而获益甚微。因此,成本效益最佳的配置是:使用廉价的中等模型担任“进化器”,而将昂贵的强模型用作“求解器”。
当前AI智能体的扩展方法常错误地将计算资源消耗等同于学习证据。新研究指出,两次运行消耗相同预算,但反馈的有效性可能天差地别。为此,研究提出了“有效反馈计算”(EFC)指标,仅统计那些正确、新颖、相关且被记住、并能改变后续决策的反馈。研究还结合任务需求对EFC进行归一化。实验表明,任务归一化的EFC比原始计算指标更能预测失败。在一项匹配预算测试中,采用更好反馈的方法将任务成功率从0.27提升至0.90,而成本和工具调用次数保持不变。 链接:arxiv.org/abs/2605.29682 标题:"Scaling Laws for Agent Harnesses via Effective Feedback Compute"
该论文指出,当AI智能体在多轮对话中重复使用相同文档和历史记录时,固定的上下文策略并非最优。研究提出了“效率前沿”框架,将上下文策略选择建模为一个成本与性能的平衡问题。通过引入重用参数N进行扫描,可以识别出检索、压缩或全上下文各自占据优势的交叉区域。在5000个HotpotQA实例上的测试表明,部署感知的选择能在保持相同性能下减少约25%的有效token使用量,而摊销内存压缩在高性能设置下比全上下文提示的运行成本便宜超过50%。
新研究提出“有效反馈计算(EFC)”指标,用于优化AI智能体测试框架的设计。传统评估中,原始token数和工具调用次数预测智能体失败的R²值仅为0.33至0.42,而EFC将此提升至0.99。基于EFC进行资源重分配,可在相同计算量下将智能体成功率从0.27显著提升至0.90,使框架设计从经验猜测变为可预测过程。
论文提出了“效率前沿”框架,用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是,在部署时选择合适的上下文方法可使token使用量减少约25%,在部分记忆复用场景下可降低超50%成本,且答案质量损失较小。研究指出,上下文长度存在收益递减,后增加的token成本高但收益小。在5000个HotpotQA问题的测试中,轻量检索适合低复用率,记忆压缩在高复用率下更优,而全上下文提示仍是获取最高性能所需。
研究人员审查250万篇论文发现,2025年同行评议期刊中出现了14.7万次指向不存在研究的引用,这些虚假的研究、作者和期刊由AI生成,且未被察觉,已永久留在科学记录中。问题增长迅速:2023年每2828篇论文中约1篇含此类引用,到2026年初已升至每277篇约1篇。完整研究见arxiv论文2605.07723。
提出了一种名为FluxMem的AI智能体记忆架构,其核心理念是将记忆视为一个持续演化的异构图拓扑。该框架通过三个并行阶段运行:初始连接形成、基于反馈的精炼,以及将反复成功的轨迹长期整合为可复用的程序性回路。执行过程中,它会修复缺失链接、剪枝干扰信息并调整抽象粒度。该方法在LoCoMo、Mind2Web和GAIA三个不同的记忆任务基准测试上均达到了SOTA水平。
传统Diffusion Transformers因层间信息传递方式固化导致训练效率低下。研究团队提出Diffusion-Adaptive Routing方法,允许每层动态选择使用哪些早期层的输出,且该选择随去噪时间步调整。该方法未引入新的数据集、损失函数或注意力机制,仅通过优化残差连接,使得相同图像质量所需的训练迭代次数减少8.75倍。
针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。
这项研究提出了AgingBench,一个用于纵向评估AI智能体可靠性的基准。它将智能体老化归纳为四种机制,包括压缩老化和干扰老化,旨在衡量部署后的智能体是退化以及退化形式。研究指出,即使冻结模型权重,智能体的有效状态也会因压缩交互历史、检索记忆库、事实更新等操作而不断变化,其可靠性是整个运行系统的寿命属性,而非基础模型的快照。基准测试在智能体部署第一天进行,然后持续数月。
微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...
CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。
very cool research (and nomenclature)
Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。
Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。
阿里巴巴与南京大学提出RTPurbo,一种轻量级适配方法。该方法发现,已训练的全注意力模型内存在隐藏的稀疏结构。它利用一个轻量的16维token查找器作为“侦察兵”,为少数需要长程信息的关键注意力头定位重要token,而让其他头主要关注局部文本。基于此,RTPurbo在100万token预填充任务上,相比FlashAttention-2实现了高达9.36倍的加速,解码阶段也约有2倍加速,同时在长上下文和推理基准上保持了接近全注意力模型的精度。该研究表明,长上下文推理中的计算浪费具有可挖掘的结构性。
一篇新论文提出对通用人工智能(AGI)的明确定义,认为AGI是一种“人工科学家”。该模型需要像人类科学家一样,具备自主规划实验、学习因果关系、平衡探索与行动的能力。其核心在于适应性,即能在计算、记忆和能量限制下,像人类科学家一样广泛、高效且科学地适应新环境和任务,评判标准是其发现和适应能力,而非通过拟人化测试。