本文提出δ-mem,一种轻量级在线记忆机制,用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上,通过一个仅需8×8大小的紧凑关联记忆状态矩阵,以delta规则动态压缩更新过往信息,并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明,δ-mem将平均性能提升至冻结主干模型的1.10倍,并达到最强非δ-mem记忆基线的1.15倍,在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文,即实现了有效的记忆功能。
本文提出δ-mem,一种轻量级在线记忆机制,用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上,通过一个仅需8×8大小的紧凑关联记忆状态矩阵,以delta规则动态压缩更新过往信息,并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明,δ-mem将平均性能提升至冻结主干模型的1.10倍,并达到最强非δ-mem记忆基线的1.15倍,在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文,即实现了有效的记忆功能。
企业系统的动态规则常因租户业务逻辑差异与演变而多变,导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”,通过在运行时读取系统配置来实时发现动态规则,而非仅依赖内部固化模型。同时,推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明,离线模型在分布内表现良好,但随规则变化性能下降;而基于发现的代理通过将预测锚定于当前实例,在部署偏移下展现出更强稳健性。结论认为,在可配置的企业环境中,智能体应结合运行时动态发现机制。
苹果发布了Xcode 26.5版本,主要增强了AI智能体编程能力。新版本支持编程智能体消息队列功能,允许开发者在AI生成响应期间连续发送多条消息,同时AI也可主动提出澄清问题,使协作更流畅,减少了大型项目中的操作停顿。此外,本次更新还包含了Swift 6.3.2版本,为iOS等多平台提供SDK,并在StoreKit Testing中新增了对12个月承诺制月订阅计费方案的支持,同时修复了错误,提升了稳定性。
研究发现大语言模型在工具使用上存在系统性“知行差距”——模型认知判断需要工具与实际调用工具的行为存在显著不匹配。基于模型自适应定义评估显示,算术与事实问答场景下不匹配率分别达26.5%-54.0%和30.8%-41.8%。通过对模型内部表征的探测分析发现,不匹配主要发生在从认知判断到动作执行的转换环节,而非认知判断本身。这表明提升工具使用可靠性需同步优化认知识别和行动执行两个层面。
本文提出了Pinductor,一种利用大语言模型作为先验知识,从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型,再通过基于信念的似然分数进行迭代优化。实验表明,尽管使用的信息更少,Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法,并显著超越传统基线。研究还发现,其性能随LLM能力增强而提升,并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。
工业LLM代理系统常将规划与执行分离,但LLM规划器易产生结构无效或过长的流程,导致脆弱失败和额外成本。SPIN是一种规划封装器,结合验证有向无环图(DAG)规划和基于前缀的执行控制。它通过验证与修复提示强制执行严格的DAG契约,在下游执行前生成可执行计划,并增量评估DAG前缀以在满足查询时提前停止。在AssetOpsBench的261个场景中,SPIN将执行任务数从1061降至623,任务完成率从0.638提升至0.706,每次运行的工具调用数从11.81减少至6.82。在MCP Bench上,该封装器同样提升了GPT OSS1和Llama 4 Maverick在规划、落地和依赖关系方面的评分。
针对LLM智能体长期记忆系统中检索机制固定不变的问题,研究团队提出自进化记忆架构EvolveMem。该架构将完整的检索配置(如评分函数、融合策略)构建为结构化行动空间,由一个LLM驱动的诊断模块进行闭环优化。系统通过AutoResearch过程自主运行:诊断模块分析失败日志、定位根因并提出配置调整,再由受保护的元分析器在防性能衰退和探索停滞的保障下应用调整。实验表明,EvolveMem在LoCoMo和MemBench基准上显著优于基线,进化后的配置能跨基准正向迁移,表明系统捕捉到了通用的检索原则。代码已开源。
针对角色扮演代理长期一致性记忆的需求,本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法,避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案,支持概念、行为和状态三种搜索类型,并采用高效同步机制更新答案以供未来复用。相比基线方法,该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中,其性能显著优于现有记忆基线。
Statewright 是一个通过状态机为AI智能体提供约束的系统,能控制其在各阶段可使用的工具,从而聚焦推理并提升可靠性。它将工作流定义为规划、实施、测试等多个阶段,自动执行工具限制与状态转换。在本地模型测试中,两个模型在5项SWE-bench子任务上应用约束后,正确率从2/10显著提升至10/10。该系统已集成到Claude Code等平台,一个修复测试失败的典型工作流可在46秒内完成。
研究团队发布了名为Needle的轻量级模型,它将谷歌Gemini的工具调用能力浓缩至仅2600万参数。该模型在保持核心功能的同时,体积显著缩小,旨在实现更高效的部署与应用。项目代码已在GitHub开源,并在Hacker News社区获得了超过100点的关注度。
Google 通过 Gemini Intelligence 为 Android 推出多项新 AI 功能。这些智能体可自动化多步骤任务,例如预订行程和填写表格。系统还能总结网页内容,并将口语化想法转化为精炼的文本信息,直接集成于 Chrome 自动填充和 Gboard 输入法等系统工具中,提升操作效率。
Parameter Golf 项目汇聚了超过 1000 名参与者和 2000 多份提交作品,在严格限制条件下探索了 AI 辅助的机器学习研究、编码智能体、模型量化及新颖模型设计。活动展示了 AI 工具如何帮助研究人员在受限参数规模下优化模型性能,推动了高效模型架构与自动化代码生成技术的实践进展。核心发现包括智能体协作能显著提升研究效率,而量化技术可在微小精度损失下大幅压缩模型体积。
Anthropic 检测平台工程团队技术负责人 Jackie Bow 运用 Claude Code 开发了 CLUE 威胁检测与响应平台。该平台通过自然语言界面连接内部系统,包含 CLUE Triage 自动初筛警报,整合上下文信息分配处置建议;以及 CLUE Investigate 支持分析师用自然语言查询日志,由 Claude 自动生成并执行查询,将数小时的人工分析缩短至几分钟。团队在一天内完成概念验证,一周内交付实现,显著提升了安全运营效率。
谷歌在2026年I/O活动上推出Gemini Intelligence系统方案,旨在将安卓生态中的Gemini从问答助手转型为能主动跨应用、跨网页执行任务的智能助手。其核心是任务自动化,例如通过Chrome浏览器代为填写复杂表单。方案还新增了通过文字描述生成小组件代码的“Create My Widget”工具,以及优化语音输入文本的Gboard“Rambler”模式。算力采用端侧Gemini Nano与云端结合的策略。功能将分阶段推送,Chrome自动浏览功能于6月启动,相关手机将从今年夏季开始陆续获得更新。
Anthropic公司为法律行业发布20多个新的MCP连接器及12个专用插件,将Claude深度集成至合同管理、文档处理等法律核心软件栈。Claude现可直接在Microsoft Word、Outlook等办公应用中无缝工作,具备起草、修订、条款比对等可复用技能,并能自动化处理日常法律事务。公司同时宣布与多个司法公益组织合作,以扩大法律服务的可及性。
本文探讨了如何从无状态聊天机器人升级为生产级AI智能体,以管理长达数天或数周的企业工作流程(如HR入职)。通过引入Agent Development Kit(ADK),其架构核心采用持久状态机和持久化会话存储,确保智能体在“空闲时间”或服务器重启时永不丢失上下文。系统利用事件驱动的Webhook和多智能体委托机制,实现在暂停期间“休眠”,并在唤醒后以高推理准确性恢复复杂任务,从而构建出具备韧性和可靠性的长时运行智能体系统。
本研究探讨在大型语言模型(LLM)代理循环中词法检索器的有效性,引入Pi-Serini搜索代理,配备检索、浏览和阅读工具。通过将优化配置的BM25与前沿LLMs(如gpt-5.5)配对,在BrowseComp-Plus数据集上的实验显示,该方法支持深度研究,实现83.1%答案准确率和94.7%表面证据召回率,优于使用密集检索器的搜索代理。消融实验表明,BM25调优比默认设置提升答案准确率18.0%和表面证据召回率11.1%,增加检索深度比浅层检索进一步提升表面证据召回率25.3%。源代码已公开。
DeepRefine 是一种基于大语言模型的通用推理模型,旨在通过与知识库进行多轮交互,精炼其中存在的缺陷(如证据缺失、断言置信度低或指代模糊等问题),从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷,并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略,研究引入了“超越草案增益”奖励,并采用强化学习进行端到端训练。大量实验表明,该方法能在多个强基线模型上带来一致的下游性能提升。
在Code w/ Claude SF 2026开发者大会上,Anthropic宣布提升开发者工具能力。Claude Code的速率限制翻倍,Claude Opus的API限制提高,以支持大规模可靠开发。同时,Claude平台上的托管智能体新增四项功能:“梦想”功能通过回顾会话优化记忆;多智能体编排支持主智能体并行委派子任务;“成果”功能通过定义输出标准提升任务成功率,内部测试显示最难问题成功率最多提升10%;Webhooks提供任务完成通知。大会主题演讲和分组会议录像已上线,并计划在伦敦和东京举办后续活动。
Co-Scientist 是一款由 Gemini 构建的协作式 AI 助手,旨在帮助科研人员加速科学突破。它通过多智能体(multi-agent)的架构设计,作为研究人员的智能伙伴参与工作流程,以提升研究效率并推动创新发现。
小红书在 QCon 北京 2026 分享了 GUI Agent 实战经验,核心思路是将自动化测试当作 AI Coding 来做,通过工程化方式让 GUI Agent 在真实业务场景中“跑起来、跑得稳、跑得省钱”。
随着AI智能体热潮兴起,技术从业者为保持AI编码任务持续运行,不得不抱着半开笔记本电脑在公共场所走动。报道采访了多位有此习惯的人,他们出现在溜冰场、机场、高中走廊等地,因任务一旦合盖中断就会丢失进度。有人将电脑开合角度调至最小以避人耳目。这种行为已形成网络梗文化,当事人常感尴尬,但在旧金山湾区等技术密集区已较常见。
莱斯菲奇宣布推出新的 AI 代理,使用户能通过自然语言指令来执行任务。这些智能助手将遵循平台的安全与合规要求,在帮助处理内容管理任务的同时,确保敏感数据受到保护。此举标志着该领域在人机交互与工作流程自动化方面的一次重要转变。
研究团队推出机器人记忆基准 RoboMemArena,包含26个长轨迹任务,平均轨迹长度超1,000步,其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹,并提供记忆相关标注,同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构,通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库,并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型,为复杂记忆系统的设计提供了新见解。
研究提出TMAS框架,通过组织多个专用智能体在推理过程中进行协作,实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统:经验库存储可靠的低层中间结论与局部反馈以供复用,指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时,团队设计了适配TMAS的混合奖励强化学习方案,在保持基础推理能力的同时,提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中,TMAS展现出优于现有基线的迭代扩展能力与稳定性。
DevOps平台GitLab计划裁员,旨在为把握AI智能体时代的市场机遇储备资金。首席执行官Bill Staples强调,此举并非为优化AI业务或削减成本,节省的资金将绝大部分重新投入业务。公司计划精简管理层级、重组研发团队,并缩减业务覆盖国家范围。同时,GitLab将借助代理式AI实现审核、审批等内部流程自动化以提升效率。Staples表示,人员调整是为了优化运营速度与客户成果,AI将增强部分岗位,同时也会扩大某些关键职能的团队规模。
小米技术官方公布了MiMo Orbit 100T Token计划的最新进展。该计划旨在30天内面向全球AI用户免费发放100万亿Token,截至5月12日上午已累计送出近80万亿。同时,在OpenRouter平台的最新数据中,MiMo模型最近一个月的Token调用量达1.45万亿,排名第一;其Hermes Agent的日调用量高达2910亿,最近一周调用量超1.75万亿。
Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。
针对现有AI研究系统缺乏跨项目知识复用、用户经验保留与隐式偏好学习能力的问题,本文提出NanoResearch多智能体框架。该框架通过技能库、记忆模块和无标签策略学习三层结构协同演化:技能库提炼可复用操作规则,记忆模块保存用户与项目特定经验,策略学习将自由反馈转化为规划器参数更新。三者循环促进,使系统能基于个人历史与偏好持续自我优化。实验表明,NanoResearch性能显著优于现有系统,并能随使用周期不断降低成本、提升研究成果。
研究团队提出SLIM框架,用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量,通过留一验证评估技能边际贡献,并执行三项操作:保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中,SLIM平均超越最佳基线方法7.1个百分点。实验表明,策略学习与外部技能保留可共存:部分技能被策略内化,另一些则持续提供外部价值,验证了动态技能管理的普适性与优越性。
2026年5月11日,thinkingmachines.ai发布关于交互模型的文章,在Hacker News上获得103点关注。交互模型作为人机交互的核心概念,可能涉及人工智能系统与用户互动方式的创新或改进。这一高关注度反映了技术社区对交互模型发展的兴趣,表明该主题在AI领域具有讨论价值。文章链接指向详细内容,但未提供具体技术细节或变化指标,仅从社区反馈可见其影响力。
GitLab宣布为适应“智能体时代”进行组织与战略调整,包括计划将设有小团队的国家数量减少高达30%,并扁平化管理结构,在某些职能中移除最多三层管理层。公司重组研发部门,建立约60个拥有端到端所有权的小型赋能团队,使独立团队数量近乎翻倍。同时,公司价值观框架从CREDIT更改为“速度与质量、主人翁心态、客户成果”。GitLab认为智能体时代将成倍增加软件需求,但其股价在过去一年从约52美元跌至26美元,增长前景面临市场不确定性。
研究团队针对大规模多智能体路径规划问题,提出了一种名为LC-MAPF的新型可学习通信框架。该方法在基于局部观测的Dec-POMDP框架中,为智能体设计了专用的通信模块,使其能与相邻智能体进行多轮信息交换,从而有效提升协作效率。实验结果表明,在多种未见过的测试场景中,LC-MAPF在多项性能指标上均优于现有的基于模仿学习与强化学习的求解器。其通信机制在显著提升性能的同时,并未损害系统的可扩展性,成功克服了以往基于通信的求解器常见的扩展瓶颈。
本文提出AI CFD Scientist,一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门,能在接受结果前检查流场渲染图。实验表明,该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正;在同等成本下,其性能优于通用AI科学家基线,因其具备关键的领域专用验证能力;对照实验证实,视觉验证门能有效检测出求解器日志遗漏的多数静默故障。
研究发现,直接使用前沿代码助手(如GPT、Claude)进行智能体评估效果不佳,其执行成功率仅为30%,且生成的评估指标平均超过12项,过于复杂。为此,研究者提出了EvalAgent,它能将评估领域知识编码为可组合的“评估技能”,自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估,EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%,并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要,移除后Eval@1会从65%骤降至30%。
研究提出了一种探索感知的强化学习框架,使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数,评估探索性行动对改善未来决策的潜力,并引入探索感知分组机制,在优化过程中将探索行动与任务完成行动分离。实验表明,该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。
针对大型语言模型的智能体强化学习提出新方法ActGuide-RL,通过引入日常人类交互产生的海量动作数据作为规划式参考指引,帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则,仅在必要时自适应启用指引以匹配任务难度,同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中,ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点,性能与需要大量监督微调数据的流程相当,为智能体强化学习提供了减少对繁重监督微调依赖的新范式。
研究提出一种目标自适应的文本-表格预测方法,用于预测陌生AI智能体在谈判与交易中的决策。该方法将每个决策点构建为表格行,整合游戏状态、报价历史和对话文本,并在提示中提供目标智能体先前的K轮游戏作为适应示例。模型基于表格基础模型,结合了结构化特征、文本表示以及创新的“LLM作为观察者”隐藏状态特征。在13个前沿LLM智能体上训练,并在91个保留的支架智能体上测试,完整模型性能优于直接提示法和基线模型。当K=16时,观察者特征将响应预测AUC提升约4个百分点,并将议价报价预测误差降低14%,证明隐藏的LLM表征能捕捉直接提示无法获取的决策信号。
PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题,并从演示友好型来源进行深度研究,收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式:单人演示(单解说员)、讨论式演示(多演讲者结构化角色)和交互式演示(基于生成内容回答观众问题)。研究团队构建了涵盖三种场景的多模态演示基准,并制定了内容质量、媒体相关性、动态媒体使用等评估标准,从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。