Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...
Can LLMs simply tell us about unwanted behaviors they've picked up in training? We train a single Introspection Adapter ...
针对AI智能体开发中依赖人工调试、成本高昂且脆弱的“缰绳”设计问题,研究者提出了“智能体缰绳工程”框架。该框架通过三层设计实现可观测的进化:将组件视为可回滚的文件、从海量运行轨迹中提炼经验证据、将决策转化为可由任务结果验证的预测。每次修改都成为可验证或回滚的“合约”。实验表明,该框架在十次迭代内将Terminal-Bench 2的pass@1分数从69.7%提升至77.0%,超越人工设计与基线方法。进化后的缰绳能跨模型迁移并提升性能,同时在SWE-bench上减少12%的令牌消耗,为智能体系统的核心组件提供了首个自动化、可靠的优化方案。
AMD研究团队提出HyLo混合LLM架构,可在预训练后低成本为模型添加长上下文能力。该方案通过结构性筛选,保留关键注意力层以保证质量,同时用固定内存的廉价层替换多数层以追踪长序列,从而将可用上下文扩展至200万token,并减少90%以上的KV缓存。基于Llama和Qwen等1B至3B模型,HyLo在保持短上下文性能接近基准的同时,在RULER等长上下文基准测试中表现优异。这为开发者提供了一条无需废弃现有强检查点、即可低成本获得更长上下文和更低内存占用的实用路径。
我和张凯的GEO论文,在全球最大的论文平台http://arxiv.org完成审核并正式发布 这应该是全球第二篇与GEO有关的专项论文 论文基于今年3月份最新的数据,包括602条 Prompt、21143 条引用、23745条AI抓取记录,...
微软World-R1通过强化学习直接“唤醒”现有视频模型的3D理解能力,无需修改模型架构、额外视频训练数据或增加推理成本。其核心方法是将相机轨迹嵌入扩散过程的噪声中,并利用Depth Anything 3和Qwen3-VL作为3D几何评判器。通过周期性解耦训练,模型能在保持建筑刚性的同时让旗帜自然飘动。仅使用3千条文本提示完成训练,该技术被视为视频生成迈向真实世界模拟的关键一步。
3D网格生成领域出现重大突破,新方法SATO能够直接从点云生成完整的网格模型。其核心技术在于采用了基于条带的标记化方法,从而实现了极其干净、结构清晰的边缘流。该模型在生成过程中原生集成了UV分割,简化了后续纹理贴图流程。此外,SATO的一个显著优势是单个模型能同时支持生成三角网格和四边形网格,提供了更高的灵活性和应用潜力。
SKILL.md文件将调用接口、执行流程和工具副作用混合在自然语言中,导致技能发现和风险评估脆弱。新研究提出SSL三层类型化JSON表示:调度层处理调用信号,结构层管理执行场景,逻辑层定义原子动作和资源使用,基于Schank和Abelson的脚本理论。通过LLM规范化器转换现有文件,技能发现MRR从0.573提升至0.707,风险评估宏观F1从0.744提升至0.787。研究发布了6,184技能语料库、403任务查询和500风险标记技能,强调随着技能注册表扩展,需结构化表示以提升管理效率。
针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。
🚀 Our new preprint is out: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond It also reached #1 on Hu...
现代AI需要三类记忆系统:存储持久知识的参数记忆、获取新鲜事实的检索记忆,以及记录目标与经验的智能体记忆。单一记忆模式存在局限,核心瓶颈在于记忆控制机制——如何协调检索、保留与更新。外部记忆为AI提供了经验索引,使其能从静态预测器转变为能长期运作、具备个性化与时序推理能力的系统。当前挑战包括长上下文成本高、检索干扰生成、记忆编辑破坏关联知识,以及多模态数据的扩展难题。未来方向在于协调永久存储、检索与经验记忆三者关系,而非构建单一巨型记忆。
本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。
研究指出,当前GUI智能体的核心瓶颈在于系统设计,而非模型能力,表现为假性成功和死循环等问题。VLAA-GUI框架通过三个模块应对:STOP验证器确保任务真正完成,RECOVER循环中断器打破重复操作,SEARCH代理直接获取外部知识。在OSWorld基准测试中,该框架助力Opus 4.6模型取得77.5%的成功率,首次超越人类水平(72.4%);在WindowsAgentArena上,结合Gemini 3.1 Flash也以61.0%创下新纪录。这表明,精心的系统设计与强大的模型能力同等重要。
🚀 GUI agents are advancing fast - yet they still stumble on surprisingly simple things: • declare success too early • g...
New work with @AlecRad and @DavidDuvenaud: Have you ever dreamed of talking to someone from the past? Introducing talkie...
最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。
How do AI Agents spend your money? Most teams treat agent token costs as a rounding error even though the data says they...
一篇由40位作者完成的综述论文提出了一个用于智能体研究的“能力层级×法则体系”世界模型分类框架。三个能力层级包括:进行单步预测的L1预测器、执行多步行动条件推演的L2模拟器,以及能随世界变化自我修订的L3演化器。法则体系涵盖物理、数字、社会与科学四大领域。该框架综合了400多篇文献和100多个代表性系统,覆盖基于模型的强化学习、视频生成、网页/GUI智能体、多智能体模拟和科学发现等领域,并识别了各层级的失败模式与评估原则。其核心价值在于,当智能体从聊天机器人转向目标达成者时,瓶颈从语言转向环境,此框架为不同领域的研究者提供了设计和评估世界模型的共同语言。
推文作者指出,优化多智能体系统以实现自动化知识发现或调优高级AI系统是当前AI领域极具潜力的方向。文中引用的研究通过强化学习训练“指挥家”模型,使其能自动管理其他模型:针对简单问题直接查询单一模型,面对复杂编码任务则自主组建包含规划器、编码器和验证器的完整流程。这标志着从单智能体“思维链”向多智能体“指挥链”的演进,相关技术已应用于Sakana Fugu等新系统,展现了AI管理AI范式的广阔探索空间。
For the past few years, humans have been doing "prompt engineering" to coax the best performance out of different LLMs. ...
阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。
构建复杂智能体时,长期任务智能体常因决策者分解能力不足或技能库过时而失败。新研究提出一种协同进化框架,让LLM决策智能体与动态技能库通过迭代优化共同改进。决策智能体负责选取和串联技能,性能反馈同时更新其策略和技能库本身。新技能通过归纳成功序列自动生成,而非预先手动编码。传统方法将技能与决策作为独立问题优化,容易陷入瓶颈。协同进化则能在单一循环中实现自适应规划,并持续增长可复用行为库,这对任务结构不确定的领域(如机器人、游戏智能体、复杂规划)至关重要。
论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。
A must read for anyone interested in building practical AI systems in 2026: Dive into Claude Code: The Design Space of T...
Great paper on improving proactive agents. (bookmark it) Proactive agents act before you do. But how do you evaluate som...
微软新论文引入DELEGATE-52基准,模拟52个专业领域的长文档编辑工作流。测试19个模型,包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT-5.4等前沿模型,发现在长工作流结束时平均损坏25%的文档内容。代理工具使用未能改善表现。论文还提供了其他相关见解。