VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。
VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织,要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性,并提供了可扩展的内存接口。对前沿模型的评测显示,即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。
面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家(MoE)架构,总参数229.9B,每个token仅激活9.8B参数。该系列专为智能体部署设计,基于三大组件构建:智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge,以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。
同一事件,精选展示《MiniMax M2.7:自我进化的早期回声》本文研究智能体强化学习在训练工具使用大语言模型时出现的问题,即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此,提出AKBE方法,通过双路径(使用工具与不使用工具)滚动动态探测模型知识边界,定义是否需要工具及最少工具调用次数,并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中,AKBE将任务准确率平均提升1.85,减少18%工具调用,工具生产力提高25%,且无准确率-效率权衡。
提出了Trajel,一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹,引入了五种幻觉分类:事实性、引用性、逻辑性、程序性和范围性。基准测试表明,现有基准遗漏了最常见故障模式,近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高,但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证,表明基于分类法的评估对于更安全的智能体部署是必要的。
MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。
近日OpenAI的AI智能体Codex热度飙升。教程涵盖完整使用流程:从官网下载安装,支持从Claude Code和Cowork一键导入配置;界面分对话区和项目区,权限可选默认、自动审查或完全访问;模型推荐GPT-5.5,推理等级用高或超高,速度可选快速(1.5倍速度、2倍token消耗)或标准;建议开启引导模式、记忆功能,并设置全局AGENTS.md规则(卡帕西模板);通过Skills和插件管理扩展能力;演示了开发网页(使用计划模式、批注功能圈选修改)和开发用药提醒App(需安装Xcode编译到手机)。
Claude Code 发布 v2.1.152 版本更新。核心改进包括:/code-review --fix 现在会将审查建议直接应用于工作目录;技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具;新增 /reload-skills 命令可不重启会话重新扫描技能目录;SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能,并可通过 hookSpecificOutput.sessionTitle 设置会话标题;新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至 --fallback-model、会话用量统计优化等。同时修复了终端样式退化、沙箱警告显示、思考摘要、MCP 服务器去重、远程会话连接及多种会话卡顿问题。
在Code w/ Claude 伦敦活动上,Anthropic 宣布了 Claude Managed Agents 的两项新能力:自托管沙箱(公开测试版)和 MCP 隧道(研究预览)。这两项功能使 AI 智能体的工具执行环境与企业私有网络内的 MCP 服务器连接均可运行在客户自有基础设施或指定托管服务商处。活动还介绍了如何通过 Claude Code、优化思维预算以及模型努力级别来提升开发体验。目前,包括 Spotify、Base44 和 Legora 在内的客户已在使用这些新功能。
关联讨论 2 条Claude:Blog(网页)X:Claude (@claudeai)CORE是一种非参数学习算法,通过对比成功与失败的推理轨迹生成简短自然语言 insights(推理策略和约束),使语言模型快速改进推理。在四个推理任务上,CORE比GRPO、GEPA、episodic RAG和MemRL等基线方法用更少rollout实现更快性能提升;在固定rollout预算下,仅用5个训练样本即可达到可比或更大增益。同时,CORE比非参数基线更上下文高效,将知识存储为紧凑可解释的自然语言insights,所需prompt token更少。
针对现有智能体评测基准(如τ^2-Bench)因难度饱和而难以评估能力上限的问题,研究提出TASTE方法。该方法通过反转传统任务构建流程,利用基于LLM判断有效性信号训练的自适应对比n-gram模型生成有效工具序列,经聚类筛选与迭代难度演化,自动构建出工具覆盖更广、难度更高的τ^c-Bench基准。对11组智能体/大语言模型对的评估显示,多个在τ^2-Bench上接近饱和的模型在τ^c-Bench上性能大幅下降,且生成任务要求的唯一工具组合数量显著增加,表明现有基准高分常反映测试集饱和而非模型稳健能力。
针对大语言模型在技能利用中外部化与内部化的两难困境,本文提出了Skill0.5框架。该框架通过一个动态、难度感知的路由器,将任务分流至不同的掌握层级。对于通用技能,通过特权蒸馏进行内化,为处理困难任务构建认知基础;对于任务特定技能,则在简单任务上通过诊断探测来强制利用,以避免捷径学习。在ALFWorld和WebShop基准测试中,Skill0.5在分布内和分布外场景下均优于现有的基于记忆和基于技能的强化学习基线方法。
当前对大语言模型智能体的评估忽略了工具使用的时序维度,尤其未考虑工具响应延迟的影响,且多局限于单任务场景。为此,研究团队提出了AsyncTool,这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务,模拟真实的响应延迟,并在步骤、子任务和任务三个级别进行评估,引入了效率导向的指标。实验表明,延迟的工具反馈对现有智能体构成重大挑战并导致性能下降,而能更好协调任务切换与状态维护的模型表现更优。
OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试,旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式:从异构资产构建求解模型(Build)、根据需求修改现有模型(Revise)、以及基于工作区证据回答关于方案的问题(Explain)。它通过结合持久化工作区和面向生命周期的任务,评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。
在数据时代,数据重力是核心力量;而在智能体时代,智能体重力将扮演同样角色。智能体运行需要巨大算力,主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多,其智能体重力就越强。例如,Databricks在微软平台推出的某个功能,虽未明言此目的,却让用户更容易在Databricks中构建智能体,而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此,赢得并维持智能体重力,将成为智能体时代的核心竞争主题。
Anthropic通过三重机制控制Claude智能体的部署风险,包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面:通过沙箱、虚拟机和网络出口控制限制智能体运行环境;利用系统提示词和模型训练引导其行为;以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例,阐述了不同产品如何设计对应的隔离架构。
MiniMax对其Agent Team进行了整体升级并更名为Mavis。本次更新的核心是推出Agent Teams功能,允许用户在MiniMax Agent桌面端并行运行多个不同角色的智能体,组成团队以协作处理单一智能体难以完成的复杂长时任务。同时,原有的TokenPlan与Agent Plan合并为统一订阅,整合了CLI、API及Agent对M2.7模型、音乐、视频和语音功能的访问,其信用额度可在智能体与API之间共享。此次升级旨在解决单智能体在执行长期任务时容易出现的停滞、判断模糊及质量衰退问题,通过主智能体快速响应、任务拆分并行执行与关键节点汇报的机制,提供更流畅的用户体验。
针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。
百度伐谋2.0产业决策智能体落地排产场景,业务人员用自然语言描述优先级和现场变化(如设备故障、工人请假),系统自动将约束转化为优化模型并迭代求解,将顾问数小时的建模压缩到对话内完成。每次纠偏实时调整方案,隐性经验被结构化沉淀为企业可复用模型。在日均数百订单、十几条产线的大型家具制造企业中,产能提升20%。
当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。
支付宝宣布其“AI 支付”已完成 3 亿笔智能体支付,并支持 95% 的通用智能体框架。同时,支付宝发布了全球首个 Token Pay 服务与 AI 钱包产品,用户可通过“AI 钱包”管理智能体授权与账单。此外,支付宝还推出了商家智能体“晓雨”。MiniMax、阶跃星辰已与其达成合作,采用其 AI 支付方案。
“龙虾之父”Peter 开源了 skill-cleaner 工具,用于诊断和优化 AI 智能体的技能提示词。该工具包含5项核心功能,包括技能提示词预算审计、重复技能检测、未使用技能筛查、技能根目录审计和描述精简优化。其脚本采用标准 token 预算核算逻辑,旨在帮助减少冗长描述对 token 预算和上下文窗口的占用。已有用户实践显示,将技能描述从90多词精简至40词以内,能提升智能体选择技能的准确率。
著名黑客乔治·霍茨在经过六个月测试后警告,AI编程智能体可能是软件开发中代价最高的错误之一。他认为这些工具适合快速原型,但无法可靠处理代码细节,生成的代码可能表面完善却隐蔽问题,给组织带来高额维护成本和故障风险。霍茨本人立场已转向怀疑,认为大语言模型是复杂的统计系统而非真正智能。与之相反,安德烈·卡帕西在GPT-5.4和Opus 4.6发布后改口,认为AI智能体已永久改变了编程方式。
昆仑万维天工AI近日正式推出高性能智能体模型SkyClaw-v1.0及其轻量化版本SkyClaw-v1.0-lite。该模型支持百万token上下文,深度适配真实智能体工作场景,重点优化了复杂工具调用、多轮任务执行与代码生成等能力。在多项智能体基准测试中,其性能超越了MiniMax 2.7、DeepSeek V4 Flash等开源模型,并接近DeepSeek V4 Pro、Claude Opus 4.6等更大规模模型。该模型定价极具竞争力,已接入天工Skywork,并提供2至4周免费试用。
微软一份14页官方文档将 Windows 11 系统定位为“AI OS”,并称之为企业AI技术栈中的“智能画布”。其核心主张是不应给员工堆砌更多独立AI工具,而应将AI能力(如Copilot)直接嵌入现有工作流,例如在文件资源管理器或任务栏中提供协助,以减少应用切换并提升生产力。文档引用的数据显示,82%的高管计划引入AI智能体。
微软研究院发布开源网页智能体框架 Webwright,其架构总代码量约 1000 行,让模型直接在终端中编写 Playwright 代码并执行命令,以此完成网页任务。该框架通过“门控自检”和“历史压缩”两个工程设计,解决了智能体易过早完成和上下文膨胀问题。基准测试显示,搭配 GPT-5.4 的 Webwright 在 Online-Mind2Web 上准确率达 86.67%;在长链路任务的 Odysseys 上得分 60.1%,相比此前最佳成绩(Opus 4.6 的 44.5%)提升 35.1%,相对基础 GPT-5.4 提升 81.49%。
通义实验室发布 AgentScope 2.0,从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型,并扩展 Grok、Moonshot 支持。核心升级包括:模型层引入统一重试与备用模型机制;消息模块重构为 Content Block 并引入事件系统;引入权限系统控制工具调用、文件读写和命令执行;上下文管理实现结构化压缩与工具结果自动截断;新增 Middleware 机制;Workspace 抽象执行环境,统一本地文件系统、Docker 容器、E2B 云沙箱等;Agent Service 合并至主库。Python 版已升级至 2.0,TypeScript 版已正式发布。
天工AI今日推出SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,支持百万token上下文,深度适配复杂工具调用、多轮任务执行、代码生成与文件编辑等智能体场景。模型在主流Agent benchmark上全面超越Minimax 2.7、DeepSeek V4 Flash及Qwen 3.6,在OpenClaw任务上接近更大规模模型,定价低于Minimax 2.7与Qwen 3.6一半。训练采用大规模mid-train、合成轨迹SFT与端到端Agentic RL优化,适配OpenClaw、Hermes、Claude Code等主流Agent框架。模型已于5月22日接入天工Skywork,开放2至4周免费试用,并提供兼容OpenAI格式的免费API调用。
当前大语言模型智能体作为全天候个人助手,只能访问用户数字世界的有限部分,限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题,它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示,GPT-5.5在该基准上的 pass@1 仅为34.5%,远低于其在之前基准上的表现,表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道,可产出2000个训练环境,并使基础模型性能提升23.7%。
阿里 Accio Work 推出企业版,新增团队工作空间,支持 Skills 和 Agent 的共享。成员可将自建 Skills 上传至团队空间,管理员可设置为全员可见,其他团队成员一键安装即可使用;Skills 更新后只需点击“一键更新”即可同步至所有人。Agent 同样可推荐共享,管理员确认后全体成员可直接调用。团队空间配备成员管理、三级权限(所有者、管理员、普通成员)和积分计费,入门版支持 5 人,另有 15 人和 50 人版本。
月之暗面宣布,Kimi K2 系列模型 API 将于 2026 年 5 月 25 日下线,不再维护。受影响的模型包括 kimi-k2-0711-preview、kimi-k2-0905-preview、kimi-k2-turbo-preview、kimi-k2-thinking 和 kimi-k2-thinking-turbo。官方建议用户迁移至最新模型 kimi-k2.6。Kimi K2 于去年 7 月发布,是总参数 1T、激活参数 32B 的 MoE 架构模型;其思考版本 Kimi K2 Thinking 支持高达 300 轮的自主工具调用。
SIA提出由语言模型智能体(Feedback-Agent)同时更新任务智能体的harness(工具、提示词、重试逻辑、搜索过程)和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上,结合两种杠杆均优于仅迭代脚手架:LawBench提升56.6%,GPU内核运行时间减少91.9%,去噪提升502%。Harness更新赋予智能体搜索与行动能力,权重更新则内化领域直觉。
RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。
多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹,识别出重复动作循环等低效来源,并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库,结合反思、分层路由、视觉压缩等技术。在 910 个任务上,其成功率达 58.3%,优于 SGV (54.0%) 和 WALT (45.2%),且 token 消耗分别减少 58% 和 61%,无需预评估预算。消融研究也验证了其高效性。
研究将评估从单轮转向多轮社会交互后,发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中,该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性,智能体在观察到同伴泄露后,披露敏感信息的可能性增加8倍。即使有明确隐私指令,泄露率仍高于37.8%。结论指出,静态聊天基准会系统性低估部署风险,仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。
针对智能体技能不可靠的问题,SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数,利用任务执行产生的轨迹级损失证据生成基于文本的梯度,并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示,SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线,平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。