百度发布新一代基础大模型文心大模型5.1,并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上,文心5.1位列国内第一、全球第四。其综合能力显著提升,Agent能力实现超越,创意写作与推理能力已接近或达到业界领先水平。
百度发布新一代基础大模型文心大模型5.1,并已在千帆模型广场等平台上线。该模型采用“多维弹性预训练”技术,仅以业界同规模模型约6%的预训练成本,实现了基础效果的领先。在国际权威竞技场LMArena的搜索榜上,文心5.1位列国内第一、全球第四。其综合能力显著提升,Agent能力实现超越,创意写作与推理能力已接近或达到业界领先水平。
科技媒体通过挖掘安卓版ChatGPT代码,发现OpenAI正为Codex开发远程控制功能。用户未来可在手机端连接同一账号的桌面版Codex,恢复或重连远程会话,实现离开工位后仍能查看任务状态、继续下达指令或处理卡住的开发流程。代码显示该功能包含设备发现、会话恢复、异常重连及版本校验,远程界面保留了完整的指令体系。此举旨在补齐Codex此前相比已具备跨设备接入能力的Claude的短板。
Ring-2.6-1T 是一款万亿级旗舰思考模型,引入可调节的 Reasoning Effort 机制,支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流,xhigh 面向数学、科研等复杂任务。评测中,high 模式 PinchBench 得分 87.60,Tau2-Bench Telecom 95.32;xhigh 模式 ARC-AGI-V2 得分 77.78,AIME 26 得分 95.83,GPQA Diamond 88.27。模型已上线 OpenRouter,近期将开源。
论文提出ORACLE,首个从流式应用使用轨迹中早期预判诈骗的智能体框架。该研究针对诈骗意图随时间逐步显现的挑战,基于部分轨迹做出前瞻性决策。为支持此任务,研究构建了一个真实世界基准,包含平均跨越15天、涉及95个应用的12种诈骗类型轨迹。为处理证据分散问题,框架引入自进化上下文管理器,随时间动态整合以实体为中心的交互,重建跨时序证据。同时,通过一种策略内自蒸馏方案,利用具备总结性反思的教师模型来训练学生模型,增强对早期潜在信号的敏感性。实验表明,ORACLE能持续提升早期诈骗预判能力,实现实时预警并减少误报。
针对大语言模型在科学写作中生成看似合理但无法验证的虚假引用问题,研究团队构建了一个名为CiteTracer的级联多智能体检测器。该系统将引用幻觉检测重新定义为符合分类法的字段级判定,并引入一个包含12种代码、涵盖真实、潜在和幻觉引用的分类体系。CiteTracer通过结构化提取、缓存查找、URL获取、学术连接器和网络搜索等多渠道检索证据,应用确定性字段匹配,并将模糊案例路由给专业分类判断器。在包含2450个合成引用和957个来自真实会议投稿的伪造引用基准测试中,CiteTracer在合成集上达到97.1%的整体准确率,在真实集上检测出97.1%的伪造引用。相关代码已开源。
RewardHarness 将奖励建模重构为上下文进化问题,而非传统的权重优化。该框架仅需约100条人类偏好示例,通过协调器与冻结子智能体的协作,利用自进化的工具与技能库进行推理判断。其核心在于通过对比预测结果与真实偏好,自动优化工具库,无需额外人工标注。实验表明,仅使用 EditReward 数据集中 0.05% 的数据,该框架在图像编辑评估基准上平均准确率达 47.4%,超越 GPT-5 达 5.3 个百分点。作为 GRPO 微调的奖励信号时,其能使模型在 ImgEdit-Bench 上取得 3.52 的评分。
大语言模型(LLMs)驱动各类应用,但云服务难以满足低延迟、间歇连接等需求,端侧部署又受算力与内存限制。协同智能作为一种新范式,通过分布在设备与云端的多个LLMs以自然语言协作,在计算、内存、通信和成本等多维约束下优化响应质量。该框架涵盖垂直设备-云协作和水平多智能体协作,并可结合为混合拓扑。研究还探讨协作学习,包括路由策略训练与LLMs合作能力开发,并指出资源异构下的扩展性及可信协同智能等开放挑战。
研究团队提出隐私感知智能体框架PAAC,以解决LLM智能体在云端推理与设备端隐私保护间的矛盾。该框架将规划器与执行器的分解与端云边界对齐:云端智能体仅对保留敏感信息推理角色但隐藏具体内容的类型化占位符进行推理;设备端智能体则负责识别敏感信息,并将执行结果提炼为关键发现。在严格隐私设置下的三项智能体基准测试中,PAAC在隐私与准确性的帕累托前沿上表现最优,平均准确率提升15-36%,平均信息泄露减少2-6倍。该框架在涵盖数学、科学与金融等10个领域的另外17个基准测试中也表现出一致的改进。
针对智能体在任务规划与反应式执行间的割裂问题,MCP-Cosmos框架将生成式世界模型融入模型上下文协议生态。它通过统一MCP、世界模型与智能体三项技术,提出“自带世界模型”策略,使智能体能在潜在空间中模拟状态转移并预先优化计划。实验采用ReAct和SPIRAL两种策略,结合2种规划模型与3种世界模型,在超过20项MCP-Bench任务中验证。结果表明,该框架显著提升了工具成功率与参数准确性等关键指标,并引入“执行质量”新指标,为评估世界模型效能提供了新洞察。
研究团队推出FORTIS基准,用于评估大语言模型智能体在技能调用中的过度权限问题。该基准从两个阶段测试模型:能否从大量重叠技能库中选择最小必要权限的技能,以及执行时是否超出技能允许的工具或操作范围。在十个前沿模型和三个领域的测试中,过度权限行为成为普遍现象。模型倾向于选择比任务所需更高权限的技能和工具,即使在最强模型中,两阶段的失败率依然很高。在用户描述不完整、便捷性引导和接近技能边界等常规交互条件下,问题尤为严重。结果表明,技能层非但未能约束智能体,反而成为当前系统中权限升级的主要来源。
针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题,本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀,并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库,并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练,在AFTraj-2K和外部基准测试中,其性能超越GPT-4.1等领先专有模型,实现了高达+19.9%的性能提升,并将步骤定位误差降低3倍,从而将故障处理从事后归因转向部署时干预。
MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务,要求智能体改进ML系统的特定组件,并证明其改进能在受控环境中泛化与扩展。研究发现,当前智能体远未达到可靠超越人类设计方法的水平,且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈,关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。
Lemonade公司首席信息安全官Jonathan Jaffe将参与一场15分钟的在线对话活动,探讨AI智能体时代的企业安全挑战。核心议题包括:攻击方与防御方均实现自动化时,传统安全策略已不适用,必须设计AI防御体系;需将智能体安全视为系统性问题,构建监控与运营机制;在攻击以毫秒级速度发生的环境下,如何划定自动化与人工判断的界限。活动形式为实时问答,不设幻灯片与预设问题。
OpenAI通过沙盒隔离、人工审批流程、严格网络策略与原生代理遥测四层防护机制,确保Codex代码生成模型的安全运行。沙盒环境完全隔离执行代码,所有生产请求需经人工审核批准,网络策略限制外部依赖访问,实时遥测系统监控代理行为异常。该安全框架使企业能够合规采用AI编程助手,在保障代码安全性的同时维持开发效率。
Bugbot宣布将团队与个人计划从每月每席位40美元的订阅制改为按使用量计费。现有用户的变化将于2026年6月5日后的下一个账单周期开始生效,例如2026年5月购买的年订阅将在2027年5月切换。团队按需消费计费,个人按包含使用量计费,平均每次运行成本约为1.00-1.50美元,具体取决于PR大小和复杂度。同时,用户现在可配置Bugbot审查PR的工作强度:默认强度下80%被识别的问题在合并时得到解决;高强度模式下可多发现35%的问题,解决率仍保持在80%。现有客户可在Cursor面板中提前切换至用量计费。
研究提出战略轨迹抽象(StraTA)框架,将显式的轨迹级策略引入智能体强化学习,以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略,使后续动作基于该策略执行,并通过分层GRPO式训练设计联合优化策略生成与动作执行,辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA在样本效率和最终性能上均稳定超越基线模型,在ALFWorld上达到93.1%的成功率,在WebShop上取得84.2%的成功率,在SciWorld上以63.5%的综合得分超越前沿闭源模型。
OpenRouter Agent SDK 新增一种工具类型,使智能体能够自动处理常规决策,并在高风险决策时暂停等待人工输入。该工具提供两个钩子(hooks),不需要开发者编写任何循环管理代码。
OpenRouter Agent SDK 新增一种工具类型,让智能体自动解决常规决策,并在高风险的决策点暂停等待人类输入。该工具提供两个 hook,无需编写循环管理代码。
OpenRouter Agent SDK 引入了一种新工具类型,使智能体能够自动处理常规决策,并在高风险决策时暂停以请求人工输入。该功能通过两个钩子实现,无需编写任何循环管理代码,从而在自动化流程中灵活嵌入关键的人工判断环节。
为提升大语言模型在生物医学领域的工具调用能力,研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具,包含7,040个经人工验证的高质量查询-API调用对,覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后,其在生物医学工具调用上的性能显著提升,甚至超越了GPT-5.1等先进商业模型。人类专家评估证实,集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。
国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,旨在促进智能体规范应用与创新发展。智能体作为具备自主感知、决策等能力的智能系统,正加速与网络和物理世界深度融合。文件坚持安全可控、规范有序等原则,提出四方面举措:夯实技术基础、守牢安全底线、强化应用牵引(涵盖19个典型场景)、建设创新生态。强调防范隐私泄露、越权操作等风险,将安全可靠可信作为产业底线,并加快制定智能体互联协议等标准。
Anthropic 的 Claude Mythos Preview 在 Firefox 150 中发现了 271 个此前未知的安全漏洞,其中部分漏洞已存在长达 20 年。Mozilla 采用了一种智能体流水线方法,由 AI 自主构建并运行测试用例,以过滤误报。未来,每段新代码在提交前都将经过该系统的自动检查。
Anthropic正式推出适用于Excel、PowerPoint和Word的Claude,并面向所有付费用户公测Outlook版。该AI助手能跨Microsoft 365应用协同工作,如在Outlook中分类邮件并起草回复,在Word处理附件,在Excel分析数据,再于PowerPoint生成演示文稿。所有操作无需用户重复解释上下文,更改可在并排打开的文档间自动同步,对话记录随文件持久保存。付费用户现可通过Microsoft管理中心部署使用。
OpenAI为Chrome浏览器推出Codex扩展,将AI深度集成至浏览器工作流。该扩展允许Codex在浏览器内直接执行任务,如测试Web应用、读取多标签页上下文及调用开发者工具,旨在处理依赖实时页面状态和多标签信息的复杂连续工作。OpenAI强调扩展不会接管浏览器控制权,用户保有完全控制。目前Codex周活用户已超400万,较年初增长8倍,其应用正从代码辅助扩展至更广泛的日常浏览器任务。
研究提出“心智景观激活签名”概念,通过子模优化选取高层概念以覆盖被激活的上下文空间,并可借助工作记忆进行轻量迭代更新。该压缩表示能近似全局激活状态对下游处理的影响,同时保持计算可行性。将MiA-Signature集成至RAG与智能体系统中,在多项长上下文理解任务上实现了持续的性能提升。
针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题,A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括:采用轮次组归一化,使同深度轮次间可比;通过方差重缩放的折扣累积,保持不同位置优势幅度的可比性;引入自适应轮次裁剪,根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配,无需依赖外部奖励模型。
Mozilla 工程师披露,其使用 Anthropic 的 Claude Mythos AI 模型在 Firefox 150 版本中共发现 271 个安全漏洞,其中 180 个为高危级别。为回应外界对 AI 有效性的质疑,团队公开了 12 份完整漏洞报告。他们通过自研的 Agent Harness 智能体套件引导 AI 分析代码并自主构造测试用例,同时引入第二个大模型进行结果打分以严格过滤误报,最终实现了极低的误报率,显著提升了漏洞排查效率。
研究构建了一个由外部测量驱动的封闭式自动研究循环,其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是,谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后,人类未干预搜索过程。在总计1797次试验中,该循环使参数高尔夫的验证bpb降低0.81%,将NanoChat-D12 CORE提升38.7%,并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术,从而改进公开的初始方案。
AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点,提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设,模拟了人类协作模式。早期测试中,该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中,AI协数学家取得了48%的最新最高分,展现了AI辅助数学发现的高度交互范式。
Skill1 是一个统一训练单一策略的框架,旨在协同进化技能选择、使用与提炼三项能力,以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务,并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号:其低频趋势为技能选择提供反馈,高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明,Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化,消融实验显示移除任一反馈信号都会损害整体进化效果。
SkillOS提出一种经验驱动的强化学习框架,用于训练自进化智能体学习长期技能管理。该系统由一个固定的智能体执行器和一个可训练的技能管理器组成,后者依据累积经验更新外部技能库。通过设计复合奖励并在基于技能相关性的分组任务流上训练,该方法解决了从间接、延迟反馈中学习复杂管理策略的挑战。实验表明,在多轮智能体任务和单轮推理任务中,SkillOS在效果与效率上均优于无记忆及强记忆基线,且所学技能管理器能泛化至不同执行器与任务领域。分析显示,管理器能实现更精准的技能调用,技能库中的技能会逐渐演化为结构更丰富、编码高层元技能的Markdown文件。
Claude 发布 v2.1.133 版本,新增多项配置与优化。主要新增 worktree.baseRef 设置以选择工作树分支基础,引入 sandbox.bwrapPath 等设置允许指定自定义二进制路径,并添加 parentSettingsBehavior 键供管理员控制设置合并策略。功能上,钩子现在可接收活动努力级别信息,Bash 工具命令可读取相应环境变量。此外,改进了焦点模式行为,并在内存压力下优化了后台工作进程的释放。本次更新修复了大量问题,包括并行会话死锁、权限规则误匹配、代理设置不生效、网络驱动器访问被拒、远程控制中断不彻底、努力级别跨会话更改以及子代理技能发现失败等。claude --help 现已列出远程控制选项,VSCode 扩展也修复了相关错误。
本研究对CODS 2025多智能体编排挑战赛进行了回顾分析。公开规划排行榜在72.73%准确率处饱和,隐藏评估则显著改变了结论:规划任务中公开与私有分数呈中度相关(0.69),而执行任务中呈负相关(-0.13),部分系统分数从45.45%提升至63.64%。官方评分中特定术语影响微弱,调整权重将改变前两名排序。竞赛注册队伍虽多,但仅24支获得有效公开分数,其中超半数为团队协作。成功的执行方法主要集中于改进响应选择、污染清理等护栏机制,而非创新智能体架构。
研究团队推出PhoneSafety基准测试,包含从130多个应用的真实交互中提取的700个安全关键时刻,以评估智能体在风险决策中的表现。测试区分三种行为:采取安全行动、不安全行动或无法执行任何有效操作。对八个代表性智能体的评估发现,更强的通用手机操作能力并不总意味着在风险时刻能做出更安全的选择;而“无法行动”更多反映的是能力限制(尤其在视觉和操作复杂度高的界面中),而非安全意图。结果表明,无害的结果不足以证明安全性,必须将不安全判断与行动无能区分开来。
FlashEvolve 是一个高效框架,旨在解决基于大语言模型的智能体进化过程中因阶段同步和执行负载不均导致的时间瓶颈。它采用异步工作队列取代同步执行,允许不同进化阶段与步骤重叠运行。为处理异步引入的数据陈旧问题,框架追踪版本并对陈旧工件采取更新、丢弃或修补策略,并利用推测性阶段完成与自适应工作流控制进一步提升吞吐量与令牌效率。在 GEPA 基准测试中,其在本地 vLLM 上实现了 3.5 倍的提案吞吐量提升,在 API 服务上相比同步方法提升达 4.9 倍。该设计同样适用于 ACE 等任务。
针对多轮任务中稀疏奖励导致的信用分配难题,本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级,以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理,并利用其重新缩放优势函数,通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明,AEM能持续提升多种强RL基线性能,集成至先进软件工程训练框架时可实现+1.4%的性能增益。
针对现有多模态搜索代理顺序处理实体导致效率低下的问题,本文提出HyperEyes。它将视觉定位与检索融合为单一原子操作,支持对多实体进行并行搜索,并将推理效率作为核心训练目标。其训练采用双阶段策略:首先通过并行适配数据合成流程进行冷启动监督;随后运用双粒度效率感知强化学习框架,在宏观层面通过动态收紧参考的轨迹级奖励抑制冗余工具调用,在微观层面利用策略蒸馏注入密集的令牌级纠正信号。研究还构建了人工标注基准IMEB以同时评估搜索能力与效率。实验表明,HyperEyes-30B在六个基准上以平均减少5.3倍工具调用轮次的代价,在准确率上超越最强开源代理9.9%。
研究指出,AI智能体并非劳动力,而是一种将计算资本转化为有效认知劳动的生产技术。在人类与智能体劳动可替代的任务中,竞争性人类工资存在一个以计算为锚的上界,表达式为 λ·k·r_c(其中 r_c 是计算资本租赁价格,k 是单位智能体劳动的计算密集度,λ 是相对生产率)。这一框架将决定均衡工资的弹性供给边际,从劳动力市场转移至计算资本市场。核心结论是:认知劳动的定价者不再是劳动力市场。研究基于经典要素定价框架推导,并通过CES聚合进行推广,区分了可替代与互补性任务。
现有基准测试未能充分评估视觉证据在交错搜索轨迹中的作用。为此,研究团队推出InterLV-Search基准,专门评估语言与视觉证据在搜索过程中反复交错使用的智能体能力。该基准包含2,061个示例,涵盖主动视觉证据搜寻、受控离线及开放网络交错多模态搜索三个层级,并首次引入涉及多实体比较的多模态多分支样本。实验表明,当前最先进的多模态智能体在此任务上整体准确率仍低于50%,在视觉证据定位、搜索控制和多模态证据整合方面面临显著挑战。基准数据与评估代码已开源。
GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。