谷歌 Gemini 被曝正在开发名为 Spark 的智能体功能。与仅回答问题的传统助手不同,Spark 能直接替用户执行任务,例如清理 Gmail 收件箱、整理会议笔记和生成新闻摘要。用户可创建特定技能处理重复性工作,并支持多步骤工作流。目前它主要集成谷歌 Workspace,未来可能扩展至第三方应用。此外,Spark 或将能控制 Chrome 浏览器和调用文件,但暂时无法像 OpenClaw 等工具那样控制整台电脑。
谷歌 Gemini 被曝正在开发名为 Spark 的智能体功能。与仅回答问题的传统助手不同,Spark 能直接替用户执行任务,例如清理 Gmail 收件箱、整理会议笔记和生成新闻摘要。用户可创建特定技能处理重复性工作,并支持多步骤工作流。目前它主要集成谷歌 Workspace,未来可能扩展至第三方应用。此外,Spark 或将能控制 Chrome 浏览器和调用文件,但暂时无法像 OpenClaw 等工具那样控制整台电脑。
Anthropic 的产品负责人 Cat Wu 在谈及 Claude Code 时透露,团队没有制定宏大计划,但这是有意设计的产品策略。这一发言强调了公司在发展过程中注重灵活性和实用性,可能通过精益方法来调整使用限制和提升透明度,以适应不断变化的市场需求,确保产品迭代更贴合用户实际体验。
针对AI智能体部署后因环境差异导致安全护栏失效的问题,研究团队提出LiSA终身安全适应框架。该框架通过结构化记忆改进固定基础护栏,将偶发故障转化为可复用的策略抽象,使稀疏用户反馈能泛化至个别案例之外。它引入冲突感知本地规则防止过度泛化,并采用证据感知置信度门控,使记忆复用基于累积证据。在多项测试中,LiSA在稀疏及噪声反馈下均优于强记忆基线,并将延迟-性能边界推至超越骨干模型缩放的水平。
Kimi WebBridge 是一款面向本地 AI Agent 的浏览器插件,使智能体能够直接操控浏览器,执行网页导航、数据提取等任务。
联发科在天玑开发者大会2026上阐述了实现跨端协同的三层策略:在IP设计源头统一NPU架构;通过NeuroPilot平台实现“一次开发,多端部署”;联合生态伙伴共建标准以打破系统壁垒。针对汽车领域,其将手机端积累的算力与低比特压缩技术迁移至座舱,并区分智驾安全与座舱智能体应用。为应对内存瓶颈,公司提升了模型压缩率。联发科认为,“龙虾”框架加速了个人AI的落地进程。
Claude Code 在大型代码库中的工作原理文章发布,阐述该AI代码助手如何解析、理解和操作庞大代码项目,涵盖最佳实践与入门指南。内容涉及代码重构、效率提升等关键变化,并在Hacker News社区获得109点高度关注,反映开发者对其技术细节的广泛兴趣。
阿里发布AI编程工具Qoder 1.0,定位从“AI IDE”升级为“智能体自主开发工作台”。新版本将Quest模式升级为独立视窗,集成了任务管理、状态追踪等功能,开发者定义目标后,Agent可自主完成执行、验证和交付全流程。它支持跨项目、跨代码库并行运行多个Agent任务,并提供全局状态概览。此外,新增的自定义专家能力允许开发者配置专属Agent团队,融入特定领域知识与外部工具。
上海交通大学赵一新教授团队在《Science》发表论文,宣布通过多智能体AI平台设计出新型钙钛矿太阳能电池。该电池采用甲脒-铯钙钛矿材料与双Al₂O₃保护层构型,在100°C高温下连续运行1000小时后,仍能保持97%的初始效率,突破了钙钛矿电池长期面临的稳定性瓶颈。这一成果实现了从传统“实验试错”到“机理驱动+智能迭代”的研发模式转型,有望加速其产业化进程。
微软正通过WinUI 3框架优化Windows 11原生体验,旨在解决系统卡顿、臃肿及过度依赖网页技术等问题。优化已见成效:文件资源管理器启动过程中,WinUI框架内存分配次数减少41%,临时内存分配减少63%,代码执行时间降低25%。同时,开始菜单等核心组件正转向纯原生开发。微软还发布了新的命令行项目模板以简化开发,并引入AI智能体插件辅助编程。不过,部分优化因涉及破坏性改动,目前仍需开发者手动启用。
Sea Limited 首席产品官阐述了公司为何在工程团队中全面部署 Codex,以加速亚洲地区的 AI 原生软件开发。公司正推动开发模式向“智能体化”转变,让 AI 智能体承担从需求分析到代码生成、测试的更多开发任务。这一举措旨在显著提升工程效率,缩短产品迭代周期,并应对亚洲市场对敏捷、智能化软件开发日益增长的需求。
研究团队推出FutureSim基准,通过按时间顺序重放真实世界事件(如新闻文章),评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间,基于实时信息预测未来事件。测试结果显示,前沿智能体表现差异显著,最佳预测准确率仅为25%,多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景,旨在推动衡量AI在现实世界中长期开放适应能力的进展。
本文提出LIFE统一框架,系统综述基于大语言模型的多智能体系统。该框架涵盖能力奠基、协作整合、故障归因与自主演化四个因果关联阶段。研究指出,当前系统在需持续协调的任务中存在局限,且紧密协作会放大错误传播风险。现有工作多孤立探讨各阶段,本文通过形式化表征阶段间依赖关系,揭示了它们如何相互制约与支撑。在此基础上,文章针对阶段衔接处的开放挑战提出了跨阶段研究议程,旨在推动系统向能持续诊断故障、重组结构、优化行为的自组织集体智能演进。
强化学习为LLM智能体后训练提供核心范式,但其轨迹级奖励信号对长程交互的监督较为粗略。针对多轮智能体应用策略自蒸馏时,存在多轮不稳定性加剧以及技能条件化特权指导处理不对称的问题。本文提出的SDAR方法将策略自蒸馏作为门控辅助目标,以强化学习为主要优化主干,通过Sigmoid门映射分离的令牌级信号,强化教师认可的正向差距令牌的蒸馏,并软衰减教师的负面拒绝。在多个基准上的实验表明,SDAR显著优于GRPO基线,避免了朴素混合方法的不稳定性,并在不同模型规模上持续超越混合基线。
研究提出一种语言模型自我改进的新范式,使模型从被动生成数据转为主动构建训练自身的可执行环境。该方法的核心在于环境需具备稳定的“求解-验证不对称性”:模型能编写验证器代码,却无法可靠地用自然语言解决新实例。这种不对称性确保了奖励信号的有效性。研究者实例化为EvoEnv方法,通过合成Python环境并经过多阶段严格验证后才用于训练。在较强的Qwen3-4B-Thinking模型上测试表明,传统方法性能下降,而EvoEnv将其平均性能从72.4%提升至74.8%。这证明稳定的自我改进关键在于让模型学会构建结构上始终超越其当前能力的环境。
时间序列预测需结合数值模式与上下文信息如新闻。研究团队推出Nexus框架,它将预测分解为多阶段:分离宏观与微观时序波动,整合非结构化上下文信息,再综合生成预测。该框架表明,当前大语言模型具备比以往认知更强的内在预测能力,关键在于组织数值与上下文推理。在知识截止日期后的Zillow房地产和波动股市数据上评估,Nexus持续匹配或超越了最先进的时序基础模型及大语言模型基线。此外,Nexus能生成高质量推理轨迹,明确展示预测背后的核心驱动因素,推动预测向代理推理问题发展。
针对智能体建模领域因依赖闭源资源而受限的问题,研究团队推出了开源框架Orchard。其核心是轻量级环境服务Orchard Env,提供跨任务和流程的可复用沙箱管理基元。基于此构建了三个高效智能体方案:编码智能体Orchard-SWE在SWE-bench Verified上达到67.5%的准确率;视觉语言计算机使用智能体Orchard-GUI仅用少量数据便在多项基准测试中取得64.0%-74.1%的成功率;个人助理智能体Orchard-Claw仅用0.2K合成任务便在Claw-Eval上实现59.6%的pass@3成功率。该框架证明了其跨领域实现可复用数据、训练与评估的能力。
针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题,本文提出MemEye评估框架。该框架从视觉证据粒度(场景级至像素级)与证据使用方式(单一至演化合成)两个维度构建评估体系,并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估,研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明,有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。
微软面向Windows 11 26H1 Release Preview预览版用户推送了Build 28000.2173更新。主要新增功能包括:为兼容的Surface Slim Pen 2等设备引入触觉反馈;文件资源管理器新增对uu、cpio等归档格式的支持,并优化了视图偏好保存与界面稳定性;推出全屏的Xbox游戏模式;任务栏新增智能体进度监控功能,支持Microsoft 365 Copilot等应用。此外,更新还涉及共享托盘、企业策略管理、打印图标、驱动安全策略、批处理文件安全模式等多方面改进与性能提升。
针对传统检索无法理解复杂意图、而前沿大语言模型成本高且存在幻觉的问题,研究团队提出了自我进化的智能文献检索系统PaSaMaster。该系统通过迭代式意图分析、检索与排序,将文献检索转变为动态演进的过程,并采用三项关键设计:利用排序证据揭示信息缺口以优化搜索;将检索定义为意图-论文相关性排序任务,从根本上杜绝虚假文献;通过分离规划与检索来提升效率,仅用大模型理解意图,而将大规模检索与评分交由轻量模型处理。在涵盖38个学科的基准测试中,该系统将传统关键词检索的F1分数提升15.6倍,完全消除了文献幻觉,且性能超越GPT-5.2达30%,计算成本仅为后者的1%。
OpenAI于5月15日宣布,用户现可通过手机端ChatGPT应用远程控制Mac桌面端的Codex。用户升级应用后,可在手机上实时查看对话线程、审批请求、插件状态及项目上下文,并直接审批任务、发起新指令或更换模型。所有文件与权限仍保留在原电脑,但截图、终端输出等更新内容会实时推送至手机。连接时,Mac端Codex会生成二维码供手机扫描配对。目前该功能仅支持Mac版,Windows版将在未来推出。
xAI 发布专为软件工程设计的编程智能体 Grok Build 早期测试版,目前仅限 SuperGrok 订阅用户在终端使用。该智能体提供“规划模式”,允许用户在任务执行前审核、修改或重写计划,批准后所有改动会以 Diff 形式呈现。此外,它支持直接调用 AGENTS.md 文件、插件、hooks、skills 及 MCP 服务,并兼容无头模式,便于集成到脚本与自动化流程中。CLI 还提供完整的 ACP 支持,以帮助用户构建机器人和智能体编排应用。
开源工具 datasette-agent 发布了 0.1a2 版本。此版本的主要更新在于,工具的可用性现在可以与特定的权限(required_permission)进行绑定。默认提供的后台代理工具现在需要新的 datasette-agent-background 权限才能访问。此次发布关联了 datasette 与 datasette-agent 两个核心项目。
为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题,研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局,并提供基于DRC执行结果的功能正确性评估流程,无需将评估布局作为智能体输入。同时,研究设计了SplitTester测试智能体,它利用执行反馈生成有区分性的测试用例,有效分离先前难以区分的候选脚本,显著提升了该领域中Best-of-N选择策略的性能,为相关研究与开发提供了重要工具。
为解决强化学习应用于代理式大语言模型时成本高、扩展难的问题,我们提出AstraFlow。该系统采用数据流导向的组件化架构,替代了传统以训练器为中心的控制模式,将服务、数据流与训练解耦为自治组件。这使系统能原生支持多策略协同训练,并高效利用弹性、异构的跨区域计算资源。在数学、编程、搜索等多类任务评估中,AstraFlow无需修改系统代码即可运行复杂工作负载。实验表明,在多策略协同训练下,它相比现有框架能达到相当或更好的任务准确率,并将训练速度提升2.7倍。
VideoSeeker是一种新范式,旨在解决大型视觉语言模型在视频实例级时空定位上精度不足、依赖文本提示且感知与推理割裂的问题。该范式通过视觉提示和代理推理,使模型能按需主动感知并检索相关视频片段。研究构建了四阶段全自动数据合成流水线以生成高质量数据,并通过冷启动监督和强化学习内化工具调用与主动感知能力。实验显示,模型在实例级视频理解任务上平均性能提升13.7%,超越GPT-4o等闭源模型,且在通用视频基准上展现可迁移性,相关数据集与代码将开源。
χ-Bench是一个针对医疗运营自动化的基准测试,评估AI智能体在策略密度、多角色协作和多边交互三项关键能力上的表现。测试涵盖授权、用率管理和护理管理三大领域,要求智能体在模拟20个医疗应用、提供87个工具接口的高保真环境中,依据超过1290份文档的操作手册完成任务。结果显示,在30种配置中,最佳智能体仅解决28%的任务,严格标准下成功率不足20%,且全量任务性能骤降至3.8%。这表明AI在处理复杂、不可逆的企业级应用时仍面临显著挑战。
研究指出,基于大语言模型的智能体常因过早利用先验知识而在陌生环境中失败,根源在于缺乏自主探索能力。为此,团队提出了可验证的度量标准“探索检查点覆盖率”,以量化智能体对环境关键要素的发现广度。评估发现,传统任务导向强化学习训练的智能体行为模式狭窄且重复。为解决此问题,研究提出一种交替进行任务执行与探索的训练策略,并设计了相应的可验证奖励。基于此,团队进一步提出“先探索后执行”范式,将信息收集与任务解决解耦。实验结果表明,系统性的探索学习对于构建可泛化、适应现实世界的智能体至关重要。
研究提出由LLM智能体自主设计基础模型的双框架。AIRA-Compose通过11个智能体在24小时内探索计算基元,评估百万参数候选架构并外推至更大规模,最终生成AIRAformer和AIRAhybrid两个系列共14个架构。在10亿参数预训练中,这些模型性能持续超越Llama 3.2等基线;下游任务准确率最高提升3.8%,扩展效率最高提升71%。AIRA-Design部署20个智能体编写新型注意力机制与训练脚本,其在长程依赖任务上的表现接近人类最优水平。这表明AI智能体已能自主发现匹配或超越人工设计的架构与优化算法。
研究针对需要点级精度的几何图形界面控制任务,揭示了现有视觉-语言模型存在的语义-执行鸿沟:通用模型动作类型准确率高但任务成功率极低。为此,我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准,并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务,结合像素接地监督调优与精度对齐强化学习,将任务成功率提升至最强通用基线的4.1倍,步骤成功率从GUI专用智能体的不足9%提高到62%以上,实现了点精确GUI控制的新突破。
Claude 代理工具发布 v2.1.142 版本。本次更新新增了 --add-dir、--settings、--model 等 8 个用于配置后台会话的命令行标志,并将 Fast 模式的默认模型升级为 Opus 4.7。插件功能得到增强,拥有根目录 SKILL.md 的插件现可被识别为技能,插件详情面板会显示其提供的 LSP 服务器。此外,版本修复了超过 15 项问题,包括 MCP 工具超时设置失效、后台会话在系统休眠后异常断开、守护进程升级后无法正常退出、Windows 网络驱动器工作目录下死锁等关键错误,并改进了响应式压缩和钩子配置错误提示。
datasette-agent发布了0.1a1测试版本。此次更新涉及权限控制逻辑,现在在向用户列出可查询的数据表前,会先检查是否拥有execute-sql权限。该变更对应项目的第8号议题,是权限模型的一项改进。datasette-agent是一个与Datasette生态相关的工具,其更新动态在相关技术标签下受到关注。
研究者提出FlowCompile,一个从编译视角优化结构化大语言模型工作流的编译器。它在部署前全局探索工作流设计空间,通过将工作流分解为子智能体、分析其在不同配置下的性能,并利用结构感知代理组合这些结果,以估算工作流级的精度与延迟。该方法一次性生成一组覆盖不同精度-延迟权衡的可复用工作流配置,无需重新训练或在线调整。实验表明,FlowCompile在多种工作流和基准测试中均优于启发式优化与基于路由的基线方法,最高可实现6.4倍加速,其编译产出支持根据运行时偏好灵活部署及下游选择。
用户现可通过 ChatGPT 移动应用随时随地使用 Codex。该功能支持跨设备和远程环境实时监控、引导及批准编码任务,实现了对编程工作的无缝移动端管理。
xAI 面向 SuperGrok Heavy 订阅用户推出 Grok Build 早期测试版。这是一个直接在终端运行的新型编程智能体与命令行工具,专为专业软件工程和复杂任务设计。其核心功能包括:支持“计划模式”,允许用户在代码执行前审阅和修改详细步骤;能无缝集成现有开发工具链;可将大型任务分解,交由并行运行的专用子智能体处理。此外,该工具提供无头模式,便于脚本和自动化流程集成。用户可通过单行命令安装并立即在项目中使用。
Claude Code已成功部署于数百万行的单体仓库、遗留系统及分布式架构中。其核心在于围绕模型构建的“工具套件”,而非仅依赖模型本身。该套件包含五个关键扩展点:提供代码库概览的CLAUDE.md文件、实现持续改进的钩子、按需加载专业知识的技能、插件以及MCP服务器。它采用智能体搜索模式,直接在开发者本地实时代码库上操作,无需构建和维护集中式索引,从而避免了传统RAG系统在活跃大型代码库中索引过时的问题。团队对代码库设置的投入程度直接决定了其导航效果。
Anthropic公司发布了一份面向AI原生初创企业的实用指南,旨在重塑2026年创业生命周期的构思、最小可行产品、发布和规模化四个核心阶段。该手册为每个阶段提供了具体目标、退出标准、常见失败模式及AI驱动练习,涵盖如何利用Claude进行问题验证与客户发现、避免AI生成代码的技术债务、区分真实产品市场契合度与早期炒作,并引入智能工作流替代创始人手动操作。指南还整合了多家初创企业的实践案例,为从零开始围绕AI构建公司的创始人提供架构、范围与安全方面的最佳实践。
Google开源框架Genkit近日推出其核心中间件系统,旨在提升智能体AI应用的可靠性与可控性。该系统允许开发者在生成调用、模型及工具层进行拦截,以注入自定义行为,如重试机制、模型回退以及人工介入的工具审批流程。通过创建并堆叠自定义中间件,开发者能够实现对模型输出的确定性控制。所有中间件的执行流程均可通过专用的开发者界面进行实时查看与调试,有效支持使用TypeScript、Go、Dart和Python构建生产就绪的智能体应用。
微软构建了名为 MDASH 的系统,该系统驱使超过 100 个专用 AI 智能体相互对抗,以发现软件漏洞。仅在某个“补丁星期二”,该系统就发现了 Windows 中的 16 个安全漏洞,其中 4 个被标记为“严重”级别。微软尚未透露该系统具体由哪些 AI 模型驱动。
蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T,参数规模达万亿,面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”,在多步任务与工具协作中表现更优;支持 high/xhigh 两档推理强度,可灵活平衡效果与成本;采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中,high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32;xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K(YaRN),已通过 HuggingFace 和 ModelScope 开放下载。
关联讨论 4 条HuggingFace Daily Papers(社区热门论文)蚂蚁 inclusionAI:HuggingFace 新模型公众号:蚂蚁百灵(Ling)X:蚂蚁百灵 (@AntLingAGI)