Endava通过应用AI工具Codex,成功构建了智能体驱动的组织模式,显著加速了软件交付流程。其核心成果体现在需求分析环节,耗时由数周大幅缩短至数小时。
Endava通过应用AI工具Codex,成功构建了智能体驱动的组织模式,显著加速了软件交付流程。其核心成果体现在需求分析环节,耗时由数周大幅缩短至数小时。
Claude Opus 4.8 上线,价格与 4.7 相同($5/M 输入、$25/M 输出),上下文等参数一致。新特性:effort 控制向所有用户开放;模型更精确遵循指令但主动性减弱;代码瑕疵蒙混过关概率降低 4 倍;fast mode 速度 2.5 倍,价格降至之前的 1/3(输入 $10/M、输出 $50/M)。Claude Code 新增 dynamic workflows,可自动拉起数十至上百个子 Agent 并行处理并自验。Benchmark 方面,Terminal-Bench 2.1 仍未超过 GPT-5.5。此外,Anthropic 完成 650 亿美元融资,估值近万亿美元。创作能力虽比 4.7 有进步,但整体仍不如 4.6。
AI 智能体正从实验阶段走向生产环境,AWS、Cloudflare 等公司正在重新设计云基础设施,以迎接一个由机器生成的互联网流量主导、而非人类用户主导的未来。
LACUNA 是一种智能体编程模型,旨在弥合运行时与大语言模型编写代码之间的分离。其核心机制是将每个智能体动作定义为类型化调用 agent[T](task),由模型在运行时填充代码,但代码在执行前会经过类型检查。被拒绝的动作(8.6%)不会影响环境,其编译器诊断信息将驱动重试。该检查也限制了动作可使用的工具和数据流。此模型将 ReAct 循环、子智能体、技能等表达为普通控制流。评估显示,在 τ^2-bench 上,该模型解决了 76.0% 的任务,性能与基线智能体相当。
微软推出了 Microsoft 365 Copilot 的改版,声称加载速度是之前的两倍,并采用了更简洁的设计。更新引入了“渐进式展示”功能,即根据用户的提示词动态展示相关工具和控件,而非一次性显示所有选项。同时,升级后的提示词框现在支持直接进行文本格式化。
Google Research 在 I/O 2026 大会上展示了其在多个前沿领域的技术进展,包括应用AI、基础机器学习算法以及量子AI等。本次大会的核心主题是展示其在将科学发现与研究成果转化为现实世界影响方面的持续努力。
关联讨论 1 条Google Blog:AI(RSS)Asana宣布收购Stack AI。Stack AI是一家专注于构建无代码AI智能体(agent)的公司。此次收购后,Asana将把Stack AI整合到其不断增长的AI工作流工具套件中,以增强其平台上的自动化与智能化能力。
Claude Code 引入了动态工作流功能,该特性允许智能体在执行任务时,根据上下文动态地构建和调整工作流程。文章发布于 2026 年 5 月 28 日。
Claude Code 更新至 v2.1.154 版本,正式引入 Opus 4.8 模型。新功能包括“动态工作流”,可通过 /workflows 指令让 Claude 在后台编排数十到数百个 AI 智能体协同处理复杂任务。Opus 4.8 的快速模式现已可用,成本降低为 2 倍标准费率可实现 2.5 倍速度提升。其他更新有:精简系统提示词成为默认设置(除 Haiku、Sonnet 及 Opus 4.7 及更早版本外),优化多选题决策逻辑,简化 /simplify 命令。此次更新修复了包括后台会话管理、终端渲染在内的多个 bug,并增强了自动模式对数据外泄的检测能力。
60秒网页游戏「Continue? Y/N」上线,主题为模拟 AI 智能体频繁请求用户授权所导致的决策疲劳。游戏可通过 llmgame.scalex.dev 访问。
针对多模态大语言模型构建的GUI智能体因缺乏操作世界知识导致任务完成能力受限的问题,本文提出GUI-CIDER中期训练方法。该方法通过三个阶段显式内化知识:首先从GUI轨迹中合成静态规划与动态因果知识文本;然后通过奖励因果结构、惩罚语义冗余进行样本重选;最后使用精炼数据进行中期训练以嵌入知识。实验表明,该方法一致提升了智能体对GUI操作的理解与任务成功率。代码已开源。
Claude Code 推出“动态工作流”功能,使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本,在单个会话中并行运行数十到数百个子智能体来完成工作,并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移(如将 Bun 从 Zig 移植到 Rust)等需要多角度分析的任务。该功能现已在研究预览阶段可用,支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台,面向 Max、Team 及已启用的 Enterprise 计划用户。
关联讨论 5 条Claude:Blog(网页)Claude Code:GitHub Releases(RSS)X:邵猛 (@shao__meng)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)Anthropic 发布了最新的 Opus 4.8 大语言模型,并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组,以执行复杂任务。
同一事件,精选展示《Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级》Anthropic 发布了新一代模型 Claude Opus 4.8,作为 Opus 4.7 的升级版本,其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用,价格与前代相同。同步推出的新功能包括:用户可控制任务投入程度、Claude Code 新增“动态工作流”特性,以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%,超越了 Opus 4.7 和 GPT-5.5。此外,其诚实度与对齐表现也得到提升,代码错误漏检率降低了约 75%。
关联讨论 15 条X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出,AI对攻击者和防御者同样强大,但可被利用的漏洞窗口正在缩小,因为AI能更快地生成、审查和修补代码。为此,安全团队正向工程团队转型,例如Lemonade的安全部门均由工程师组成,并构建了包含智能体的内部AI平台。同时,每个智能体(单个终端上可能运行200到10000个)都需要被赋予身份,并在操作点由策略进行更复杂的管控,这超越了当前身份与访问管理系统的能力。
腾讯混元发布专为 Openclaw 长期协作型 AI 智能体设计的记忆插件 Hy-Memory。它通过6层记忆框架、System1/System2双系统与演化链架构实现长期记忆管理。测试显示,该插件能降低记忆数量70%+,提升信息密度45%,处理长上下文时 token 消耗降低35%,更新速度加快20%,旨在解决记忆碎片化问题,避免智能体降级为简单查询工具。
Google Pay 正在彻底改造其支付基础设施,以应对即将到来的 AI 智能体交易浪潮。最新更新引入了通用商务协议和新的服务器架构,旨在将 Google Pay 定位为自主智能体而非人类用户执行购买的中央清算所。
新一批AI实验室正聚焦于研究递归自我改进(RSI),即让模型能够自主迭代优化自身的能力。其目标是实现模型的自我升级,但目前这一目标被证明难以实现和精确定义。
Rivian首席软件官Wassym Bensaid同时担任该公司与大众集团成立的合资公司RV Tech的联席CEO。这家合资公司源于大众近60亿美元投资,旨在为大众及其旗下品牌的未来电动汽车开发操作系统和电子架构。Rivian正准备交付基于新架构的更平价车型R2,并已在R1车型中推出了AI驱动的Rivian Assistant。Bensaid将此视为打造更具“智能体”特性车载软件平台的关键一步。
腾讯混元推出 Hy-Memory,一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术,解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2,在偏好、时序推理、知识更新维度领先;PersonaMem 评测超越所有竞品。相比其他方案,记忆数量降低 70%+,单条信息密度高 45%+,token 消耗降低 35%,写入速度为 Graphiti 的 8 倍,支持本地嵌入式存储,安装仅需一行命令,提供 Lite/Pro/Ultra 三档。
比亚迪发布超级智能体“迪迪虾”,基于整车智能体系打造,实现全仓记忆、跨域互动、端云协同与快慢思考。该智能体具备自然人机交互、主动服务和复杂任务处理能力,支持多轮对话、用户偏好记忆与模糊指令理解。演示中,系统展示了自动调节空调、识别儿童入睡状态、处理包含导航与补能的复杂指令链路等功能,并接入生活服务。比亚迪同步将开放车机生态升级为面向 AI Agent 的“智能体生态”。
Cloudflare构建了名为Town Lake的统一分析平台,并基于此开发了内部AI智能体Skipper。
Vertu 推出一款新折叠手机,基于开源项目 Hermes 构建,融合了 AI 智能体工作流、企业系统集成和超高端奢华材质。该设备定价 6,880 美元起。
Mistral AI 正将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程智能体及全新的 Work Mode 整合到这一新品牌下。Work Mode 可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理邮件、报告或代码拉取请求等任务。此外,Mistral 将 Pro 套餐的月费从 17.99 欧元降至 14.99 欧元。此举旨在让 Mistral 更直接地与 OpenAI、Google 和 Anthropic 提供的智能体产品展开竞争。
百度搭子DuMate是一款PC端办公AI智能体,能看见用户屏幕、操作软件、处理文件。零门槛安装,不需配置环境;本地优先处理,数据不出设备,复杂任务自动调度上云。支持Word/Excel/PPT输出,内置百度搜索、深度研究等Skills生态。用户下载后可通过邀请码分享好友,双方各得2000积分。
Mistral AI 推出 Vibe,一款统一工作与编码的 AI 智能体。其工作模式可处理长期多步骤任务,连接 Google Workspace、Outlook、Slack 等应用,进行研究、分析与调度。代码模式支持从 Web 应用到终端的全流程编码。Vibe 运行为推理、智能体任务和编码优化的旗舰 Mistral 模型,并发布了新的 VS Code 扩展。
Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识,正与空客、宝马集团和 ASML 合作,加速工程设计与优化。AI 智能体产品 Vibe 进行了升级,增强了推理和智能体任务能力。此外,公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心,专注推理操作以增强算力安全。
VERTU 发布首款书本式折叠屏手机 ALPHAFOLD,定位“AI时代的总裁机”。该机内置名为 Hermes 的系统级 AI 智能体,具备任务拆解、跨应用协同与长期记忆能力,可调用手机内应用完成复杂指令,并提出“Phone-to-ERP”概念以连接企业后台系统。硬件搭载骁龙 8 Elite 处理器,内屏 8.05 英寸,配备 6500mAh 电池。官方售价 39800 元起。
阿里 Qoder 推出全托管 AI Agent 运行平台 Cloud Agents。该平台提供 Agent 底座、模型服务及运行环境,企业可通过 API 直接调用,能将 Agent 上线时间从 1 个月缩短至 1 天。Cloud Agents 支持独立沙箱、实时事件流追踪与审计,并原生支持 Skills 和 MCP 协议,可扩展多种企业能力。
本文提出ESC-Skills框架,以解决情感支持对话系统可解释性不足与技能改进缺乏体系的问题。该框架首先将局部交互建模为干预单元(IUs),刻画寻求者状态、支持干预与情绪变化间的动态。基于从成功与失败对话中提取的IUs,构建了包含干预指导、适用条件、预期结果与潜在风险的可执行技能库。为进一步提升鲁棒性,框架引入了基于SAGE评估的多角色自我进化精炼流程,通过模拟不同寻求者画像来识别缺失技能与不安全干预,并据此更新技能库。实验证明,该框架在响应质量和对话级情感结果上均有提升,提供了更可解释和可控的支持行为。
现有记忆增强大语言模型智能体常将记忆视为静态存储,这在动态环境中较为脆弱。为此,FluxMem框架提出将记忆建模为异构图,并通过初始连接形成、反馈驱动细化和长期巩固三个阶段,持续优化其拓扑结构。在执行时,该框架能修复缺失连接、剪除干扰、对齐抽象粒度,并将反复成功的轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试上,FluxMem均达到了SOTA水平,展现出在复杂智能体环境中强大的适应与泛化能力。代码将开源于GitHub。
研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架,它将记忆管线转化为可执行的记忆演化图,以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准,数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统,用于系统研究记忆失效模式。此外,我们引入了一种自动归因方法,通过迭代追踪操作子图来定位失败根因。分析表明,记忆失败具有系统性,源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化,可构建一个自动纠错的闭环系统,将端到端任务性能最高提升7.62%。
清华大学 THUNLP 实验室、面壁智能、OpenBMB 与 AI9stars 联合研发并开源的智能体操作系统 PilotDeck,以 WorkSpace(工作舱)替代传统对话框,每个工作舱拥有独立文件系统、记忆和技能,实现项目隔离。三大核心能力:记忆白盒化,全链路可见可控,支持一键修改和回滚;智能路由,自动识别任务难度动态分配模型,开启后成本节省近 70%,复杂任务仅用 1/6 成本即可反超顶级模型方案;Always-on 常驻任务,AI 主动发现并持续推进工作。支持端云协同,可调用端侧模型作为子 Agent,自动部署 VoxCPM 等模型完成多语言播客等任务。
针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。
针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。
针对小型开放计算机使用智能体在特定领域能力较弱且失败案例分布不均的问题,研究团队提出了LearnWeak框架。该框架利用一个更强的参考智能体,自动识别学生智能体在目标领域的弱点,并据此合成针对性任务以构建训练数据。LearnWeak进一步引入错误感知特化目标,能够区分规划与执行错误,实现更精确的行为更新。在OSWorld基准测试中,该方法使EvoCUA-8B和OpenCUA-7B模型在八个领域的平均性能分别提升了11.6和11.1个百分点。
本研究将AI研究智能体视为科学搜索系统进行评估。通过四个框架和六个大语言模型,从共享种子文献中生成了37,802个科学想法,并与人类论文、后续研究及种子文献进行对比。实验揭示了四个一致的模式:AI生成的想法比同领域人类论文更为集中;更贴近其起始文献,而非后续人类研究;与AI想法最相似的论文后续引用量往往较低;当AI想法与已有工作不同时,差异主要源于对现有技术方法的重组,而非引入全新的研究问题。总体而言,当前的AI研究智能体更擅长局部细化,而非拓展科学探索的广度。