AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。
AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。
该研究引入了Verus-SpecBench基准测试集,包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务,以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制,并使用官方测试用例和对抗性用例进行评测。结果显示,最强模型Gemini 3.1 Pro解决了77.8%的任务,其他前沿模型解决率为51.1%-57.8%,开源模型仅为21.5%-25.5%。分析发现,LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及,但仍显脆弱。
本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。
Opera Neon 推出命令行工具 opera-browser-cli,标志着浏览器正式进入 AI Agent 时代。
随着MCP月SDK下载量超过9700万且AI智能体进入生产工作流,认证已成为团队面临的关键基础设施决策。文章评估了八家领先平台——WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry和Cloudflare在规范合规性、企业身份深度、集成广度以及2026年部署的现实适用性方面的表现。
WorkOS 推出 auth.md 协议,为 AI 智能体提供标准化注册流程。这是一个部署在应用域名的 Markdown 文件,告知智能体支持哪些注册流程、请求哪些权限范围以及如何获取绑定真实用户的凭证,无需人工填写表单。该协议建立在现有 OAuth 标准之上。
datasette-agent 发布 0.1a4 版本。该版本利用了 Datasette 1.0a30 新增的 makeJumpSections() JavaScript 插件钩子,将“开始新的智能体聊天”界面集成到了跳转菜单中。当用户按下 / 键时,即可在弹出的菜单里看到此界面。演示显示,输入“count entries”指令可启动一次智能体对话,最终返回了 3300 这个计数结果。用户可以使用 GitHub 账号登录 agent.datasette.io 来体验此功能。
本研究指出,AI智能体的下一个主要瓶颈是系统扩展,而非单纯的模型扩展。研究提出了“扩展执行层”的概念,即需要将基础模型周围的结构化执行层作为首要设计对象。该执行层由记忆、检索、工具使用、编排和验证等组件构成,它们的交互共同决定了智能体的长期行为。论文聚焦于扩展执行层的三大核心瓶颈:上下文治理、可信记忆与动态技能路由。为进行具体讨论,研究开发了CheetahClaws这一参考实现,并与Claude Code、OpenClaw进行了对比。其核心观点是,AI智能体的未来进展将同样依赖于更强的基础模型与更优的系统设计。
本文提出了AgingBench,一个用于评估AI智能体长期可靠性的纵向基准。部署后的智能体会因交互历史压缩、记忆检索等机制而逐渐老化。AgingBench通过时间依赖图和反事实探针诊断记忆管道问题。测试发现老化现象复杂:行为测试可能正常,但事实精度已下降;相同错误答案可能需要不同的修复策略。结论是可靠的智能体部署需要生命周期评估与机制级诊断,而不仅是更强的基础模型。
AgentHijack 是一个评测基准,用于评估由多模态大语言模型驱动的电脑使用代理在动态环境干扰下的鲁棒性。该基准设置了 9 种可配置的常见干扰来模拟真实世界中的不理想场景。实验发现,即使轻微的干扰也会导致代理性能显著下降,凸显了增强其鲁棒性的必要性。为此,研究提出了一个改进框架 AgentHijack-Agent,它结合了具有增强定位能力的动作生成器以及负责行为总结和环境检查的观察者模块。
自主研究智能体虽能生成看似专业的论文,但存在可验证性缺陷,如模型幻觉引用、分数不可复现及方法描述与实现不符。本文提出三项贡献:Chain-of-Evidence(CoE)验证框架,要求每个声明可追溯至证据源;ScientistOne系统,在文献调研、方案发现和论文撰写中构建证据链;CoE Audit审计工具,进行四项完整性检查。在对涵盖五个系统的75篇论文评测中,所有基线系统均存在系统性问题,如幻觉引用率达21%。ScientistOne则实现零幻觉引用、完美的分数验证及最高的方法-代码一致性,并在五项任务上匹配或超越人类专家水平,还成功泛化至其他任务,在 Parameter Golf 上达到SOTA。
MobileGym是一个浏览器托管、轻量级且完全可控的移动端日常使用环境。它实现了基于结构化JSON状态的确定性状态判定,以提供可验证的结果信号,并通过低成本并行轮转实现可扩展的在线强化学习。其完整环境状态以JSON进行捕获与配置,单个服务器可托管数百个并行实例,单实例内存约400MB,冷启动约3秒。配套的MobileGym-Bench提供了覆盖28个应用的416个参数化任务模板。在Sim-to-Real案例研究中,使用GRPO对通义千问Qwen3-VL-4B-Instruct进行训练,在测试集上提升了+12.8个百分点,且真实设备执行保留了仿真端95.1%的训练增益。项目主页:https://mobilegym.github.io。
现有基于大语言模型的记忆系统采用通用、静态策略,忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题,研究引入 PerMemBench,首个用于评估个性化记忆系统的基准测试,并提出 session level storage gating 轻量级框架,通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益,但准确的门控仍是开放性挑战。
文章指出,Claude 虽然擅长生成代码和回答问题,但不应被当作软件架构师来依赖。作者认为,其局限性包括容易产生“模型幻觉”、缺乏对项目全局和长期维护的真实理解,以及可能生成不安全或不可维护的代码。建议将其定位为辅助工具,而非核心决策者。
论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性,特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时,其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。
微软研究院近日发布了Webwright,这是一个终端原生的浏览器代理框架。它通过可复用的Playwright脚本取代传统点击追踪的网页自动化方式,基于包含三个模块的单一代理循环构建,代码量约1000行。由GPT-5.4驱动的Webwright在长周期Odysseys基准测试中取得60.1%的得分,较基线模型的33.5%提升近一倍;同时在Online-Mind2Web基准测试中达到86.7%,成为当前开源工具中自动评估得分最高的方案。
马里兰大学、谷歌、Meta等机构的研究人员利用AutoTTS框架,使Claude Code编码智能体自主发现了用于AI推理的控制算法。该算法将计算成本降低了约70%,同时保持了与标准自一致性方法相当的准确率。整个算法搜索过程耗时160分钟,成本仅为40美元。这项工作展示了AI智能体自主设计高效算法的可能性。
多智能体大语言模型系统通过组合多个智能体的输出来提升推理能力,但交互密集的方法易导致错误传播和高通信开销。本文提出一个名为DarkForest的可控通信协调框架。该框架首先让每个智能体独立生成答案,随后将原始响应解析为结构化候选记录,并依据代理可靠性等因素对语义等价的候选进行分组与校准,协调器仅从该信念分布中接收策略允许的证据。在六个推理基准测试上,DarkForest取得了领先的综合质量,其基准指标比最强基线提升高达30.7%,同时将token消耗降低至通信密集型基线的1/6.5。
SimuWoB是一个为移动GUI智能体设计的完全合成基准测试,包含120个跨越不同类型和难度等级的任务。它通过一个框架生成高保真任务和虚拟环境,并为每个任务自动提供有效奖励;环境以无后端的网页形式部署,可通过URL访问,以实现高效、可复现的评估。实验显示,在最先进的移动GUI智能体上,平均成功率仅为27.92%,长视野任务的成功率降至17.82%,揭示了当前智能体在复杂场景下的不足。与真实世界样本任务的评估结果对比表明,基于此合成环境的评估具有良好的泛化能力。
为突破个人智能体静态文本交互的瓶颈,生成式UI成为动态界面层的新方向。本文提出Macaron-A2UI模型,旨在使智能体能同时生成自然语言与轻量级、可执行的UI动作,用于信息收集、偏好优化、确认及多目标组织。研究构建了大规模生成式UI语料库,引入A2UI-Bench评测基准,并训练了30B、235B和754B参数规模的模型。最强的Macaron-A2UI模型在A2UI-Bench上获得75.6分,超越了全schema前沿基线。模型、基准与评测协议均已开源。
腾讯近期开源了TencentDB Agent Memory,这是一个基于MIT许可证的本地化AI智能体记忆系统。该系统创新地将工具日志处理为符号化的短期记忆,并采用由“会话→原子→场景→人格”构成的四层长期记忆金字塔。它以OpenClaw插件和Hermes Docker镜像形式发布,默认使用本地SQLite与sqlite-vec数据库,并融合了混合BM25与向量检索策略。性能基准测试表明,该系统在WideSearch任务中实现了超过60%的token节约和51%以上的相对通过率提升,同时将人格记忆的准确率从48%显著提高至76%。
一篇技术教程详细介绍了如何构建一个高级工作流系统。该系统以SuperClaude框架为核心,作为一层结构化中间件部署在Anthropic API之上。教程核心内容围绕如何整合命令解析、智能代理调度、多种操作模式切换以及跨会话的上下文记忆能力,从而打造出一个功能更全面、上下文连贯性更强的AI应用工作流。文章旨在指导开发者利用这些组件,提升基于大型语言模型构建的应用的复杂任务处理与交互体验。
Superset (YC P26) 发布了一个面向智能体时代的集成开发环境(IDE),专为AI智能体开发提供优化工具。该项目在GitHub上开源,于2026年5月22日在Hacker News上以“Launch HN”形式推出,迅速获得100个点赞,显示社区对智能体时代开发平台的关注。IDE旨在适应AI发展趋势,提升智能体开发效率。
阿里巴巴云千问团队发布Qwen3.7-Max,这是一款专为长时间自主智能体任务设计的闭源模型。该模型曾在单次会话中持续运行35小时,为阿里巴巴自研的专用芯片优化代码。在标准基准测试中,Qwen3.7-Max的表现与Claude Opus 4.6持平,并超越了国内竞品如DeepSeek V4 Pro和Kimi K2.6。此外,团队还现场演示了该模型指挥一个四足机器人执行任务的能力。
微软研究院发布了 Fara1.5 系列浏览器 AI 智能体模型,包含 4B、9B 和 27B 三个版本。该模型专为浏览器操作设计,能读取截图并输出鼠标键盘指令。其 27B 版本在 Online-Mind2Web 基准测试中取得 72% 的任务成功率,显著超过 OpenAI Operator(58.3%)和 Gemini 2.5 Computer Use(57.3%)。模型基于约 200 万样本微调训练,并具备安全机制,在关键操作前会主动向用户确认。
YC P26孵化初创公司Runtime正式推出其沙箱式编程代理产品,旨在为团队所有成员(包括开发者和非技术角色)提供安全的代码执行环境。该产品在Hacker News上获得100个点数,目前已上线并可通过其官网访问。
现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力,提出了AgentFugue框架。该框架构建了一个共享推理中心,当多个对等智能体并行探索同一任务时,中心会记录每个智能体的发现、尝试与排除项,使其他智能体能够选择性复用这些中间推理成果,而无需集中式规划。训练后的该中心作为插件通信层,在长期任务测试中表现优于强基线。结果表明,集体推理可使对等智能体扩展成为一种独立的能力提升途径。
针对长期智能体推理中交互历史过长且关键信息分散的问题,SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索,同时保留原始轨迹页面以支持意图驱动的召回,无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块,使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中,SAM在不同智能体骨架上均持续优于强基线。
ECHO(环境交叉熵混合目标)是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上,增加了一个辅助损失项,训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明,在TerminalBench-2.0上,ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%,Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范,能使基础模型匹配专家SFT后GRPO的性能,并在部分场景下可能实现无验证器的自我改进。
针对大语言模型智能体自我进化中,策略与环境被单独优化导致的错位问题,本文提出SEAL框架。它构建了一个闭环协同进化系统:通过收集策略轨迹并诊断失败,将失败诊断作为共享信号,同时优化智能体的模型策略和训练环境。环境侧进化其学习接口,提供更明确的工具可用性提示;策略侧则利用诊断信息更新模型。实验表明,仅使用400个训练样本,SEAL在三种骨干网络上平均提升了8.25至26.25个点,并展现出跨领域迁移能力。
开源看板桌面应用KanBots正式发布,其核心功能是允许用户在每张看板卡片上运行并行代理。该应用旨在通过AI代理自动化任务流程,提升项目管理效率。项目在Hacker News社区获得102个点赞,展现了开发者社区对AI辅助工作流工具的浓厚兴趣。
上月启动的Project Glasswing项目旨在利用AI能力保护关键软件安全。在约50家合作伙伴参与下,通过使用Claude Mythos Preview模型,已在全球最重要的系统软件中发现超过一万个高危或严重漏洞。Cloudflare等合作伙伴报告其漏洞发现效率提升超十倍,其中仅Cloudflare就在关键系统中发现了2000个漏洞。该模型在多个独立安全测试中表现突出,被评测为网络攻击模拟领域的首个全通关模型。当前的挑战已从快速发现漏洞,转向了如何快速验证、披露和修补海量漏洞。
关联讨论 5 条Anthropic:Newsroom(网页)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Anthropic (@AnthropicAI)The Decoder:AI News(RSS)针对AI代理每次会话均从零开始、缺乏记忆的问题,Y Combinator的Garry Tan开发了开源记忆层GBrain(v0.38.2.0)。该层以Markdown为核心构建知识图谱,并通过正则表达式推理自动建立连接,无需调用LLM。教程完整展示了从安装GBrain、创建脑库、运行混合搜索,到通过MCP协议连接Claude Code的全流程,耗时约20分钟。
Gartner 最新发布的魔力象限报告中,GitHub 连续第三年被列为“领导者”象限,该评估专注于企业级 AI 编程代理领域。GitHub 表示,其致力于构建一个开放、安全且由 AI 驱动的平台,以赋能每一位开发者并定义软件开发的未来。此次评选进一步巩固了 GitHub 在 AI 辅助开发工具市场的领先地位。
针对当前自适应计算策略导致的推理冗长与低效问题,本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型,其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中,v1.0-30B以25.8%-95.3%更少的推理token,达到了与更大参数量系统相当的性能。引入强化学习后,模型规划深度提升22.8%,而频率仅增2.0%,表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。
5月22日,阿里千问App官方宣布,千问App、PC端及网页端接入全新一代大模型Qwen3.7-Max。用户需将千问App更新至6.9.7及以上版本,即可免费体验该模型。Qwen3.7-Max定位为全能的智能体基座,核心能力覆盖编程开发、办公流程自动化及超长周期任务执行。官方实测显示,在一项长达35小时、包含超过1000次工具调用的全自主内核优化实验中,该模型保持了连贯推理。此外,模型具备跨框架泛化能力,并即将通过阿里云百炼平台提供API调用服务。
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)微软研究院近日推出Fara1.5系列浏览器操作智能体,包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率,显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线,可在受控环境中高效训练智能体,为自动化浏览器操作提供了新解决方案。