阿里 Qoder 推出全托管 AI Agent 运行平台 Cloud Agents。该平台提供 Agent 底座、模型服务及运行环境,企业可通过 API 直接调用,能将 Agent 上线时间从 1 个月缩短至 1 天。Cloud Agents 支持独立沙箱、实时事件流追踪与审计,并原生支持 Skills 和 MCP 协议,可扩展多种企业能力。
阿里 Qoder 推出全托管 AI Agent 运行平台 Cloud Agents。该平台提供 Agent 底座、模型服务及运行环境,企业可通过 API 直接调用,能将 Agent 上线时间从 1 个月缩短至 1 天。Cloud Agents 支持独立沙箱、实时事件流追踪与审计,并原生支持 Skills 和 MCP 协议,可扩展多种企业能力。
现有记忆增强大语言模型智能体常将记忆视为静态存储,这在动态环境中较为脆弱。为此,FluxMem框架提出将记忆建模为异构图,并通过初始连接形成、反馈驱动细化和长期巩固三个阶段,持续优化其拓扑结构。在执行时,该框架能修复缺失连接、剪除干扰、对齐抽象粒度,并将反复成功的轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试上,FluxMem均达到了SOTA水平,展现出在复杂智能体环境中强大的适应与泛化能力。代码将开源于GitHub。
针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。
Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。
OpenSkillEval是一个用于评估LLM智能体技能的自动评估框架。它不依赖静态基准,而是从演示生成、网页设计等五类应用的动态工件中自动构建超过600个任务实例,并收集了30个开源技能进行对比评估。研究发现,技能可用并不等同于有效使用,其增益高度依赖具体模型与智能体框架,许多流行的开源技能并未持续优于无技能的基础智能体。这强调了进行动态、任务导向评估的必要性。 (https://yingjiahao14.github.io/OpenSkillEval-Web/)
软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。
Robinhood现允许客户通过MCP协议将Anthropic的Claude等AI智能体连接到独立的投资账户。这些智能体能够自主交易股票。美国金融业监管局(FINRA)已将此类智能体列为新的风险领域,并警告其可能做出不受约束的决策。Robinhood自身也承认该产品并非适合所有客户。
Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。
Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。
关联讨论 1 条X:Runway (@runwayml)金融平台 Robinhood 推出一项新功能,允许用户创建一个带有预存余额的独立账户。该账户专门设计用于 AI 智能体执行股票交易操作,为自动化投资代理提供了专用资金渠道。
文章探讨了将 Claude Code 作为日常开发工具的实践,重点介绍了其核心配置文件 Claude.md、技能系统、子代理功能、插件扩展以及通过 MCP(模型上下文协议)进行集成的方法,旨在提升开发者的工作流效率。
MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。
在Code w/ Claude 伦敦活动上,Anthropic 宣布了 Claude Managed Agents 的两项新能力:自托管沙箱(公开测试版)和 MCP 隧道(研究预览)。这两项功能使 AI 智能体的工具执行环境与企业私有网络内的 MCP 服务器连接均可运行在客户自有基础设施或指定托管服务商处。活动还介绍了如何通过 Claude Code、优化思维预算以及模型努力级别来提升开发体验。目前,包括 Spotify、Base44 和 Legora 在内的客户已在使用这些新功能。
关联讨论 2 条Claude:Blog(网页)X:Claude (@claudeai)当前对大语言模型智能体的评估忽略了工具使用的时序维度,尤其未考虑工具响应延迟的影响,且多局限于单任务场景。为此,研究团队提出了AsyncTool,这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务,模拟真实的响应延迟,并在步骤、子任务和任务三个级别进行评估,引入了效率导向的指标。实验表明,延迟的工具反馈对现有智能体构成重大挑战并导致性能下降,而能更好协调任务切换与状态维护的模型表现更优。
开源 Python Web 框架 Starlette 中发现名为“BadHost”的关键漏洞。该软件包每周下载量高达 325 million 次,其漏洞可能直接威胁大量依赖它构建的 AI 智能体(AI Agent)服务。
OmniVoice Studio 是一个完全在本地硬件上运行的开源项目,无需 API 密钥、云账户或订阅。它提供语音克隆、视频配音、实时听写和说话人分离等功能,支持 646 种语言的语音合成(TTS),并暴露一个 MCP 服务器,可与 Claude、Cursor 等 MCP 客户端集成。
该教程以 TuringEnterprises/Open-MM-RL 数据集为实践基础,构建多模态推理与可验证奖励强化学习(RLVR)流程。内容涵盖数据集加载、结构分析(包括领域、格式、问题长度、答案类型和图像分布),并可视化各领域示例。同时实现了一个轻量级奖励函数,用于检查精确匹配等条件,并演示了如何将流程导出为 GRPO 格式。
支付宝宣布其“AI 支付”已完成 3 亿笔智能体支付,并支持 95% 的通用智能体框架。同时,支付宝发布了全球首个 Token Pay 服务与 AI 钱包产品,用户可通过“AI 钱包”管理智能体授权与账单。此外,支付宝还推出了商家智能体“晓雨”。MiniMax、阶跃星辰已与其达成合作,采用其 AI 支付方案。
“龙虾之父”Peter 开源了 skill-cleaner 工具,用于诊断和优化 AI 智能体的技能提示词。该工具包含5项核心功能,包括技能提示词预算审计、重复技能检测、未使用技能筛查、技能根目录审计和描述精简优化。其脚本采用标准 token 预算核算逻辑,旨在帮助减少冗长描述对 token 预算和上下文窗口的占用。已有用户实践显示,将技能描述从90多词精简至40词以内,能提升智能体选择技能的准确率。
通义实验室发布 AgentScope 2.0,从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型,并扩展 Grok、Moonshot 支持。核心升级包括:模型层引入统一重试与备用模型机制;消息模块重构为 Content Block 并引入事件系统;引入权限系统控制工具调用、文件读写和命令执行;上下文管理实现结构化压缩与工具结果自动截断;新增 Middleware 机制;Workspace 抽象执行环境,统一本地文件系统、Docker 容器、E2B 云沙箱等;Agent Service 合并至主库。Python 版已升级至 2.0,TypeScript 版已正式发布。
AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。
本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。
随着MCP月SDK下载量超过9700万且AI智能体进入生产工作流,认证已成为团队面临的关键基础设施决策。文章评估了八家领先平台——WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry和Cloudflare在规范合规性、企业身份深度、集成广度以及2026年部署的现实适用性方面的表现。
一篇技术教程详细介绍了如何构建一个高级工作流系统。该系统以SuperClaude框架为核心,作为一层结构化中间件部署在Anthropic API之上。教程核心内容围绕如何整合命令解析、智能代理调度、多种操作模式切换以及跨会话的上下文记忆能力,从而打造出一个功能更全面、上下文连贯性更强的AI应用工作流。文章旨在指导开发者利用这些组件,提升基于大型语言模型构建的应用的复杂任务处理与交互体验。
本次 v2.1.149 更新包含功能增强、企业设置和多项修复。新增 /usage 命令的使用量分类显示功能,可区分技能、子代理、插件及每个 MCP 服务器的消耗;/diff 详情视图支持键盘滚动;Markdown 输出兼容 GFM 任务列表。企业版新增 allowAllClaudeAiMcps 设置以加载云 MCP 连接器。修复了 PowerShell 权限绕过、Git 工作树沙盒写入白名单越界、脚本路径含空格时 otelHeadersHelper 静默失败等安全问题。改进了 /feedback 报告,包含上下文压缩前的对话内容,便于排查长会话中的早期问题。
针对AI代理每次会话均从零开始、缺乏记忆的问题,Y Combinator的Garry Tan开发了开源记忆层GBrain(v0.38.2.0)。该层以Markdown为核心构建知识图谱,并通过正则表达式推理自动建立连接,无需调用LLM。教程完整展示了从安装GBrain、创建脑库、运行混合搜索,到通过MCP协议连接Claude Code的全流程,耗时约20分钟。
5月22日,阿里千问App官方宣布,千问App、PC端及网页端接入全新一代大模型Qwen3.7-Max。用户需将千问App更新至6.9.7及以上版本,即可免费体验该模型。Qwen3.7-Max定位为全能的智能体基座,核心能力覆盖编程开发、办公流程自动化及超长周期任务执行。官方实测显示,在一项长达35小时、包含超过1000次工具调用的全自主内核优化实验中,该模型保持了连贯推理。此外,模型具备跨框架泛化能力,并即将通过阿里云百炼平台提供API调用服务。
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)微软研究院近日推出Fara1.5系列浏览器操作智能体,包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率,显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线,可在受控环境中高效训练智能体,为自动化浏览器操作提供了新解决方案。
Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略,动态组合冻结的专家模型与双层技能库,实现步骤级的实时决策:何时调用专家、选择何种模型-技能组合,以及何时终止。在十个代表性多模态基准测试中,仅4B参数的Maestro平均准确率达70.1%,超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能,无需重新训练;在扩展外部专家后,仍显著优于闭源基线,同时保持高效率和低延迟。代码已开源。
WordPress 7.0 于2026年5月20日发布,代号Armstrong,是2026年首个重大更新,由超过875位贡献者参与,包含420多项增强与修复。核心变化是原生集成AI能力,通过新增AI客户端和能力接口,支持生成图片、标题及摘要。后台采用Modern主题优化视觉一致性,编辑体验强化了可视化修订与字体管理。响应式编辑提升,允许直接控制区块在不同设备的显示。此外,新增多种设计区块,并引入区块级自定义CSS控制,增强设计灵活性。
自主智能体正从工具演变为社会基础设施的一部分,其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol(FP),一种图优先的协调层,用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体,支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议,支持渐进式采用,在保持智能体可组合性的同时,确保问责制的不可妥协性。
语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期(经验生成、技能提取与技能运用),构建了涵盖五个多样化任务领域的效用评估框架。研究发现,模型生成的技能平均有益,但存在显著的负面迁移现象;技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能,用于指导技能提取过程,以提升技能质量并减少负面迁移。
开源数据可视化插件 datasette-agent-charts 发布了 0.1a1 预览版。该版本主要增强了图表呈现:无颜色列的柱状图与华夫图改用连续色阶按数值大小着色,含文本值的颜色列则采用 observable10 分类配色方案。此外,新增了查询前的 execute-sql 权限检查、交互式图表提示信息,并修复了 waffleY 图表类型未被正确描述的问题。
Mistral AI 的 Studio 产品旨在帮助用户构建、测试并运行 AI 智能体与应用。其核心功能是通过可复用的连接器、直接的工具调用以及人机协同审批控制,将企业数据连接到 AI 应用中。该产品支持使用内置及自定义的 MCP。
针对工业智能体在基准测试AssetOpsBench中,现有缓存技术因无法处理时间等动态参数而失效的问题,本研究提出了两种互补优化方案:时间语义缓存与MCP工作流优化。测试显示,MCP工作流优化(结合磁盘工具发现缓存与依赖感知并行执行)实现了1.67倍加速,将端到端延迟降低约40%;而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率,还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。
Mem-π是一个用于大型语言模型代理的自适应记忆框架,它通过专门的模型按需生成指导内容,而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法,使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中,Mem-π性能持续优于检索式方法和现有强化学习记忆方案,其中在网页导航任务上实现了超过30%的相对提升。
在2026年I/O开发者大会上,谷歌宣布推出Antigravity 2.0,这是一款围绕智能代理编排构建的独立桌面应用程序。同时发布的还包括Antigravity命令行工具(CLI)和软件开发工具包(SDK),并在Gemini API中引入了托管代理功能。此外,通过Gemini Enterprise提供企业级支持。此次发布标志着谷歌从工具集成迈向构建完整代理开发生态的重要转变。
Google AI Edge Gallery 应用在安卓平台上扩展了设备端 AI 能力,通过引入对开源模型上下文协议(MCP)的实验性支持,使得 Gemma 4 模型能够协调处理跨 Google Workspace 和 Google Maps 等外部数据源的复杂任务。此次更新添加了“定时通知”技能,用于实现日常事务的自动化管理,并新增了持久化聊天记录功能,允许用户近乎即时地恢复长会话上下文。该平台依托开源工具包,积极鼓励社区开发者通过其 GitHub 仓库构建并分享专注实用的工作流、提示配置与工具集成。