支付宝AI付正式发布对OpenClaw(龙虾)类AI智能体的支持,用户可在JVS Claw、DTClaw、Claude Code等智能体中通过语音指令开通支付功能,完成缴费、购Token、购物等操作。服务采用7×24小时智能风控,需手动身份核验及本人授权确认,支付宝承诺"你敢付我敢赔"保障交易安全。
支付宝AI付正式发布对OpenClaw(龙虾)类AI智能体的支持,用户可在JVS Claw、DTClaw、Claude Code等智能体中通过语音指令开通支付功能,完成缴费、购Token、购物等操作。服务采用7×24小时智能风控,需手动身份核验及本人授权确认,支付宝承诺"你敢付我敢赔"保障交易安全。
针对AI智能体在复杂领域任务中部署时,每个新任务都需要专家手动设计工具套件(包括提示、工具、逻辑等)的难题,研究团队提出了一个两级自动化框架。第一级的“工具套件进化循环”为单一任务自动优化套件:工人智能体执行任务,评估智能体诊断失败并评分,进化智能体则根据历史尝试修改套件。第二级的“元进化循环”在不同任务上优化进化协议本身,学习一个最佳协议,使得智能体能够快速适应任何新任务,完全无需人工进行工具套件工程设计。该框架将手动工程转变为自动化工程,并进一步实现了自动化设计本身的自动化。
中国信息通信研究院4月21日启动可信技能(Skills)治理首批测试评估,针对智能体技能模块存在的执行偏差、调度失序、安全隐患等可信度问题,设置"执行可信""调度可控""合规可靠"三大类共15个指标70余个细分项,覆盖Skills治理、Skills库治理等方向。评估工作将于2026年5-6月开展材料审核与技术测试,最终结果在2026年7月相关产业大会发布。
针对用户请求常省略关键细节导致工具调用输入不完整的问题,研究者推出MPT基准测试与PRefine方法。MPT包含265个多会话对话,涵盖偏好回忆、归纳与迁移三大挑战。PRefine通过生成-验证-精炼循环将用户偏好建模为动态假设,从历史提取可复用约束,在仅消耗全历史提示1.24% token的情况下提升工具调用准确率。研究表明,有效的个性化需捕获用户选择背后的原因而非仅记录选择本身。
本源量子宣布,我国第三代自主超导量子计算机"本源悟空"首次系统性搭载人工智能运算能力,实现量子算力与AI应用生态融合。该计算机搭载72位自主超导量子芯片"悟空芯",于2024年1月上线运行。此次同步推出量子知识大模型Origin Brain及QPanda3 Runtime MCP服务,用户可通过自然语言交互提交量子计算任务,无需编程即可调用真实量子算力,显著降低使用门槛。
研究团队发布WebCompass基准,首次对代码语言模型进行全生命周期多模态网页开发能力评估。该基准涵盖文本、图像、视频三种输入模态,设置生成、编辑、修复三类共七项任务,覆盖15个生成领域、16种编辑操作及11种缺陷类型,难度分三级。评估采用LLM-as-a-Judge与Agent-as-a-Judge(基于MCP在真实浏览器中自动测试)相结合的方法。实测显示:闭源模型综合能力显著领先;美学表现是开源模型的最大瓶颈;Vue框架难度最高,React和Vanilla/HTML表现更稳定。
研究团队推出Agent-World,一个用于提升通用智能体能力的自演化训练平台。该系统包含两大核心:自主环境任务发现机制,从数千真实世界主题中探索数据库与工具生态并合成可验证任务;以及持续自演化训练框架,结合多环境强化学习与动态任务合成,自动识别能力缺口并驱动针对性学习。Agent-World-8B和14B模型在23项智能体基准测试中持续超越主流专有模型,研究还揭示了环境多样性与自演化轮次对智能体性能的提升规律。
研究团队发布GTA-2基准测试,用于评估通用工具智能体从原子级操作到开放式工作流的综合能力。该基准包含GTA-Atomic(短期封闭任务)和GTA-Workflow(长期开放任务),采用递归检查点机制分解目标并评估端到端完成度。实验显示,前沿模型在原子任务上成功率不足50%,在工作流任务中仅达14.39%。分析表明,检查点反馈及Manus、OpenClaw等执行框架可显著提升性能,凸显执行架构设计比底层模型能力更为关键。
新增 /tui 命令实现全屏无闪烁渲染,Ctrl+O 改为切换详细转录模式,焦点视图由 /focus 独立控制。强化插件管理界面,新增 MCP 服务器配置冲突警告,扩展远程控制客户端对多条斜杠命令的支持。修复 30 余项问题,包括 MCP 工具调用挂起、全屏高 CPU 占用、非受信文件名命令注入漏洞等,并优化内存分配与会话管理。
作者阐述了对MCP(模型上下文协议)相较于专有AI技能系统的偏好,认为开放协议标准在工具集成和互操作性方面更具长期价值。该观点在Hacker News上获得104个赞。文章讨论了标准化接口对AI生态发展的意义,以及封闭技能系统在灵活性和开发者自由度方面的局限。
MiniMax 发布 MMX-CLI,一款面向 AI 智能体(Agent)的全模态命令行工具,通过命令行界面为 Agent 提供全模态能力。
新版本新增对 Amazon Bedrock(由 Mantle 驱动)的支持,并将 API-key、Bedrock/Vertex/Foundry、Team 及 Enterprise 用户的默认 effort level 从 medium 提升至 high。修复了 429 速率限制后代理卡死、macOS 控制台登录失败、插件 hooks 被忽略、长会话滚动回显重复、CJK 字符损坏等关键问题。VSCode 扩展优化了冷启动性能并新增设置解析失败警告。
Claude Code v2.1.91 发布,支持 MCP 工具结果最大 500K 字符不截断,新增禁用技能内联 shell 执行选项,插件可打包 bin/ 目录可执行文件。修复了 --resume 转录链断裂、远程会话计划模式丢失、cmd+delete 快捷键等 bug,并优化了 ANSI 剥离性能。
Cursor 3.0 正式发布,重构为以 Agent 为核心的统一工作空间。新界面原生支持多仓库协作,可并行运行本地与云端 Agent(覆盖移动端、Slack、GitHub 等入口),支持会话在环境间无缝迁移以便离线运行或本地迭代。完整保留 IDE 能力:文件编辑、LSP、内置浏览器及插件市场。基于自研 Composer 2 模型,目标是通过多 Agent 自主协作实现"代码库自动驾驶"。
Mistral AI 于2026年3月31日发布了其命令行工具 Spaces,专为人类用户与 AI 智能体共同工作设计。此次发布是其完整产品矩阵的一部分,该矩阵包括用于构建应用的 Studio、用于训练模型的 Forge、用于长周期任务的 AI 智能体 Vibe 及其代码版本 Vibe for Code,以及用于前沿规模训练与推理的 Compute 基础设施。同时,Mistral 更新了模型产品线,发布了最新的 Mistral Medium 3.5 和 Mistral Small 4 模型。
Google 正式发布了 Java 版智能体开发套件 (ADK) 的 1.0.0 版本。该版本引入了多项关键功能:支持接入 Google Maps 数据、内置 URL 抓取工具,以及用于跨框架协作的标准化 Agent2Agent 协议。其全新的“App”和“Plugin”架构增强了控制能力,实现了全局日志记录、通过事件压缩自动管理上下文窗口,以及需要人工确认的“Human-in-the-Loop”工作流。此外,该版本深度集成 Google Cloud 服务(如 Firestore 和 Vertex AI),提供了强大的会话与记忆管理功能,以处理长期状态和大型数据工件,助力开发者构建更复杂的 AI 智能体应用。
StepClaw 新增通过飞书和企业微信远程唤起功能。用户只需在手机飞书或企微对话框发送指令,即可驱动本地 StepClaw 即刻执行。接入方式:企业微信可通过阶跃AI Web端点击「一键部署企业微信机器人」扫码授权,或桌面伙伴发送「连接企微」获取凭证配置;飞书可通过阶跃AI APP创建机器人并发送凭证绑定,Web端一键部署并发送配置指令,或桌面伙伴生成二维码完成授权。配置后即可实现远程操控。
本周MiniMax Skills社区上线,精选上百种覆盖开发、学习、办公及内容创作的Skill,包括基于M2.7模型创建的PPT制作、PDF编辑等Skill已开源,用户可在MaxClaw或MiniMax Agent中一键添加。MaxClaw新增支持同时部署多个Claw,可自定义命名与设定,支持工作流拆分和多角色协作。通过MiniMax Agent桌面端部署本地OpenClaw时,预置多款安全诊断Skill以降低高危操作风险,并能自主诊断修复。MaxClaw沙箱升级,新环境支持root权限,用户可自由安装依赖库与浏览器,OpenClaw框架也可自行升级。
一套包含MCP、A2A等六种协议的新工具集正式发布,旨在通过标准化AI代理的数据访问与通信方式,消除定制集成代码的需求。以“厨房管理员”代理为例,这些协议能实时核查库存、通过UCP进行批发交易,并借助AP2完成安全支付授权。开发者使用Agent开发套件(ADK)还可实现A2UI与AG-UI,为用户提供交互式仪表板与无缝流式界面。
Kimi支持的个人开发者开源项目OneClaw下载量突破10万,提供一键安装包,1分钟即可在本地部署原版OpenClaw,无需命令行或环境配置。功能包括纯净卸载、自由切换模型、远程控制,支持连接飞书、企微、钉钉、QQ、Kimi Claw;内置2万+技能的技能商店,可无损迁移记忆和Skills。Kimi提供包月方案和API按需购买。使用地址:oneclaw.cn。
Auto Exacto 每隔 5 分钟基于吞吐量、工具调用遥测和基准分数重新评估各提供商。对于包含工具的请求,该功能默认处于开启状态。
Auto Exacto 每隔5分钟根据吞吐量、工具调用遥测数据和基准分数重新评估提供商。对于包含工具的请求,该功能默认开启。
Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。
OpenAI 基于 Responses API、shell 工具与托管容器构建 agent runtime,支持文件处理、工具调用及状态管理,实现安全可扩展的智能体计算机环境部署。
Kimi Claw 今天起内置「微博」和「企业微信」官方插件,新用户经简单设置即可通过这两个 APP 遥控 Kimi Claw 干活。同时支持连接飞书(飞书机器人)。内置 ClawHub 5000+ 社区插件,涵盖开发代码、浏览器、办公工作流、专家角色等;提供 40GB 免费云盘、实时专业财经数据搜索。该功能处于早期实验阶段,首批开放给 Allegretto 及以上会员计划的用户。
研究团队发布 MalTool 框架,揭示 LLM Agent 面临的新型恶意工具攻击威胁。该框架利用编码 LLM 自动生成多样化恶意工具,构建首个包含 1,200 个独立恶意工具和 5,287 个木马工具的大规模数据集。测试显示,现有安全对齐技术和商业检测系统均无法有效阻止或识别此类攻击,而攻击成功率达 100% 且成本极低——GPT-5.2 仅需约 20 美元即可生成约 1,200 个验证恶意工具,单个成本不足 0.02 美元。这种基于代码实现的攻击可窃取数据、删除文件或劫持计算资源,威胁远超传统的描述操纵手段。
Meta与Hugging Face联合推出开源评估框架OpenEnv,旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境,用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API,通过标准接口连接真实工具,将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性,成为评估智能体实际能力的强大测试平台。
一款让 AI agents 担任市长的城市模拟器,支持通过 REST API 或 MCP 服务器进行程序化城市建造与管理。
BrowserOS是一款开源的Chromium分支浏览器,其核心是在浏览器中原生运行AI代理。它作为ChatGPT Atlas、Perplexity Comet等产品的隐私优先替代方案,允许用户自带API密钥或通过Ollama运行本地模型,确保数据始终留在本地设备。该浏览器内置53种以上自动化工具,支持自然语言操作、数据提取,并提供可视化工作流构建、定时任务和持久记忆等AI协作功能。其目标是通过深度集成AI能力,重塑浏览器在AI时代的作用。
蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。
Salesforce近日发布了完全重构的新版Slackbot,将其从一个简单的通知工具转变为功能完整的AI智能体。该智能体基于Anthropic的Claude大语言模型构建,能够搜索企业数据、起草文件并代表员工执行操作,现已面向Business+和Enterprise+客户开放。内部测试显示,在8万名员工中,三分之二已尝试使用,80%成为常规用户,每周可节省大量时间。未来,Slackbot计划支持Google Gemini等其他模型。此举是Salesforce将Slack定位为“智能体AI”运动核心的关键举措。
本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。
开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces,便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越,在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一,在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本,支持计算机使用与多工具无缝集成,并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型,在高性能推理平台(如 Groq)上运行能显著提升效率。
智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。
Anthropic在Claude开发者平台发布三项新功能,以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具,内部测试中将上下文消耗从约7.7万令牌降至8700令牌,降幅达85%,并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具,减少对上下文窗口的影响,例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。
xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文,在τ²-bench Telecom基准测试中获100%得分且成本仅105美元,函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品,成本更低且幻觉率较上代降低一半。
关联讨论 1 条xAI:News(网页)随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。
OpenRouter 推出 Exacto,旨在回答同一个大语言模型在不同 AI 服务供应商上是否表现不同的问题。该工具帮助用户量化供应商间的性能差异,为模型部署选择提供参考。
Inkeep推出AI智能体构建平台,提供无代码可视化构建器与TypeScript SDK两种创建方式,两者支持完全双向同步,便于技术与非技术团队在同一平台协作。智能体可作为实时聊天助手用于客户体验或内部协同,也能实现知识库更新、CRM处理等工作流自动化。平台开源部分包含构建器、SDK、多智能体架构及UI组件库,支持通过API触发智能体并提供可观测性。该框架采用Elastic License 2.0许可,用户可自选LLM提供商并自行部署。