Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。
Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。
OpenAI 基于 Responses API、shell 工具与托管容器构建 agent runtime,支持文件处理、工具调用及状态管理,实现安全可扩展的智能体计算机环境部署。
Kimi Claw 今天起内置「微博」和「企业微信」官方插件,新用户经简单设置即可通过这两个 APP 遥控 Kimi Claw 干活。同时支持连接飞书(飞书机器人)。内置 ClawHub 5000+ 社区插件,涵盖开发代码、浏览器、办公工作流、专家角色等;提供 40GB 免费云盘、实时专业财经数据搜索。该功能处于早期实验阶段,首批开放给 Allegretto 及以上会员计划的用户。
研究团队发布 MalTool 框架,揭示 LLM Agent 面临的新型恶意工具攻击威胁。该框架利用编码 LLM 自动生成多样化恶意工具,构建首个包含 1,200 个独立恶意工具和 5,287 个木马工具的大规模数据集。测试显示,现有安全对齐技术和商业检测系统均无法有效阻止或识别此类攻击,而攻击成功率达 100% 且成本极低——GPT-5.2 仅需约 20 美元即可生成约 1,200 个验证恶意工具,单个成本不足 0.02 美元。这种基于代码实现的攻击可窃取数据、删除文件或劫持计算资源,威胁远超传统的描述操纵手段。
Meta与Hugging Face联合推出开源评估框架OpenEnv,旨在标准化智能体与真实系统的交互。Turing公司贡献了生产级“Calendar Gym”环境,用于在权限控制、时间推理等现实约束下研究工具使用智能体。该框架采用类似Gymnasium的API,通过标准接口连接真实工具,将评估重点从受控演示转向真实世界可靠性。日历系统因涉及多用户、多步骤工作流等复杂性,成为评估智能体实际能力的强大测试平台。
一款让 AI agents 担任市长的城市模拟器,支持通过 REST API 或 MCP 服务器进行程序化城市建造与管理。
BrowserOS是一款开源的Chromium分支浏览器,其核心是在浏览器中原生运行AI代理。它作为ChatGPT Atlas、Perplexity Comet等产品的隐私优先替代方案,允许用户自带API密钥或通过Ollama运行本地模型,确保数据始终留在本地设备。该浏览器内置53种以上自动化工具,支持自然语言操作、数据提取,并提供可视化工作流构建、定时任务和持久记忆等AI协作功能。其目标是通过深度集成AI能力,重塑浏览器在AI时代的作用。
蚂蚁百灵推出Ling Studio,这是用户与百灵大模型交互的全新官方Web平台。目前可体验Ling-1T(高速首字响应与快速回答)、Ring-1T(高效稳定的复杂推理)以及Ming-flash-omni-Preview(图片识别与音频识别等多模态能力)。平台支持灵活配置模型参数与系统提示词、原生工具调用(含联网搜索)及API即用即接。即将上线文件对话、图片生成和一系列模型Skills。
Salesforce近日发布了完全重构的新版Slackbot,将其从一个简单的通知工具转变为功能完整的AI智能体。该智能体基于Anthropic的Claude大语言模型构建,能够搜索企业数据、起草文件并代表员工执行操作,现已面向Business+和Enterprise+客户开放。内部测试显示,在8万名员工中,三分之二已尝试使用,80%成为常规用户,每周可节省大量时间。未来,Slackbot计划支持Google Gemini等其他模型。此举是Salesforce将Slack定位为“智能体AI”运动核心的关键举措。
本次发布聚焦于提升大型语言模型(LLM)的速度与性能。核心更新包括优先支持快速LLM、探索更多模型提供商选项,以及允许用户自定义自动路由。软件开发工具包(SDK)现已支持加载技能,同时系统实现了显著的性能改进。这些更新旨在优化开发者的使用体验与模型运行效率。
开源可配置通用智能体 CUGA 现已集成至 Hugging Face Spaces,便于开发者便捷实验。该智能体在复杂任务基准测试中表现卓越,在包含 457 个 API、750 个真实任务的 AppWorld 基准排名第一,在 WebArena 基准也位居前列。其核心提供可配置的推理模式以平衡性能与成本,支持计算机使用与多工具无缝集成,并能与 Langflow 结合进行低代码工作流设计。采用 Apache 2.0 许可的 CUGA 支持多种开源模型,在高性能推理平台(如 Groq)上运行能显著提升效率。
智谱开源GLM-4.6V系列多模态模型,含106B-A12B基础版与9B轻量版Flash,支持128k tokens上下文。首次原生集成Function Call能力,支持图像、截图直接作为工具参数,并能理解工具返回的视觉内容。具备复杂文档理解、视觉网页搜索、前端代码生成及交互式编辑能力,适用于构建多模态Agent。已上架GitHub、Hugging Face及魔搭社区。
Anthropic在Claude开发者平台发布三项新功能,以解决传统工具调用消耗大量上下文、易出错的问题。工具搜索工具允许按需加载工具,内部测试中将上下文消耗从约7.7万令牌降至8700令牌,降幅达85%,并将准确率从49%提升至74%。程序化工具调用支持在代码环境中调用工具,减少对上下文窗口的影响,例如Claude for Excel可借此处理数千行数据。工具使用示例则提供了展示工具有效使用方法的通用标准。这些功能共同提升了AI代理处理大规模工具库的能力。
xAI发布Grok 4.1 Fast模型及Agent Tools API。Grok 4.1 Fast支持200万token上下文,在τ²-bench Telecom基准测试中获100%得分且成本仅105美元,函数调用准确率72%。Agent Tools API集成实时X数据、网页搜索与代码执行功能。该模型在深度研究基准测试中超越GPT-5等竞品,成本更低且幻觉率较上代降低一半。
关联讨论 1 条xAI:News(网页)随着AI智能体通过模型上下文协议(MCP)连接的工具数量激增,传统预先加载所有工具定义并通过上下文传递中间结果的方法,导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间,且中间结果(如完整会议记录)在多次工具调用间重复传递,额外消耗数万令牌。文章提出解决方案:将MCP服务器呈现为代码API,使智能体能按需加载工具,并在执行环境中处理数据,仅将精简结果传回模型,从而显著减少令牌消耗、提升效率并降低成本。
OpenRouter 推出 Exacto,旨在回答同一个大语言模型在不同 AI 服务供应商上是否表现不同的问题。该工具帮助用户量化供应商间的性能差异,为模型部署选择提供参考。
Inkeep推出AI智能体构建平台,提供无代码可视化构建器与TypeScript SDK两种创建方式,两者支持完全双向同步,便于技术与非技术团队在同一平台协作。智能体可作为实时聊天助手用于客户体验或内部协同,也能实现知识库更新、CRM处理等工作流自动化。平台开源部分包含构建器、SDK、多智能体架构及UI组件库,支持通过API触发智能体并提供可观测性。该框架采用Elastic License 2.0许可,用户可自选LLM提供商并自行部署。
Anthropic 推出了“Agent Skills”开放标准,旨在为通用智能体(如Claude)提供可组合、可扩展且可移植的领域专业知识。一个Skill是一个包含指令、脚本和资源的文件夹,其核心SKILL.md文件采用渐进式披露设计,智能体可根据任务动态加载所需信息,从而最小化上下文占用。例如,PDF技能赋予了Claude直接操作PDF表单的新能力。该框架允许用户通过封装和共享程序性知识来定制智能体,无需为每个用例构建碎片化的定制代理。
Anthropic宣布Claude与Slack双向集成功能正式上线。用户可直接在Slack工作区添加Claude,在频道和线程中获取AI协助;也可将Slack连接至Claude,让AI搜索历史对话和文件提取上下文。该集成支持私信、AI助手面板和线程参与三种方式,可起草回复、准备会议及创建文档。功能现已向付费Slack团队开放,连接器适用于Claude Team、Enterprise及Pro/Max用户。Claude仅访问用户有权限的频道内容,严格遵循企业安全与隐私设置。
关联讨论 1 条X:Claude (@claudeai)随着AI应用从单次提示转向构建长期运行的智能体,焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息,包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长,模型回忆信息的准确性会下降。因此,上下文工程要求精心编排高价值信息,以有限的资源最大化产出期望结果,这已成为构建高性能、可操控智能体的关键。
文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体(如Claude Code)协作,采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括:选择适当的工具实现范围,使用命名空间明确功能边界,从工具向智能体返回有意义的上下文,优化响应以提高token效率,以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约,设计应优先考虑智能体的使用体验,而非传统开发者导向的API思路,以扩大智能体解决实际任务的能力。
Mistral AI 于 2025 年 9 月 2 日宣布为 Le Chat 推出更新。更新包括:处于测试阶段的企业级 MCP 连接器目录,提供 20 多个安全的连接器,覆盖数据、生产力、开发、自动化与商务等领域,支持搜索、总结并操作各类工具,且允许用户自定义连接器。此外,新增记忆功能(beta),可基于用户偏好和事实提供个性化回复,并支持从 ChatGPT 快速导入记忆。所有功能均向免费套餐用户开放,并支持多端部署。
新推出的服务端 Presets 功能实现了模型配置的“一次定制,处处使用”。该功能允许用户将包括模型、参数、提示词和工具在内的完整配置保存为可复用的预设方案,并能通过链接或代码片段跨应用无缝共享。这简化了从开发到生产的工作流,避免了重复配置,提升了团队协作与部署效率。
OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型,无需额外配置。
关联讨论 1 条X:OpenRouter (@OpenRouter)用户现可通过 OpenRouter 灵活的路由服务,在 Cursor IDE 中直接调用 Moonshot AI 最新推出的 Kimi K2 模型。这一集成简化了开发流程,无需复杂配置即可在编码环境中访问高性能大语言模型。OpenRouter 作为统一接口,支持用户便捷切换包括 GPT、Claude、LLaMA 及 Kimi 在内的多种模型,显著提升了 AI 辅助编程工具的可用性和选择自由度。
一款名为“Cypher Alpha”的新型通用隐写模型现已发布。该模型具备内置的工具调用功能,可供用户免费使用。其核心特性在于“隐写”,即在执行任务时能保持隐蔽性。目前,用户已可尝试体验这一模型。
Claude Desktop推出了名为“桌面扩展”的新打包格式(.mcpb文件),旨在彻底简化MCP服务器的安装流程。该格式将服务器代码、所有依赖项和配置清单打包成一个ZIP压缩包。用户只需下载.mcpb文件并用Claude Desktop打开点击安装即可完成,无需手动配置环境、安装运行时或处理依赖冲突。此举解决了以往需要开发者工具、手动编辑配置文件和依赖管理等复杂问题,显著降低了非技术用户使用强大本地MCP服务器的门槛。
OpenRouter 新增 GIF 作为提示词(GIF Prompts)、跨提供商搜索(Omni Search)、Anthropic 工具调用缓存(Tool Caching)以及 BYOK 确认标志(BYOK confirmation),旨在通过更快的图像支持、更智能的工具和更流畅的工作流提升开发体验。
多项新功能正式上线,包括GIF提示支持、Omni全平台搜索、Anthropic工具调用缓存以及自带密钥(BYOK)确认标志。这些更新显著提升了工作流程效率,实现了更智能的工具调用机制,并优化了图像支持体验。用户现可更快捷地生成GIF动图、跨平台检索内容、缓存常用工具以加速响应,并通过BYOK标志明确数据控制权限。
Mistral AI 发布了 Agents API,这是一个用于构建能够执行操作、解决问题的 AI 智能体的专用框架。该 API 将 Mistral 的语言模型与一系列内置连接器相结合,支持代码执行、网页搜索、图像生成、文档库访问及 MCP 工具集成,并提供跨对话的持久记忆和智能体编排能力。文章展示了其在 Github 编程助手、Linear 任务管理、金融分析、旅行及营养助手等场景的应用。集成网页搜索后,模型在 SimpleQA 基准测试上的准确率显著提升,其中 Mistral Large 和 Mistral Medium 的表现分别从 23% 和 22.08% 提高至 75% 和 82.32%。
MCP Agent Server示例展示了将Agent工作流封装为MCP服务器的"Agent即服务"架构。提供asyncio(轻量级内存执行,适合开发测试)和Temporal(生产级持久化、支持暂停恢复)两种实现。通过装饰器暴露Agent能力,支持多Agent互操作,可与Claude Desktop等任意MCP客户端集成,实现复杂工作流的标准化封装与跨平台复用。
OpenRouter 推出更深入的使用洞察、更精确的性能指标和新的开发者工具,旨在加速用户工作流程。
OpenRouter 为开发者推出一系列体验改进:提供隐私说明、新增服务提供商、升级 OAuth 认证,并为 Gemini 模型启用并行工具调用功能。
OpenRouter 发布多项开发者体验改进:更新隐私政策以明确数据使用方式;新增多家模型供应商;升级 OAuth 认证流程;为 Gemini 模型增加并行工具调用能力。这些更新旨在提升 API 调用的灵活性与安全性。
本次更新为开发者带来多项体验优化。隐私条款得到进一步明确,增强了数据处理的透明度。平台新增了多个第三方模型提供商,扩展了开发者的选择范围。OAuth 认证服务完成升级,提升了安全性与集成便捷性。此外,Google 的 Gemini 模型现已支持并行工具调用功能,允许模型同时执行多项操作,有望提高复杂任务的处理效率。这些改进共同致力于提升开发者的工作效率与构建体验。
MiniMax 发布 MCP Server,集成文本转语音、语音克隆、文生图、文生视频等多模态能力。支持 Claude Desktop、Cursor、Windsurf 等主流 MCP 客户端,通过统一工作流实现文本到音视频的一站式生成,面向创作者和开发者免费开放。
Hyperbrowser 发布 MCP Server,为 AI agent 提供网页抓取、结构化数据提取和爬取能力。支持集成 OpenAI CUA、Claude Computer Use 和 Browser Use 等浏览器自动化工具,兼容 Cursor、Windsurf 和 Claude Desktop,可通过 npx 一键安装,MIT 协议开源。
Anthropic为Claude引入了“思考”工具,允许其在生成最终响应前插入一个专门的思考步骤,以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同,更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中,该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它,并提供了标准的工具实现格式。