AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 346 条
全部一手资讯X论文
标签「MCP/工具调用」清除
5月28日周四
15:15IT之家(RSS)64阿里 Qoder 推出 Cloud Agents,Agent 上线仅需 1 天
13:28HuggingFace Daily Papers(社区热门论文)63将记忆视为持续演化的连接性
11:28HuggingFace Daily Papers(社区热门论文)66多模态智能体推理的智能体探索性策略优化
09:36Claude Code:GitHub Releases(RSS)67同事件精选Claude Code v2.1.153 版本更新同一事件,精选展示《Claude Code v2.1.163 发布》
08:00HuggingFace Daily Papers(社区热门论文)61OpenSkillEval:为LLM智能体自动审计开放技能生态
03:33Tomer Tunguz 博客(VC 分析)61精选软件之后是AI时代
02:05The Decoder:AI News(RSS)49Robinhood允许AI智能体为客户交易股票和进行信用卡消费
01:39Google Developers Blog(RSS)66精选Google Pay 最新更新
5月27日周三
22:09Runway:News(网页)73精选Runway 推出 Model Context Protocol 服务器
20:37TechCrunch:AI(RSS)51Robinhood 推出支持 AI 智能体交易股票的新功能
20:32Hacker News 热门(buzzing.cc 中文翻译)63将 Claude Code 作为日常工具:Claude.md、技能、子代理、插件和 MCP
10:19HuggingFace Daily Papers(社区热门论文)57MUSE-Autoskill:通过技能创建、记忆、管理与评估实现智能体的自我进化
09:04Claude:Blog(网页)75精选Code w/ Claude 伦敦活动:重塑开发体验
08:00HuggingFace Daily Papers(社区热门论文)61AsyncTool:异步工具调用能力评测基准
04:07Ars Technica:AI(RSS)64开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体
5月26日周二
16:13IT之家(RSS)61美团推出"跑腿 Skill",可对接各大 AI 助手实现"一句话点单"
16:06MarkTechPost(RSS)68介绍 OmniVoice Studio:本地开源的 ElevenLabs 替代方案
15:36MarkTechPost(RSS)62设计完整的多模态 RLVR 流程,涵盖 Open-MM-RL、视觉-语言提示、奖励评分与 GRPO 导出
15:11IT之家(RSS)62支付宝:完成 3 亿笔 AI 付,发布 AI 钱包和 Token Pay
14:11IT之家(RSS)77精选"龙虾之父"Peter 开源 skill-cleaner,为 AI 智能体技能"做体检"
11:56公众号:通义实验室(千问)57通义实验室发布 AgentScope 2.0,从透明开发转向系统工程
08:00HuggingFace Daily Papers(社区热门论文)55AgensFlow:面向多智能体系统的协调策略基础框架
00:18Hugging Face:Blog(RSS)58精选Harness、Scaffold 与 AI 智能体术语辨析
5月25日周一
18:36MarkTechPost(RSS)652026年AI智能体与MCP服务器的最佳认证平台
5月24日周日
03:05MarkTechPost(RSS)67构建基于SuperClaude框架的工作流:融合命令、代理、模式与会话记忆
5月23日周六
06:30Claude Code:GitHub Releases(RSS)64精选v2.1.149 更新摘要
02:35MarkTechPost(RSS)66一步步实现GBrain:Y Combinator的Garry Tan为AI代理打造的自连线记忆层编码教程
5月22日周五
20:09IT之家(RSS)75阿里千问 App、PC 端及网页端接入全新一代大模型 Qwen3.7-Max
16:35MarkTechPost(RSS)66微软发布Fara1.5浏览器操作智能体系列:性能超越OpenAI Operator与Gemini 2.5
14:02公众号:龙猫LongCat(美团)56美团跑腿 Skill:一句话,骑手来帮忙
11:14HuggingFace Daily Papers(社区热门论文)66Maestro:基于强化学习的层级化模型-技能编排框架
08:08IT之家(RSS)59WordPress 7.0 发布:AI 建站新起点,超 420 项增强与修复
08:00HuggingFace Daily Papers(社区热门论文)63Foundation Protocol:面向智能体社会的协调层
08:00HuggingFace Daily Papers(社区热门论文)55从原始经验到技能运用:模型生成智能体技能的系统性研究
04:30Simon Willison 博客60datasette-agent-charts 0.1a1
00:00Mistral AI:News(网页)55连接点滴:在 Studio 中使用内置与自定义 MCP 进行构建
5月21日周四
11:09HuggingFace Daily Papers(社区热门论文)64评估智能体计划执行流水线中的时间语义缓存与工作流优化
11:09HuggingFace Daily Papers(社区热门论文)65Mem-π:通过学习何时与生成何物实现的自适应记忆
5月20日周三
04:30MarkTechPost(RSS)63谷歌在I/O 2026发布Antigravity 2.0:全新Agent优先开发平台
04:25Google Developers Blog(RSS)65精选更智能的 Google AI Edge Gallery:MCP 集成、通知和会话连续性
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月28日
15:15
IT之家(RSS)
64
阿里 Qoder 推出 Cloud Agents,Agent 上线仅需 1 天

阿里 Qoder 推出全托管 AI Agent 运行平台 Cloud Agents。该平台提供 Agent 底座、模型服务及运行环境,企业可通过 API 直接调用,能将 Agent 上线时间从 1 个月缩短至 1 天。Cloud Agents 支持独立沙箱、实时事件流追踪与审计,并原生支持 Skills 和 MCP 协议,可扩展多种企业能力。

智能体MCP/工具产品更新
13:28
HuggingFace Daily Papers(社区热门论文)
63
将记忆视为持续演化的连接性

现有记忆增强大语言模型智能体常将记忆视为静态存储,这在动态环境中较为脆弱。为此,FluxMem框架提出将记忆建模为异构图,并通过初始连接形成、反馈驱动细化和长期巩固三个阶段,持续优化其拓扑结构。在执行时,该框架能修复缺失连接、剪除干扰、对齐抽象粒度,并将反复成功的轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试上,FluxMem均达到了SOTA水平,展现出在复杂智能体环境中强大的适应与泛化能力。代码将开源于GitHub。

智能体GitHubMCP/工具论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
66
多模态智能体推理的智能体探索性策略优化

针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。

智能体MCP/工具多模态数据/训练
09:36
Claude Code:GitHub Releases(RSS)
同事件精选67
Claude Code v2.1.153 版本更新

Claude Code 发布 v2.1.153 版本。主要新增 skipLfs 选项以跳过 Git LFS 下载;优化了 claude agents 的自动补全建议和 PR 列显示格式。本次更新修复了大量问题,包括:MCP 服务器的连接与重连、子代理的配置策略与严格模式行为、后台会话的管理与权限提示(如恢复、输入响应、临时文件处理),以及跨 macOS/Windows/VSCode 平台的稳定性。此外,还修复了 Windows 更新回滚、内存占用、会话恢复等多个具体问题。/model 命令现在会将选择设为新会话的默认模型。

AnthropicMCP/工具产品更新部署/工程
同一事件,精选展示《Claude Code v2.1.163 发布》
推荐理由:Claude Code 的一次日常小修小补,但修复了 OAuth 凭证泄露和内存泄漏这种真影响使用的 bug,且 /model 现在可以记住默认模型了,升级一下不亏。
08:00
HuggingFace Daily Papers(社区热门论文)
61
OpenSkillEval:为LLM智能体自动审计开放技能生态

OpenSkillEval是一个用于评估LLM智能体技能的自动评估框架。它不依赖静态基准,而是从演示生成、网页设计等五类应用的动态工件中自动构建超过600个任务实例,并收集了30个开源技能进行对比评估。研究发现,技能可用并不等同于有效使用,其增益高度依赖具体模型与智能体框架,许多流行的开源技能并未持续优于无技能的基础智能体。这强调了进行动态、任务导向评估的必要性。 (https://yingjiahao14.github.io/OpenSkillEval-Web/)

智能体MCP/工具论文/研究
03:33
Tomer Tunguz 博客(VC 分析)
精选61
软件之后是AI时代

软件时代正过渡至“智能体框架”时代。AI作为强大但需驯化的“野马”,其智能驯化包含七个核心组成部分:上下文与记忆、工具与行动、编排与循环、状态与持久性、沙箱与计算、可观测性与治理、成本与工作流优化。这些组件共同构成了一个生产级的智能体系统。这一转变将重塑软件竞争格局,模型通用化的未来中,最佳的智能体驾驭者将获胜。

智能体MCP/工具现象/趋势

推荐理由:Tomer 把 agent 时代的竞争拆成七个组件,不是空谈,而是给了创业公司一个具体的 check-list,做 agent 产品的值得对照一下。
02:05
The Decoder:AI News(RSS)
49
Robinhood允许AI智能体为客户交易股票和进行信用卡消费

Robinhood现允许客户通过MCP协议将Anthropic的Claude等AI智能体连接到独立的投资账户。这些智能体能够自主交易股票。美国金融业监管局(FINRA)已将此类智能体列为新的风险领域,并警告其可能做出不受约束的决策。Robinhood自身也承认该产品并非适合所有客户。

智能体MCP/工具产品更新行业动态
01:39
Google Developers Blog(RSS)
精选66
Google Pay 最新更新

Google Pay 正向"智能体商务"演进,推出了通用商务协议和新的 MCP 服务器,允许 AI 智能体管理集成与分析趋势。Android 平台更新引入了动态回调以支持快速结账,并通过 WebView 将支付功能扩展至社交媒体应用。此外,平台还推出了跨设备生物认证和新的交易信号,旨在帮助商家减少流程摩擦。

智能体GoogleMCP/工具产品更新

推荐理由:Google Pay 往 agentic commerce 迈了一大步,新的通用协议和 MCP server 让 AI agent 能直接管支付和分析,做 agent 或支付的开发者都得看看。
5月27日
22:09
Runway:News(网页)
精选73
Runway 推出 Model Context Protocol 服务器

Runway 正式推出 Runway MCP 服务器,允许任何兼容 MCP 的 AI 智能体(如 Claude、ChatGPT、Cursor)在对话界面中直接生成图像与视频,无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型,包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便,通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用,无需单独申请 API 密钥。

MCP/工具产品更新多模态
关联讨论 1 条X:Runway (@runwayml)
推荐理由:Runway 把 Gen-4.5 和 Seedance 2.0 等模型接入了 MCP,以后做产品图、营销视频不用切窗口,这个集成对依赖视觉内容的 Agent 工作流是个 real upgrade。
20:37
TechCrunch:AI(RSS)
51
Robinhood 推出支持 AI 智能体交易股票的新功能

金融平台 Robinhood 推出一项新功能,允许用户创建一个带有预存余额的独立账户。该账户专门设计用于 AI 智能体执行股票交易操作,为自动化投资代理提供了专用资金渠道。

智能体MCP/工具产品更新
20:32
Hacker News 热门(buzzing.cc 中文翻译)
63
将 Claude Code 作为日常工具:Claude.md、技能、子代理、插件和 MCP

文章探讨了将 Claude Code 作为日常开发工具的实践,重点介绍了其核心配置文件 Claude.md、技能系统、子代理功能、插件扩展以及通过 MCP(模型上下文协议)进行集成的方法,旨在提升开发者的工作流效率。

智能体AnthropicMCP/工具教程/实践
10:19
HuggingFace Daily Papers(社区热门论文)
57
MUSE-Autoskill:通过技能创建、记忆、管理与评估实现智能体的自我进化

MUSE-Autoskill 提出了一个以技能为核心的智能体框架,使智能体能够通过统一的技能生命周期(创建、记忆、管理、评估与精炼)持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用,并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆,用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明,经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力,突显了将技能作为长期、可感知经验且可测试的资产的重要性。

智能体MCP/工具论文/研究部署/工程
09:04
Claude:Blog(网页)
精选75
Code w/ Claude 伦敦活动:重塑开发体验

在Code w/ Claude 伦敦活动上,Anthropic 宣布了 Claude Managed Agents 的两项新能力:自托管沙箱(公开测试版)和 MCP 隧道(研究预览)。这两项功能使 AI 智能体的工具执行环境与企业私有网络内的 MCP 服务器连接均可运行在客户自有基础设施或指定托管服务商处。活动还介绍了如何通过 Claude Code、优化思维预算以及模型努力级别来提升开发体验。目前,包括 Spotify、Base44 和 Legora 在内的客户已在使用这些新功能。

智能体AnthropicMCP/工具产品更新
关联讨论 2 条Claude:Blog(网页)X:Claude (@claudeai)
推荐理由:Claude 平台企业部署的最后一公里被补上了,自托管沙箱和 MCP 隧道让 agent 真正能进生产环境,做 2B 的企业级应用终于有了安全底座。
08:00
HuggingFace Daily Papers(社区热门论文)
61
AsyncTool:异步工具调用能力评测基准

当前对大语言模型智能体的评估忽略了工具使用的时序维度,尤其未考虑工具响应延迟的影响,且多局限于单任务场景。为此,研究团队提出了AsyncTool,这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务,模拟真实的响应延迟,并在步骤、子任务和任务三个级别进行评估,引入了效率导向的指标。实验表明,延迟的工具反馈对现有智能体构成重大挑战并导致性能下降,而能更好协调任务切换与状态维护的模型表现更优。

智能体arXivMCP/工具论文/研究
04:07
Ars Technica:AI(RSS)
64
开源软件包 Starlette 中的关键漏洞威胁数百万 AI 智能体

开源 Python Web 框架 Starlette 中发现名为“BadHost”的关键漏洞。该软件包每周下载量高达 325 million 次,其漏洞可能直接威胁大量依赖它构建的 AI 智能体(AI Agent)服务。

MCP/工具安全/对齐开源/仓库部署/工程
5月26日
16:13
IT之家(RSS)
61
美团推出"跑腿 Skill",可对接各大 AI 助手实现"一句话点单"
智能体GitHubMCP/工具产品更新
16:06
MarkTechPost(RSS)
68
介绍 OmniVoice Studio:本地开源的 ElevenLabs 替代方案

OmniVoice Studio 是一个完全在本地硬件上运行的开源项目,无需 API 密钥、云账户或订阅。它提供语音克隆、视频配音、实时听写和说话人分离等功能,支持 646 种语言的语音合成(TTS),并暴露一个 MCP 服务器,可与 Claude、Cursor 等 MCP 客户端集成。

MCP/工具开源/仓库语音
15:36
MarkTechPost(RSS)
62
设计完整的多模态 RLVR 流程,涵盖 Open-MM-RL、视觉-语言提示、奖励评分与 GRPO 导出

该教程以 TuringEnterprises/Open-MM-RL 数据集为实践基础,构建多模态推理与可验证奖励强化学习(RLVR)流程。内容涵盖数据集加载、结构分析(包括领域、格式、问题长度、答案类型和图像分布),并可视化各领域示例。同时实现了一个轻量级奖励函数,用于检查精确匹配等条件,并演示了如何将流程导出为 GRPO 格式。

MCP/工具多模态教程/实践
15:11
IT之家(RSS)
62
支付宝:完成 3 亿笔 AI 付,发布 AI 钱包和 Token Pay

支付宝宣布其“AI 支付”已完成 3 亿笔智能体支付,并支持 95% 的通用智能体框架。同时,支付宝发布了全球首个 Token Pay 服务与 AI 钱包产品,用户可通过“AI 钱包”管理智能体授权与账单。此外,支付宝还推出了商家智能体“晓雨”。MiniMax、阶跃星辰已与其达成合作,采用其 AI 支付方案。

智能体MCP/工具产品更新
14:11
IT之家(RSS)
精选77
"龙虾之父"Peter 开源 skill-cleaner,为 AI 智能体技能"做体检"

“龙虾之父”Peter 开源了 skill-cleaner 工具,用于诊断和优化 AI 智能体的技能提示词。该工具包含5项核心功能,包括技能提示词预算审计、重复技能检测、未使用技能筛查、技能根目录审计和描述精简优化。其脚本采用标准 token 预算核算逻辑,旨在帮助减少冗长描述对 token 预算和上下文窗口的占用。已有用户实践显示,将技能描述从90多词精简至40词以内,能提升智能体选择技能的准确率。

智能体GitHubMCP/工具开源/仓库

推荐理由:Peter 直接开源了一个给 Skill '减肥' 的工具,把描述精简、重复检测、预算审计全自动化了,装完跑一遍就能直观看到哪些 Skill 在烧你的 token。做 Agent 的可以立刻装上试试。
11:56
公众号:通义实验室(千问)
57
通义实验室发布 AgentScope 2.0,从透明开发转向系统工程

通义实验室发布 AgentScope 2.0,从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型,并扩展 Grok、Moonshot 支持。核心升级包括:模型层引入统一重试与备用模型机制;消息模块重构为 Content Block 并引入事件系统;引入权限系统控制工具调用、文件读写和命令执行;上下文管理实现结构化压缩与工具结果自动截断;新增 Middleware 机制;Workspace 抽象执行环境,统一本地文件系统、Docker 容器、E2B 云沙箱等;Agent Service 合并至主库。Python 版已升级至 2.0,TypeScript 版已正式发布。

智能体MCP/工具产品更新开源/仓库
08:00
HuggingFace Daily Papers(社区热门论文)
55
AgensFlow:面向多智能体系统的协调策略基础框架

AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。

智能体arXivMCP/工具论文/研究
00:18
Hugging Face:Blog(RSS)
精选58
Harness、Scaffold 与 AI 智能体术语辨析

本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出,模型(如 Claude、GPT)本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”(行为定义层,如系统提示、工具描述)塑造,而“Harness”(执行层)负责调用模型、处理工具调用与控制循环,是智能体运行的核心。两者结合,模型才能成为智能体。文章以 Claude Code、Codex 为例,说明同一模型搭配不同 Harness 会产生迥异体验,并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一,本文旨在提供一个实用的心智模型。

智能体MCP/工具教程/实践

推荐理由:Agent圈术语混乱的文章很多,但HF这篇把harness、scaffold、context engineering的关系讲得最透,做agent开发的读完至少能少吵一半的架。
5月25日
18:36
MarkTechPost(RSS)
65
2026年AI智能体与MCP服务器的最佳认证平台

随着MCP月SDK下载量超过9700万且AI智能体进入生产工作流,认证已成为团队面临的关键基础设施决策。文章评估了八家领先平台——WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry和Cloudflare在规范合规性、企业身份深度、集成广度以及2026年部署的现实适用性方面的表现。

智能体MCP/工具教程/实践部署/工程
5月24日
03:05
MarkTechPost(RSS)
67
构建基于SuperClaude框架的工作流:融合命令、代理、模式与会话记忆

一篇技术教程详细介绍了如何构建一个高级工作流系统。该系统以SuperClaude框架为核心,作为一层结构化中间件部署在Anthropic API之上。教程核心内容围绕如何整合命令解析、智能代理调度、多种操作模式切换以及跨会话的上下文记忆能力,从而打造出一个功能更全面、上下文连贯性更强的AI应用工作流。文章旨在指导开发者利用这些组件,提升基于大型语言模型构建的应用的复杂任务处理与交互体验。

智能体AnthropicMCP/工具教程/实践
5月23日
06:30
Claude Code:GitHub Releases(RSS)
精选64
v2.1.149 更新摘要

本次 v2.1.149 更新包含功能增强、企业设置和多项修复。新增 /usage 命令的使用量分类显示功能,可区分技能、子代理、插件及每个 MCP 服务器的消耗;/diff 详情视图支持键盘滚动;Markdown 输出兼容 GFM 任务列表。企业版新增 allowAllClaudeAiMcps 设置以加载云 MCP 连接器。修复了 PowerShell 权限绕过、Git 工作树沙盒写入白名单越界、脚本路径含空格时 otelHeadersHelper 静默失败等安全问题。改进了 /feedback 报告,包含上下文压缩前的对话内容,便于排查长会话中的早期问题。

AnthropicMCP/工具产品更新编码

推荐理由:Claude Code 这次把 /usage 拆到每个技能和子代理的用量,排查成本不再是猜谜,/diff 终于能键盘滚动,修了一堆权限坑,日常靠 Claude Code 写代码的人值得秒升。
02:35
MarkTechPost(RSS)
66
一步步实现GBrain:Y Combinator的Garry Tan为AI代理打造的自连线记忆层编码教程

针对AI代理每次会话均从零开始、缺乏记忆的问题,Y Combinator的Garry Tan开发了开源记忆层GBrain(v0.38.2.0)。该层以Markdown为核心构建知识图谱,并通过正则表达式推理自动建立连接,无需调用LLM。教程完整展示了从安装GBrain、创建脑库、运行混合搜索,到通过MCP协议连接Claude Code的全流程,耗时约20分钟。

智能体AnthropicMCP/工具教程/实践
5月22日
20:09
IT之家(RSS)
75
阿里千问 App、PC 端及网页端接入全新一代大模型 Qwen3.7-Max

5月22日,阿里千问App官方宣布,千问App、PC端及网页端接入全新一代大模型Qwen3.7-Max。用户需将千问App更新至6.9.7及以上版本,即可免费体验该模型。Qwen3.7-Max定位为全能的智能体基座,核心能力覆盖编程开发、办公流程自动化及超长周期任务执行。官方实测显示,在一项长达35小时、包含超过1000次工具调用的全自主内核优化实验中,该模型保持了连贯推理。此外,模型具备跨框架泛化能力,并即将通过阿里云百炼平台提供API调用服务。

智能体MCP/工具模型发布
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)X:OpenRouter (@OpenRouter)
16:35
MarkTechPost(RSS)
66
微软发布Fara1.5浏览器操作智能体系列:性能超越OpenAI Operator与Gemini 2.5

微软研究院近日推出Fara1.5系列浏览器操作智能体,包含4B、9B和27B三种参数规模。其中最大模型Fara1.5-27B在Online-Mind2Web基准测试中达到72%的准确率,显著优于OpenAI Operator、Gemini 2.5 Computer Use等主流模型。此次发布同步推出FaraGen1.5合成数据流水线,可在受控环境中高效训练智能体,为自动化浏览器操作提供了新解决方案。

智能体MCP/工具Microsoft模型发布
14:02
公众号:龙猫LongCat(美团)
56
美团跑腿 Skill:一句话,骑手来帮忙

美团跑腿推出Skill功能,用户通过一句话指令即可让骑手执行任务,标志着从教AI说话到教AI做事的转变。

智能体MCP/工具产品更新
11:14
HuggingFace Daily Papers(社区热门论文)
66
Maestro:基于强化学习的层级化模型-技能编排框架

Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略,动态组合冻结的专家模型与双层技能库,实现步骤级的实时决策:何时调用专家、选择何种模型-技能组合,以及何时终止。在十个代表性多模态基准测试中,仅4B参数的Maestro平均准确率达70.1%,超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能,无需重新训练;在扩展外部专家后,仍显著优于闭源基线,同时保持高效率和低延迟。代码已开源。

智能体MCP/工具多模态论文/研究
08:08
IT之家(RSS)
59
WordPress 7.0 发布:AI 建站新起点,超 420 项增强与修复

WordPress 7.0 于2026年5月20日发布,代号Armstrong,是2026年首个重大更新,由超过875位贡献者参与,包含420多项增强与修复。核心变化是原生集成AI能力,通过新增AI客户端和能力接口,支持生成图片、标题及摘要。后台采用Modern主题优化视觉一致性,编辑体验强化了可视化修订与字体管理。响应式编辑提升,允许直接控制区块在不同设备的显示。此外,新增多种设计区块,并引入区块级自定义CSS控制,增强设计灵活性。

MCP/工具产品更新端侧
08:00
HuggingFace Daily Papers(社区热门论文)
63
Foundation Protocol:面向智能体社会的协调层

自主智能体正从工具演变为社会基础设施的一部分,其扩展瓶颈已从模型能力转向协调问题。论文提出Foundation Protocol(FP),一种图优先的协调层,用于构建新兴的人机社会。FP旨在统一智能体、工具、资源、人类等异构实体,支持基于事件的多方协作与经济计量结算。该协议设计为包装并桥接现有协议,支持渐进式采用,在保持智能体可组合性的同时,确保问责制的不可妥协性。

智能体MCP/工具论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
从原始经验到技能运用:模型生成智能体技能的系统性研究

语言智能体通过复用从经验中提取的结构化技能来提升能力。本研究系统评估了智能体技能的完整生命周期(经验生成、技能提取与技能运用),构建了涵盖五个多样化任务领域的效用评估框架。研究发现,模型生成的技能平均有益,但存在显著的负面迁移现象;技能的效用与模型规模或任务基线强度无关。研究最终提出了一种元技能,用于指导技能提取过程,以提升技能质量并减少负面迁移。

智能体arXivMCP/工具论文/研究
04:30
Simon Willison 博客
60
datasette-agent-charts 0.1a1

开源数据可视化插件 datasette-agent-charts 发布了 0.1a1 预览版。该版本主要增强了图表呈现:无颜色列的柱状图与华夫图改用连续色阶按数值大小着色,含文本值的颜色列则采用 observable10 分类配色方案。此外,新增了查询前的 execute-sql 权限检查、交互式图表提示信息,并修复了 waffleY 图表类型未被正确描述的问题。

智能体MCP/工具开源/仓库
00:00
Mistral AI:News(网页)
55
连接点滴:在 Studio 中使用内置与自定义 MCP 进行构建

Mistral AI 的 Studio 产品旨在帮助用户构建、测试并运行 AI 智能体与应用。其核心功能是通过可复用的连接器、直接的工具调用以及人机协同审批控制,将企业数据连接到 AI 应用中。该产品支持使用内置及自定义的 MCP。

MCP/工具产品更新
5月21日
11:09
HuggingFace Daily Papers(社区热门论文)
64
评估智能体计划执行流水线中的时间语义缓存与工作流优化

针对工业智能体在基准测试AssetOpsBench中,现有缓存技术因无法处理时间等动态参数而失效的问题,本研究提出了两种互补优化方案:时间语义缓存与MCP工作流优化。测试显示,MCP工作流优化(结合磁盘工具发现缓存与依赖感知并行执行)实现了1.67倍加速,将端到端延迟降低约40%;而时间语义缓存则在命中时带来了高达30.6倍的显著加速。该研究不仅提升了处理效率,还具体揭示了纯语义缓存在应对参数丰富的工业查询时的失效模式。

智能体arXivMCP/工具论文/研究
11:09
HuggingFace Daily Papers(社区热门论文)
65
Mem-π:通过学习何时与生成何物实现的自适应记忆

Mem-π是一个用于大型语言模型代理的自适应记忆框架,它通过专门的模型按需生成指导内容,而非从外部记忆库检索静态信息。该框架采用决策-内容解耦的强化学习方法,使模型能自主判断是否生成指导及生成何种内容。在涵盖网页导航、终端工具使用等多样化的代理任务基准测试中,Mem-π性能持续优于检索式方法和现有强化学习记忆方案,其中在网页导航任务上实现了超过30%的相对提升。

智能体MCP/工具论文/研究
5月20日
04:30
MarkTechPost(RSS)
63
谷歌在I/O 2026发布Antigravity 2.0:全新Agent优先开发平台

在2026年I/O开发者大会上,谷歌宣布推出Antigravity 2.0,这是一款围绕智能代理编排构建的独立桌面应用程序。同时发布的还包括Antigravity命令行工具(CLI)和软件开发工具包(SDK),并在Gemini API中引入了托管代理功能。此外,通过Gemini Enterprise提供企业级支持。此次发布标志着谷歌从工具集成迈向构建完整代理开发生态的重要转变。

智能体GoogleMCP/工具产品更新
04:25
Google Developers Blog(RSS)
精选65
更智能的 Google AI Edge Gallery:MCP 集成、通知和会话连续性

Google AI Edge Gallery 应用在安卓平台上扩展了设备端 AI 能力,通过引入对开源模型上下文协议(MCP)的实验性支持,使得 Gemma 4 模型能够协调处理跨 Google Workspace 和 Google Maps 等外部数据源的复杂任务。此次更新添加了“定时通知”技能,用于实现日常事务的自动化管理,并新增了持久化聊天记录功能,允许用户近乎即时地恢复长会话上下文。该平台依托开源工具包,积极鼓励社区开发者通过其 GitHub 仓库构建并分享专注实用的工作流、提示配置与工具集成。

GoogleMCP/工具产品更新端侧

推荐理由:MCP 终于跑在 Android 设备上了,虽然是实验性支持,但 Gemma 4 能直连 Workspace 和 Maps,做自动化的开发者可以上手试试。
‹ 上一页
1…34567…9
下一页 ›