全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2146 条

全部一手资讯 X 论文

标签「Agent」清除

5月20日周三

02:18Google Blog：AI（RSS）83精选Gemini 3.5：前沿智能与行动能力相结合

02:18Google Blog：AI（RSS）89精选I/O 2026：欢迎来到自主的 Gemini 时代

02:11Ars Technica：AI（RSS）60Gemini 3.5 Flash 可能足够快，让生成式AI真正实用起来

02:11VentureBeat：AI（RSS）69Google 25年来首次重塑搜索框：AI驱动对话时代来临

01:59The Decoder：AI News（RSS）63谷歌I/O开发者大会公告：新模型、永不休眠的云端代理与重新设计的Gemini应用

01:55IT之家（RSS）51谷歌发布安卓 Halo，在手机顶栏实时显示 AI 智能体状态

01:55IT之家（RSS）68谷歌 Gemini Spark 个人智能体发布：一句话让 AI 干几份活，不用担心乱搞数据

01:48Google DeepMind：Blog（RSS）81精选介绍 Google Antigravity 2.0

00:39Hacker News：AI 热帖70精选InsForge：面向编程智能体的一体化开源后端平台

5月19日周二

22:53IT之家（RSS）63AMD AI开发者大会首次在沪举办，苏姿丰共话AI智能体新趋势

22:53Cloudflare Blog72精选宣布Claude Managed Agents登陆Cloudflare

22:27The Decoder：AI News（RSS）57Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

21:01HuggingFace Daily Papers（社区热门论文）53评估交互式AI代理的认知年龄对齐

20:01HuggingFace Daily Papers（社区热门论文）60MementoGUI：面向长时程GUI代理的学习型多模态记忆控制

19:55公众号：百度智能云（文心）35再出新证！智能体开发工程师证书正式发布

19:52IT之家（RSS）50联想 AI 主机家族正式发布：搭载天禧 AI 4.0、支持"一键养虾"

18:27The Decoder：AI News（RSS）67Anthropic为Claude Managed Agents新增自托管沙箱与MCP隧道功能

17:59公众号：小红书技术（dots.llm）22QECon深圳2026|小红书技术专场：Agent驱动的研发效率工程探索与实践

17:51IT之家（RSS）53AMD 苏姿丰谈 AI：在科技行业工作超 30 年，没有比今天更"兴奋"的时刻了

16:24MarkTechPost（RSS）562026年最佳企业级自主AI平台榜单

15:00HuggingFace Daily Papers（社区热门论文）60SkillsVote：面向智能体技能收集、推荐与演进的全周期治理框架

14:50Hacker News 热门（buzzing.cc 中文翻译）75Cursor 推出 Composer 2.5

14:50Hacker News 热门（buzzing.cc 中文翻译）68Agora-1：多智能体世界模型

13:56HuggingFace Daily Papers（社区热门论文）68基于智能体规划的物理一致性视频生成

13:29MarkTechPost（RSS）61如何使用 OpenAI API 构建一个具备规划、工具调用、记忆与自我批评能力的高级智能体 AI 系统

12:55HuggingFace Daily Papers（社区热门论文）53代码作为智能体的运行基础

12:55HuggingFace Daily Papers（社区热门论文）68AtlasVA：面向无教师VLM智能体的自进化视觉技能记忆

11:51HuggingFace Daily Papers（社区热门论文）66AI辅助自主研究：路线图与用户指南

08:59Claude Code：GitHub Releases（RSS）65精选Claude AI助手v2.1.144版本更新

08:00HuggingFace Daily Papers（社区热门论文）46重新思考记忆方式：超越终身LLM智能体记忆中的原子事实

08:00HuggingFace Daily Papers（社区热门论文）51ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

08:00HuggingFace Daily Papers（社区热门论文）54π-Bench：评估长期工作流中的主动个人助理代理

08:00HuggingFace Daily Papers（社区热门论文）58Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

08:00HuggingFace Daily Papers（社区热门论文）63CutVerse：面向媒体后期编辑的组合式GUI智能体基准测试

08:00HuggingFace Daily Papers（社区热门论文）64MOCHA：多目标切比雪夫退火用于智能体技能优化

05:11xAI：News（网页）68精选Grok平台技能功能上线

01:06Anthropic：Newsroom（网页）64精选Anthropic收购SDK与MCP服务器工具开发商Stainless

00:51Cursor Blog74精选Composer 2.5 发布与技术解析

5月18日周一

22:52Hugging Face：Blog（RSS）64精选Hugging Face 推出开放 AI 智能体排行榜（Open Agent Leaderboard）

19:31公众号：面壁智能（MiniCPM）21面壁智能：智能座舱的尽头是一个真正"懂你"的 Agent

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月20日

02:18

Google Blog：AI（RSS）

精选83

Gemini 3.5：前沿智能与行动能力相结合

Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合，旨在提供更强的综合性能。作为 Google 最新推出的模型，它代表了其在大模型技术上的最新进展。

智能体 Google 多模态推理

推荐理由：Google 在 I/O 上甩出 Gemini 3.5，这次不只拼多模态，更强调‘行动’，是所有做 Agent 的团队必须对标的新基座。

02:18

Google Blog：AI（RSS）

精选89

I/O 2026：欢迎来到自主的 Gemini 时代

Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代，新功能使其能够自动执行复杂任务，显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程，实现自动化处理，例如自动管理邮件、安排日程或生成报告，帮助用户从重复性工作中解放出来，专注于创造性任务。这一更新基于先进机器学习模型，强调准确性与效率，标志着 AI 助手向更智能、更自主的方向发展。

智能体 Google 模型发布

推荐理由：谷歌 I/O 大会上 Sundar Pichai 亲自宣布 agentic Gemini 时代到来，这是把 Gemini 从对话助手升级成真正能自主执行任务的 agent，所有做 AI 应用的接下来都得重新看一遍技术选型。

02:11

Ars Technica：AI（RSS）

60

Gemini 3.5 Flash 可能足够快，让生成式AI真正实用起来

Google发布了更高效的Gemini 3.5 Flash模型。该公司表示，这款模型的效率提升是实现智能体式AI未来的关键所在，意味着生成式AI的应用将更为便捷和实用。

智能体 Google 模型发布

02:11

VentureBeat：AI（RSS）

69

Google 25年来首次重塑搜索框：AI驱动对话时代来临

在2026年I/O大会上，Google宣布对其标志性搜索框进行25年来最大升级。搜索框从简单的关键词输入，演变为支持文本、图像、PDF、视频及网页标签等多模态输入的AI对话起点。同时，AI概览与AI模式合并为统一体验，用户无需在传统结果与AI生成答案间切换。此次升级标志着Google核心产品正从关键词检索工具，彻底转向以AI和全网知识为基础的开放式对话界面。

智能体 Google 产品更新多模态

01:59

The Decoder：AI News（RSS）

63

谷歌I/O开发者大会公告：新模型、永不休眠的云端代理与重新设计的Gemini应用

谷歌在I/O开发者大会上发布了一系列新AI产品，包括轻量级模型Gemini 3.5 Flash和多模态模型Gemini Omni。同时推出名为Gemini Spark的个人代理，该代理可在云端24/7全天候运行。此外，Gemini应用程序也进行了重大重新设计。

智能体 Google 产品更新多模态

01:55

IT之家（RSS）

51

谷歌发布安卓 Halo，在手机顶栏实时显示 AI 智能体状态

谷歌在2026年I/O开发者大会上发布了安卓Halo功能，旨在提升手机端AI助手的透明度。该功能将在手机屏幕顶部显示一个状态提示图标，向用户实时展示AI智能体是否正在运行、处理任务或发送消息。此设计解决了用户需反复切换应用查看AI进度的痛点，使任务状态在任何应用界面下都保持可见。Halo功能将首先支持Gemini Spark，并计划在2026年晚些时候扩展支持更多AI智能体。

智能体 Google 产品更新

01:55

IT之家（RSS）

68

谷歌 Gemini Spark 个人智能体发布：一句话让 AI 干几份活，不用担心乱搞数据

智能体 Google MCP/工具产品更新

01:48

Google DeepMind：Blog（RSS）

精选81

介绍 Google Antigravity 2.0

Google Antigravity 2.0 是一款全新独立桌面应用，支持 macOS、Linux 和 Windows，无 IDE 绑定，由最新 Gemini 模型驱动，面向企业。核心为智能体，支持同步与异步交互。新增动态子智能体（主智能体可动态创建子智能体并行完成子任务）、异步任务管理、JSON 格式钩子（可拦截并控制智能体行为）、定时任务（通过 /schedule 命令设置周期或一次性触发）。引入“项目”概念替代“工作区”，可跨多个文件夹并独立设置权限与规则。新增斜杠命令：/goal 自动执行至完成、/grill-me 实施前反向确认、/browser 显式控制浏览器。语音输入改为实时转录。

智能体 Google 产品更新

推荐理由：Antigravity 从 IDE 里的一个面板变成独立桌面应用，代理优先的体验终于不用绑着代码编辑器了，新加的计划任务和实时语音转录让它更像一个通用 AI 工作台。

00:39

Hacker News：AI 热帖

精选70

InsForge：面向编程智能体的一体化开源后端平台

InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口，让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务，从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管，可一键部署至Railway、Zeabur等主流平台。

智能体 MCP/工具开源/仓库部署/工程

推荐理由：这个项目把后端全家桶变成 MCP 工具，AI 代理可以直接管理数据库和部署，对于正在折腾 agent 的团队，比东拼西凑要快得多。

5月19日

22:53

IT之家（RSS）

63

AMD AI开发者大会首次在沪举办，苏姿丰共话AI智能体新趋势

AMD AI开发者大会首次于上海举行，董事会主席苏姿丰出席并与李开复共同探讨AI智能体新范式。大会推出“智能体主机”新概念，发布锐龙AI Max+系列处理器，支持96GB GPU专属显存，可本地运行200B参数模型，已有惠普、联想等厂商推出超35款产品。同时，开源平台ROCm更新支持锐龙AI 400系列，降低Windows部署门槛，并发布Radeon AI PRO R9700显卡及Threadripper PRO 9000系列处理器，进一步深化本土AI生态建设。

智能体端侧行业动态

22:53

Cloudflare Blog

精选72

宣布Claude Managed Agents登陆Cloudflare

Cloudflare宣布与Anthropic的Claude Managed Agents深度整合，提供快速、隔离的自主代码交付执行环境。该集成使开发者能够在全球范围内扩展代理工作流，同时严格控制私有后端访问权限，并支持灵活自定义代理工具及运行时配置。

智能体 Anthropic 产品更新

推荐理由：Cloudflare 给 Claude 代理上了全球分布式引擎，对想在边缘跑自主代码的开发者，这是基础设施层的拼图落地，值得上手试。

22:27

The Decoder：AI News（RSS）

57

Agora-1 将 N64 经典游戏《GoldenEye》转变为可供四人游玩的 AI 模拟

Odyssey 公司发布了世界模型 Agora-1，该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证，其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为，这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。

智能体多模态模型发布

21:01

HuggingFace Daily Papers（社区热门论文）

53

评估交互式AI代理的认知年龄对齐

尽管具身化AI及多模态大语言模型在推理任务中表现出潜力，但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发，本研究推出ChildAgentEval——首个基于心理测量学的交互式基准，用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段，揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。

智能体推理论文/研究评测/基准

20:01

HuggingFace Daily Papers（社区热门论文）

60

MementoGUI：面向长时程GUI代理的学习型多模态记忆控制

针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题，本文提出了MementoGUI框架。它是一个插件式智能体记忆框架，为基于MLLM的GUI代理配备了学习型控制器MementoCore，无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题，通过工作记忆保存文本摘要与视觉证据，并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子，并开发了相应的数据构建流程与评估基准。实验表明，该框架能稳定提升代理在多个基准上的性能。

智能体多模态论文/研究

19:55

公众号：百度智能云（文心）

35

再出新证！智能体开发工程师证书正式发布

智能体行业动态

19:52

IT之家（RSS）

50

联想 AI 主机家族正式发布：搭载天禧 AI 4.0、支持"一键养虾"

智能体产品更新端侧

18:27

The Decoder：AI News（RSS）

67

Anthropic为Claude Managed Agents新增自托管沙箱与MCP隧道功能

Anthropic宣布扩展其Claude Managed Agents平台，新增自托管沙箱和MCP隧道两项关键功能。企业现在能够将AI Agent的工具执行环境部署在自己的基础设施中，提升了数据安全性和操作灵活性。值得注意的是，此次更新并未转移Agent本身的控制权，其核心管理仍由Anthropic平台负责。这一举措旨在满足企业对敏感数据处理和本地化部署的需求，同时保持托管服务的便捷性。

智能体 Anthropic MCP/工具产品更新

17:59

公众号：小红书技术（dots.llm）

22

QECon深圳2026|小红书技术专场：Agent驱动的研发效率工程探索与实践

智能体行业动态

17:51

IT之家（RSS）

53

AMD 苏姿丰谈 AI：在科技行业工作超 30 年，没有比今天更"兴奋"的时刻了

AMD 董事长兼 CEO 苏姿丰在 AI 开发者日活动中表示，AI 正在经历巨大加速，预计未来五年将有 50 亿人每天使用 AI。她强调，实现这一目标的关键在于多样化应用和模型，而非单一方案。她指出，AI 近期发展显著，不仅大语言模型进步，推理型 AI 也日益普及，企业正积极探索应用。开发者需具备推理、学习与数据处理能力。苏姿丰认为，未来 GPU 将无处不在，AMD 将重点提供完整的端到端计算能力。

智能体大佬观点推理现象/趋势

16:24

MarkTechPost（RSS）

56

2026年最佳企业级自主AI平台榜单

2026年，企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台，包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等，并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析，旨在帮助企业团队做出明智的平台选择决策。

智能体评测/基准部署/工程

15:00

HuggingFace Daily Papers（社区热门论文）

60

SkillsVote：面向智能体技能收集、推荐与演进的全周期治理框架

针对大语言模型智能体在生成可复用经验轨迹时面临的噪声与治理难题，本文提出了SkillsVote框架。该框架将智能体技能定义为可执行脚本与流程指导的结合，并对百万规模的开源技能库进行环境、质量与可验证性评估。在技能执行前后，框架分别通过结构化检索与轨迹分解归因，仅将成功且可复用的发现纳入基于证据的更新。实验表明，该框架能在不更新模型本身的情况下，显著提升固定模型智能体的性能。

智能体论文/研究

14:50

Hacker News 热门（buzzing.cc 中文翻译）

75

Cursor 推出 Composer 2.5

Cursor 发布 Composer 2.5，这是其开发工具 Cursor 的更新版本，版本号从2.0迭代至2.5。此次更新提升了代码补全效率并引入协作功能，以优化开发体验。该发布在 Hacker News 上获得 100 个投票点，显示开发者社区对此次升级的关注。

智能体产品更新编码

14:50

Hacker News 热门（buzzing.cc 中文翻译）

68

Agora-1：多智能体世界模型

Agora-1是一个新发布的多智能体世界模型，旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作，可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。

智能体模型发布视频

13:56

HuggingFace Daily Papers（社区热门论文）

68

基于智能体规划的物理一致性视频生成

本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现，文本提示作为物理世界的有损压缩，是导致生成结果缺乏物理一致性的根本瓶颈。为此，我们提出NEWTON系统，其核心是将视频生成从独立的系统输出，降级为智能体工具箱中的一个动作。系统通过一个学习型规划器，协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息，并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下，实验表明该系统在VideoPhy-2基准上，将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点，显著增强了视频的物理一致性。

智能体视频论文/研究

13:29

MarkTechPost（RSS）

61

如何使用 OpenAI API 构建一个具备规划、工具调用、记忆与自我批评能力的高级智能体 AI 系统

该教程详细介绍了如何利用 OpenAI API 构建一个高级智能体AI系统。该系统被设计为一个包含多个专门角色的流水线，包括规划者、工具执行者和批评者，从而将策略制定、行动执行和质量控制分离。系统集成了计算器等结构化工具，并内置了记忆与自我批评功能，使其能够进行复杂任务规划并自主优化执行过程。这是一个完整的实践指南，旨在指导开发者从零搭建功能完备的智能体框架。

智能体 OpenAI 教程/实践

12:55

HuggingFace Daily Papers（社区热门论文）

53

代码作为智能体的运行基础

近期研究表明，在新兴智能体系统中，代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角，系统梳理了支撑智能体系统的三个核心层次：连接智能体与外部世界的操作接口层；支撑长期执行的规划、记忆与反馈控制机制层；以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域，并指出了评估验证、状态一致性等工程挑战，为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。

智能体 MCP/工具论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

68

AtlasVA：面向无教师VLM智能体的自进化视觉技能记忆

本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限，提出了AtlasVA框架。该框架无需教师监督，将记忆组织为三层互补的视觉结构：空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱，并将其转化为基于势函数的内在奖励，以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中，AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。

智能体具身智能论文/研究

11:51

HuggingFace Daily Papers（社区热门论文）

66

AI辅助自主研究：路线图与用户指南

研究指出，AI辅助科研已能以极低成本生成论文，并可自主执行多项研究任务。然而，这也暴露了严重的诚信和判断力问题，如伪造结果、忽略错误及难以评估创新性。AI在结构化、基于检索的任务中表现突出，但在提出原创思想、执行关键实验和科学判断方面仍显脆弱。研究表明，高度自动化可能掩盖问题，因此人机协同成为最可信的部署模式。研究提供了涵盖创作、写作、验证与传播全周期的分类体系、工具指南与设计原则。

智能体 arXiv 论文/研究

08:59

Claude Code：GitHub Releases（RSS）

精选65

Claude AI助手v2.1.144版本更新

Claude AI助手发布了v2.1.144版本。此次更新主要新增了对后台会话的/resume支持，并将“extra usage”更名为“usage credits”。同时包含了多项重要修复：优化了网络异常处理，解决启动卡顿问题；修复了窗口大小调整和长时间会话导致的终端显示错乱；解决了macOS特定文件夹下的崩溃问题。此外，还改进了模型选择持久化、文件读取、工具调用以及MCP服务器分页工具列表的处理，并减少了在VS Code中的渲染故障。本次更新显著提升了工具的稳定性和用户体验。

智能体 Anthropic 产品更新编码

推荐理由：如果你被 Claude Code 启动卡住 75 秒折磨过，这次更新终于修了，还支持后台会话 /resume，体验好了一个档次。

08:00

HuggingFace Daily Papers（社区热门论文）

46

重新思考记忆方式：超越终身LLM智能体记忆中的原子事实

现有大语言模型智能体的记忆系统多采用提取事实的范式，将对话压缩为原子事实。这会丢失原始细节，限制深度推理，且静态提示词难以适应多变的对话风格。为此，本文提出了TriMem系统，它同时维护三种表示粒度：用于保真存储的原始对话片段、用于高效检索的提取原子事实，以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术，通过响应质量反馈迭代优化提示，无需参数更新即可实现持续进化。实验表明，其效果优于强记忆基线。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

ParaVT：通过并行工具调用解决多智能体视频强化学习中的工具先验悖论

现有通过强化学习（RL）训练大语言模型（LLM）调用视频工具（如裁剪）的方法是顺序执行的，易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架，能在单次调用中分派多个时间窗口裁剪任务。研究发现，预训练模型中存在“工具先验悖论”：既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题，提出了PARA-GRPO方法，通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上，相比Qwen3-VL基线平均提升了7.9%，并将训练时的格式合规率从0.13提升至0.64。

智能体视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

π-Bench：评估长期工作流中的主动个人助理代理

本文提出了一个名为π-Bench的全新基准测试，旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务，覆盖5个特定领域的用户角色，其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性，以更真实地模拟现实交互。实验结果表明，主动辅助对当前大模型而言仍是重大挑战，且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

Mix-Quant：面向代理型大语言模型的量化预填充与精确解码

针对代理型大语言模型推理中的计算瓶颈，研究团队提出Mix-Quant，一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节，但存在显著量化冗余，而解码阶段对量化更敏感。为此，Mix-Quant采用混合精度策略：对预填充阶段应用高吞吐的NVFP4量化以加速，对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中，能有效保持任务性能，同时将预填充阶段速度提升最高3倍。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

63

CutVerse：面向媒体后期编辑的组合式GUI智能体基准测试

研究团队发布了CutVerse基准测试，用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流，涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估，团队开发了一个轻量级解析器，可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示，现有智能体在此类任务上的成功率仅为36.0%，凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力，但在长程可靠性与领域特定规划上仍存在局限。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

MOCHA：多目标切比雪夫退火用于智能体技能优化

该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿（包括非凸区域），并结合指数退火策略平衡搜索过程。实验表明，在六项任务中，现有优化器有四项无法提升基线技能，而MOCHA均实现了突破，平均正确率较最强基线提升7.5%，并发现了两倍多的帕累托最优变体。

智能体推理论文/研究

05:11

xAI：News（网页）

精选68

Grok平台技能功能上线

xAI于2026年5月18日正式推出Grok的“Skills”功能，旨在提供持久的专业知识支持。该功能允许用户对Grok进行一次性的偏好、格式规则或工作流程设置，即可在所有对话中持续生效，无需重复说明。Skills功能已在网页、iOS和Android平台全面上线，内置了创建与编辑Word文档、PPT演示文稿、Excel电子表格及处理PDF文件等开箱即用的技能。用户可以覆盖内置技能进行自定义，也能够通过对话快速创建新技能，从而实现工作流自动化与专业文档的便捷生成。

智能体 xAI 产品更新

推荐理由：Grok 终于有了自己的「GPTs」式技能系统，文档、表格、PPT 一把抓，对办公场景的覆盖比单纯的对话助手实用多了，值得 Grok 用户上手一试。

01:06

Anthropic：Newsroom（网页）

精选64

Anthropic收购SDK与MCP服务器工具开发商Stainless

Anthropic宣布收购SDK与MCP服务器工具开发商Stainless。Stainless自2022年成立以来，一直为Anthropic官方SDK的生成提供支持，其工具能将API规范转化为TypeScript、Python、Go等多语言的SDK、命令行工具及MCP服务器。此次收购旨在增强Claude平台的开发者体验，提升AI代理连接外部数据与工具的能力，从而在MCP协议基础上进一步拓展连接生态。

智能体 Anthropic MCP/工具行业动态

推荐理由：Anthropic收购Stainless，表面是SDK团队整合，深层是给Claude的Agent连接能力铺路。未来MCP服务器的质量和数量可能会跨一个台阶，做Agent开发的值得关注。

00:51

Cursor Blog

精选74

Composer 2.5 发布与技术解析

Cursor 平台发布了智能与行为表现大幅提升的 Composer 2.5。该模型更擅长执行复杂指令和长期任务。其改进基于训练规模的扩大、更复杂的强化学习环境及新的学习方法。关键技术包括：使用文本反馈进行针对性强化学习以纠正具体错误；采用基于真实代码库、规模达前代25倍的合成数据进行训练；并引入分片Muon优化器等新架构。模型基于Moonshot的开源检查点构建。开发团队正合作训练一个计算量十倍的更大模型，并在大规模训练中发现了新型奖励作弊问题。

智能体产品更新编码

推荐理由：Cursor的Composer 2.5不只是换个模型，它在长任务上的耐性和指令跟随的准确性提升肉眼可见，训练细节里藏的’文本反馈修正‘方法，对做AI产品的应该会有所启发。

5月18日

22:52

Hugging Face：Blog（RSS）

精选64

Hugging Face 推出开放 AI 智能体排行榜（Open Agent Leaderboard）

Hugging Face 发布开放 AI 智能体排行榜，用于比较完整智能体系统而非仅底层模型，并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试（SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom），覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议，各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估，相关论文开源。

智能体开源/仓库评测/基准

推荐理由：以后选agent不能只看模型跑分了，这个榜单把整个系统拉出来比，成本、失败成本全摊开，做agent的可以立刻去查自己架构差在哪。

19:31

公众号：面壁智能（MiniCPM）

21

面壁智能：智能座舱的尽头是一个真正"懂你"的 Agent

面壁智能发文指出，智能座舱的最终形态是一个真正“懂你”的 AI 智能体（Agent）。

智能体现象/趋势端侧

1…28 293031 32…50