5月12日

08:00

HuggingFace Daily Papers（社区热门论文）

研究指出，GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足，失败案例呈长尾分布。为解决复杂交互数据稀缺问题，团队提出了新基准CUActSpot，用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力，其覆盖的交互类型远超以往以点击为中心的基准。同时，团队设计了一个基于渲染器的数据合成流程，可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型，性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体 Microsoft 多模态论文/研究

05:53

Claude：Blog（网页）

Claude Code 推出智能体视图功能

Claude Code 近日推出“智能体视图”功能，为用户提供了一个集中管理所有会话的统一界面。该功能解决了并行运行多个智能体时需要切换终端标签、管理复杂网格的痛点，允许用户一键启动新智能体并将其发送至后台运行。在视图中，用户可以直观查看每个智能体的状态（等待输入、运行中或已完成）、最后响应内容及交互时间，并支持内联回复或进入完整会话。用户可通过 /bg 命令或将现有会话加入后台，也可直接使用 claude --bg [task] 启动后台任务。此功能已作为研究预览版向 Pro、Max、Team、Enterprise 及 Claude API 用户开放。

智能体 Anthropic 产品更新编码

03:52

Simon Willison 博客

引用 James Shore

James Shore 强调，AI 编码代理必须降低代码维护成本，否则编码速度的提升反而会导致长期维护负担剧增。如果编码输出速率加倍，维护成本需减半；输出速率提升三倍，维护成本需降至三分之一。数学关系显示：输出加倍且维护成本加倍时，总维护成本将翻四倍；输出加倍但维护成本稳定时，总成本仍翻倍。这警示开发者，AI 工具应在提升效率的同时，以成反比的方式减少维护开销，避免用短期速度换取永久性债务。

智能体大佬观点编码

02:52

Claude Code：GitHub Releases（RSS）

精选72

Claude Code v2.1.139 版本更新

本次更新引入了多项新功能与优化。核心新增包括：集中管理会话的Agent视图（研究预览）、可设置目标并持续工作的/goal命令、实时调整滚轮速度的/scroll-speed命令，以及查看插件详情的claude plugin details命令。交互界面导航与控制能力得到增强。底层优化涵盖MCP服务器可获取CLAUDE_PROJECT_DIR环境变量、/context all的令牌估算会考虑模型分词器并显示舍入值。此外，修复了超过20项问题，如凭证死锁、内存无限制增长、权限规则、UI显示错误及路径处理等缺陷。

智能体 Anthropic MCP/工具产品更新

推荐理由：Claude Code 这波更新给了两个真正改变工作流的杀手功能，agent view 让你一眼看清所有会话，/goal 命令能让 Claude 自己跑完一个任务直到满足条件，做开发的同学可以立刻试试。

5月11日