5月27日

16:19

HuggingFace Daily Papers（社区热门论文）

VitaBench 2.0是一个专注于评估大语言模型智能体在长期、碎片化用户交互中表现的基准。其任务按时间顺序组织，要求模型从异构交互中持续提取并更新用户偏好。基准通过设计需要主动向用户或环境获取缺失信息的任务来评估智能体的主动性，并提供了可扩展的内存接口。对前沿模型的评测显示，即使最先进的模型在现实个性化任务上仍面临重大挑战。分析揭示了当前智能体在实际个性化决策中的失败模式与能力瓶颈。

智能体 arXiv 论文/研究

12:13

IT之家（RSS）

同事件精选75

AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练，其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体 Hugging Face 开源/仓库开源生态

同一事件，精选展示《AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》

推荐理由：全球首个AI独立编写的训练框架，零人类代码，并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通，做模型训练的团队都该去fork一下，复现过程本身就是一堂课。

11:19

HuggingFace Daily Papers（社区热门论文）

同事件精选72

MiniMax-M2系列：微小激活释放最大真实世界智能

MiniMax推出M2系列大语言模型。其旗舰模型M2采用混合专家（MoE）架构，总参数229.9B，每个token仅激活9.8B参数。该系列专为智能体部署设计，基于三大组件构建：智能体驱动的数据管道、可扩展的智能体原生强化学习系统Forge，以及展示早期自我进化能力的M2.7检查点。这种设计使其在智能体编码、深度搜索、办公任务及推理基准测试中达到了前沿性能水平。

智能体推理模型发布

同一事件，精选展示《MiniMax M2.7：自我进化的早期回声》

推荐理由：MiniMax 把激活参数压到 9.8B 却敢喊前沿，整套 design 都是为 agent 场景重做的，搞 agent 的开发者该认真看一眼这个信号。

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

基于策略内知识边界增强的智能体强化学习

本文研究智能体强化学习在训练工具使用大语言模型时出现的问题，即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此，提出AKBE方法，通过双路径（使用工具与不使用工具）滚动动态探测模型知识边界，定义是否需要工具及最少工具调用次数，并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中，AKBE将任务准确率平均提升1.85，减少18%工具调用，工具生产力提高25%，且无准确率-效率权衡。

智能体 GitHub 论文/研究

推荐理由：让Agent学会「什么时候不用工具」是比单纯提高准确率更难的活，这篇用一个巧妙的双路径对比方法把这事做成了，直接降18%工具调用还涨点，做Agent的可以抄代码了。

11:19

HuggingFace Daily Papers（社区热门论文）

精选72

超越最终答案：审计多智能体工业工作流中的轨迹级模型幻觉

提出了Trajel，一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹，引入了五种幻觉分类：事实性、引用性、逻辑性、程序性和范围性。基准测试表明，现有基准遗漏了最常见故障模式，近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高，但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证，表明基于分类法的评估对于更安全的智能体部署是必要的。

智能体安全/对齐论文/研究

推荐理由：现有的幻觉测试只看最终答案，但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了，发现近一半故障同时包含多种幻觉类型，做智能体安全的人该换评估方式了。

10:19

HuggingFace Daily Papers（社区热门论文）

MUSE-Autoskill：通过技能创建、记忆、管理与评估实现智能体的自我进化

MUSE-Autoskill 提出了一个以技能为核心的智能体框架，使智能体能够通过统一的技能生命周期（创建、记忆、管理、评估与精炼）持续提升任务解决能力。该框架支持按需创建技能、跨任务存储与重用，并借助单元测试和运行时反馈进行持续改进。它还引入了技能级记忆，用于为每个技能积累跨任务经验。在 SkillsBench 上的初步实验表明，经过生命周期管理的技能可以提升任务成功率、效率、重用性及跨智能体迁移能力，突显了将技能作为长期、可感知经验且可测试的资产的重要性。

智能体 MCP/工具论文/研究部署/工程

09:58

公众号：数字生命卡兹克

精选65

从0到1速通OpenAI Codex：安装、设置与实操教程

近日OpenAI的AI智能体Codex热度飙升。教程涵盖完整使用流程：从官网下载安装，支持从Claude Code和Cowork一键导入配置；界面分对话区和项目区，权限可选默认、自动审查或完全访问；模型推荐GPT-5.5，推理等级用高或超高，速度可选快速（1.5倍速度、2倍token消耗）或标准；建议开启引导模式、记忆功能，并设置全局AGENTS.md规则（卡帕西模板）；通过Skills和插件管理扩展能力；演示了开发网页（使用计划模式、批注功能圈选修改）和开发用药提醒App（需安装Xcode编译到手机）。

智能体 OpenAI 教程/实践编码

推荐理由：如果你还在观望要不要入坑Codex，这篇保姆级教程把安装、设置、开发网页到打包APP全流程踩了一遍，那个@Computer Use帮你装Xcode的操作一看就懂，想动手的现在就能跟做。

09:33

Claude Code：GitHub Releases（RSS）

精选71

Claude Code v2.1.152 更新发布

Claude Code 发布 v2.1.152 版本更新。核心改进包括：/code-review --fix 现在会将审查建议直接应用于工作目录；技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具；新增 /reload-skills 命令可不重启会话重新扫描技能目录；SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能，并可通过 hookSpecificOutput.sessionTitle 设置会话标题；新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至 --fallback-model、会话用量统计优化等。同时修复了终端样式退化、沙箱警告显示、思考摘要、MCP 服务器去重、远程会话连接及多种会话卡顿问题。

智能体 Anthropic 产品更新编码

推荐理由：Claude Code 这次更新把代码审查从'查问题'推进到'直接修'，Skills 系统补上了热加载和工具限制，做工程自动化的团队应该立刻更新。

09:04

Claude：Blog（网页）

精选75

Code w/ Claude 伦敦活动：重塑开发体验

在Code w/ Claude 伦敦活动上，Anthropic 宣布了 Claude Managed Agents 的两项新能力：自托管沙箱（公开测试版）和 MCP 隧道（研究预览）。这两项功能使 AI 智能体的工具执行环境与企业私有网络内的 MCP 服务器连接均可运行在客户自有基础设施或指定托管服务商处。活动还介绍了如何通过 Claude Code、优化思维预算以及模型努力级别来提升开发体验。目前，包括 Spotify、Base44 和 Legora 在内的客户已在使用这些新功能。

智能体 Anthropic MCP/工具产品更新

关联讨论 2 条

推荐理由：Claude 平台企业部署的最后一公里被补上了，自托管沙箱和 MCP 隧道让 agent 真正能进生产环境，做 2B 的企业级应用终于有了安全底座。