5月14日

15:40

IT之家（RSS）

Anthropic CFO：AI 已能编写九成代码，人类白领从执行者转变为监督者

Anthropic首席财务官透露，公司内部AI已承担约90%的代码编写工作，财务报告等任务也能在人工介入前完成90%-95%。员工角色正从执行者转变为AI系统的监督者与战略决策者，部分报告处理时间从数小时缩短至30分钟。AI提升了团队效率，公司因此继续招聘，更注重“高密度人才”与AI的结合。行业趋势呈现分化：一些企业要求员工学习使用AI工具，另一些则以效率提升为由裁员。尽管自动化可能取代部分岗位，但若需求持续，企业招聘未必停止。

智能体 Anthropic 大佬观点编码

15:40

IT之家（RSS）

阿里云发布万小智 2.0：打通 AI 建站、域名备案到上线运营全流程

阿里云发布企业级AI建站平台万小智2.0，提供从网站生成、域名备案到上线运营的全流程服务。平台通过多轮对话理解需求，支持解析参考网站或使用行业模板生成初稿，并采用多角色Agent协作与“AI对话+拖拽编辑”实现边聊边改。它原生集成域名注册与ICP备案，支持一键部署，并配备可视化管理后台及AI创意中心。新用户可获赠体验额度和限时.CN域名，服务按功能提供不同订阅版本。

智能体产品更新部署/工程

15:40

IT之家（RSS）

精选74

"让 Token 消耗降低 61%"：腾讯开源 Agent Memory

腾讯云开源了TencentDB Agent Memory，旨在解决Agent长任务中上下文窗口易满、Token成本高的问题。该方案采用“上下文卸载”与“Mermaid任务画布”两项核心技术，将完整信息卸载至外部存储，同时用结构化任务图保留关键状态与执行路径。实验显示，该方案在多任务连续会话中最高可降低61%的Token消耗，并提升任务成功率。项目已适配OpenClaw等主流框架，支持一键集成与本地SQLite存储。

智能体 MCP/工具开源/仓库

推荐理由：腾讯开源的这个 Agent Memory，用 Mermaid 画布加上下文卸载，把长任务 Token 省了 61%，而且所有中间信息都可追溯，做复杂 Agent 的开发者可以直接抄作业了。

10:45

HuggingFace Daily Papers（社区热门论文）

重访DAgger算法在长视野大语言模型智能体训练中的应用

研究将数据集聚合（DAgger）算法应用于长视野大语言模型智能体训练，以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹，并利用教师提供的密集监督信号进行训练，使模型接触真实环境状态。在软件工程智能体训练中，经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升，最终4B智能体成功率超越已发布的代表性8B系统，8B智能体性能接近更强32B规模模型，验证了该方法的有效性。

智能体推理编码论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

MAP：一种面向长程交互式智能体推理的先建图后行动范式

针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题，本研究提出可插拔的先建图后行动范式（MAP）。该范式将环境理解前置，包含全局探索、任务特定建图与知识增强执行三个阶段，旨在突破认知瓶颈。实验表明，MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中，前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明，基于环境理解的训练优于单纯模仿专家轨迹，验证了先理解环境的核心价值。

智能体推理论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

精选72

AgentLens：揭示软件工程智能体评估中的"幸运通过"问题

当前软件工程智能体评估仅依赖最终补丁是否通过测试的二元信号，掩盖了解决方案质量的差异。研究分析了2,614条轨迹，发现在可评估的1,815条通过轨迹中，10.7%属于“幸运通过”，表现为回归循环、盲目重试等问题。为此，研究团队提出了用于过程级评估的AgentLens框架，并发布了标注质量分数、冗余信号等信息的AgentLens-Bench数据集。基于质量分数，通过轨迹被划分为幸运、扎实和理想三个等级，不同模型的幸运通过率介于0.5%至23.2%之间。若按质量分数而非通过率排名，部分模型的排名变化显著。相关资源已开源。

智能体论文/研究

推荐理由：SWE-agent评估只看通过率太粗暴了，这篇论文把乱试的“幸运通过”和真方案拆开看，10%的通过其实是蒙的，做agent评估的必读。

09:45

HuggingFace Daily Papers（社区热门论文）

精选72

持续更新导致LLM智能体记忆效用衰退

研究发现，当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时，会产生错误记忆，导致性能不升反降。即使基于完全正确的经验进行整合，GPT-4在部分问题上仍有54%的失败率，而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身，而非原始经验。在受控测试中，默认保留原始经历片段的智能体，其准确率是强制整合版本的两倍；完全禁用整合、仅进行片段管理，能达到与自动管理相当的性能。因此，稳健的智能体记忆系统应将原始经历片段视为首要证据，并明确控制整合的触发条件，而非在每次交互后都自动执行。

智能体检索增强论文/研究

推荐理由：LLM 整合记忆的常规套路被这篇论文掀了桌子。连续更新反而会把有用的经验搞坏，甚至 GPT-5.4 自己解过的题，加上记忆后正确率暴跌。做 agent 的人值得认真看看，记忆架构可能要转向保留原始轨迹。