Anthropic首席财务官透露,公司内部AI已承担约90%的代码编写工作,财务报告等任务也能在人工介入前完成90%-95%。员工角色正从执行者转变为AI系统的监督者与战略决策者,部分报告处理时间从数小时缩短至30分钟。AI提升了团队效率,公司因此继续招聘,更注重“高密度人才”与AI的结合。行业趋势呈现分化:一些企业要求员工学习使用AI工具,另一些则以效率提升为由裁员。尽管自动化可能取代部分岗位,但若需求持续,企业招聘未必停止。
Anthropic首席财务官透露,公司内部AI已承担约90%的代码编写工作,财务报告等任务也能在人工介入前完成90%-95%。员工角色正从执行者转变为AI系统的监督者与战略决策者,部分报告处理时间从数小时缩短至30分钟。AI提升了团队效率,公司因此继续招聘,更注重“高密度人才”与AI的结合。行业趋势呈现分化:一些企业要求员工学习使用AI工具,另一些则以效率提升为由裁员。尽管自动化可能取代部分岗位,但若需求持续,企业招聘未必停止。
阿里云发布企业级AI建站平台万小智2.0,提供从网站生成、域名备案到上线运营的全流程服务。平台通过多轮对话理解需求,支持解析参考网站或使用行业模板生成初稿,并采用多角色Agent协作与“AI对话+拖拽编辑”实现边聊边改。它原生集成域名注册与ICP备案,支持一键部署,并配备可视化管理后台及AI创意中心。新用户可获赠体验额度和限时.CN域名,服务按功能提供不同订阅版本。
腾讯云开源了TencentDB Agent Memory,旨在解决Agent长任务中上下文窗口易满、Token成本高的问题。该方案采用“上下文卸载”与“Mermaid任务画布”两项核心技术,将完整信息卸载至外部存储,同时用结构化任务图保留关键状态与执行路径。实验显示,该方案在多任务连续会话中最高可降低61%的Token消耗,并提升任务成功率。项目已适配OpenClaw等主流框架,支持一键集成与本地SQLite存储。
研究将数据集聚合(DAgger)算法应用于长视野大语言模型智能体训练,以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹,并利用教师提供的密集监督信号进行训练,使模型接触真实环境状态。在软件工程智能体训练中,经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升,最终4B智能体成功率超越已发布的代表性8B系统,8B智能体性能接近更强32B规模模型,验证了该方法的有效性。
针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题,本研究提出可插拔的先建图后行动范式(MAP)。该范式将环境理解前置,包含全局探索、任务特定建图与知识增强执行三个阶段,旨在突破认知瓶颈。实验表明,MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中,前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明,基于环境理解的训练优于单纯模仿专家轨迹,验证了先理解环境的核心价值。
当前软件工程智能体评估仅依赖最终补丁是否通过测试的二元信号,掩盖了解决方案质量的差异。研究分析了2,614条轨迹,发现在可评估的1,815条通过轨迹中,10.7%属于“幸运通过”,表现为回归循环、盲目重试等问题。为此,研究团队提出了用于过程级评估的AgentLens框架,并发布了标注质量分数、冗余信号等信息的AgentLens-Bench数据集。基于质量分数,通过轨迹被划分为幸运、扎实和理想三个等级,不同模型的幸运通过率介于0.5%至23.2%之间。若按质量分数而非通过率排名,部分模型的排名变化显著。相关资源已开源。
研究发现,当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时,会产生错误记忆,导致性能不升反降。即使基于完全正确的经验进行整合,GPT-4在部分问题上仍有54%的失败率,而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身,而非原始经验。在受控测试中,默认保留原始经历片段的智能体,其准确率是强制整合版本的两倍;完全禁用整合、仅进行片段管理,能达到与自动管理相当的性能。因此,稳健的智能体记忆系统应将原始经历片段视为首要证据,并明确控制整合的触发条件,而非在每次交互后都自动执行。
当前对大语言模型代理的安全评估大多仅关注最终输出,忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区,研究者提出了HarnessAudit框架,从边界合规、执行保真度和系统稳定性三个维度,对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现,任务完成并不等于安全执行,违规行为会随轨迹增长而累积;风险在多智能体协作中被放大,且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。
现有自动多智能体系统存在局限,要么依赖测试时搜索,要么仅优化设计者而固定执行者,无法实现端到端联合优化。为此,研究团队提出MetaAgent-X框架,通过强化学习同时优化系统设计与执行。该框架支持脚本化生成、轨迹收集和信用分配,并引入"分层滚动"和"分阶段协同进化"技术确保训练稳定。实验显示MetaAgent-X最高提升性能达21.7%,消融分析表明设计者与执行者协同进化,验证了端到端可训练范式的有效性。
本研究揭示,代表用户浏览网页的LLM智能体,其操作模式与交互时间特征可被网站通过被动JavaScript追踪器捕获,从而精准识别底层大模型,构成显著安全风险。实验涵盖14个前沿大模型与4种网络任务环境,表明基于操作日志的分类器可达到96%的F1分数,且具备跨模型泛化能力。即使仅需少量交互痕迹,或在任务早期阶段,仍可有效推断智能体身份。研究发现,虽向操作间注入随机延迟会暂时干扰识别,但通过在延迟痕迹上重新训练分类器,其性能可基本恢复,因此无法提供稳健防护。团队已公开其实验框架与标注的智能体痕迹数据集。
现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架,包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号,调度器通过最大化奖励进行训练,成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行,生成了比单步或规则基线更连贯可靠的编辑结果。
Solvita 是一个无需更新底层大语言模型权重的智能体演化框架,旨在提升模型在竞技编程中的推理能力。它将解题过程重组为由 Planner、Solver、Oracle、Hacker 四个专用智能体执行的闭环系统。每个智能体配备一个可训练的图结构知识网络,系统运行时产生的通过/失败结果、测试质量与对抗漏洞等信号,会转化为对这些网络的强化学习更新,使智能体能基于历史经验动态路由后续查询,持续积累可迁移的推理经验。在多个基准测试及实时编程比赛中,Solvita 在代码生成智能体中取得了新的最优性能,显著超越了现有方法。
MMSkills框架旨在为视觉智能体提供可复用的多模态程序性知识。它将每个技能封装为包含文本程序、运行时状态卡片和多视角关键帧的紧凑技能包。该框架通过轨迹到技能的生成器,将公开交互轨迹转化为技能,过程包括工作流分组、程序归纳与视觉定位。使用时,采用分支加载架构:在临时分支中检视选定的状态卡片与关键帧,将其与实时环境对齐并提炼为结构化指导,供主智能体决策。在GUI和游戏基准测试中,该框架能持续提升不同规模多模态智能体的性能,证明外部多模态知识能有效补充模型内部先验。
现有游戏世界模型多从主观玩家视角模拟环境,将非玩家角色(NPC)视为背景像素,难以建模玩家与NPC的动态交互。本文提出ReactiveGWM,该反应式游戏世界模型通过显式解耦玩家控制与NPC行为来解决此问题:玩家动作通过轻量级加性偏置注入扩散主干,而高级NPC响应则通过交叉注意力模块实现。这些模块学习的是与游戏无关的交互逻辑表示,支持零样本策略迁移——学习到的模块可直接插入不同游戏的现成世界模型中,无需针对特定领域重新训练即可实现可引导的NPC交互。在《街头霸王》系列游戏上的评估表明,ReactiveGWM在保持精细玩家可控性的同时,实现了稳健且与提示对齐的NPC策略遵循。
Claude 工具发布 v2.1.141 版本,带来多项功能新增与优化。主要更新包括:为钩子输出添加 terminalSequence 字段以支持无控制终端的桌面通知;新增 CLAUDE_CODE_PLUGIN_PREFER_HTTPS 环境变量,便于通过 HTTPS 克隆插件源码;引入 ANTHROPIC_WORKSPACE_ID 变量以在多工作区联盟中限定令牌范围。会话管理方面,claude agents 命令新增 --cwd 参数用于按目录筛选,并优化后台代理的状态归类。用户体验改进包括:在倒带菜单添加“总结至此”选项以压缩早期上下文;长思考超时后旋转指示器变色提供更明确反馈;此外,还修复了 Markdown 表格渲染异常、权限提示逻辑、历史记录管理等超过 30 项问题。
据报道,苹果公司正内部讨论如何允许AI编程应用(如智能体编程、氛围编程)进入App Store。这类应用能用AI直接生成代码和软件,但违反了商店禁止在设备上直接编程的现有规则。苹果面临两难:一方面担心开闸后,AI生成的新代码可能绕过安全审核,增加恶意软件风险,并可能减少应用分发和抽成收入;另一方面又不想错过这波新应用带来的机会。为此,苹果正在探索折中方案,试图设计一套系统来确保隐私与安全标准,但深度调用系统资源的AI应用可能仍无法直接登陆iPhone。
由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队,发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞,要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示,前沿AI模型已能成功利用相当数量的漏洞,即使在启用ASLR等标准防御措施后,部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力,该技术具有双重用途:既可帮助防御者评估漏洞严重性,也可能降低攻击者的技术门槛。
同一事件,精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》Cursor发布新工具,用于配置云端智能体开发环境。核心更新包括:支持多仓库环境,使智能体可跨代码库协同工作;提供基于Dockerfile的代码化配置,支持构建密钥并优化缓存,命中缓存后构建速度提升70%;增强由智能体主导的环境设置流程,提供验证与故障回退机制。同时新增环境治理与安全功能,如版本历史、审计日志,以及可在环境级别独立管控的网络出口和密钥权限。这些改进旨在帮助团队在受控环境中更高效地运行能端到端处理任务的并行智能体集群。
Claude 最新模型在电脑与浏览器使用能力上显著提升,支持构建复杂智能体系统。本文针对Claude 4.6系列和Opus 4.7提供实践指南,重点优化截图分辨率:Claude 4.6系列API限制最大长边1568像素、总像素115万;Opus 4.7提升至最大长边2576像素、总像素375万。发送前将截图缩放到限制内是提升点击准确性的最有效方法。推荐起始分辨率为1280x720,Opus 4.7用户可优先使用1080p,并避免发送未经缩放的原始截图或过低分辨率图像。
知识工作者平均每天收到121封邮件,传统收件箱处理模式难以为继。未来邮件处理将转向高度个性化与自动化:用户能用自然语言定义处理规则,实现收据自动转发、销售线索自动录入CRM等流程。所有历史邮件将构成个人上下文层,为AI处理新邮件提供背景信息,敏感信息则由设备端模型进行私密处理。最终,收件箱本身将消失,真正重要的信息可能浓缩至仅6条。
Anthropic 正式推出面向小型企业的“Claude for Small Business”方案,包含15个基于智能体的工作流程,并集成至QuickBooks、PayPal和HubSpot等常用工具。该公司同时在美国十个城市推出免费培训课程和巡回研讨会,旨在将AI能力直接赋能给小企业主,帮助其更高效地利用现有付费工具。
Runway正式发布Runway Agent,这是一个能够通过单次对话将创意想法转化为完整、可发布视频的智能创作伙伴。用户只需用自然语言描述需求,Agent便能根据上下文和目标,自主完成概念提案、故事节奏设计、视觉方向规划,并最终生成包含多场景、旁白、对话和音乐的成片。它旨在为品牌团队、营销人员、创意机构和电影制作人快速生产各类视频内容,如品牌宣传、社交媒体素材和短片,将传统需要数天或数周的审核制作周期压缩至几分钟。该产品现已上线,新免费计划用户可获得1500积分用于制作首个视频。
Boris Mann 对“11个AI智能体”这一表述提出质疑,认为其与“我有11个电子表格”或“我有11个浏览器标签”在含义上并无本质区别。他强调,单纯罗列智能体的数量并无实际意义,关键在于这些工具如何具体协助完成工作。这一观点引发了关于如何准确定义和评估AI智能体实际价值的讨论。
Anthropic推出“Claude for Small Business”服务包,旨在帮助小型企业弥补在AI应用资源上与大型公司的差距。该产品包含一系列连接器和15个开箱即用的自动化工作流,能将Claude深度集成到QuickBooks、PayPal、HubSpot等企业日常工具中。其核心功能是自动化处理财务、运营、销售等领域的重复性任务,如规划薪资、月末结算、追踪发票和分析营销活动等。用户通过Claude Cowork界面操作并手动批准关键步骤,所有任务均由用户发起和控制,Anthropic承诺保障数据安全。
针对部分可观测长程任务中LLM智能体面临的历史信息膨胀与状态不确定性问题,研究提出了Agent-BRACE方法。该方法将智能体解耦为信念状态模型与策略模型,通过强化学习联合优化。信念模型以带有序语言化确定性标签(从“确定”到“未知”)的原子化自然语言声明集合,结构化近似表示环境状态的后验分布;策略模型则基于这一紧凑的信念表示而非完整历史进行决策。在部分可观测的具身语言环境中,该方法使Qwen2.5-3B-Instruct和Qwen3-4B-Instruct模型分别实现平均绝对性能提升14.5%与5.3%,且上下文窗口长度几乎不随任务步数增长。分析表明,随着证据积累,学习得到的信念在任务过程中校准度逐渐提升。
澳大利亚牧羊大叔Geoffrey Huntley为解决AI编程工具Agent中途停止的痛点,编写了一个名为“Ralph Loop”的三行bash脚本。该脚本通过无限循环将任务持续喂给AI,确保其工作至完成。此简单粗暴的思路在11天内被OpenAI、Anthropic和Hermes三家顶级AI实验室集体采纳,并分别集成至Codex、Claude Code和Hermes Agent产品中,推出了/goal等类似功能。这一变化标志着AI编程的核心正从“生成代码”转向“闭环交付”,显著提升了AI的自主性和任务完成能力,被视为通用人工智能发展的关键一步。
亚马逊将基于大语言模型的Alexa Plus整合至官网,推出Alexa购物版助手,取代原有AI购物助手Rufus。该助手支持智能问答、降价提醒、自动复购及跨网站智能代买功能,可查询商品全年价格历史并自动搜寻优惠。服务面向所有美国用户,无需注册Alexa账号,未来几周全量上线。同时,Echo Show智能屏升级全新可视化购物界面,已登陆15和21机型,一个月内将适配8和11机型。
Statewright发布了一个开源的可视化状态机工具,旨在通过图形化界面提升人工智能代理的可靠性。该工具允许开发者直观地设计和监控AI代理的状态转换,简化开发流程,减少错误并增强系统稳定性。在Hacker News上,该项目获得101个点赞,显示出技术社区对其创新性的关注。开发者可通过GitHub访问代码,将其集成到AI项目中以提高可维护性和性能。
小米汽车开始向第一代SU7推送OTA 1.16大版本更新,旨在对齐新款车型的功能体验。本次更新重点升级了辅助驾驶与智能座舱:辅助驾驶新增语音控车、收费站通行辅助、侧向避让辅助及针对异形障碍物的前向防碰撞辅助等功能;特别增加了疲劳分心下的应急停车辅助,触发后将自动减速停车并禁用辅助驾驶30分钟。智能座舱方面,超级小爱新增“小爱陪伴”和“AI智控”功能。此外,还引入了车主管理模式。多数新功能仅支持SU7 Pro和Max车型。
研究提出将语言模型从单一顺序消息处理转向多并行计算流架构。模型在每个前向传播中同时从多个输入流读取,并向多个输出流生成令牌,所有流均因果依赖于先前时间步。这一数据驱动的变革解决了现有智能体无法在阅读时行动、在行动时响应新信息等阻塞问题,同时通过并行化提升了模型效率,通过更好的关注点分离增强了安全性,并改善了模型的可监控性。
Anthropic工程师鲍里斯・切尔尼透露,他利用Claude Code的循环指令和例行任务功能,在夜间自动运行数千个AI智能体进行编程开发。他通常同时开启5至10个会话,每个会话包含多个智能体,并通过手机应用管理这些任务。这种模式标志着工程师将AI从聊天机器人转变为全天候自主助手。切尔尼此前在社交平台分享的智能体配置方案已获得超10.4万次收藏和810万次浏览。
在腾讯股东大会上,马化腾回顾了公司AI发展历程,坦言早期基础能力不突出,经过持续补短板后正逐步驶入正轨。他用“一年前以为上了船,结果发现船漏水,现在站上去了但还坐不下去”形容当前状态,强调腾讯不盲目跟风抢地盘,而是结合自身优势稳扎稳打。公司计划大幅增加AI投入,2025年投入180亿元,今年至少翻倍。同时,腾讯正为微信秘密开发一款“绝密级”AI智能体,计划年中启动灰盒测试,第三季度可能向所有用户推出,旨在连接微信内数百万小程序以自动化各类服务。此外,腾讯元宝AI已于今年3月更换了更拟人化的新Logo。
异步强化学习提升语言模型智能体数据吞吐,但引发PPO离策略修正失效。重要性比率本应分解为训练-推理差异项和策略陈旧性项,但异步流水线常丢失旧Logits,导致修正语义混淆与阈值不良交互。研究提出精确修正方法,如快照版本追踪、专用模型和同步中断,并探讨近似修正路径。采用改进的PPO-EWMA方法,在训练速度和优化性能上均取得显著提升。
Voker推出专为AI智能体设计的分析平台,旨在将智能体与用户的对话转化为可操作的结构化数据。该平台能自动识别用户目标、检测知识缺口与异常,并将对话数据与企业现有的用户数据关联,从而量化智能体对转化、留存及收入等关键业务指标的实际影响。它支持OpenAI、Anthropic、Gemini等主流框架,仅需少量代码即可集成,且无需改动现有设施。其核心价值在于让产品、分析和业务团队能自助获取洞察,快速优化智能体性能并确保投资回报。
工具调用型LLM智能体的失败体现在整个轨迹中,而非仅最终响应。现有安全对齐方法常导致安全与效用权衡。研究提出FATE框架,通过在线策略自我进化,将验证器评分的失败轨迹转化为修复监督信号,无需专家示范。该方法引入帕累托前沿策略优化(PFPO),结合监督预热与帕累托优化以平衡安全与效用。在AgentDojo、AgentHarm和ATBench上的实验表明,FATE能显著提升多模型、多规模下的安全性,同时维持任务效用。具体而言,攻击成功率降低33.5%,有害指令遵从减少82.6%,外部轨迹安全诊断能力提升6.5%。这表明失败轨迹可为智能体安全进化提供有效监督。
微软CEO纳德拉宣布,其AI安全框架MDASH在5月补丁星期二中,协助发现了Windows 11系统120个已修复漏洞中的16个。MDASH是一个协调超过100个专用智能体的多模型扫描框架,采用对抗式流程以减少误报。该系统在私有驱动测试中实现零误报;在历史漏洞回溯中对特定组件召回率高达96%和100%;并在CyberGym公共基准测试中以88.45%的成绩领先。发现的漏洞涵盖多个关键组件,其中10个为内核态漏洞,包括严重的远程未授权释放后使用等问题。
针对计算机使用代理在GUI操作与工具调用间切换决策困难的问题,本文提出ToolCUA。该方法采用分阶段训练:首先利用静态GUI轨迹合成基础工具库,生成多样化的GUI-工具交错轨迹;随后通过工具引导的GUI强化微调改进关键切换点决策;最后在高保真环境中进行在线代理强化学习,以鼓励工具高效使用。在OSWorld-MCP基准测试中,ToolCUA达到46.85%的准确率,相对基线提升约66%,证明了GUI-工具协同训练的有效性。
研究团队推出MEME基准,用于评估大语言模型智能体在多会话持久环境中的记忆能力。该基准定义了涵盖多实体与演化信息两个维度的六项任务,其中级联、缺失和删除推理三项为先前工作未涉及。在100个受控片段上对三种记忆范式的六个系统进行评估发现,所有系统在默认配置下对依赖关系的推理能力均严重不足(级联任务平均准确率3%,缺失任务1%),尽管其静态检索性能尚可。提示优化、深度检索、减少干扰信息乃至使用更强的模型均未能显著缩小差距。仅当基于文件的智能体配合Claude Opus时,差距被部分缩小,但成本约为基线的70倍,表明当前解决方案难以大规模应用。代码与数据已公开。
研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。
在Create 2026百度AI开发者大会上,百度创始人李彦宏提出,AI时代的核心度量衡应是“日活智能体数”(DAA),而非当前业界常用的Token消耗。他认为Token仅代表成本和投入,无法衡量产出与价值;DAA则关注有多少智能体在有效为人类工作并交付成果,更能反映平台与生态的繁荣本质。李彦宏同时指出,在智能体浪潮中,开发者、创业者与创造者的角色正融合为一体。大会于5月13日至14日在北京举行,多位行业领袖出席。