针对语言模型需从复杂上下文中学习的问题,本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈(挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈)实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者,以及防止对抗性崩溃的跨时间重放机制,确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明,该框架能持续提升不同骨干模型的解题成功率。
针对语言模型需从复杂上下文中学习的问题,本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈(挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈)实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者,以及防止对抗性崩溃的跨时间重放机制,确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明,该框架能持续提升不同骨干模型的解题成功率。
开源项目“Open Design”发布,旨在将编程智能体转化为设计引擎。该项目允许开发者利用代码生成和修改用户界面等设计元素,推动设计与开发流程的融合。项目在GitHub开源,并在Hacker News社区获得103点热度,显示出开发者对此类工具的积极关注。其核心变化在于为编程代理赋予了视觉设计能力,可能提升界面开发效率。
Agent-desktop 是一款基于 Rust 构建的原生桌面自动化命令行工具,专为 AI 代理设计。它通过操作系统无障碍访问树为任何应用程序提供结构化访问,无需依赖截图、像素匹配或浏览器。该工具包含快速单二进制 CLI 和 C-ABI 动态库,支持 Python、Swift、Go 等多种语言直接调用,避免每次命令 fork 进程。核心特性涵盖 53 个命令,包括观察、交互、键盘鼠标操作;采用渐进式骨架遍历,在密集应用中可减少 78–96% 的令牌使用;工作流经 AI 优化,使用确定性元素引用,且所有交互优先尝试纯无障碍 API。目前支持 macOS 13.0+ 系统,需授予无障碍权限。
GitHub上开源了“Understand Anything”项目,这是一个AI驱动的工具,旨在帮助用户理解和解释各类复杂概念与信息。该项目发布后在Hacker News社区获得102个积分,反映出科技开发者对其技术潜力的高度关注。工具可能整合自然语言处理等技术,以提升知识获取与理解的效率。
本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。
毫无编程经验的项目经理Kostiantyn Vlasenko,借助Claude Code在72小时内独立开发出压力管理应用Respiro,并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号,并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成,涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作,甚至支持了后续的市场推广工作。
Microsoft 将一款名为“Legal Agent”的AI法律代理直接集成到Word中。该代理能自动审阅合同,根据内部指导方针检查条款并提出修改建议。此举将AI工具深度嵌入办公软件核心流程,旨在提升法律文档处理的效率与规范性。
Mistral 发布其新旗舰模型 Mistral Medium 3.5,它将此前独立的聊天、推理和代码生成模型合并为一个单一产品。同时,该公司为其编程工具 Vibe 增加了异步云代理功能,并为聊天产品 Le Chat 引入了新的智能体模式。
Claw-Eval-Live 是一个用于评估工作流智能体的实时基准,它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物,并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中,领先模型仅通过 66.7% 的任务,无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流,而本地修复任务相对容易但仍有提升空间。结果表明,工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。
本文针对非专业低代码用户指令模糊、质量低的现实瓶颈,提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动,系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为,并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境,以实现迭代式意图细化与代码合成。大量实验表明,当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式,在意图识别与自适应交互方面存在明显局限。
研究团队提出“规模化合成计算机”方法,以创建包含真实文件夹层级与丰富文件内容(如文档、表格)的可扩展计算机环境。基于每个合成计算机,系统运行长周期模拟:一个代理设定符合用户身份、需耗时约一个月完成的多项专业任务目标;另一代理则扮演用户,通过导航文件系统、与模拟协作者协作、生成专业文件等方式持续工作直至目标达成。初步实验中,团队创建了1000个合成计算机并运行模拟,每次模拟平均需超过8小时代理运行时间、跨越2000多个回合。模拟产生的丰富经验学习信号显著提升了代理在生产力评估中的表现,该方法有望扩展至数百万甚至数十亿合成用户世界,为长周期生产力场景中的智能体自我改进与强化学习提供基础。
本研究提出Eywa异构智能体框架,以扩展语言中心的大模型系统至更广泛的科学基础模型。该框架通过为领域专用基础模型增加语言模型推理接口,使语言模型能指导非语言数据模态的推断,从而让预测性基础模型参与高层推理与决策。Eywa可作为单智能体流程的直接替代,或嵌入现有多智能体系统,并支持基于动态规划的跨模态任务协调。实验覆盖物理、生命及社会科学领域,结果表明Eywa能提升涉及结构化与领域专用数据的任务性能,并通过与专用模型的协作减少对纯语言推理的依赖。
当前视觉生成模型在写实性、指令跟随等方面进展显著,但在空间推理、长程一致性与因果理解上仍面临挑战。研究主张从外观合成转向智能视觉生成,即生成基于结构、动态和因果关系的合理内容。为此提出了一个五级分类体系,标志着从被动渲染器到交互式、世界感知生成器的根本转变。关键技术驱动力包括流匹配、统一的理解-生成模型、数据策展与后训练等。现有评估常因过度强调感知质量而高估进展,忽视了结构与时序缺陷。结合基准评测与真实场景测试,该路线图为推进下一代智能视觉生成系统提供了以能力为中心的视角。
针对现有以文档为中心的研究设施无法显式表征方法演进关系的问题,本文提出了方法论演化图谱Intern-Atlas。它从超103万篇AI论文中自动识别方法实体,推断其谱系关系与关键创新瓶颈,构建了一个包含941万余条有证据支撑语义边的可查询因果网络。研究还设计了自引导时序树搜索算法以追溯方法演进链条,经验证与专家标注结果高度一致。该图谱支持想法评估与自动生成等下游应用,为自动化科学发现提供了基础数据层。
微软发布了Windows 11 2026年4月可选更新KB5083631。本次更新引入了全新的Xbox模式,提供全屏游戏界面,可通过Xbox应用或快捷键进入。文件资源管理器获得多项可靠性改进,修复了深色模式下的白色闪烁错误,新增对多种归档格式的支持,并解决了文件夹视图设置无法记忆的问题,性能有所提升。此外,更新还带来了需特定硬件支持的触觉反馈引擎,以及为开发者提供的任务栏AI智能体API。其他改进包括更快的Windows Hello身份验证、更直观的语音输入,并将命令行格式化FAT32卷的大小限制从32GB提升至2TB。
OpenAI计划将AI编程智能体工具Codex从桌面端扩展至移动端,推出配套iPhone应用。该应用定位为“开发智能体指挥中心”,用户可通过手机监控后台运行的自动化任务并接收实时反馈。产品定位从智能体编程转向通用生产力工具,新版Mac应用新增工作类型选项,涵盖工程、财务等10个领域,系统会根据用户选择调整界面。移动应用预计深度集成版本控制系统,支持用户通过语音或触控审批代码修改建议。
OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 引入了类似 Ralph 循环的功能。用户可通过设置 /goal 指令,让 Codex 持续循环执行任务,直至系统判定目标完成或达到预设的 token 预算上限。该功能主要通过自动注入的 goals/continuation.md 和 goals/budget_limit.md 提示模板实现,标志着 Codex CLI 在自主任务执行与预算控制方面的能力得到增强。
针对可验证奖励强化学习可能抑制生成多样性的问题,本文提出负样本投影残差强化学习框架。该方法通过理论分析,将负样本标记的隐藏表示投影到基于奇异值分解的低秩正子空间,并利用投影残差来调制负梯度,从而解耦正负响应间的相似语义分布。在涵盖数学、代码、智能体任务和函数调用的12个基准测试中,ResRL平均表现优于基线方法,尤其在数学推理上较负样本强化学习方法显著提升,实现了推理能力与生成多样性的协同优化。代码已开源。
研究团队构建了覆盖10个临床领域、包含3600多项任务的Gymnasium兼容医疗AI训练环境。分析发现,现有多轮智能体强化学习方法易退化为冗长单轮独白,工具使用频率下降,问题源于稀疏最终奖励与连续临床轨迹的错配。为此,研究提出“轮次截断策略蒸馏”自蒸馏框架,利用梯度冻结的EMA教师模型在每轮对话提供密集的KL正则化。该方法在18项基准测试的10项中取得最佳性能,较非强化学习基线平均提升3.9个百分点,实现了更快早期收敛、可控响应长度和持续的多轮工具使用。
研究团队提出Odysseus框架,利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家,显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习,预训练视觉语言模型提供了强动作先验,减少了对人工动作工程的需求。实验表明,Odysseus在游戏进度上达到前沿模型的至少3倍,并在游戏内与跨游戏泛化中保持性能提升,同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。
本文提出一种将评估机制嵌入工具调用智能体实时执行循环的新方法。通过引入一个专门的评审员智能体,在推理时对主智能体的中间决策轨迹进行即时评估,并生成结构化反馈。这使得主智能体能在单次运行中动态调整其工具选择与参数调用,无需依赖传统的提示调整或模型重训练。该实时干预机制旨在直接纠正错误,提升了工具使用的准确性与可靠性,突破了传统后验评估无法在运行中修正行为的局限。本工作已被ACL 2026的自然语言生成、评估与指标研讨会接收。
本文针对分布式黑盒共识优化问题,提出轨迹驱动的自设计框架LACMAS。该方法首先设计了具有自适应内部机制的智能体群体动力学,以平衡探索、收敛与局部逃逸。在此基础上,利用大型语言模型根据历史优化轨迹,为智能体的内部行动与外部协作模式提供稀疏的高层指导,并采用分阶段认知调度策略进行资源感知的适应。实验表明,该框架在基准测试和实际任务中,能持续提升解决方案质量、收敛效率与通信效率,为从人工设计转向自设计多智能体优化系统提供了可行路径。
研究团队提出了“部署中学习”(LWD)框架,用于对通用视觉-语言-动作(VLA)策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发,利用机器人集群自主运行和人工干预数据,形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据,LWD结合了用于鲁棒价值估计的分布隐式价值学习(DIVL)和用于基于流的动作生成器中策略提取的伴随匹配Q学习(QAM)。在16台双臂机器人集群的八项真实操作任务(包括语义商品补货与长时程任务)验证中,单一通用策略随经验积累平均成功率提升至95%,长时程任务改进尤为显著。
2025年数据显示,美国员工工作AI使用率已从2023年的20%升至40%。真正获得持续竞争优势的企业正将智能体AI深度嵌入工作流程,并将机构知识编码成可累积的系统。本指南以欧莱雅、Lyft和乐天为例,提出企业AI转型三大支柱:跨越“智能体思维鸿沟”、基于实际工作流程培训员工、在压缩信息密集型流程时保留人工判断,以及构建能创造收入的新产品能力。Claude Cowork平台为此提供了无需定制开发的团队级解决方案,并包含六个月的落地框架。
Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。
一项名为“自动审查”的新机制为代码智能体的部署提供了更安全的默认方案。该机制通过一个独立的审查智能体,对主智能体可能越界的操作进行异步的批准或拒绝,从而无需人类进行实时同步监督。这种方法旨在提升自主智能体在代码生成与执行过程中的安全性与可控性,是保障AI代理在边界内可靠运行的关键技术进展。
初代《任天堂明星大乱斗》的PC原生移植版《BattleShip》发布,其全部代码完全由AI生成。开发者仅用25天,借助Opus和GPT等大模型独立完成。该项目基于C/C++源码,需用户提供原版ROM以提取版权数据方可运行。开发者旨在验证AI能胜任此类开发,并展示结合现有技术积累与AI可大幅降低创作门槛。游戏制作人樱井政博也曾认同利用AI提升开发效率有助于行业可持续发展。
Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。
开源法律人工智能项目“迈克”正式发布。该项目旨在提供免费、可访问的法律AI工具,其核心变化在于将原本可能收费或封闭的法律AI技术开源化,允许开发者自由使用、修改和分发。项目网站mikeoss.com已上线,相关讨论在Hacker News上获得了超过100个社区积分。
快手于4月30日发布AI桌面智能体KroWork。用户可通过自然语言指令驱动AI完成文件处理、浏览器自动化等任务,并能将重复性工作流固化为本地桌面应用,实现零token消耗、输出稳定且保障数据安全。该产品面向市场营销、财务等非技术用户,集成Qwen、Kimi等主流模型,支持沙箱执行和权限管控,旨在降低软件开发门槛,让个人能将日常需求转化为桌面工具。
GLM-5V-Turbo是一个为多模态智能体设计的原生基础模型。其核心创新在于将多模态感知深度整合为推理、规划、工具使用和执行的核心组件,而非语言模型的附属接口。本报告概述了其在模型设计、多模态训练、强化学习、工具链扩展及与智能体框架集成等方面的系列改进。这些改进使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色,同时保持了有竞争力的纯文本编码能力。开发过程强调了多模态感知的中心地位、分层优化方法以及可靠的端到端验证,为构建多模态智能体提供了实践启示。
阿里发布业界首个安全可控、持续进化的生产级数字员工产品QoderWake,可在真实工作中承担软件工程师、运营、分析师等岗位。目前已上线“数字程序员”,能自主完成代码变更简报整理、错误诊断与初诊报告、告警分诊等工作,全流程基本无人值守。该产品已在阿里内部应用,将单条问题的根因分析耗时从30分钟大幅缩短至2分钟。近期还将上线数字分析师、数字客户经理等多种数字员工角色。QoderWake已开放邀测,个人和企业可通过官网申请雇佣或定制专属数字员工。
ClawGym是一个可扩展框架,旨在解决Claw式环境中缺乏系统化开发框架的瓶颈,支持个人智能体开发的全生命周期。其核心包括:ClawGym-SynData数据集,通过角色驱动意图与技能基础操作合成1.35万个筛选任务,配备模拟工作空间和混合验证机制;ClawGym-Agents模型系列,基于黑盒轨迹监督微调训练,并探索在并行化任务沙箱中的轻量级强化学习流程;以及ClawGym-Bench评估基准,包含200个经过自动过滤与人工-LLM双重校准的测试实例。相关资源即将在GitHub开源发布。
OpenRouter 四月发布涵盖视频生成、工作区(workspaces)、Agent SDK、重排序模型(reranker models)以及一批前沿模型(frontier model)的推出。
OpenRouter 在四月推出多项更新,涵盖视频生成、工作区功能、Agent SDK、Reranker 模型以及一批前沿模型。
Skills-Coach是一种自动化框架,旨在提升基于大语言模型的智能体的技能自进化能力。它通过四个核心模块解决技能生态系统碎片化:多样化任务生成模块创建测试套件;轻量化优化模块改进技能提示和代码;对比执行模块评估原始与优化技能;可追溯评估模块严格评判性能。框架提供虚拟和真实执行模式。研究使用包含48项技能的Skill-X基准数据集验证,实验结果表明Skills-Coach在广泛技能类别上实现显著性能提升,有助于开发更强大、适应性更强的LLM智能体。
WindowsWorld是一个跨应用工作流基准,旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架,生成包含四个难度级别及中间检查的任务,经人工审核后在模拟环境中执行。基准包含181个任务,平均每个任务有5.0个子目标,覆盖17种常用桌面应用,其中78%为跨应用任务。实验结果显示,当前领先的大模型与代理在跨应用任务上表现不佳(成功率低于21%),远低于简单单应用任务;在需要跨三个及以上应用进行条件判断与推理的任务中大多失败,且执行效率低下。相关代码、基准数据与评估资源已开源。
本月发布聚焦视频生成、工作空间、智能体SDK与重排序模型。多家公司推出前沿大模型,包括GPT、Claude和LLaMA系列的新版本。核心变化体现在模型多模态能力增强,特别是视频生成功能成为竞争焦点。部分新模型在标准基准测试中性能提升超过15%,同时上下文窗口扩展至百万token级别。开发者工具方面,新的智能体SDK支持更复杂的任务编排,而重排序模型显著提升了检索精度。
自去年秋季推出实证研究辅助(ERA)工具以来,谷歌研究团队已将其应用于多个科学领域以解决实际问题。在流行病学中,它助力流感与新冠预测;在宇宙学里,协助分析星系数据以探究暗能量;在大气监测方面,提升了二氧化碳排放的追踪精度;在神经科学领域,则用于解析大脑活动数据。这些实践表明,ERA能帮助科学家生成专家级的实证软件,其成果超越了黑箱模型,可发现兼具可解释性与机制准确性的解决方案,从而有效加速科学发现进程。
开发者构建了一个基于AI的自主测试框架,用于辅助游戏测试。该框架让AI智能体能够自主探索游戏环境、执行复杂任务并报告异常,从而替代部分重复性人工测试工作。文中提及该框架在测试中发现了传统方法难以触达的边界情况,提升了测试覆盖率和效率。这一方法为游戏测试自动化提供了新思路,目前已在Hacker News社区获得广泛关注。