该工具赋予任何具备工具调用能力的模型自主进行网络搜索和抓取网页内容的功能。它支持多种搜索引擎和抓取引擎供用户选择,实现了跨模型的一致操作体验。这意味着开发者可以便捷地为不同的大语言模型(如GPT、Claude、LLaMA等)集成实时、可靠的网络信息获取能力,无需为每个模型单独适配。
该工具赋予任何具备工具调用能力的模型自主进行网络搜索和抓取网页内容的功能。它支持多种搜索引擎和抓取引擎供用户选择,实现了跨模型的一致操作体验。这意味着开发者可以便捷地为不同的大语言模型(如GPT、Claude、LLaMA等)集成实时、可靠的网络信息获取能力,无需为每个模型单独适配。
当前AI智能体的开发过度依赖提示工程,导致系统复杂且脆弱。文章主张智能体应转向采用编程中的控制流结构,如条件判断、循环和函数调用,以实现更可靠、可维护的决策与行动序列。这一转变能减少提示长度和调试负担,提升智能体处理复杂、多步骤任务的能力,是构建下一代实用AI助手的关键。
这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。
研究团队推出CreativityBench基准,以评估大语言模型基于物体可供性和属性进行创造性工具重新利用的能力。该基准基于一个包含4000个实体和超15万条标注的大规模知识库,生成了1.4万个需识别非显而易见但物理可行解决方案的落地任务。对10个前沿模型的评估表明,模型虽常能选择合理物体,但在识别正确部件、其可供性及所需物理机制方面存在显著困难,导致性能大幅下降。模型规模扩大带来的改进很快饱和,通用推理能力与思维链等策略均未能有效提升创造性可供性发现,凸显该能力仍是当前模型的主要挑战。
DeepMind发布了由Gemini驱动的编程代理AlphaEvolve。该代理能自动生成、测试和优化代码,显著提升了软件开发效率与质量。其影响已扩展至多个领域,包括科学研究和工业应用,在特定基准测试中展示了卓越的代码生成能力。该技术旨在通过自动化复杂编程任务,降低开发门槛并加速各行业的创新进程。
研究团队推出SWE-WebDev Bench评估框架,从交互模式、机构角色和复杂度三个维度,通过68个指标系统性评估AI驱动的“氛围编码”平台。在6个平台、3个领域、18个评估单元上的测试揭示了当前AI应用构建器的四大普遍缺陷:存在将丰富业务需求过度简化的“规范瓶颈”;普遍存在前端与后端脱节,精美UI常掩盖缺失或故障的后端;生产就绪度陡降,工程质量得分无平台超过60%,且人工后期工作量差异大;安全与基础设施问题广泛,安全得分无平台超过65%,并发处理能力低至6%。该基准已开源以推动复现并帮助平台改进。
AlphaEvolve推出了基于Gemini大模型的编程智能体,其算法正驱动多个领域产生实际影响。该智能体在商业流程、基础设施优化与科学研究三个关键领域实现规模化应用,通过自动化代码生成与问题解决提升效率。具体实践表明,它能显著加速开发周期并处理复杂任务,标志着AI编程助手从辅助工具向核心生产力引擎的演进。
中国信通院联合中国电信、中国联通、中移九天、香港中文大学(深圳)、中兴、腾讯、华为等机构,共同发起“智能体可信握手协议(ATH)1.0”。该协议旨在解决多智能体跨平台协同交互中的信任与安全问题,构建了覆盖身份互验、权限管控和行为审计的标准化可信交互框架,秉持用户主权、三方参与、去中心化等六大设计原则。协议已在AtomGit和GitHub开源。同时,中国信通院牵头成立“智能体开源社区”,以汇聚产业力量,推动开源智能体技术的安全迭代与规模化应用。
OpenRouter 向所有支持工具调用的模型开放自主网络搜索与页面内容抓取能力,并允许用户从多个搜索引擎和抓取引擎中自行选择。
同一事件,精选展示《OpenRouter 通过 API 引入网页搜索功能》美团技术团队在LongCat项目中实践AI编码管理,指出当90%以上代码由AI生成时,决定系统走向的不是谁写得更快,而是约束AI的能力。
Anthropic为Claude Managed Agents新增“Dreaming”功能,这是一个异步处理过程,能自动回顾历史代理会话、清理重复或过时的记忆条目,并提炼新见解。同时,Outcomes和Multiagent Orchestration两项功能现已进入公开测试阶段。这些更新旨在帮助AI代理在跨会话中从错误学习,实现持续改进,提升代理的自主学习和适应能力。
谷歌发布Chrome 148版本更新,重点增强了AI功能与自动填充工具。用户现可通过地址栏或新标签页直接询问AI智能体获取聚合信息与自然回答;自动填充新增对驾照、护照等政府标识符的支持,并将内置Gemini聊天机器人扩展至亚太49个国家和地区。平台方面,Android版新增近似位置权限,ChromeOS支持垂直标签栏。开发者API引入了用于本地大模型交互的Prompt API。本次更新共修复127个安全漏洞,其中3个为高危级别。
腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。
研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。
谷歌DeepMind宣布收购Fenris Creations少数股权,并将在大型多人在线游戏《星战前夜》中训练AI,以攻克AI长期规划难题。这款运营了23年的游戏拥有复杂的科幻宇宙和高度社会模拟,要求玩家进行长期策略规划与政治博弈,正切中当前AI研究的薄弱环节。为确保不影响玩家体验,DeepMind初期将在隔离服务器上进行研究,游戏方也将利用其成果优化游戏。Fenris Creations近期刚以1.2亿美元现金及加密货币完成自我回购。
腾讯混元推出的 Hy3 preview 模型上线仅两周,Token 调用量即增长 10 倍,其中代码和智能体类场景的 Token 调用增长尤为明显。
谷歌于5月4日宣布停运其于2024年12月推出的实验性网页自动化项目Project Mariner。该项目旨在代替用户执行跨网站的多步骤任务,如信息检索与操作。谷歌强调其技术并未废弃,核心功能已被整合至Gemini智能体和AI Mode等核心产品中。过去一年,谷歌已逐步将此类智能体能力融入现有生态,例如让Gemini Agent代为处理邮件和预订酒店。此外,谷歌今年在Chrome中展示的“auto-browse”AI功能,可执行查询航班价格等复杂任务,被视为对竞争对手的直接回应。
Adobe于5月6日在Acrobat中推出PDF Spaces功能,可将PDF、文档、链接等静态材料转化为交互式AI工作空间。该功能利用AI自动生成摘要、音频概览、品牌演示文稿及定制聊天机器人。接收者能与AI助手对话以快速获取信息并定位关键内容,适用于销售提案、市场营销和人力资源等场景。目前,该功能已在Acrobat Express和Acrobat Studio上线。
研究揭示了LLM智能体长期记忆中的“隐性冲突”缺陷,即新证据在不明确否定的情况下使旧记忆失效。为此,研究者构建了STALE基准,包含400个冲突场景与1200个查询,从状态解析、前提抵抗和隐性策略适应三个维度进行评估。系统测试表明,前沿模型在根据更新证据行动上存在普遍差距,最佳模型准确率仅55.2%。研究进一步提出了CUPMem原型,通过结构化状态整合加强写入时修订,为构建状态感知的鲁棒记忆提供了初步基线。
针对基于大语言模型的多智能体系统因交互轨迹长而难以定位错误的问题,研究者提出一个基于保形预测的误差归因框架。该框架提供有限样本且与分布无关的覆盖保证,并引入了专为序列数据设计的新算法,能预测出连续的序列集合以支持高效的系统回滚与调试。方法具有模型无关性,经多种智能体和数据集验证,可精确隔离错误并利用预测集使多智能体系统回滚至早期状态以自行修正错误。相关代码已开源。
本文介绍了X-OmniClaw,这是一个为安卓系统设计的统一移动智能体,旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块:Omni Perception提供统一的多模态输入管道,整合UI状态、视觉上下文与语音,并分解为结构化意图表示;Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆,以增强个性化与上下文感知;Omni Action采用结合XML元数据与视觉感知的混合落地策略,通过行为克隆与轨迹回放捕获用户导航技能,实现精确的直接访问执行。多场景演示表明,该系统能有效提升交互效率与任务可靠性,为下一代移动原生个人助手提供了实用蓝图。
研究提出PACEvolve++,一个用于进化搜索代理测试时策略适应的顾问模型强化学习框架。它将战略决策与实施解耦:可训练的顾问模型生成并评估假设,更强的前沿模型则将其转化为候选方案。针对非平稳反馈,研究提出阶段自适应训练方法,使顾问模型在进化早期学习广泛搜索偏好,后期则聚焦于最优前沿贡献以支持稳定优化。在负载均衡、序列推荐和蛋白质适应性外推等任务中,该框架均优于当前最先进的基于前沿模型的进化搜索方法,实现了更快收敛与更稳定的测试时训练。
PrefixGuard是一个将LLM智能体执行轨迹自动转换为在线预警监控器的框架。它通过离线的StepView归纳步骤,从原始轨迹样本中推导出确定性的类型化步骤适配器,并基于最终结果监督式地学习事件抽象和前缀风险评分器。在四个基准测试中,其最强监控器的AUPRC值分别达到0.900、0.710、0.533和0.557,平均比原始文本对照方法提升0.137 AUPRC。研究还揭示了基于AUPRC的观测性上限,并指出强排名不等同于部署实用性:例如在WebArena上难以实现低误报预警,而τ^2-Bench和TerminalBench则能保留更多可操作的早期预警。
该研究提出一个大型语言模型智能体记忆机制的三阶段演进框架:存储、反思与经验。存储阶段聚焦轨迹保存,反思阶段进行轨迹提炼,经验阶段则实现轨迹抽象。演进的核心驱动力包括保持长期一致性、应对动态环境挑战以及实现持续学习的目标。在前沿的经验阶段,研究重点探讨了主动探索和跨轨迹抽象两大变革性机制。这一综合框架为下一代LLM智能体的发展提供了统一的设计原则与技术路线图。
Singular Bank 开发了名为 Singularity 的内部助手,该工具整合了 ChatGPT 和 Codex 技术,旨在帮助银行家节省日常工作时间。它主要应用于会议准备、投资组合分析和后续跟进等任务,可使银行家每天在这些事务上节省 60 至 90 分钟。
Tilde.run 发布了一款代理沙箱,其核心特点是具备事务性和版本控制功能的文件系统。该系统支持事务操作,确保文件更改的原子性,同时提供完整的版本历史记录。该工具旨在为开发者提供一个安全、可回溯的代码执行环境,适用于需要高可靠性的自动化代理或脚本测试场景。目前该项目已在 Hacker News 上获得 102 点关注度。
GitHub 探讨如何为 Copilot 编码智能体构建“信任层”。文章提出,在“正确”答案非确定性的场景下,可通过领域分析来验证智能体的自主行为,避免使用脆弱的脚本或黑盒判断。该方法旨在提升 AI 编码助手的可靠性与透明度,确保其行为符合预期标准。
团队开发了Composer自动安装系统,利用早期模型(如Composer 1.5)为强化学习训练自动配置可运行环境。该系统分两阶段工作:先由智能体设定成功环境的目标命令与描述,再由另一智能体执行具体配置,包括安装依赖、模拟缺失组件并进行测试。在一项针对区块链项目Celo的真实实验中,该系统成功处理了稀疏文档和复杂依赖。采用此方法后,Composer 2在环境设置基准测试中的得分从47.9%提升至61.7%,为后续训练提供了更优基础。
Anthropic为其Claude托管智能体平台推出三项核心更新。“梦想”功能通过回顾会话历史提取模式,使智能体能够自我改进。“成果”功能允许开发者设定成功标准,智能体据此进行自我评估与修正,内部测试显示其显著提升了任务成功率和输出质量。“多智能体编排”功能支持主智能体将复杂任务分解,并分配给配备专用工具的子智能体并行处理。这些更新旨在以最小人工干预,增强智能体处理复杂任务的能力。
OpenAI的B2B Signals研究揭示了前沿企业深化AI应用、规模化基于Codex的智能体工作流,并构建持久竞争优势的路径。这些企业正超越基础应用,将AI深度集成至核心业务流程,通过部署能自主执行复杂任务的智能体工作流来提升效率与创新能力。研究指出,成功的关键在于规模化应用AI代理,这能带来显著的运营优势并形成竞争壁垒。
作者在访谈中反思,曾严格区分的两种AI编程模式——“感觉编码”(不审查代码)与“代理工程”(专业工程师构建高质量系统)——其界限在实践中正迅速模糊。随着Claude等编码代理可靠性提升,作者发现自己即使在生产级项目中也不再逐行审查AI生成的代码,转而将其视为可信的“半黑箱”。这带来了新的责任困境:AI缺乏职业声誉却持续产出正确代码,可能导致“偏差正常化”风险,即每一次成功都可能在不当时刻埋下隐患。同时,AI生成代码的便捷性也使得评估软件质量的传统指标(如提交次数、测试覆盖)不再可靠。
字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解,并能进行跨模态联合推理,在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译,多项基准测试优于Gemini-3.1-Pro。同时,其Agent、Coding与GUI能力升级,能更稳定处理长任务、胜任深度开发,并实现界面理解与操作执行的闭环。新版本已在火山方舟上线,旨在为企业提供高性价比的全模态任务部署方案。
Google和Meta正在内部测试代号分别为“Remy”和“Hatch”的个人AI智能体,旨在自主处理日常任务,以应对Anthropic和OpenAI建立的领先优势。Google已关闭其浏览器智能体项目Mariner以集中资源。市场趋势正从浏览器智能体转向集成在电子邮件、日历和购物平台内的助手。
微软正式推出 Microsoft 365 E7 企业版订阅,该版本在 E5 基础上整合了 Microsoft 365 Copilot、Microsoft Entra 套件及 Agent 365 服务等多项 AI 功能。新方案采用基于用户席位的收费模式,超出基础额度后按词元使用量和资源消耗额外计费。价格方面,含 Teams 版本为每用户每月 99 美元,不含 Teams 版本为 90.45 美元。此外,Agent 365 服务也可单独订阅,价格为每用户每月 15 美元。
Qt集团近日推出一项名为QML分析器的AI智能体开发技能。该技能可将2D Qt Quick应用程序的代码性能分析工作委托给AI智能体,使其能够诊断渲染、逻辑及内存相关问题。当面对界面卡顿或帧率下降等性能投诉时,AI可借助此技能进行分析并生成详细的性能瓶颈报告。目前该技能仅适用于2D Qt Quick应用,已在GitHub Copilot、Claude桌面版及CLI等环境中完成测试,与Claude Sonnet 4.6、GPT 5.4和Gemini 3.1 Pro等主流大模型搭配使用时效果最佳。
月之暗面旗下Kimi即将完成新一轮20亿美元融资,投后估值突破200亿美元。本轮融资由美团龙珠领投,中国移动、CPE等参投。这是Kimi在不到半年内的第四轮大规模融资,累计融资额已超39亿美元,总融资额超过376亿元人民币,成为大模型创业公司中累计融资最多的公司。其最新估值较去年11月增长超4倍。近期,月之暗面还发布了开源模型Kimi K2.6,在多项专业测试中表现达到行业领先水平。
华为鸿蒙HarmonyOS 6系统负一屏的“Today-Task Skill”功能正式上线,AI Claw任务动态已实时接入。用户桌面右滑进入负一屏后,可在顶部服务动态提醒处直接查看任务进度与结果,无需打开电脑即可实现同频追踪与重要进展展示。该功能基于此前内测的智慧助手·今天15.0.22.210版本,进一步整合了Claw智能体关联服务,提供AI任务完成提醒。
谷歌正在内部测试一款名为“Remy”的全新AI个人智能体,旨在对标此前走红的OpenClaw。该智能体基于仅供员工使用的Gemini专属版本开发,被定位为工作、学业和生活中的全天候助理。其核心在于能代表用户自主执行实际任务,而不仅仅是回答问题。Remy深度集成Gmail、Chrome、Calendar等谷歌服务,可主动监控事项、处理复杂任务并学习用户偏好。目前项目处于内部测试阶段,尚未公布公开上线时间,其进展有望在即将到来的谷歌I/O大会上披露。
Cloudflare宣布其代理商合作伙伴现可直接创建Cloudflare账户、购买域名并部署服务。这一功能整合了账户创建、域名注册和项目部署流程,简化了代理商的管理与操作步骤。此举旨在提升合作伙伴的自主性和效率,进一步扩展Cloudflare的生态系统与服务覆盖范围。
中国移动在人工智能生态大会上宣布已上线超过8万名“数智员工”,这些AI助手已融入网络鉴伪、研发设计、营销服务等业务流程。同时,公司计划推出“移动版智能助理”,并升级中国移动App、云电脑、云盘等服务入口,以降低人工智能应用门槛。中国移动致力于为10亿手机客户和3亿家庭客户提供数字生活服务,推动全量产品和服务嵌入AI。