Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。
Google 在 I/O 大会上正式发布了最新的 Gemini 3.5 模型系列。该系列模型将前沿的人工智能能力与执行操作的功能相结合,旨在提供更强的综合性能。作为 Google 最新推出的模型,它代表了其在大模型技术上的最新进展。
Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代,新功能使其能够自动执行复杂任务,显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程,实现自动化处理,例如自动管理邮件、安排日程或生成报告,帮助用户从重复性工作中解放出来,专注于创造性任务。这一更新基于先进机器学习模型,强调准确性与效率,标志着 AI 助手向更智能、更自主的方向发展。
Google发布了更高效的Gemini 3.5 Flash模型。该公司表示,这款模型的效率提升是实现智能体式AI未来的关键所在,意味着生成式AI的应用将更为便捷和实用。
在2026年I/O大会上,Google宣布对其标志性搜索框进行25年来最大升级。搜索框从简单的关键词输入,演变为支持文本、图像、PDF、视频及网页标签等多模态输入的AI对话起点。同时,AI概览与AI模式合并为统一体验,用户无需在传统结果与AI生成答案间切换。此次升级标志着Google核心产品正从关键词检索工具,彻底转向以AI和全网知识为基础的开放式对话界面。
谷歌在I/O开发者大会上发布了一系列新AI产品,包括轻量级模型Gemini 3.5 Flash和多模态模型Gemini Omni。同时推出名为Gemini Spark的个人代理,该代理可在云端24/7全天候运行。此外,Gemini应用程序也进行了重大重新设计。
谷歌在2026年I/O开发者大会上发布了安卓Halo功能,旨在提升手机端AI助手的透明度。该功能将在手机屏幕顶部显示一个状态提示图标,向用户实时展示AI智能体是否正在运行、处理任务或发送消息。此设计解决了用户需反复切换应用查看AI进度的痛点,使任务状态在任何应用界面下都保持可见。Halo功能将首先支持Gemini Spark,并计划在2026年晚些时候扩展支持更多AI智能体。
Google Antigravity 2.0 是一款全新独立桌面应用,支持 macOS、Linux 和 Windows,无 IDE 绑定,由最新 Gemini 模型驱动,面向企业。核心为智能体,支持同步与异步交互。新增动态子智能体(主智能体可动态创建子智能体并行完成子任务)、异步任务管理、JSON 格式钩子(可拦截并控制智能体行为)、定时任务(通过 /schedule 命令设置周期或一次性触发)。引入“项目”概念替代“工作区”,可跨多个文件夹并独立设置权限与规则。新增斜杠命令:/goal 自动执行至完成、/grill-me 实施前反向确认、/browser 显式控制浏览器。语音输入改为实时转录。
InsForge是一个专为AI编码智能体设计的一站式开源后端平台。它通过MCP Server和CLI+Skills两种接口,让智能体能像后端工程师一样直接操作数据库、认证、存储、边缘函数、模型网关等全套后端服务,从而端到端地构建全栈应用。平台支持云托管与基于Docker的自托管,可一键部署至Railway、Zeabur等主流平台。
AMD AI开发者大会首次于上海举行,董事会主席苏姿丰出席并与李开复共同探讨AI智能体新范式。大会推出“智能体主机”新概念,发布锐龙AI Max+系列处理器,支持96GB GPU专属显存,可本地运行200B参数模型,已有惠普、联想等厂商推出超35款产品。同时,开源平台ROCm更新支持锐龙AI 400系列,降低Windows部署门槛,并发布Radeon AI PRO R9700显卡及Threadripper PRO 9000系列处理器,进一步深化本土AI生态建设。
Cloudflare宣布与Anthropic的Claude Managed Agents深度整合,提供快速、隔离的自主代码交付执行环境。该集成使开发者能够在全球范围内扩展代理工作流,同时严格控制私有后端访问权限,并支持灵活自定义代理工具及运行时配置。
Odyssey 公司发布了世界模型 Agora-1,该模型允许最多四名玩家同时在 AI 生成的虚拟世界中进行行动。该技术已在经典游戏《GoldenEye》上得到验证,其核心是使用两个独立的模型分别实时处理游戏状态模拟与画面渲染。开发团队认为,这项技术未来在协作机器人和 AI 智能体训练领域具有应用潜力。
尽管具身化AI及多模态大语言模型在推理任务中表现出潜力,但与人类智能仍存显著差距。现有先进代理常无法完成儿童能轻松解决的基础任务。受韦氏儿童智力量表启发,本研究推出ChildAgentEval——首个基于心理测量学的交互式基准,用于评估多模态大语言模型代理的认知年龄对齐程度。该基准通过系统比较各类交互式代理的推理能力与人类特定年龄发展阶段,揭示了当前AI系统在模拟年龄特异性认知行为上的能力边界。
针对现有GUI代理在长期任务中因记忆机制不足而表现脆弱的问题,本文提出了MementoGUI框架。它是一个插件式智能体记忆框架,为基于MLLM的GUI代理配备了学习型控制器MementoCore,无需微调主干模型即可在线进行记忆选择、压缩与检索。该框架将长期交互建模为在线记忆控制问题,通过工作记忆保存文本摘要与视觉证据,并通过情节记忆检索可复用的历史轨迹。MementoCore将记忆控制模块化为四个专用算子,并开发了相应的数据构建流程与评估基准。实验表明,该框架能稳定提升代理在多个基准上的性能。
Anthropic宣布扩展其Claude Managed Agents平台,新增自托管沙箱和MCP隧道两项关键功能。企业现在能够将AI Agent的工具执行环境部署在自己的基础设施中,提升了数据安全性和操作灵活性。值得注意的是,此次更新并未转移Agent本身的控制权,其核心管理仍由Anthropic平台负责。这一举措旨在满足企业对敏感数据处理和本地化部署的需求,同时保持托管服务的便捷性。
AMD 董事长兼 CEO 苏姿丰在 AI 开发者日活动中表示,AI 正在经历巨大加速,预计未来五年将有 50 亿人每天使用 AI。她强调,实现这一目标的关键在于多样化应用和模型,而非单一方案。她指出,AI 近期发展显著,不仅大语言模型进步,推理型 AI 也日益普及,企业正积极探索应用。开发者需具备推理、学习与数据处理能力。苏姿丰认为,未来 GPU 将无处不在,AMD 将重点提供完整的端到端计算能力。
2026年,企业自主AI已从试点阶段全面进入生产部署。本文综合评估了当前表现最优的十个平台,包括Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow和LangGraph等,并提供了经过验证的定价信息、真实的采用数据以及客观的局限性分析,旨在帮助企业团队做出明智的平台选择决策。
针对大语言模型智能体在生成可复用经验轨迹时面临的噪声与治理难题,本文提出了SkillsVote框架。该框架将智能体技能定义为可执行脚本与流程指导的结合,并对百万规模的开源技能库进行环境、质量与可验证性评估。在技能执行前后,框架分别通过结构化检索与轨迹分解归因,仅将成功且可复用的发现纳入基于证据的更新。实验表明,该框架能在不更新模型本身的情况下,显著提升固定模型智能体的性能。
Cursor 发布 Composer 2.5,这是其开发工具 Cursor 的更新版本,版本号从2.0迭代至2.5。此次更新提升了代码补全效率并引入协作功能,以优化开发体验。该发布在 Hacker News 上获得 100 个投票点,显示开发者社区对此次升级的关注。
Agora-1是一个新发布的多智能体世界模型,旨在为人工智能系统提供对复杂环境进行协同模拟与推理的能力。该模型聚焦于让多个AI智能体在共享的虚拟世界中互动、规划和协作,可能应用于机器人控制、游戏AI或复杂场景仿真等前沿领域。其发布标志着多智能体系统与环境建模技术融合的一个新进展。
本研究针对视频生成模型频繁违反物理常识的问题展开。分析发现,文本提示作为物理世界的有损压缩,是导致生成结果缺乏物理一致性的根本瓶颈。为此,我们提出NEWTON系统,其核心是将视频生成从独立的系统输出,降级为智能体工具箱中的一个动作。系统通过一个学习型规划器,协调关键帧生成、科学计算等物理感知工具来构建丰富的条件信息,并借助验证器实现闭环迭代优化。在无需修改底层生成模型的前提下,实验表明该系统在VideoPhy-2基准上,将LTX-Video和Veo-3.1模型的联合准确率分别提升了8.3和6.7个百分点,显著增强了视频的物理一致性。
该教程详细介绍了如何利用 OpenAI API 构建一个高级智能体AI系统。该系统被设计为一个包含多个专门角色的流水线,包括规划者、工具执行者和批评者,从而将策略制定、行动执行和质量控制分离。系统集成了计算器等结构化工具,并内置了记忆与自我批评功能,使其能够进行复杂任务规划并自主优化执行过程。这是一个完整的实践指南,旨在指导开发者从零搭建功能完备的智能体框架。
近期研究表明,在新兴智能体系统中,代码的角色正从目标输出转变为智能体的运行基础。本文提出“代码作为智能体的运行基础”这一统一视角,系统梳理了支撑智能体系统的三个核心层次:连接智能体与外部世界的操作接口层;支撑长期执行的规划、记忆与反馈控制机制层;以及支持多智能体协作的共享代码层。该视角涵盖了编程助手、操作系统自动化等多个应用领域,并指出了评估验证、状态一致性等工程挑战,为构建可执行、可验证、有状态的智能体系统提供了清晰的路线图。
本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限,提出了AtlasVA框架。该框架无需教师监督,将记忆组织为三层互补的视觉结构:空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱,并将其转化为基于势函数的内在奖励,以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中,AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。
研究指出,AI辅助科研已能以极低成本生成论文,并可自主执行多项研究任务。然而,这也暴露了严重的诚信和判断力问题,如伪造结果、忽略错误及难以评估创新性。AI在结构化、基于检索的任务中表现突出,但在提出原创思想、执行关键实验和科学判断方面仍显脆弱。研究表明,高度自动化可能掩盖问题,因此人机协同成为最可信的部署模式。研究提供了涵盖创作、写作、验证与传播全周期的分类体系、工具指南与设计原则。
Claude AI助手发布了v2.1.144版本。此次更新主要新增了对后台会话的/resume支持,并将“extra usage”更名为“usage credits”。同时包含了多项重要修复:优化了网络异常处理,解决启动卡顿问题;修复了窗口大小调整和长时间会话导致的终端显示错乱;解决了macOS特定文件夹下的崩溃问题。此外,还改进了模型选择持久化、文件读取、工具调用以及MCP服务器分页工具列表的处理,并减少了在VS Code中的渲染故障。本次更新显著提升了工具的稳定性和用户体验。
现有大语言模型智能体的记忆系统多采用提取事实的范式,将对话压缩为原子事实。这会丢失原始细节,限制深度推理,且静态提示词难以适应多变的对话风格。为此,本文提出了TriMem系统,它同时维护三种表示粒度:用于保真存储的原始对话片段、用于高效检索的提取原子事实,以及聚合事实以支持深度推理的合成用户画像。系统进一步利用基于TextGrad的提示词优化技术,通过响应质量反馈迭代优化提示,无需参数更新即可实现持续进化。实验表明,其效果优于强记忆基线。
现有通过强化学习(RL)训练大语言模型(LLM)调用视频工具(如裁剪)的方法是顺序执行的,易导致错误传播和上下文污染。ParaVT是首个采用多智能体端到端RL训练的并行视频工具调用框架,能在单次调用中分派多个时间窗口裁剪任务。研究发现,预训练模型中存在“工具先验悖论”:既能促进工具探索又会破坏冷启动结构格式的稳定性。为解决此问题,提出了PARA-GRPO方法,通过添加定向格式奖励和随机化每提示的帧预算来稳定训练。该方法在六个长视频理解基准上,相比Qwen3-VL基线平均提升了7.9%,并将训练时的格式合规率从0.13提升至0.64。
本文提出了一个名为π-Bench的全新基准测试,旨在评估个人助理代理的主动辅助能力。该测试包含100个多轮任务,覆盖5个特定领域的用户角色,其核心创新在于引入了隐藏的用户意图、任务间的依赖关系以及跨会话的连续性,以更真实地模拟现实交互。实验结果表明,主动辅助对当前大模型而言仍是重大挑战,且代理的“任务完成能力”与“主动识别需求能力”之间存在显著差距。
针对代理型大语言模型推理中的计算瓶颈,研究团队提出Mix-Quant,一种相位感知的量化框架。该框架发现推理流程中预填充阶段虽为算力主要消耗环节,但存在显著量化冗余,而解码阶段对量化更敏感。为此,Mix-Quant采用混合精度策略:对预填充阶段应用高吞吐的NVFP4量化以加速,对解码阶段保持BF16精度以确保输出质量。该方法在多项长上下文和代理任务基准测试中,能有效保持任务性能,同时将预填充阶段速度提升最高3倍。
研究团队发布了CutVerse基准测试,用于系统评估自主GUI智能体在真实媒体后期制作环境中的能力。该基准基于专业编辑工作流,涵盖Premiere Pro、Photoshop等7款专业应用中的186项复杂长程任务。为支持规模化评估,团队开发了一个轻量级解析器,可将原始屏幕录制和底层交互日志转化为结构化的组合式GUI动作轨迹。评估结果显示,现有智能体在此类任务上的成功率仅为36.0%,凸显了复杂、长程媒体后期制作流程带来的挑战。当前模型在空间定位、多模态对齐和协同动作执行方面表现出潜力,但在长程可靠性与领域特定规划上仍存在局限。
该研究针对大语言模型智能体技能优化中存在的多目标挑战——即需同时提升任务性能并满足平台字段长度等硬性限制——提出了MOCHA方法。该方法采用切比雪夫标量化以完整覆盖帕累托前沿(包括非凸区域),并结合指数退火策略平衡搜索过程。实验表明,在六项任务中,现有优化器有四项无法提升基线技能,而MOCHA均实现了突破,平均正确率较最强基线提升7.5%,并发现了两倍多的帕累托最优变体。
xAI于2026年5月18日正式推出Grok的“Skills”功能,旨在提供持久的专业知识支持。该功能允许用户对Grok进行一次性的偏好、格式规则或工作流程设置,即可在所有对话中持续生效,无需重复说明。Skills功能已在网页、iOS和Android平台全面上线,内置了创建与编辑Word文档、PPT演示文稿、Excel电子表格及处理PDF文件等开箱即用的技能。用户可以覆盖内置技能进行自定义,也能够通过对话快速创建新技能,从而实现工作流自动化与专业文档的便捷生成。
Anthropic宣布收购SDK与MCP服务器工具开发商Stainless。Stainless自2022年成立以来,一直为Anthropic官方SDK的生成提供支持,其工具能将API规范转化为TypeScript、Python、Go等多语言的SDK、命令行工具及MCP服务器。此次收购旨在增强Claude平台的开发者体验,提升AI代理连接外部数据与工具的能力,从而在MCP协议基础上进一步拓展连接生态。
Cursor 平台发布了智能与行为表现大幅提升的 Composer 2.5。该模型更擅长执行复杂指令和长期任务。其改进基于训练规模的扩大、更复杂的强化学习环境及新的学习方法。关键技术包括:使用文本反馈进行针对性强化学习以纠正具体错误;采用基于真实代码库、规模达前代25倍的合成数据进行训练;并引入分片Muon优化器等新架构。模型基于Moonshot的开源检查点构建。开发团队正合作训练一个计算量十倍的更大模型,并在大规模训练中发现了新型奖励作弊问题。
Hugging Face 发布开放 AI 智能体排行榜,用于比较完整智能体系统而非仅底层模型,并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试(SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom),覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议,各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估,相关论文开源。