针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。
针对大语言模型多智能体系统协作不佳与缺乏细粒度信用分配的问题,提出GBC方法。GBC将多智能体系统建模为计算图,引入基于梯度的连接权重,在token级别量化每个智能体输出对下游的影响。通过构建归因图并反向传播任务损失,实现错误源精确定位与定向提示词优化。配套开发基于前缀梯度计算的AgentChord实现。在MultiWOZ和τ-bench上实验表明,GBC提升多智能体性能,超越强单智能体与多智能体基线,且归因质量越高优化效果越好。代码已开源。
ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。
Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。
Claude Code v2.1.193 新增 autoMode.classifyAllShell 设置,将全部 Bash/PowerShell 命令经自动模式分类器处理。自动模式拒绝原因现加入转录、拒绝提示及 /permissions 页面。新增 claude_code.assistant_response OpenTelemetry 日志事件(默认不记录,需设置 OTEL_LOG_ASSISTANT_RESPONSES=1)。Bash 模式支持实时文件路径自动补全;MCP 服务器需认证时显示启动提示。新增空闲后台 shell 命令自动内存压力回收(可禁用)。修复 /model UI 状态滞后、后台任务误取消、子 agent 隐藏同级等问题,并改进了后台 agent 启动指令、MCP 认证重连、插件自动重命名等行为。
Patronus AI 宣布完成 5000 万美元 B 轮融资,由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog 和 Samsung 参投,累计融资达 7000 万美元。该公司由前 Meta AI 研究员于 2023 年创立,利用“数字世界模型”创建网站和内部系统的模拟副本,通过强化学习对 AI 智能体进行压力测试,迭代奖励成功并惩罚错误。目前服务覆盖软件工程和金融领域,几乎所有前沿 AI 实验室和初创公司均为客户,过去一年收入增长 15 倍。
Notion 今日宣布将于 9 月 22 日关闭 Notion Mail(网页、桌面和 iOS)。公司表示,超过半数用户通过 AI 智能体管理邮件而无需打开收件箱,因此决定全力投入智能体方案。用户邮件历史仍保留在 Gmail,但须在 9 月 21 日前导出草稿和定时邮件。依赖 HIPAA 覆盖的组织需在 2026 年 6 月 30 日前迁移。Notion Mail 由收购的 Skiff 团队打造,Skiff 曾服务 200 万用户。
Runway发布Agent 2.0,帮助营销人员创建、测试和优化广告、视频及营销活动。品牌营销人员可在对话中开发活动概念、生成变体并自动本地化;绩效营销人员可上传创意并导入Meta、YouTube、TikTok或Google广告数据,由Agent分析后生成下一轮待测广告。社交媒体营销人员可一次性生成一周内容,自动裁切为9:16、16:9、1:1等格式;产品营销人员可借助Agent确定定位角度并构建活动资产。Agent 2.0面向所有用户开放。
DeepReinforce 发布 Ornith-1.0 开源编码模型族,基于 Gemma 4 和 Qwen 3.5 后训练,提供 9B、31B、35B-MoE(每 token 激活约 3B 参数)和 397B-MoE 四个尺寸,均以 MIT 许可在 HuggingFace 开放。与固定人工设计框架的编码智能体不同,Ornith-1.0 在强化学习中联合优化框架与解决方案,并引入三层防御(固定信任边界、确定性监视器、冻结 LLM 裁判)防止奖励黑客。旗舰版 Ornith-1.0-397B 在 Terminal-Bench 2.1 上得分 77.5、在 SWE-Bench Verified 上得分 82.4,超越 Claude Opus 4.7(70.3)但低于 Claude Opus 4.8(85)和 GLM-5.2-744B(81.0)。支持 vLLM、SGLang 等推理框架,9B 模型(bf16 约 19GB)可部署在单张 80GB GPU 上。
General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。
OpenKnowledge 是一款开源、本地优先的 Markdown 编辑器,私密免费,提供完整的所见即所得编辑体验。支持 macOS 桌面应用和 Web UI,内置文件导航、搜索、标签和图谱 wiki 链接查看器。可与 Claude、Codex、Cursor 等桌面应用协同实现 AI 编辑,并通过 MCP/CLI 兼容任意 AI 智能体框架。自带 MCP、技能和智能搜索,支持 LLM Wiki 和知识图谱。团队协作基于 Git/GitHub 实现无代码共享与自动同步。支持嵌入 HTML 及富文本组件。桌面应用内建 TUI,Linux/Windows/Intel Mac 用户可通过 CLI(Node.js 24+)以本地 Web 应用运行。可直接打开任何包含 Markdown/MDX 文件的文件夹。开源协议 GPL-3.0-or-later。
浦发银行全行已上线超2500个金融智能体,近200个深度嵌入真实业务流程,覆盖营销、风控、运营等核心场景。智能体采用低代码与高代码结合、商用与开源模型互补的研发模式,并首创“三态管理”(创设、发布、运行)适配金融强监管。财报智能识别分析智能体将企业财报录入、校验与分析流程从数小时压缩至分钟级。百度智能云提供四层金融AI基础设施,包括昆仑芯国产芯片、异构算力平台、金融专精大模型及全流程AI治理平台。浦发银行计划推出面向C端的数字客户经理与数字分身,以对话交互实现“对话即服务”。
当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。
高通推出数据中心处理器 Dragonfly C1000,针对 AI 智能体优化,主打低功耗高能效。Meta 计划 2028 年起部署该芯片。同时,高通以约 40 亿美元收购 AI 初创公司 Modular,其软件支持跨芯片架构运行 AI 应用。去年高通已发布两款数据中心 AI 加速芯片。受消息提振,高通盘后股价上涨 15%,公司预计到 2029 年非智能手机业务营收将翻倍至 400 亿美元,其中数据中心目标 150 亿美元。
OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)Google将“Computer Use”功能直接集成到Gemini 3.5 Flash,模型可自主看、理解并操作电脑、浏览器和移动设备,此前该功能仅作为独立Gemini 2.5模型提供。结合函数调用、Search和Maps等工具,开发者可构建跨平台智能体,用于软件测试或办公自动化。在OSWorld基准测试中,Gemini 3.5 Flash得分78.4,高于Gemini 3 Flash(65.1)和GPT-5.4 mini(72.1),略低于GPT-5.5(78.7),Anthropic的Opus 4.8以83.4领先。安全方面采用对抗训练和两项可选企业防护:敏感操作需用户确认、自动阻止间接提示注入。该功能通过Gemini API和Gemini Enterprise Agent Platform提供,附带Browserbase演示和GitHub参考实现。
Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。
近日,瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款国民级App陆续将核心能力封装为Skill、MCP或CLI,供AI智能体调用,实现点咖啡、叫车、查航班、管理文档、支付等操作。支付环节目前仍需用户跳转App完成,但Agent化趋势已不可逆。
昨日(6月24日)股东大会上,英伟达CEO黄仁勋称AI产业进入新阶段,智能体AI已到来,物理AI将驱动下轮增长。他将数据中心比作“AI工厂”,强调AI基础设施成企业计算核心。财务方面,过去1年营收增长65%,利润增长60%,2026财年自由现金流超960亿美元,计划将50%通过回购和分红返还投资者。黄仁勋举例称,运行英伟达系统生成token具盈利性,GitHub今年pull request数量增长近3倍。
多智能体大语言模型系统中,验证器与批评者智能体存在延迟,导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识,通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值:过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定;延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则,用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡,而接地事实性回答使真相成为吸收边界从而消除该效应。
基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。
本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。
现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。
针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。
OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。
视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。
多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。
GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。
Hang Ten Systems是一家企业AI服务公司,由前Infosys CEO Vishal Sikka创立,旨在通过AI驱动的开发和自动化帮助企业持续构建、修改和运营软件。公司完成3200万美元种子轮融资,由Mayfield领投,Aramco Ventures战略投资,雅虎联合创始人Jerry Yang担任董事会成员。Hang Ten已与Siemens Gamesa Renewable Energy和Fresenius合作进行AI原生项目交付,围绕智能体代码生成、可复用AI技能和领域专业知识构建服务。公司总部位于湾区,正在全球多地招聘。
据 Business Insider 获悉,谷歌下一代大语言模型 Gemini 3.5 Pro 原定 6 月上线,现推迟至 7 月,以收集更多早期测试用户反馈并进行优化。该模型在 5 月 I/O 开发者大会预告,CEO 皮查伊称将于“次月”发布。部分用户已通过谷歌“Antigravity”平台及 LMArena 进行体验。新模型预计在长文本任务和驱动 AI 智能体方面提升性能,并融入了 Flash 3.5 用户反馈,包括 token 消耗过快问题。
Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体。此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型。开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用。安全方面,模型采用针对性对抗训练降低提示注入风险,并新增两项可选企业级保护:要求用户确认敏感操作、检测到间接提示注入时自动停止。该能力在持续软件测试、跨应用知识工作等长周期企业自动化场景中表现更优。(198字)
关联讨论 1 条X:Google AI for Developers (@googleaidevs)Notion 通过 Cursor SDK 在数周内将编码智能体嵌入产品。用户可在文档中@Cursor、在讨论串中提及或向数据库指派任务,Cursor 即可端到端完成规划、构建、测试、验证并自动创建 PR。集成基于一套 Provider 无关的智能体框架,Notion 的讨论串对应一个 Cursor 智能体,每条消息对应一次智能体运行;结果通过 SSE 流式传输,支持断连恢复。Cursor SDK 提供与生产环境相同的模型、运行时和远程 MCP 支持,让 Notion 无需自建智能体基础设施即可获得完整栈编码能力。用户还可自定义模板、MCP 服务器、技能和子智能体,并设置自动触发规则。
本教程从零构建OpenHarness,一个可运行的Agent运行时,展示完整控制流:接收用户任务、模型决策、验证并执行工具调用、返回观察结果、循环直至任务完成。覆盖核心模块:工具使用与类型化工具架构、权限控制、生命周期钩子、记忆管理、技能、上下文压缩、重试逻辑、Token成本跟踪及多智能体协调。实现采用纯Python,无需API密钥或复杂基础设施即可实验,包含Token成本估算。
Anthropic 推出 Claude Tag,支持多用户与同一 AI 智能体在同一工作空间协作。智能体具备持久记忆、独立于人类的凭证及广泛信息访问权限。经验:工作公开化并给予智能体广泛上下文,通过工作区级安全边界让信息对人和 AI 均可用;为每位成员(含 AI)分配明确角色与相应工具。用户可通过 @Claude 私信进行敏感交互,对话保持私密。该方法已在 Slack 等团队协作工具中实践,旨在使人类与智能体高效协作完成共享目标。
同一事件,精选展示《Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作》Google DeepMind 宣布,computer use 现作为内置工具集成于 Gemini 3.5 Flash,开发者可构建跨浏览器、移动端和桌面的智能体,实现视觉感知、推理与操作。此前该功能仅以独立模型形式存在于 Gemini 2.5。3.5 Flash 已支持函数调用及 Search、Maps 等内置工具,新增的 computer use 可提升持续软件测试和跨专业应用知识工作等长周期企业自动化任务的性能。安全方面采用针对性对抗训练,并可选配两项企业防护系统:要求用户确认敏感操作,以及在检测到间接 prompt 注入时自动停止任务。可通过 Gemini API 和 Gemini Enterprise Agent Platform 使用。
关联讨论 1 条X:Google AI for Developers (@googleaidevs)Figma在Config 2026将设计画布扩展至代码、动画、3D深度和着色器效果,并集成去年收购的Weave工作流系统。新功能包括Code Layers(代码与设计并存)、Motion动画、深度层、Shader及Generative Plugins。协作方面,团队可搜索复用AI提示词、保存工作流为技能、共享插件。Figma的AI功能依赖Anthropic、OpenAI和Google等外部模型,推理成本挤压利润率。同时,Anthropic等公司的竞争产品可直接生成界面,构成威胁。
RubyLLM 是一个统一的 Ruby 框架,以相同接口对接 OpenAI、xAI、Anthropic、Gemini、DeepSeek、Mistral、Ollama 等十余家 AI 提供商的 API。支持聊天、图像/视频/音频分析、PDF/CSV/JSON 文档处理、图像生成、嵌入向量、内容审核、工具调用与 Agent 定义,并提供结构化输出(JSON Schema)和流式响应。仅依赖 Faraday、Zeitwerk 和 Marcel 三个库。内置 800+ 模型注册表,包含能力检测与定价信息。可与 Rails 集成(acts_as_chat),支持异步 Fiber 并发。
华为今日宣布鸿蒙“龙虾”小艺 Claw 全机型开放,HarmonyOS 5.0 及以上设备可用,小艺 App 需升级至 11.6.4.300 版本。套餐更新:49 元体验包上线 Auto-Model 模式;199 元标准包支持自主选择 openPangu-2.0-Pro、DeepSeek V4-Flash、DeepSeek V4-Pro、MiniMax M3 四种基础大模型。小艺 Skills 市场已支持 500+ 精选 Skills,覆盖消息、办公、知识检索、创意、生活、金融、开发等领域。小艺 Claw 获信通院首个终端厂商权威安全认证,具备开箱即用、一键唤醒、自我学习、深度记忆、多端协同、端云协同等功能。
Nous Research为开源自改进智能体Hermes Agent的技能系统新增/learn命令。指向文档页面、本地SDK目录、历史对话或粘贴笔记后,Agent自动收集材料并按照标准格式编写SKILL.md。所有技能存放在~/.hermes/skills/,自动映射为斜杠命令(如/plan、/axolotl)。技能采用三级加载(Level 0返回名称与描述约3k tokens,Level 1加载全文,Level 2加载特定文件),避免大技能库撑满上下文窗口。除/learn外,还支持手动编写、skill_manage自动捕获、Skills Hub安装三种创建方式。/learn在CLI、消息网关、TUI和仪表板上均可使用,仪表板额外提供“Learn a skill”按钮。
大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。
OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过/api/v1/images/models/{id}/endpoints端点获取具体服务商的定价与参数支持(如Seedream 4.5每张$0.04、FLUX.2 Pro每百万像素$0.03、GPT-5.4 Image 2按token计费)。OpenAI的GPT 5系列图像模型支持SSE流式预览,启用"stream": true即可边生成边返回预览。新图像模型将仅添加至专用API,建议现有用户切换。