Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。
Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。
该报告针对LLM多智能体系统的通信瓶颈,构建了五维分类法(对方、有效载荷、交互状态、发现机制、模式灵活性),系统梳理了9个积极维护的开源智能体协议,覆盖MCP和A2A的实际格局。报告发现两个突出模式:每个智能体间协议都采用混合有效载荷与会话状态持久化组合,而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话,但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。
TMax 是面向终端任务的开源 RL 配方,基于 Qwen 3.5 较小密集模型,在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100(2 训练+6 推理)运行 2-3 天,配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂(1 万至百万美元),需要明确决策阶梯和稳定性改进。
Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...
Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。
皮尤研究中心最新报告显示,仅16%美国成年人预期AI在未来20年帮助社会,40%预期伤害。24%每天使用聊天机器人,51%从未使用。聊天机器人首要用途是搜索信息(42%),38%上班族用于工作,10%用于情感支持,4%用于陪伴。ChatGPT使用率最高(44%),其次Gemini(24%)、Copilot(17%)、Meta AI(14%)、Grok(8%)、Claude(6%)、Character.ai(3%)。30%称聊天机器人提升生产力,28%认为帮助了解信息。60%成年人阅读AI搜索摘要,表明AI正影响信息摄入。
程序性记忆可帮助LLM智能体在重复工作中产生可复用技能,但其迁移能力尚不明确。AFTER基准包含382个真实企业任务,覆盖6种职业角色和22个程序性技能,评估跨任务、跨角色、跨模型的技能迁移。实验表明,单轮优化使整体性能提升3.7–6.7个百分点;基于多模型执行轨迹演化的技能在跨模型测试中达到73.1%准确率,优于所有单模型轨迹。部分技能可广泛泛化,另一些则专化于特定角色流程,迁移后效果下降。这些结果为生产级智能体平台构建和部署程序性记忆系统提供了实践指导。
HeRA在单个注意力头级别执行跨模态对齐,基于柏拉图表示假说,利用互K近邻(MKNN)度量定义对比损失,作为匹配局部拓扑结构的可微代理。训练时选择MKNN对齐分数最低的注意力头进行对齐,发现对齐最差的头反而带来最大收益。在多个MLLM和18项基准上的评估表明,HeRA一致提升视觉密集任务性能,并通过自然抑制对语言先验的过度依赖,有效缓解视觉幻觉。代码已开源。
RaysUp是一个超轻量、任务无关且与视觉基础模型无关的特征上采样框架,通过将重建提升至几何感知光线域,在任意分辨率下重建高分辨率特征图。核心组件包括空间解耦引导编码器、任意分辨率交叉注意力机制、基于6D Plücker射线坐标的RayPE(射线位置编码)和几何感知邻域注意力模块。在多种密集预测任务中取得SOTA性能,参数量仅为AnyUp的16%,推理速度提升约7倍。代码已开源。
ReasoningLens是一个开源框架,用于对大型推理模型的超长思维链进行层级可视化与诊断审计。它通过三方面解决信息埋没问题:将推理轨迹组织成交互式层级,分离高级策略与低级执行;利用智能体审计器自动检测错误并进行工具增强验证;综合系统推理画像以揭示模型特定盲点。该框架将无结构文本转化为可操作的洞察,为解释、调试和优化推理AI提供基础。
SingGuard是一种将活跃政策作为运行时输入的多模态LLM护栏模型系列,可逐条检查内容并预测安全标签与触发规则。支持快速、混合和慢速三种推理模式,并通过快慢解耦强化学习优化。同时发布SingGuard-Bench基准,含56,340个样本,覆盖80+细粒度风险类型及跨模态联合风险。在6个基准家族(35个数据集)上均取得平均F1 SOTA;动态规则评估下政策遵循准确率从0.6465提升至0.7415。代码已开源。
该研究引入一项匹配执行层基准测试(440个桌面任务、18个应用、12个工作流类别),对屏幕仅限的GUI智能体与技能中介的CLI智能体进行控制对比,两者接受相同目标、状态和最终状态验证器,但仅限使用模态原生操作。最强GUI智能体全通过率59.1%,高于最强原始技能CLI智能体的48.2%;经验证器引导的技能增强后,CLI成功率升至69.3%,表明CLI缺陷主要来自技能覆盖不完整。结果揭示两类智能体不同的执行瓶颈:GUI受限于长时程工作流中的可靠接地交互,CLI受限于技能接口的覆盖率和可扩展性。
ABACUS是一个统一的视觉语言模型,无需基准特定训练即可处理对象计数、人群计数、指代表达式计数和计数忠实的图像生成。它基于3B参数基础模型,通过三项创新适配目标定位:基于目标图的密度感知自适应缩放实现空间定位;GRPO边界感知计数策略消除裁剪边界错误;循环一致GRPO策略让理解分支自我批判生成输出,无需外部标注缩小理解-生成差距。在七个基准上取得SOTA,超越任务专用专家和更大通用模型。
研究揭示标准LLM智能体依赖上下文窗口保持计划信息,而非将其内化为持久状态。在Llama-3.1-70B上,计划信号写入一步后从0.453骤降4.1倍,HotpotQA下降12.4倍。推理模型(DeepSeek-R1-Distill-Llama-70B)的思维链痕迹会重新推导计划,严格剥离后恢复样本内+163%、样本外+153%信号,非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748,R1专用分类器达1.000。压力测试中,丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。
同策略蒸馏平等对待所有学生生成输出。实验发现,仅用错误输出训练效果优于仅用正确输出,因错误输出保留模型能力边界附近的探索性推理。为此,ReNIO利用学生-教师概率比识别导致错误推理轨迹的关键token,聚合为归一化样本权重,无需观测最终答案正确性即可自动赋予负轨迹更高权重。在数学推理和代码生成任务上,ReNIO同时提升同策略蒸馏和同策略自蒸馏,对Qwen3-1.7B最高提升8.90%,对R1-Distill-Qwen-7B最高提升10.00%。代码已开源。
VeriEvol 是一个迭代框架,将多模态数学推理的奖励可靠性问题转化为可验证的数据构造问题。其类型感知进化模块将低难度图像-问题种子改写为更难的图像化提示;HTV-Agent 验证器在多项反证失败后才接受答案。在五个视觉数学基准上,将进化 SFT 数据从 10K 扩展至 250K 样本,平均准确率从 35.42 升至 54.73;固定 backbone、SFT 初始化和 GRPO 配方后,VeriEvol 相比未进化 RL 基线累积提升 +3.88,其中进化提示贡献 +1.82,验证器贡献 +2.06。项目开源全部提示、数据、模型、代码及验证轨迹。
论文基于笛卡尔独立思想奠基与科幻自主存在体描绘,从目标、身份、决策、自我调节与学习五维度剖析当前AI智能体架构。区分能力来自外部工程组装的agentic系统与能力(含社交互动)内生的agentive系统。提出Goal-Identity-Configurator(GIC)通用架构,融合分层目标分解、身份演化、基于世界模型的模拟推理、习得性自我调节与自我导向学习,并讨论agentive系统在人类监督下的可审计性、可控性与安全性。
现有文本到图像模型虽保真度高,但生成样本单一。现有多样性方法往往产生偶然变化而非有意义的设计选择。本文提出可控多样性方法“语义浏览”,让用户沿可解释变化轴系统遍历结构化图像画廊。核心思路是将语义决策与像素生成分离,直接在文本层面诱导多样性:利用视觉语言模型(VLM)操作完整场景上下文,并通过智能体工作流强制执行与原始提示一致的结构化变化。该方法生成多样且可导航的设计空间,每种变化对应一个可理解的语义决策。
ChartWalker是一个面向跨图表检索增强生成(RAG)任务的新框架。它采用层次知识图谱构建方法,按粒度组织实体与关系,并设计结构感知采样算法生成语义一致的多跳推理路径,显式控制查询难度与粒度,以解决现有基准中查询与证据词汇重合度高、推理链逻辑不一致的问题。基于该框架发布ChartWalker-Bench基准,覆盖多领域与多类型跨图表查询。主流RAG范式评估显示显著性能差距,同时提供ChartWalker-Agent基线辅助分析。
AOHP(Android Open Harness Project)基于Android开源项目(AOSP)构建,将AI智能体视为操作系统的一等角色,提供自适应UI和智能体友好运行时环境,同时保留安卓软硬件生态。系统引入三种智能体导向机制:个性化服务组合、高效智能体接口和安全信息流。在涵盖OS智能体关键能力的挑战任务中,AOHP的任务完成率提升21.12%,token成本降低51.55%,并满足安全策略合规要求。
联邦学习(FL)中的潜扩散模型(LDM)面临恶意客户端未经授权分发或转售全局模型的风险。现有基于VAE的水印方法无法追踪具体违规客户端,且可通过替换解码器轻易移除。为此提出FedOT框架,设计分块水印:第一部分用于所有权验证,第二部分用于客户端身份识别;同时引入潜向量变换(LVT),修改VAE原始潜分布以强化VAE与U-Net潜空间连接,使任何替换VAE去除水印的尝试都会导致图像质量严重下降,令模型不可用。实验表明FedOT在所有权验证和可追溯性上均取得优异性能。
论文《Scalable Evaluation for AI Agents》提出Human-on-the-Bridge评估方法:将人类判断前置到可复用评估资产中,专家在上游策划评估智慧,而非在测试循环中逐一审查输出。现有方法各有局限:Benchmark测量固定能力,人工审核不具可扩展性,LLM-as-Judge存在评估器设计问题,红队测试偶发,trace审计需明确证据规则。AI智能体需作为行为系统评估,因其多轮推理、调用工具、维护上下文、遵循策略并在不确定性下行动。
通过logit lens分析不同家族和规模的交错式语音语言模型,发现模型在中间层隐式地将语音转录为文本token——77%的数据中目标语音对应的文本词出现在候选词前列,随后模型在文本空间中预测下一个词再转回语音域。这一行为并非源自语音识别训练,交错数据和文本LM初始化是诱发该机制的关键因素。
系统评估12个多模态任务(14个非推理模型、8个推理模型),发现:①CoT并非免费午餐——在视觉定位、物体计数等感知任务中反而降低性能,在数学、科学、多图像推理中有效;②现有开源多模态推理模型相比原始模型整体提升有限,可能因过度侧重数学推理而牺牲其他能力;③视觉推理是瓶颈,模型呈现“Look Light, Think Heavy”模式——语言反思起伏,视觉反思持续减弱,缺乏全程深度视觉内省。
Libretto是一个面向LLM智能体的符号音乐生成与修订框架,采用包含显式onset槽、声部和小节组织的LLM原生语法,并在节奏、和声、旋律、织体、形式与变奏的语料校准统计空间中评估每首作品。同一结构轴支持检索、诊断、复制风险控制及迭代自修订。在填空生成、参考引导整曲生成、渐变变形与教育音乐生成等任务中,Libretto将符号音乐从原始token序列转化为语言模型智能体可测量、可编辑的对象。
VLA模型部署受执行效率制约,现有工作多聚焦单步推理延迟,未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架,通过动态探索策略奖励更长可执行动作块长度,并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上,动作块利用率提升3倍,物理执行步减少51.4%,端到端部署速度提升5.83倍,任务成功率未受影响。
PlanBench-XL是一个交互式基准测试,包含327个零售任务和1,665个工具,用于评估LLM智能体在检索受限工具可见性下的长时域规划能力。智能体需迭代检索并调用工具以逐步逼近最终目标。可选阻塞机制通过缺失、失败或干扰的工具函数模拟不确定性,迫使智能体检测中断路径并运行时自适应。在10个领先LLM上的实验显示,GPT-5.4在无阻塞条件下准确率为51.90%,最严重阻塞下骤降至11.36%。分析表明,当故障缺乏明确错误信号或恢复需要更长替代工具路径时,智能体尤其脆弱。PlanBench-XL为诊断智能体规划失败提供了测试平台。
Lexical Consensus 是一个研究AI智能体通过具身经验习得、稳定并运用词汇意义的框架。使用冻结DINOv2视觉嵌入、Carroll式假词和可解释词汇学习器,实验发现感知连贯性梯度主导学习效果:原生类别最易习得,远析取概念接近随机。CIFAR-100解离实验证实,感知距离显著预测习得准确率(partial R²=0.245, p<1e-7),语义距离无显著解释力。双向评估显示,样例机制在标签到图像检索中优于质心原型,命名与检索是分离的能力。控制实验表明,冻结的感知几何同时支撑了词汇基础并限制了无需表征适应即可习得的范围。
上海交通大学等六所高校于6月18日在arXiv发布研究,提出BabelTele文本压缩方法。该方法融合多语言词汇、符号、表情,生成人类几乎无法阅读但大语言模型能准确理解的“AI语言”,可将文本压缩至27.9%,语义准确率保持99.5%。在QuALITY问答中,人类阅读压缩文本后准确率下降,而Gemini 3.1 Pro稳定。BabelTele在MeetingBank、QuALITY基准上优于传统摘要和LLMLingua-2,支持零样本跨模型传递。多智能体通信测试中可减少约40%通信Token,任务完成度超96%。
全球海洋热浪致超80%珊瑚白化背景下,伍兹霍尔海洋研究所团队在马绍尔群岛马朱罗环礁发现一片生机勃勃的珊瑚礁,命名为“超级珊瑚礁”。模型预测该处水温比其他区域高近2°C,实地实验证实其耐热性最强。团队使用无人船“黄鳍”搭载GoPro相机,单日扫描40英里礁石并拍摄2万张图像,远超百名潜水员数周工作量。随后用这些图像训练AI模型自动识别白化与恢复状况,并构建三维模型分析珊瑚位置、角度对热暴露的影响。科恩设想建立“超级珊瑚礁蓝色走廊”,连接马绍尔群岛、基里巴斯和图瓦卢的保护区网络,利用洋流让耐热珊瑚幼虫跨区域繁殖。
微软与约克大学新论文指出,许多研究在未经严格测试的情况下就将理解、共情、焦虑等人类属性赋予LLM,往往一开始就把这些概念内嵌到测试设计中。作者论证,原则上老策略游戏《帝国时代II》也能实现逻辑门、训练小型感知机,作为计算基底。若同样的语言模型以山羊移动作为bit在游戏中重建,输出相似句子,人们将不再认为它“理解”或“有共情”。论文并非否定AI认知,而是揭示测量问题:许多关于LLM类人属性的声称依赖于界面和观察者的预设,而不是系统本身。
OpenBioRQ 是一个包含 12,553 个未解决生物医学研究问题的智能体基准测试,覆盖 12 个领域。问题无固定答案密钥,迫使模型通过多步工具调用自主验证证据,从而评估其真实性及弃权能力。当前智能体极少捏造引用(超 99% 可解析),但约 15.9% 的链接指向无关论文。难度锚定在三个开源模型都无法回答的问题上;在最难子集中同系列模型仅解决约 17%,而前沿智能体(Gemini-3-Pro、Opus-4.7、GPT-5.5)表现跨度达 29-60%。困难问题中出现“智能体崩溃”——模型停止使用工具。引入冻结的每问题检查表后,评分者间一致性从 Spearman 0.35 提升至 0.82。
EBench是一个模拟基准,用于细粒度诊断通用移动操控策略的能力,而非仅评估单一成功率。它包含26个多样化任务,沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型,发现成功率相近的模型能力画像存在显著差异:π₀.₅测试成功率最高且训练-测试保留最佳;InternVLA-A1在移动操控任务上占优,但在灵巧任务上崩溃;XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力,揭示了不同分布偏移因素的影响。
论文以九个确定性生成器推理任务为测试床,证明可验证搜索无法作为可学习的CoT进行蒸馏。Cryptarithm任务中,即使backbone规模从3B到671B、采用多种CoT设计、基于可验证奖励的强化学习和自训练,蒸馏后准确率始终为0.01–0.07,而搜索求解器回答71%实例。模型能正确计算97–100%的算术步骤并将正确密码排在候选前八(71%),但无法前向推导。干预实验揭示密码键后,同一实例准确率从0.03提升至0.57。只有移除搜索、预计算组合核心为目录,让模型仅做回忆加验证,才能学会该任务(Private LB 0.92)。结论:蒸馏学到的是记忆和验证,而非搜索。
BioMatrix采用单一解码器架构,通过统一token化方案将分子序列(SMILES/SELFIES)、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间,所有模态均以下一个token预测目标生成。模型基于Qwen3(1.7B和4B),在3044亿tokens上预训练。在80项下游任务中,BioMatrix在77项上达到最优或竞争力水平。
大语言模型自动回归生成传统上从最终层解码,但研究发现最终层可能将预测扰动到通用或对齐偏好的token,造成对齐税。Confident Decoding是一种无需训练的解码策略,通过熵引导的保守向后搜索动态选择最可靠的近最终层,并将层选择理论化为最优停止问题。在稠密和MoE大语言模型上,该方法在GPQA-Diamond、Omni-MATH、HLE等推理基准上取得一致改进,零内存开销,延迟增加不到2%。结果表明,动态绕过最终层扰动可以解锁更强推理能力。
客服领域的工具调用智能体需跨轮维护任务状态并遵守领域策略。标准方法将状态隐含在提示词中,易导致信息过时或策略违规。LedgerAgent 是一种推理时方法,将观察到的任务状态单独维护于分类账中并渲染到提示词;在改变环境的工具调用前,用分类账检查状态依赖的策略约束以阻止违规。在四个客服领域和混合开源/闭源模型上,LedgerAgent 的平均 passk 指标优于标准基于提示的工具调用方法,在多轮一致性指标上提升最大。
关键要点:OpenAI昨日为Codex推出了从交互中打包技能的类似功能;论文提出三阶段流水线(GUI轨迹分割→聚类候选技能→训练技能感知策略)。聚类纯度优异(5/8簇达0.95以上),但可读性未迁移:GRPO仅将技能步骤准确率从18.5%提至20.5%,在BrowseComp+上无改善,甚至输给简单频率先验。作者指出三个缺陷:弱边界检测器、无序片段表示、离线奖励模型。
FID是图像生成的事实标准评估指标,但大多数论文仅报告单一种子下的单个数值。本研究将FID视为训练种子和生成种子两个轴上的随机变量,在数百个SiT网络上直接测量方差。发现:重新训练模型使FID变化幅度是固定网络重新采样的3.2倍,差距来自随机初始化、数据顺序和流匹配损失的高斯噪声;增加计算或模型大小几乎不缩小分散度,FID变异系数稳定在1-2%;每格无分类器引导调优使分散度减半,但重新洗牌最优种子。建议:在每格最优引导下评估,将低于~1.3% CoV的FID差距视为无结论,报告多个训练种子的误差条。