Vera 是一种分层扩散模型,专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩,与源视频合成,从而分离创意编辑与内容保留。架构采用混合 Transformer(MoT),各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集,含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示,Vera 在内容保留上优于开源模型,编辑质量有竞争力,仅使用 486K 帧分层训练数据。
Vera 是一种分层扩散模型,专为内容保留视频编辑设计。它生成编辑层及 alpha 遮罩,与源视频合成,从而分离创意编辑与内容保留。架构采用混合 Transformer(MoT),各层独立 DiT 通过联合自注意力交互。训练使用高质量分层数据集,含精确 alpha 遮罩和多样场景。定量基准和人类偏好显示,Vera 在内容保留上优于开源模型,编辑质量有竞争力,仅使用 486K 帧分层训练数据。
AgentCIBench评估计算机使用智能体(CUA)是否遵循情境完整性。它针对三种常见失败模式:视觉共置(智能体拉取任务目标旁边被禁止的项目)、任务模糊性过度分享(在提示不明确时泄露个人状态)以及收件人错配(向不适当的收件人发送内容)。对15个前沿CUA的评测显示平均泄漏率67.9%,其中11个在超过50%的场景中泄漏,这些失败在端到端任务中同样存在。AgentCIBench已发布,旨在推动开发更安全的计算机使用智能体。
在ChaosNLI数据集(每项100个标注)上微调NLI模型,发现所需标注人数因评估指标而异:熵相关(识别分歧项)需约20-50个标注者收敛,KL散度(分布匹配)约10个标注者即饱和(达全量效果的87%-95%)。软标签的熵相关r=0.643(p<0.001),优于五种标签平滑强度下的r≈0.45-0.49,因平滑无法区分模糊样本与明确样本。该优势在DeBERTa、RoBERTa、非NLI预训练基线及内容安全跨域评估中均成立。结论:标注预算应依据目标评估指标制定。
Arbor是一个可训练的附件,为文本条件潜空间3D生成引入约束网格作为原生3D控制接口。约束分三类:包络区域(应有几何)、避让区域(保持空白)和接触区域(物体应接触)。Arbor将约束网格转换为模型token,在冻结去噪器内学习路由附件,使每个潜空间区域只接收相关约束信号。在自动和艺术家控制基准测试中,Arbor在固定约束下提升了约束遵循度,同时保持了对象质量和多样性。
HAKARI-Bench 是一个轻量级检索基准,将现有检索套件重建为小型数据集(Nano-sets),涵盖 35 个基准、551 个任务和 43 种语言,采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体(降维、量化等)在同一条件下对比。在 55 个模型上,整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR(完整版)的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测,而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。
MeshFlow提出直接生成三角网格的方法,将网格视为三角形汤,避免了序列化为长自回归序列。该方法采用等变最优传输流匹配模型,保持了三角形汤的关键对称性(面的任意排列及每个面内顶点的排列)。通过对Diffusion Transformer架构进行简单有效的修改,构建了可扩展网络来建模速度场,同时维持所需的等变性。引入基于最优传输的训练目标,消除了违反对称性的监督信号,改善了收敛性。MeshFlow的生成质量媲美最先进自回归网格生成器,推理速度提升约18倍。
Foresight 是一个利用动作条件世界模型潜在表示来监控操作轨迹的故障检测框架,仅使用最终任务级成功/失败标签训练。它通过预测性世界模型嵌入为不同策略提供统一的故障检测,并用功能共形预测(FCP)自适应校准阈值。在 LIBERO-Long、ManiSkill-Long、BEHAVIOR-1K 仿真环境及真实机器人(ReactorX-200 机械臂三项任务、Franka 机械臂一项任务)上验证,结果表明该嵌入为长时域操作中的可靠故障监控提供了可扩展表示。
VibeThinker-3B是一款仅3B参数的紧凑密集模型,采用Spectrum-to-Signal后训练范式,结合课程式监督微调、多领域强化学习与离线自蒸馏。在AIME26上达到94.3分,采用claim级测试时缩放可提升至97.1;LiveCodeBench v6 Pass@1为80.2;最新LeetCode竞赛接受率达96.1%,性能与DeepSeek V3.2、GLM-5、Gemini 3 Pro等大模型相当或超越。IFEval得分93.4,表明极端推理增强未损害指令可控性。该工作支撑了参数压缩-覆盖假说,认为可验证推理可压缩为紧凑推理核,而开放知识需广泛参数覆盖。
Tmax是当前最强的开源终端智能体RL训练配方。仅9B参数即在下游基准Terminal-Bench 2.0上达到27%准确率,超越此前更大模型。研究团队利用难度控制、角色和验证器多样化策略生成数据,并开源了比此前任何已发布终端智能体数据集大2.5倍以上的数据集。基于该数据,使用简单的结果驱动RL训练开放权重模型。代码、数据和模型均已开源。
长期agent轨迹会积累陈旧内容,最终超出上下文窗口。现有固定token阈值压缩忽略轨迹结构,可能丢失中间结果。SelfCompact提供压缩工具供模型调用,并配套轻量级规则指明触发时机(子任务完成或轨迹收敛)与抑制时机(中途推导或卡住),实现自适应压缩,无需微调或外部监督。在六个基准及七种模型上,SelfCompact以远低于固定间隔压缩的token成本达到相近或更优效果:数学相比无压缩基线最高提升18.1分,智能体搜索提升5–9分,每题成本降低30–70%。
训练开放模型实现可靠手机操控面临真实设备慢、难重置,模拟环境不逼真的问题。PhoneBuddy提出结合真实应用与模拟环境PhoneWorld的训练方案:先共享监督微调,再对比真实RL与混合RL。在150项真实手机评估中,成功率从SFT的36.67%提升至混合RL的45.33%;在AndroidWorld上从60.3%升至83.2%。结果表明,模拟训练是真实RL的互补来源,优势在应用/小程序任务,跨应用工作流仍是开放挑战。
CLI-Universe是一个原则性合成引擎,通过多维能力分类树采样并基于真实技术材料进行证据引导深度研究,生成候选终端智能体任务。候选任务经Docker实例化后,通过rubric-gated测试构造、hint-conditional过滤和严格fail-to-pass检查等多阶段可执行验证流水线,约三分之二的候选被丢弃,仅保留真实、可验证且有难度的任务。基于此构建的6,000条轨迹数据集CLI-Universe-6K,微调Qwen3-32B后在Terminal-Bench 2.0上达到33.4%准确率,创下开源数据训练的32B及以下参数模型新SOTA,并超越多个参数规模大一个数量级的模型。
针对长序列转录中KV缓存累积导致显存增加和速度下降的问题,研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线,用提出的Reference Sliding Window Attention(R-SWA)替换解码器所有注意力层,在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率,Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制,同样适用于ASR、翻译等任务。代码和模型权重已开源。
现代语言模型(Transformer、循环、记忆变体)默认在深度上均匀分配参数。固定预算下的实验表明,早期层分配更多容量、后期层更少容量可改善困惑度,反向分配则有害。基于此提出锥形语言模型(TLM)架构原则:对MLP宽度通过平滑余弦调度进行单调锥形缩减。在三种模型规模和四种架构(Transformer、Gated Attention、Hope-attention、Titans)上,TLM一致优于均匀宽度基线,提升困惑度和下游基准性能,且不增加参数或计算成本。
流匹配模型成为少步文本到图像生成的主流范式,但现有安全方法难以适应极少采样步数。VESFlow是一种无需训练的安全方法,直接利用流匹配模型学习的边际速度场,通过安全条件后验编辑速度场,将轨迹导向安全输出而不改变提示词。引入基于风险分数的过滤,绕过良性提示的速度编辑以降低计算开销。进一步提出VESFlow+,同时向安全方向编辑并远离不安全方向。实验表明,在4步MeanFlow模型上,VESFlow+将目标概念攻击成功率降至6.3%(Ring-A-Bell)和6.8%(MMA-Diffusion),同时保持良性提示的生成保真度。
EnterpriseClawBench 是一个从专有真实工作会话档案构建的企业智能体基准,产出 852 个可复现任务,配有恢复的夹具、重写的提示词、角色类、技能子类、硬规则和语义评估细则。因含企业内部内容,不公开基准数据。在 EnterpriseClawBench 上,最佳配置(Codex with GPT-5.5)仅达 0.663。结果表明企业智能体评估必须报告多种维度(如 harness-模型组合、产物交付、视觉质量、成本、运行时和技能迁移行为),而非单一分数。代码已公开。
当前将大语言模型(LLM)与因果发现结合的做法,常让模型推断边方向、提出图结构或注入先验与约束,但这混淆了数据与假设支撑的证据与文本关联、提示词产物及幻觉机制。本文主张智能体应扮演辅助角色:检查数据、检索上下文、解释方法假设并澄清图输出,而不应提供边、方向、先验、约束或因果结论。因果主张必须基于数据、显式假设、正式算法、诊断及用户/领域专家决策。该原则在causal-learn+在线平台中实现,协调数据分析、预处理、方法推荐等。Big Five人格数据案例展示了无需LLM不可靠性的智能体辅助因果发现流程。平台地址causallearn.com。
多视角 3D 视觉问答(MV3D-VQA)需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督,导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架,将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励(利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图)和局部轨迹奖励(监督有序视角选择),并通过轨迹级策略优化(GRPO)训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线,验证过程级密集监督的有效性。
KaLM-Reranker-V1 是一种快速但非延迟交互(FBNL)重排序器,采用编码器-解码器架构。编码器使用 Matryoshka 嵌入池化预编码段落,解码器建模系统指令、用户指令和查询意图,再通过交叉注意力捕获查询与段落间的相关性,实现解耦计算并保持高效。模型提供 Nano(0.27B)、Small(1B)和 Large(4B)三种激活参数尺寸。在 BEIR 上达到 SOTA,与 Qwen3-Reranker 系列持平;在 MIRACL 上未经大量多语言训练仍表现优异;在 LMEB 上,0.27B Nano 模型可与 7-12B 嵌入模型竞争。
SkillHone 通过持久决策历史将技能修订与评估证据配对,记录诊断、修订、证据和结果。角色分离的子智能体在实践探测上运行候选技能,并基于先前决策提出修订,实现跨会话改进。在深度研究基准上,SkillHone 无需预集成搜索栈,在 GAIA 上超越商业深度研究智能体 15.8 分,在 WebWalkerQA-EN 上超越 3.2 分,同时优于先前技能进化方法。内部工具中介分析场景中,平均准确率提升 18.8 分。
提出检索增强搜索(RAS)方法,通过束搜索优化候选程序,每一步从慢-快程序对训练数据中检索上下文示例引导LLM。基于LLM生成的自然语言描述进行上下文检索效果优于基于源代码的检索。同时提出AEGIS方法,将训练示例分解为原子编辑以提高可解释性。在C++程序优化上,RAS比先前最先进黑盒适应策略性能提升2.06倍,AEGIS提升1.37倍且编辑量更小。对于Python程序,RAS使平均运行时间百分位提升10.27。
Tailor-Bench评估视觉世界模型模拟非常规物理交互的能力,设计三种渐进难度场景:常规(常见工具-任务组合)、非常规(属性兼容替代品)、不可能(违反属性工具)。在统一协议下,预测生成与描述生成分别测试无引导推理与忠实实现。实验表明模型性能从常规到非常规再到不可能逐步退化,暴露物理建模的长尾差距。失败分析显示图像模型无法实现正确状态变化,视频模型还有时间不一致,说明模型依赖表面视觉模式而非内化物理原理。
在线策略蒸馏异步训练中,轨迹生成与学习器更新解耦引入陈旧策略数据;KL方向决定影响:教师加权正向KL鲁棒,学生加权反向KL脆弱。异步RL稳定方法无效,反向计算当前学生信号更优。有限教师分数缓存导致稀疏采样反向KL估计器的偏差-方差权衡,多采样蒙特卡洛可降低方差。基于此,开源AsyncOPD全异步管道在严格同步训练基础上实现1.6至3.8倍吞吐量提升,精度相当。
语音智能体面临响应速度与复杂能力的权衡。ConvFill 提出“对话式填充”(conversational infill)方法:用小参数 talker 模型实时生成上下文响应,隐藏外部 reasoner 模型的推理延迟,并在推理中动态整合 reasoner 的流式知识。基于 290,571 条合成数据、6 个领域、7 个 135M–1.7B 参数小语言模型验证任务可学习性。系统保持毫秒级首次响应时间,准确性差距缩小至前沿 reasoner 模型的 6.3% 以内。在 Apple M2 SoC 上的 18 人用户研究中,ConvFill 整体与前沿模型持平,检索密集型任务更受青睐,响应性显著更高。代码、模型和数据集已开源。
对GPT-OSS、Qwen、Olmo和Phi系列前沿开源推理模型的研究发现,所谓的“思考token”并未带来真正的安全性深思熟虑。模型是否拒绝或服从指令,在第一个token的
Lite Any Stereo V2 (LAS2) 是专为零样本立体匹配设计的超高速模型系列。它采用仅2D的成本聚合框架,针对实际推理延迟而非理论MACs进行优化。训练采用三阶段策略:合成监督、自蒸馏和真实世界知识蒸馏,并通过伪标签过滤和误差钳制操作提升伪标签可靠性。LAS2包含多个前馈变体和一个迭代变体。其中LAS2-H在零样本整体性能上优于迭代方法Fast-FoundationStereo,且在H200和Orin上推理速度分别快1.8倍和2.7倍。项目页面、演示和代码已公开。
通过分析冻结大语言模型各层的 token 级预测熵轨迹,发现越狱攻击相关信息主要编码在中间层而非输出头。静态聚合熵统计量(如均值、方差)区分力弱,而反映熵随 token 位置演化的特征(如单调排名趋势分数)更具判别力。该信号在 Llama、Qwen、Gemma 等多个模型和对抗性基准上表现一致,无需额外训练。
研究提出两通道评估协议Cavewoman,同时测量任务准确率、实际成本及与无约束基准的文本一致性。在5个数据集上对8个模型进行5级压缩测试,发现输出压缩降低API模型实际成本1.4–2.4倍(最佳达3倍),开源权重模型同样受益;输入压缩则严格双输:平均成本升高约1.15倍(最差1.8倍,强压缩2.7倍),准确率暴跌,半数正确生成不再蕴含模型自身无约束基准文本。该分歧在长度控制重评分、多重比较校正及补充语义度量下仍然稳健。
从数据管理视角对LLM智能体记忆系统进行系统性实验研究,将其分解为表示与存储、提取、检索与路由、维护四个核心模块。评估了12个代表性记忆系统和两个参考基线,覆盖5个基准工作负载共11个数据集。端到端结果显示无单一架构占优,效果取决于记忆结构与工作负载瓶颈的对齐。细粒度消融实验量化了各模块对表示保真度、检索精度、更新正确性和长期稳定性的影响。实际工作负载下局部维护比全局重组更具成本效益。代码已公开。
现有低比特KV量化器将每个key视为平面向量,而RoPE下key的注意力贡献分解为二维频率块的和。Block-GTQ基于TurboQuant-MSE,为每层和KV头计算每个RoPE块的无标签能量分数,通过边际增益贪心分配整数位宽。在10模型诊断集上,2/3 b/dim单K量化下每层MAE降低32–80%,367/367层全部优于均匀TQ-MSE。在Llama-3.1-8B-Instruct的K2V2设置下,六任务NIAH平均分从70.6提升至97.4,LongBench-EN平均分从36.87升至53.31。在DeepSeek-R1-Distill-Qwen-7B的AIME 2024/2025上,K3V2无fp16近期key缓冲区时得分51.7/37.5,接近fp16的54.2/37.9。基于打包缓存的推理路径在单H800、Qwen2.5-3B-Instruct上,K3V3实现3.24倍压缩,128K下比fp16 FlashAttention2快1.34倍,峰值内存从56.31GB降至19.85GB,并在256K和512K下仍可运行。
针对艺术字高度定制化的字体、纹理与布局导致的识别困难,研究构建了2M规模的合成数据集WATER-S,包含两部分:由升级渲染管线SynthWordArt生成的高精度可控数据,以及结合Qwen3-VL挖掘提示词与Z-Image图像合成生成的多样化真实感数据。同时提出WATERec模型,采用支持任意形状输入的视觉编码器与自回归解码器,突破了固定模板限制。在WordArt-Bench上达到90.40%准确率,大幅超越通用视觉语言模型和OCR专用模型。代码与数据已开源。
统一多模态大语言模型在文本到图像生成中难以准确遵循物体计数、空间关系等结构感知提示。IV-CoT提出隐式视觉思维链框架,将视觉条件查询分解为结构查询与语义查询的级联:结构查询先形成潜在视觉计划,语义查询再基于该计划渲染外观。训练时引入草图监督引导结构查询捕获结构信息,推理时无需草图或中间解码,单次前向传播完成隐式推理。在GenEval和T2I-CompBench上取得更优结果。
MEMPROBE是一个评估长期记忆AI智能体的新基准,通过隐藏用户状态恢复直接衡量记忆质量。基准在受控任务中模拟50个用户,每个携带31个隐藏维度(共1550个恢复目标),让配备记忆的智能体辅助完成任务,随后从记忆中重构用户状态,支持全存储与top-k两种访问模式。测试5种代表性记忆系统后,任务完成率几乎饱和(无记忆基线也达),但类别平衡恢复率仅约0.6,在top-k检索下进一步下降。MEMPROBE是首个直接研究记忆恢复的基准,将恢复率作为可优化目标。
一篇理论论文提出提示注入的本质是角色混淆(role confusion)——攻击通过让模型误判系统角色与用户角色的边界来达成注入。作者论证当前防御措施多聚焦于输入过滤,却忽视了角色本身的可欺骗性,并主张从角色建模入手增强模型对指令来源的区分能力。该工作为理解提示注入提供了统一的理论框架,而非具体防御方案。
Moebius是一个仅0.22B参数的轻量级图像修复框架。其核心是Local-λ Mix Interaction(LλMI)模块,将空间上下文与全局语义先验压缩为固定大小线性矩阵,大幅减少参数。结合自适应多粒度蒸馏策略,在隐空间中从教师模型迁移表征能力,动态平衡多层级梯度损失。在Places2、CelebA-HQ、FFHQ等6个自然场景和人像基准上,Moebius的生成质量与11.9B参数的FLUX.1-Fill-Dev持平甚至超越,参数量不足其2%,总推理速度提升超过15倍。
Google Labs 提出以“洞察策略”评估 AI 编码智能体的主动性,而非仅按任务完成度打分。团队基于 Google 内部代码库 705 个 bug(1178 个 CL),通过时空近邻与语义相似度聚类还原开发者实际的高层级目标。初步实验显示:Jules 在单轮探索下洞察相关性评分平均 4.5/5;探索预算从两轮增至三轮时,Hit@5 准确率从 33% 升至 57%。团队正将评估方法扩展至公开 GitHub 数据,并探索纳入问题追踪器、对话等更丰富的上下文。
该报告针对LLM多智能体系统的通信瓶颈,构建了五维分类法(对方、有效载荷、交互状态、发现机制、模式灵活性),系统梳理了9个积极维护的开源智能体协议,覆盖MCP和A2A的实际格局。报告发现两个突出模式:每个智能体间协议都采用混合有效载荷与会话状态持久化组合,而去中心化发现机制仍极为罕见。领域正悄然标准化有状态会话,但发现与策略执行层仍留白。该报告为今年选择通信层时提供了九大协议的真实对比参考。
TMax 是面向终端任务的开源 RL 配方,基于 Qwen 3.5 较小密集模型,在默认设置和 65k token 预算下超越此前开源工作。训练需 8 节点 H100(2 训练+6 推理)运行 2-3 天,配方经约 100 次训练才稳定。发布模型权重、数据及训练 rollouts。配方工作强调从零获得初始基线成本高昂(1 万至百万美元),需要明确决策阶梯和稳定性改进。
Trained some terminal agents with friends! Introducing Tmax, open RL terminal agent models. Under default settings and s...
Rohan Paul引用新论文指出,尽管LLM智能体有时能通过交互发现隐藏结构,但其推断世界模型的能力存在根本局限:随着隐藏世界复杂度增加,AI智能体的表现迅速落后,难以将积累的反馈转化为稳定的内部模型,尤其在提问规划、记忆利用和反馈整合方面表现薄弱。结论是,在复杂环境中,LLM智能体建立可靠心智模型的速度跟不上难度增长。