研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题,提出桥接动作表示——初始头部相机帧内的相对手腕平移,作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型,通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上,该方法比噪声6DoF动作更有效地转移人类操作知识,且效果随人类数据量增加而提升。
研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题,提出桥接动作表示——初始头部相机帧内的相对手腕平移,作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型,通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上,该方法比噪声6DoF动作更有效地转移人类操作知识,且效果随人类数据量增加而提升。
流匹配生成模型在强化学习后训练中,速度范数膨胀5%-15%导致感知质量下降,而推理时重缩放无法修复。NormGuard引入铰链惩罚,仅在速度范数超过参考值时激活,可加性组合到任何速度局部损失之上。在两种基础模型、三种后训练方法(NFT、AWM、DPO)和两种奖励代理上,NormGuard一致提升MLLM评判的图像质量和逼真度,同时保持奖励,且收益在少步推理下进一步放大,并非由早停解释。
ProMSA是一种渐进式多模态搜索智能体,用于知识型视觉问答(KB-VQA)。给定图像-问题对,智能体在明确的工具调用预算和去重机制下,迭代选择图像搜索、文本搜索或停止。训练先通过拒绝采样SFT学习有效工具使用格式,再使用TN-GSPO序列级RL目标优化,该目标按生成长度和工具交互深度归一化更新。在E-VQA和InfoSeek基准上,ProMSA持续优于强RAG和智能体基线,提升了检索和端到端准确率。代码已开源。
视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。
SimFoundry是一个模块化自动化系统,能从视频零样本构建真实到仿真的场景,生成可用的数字孪生,并支持对象、场景和任务的编辑,自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务;数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上,SimFoundry仿真评估与真实性能高度相关(平均Pearson相关系数0.911,最大排序违反0.018)。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中,任务成功率分别提升17%、21%和40%。
Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。
扩展定律揭示训练损失随模型参数量N、数据集大小D和计算量C按幂律递减。文章回顾了Kaplan等人(2020)及Chinchilla扩展定律的三种拟合方法(固定模型大小改变token预算、等FLOP曲线、参数拟合),以及Amari等人(1992)和Hestness等人(2017)的早期学习曲线研究。还探讨了数据有限区域的扩展定律、实际拟合陷阱与玩具模拟,核心在于最优分配计算资源于N和D。
IBM 于 2026 年 6 月 25 日发布全球首款亚纳米级芯片技术,采用 0.7 nm(7 埃米)节点与全新三维纳米堆叠(nanostack)架构。指甲盖大小的芯片集成近 1000 亿个晶体管,密度约为 IBM 2021 年 2 nm 芯片的两倍。相比 2 nm 芯片,性能最高提升 50%,能效最高提升 70%。纳米堆叠架构还实现 SRAM 面积缩减 40%,有助于支撑先进 AI 工作负载的高带宽需求。该技术已在 VLSI 2026 会议上验证,IBM 预计 5 年内量产。
研究人员利用高分辨率X射线显微断层扫描和机器学习,在未物理展开的情况下完整虚拟展开并读取了赫库兰尼姆古卷PHerc.1667(Scroll4)。这是首卷被从头到尾连续读取的纸莎草卷,内容为斯多葛哲学论著,提及克里西普斯的侄子Aristocreon。第二卷PHerc.Paris4通过更高分辨率成像使墨水在三维数据中直接可见,独立确认了2023年大奖赛的解读。第三卷PHerc.139确定标题和作者为菲洛德穆《论诸神》第八卷。所有数据与代码已公开。
关联讨论 1 条X:Ethan Mollick (@emollick)Google Research 与 Google Cloud 提出线性弹性缓存,将缓存管理转为线性成本优化问题,动态调整大小以最小化总拥有成本。为每条数据引入“滑雪租赁”决策框架,在租用内存(持续付费)与购买缺失(缓存未命中惩罚)间选择,并用轻量级机器学习实时优化内存占用与缺失率权衡。无服务器云场景下(每 GiB 内存每天 $3),该技术可在不牺牲性能的同时显著降本。论文发表于 CIDR。
通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。
Google Research提出一种新架构,在已冻结的Gemini Nano v3模型上改造Multi-Token Prediction(MTP),以加速Pixel 9和10系列上的设备端推理。该方法基于EAGLE框架和CALM,无需单独训练占用内存的草稿模型,通过“晚期退出”策略实现加速。AI通知摘要和校对功能因此生成文本速度显著提升、能耗降低,开发者无需为每个新任务微调独立模型。
富士通昨日介绍PHOTON(自上而下网络并行分层计算)架构,宣称多查询场景下性能至高可达Transformer的475倍。PHOTON采用语义分层处理替代词元级分割,降低计算复杂度并提升并行性,减少长上下文或多线程同步时的访存开销。测试显示,600M、900M、1.2B参数模型上实现更高迭代吞吐量和更低内存占用,其中1.2B模型达475倍性能但质量略低。此外,每次迭代所需KV Cache更少,可提升最大迭代次数,有助降低GPU成本。
当同时启用Tool Calling与JSON Schema约束时,多个开放权重LLM出现工具调用抑制(Tool Suppression)。控制实验在多模型与部署设置下复现了该现象。分析表明,JSON Schema约束被编译成基于语法的token掩码,导致工具调用token在解码中不可达。研究提出约束优先级反转(CPI)假设,并设计透明两遍执行(Transparent Two-Pass Execution)推理策略,将工具执行与模式约束响应生成解耦,无需重训练即可恢复工具调用并维持结构化输出。结果表明,单独评估工具使用与结构化输出可能掩盖生产Agent系统的可靠性问题。
OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)MVTrack4Gen提出运动感知训练框架,将多视角点跟踪作为额外几何与运动监督信号,用于仅依赖相机条件的新视角视频扩散模型。关键发现是特定注意力层编码了跨视角和时序上的几何对应关系,对齐偏差会导致运动不一致。通过将这些特征路由到辅助多视角跟踪头并联合训练点跟踪目标,MVTrack4Gen增强运动感知对应,使模型更好地保持参考视角的运动和跨视角几何一致性。在多个基准上,该方法达到最优几何一致性和有竞争力的相机精度。
现有美学裁剪基准仅评估事后裁剪,忽略拍摄时对构图和姿态的实时指导。为此提出CaptureGuide-Bench,包含摄影师侧构图决策与细调、主体侧场景条件姿态推荐两任务。评估发现通用MLLM和专用裁剪模型均无法提供可操作姿态指导。进一步构建CaptureGuide-Dataset(13万样本),并开发ShutterMuse——经监督和强化微调的统一MLLM。在基准上,ShutterMuse摄影师侧整体性能最佳,主体侧姿态推荐具有竞争力且推理成本更低。
多模态大语言模型(MLLM)进行细粒度视觉推理时,传统方法依赖强化学习或大规模标注推理轨迹,成本高昂。V-Zero提出无需标注文本答案标签的框架,通过将问题相关区域裁剪与负视觉视图配对,评估学生模型采样轨迹,并门控细粒度token级知识蒸馏,引入轨迹级判别能力。在多个视觉推理基准上,V-Zero持续提升细粒度视觉推理性能并保持强泛化能力,训练速度比监督微调方法快5倍以上,比强化学习基线快10倍以上。代码和数据集将开源。
TryOnCrafter是首个面向相机可控视频虚拟试穿(CaM-VVT)的统一DiT框架。它引入可渲染4D试穿代理,将高保真2D试穿先验蒸馏为基于3DGS的服装化身,再由SMPL-X序列驱动动画并度量对齐至重建背景点云,实现人体与环境的显式解耦。基于该代理作为几何锚点,Proxy-Anchored Video DiT生成严格遵循指定相机轨迹和物理形变的光照真实视频。该框架还支持人体重定位、子弹时间效果和360度轨道观看等应用。
Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。
DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。
Autodata是一种通用方法,使AI智能体扮演数据科学家角色,自主构建高质量训练与评估数据。该方法支持对数据科学家智能体进行元优化,使其学会生成更优数据,具体实现为Agentic Self-Instruct。在计算机科学、法律推理及数学对象推理等任务上的实验表明,Autodata生成的合成数据集质量优于经典方法,且对智能体进行元优化能带来更显著的性能提升。该方向通过将推理计算转化为更高质量的训练数据,有望改变AI数据的构建方式。
Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。
语音模型发布中仅8%包含多语言安全分析。RedVox 是一个基于真实语音的多语言安全与公平性基准,覆盖英语、法语、意大利语、西班牙语和德语五种语言。对8个最先进模型的评估显示,即使在非对抗性条件下,漏洞依然存在;在非英语语言中问题更严重,且当请求来自语音输入时风险被放大。通过调查数据贡献者,研究还揭示了语音数据收集中的个人隐私挑战,指出自然语音安全研究面临更广泛的社会技术难题。
自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。
多智能体大语言模型系统中,验证器与批评者智能体存在延迟,导致虚假声明在延迟期间通过网络传播。该过程被建模为带接地校正器节点图上的延迟共识,通过接地拉普拉斯矩阵谱分解得到校正剂量的闭合形式稳定性阈值:过强或过延迟的校正会使共识转变为振荡。通信与验证延迟重合时系统最不稳定;延迟为2时阈值是黄金分割率倒数。同一框架给出超模放置目标及贪婪(1-1/e)近似规则,用于将有限校正器预算分配给影响力节点。五个开放模型上的实验确认了剂量‑延迟振荡,而接地事实性回答使真相成为吸收边界从而消除该效应。
SAM2Matting 是一种追踪器到抠图的框架,通过为基础追踪器(如 SAM2、SAM3)添加区域提议桥和专用抠图头,将视频对象分割追踪器扩展为高保真视频抠图系统。它解耦了高层时序理解与底层细粒度细节处理。尽管仅使用图像训练,SAM2Matting 在视频抠图上实现了新 SOTA,支持多种提示类型,保持强时间一致性,并在人物及野外场景中展现出鲁棒的泛化能力。
流式视频编辑面临背景保持与低延迟两大瓶颈。LiveEdit提出因果逐帧编辑框架,通过三阶段蒸馏将双向基础模型的编辑能力迁移至单向流式编辑器,实现稳定长时编辑。引入面向AR的掩码缓存跨帧复用区域计算,将推理速度提升至12.66 FPS,在流式基线中取得最优视觉质量,适用于交互式与增强现实场景。
SharpMoE针对扩散混合专家模型的路由分配问题提出后训练框架。现有路由器因依赖噪声损坏的潜特征而无法准确区分显著token。SharpMoE利用干净潜特征作为无噪声引导信号,使路由器在高噪声阶段也能识别显著token,并引入轨迹路由损失约束多步去噪过程中的计算分配。实验表明,SharpMoE作为即插即用方案可增强预训练收敛的MoE模型,在视觉生成任务上达到SOTA表现。
MemoBench 是一个针对视频生成模型在动态变化环境中的记忆一致性诊断基准,围绕“消失-重现”范式设计:目标物体经历物理过程后从画面中消失,模型需在其重新出现时正确恢复更新后的状态。基准包含 360 段真实与合成场景的真值片段,结合自动化指标与基于 VQA 的评估,覆盖四个诊断支柱。对八款当前最优模型的评测揭示了消失-重现模式下记忆一致性面临的关键难题与开放挑战。
基于LLM的代码智能体依赖关键词搜索导航仓库,但缺失调用图、继承关系等结构信息,导致导航随机且难以复现。研究以OpenAI Codex为基线,向提示词注入不同粒度的轻量级静态结构注释,发现确定性锚定效应:函数级定位Func@5提升2.2个百分点,交互轮次减少1.6轮;链接跟随率从0.15–0.18升至0.21–0.24,单次运行Pass@1提升3.4个百分点,但输入token增加约10%。建议中等规模仓库默认使用轻量级拓扑,大型仓库剪枝前向边,密度高的语义注释仅用于隐式依赖场景。
本研究分析了SWE-bench排行榜上7,745个代理轨迹,并在200个实例上评估Claude Code、Codex与开源OpenCode采用四种执行范式的3,000次修复尝试。结果显示:代码执行平均每任务8.8次测试运行,频率2-19,后期成功率更高;对商用SOTA代理,禁止执行与无限制执行间修复成功率差距仅1.25个百分点(无统计显著性),但禁止执行显著节省token与墙钟时间;执行收益集中而非均匀分布。研究表明当前代理不加区分地使用代码执行,应将其视为有明确成本收益权衡的资源。
提出一种两阶段级联方案,用于LLM生产部署的成本-精度平衡。第一阶段将查询聚类并分配给最经济的模型;第二阶段引入质量估计(QE)级联,将低质量输出升级至更强模型。在测试集上,该系统保留了最强模型97-99%的准确性,同时降低了每个输出token的时间(TPOT)。仅需任务正确性标签即可适应模型池变化,无需手动重新配置。
该方案在 LeHome Challenge 2026(ICRA 2026 双臂衣物折叠竞赛)中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作(VLA)策略:策略同时作为价值函数,预测动作、成功、进度及任务相关未来量,用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化,以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。
NeuraDock Agent是一个开源架构,将确定性本地EEG引擎与硬件感知语言层分离。它解析七通道脑电图,执行质量控制与审核后的频谱工作流,生成机器可读结果。大语言模型仅接收经过允许列表筛选的摘要和版本化上下文包,包含硬件描述、工作流、结果字段、实施边界、科学限制及参考案例,原始EEG和密集数组数据保留在本地。评估分三个层面:12份记录在十次数值重复中结果一致;请求捕获与故障注入实验验证了数据边界和本地工件保留;边界意识基准测试对36个普通和对抗性问题在4种上下文消融设置和2个LLM下产生288个输出,证实了硬件与实现感知接地机制的可行性,但未验证临床有效性。
现有网页智能体基准主要测深度搜索,缺乏广度枚举能力评估。Ko-WideSearch 是韩语广度搜索基准,通过自动化合成-验证流程构建。任务要求从集合父实体(如电视剧季、王朝)中完整列举成员并填充属性表,采用 Item-F1、Column-F1、Row-F1 评分。基准含 228 张表格,覆盖 190 个实体、16 个类别,设三个难度层级,通过表宽和二维复合键控制成员覆盖率。对 20 个智能体的测试显示,智能体能恢复集合但无法填充行(Item-F1 92.8,Row-F1 53.7),难度提升准确率下降,增加搜索或花费无法缩小差距;难点在找到正确值而非格式化,自由文本单元格失败率最高。
Qwen-Image-2.0-RL 后训练流程应用 RLHF 和 on-policy distillation(OPD)提升 Qwen-Image-2.0 扩散模型的视觉质量与指令跟随。通过微调视觉语言模型构建任务特定复合奖励模型,覆盖文生图的对齐、美学、肖像保真度,以及图像编辑的指令准确性与人脸身份保持。基于 GRPO 的 RL 框架引入混合 CFG 策略、组内奖励范围过滤和分类权重校准。最终通过轨迹级速度匹配的 OPD 合并多个教师策略。评测显示,Qwen-Image-2.0-RL 在 Qwen-Image-Bench 总分 57.84(+2.61),文生图 Elo 1193(+78),图像编辑 Elo 1349(+93)。
PhysiFormer 是一种扩散 Transformer 模型,用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格,输入初始顶点位置、速度及材料类型(刚性或弹性),通过去噪扩散过程直接采样未来顶点轨迹,不依赖显式归纳偏置。概率性公式捕捉动力学不确定性,生成多种合理未来。模型在时间、空间和物体维度上分解注意力,实现置换不变的多物体推理。基于 10 万+模拟轨迹训练,可生成刚体和弹性力学,并泛化至混合材料、未见真实几何及更多物体场景,在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。
DanceOPD是一种面向流匹配模型的on-policy生成场蒸馏框架,将每个样本路由至单一能力场,查询低噪声学生诱导状态,以速度MSE作为训练目标,使学生在其自身rollout状态上学习专家能力的组合。该方法可吸收多个能力源(包括无分类器指导等operator定义的速率场),在T2I生成、局部编辑、全局编辑、真实感场吸收及CFG吸收等任务上均提升目标能力,同时保持锚点生成质量不受损。
针对文本到图像模型处理隐含、未明确或依赖最新知识的真实请求时出现的“上下文差距”,Qwen-Image-Agent 提出统一智能体框架,以上下文为中心整合规划、推理、搜索、记忆与反馈。其 Context-Aware Planning 识别缺失上下文并规划获取路径,Context Grounding 通过推理、搜索、记忆和反馈收集上下文。新基准 IA-Bench 涵盖规划、推理、搜索、记忆四项能力。在 IA-Bench、Mindbench 和 WISE-Verified 上,Qwen-Image-Agent 超越强基线,取得最优性能。