机器人训练数据初创公司XDOF结束隐身,获Thrive Capital、a16z等7000万美元投资。公司为AI实验室和机器人公司构建数据管道、采集工具和标注系统,填补物理交互训练数据缺口。XDOF联合UC Berkeley发布ABC数据集,含13万条机器人操作轨迹、300小时仿真数据及100小时评估数据,号称迄今最大高质量机器人训练数据集。公司计划通过三层数据金字塔采集数据,已与20家客户合作。
机器人训练数据初创公司XDOF结束隐身,获Thrive Capital、a16z等7000万美元投资。公司为AI实验室和机器人公司构建数据管道、采集工具和标注系统,填补物理交互训练数据缺口。XDOF联合UC Berkeley发布ABC数据集,含13万条机器人操作轨迹、300小时仿真数据及100小时评估数据,号称迄今最大高质量机器人训练数据集。公司计划通过三层数据金字塔采集数据,已与20家客户合作。
Richard Sutton的“苦涩教训”通常被解读为警告不要在AI系统中编码过多人类知识,最终胜出的方法是能吸收更多算力和数据的一般性方法。现代基础模型预训练表面上是这一教训的胜利:采用通用架构、海量数据、简单的自监督目标(语言模型预测下一个token,视觉模型重建掩码块等)。但问题在于,训练目标仍由人类在训练循环外选定——完成一次大规模预训练后评估下游表现,再调整方案重新运行。这个控制环路非常粗糙。该论文探讨能否让这一环路变得更高效。
针对NCA在高分辨率下训练慢、信息传播局部化、推理计算重的局限,提出将粗网格NCA与轻量隐式解码器(LPPN)配对:解码器通过插值细胞状态与局部坐标直接输出任意分辨率的外观属性(如颜色、法线),且两者均为局部计算,推理可高度并行化。引入任务特定损失函数,以极小额外内存和计算开销监督形态发生与纹理合成。在2D/3D网格及网格域上的实验表明,混合模型能实时生成高分辨率输出,并保留NCA的自组织行为。
EgoCS-400K是基于CS/CS2职业比赛demo构建的大规模第一人称数据集,保留了人类游戏轨迹并支持解析、回放、渲染和时间对齐。包含超过40万段第一人称视频、1万小时游戏内容,来自1000多场比赛和4万回合,覆盖13张地图、每回合10个玩家视角。数据集提取了玩家状态、视角方向、移动、键盘/按键输入、视角变化、武器使用、游戏事件和回合上下文,并渲染出干净的第一人称视频。支持动作条件未来预测、状态与事件场景展开、回放字幕生成及智能体第一人称动作理解等任务,连接了被动网络视频、可控游戏仿真和昂贵的真实世界具身数据。
RedParrot 是一种面向企业级商业分析的 NL-to-DSL 加速框架,通过查询语义缓存、骨架匹配、实体无关表示学习和多源异构 RAG,将多阶段 LLM 工作流压缩为短链路生成。在小红书真实业务数据集上,平均实现 3.6x 推理加速,执行准确率提升 8.26%,表选择准确率达 85.99%;在开放基准 Spider-DSL 和 BIRD-DSL 上,准确率分别提升 29.9 和 39.7 个百分点。P90 延迟降低至约 21 秒。框架采用短链路与长链路双路径兜底,支持增量缓存更新。
d-OPSD是针对扩散大语言模型(dLLMs)提出的首个在线策略自蒸馏框架。其核心贡献包括:利用自生成答案作为后缀条件,使学生模型从自我未来经验学习;并将监督从token级转向step级,与dLLMs的迭代去噪过程对齐。在四个推理基准上,d-OPSD一致优于RLVR和SFT基线,且仅需RLVR约10%的优化步骤,展现出显著的样本效率。代码已开源。
在 Mathematica 诞生近 38 年后,Wolfram 语言与 Mathematica 发布 Version 15。每个笔记本内置 AI 助手,支持从 AI 环境中直接调用 Wolfram 技术。新增符号音乐系统、大规模时间序列与事件序列处理、分类数据计算、模型拟合超函数 ModelFit。笔记本支持千兆字节级大小与实时查找,首次引入侧边栏、视觉主题及弃用功能样式。强化了表格连接、多点可视化、图形刻度绘制与轨道运行计算等功能。DSolve 拐角处获得 AI 方法辅助,支持偏微分方程曲线坐标求解。扩充了矩阵分解、多元 zeta 函数与调和数、流线型部分分式分解。强化了 WebSocket 实时连接、Python 交互改进,支持 CUDA 内核作为外部函数,Wolfram Compute Services 新增 GPU 支持。
像素空间扩散模型训练面对全频带噪声图像,而有效信号具有强频率依赖性。本文提出 Spectral Forcing,即在 patch embedder 前对噪声输入施加时间条件 2D-DCT 低通算子,其截止频率随扩散时间单调扩展,在数据端点退化为恒等映射。该方法使去噪器无需内部学习频带边界,从而缓解容量分配问题。在 ImageNet-256 搭配 JiT-700M/32 上,不同训练轮次均一致提升 FID 和 Inception Score;粗 patch 分词化下收益显著,细分词化时仍有竞争力。将该算子直接插入统一文生图模型 SenseNova-U1,同样改进了 DPG-Bench 与 GenEval,表明输入侧频谱先验可迁移至类条件生成之外。
Looped World Models(LoopWM)首次将循环架构引入世界建模。通过参数共享的Transformer模块迭代精炼潜在环境状态,LoopWM在自适应计算中自动匹配每个预测步骤的复杂度,相比传统方法参数效率提升达100倍。该项工作正交于模型规模与训练数据扩展,将迭代潜在深度确立为世界模拟的新扩展轴。
现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。
OPD-Evolver是一个慢-快协同进化框架,基于在线策略自蒸馏培养智能体进化器。快速循环中,智能体与四级记忆层次交互,实现读取、使用、编写和维护经验的快速测试时进化;慢速循环通过结果校准的记忆归因和特权后见,将这四种能力蒸馏至可部署策略。在多领域基准测试中,OPD-Evolver性能超越ReasoningBank达11.5%,超越Skill0约5.8%。分析表明,其内化了高价值经验与记忆管理,使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。
ZPPO将教师模型的知识注入提示词而非策略梯度,避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题(BCQ)让学生区分正确与错误回答,及负候选问题(NCQ)聚合错误模式;提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师,经视觉语言模型后训练并在31项基准测试中评估,ZPPO全面优于离策略/在策略蒸馏和GRPO,最小规模提升最大。
提出一种“times-shaped”瓶颈结构的Variable-Width Transformers,在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线,平均层宽降低使总FLOPs减少22%,KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。
英伟达在 MLPerf Training 6.0 全部 7 项基准测试中凭 Blackwell 平台取得最快成绩,成为唯一覆盖全部测试项目的平台。该版本新增 DeepSeek-V3 671B 及 GPT-OSS-20B 等 MoE 工作负载。英伟达提交 GB200 NVL72 与 GB300 NVL72 机架系统,后者较前者最高带来 1.6 倍训练速度提升。在 DeepSeek-V3 671B 任务上,CoreWeave 用搭载 Spectrum-X 以太网的 GB300 NVL72 系统,以 8192 块 GPU 将训练耗时缩短至 2.02 分钟。
Qwen-RobotManip 是基于 Qwen-VL 构建的视觉-语言-操作基础模型,通过跨表示、运动和行为维度的统一对齐框架,实现大规模多源训练的一致性。仅利用开源数据集和人类视频(无需专有数据),构建约 38,100 小时预训练语料,展现出零样本指令跟随、扰动鲁棒、错误恢复及跨本体迁移等涌现能力。在 RoboCasa365、LIBERO-Plus、EBench、RoboTwin 系列等 OOD 评测上全面超越先前 SOTA(包括 π0.5),在 RoboChallenge 排名第一且相对提升 20%,并在 AgileX ALOHA、Franka、UR、ARX 等真实机器人平台上得到验证。
该研究提出一种仅需最小化结果导向GRPO设置的数据配方,即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务,构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上,该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分,超越此前强化学习训练集。这些增益可迁移至智能体任务:在已微调的模型上继续训练,使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。
针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题,论文提出轨迹增强策略优化(TAPO)。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout,利用对比结构构造微反射修正轨迹:保留错误推理至失败点,插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上,TAPO 相同时训练步数下较 GRPO 获得持续改进。
首个针对网络规模LLM预训练语料库叙事特征的细粒度研究。以3万亿token的开放语料库Dolma为对象,基于叙事理论设计涵盖主体、场景、事件3个核心要素的11个可解释维度框架。通过采样并标注400段文本,微调并验证了基于RoBERTa的NarraBERT模型。将NarraBERT应用于300万段落,生成新数据集NarraDolma。研究发现:叙事结构可在海量异构数据中测量,网络文本呈现连续多维度叙事结构,且叙事质量在预训练数据源和主题间分布不均。NarraDolma和NarraBERT已公开。
LOCUS语料库包含来自9,239个城市和县的原始法规,并提供覆盖美国3,144个县中最大的2,309个县的标准化访问层,涵盖多数人口。项目利用OCR处理多种文档格式,将此前碎片化、仅供人工浏览的地方法规转化为机器可读资源。团队训练了基于ModernBERT的分类器和评分器,用于分析法规不透明性和家长主义等此前难以大规模研究的维度。LOCUS-v1及衍生模型已公开发布。
SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA),在 needle-in-a-haystack 测试中接近完美检索 12M token,注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5,速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%,LiveCodeBench v6 pass@4 89.7%,AutomationBench Finance 13%。模型基于现有开源前沿模型改造,通过阶段上下文扩展(262K 至 2M)和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署,计划年内推出 2M–12M token 更大系列。
TNO 联合 SURF 和荷兰法医研究所(NFI)正构建独立荷兰语言模型 GPT‑NL,旨在增强荷兰与欧洲的数字自主权。该模型完全从零训练,避免数据溯源不清和版权风险;数据收集严格保护知识产权、去除个人数据、排除机密和有害内容。GPT‑NL 强调开放透明,公开源代码,模型权重在受控许可下发布。项目获荷兰企业局(RVO)1350 万欧元公共资金,致力于在治理、隐私和价值观上实现主权与可信的 AI。
Google Research 发布 Vectorized Farmscapes 2020 向量化数据集,将英格兰超 130,000 km² 高分辨率栅格地图转化为树篱、石墙、小树林等精细生态特征量化清单。该数据集基于 RSF 的 Vision-Transformer Backbone(在超 3 亿张卫星图像上预训练)微调,融合亚米级影像与 1 米 LiDAR 数据实现双层标注。为突破 247 km² 标注数据限制,采用 Polsby–Popper 紧凑性评分对几何形状功能分类,区分林地、连接廊道与孤立树丛。旨在不侵占农业用地提升碳汇与生物多样性。
2026年Evident AI Index显示,保险公司正将AI嵌入直接影响承保纪律和资本配置的工作流。过去一年保险从业人员减少2.2%,AI专家增长32%,每50名员工即有一名AI专家。近40%公司设立AI高级主管。智能体AI采用率激增,新公开用例中四分之一涉及智能体编排(六个月前仅为二十分之一)。Zurich凭共享平台ZurichIQ从第12升至第4。Manulife、Generali、Intact Financial预计AI将产生超10亿美元回报。Allianz拥有业内最大AI人才池并注册900个用例。
稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式:利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准,LLM裁判对比模型推理轨迹与参考答案,输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上,ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强,并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。
EgoPhys是一个从第一人称RGB视频构建可变形物体物理数字孪生的框架。它通过将每个物体的逆物理解蒸馏成紧凑码本,实现对未见物体预测密集弹簧刚度场,无需测试时每弹簧优化。在重建、未来预测和零样本泛化上优于基线方法。研究团队还收集了涵盖多种可变形物体、场景和操作风格的第一人称交互数据集,并在真实xArm6机器人上验证:从单个人类玩耍视频初始化的数字孪生可作为内部世界表示辅助可变形物体规划。
研究人员提出HUG,一种基于流匹配的模型,能从单张RGB-D图像生成多样化人类抓取姿态。团队利用智能眼镜收集了1M-HUG数据集(100万帧、27.8小时、6707个物体实例)。HUG融合RGB与深度观测,输出手腕平移、手腕旋转和MANO手部姿态,并可重定向至多种机器人手,实现零样本抓取。为标准化评估构建了HUG-Bench,含90个未见过物体(5种几何类别)。在30物体真实测试集上,HUG比SOTA基线高出23%和34%。代码、数据、基准、模型检查点和交互演示已发布。
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突,而专家模型易于并行训练,在线蒸馏技术日趋成熟。
Probably 获得 Andreessen Horowitz 的 900 万美元种子轮融资,旨在构建严格错误检测系统,防止模型幻觉和事实错误,目标达到 99.99% 准确率。其首款产品是数据科学工具,能从复杂数据集快速生成答案,每个结果附带引用和审计追踪。工具通过确定性验证器系统(“数据科学机甲套装”)校验 LLM 初轮回答,仅返回与数据集匹配的结果。系统针对验证器进行了训练和优化;当前版本运行在比前沿模型弱四个等级的模型上,可在本地桌面硬件运行,大幅降低 token 成本。
微软CEO萨提亚·纳德拉在X上发文警告,AI模型正大量吸收企业知识,未来少数AI提供商可能拿走大部分经济价值,各行业将失去对自身知识资产的控制。他以全球化外包掏空工业经济作比,主张建立更开放、更分散的AI生态,让企业继续掌控学习系统。Snowflake CEO斯里达尔·拉马斯瓦米在2月播客中称,大型软件公司可能沦为AI大模型的数据来源;Box CEO亚伦·莱维在1月LinkedIn帖文中指出,当AI覆盖高层知识工作,公司差异化要靠上下文。
MMDiff将冻结的扩散Transformer转化为多模态生成系统,仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布,多时间步特征融合配合空间变化聚合权重至关重要,可将语义分割结果提升28.7% mIoU(相比单时间步提取)。该方法还采用概念驱动的注意力提取实现可解释的空间引导,并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器,即在语义分割、显著目标检测和深度估计上取得强性能,并支持大规模合成数据生成。
大语言模型后训练强化学习需同时优化多个可能冲突的奖励维度。现有GDPO方法将整体分数分解为独立奖励组分别计算损失,但单个rollout在不同维度上可能产生正负相反的advantage,导致信号抵消。受DAPO启发,GD²PO引入冲突感知过滤机制,屏蔽奖励维度间严重不一致的rollout,防止信号抵消,同时保留并增强有效advantage幅度,加速学习。还采用查询级重加权动态调整各查询更新强度。在工具调用、人类偏好对齐等多奖励场景实验中,GD²PO显著优于现有基线。代码已开源。
针对预训练VLA策略在线RL微调中回合结果仅含单一成功/失败二元标签的问题,HABC提出分层优势加权方法。它分别训练生存性与效率两个critic head,通过状态自适应门控合并优势,优先保证生存性,仅在成功确定时转向效率,并将合并结果转化为每步权重作用于actor loss。干预感知信用分配进一步限制结果标签于当前策略自主执行片段。在三个接触丰富的双手真实机器人任务上,HABC将成功率从监督微调基线的36%、44%、12%分别提升至92%、88%、38%。
微软6月15日博文引述《Joule》研究:典型AI查询耗电0.16–0.60瓦时(约40瓦电脑运行15–60秒),为先前文献的1/4–1/20;冷却用水0.0–0.067毫升,中位数约1/100茶匙,少于1滴。10亿次查询场景下基础耗电约0.7吉瓦时,经效率优化可降至约0.3吉瓦时;即使10%请求为长任务,能耗仍可下降过半。
基于大语言模型(LLM)的生成式推荐(GR)使用语义ID(SID)表示物品,破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式,无需推理轨迹获取与对齐训练。相比标准显式CoT方法,PauseRec性能提升最高6.22%,训练GPU耗时减少65%,推理速度加快71.3%,成为更高效且有效的替代方案。
Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》OneRank是一种Transformer原生的多任务排序框架,消除编码器与预测器分离。前向通过任务条件信息选择、候选感知上下文化和受控跨任务交互自底向上学习任务特定表示;后向通过跨任务梯度隔离防止负迁移。采用动态匹配评分替代静态MLP评分器,实现上下文感知排序。大规模工业数据集上的离线和在线实验表明,OneRank优于基线且保持计算效率。
UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码,并采用独立扩散解码器将扩散解码与文本解码解耦,以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构,利用生成与理解数据的相互依存关系。实验结果显示,视觉生成任务 GenEval 得分 0.87,DPG 得分 86.9;多模态理解任务 MME 得分 1699.5,SEEDbench 综合得分 76.5。
TuneJury 是一个开放的实例级成对奖励模型,从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练,涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好,支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准,优于先前基线。引入 anchor calibration(事后、每系统的 Bradley-Terry 校准),以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。
研究发现掩码扩散语言模型(MDLM)中,成功的生成在答案相关位置呈现稳定置信度动态,不可靠轨迹可通过注入其他模型的中间状态纠正。基于此,提出TIE(Trajectory-based Iterative Ensembling)框架,通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列,使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能,为MDLM集成提供了实用方案。
本文提出OPAC算法,从仅含轨迹级标签(标量回报)的离线数据中学习隐式奖励模型并优化策略。理论证明其高概率保证为tilde O(H^2C_{sa(π^star)}/n)并给出匹配下界。该框架可扩展至偏好反馈。进一步研究发现,当目标和监督均为轨迹级非线性聚合时,一般情形不可学习(全成功目标需Ω(2^H)条轨迹);引入结构系数κ_μ(σ)和χ_μ(σ)后,广义OPAC可实现多项式样本复杂度。