训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题,学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化,通过测量这些算子对测试预测的扰动,利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优,且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。
训练数据归因(TDA)旨在追溯模型预测与训练数据的关联。STRIDE框架将TDA建模为压缩感知思想下的稀疏恢复问题,学习轻量级“转向算子”以模拟训练数据子集引起的模型行为变化,通过测量这些算子对测试预测的扰动,利用稀疏线性分解恢复单个训练样本的影响。该方法在大语言模型(LLM)预训练归因任务上达到当前最优,且速度比此前方法快13倍。下游实验验证了其在数据选择、数据污染检测及定性分析中的实用性。
可验证奖励强化学习(如GRPO)常用统一的序列级优势更新所有token,稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法,利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示,GRAIL一致优于GRPO,平均准确率提升3.60%,Pass@3提升3.05%,无需过程级监督即可实现细粒度推理对齐。
AI 音乐生成企业 Suno 完成 4 亿美元 D 轮融资,投后估值 54 亿美元,较七个月前 C 轮估值翻番。公司承认使用受版权保护歌曲训练 AI 模型,但辩称符合合理使用原则。索尼与环球音乐 2024 年首次起诉后,涉案曲目从 560 首增至超 6.1 万首;华纳音乐于 2024 年 11 月与 Suno 和解并签订授权协议。本轮由 Bond Capital 领投,用户日均生成 AI 歌曲超 700 万首。
同一事件,精选展示《Suno完成4亿美元D轮融资》研究收集550段人类对话,在三阶段获取人工判断:提取属性5949项、配对属性11919项、生成个性化回复1101项。发现LLM从真实对话中提取属性及配对时均与人类判断分歧,生成回复人类评价不比通用回复好,但LLM自评更高。两种轻量训练干预使前两阶段自动评估更接近人类数据,但第三阶段奖励模型与人类评分仅中等相关。数据集为研究模型提取、选择、融入用户信息提供基础。
ActiveMimic 是一个预训练框架,从单个人体佩戴的 RGB 摄像头中恢复同步的相机和手腕轨迹,将相机运动建模为视角动作,从而在野外第一人称人类视频上联合学习主动感知和操作能力,再迁移至目标机器人。跨任务真实世界实验表明,ActiveMimic 持续超越基于人类视频预训练的基线,并达到与基于机器人数据预训练的 SOTA 模型相当的性能。进一步分析确认主动感知能力源自第一人称视频预训练,而非机器人微调。
AsyncWebRL采用异步系统设计,重叠rollout、梯度更新与策略刷新,并引入永久rollout池和轻量截图处理,比此前最快开源同步流程WebGym实现最高2.9倍端到端训练吞吐加速。算法方面将多步GRPO中每轨迹归一化因子1/|τ_i|替换为常数1/k,解除了失败轨迹对梯度权重的耦合,压缩轨迹长度。在WebGym分布外测试集上创下新开源SOTA(相对+5.8%),Medium子集+42%,Hard子集+48%。
现有方法将自回归模型(ARLM)转换为扩散语言模型(DLM)时面临两种分布偏移:目标函数切换导致知识丢失,以及训练时随机掩码序列与推理时置信度解码轨迹不匹配。研究者提出OPDLM,采用On-Policy蒸馏(OPD)进行转换。学生模型(双向注意力的ARLM)生成自身轨迹,教师模型(冻结的原ARLM)在这些轨迹上提供目标logits完成知识蒸馏。OPDLM以on-policy方式训练,消除了DLM的训练-推理不匹配,蒸馏机制保留了原ARLM知识。实验表明,OPDLM仅需原训练token量的1/15至1/7000,在多样任务上表现强劲,使DLM转换成为ARLM后训练手段。
Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹,经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%,训练速度提升2.0–7.6倍,推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率;压缩学生模型可保留高达96%的原始准确率,同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时,压缩轨迹缩小了与原始轨迹的差距,但未超过原始。
Google Research 在 GitHub 开源了其水文建模框架,这是一个基于 PyTorch 的 Python 包,采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据,并已与捷克水文气象研究所(CHMI)等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时,整合基于 AI 的洪水预报。
计算社会科学的核心目标是发现语言在不同结果中的可解释差异。现有基于LLM的假设生成方法仅选取全局判别模式,忽略研究者领域知识中的协变量,导致所选模式可能反映混淆而非实质差异。本文提出条件假设生成框架,通过纳入研究者指定的协变量,引导假设发现聚焦于相关子群内成立的差异。针对子群代表性不足(层不平衡)和差异方向可能逆转(符号反转)两个挑战,提出两种方法:引入特征-协变量交互检测符号反转,以及应用层内去均值和逆频率重加权平衡欠代表层。实验表明,协变量感知的生成方法能在相关子群内产出更有用的假设。
Anthropic 使用 Claude 自动化了 95% 的业务分析查询,整体准确率约 95%。其关键在于构建智能体分析栈(agentic analytics stack),通过数据基础层、维护验证流程和技能(skills)分别解决概念-实体歧义、数据过时和检索失败三大错误来源。相比编码场景,数据分析的难点在于将用户问题映射到正确的数据实体,而执行 SQL 反而是简单的。Anthropic 的数据科学团队因此得以专注于因果建模、预测和机器学习等战略工作。
关联讨论 1 条X:Claude Devs (@ClaudeDevs)Alphabet 将股权融资规模从 800 亿美元增至 847.5 亿美元,用于投资 AI 基础设施与算力。其中 A 类普通股和 C 类资本股发行增至 180 亿美元,存托股份发行增至 167.5 亿美元;伯克希尔·哈撒韦以私募形式投资 100 亿美元。发行预计 2026 年 6 月初完成。
4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。
标题为《自然界中蛋白质折叠的不合理冗余》,指出蛋白质折叠结构存在不合理的冗余现象。文章发布于 research.ligo.bio,在 Hacker News 获得 100 点赞。
SK 海力士在 COMPUTEX 上展出 HBM4E 48GB 12Hi 样品,基于 12 层 32Gb 1cnm DRAM Die,引脚速率 16.0Gbps,带宽 4.0TB/s,较前代带宽提升 38%、单 Die 容量提升 33%。客户端存储方面,确认基于 V9 TLC 的 PVF01 为首款 DRAM-less PCIe Gen5 客户端 SSD。其他展品包括用于 DGX Spark 的 1anm 16GB LPDDR5X-8533、支持 DLC 液冷的 PEB210 E1.S SSD 及面向 Vera Rubin 的 1cnm 96GB LPDDR5X-9600 SOCAMM2。
Google 发布五项水管理新承诺,旨在减少 AI 数据中心对当地水资源的影响。核心目标包括到 2030 年实现补水总量超过数据中心用水量,同时投资当地水基础设施、寻找替代水源,并提高用水信息透明度。该公司表示将公开其整体用水情况。
PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。
智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。
据IT之家报道,谷歌正联系安卓应用开发者,希望付费获取其私有代码库的访问权。此举旨在获取“高质量、真实世界代码库”,用于改进Gemini、Antigravity 2.0等开发者工具。邮件强调授权为非独占方式,开发者保留100%知识产权。谷歌表示,真实代码包含生产环境中的复杂逻辑与业务背景,比公开仓库更利于训练面向真实工程场景的AI编程工具。报道指出,该计划反映了谷歌在编程AI领域面临来自GitHub Copilot和Anthropic Claude Code等产品的竞争压力。
Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。
本教程详细介绍了如何在 Google Colab 环境中,使用 QLoRA 和 DPO 方法对 LFM2 模型进行微调。内容涵盖了使用 TRL 和 PEFT 库进行监督微调、DPO 对齐以及适配器合并的完整分步编码过程。
Meta 已缩减其在办公电脑中预装追踪软件、收集员工鼠标移动与键盘输入数据用于 AI 训练的计划。根据内部备忘录,新控制功能允许员工每次暂停数据收集长达 30 分钟,并可申请豁免参与该项目。此前,该计划因软件过度消耗流量与电脑电量、涉嫌侵犯个人隐私而遭到员工强烈反对,部分员工将 Meta 称作“员工数据收割工厂”。Meta 表示,此举亦可能加重其在欧盟地区的合规风险。
研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示,两者一阶增益相当,但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度(NDS),两者更新范数相近,Muon 的 NDS 更低,且数据不平衡会放大这一优势。中后期训练中,Muon 的 NDS 优势主要源自更小的层内曲率。理论证明,Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS,在曲率异质性足够强时,同等步数下局部二次损失也更低。
现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。
VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料,包含315K个视频推理示例,覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道,并构建了专家标注基准VideoKR-Eval。实验表明,在标准SFT→GRPO流水线下,基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法,同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。
经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。
DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。
AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。
知名人工智能批评者Gary Marcus在其关于可信赖AI的专栏中,探讨了人工智能发展面临的根本性挑战。文章开篇即指向问题的核心,指出相关数学理论的局限性与人类心理的复杂性,是导致AI系统最终可能出现问题的根源。
本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。
国家版权局、工业和信息化部、公安部、国家互联网信息办公室联合启动“剑网 2026”专项行动,时间从 6 月持续至 11 月。这是四部门第 22 次开展此项工作。行动重点关注四大领域:影视剧版权保护、文创版权保护、图书版权保护,以及人工智能领域版权整治。其中,人工智能领域重点推动解决大模型训练语料版权合规问题,并查处利用 AI 工具非法复制、改编、传播作品等侵权行为。
三星在2026年台北电脑展上展示了全球首款HBM5内存。HBM5是面向高性能计算(HPC)和人工智能(AI)训练需求设计的第八代存储技术,预计于2029年至2031年间推出。该技术采用2nm基础裸片搭配1c nm DRAM制造工艺,并将采用浸没式冷却技术以应对超高功耗。性能方面,其I/O通道提升至4096-bit,以16-Hi(16层)堆叠为标准,预期每个堆叠的带宽将提升至4 TB/s。
论文提出,参数高效微调(PEFT)不仅是全参数微调的低成本替代,更是强大共享基座模型上承载个性化行为的紧凑基底。研究围绕三个扩展维度展开:Scale Up(更强共享先验提升小适配器效用)、Scale Down(探索适配器可靠性的最小化边界)、Scale Out(大规模持久化适配实例共存)。以MinT为例,展示了管理适配器身份、版本、溯源、评估与服务驻留的基础设施。结论表明,PEFT有潜力成为持久化个人模型的紧凑底座,而不仅仅是预算替代方案。
初创企业 WindBorne Systems 今日发布第六代气象模型 WeatherMesh-6。该模型预报精度已超越欧洲中期天气预报中心(ECMWF)的传统与AI预报产品,其提前五天的地表气温预报准确度相当于传统模型提前一天的水平。WindBorne Systems 通过全球15个站点约400只探空气球自主采集数据,形成“自研模型+自主数据源”的核心优势。该公司于2024年完成2500万美元融资,估值8500万美元。
通过从源码构建 NVIDIA Apex 并检测融合内核,对 Transformer 训练中的关键组件进行基准测试。内容涵盖了 NVIDIA Apex 提供的 FusedAdam 优化器与 FusedLayerNorm 层归一化的性能表现,并将其与 PyTorch 原生的混合精度训练工具 torch.amp 进行了对比。文章旨在实践验证这些工具在提升训练速度方面的具体效果。
Alphabet 宣布计划通过发行股票筹集 800 亿美元资金,这是其历史上规模最大的融资之一。此次融资所得资金将专门用于进一步扩展公司的 AI 基础设施和计算能力,以支持其在人工智能领域的持续发展和战略部署。
KPop针对MoE大模型强化学习中的训练-推理不一致问题,提出用对称二元KL散度代替IcePop的固定ratio阈值。该方法只需一个超参数,根据token概率自适应调整屏蔽边界:稀有token更宽容,高频token更严格。在Ring-flash-2.0(100B总参,6.1B激活)的RLVR训练中,支撑800+步稳定训练,屏蔽比例从10%动态升至30%+(IcePop仅约0.2%);在AIME25、HMMT25-Nov、ARC-AGI-2、LiveCodeBench上全面优于IcePop。在长程智能体任务中,基于Ring-2.6-1T(1万亿总参,63B激活)的SWE-bench Verified得分从70.8%提升至76.28%,且仅需更新70%~80% token即可收敛。
针对GRPO训练中rollout多样性不足的问题,研究发现同一模型家族内的小模型天然具有更高的策略级多样性(pass@k优于大模型),且这种多样性具有时序相关性、逻辑一致性和结构化探索信号。提出S2L-PO框架,利用固定小模型作为探索者训练大模型,并设计渐进退火策略从小模型离线rollout过渡到大模型自身采样,避免性能下降、加速收敛。S2L-PO在多个数学推理基准上提升准确率,例如用1.7B探索者引导8B模型在AIME 24上提升8.8%,同时减少rollout计算量。
Curation-Bench 是一个面向智能体的基准,固定模型、训练配方和评估套件,赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中,开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距:智能体主要调整局部策略变体,而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法,引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略,以十分之一的数据预算超越了强基线。代码和基准已开源。
大语言模型在低资源机器翻译中难以有效利用语法信息。受思维链推理启发,研究提出自动从Universal Dependencies树库、词典和语法规则库生成逐步语言学推理轨迹的管道,并在锡伯语和Chintang语上通过上下文学习、监督微调和强化微调三种设置评估。结果表明,作为推理时引导(ICL),可靠句子特定轨迹在多数模型、语言和指标上显著提升翻译性能;而作为训练数据使用时收益较小且不稳健。LLM能在可靠语言分析下利用语法信息,但自主生成分析仍是主要瓶颈。