6月17日

10:33

HuggingFace Daily Papers（社区热门论文）

现有交互式世界模型的动作词汇局限于导航（行走、转向、环顾），缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器，支持 rollout 过程中的物体交互。它解决数据瓶颈（缺乏带密集标签的人-物交互数据）和记忆瓶颈（历史压缩丢弃因果决定物体状态的帧）。团队构建 100K 交互视频数据集，每条视频通过链式推理生成每块描述；引入分层动作感知记忆设计，按交互重要性路由历史压缩，辅以持久记忆库维护事件更新和物体身份 token。实验表明，单个模型同时支持灵活导航与丰富物体交互，在不牺牲视点控制的前提下显著提升交互逼真度。

具身智能多模态数据/训练论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

OPD-Evolver：通过在线策略自蒸馏培养全能智能体进化器

OPD-Evolver是一个慢-快协同进化框架，基于在线策略自蒸馏培养智能体进化器。快速循环中，智能体与四级记忆层次交互，实现读取、使用、编写和维护经验的快速测试时进化；慢速循环通过结果校准的记忆归因和特权后见，将这四种能力蒸馏至可部署策略。在多领域基准测试中，OPD-Evolver性能超越ReasoningBank达11.5%，超越Skill0约5.8%。分析表明，其内化了高价值经验与记忆管理，使得9B参数版本能够挑战Qwen3.5-397B-A17B和Step-3.5-Flash等千亿级模型。

智能体数据/训练论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

近侧发展区策略优化（ZPPO）：教师知识注入提示词而非梯度

ZPPO将教师模型的知识注入提示词而非策略梯度，避免小模型因全部探索失败而丢弃样本。对困难问题构造二元候选问题（BCQ）让学生区分正确与错误回答，及负候选问题（NCQ）聚合错误模式；提示回放缓冲区循环困难问题直至达标或淘汰。在Qwen3.5系列0.8B至9B学生搭配27B教师，经视觉语言模型后训练并在31项基准测试中评估，ZPPO全面优于离策略/在策略蒸馏和GRPO，最小规模提升最大。

arXiv 推理数据/训练论文/研究

10:33

HuggingFace Daily Papers（社区热门论文）

可变宽度Transformer

提出一种“times-shaped”瓶颈结构的Variable-Width Transformers，在语言模型深度方向非均匀分配容量。该架构在语言建模损失上优于参数匹配的均匀基线，平均层宽降低使总FLOPs减少22%，KV缓存内存和I/O成本减少15%。残差流中的表示分析显示瓶颈结构导致定性不同的表征。实验表明非均匀宽度分配可实现更资源最优的语言模型扩展。

数据/训练论文/研究部署/工程

08:03

IT之家（RSS）

英伟达刷新 MLPerf 的 DeepSeek-V3 671B 训练记录：提速 60%，最快 2.02 分钟完成

英伟达在 MLPerf Training 6.0 全部 7 项基准测试中凭 Blackwell 平台取得最快成绩，成为唯一覆盖全部测试项目的平台。该版本新增 DeepSeek-V3 671B 及 GPT-OSS-20B 等 MoE 工作负载。英伟达提交 GB200 NVL72 与 GB300 NVL72 机架系统，后者较前者最高带来 1.6 倍训练速度提升。在 DeepSeek-V3 671B 任务上，CoreWeave 用搭载 Spectrum-X 以太网的 GB300 NVL72 系统，以 8192 块 GPU 将训练耗时缩短至 2.02 分钟。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotManip 技术报告：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是基于 Qwen-VL 构建的视觉-语言-操作基础模型，通过跨表示、运动和行为维度的统一对齐框架，实现大规模多源训练的一致性。仅利用开源数据集和人类视频（无需专有数据），构建约 38,100 小时预训练语料，展现出零样本指令跟随、扰动鲁棒、错误恢复及跨本体迁移等涌现能力。在 RoboCasa365、LIBERO-Plus、EBench、RoboTwin 系列等 OOD 评测上全面超越先前 SOTA（包括 π0.5），在 RoboChallenge 排名第一且相对提升 20%，并在 AgileX ALOHA、Franka、UR、ARX 等真实机器人平台上得到验证。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

数据配方显著提升大语言模型长上下文推理能力

该研究提出一种仅需最小化结果导向GRPO设置的数据配方，即可显著提升大语言模型的长上下文推理能力。配方针对检索、多证据合成与推理三类互补任务，构建并筛选8个数据集共约14K样本。在Qwen3-4B、8B及30B-A3B三个模型上，该配方在7项长上下文基准测试中平均分别提升+7.2、+3.2、+6.4分，超越此前强化学习训练集。这些增益可迁移至智能体任务：在已微调的模型上继续训练，使GAIA提升+4.8分、BrowseComp提升+7.0分。数据集将开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TAPO：通过构建微反射修正轨迹改进自蒸馏的强化学习方法

针对自蒸馏仅通过隐式 logit 对齐最小化 KL 散度、缺乏对模型具体错误诊断的问题，论文提出轨迹增强策略优化（TAPO）。TAPO 在 RL 训练中让模型对同一查询同时生成正确与错误的 rollout，利用对比结构构造微反射修正轨迹：保留错误推理至失败点，插入自然语言诊断与正确参考引导的修正推理。此外引入难度感知候选选择和解耦优势估计。在 AIME 2024、AIME 2025 和 HMMT 2025 上，TAPO 相同时训练步数下较 GRPO 获得持续改进。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

网络规模LLM预训练语料库叙事特征研究--基于Dolma与NarraBERT

首个针对网络规模LLM预训练语料库叙事特征的细粒度研究。以3万亿token的开放语料库Dolma为对象，基于叙事理论设计涵盖主体、场景、事件3个核心要素的11个可解释维度框架。通过采样并标注400段文本，微调并验证了基于RoBERTa的NarraBERT模型。将NarraBERT应用于300万段落，生成新数据集NarraDolma。研究发现：叙事结构可在海量异构数据中测量，网络文本呈现连续多维度叙事结构，且叙事质量在预训练数据源和主题间分布不均。NarraDolma和NarraBERT已公开。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LOCUS：美国地方法规语料库

LOCUS语料库包含来自9,239个城市和县的原始法规，并提供覆盖美国3,144个县中最大的2,309个县的标准化访问层，涵盖多数人口。项目利用OCR处理多种文档格式，将此前碎片化、仅供人工浏览的地方法规转化为机器可读资源。团队训练了基于ModernBERT的分类器和评分器，用于分析法规不透明性和家长主义等此前难以大规模研究的维度。LOCUS-v1及衍生模型已公开发布。

Hugging Face 数据/训练论文/研究

07:24

Satya Nadella@satyanadella

新的Azure里程碑。在最大规模报告下，针对这一领先的AI训练基准，实现了最快的训练时间。这是当我们整合硅片、系统、网络和软件的全栈创新，并与@nvidia深度合作，推进AI基础设施前沿时所能实现的绝佳范例。 https://techcommunity.microsoft.com/blog/AzureHighPerformanceComputingBlog/azure-sets-a-new-performance-record-for-llm-training-benchmark-at-extreme-scale/4523077

Microsoft 数据/训练行业动态

06:56

Hacker News 热门（buzzing.cc 中文翻译）

SubQ 1.1 Small

SubQ 1.1 Small 基于 Subquadratic Sparse Attention (SSA)，在 needle-in-a-haystack 测试中接近完美检索 12M token，注意力计算减少近 1000 倍。1M token 时计算量仅密集注意力的 1/64.5，速度是 FlashAttention-2 的 56 倍。GPQA Diamond 85.4%，LiveCodeBench v6 pass@4 89.7%，AutomationBench Finance 13%。模型基于现有开源前沿模型改造，通过阶段上下文扩展（262K 至 2M）和约 1 万亿 token 继续预训练实现。已与设计合作伙伴部署，计划年内推出 2M–12M token 更大系列。

推理数据/训练模型发布

06:26

Hacker News 热门（buzzing.cc 中文翻译）

GPT-NL：面向荷兰的主权语言模型

TNO 联合 SURF 和荷兰法医研究所（NFI）正构建独立荷兰语言模型 GPT‑NL，旨在增强荷兰与欧洲的数字自主权。该模型完全从零训练，避免数据溯源不清和版权风险；数据收集严格保护知识产权、去除个人数据、排除机密和有害内容。GPT‑NL 强调开放透明，公开源代码，模型权重在受控许可下发布。项目获荷兰企业局（RVO）1350 万欧元公共资金，致力于在治理、隐私和价值观上实现主权与可信的 AI。

开源生态数据/训练行业动态

02:03

SemiAnalysis@SemiAnalysis_

RL系统注意差距：匹配训练器与生成器吞吐量 RL训练基础设施，GRPO， PipelineRL，异步RL，策略陈旧性， RL沙箱基础设施，CPU需求， TCO分析，思考机器修补

数据/训练现象/趋势部署/工程

02:03

Google Research：Blog（网页）

从像素到规划：Google Research 发布 Vectorized Farmscapes 2020 数据集

Google Research 发布 Vectorized Farmscapes 2020 向量化数据集，将英格兰超 130,000 km² 高分辨率栅格地图转化为树篱、石墙、小树林等精细生态特征量化清单。该数据集基于 RSF 的 Vision-Transformer Backbone（在超 3 亿张卫星图像上预训练）微调，融合亚米级影像与 1 米 LiDAR 数据实现双层标注。为突破 247 km² 标注数据限制，采用 Polsby–Popper 紧凑性评分对几何形状功能分类，区分林地、连接廊道与孤立树丛。旨在不侵占农业用地提升碳汇与生物多样性。

Google 产品更新数据/训练

01:32

SemiAnalysis@SemiAnalysis_

警报：OpenAI的首席财务官声称他们的下一次重大训练运行将在2026年秋季在Vera Rubin上进行，但这说不通。Rubin NVL72集群届时可能还不够稳定，软件栈也不足以支持真正的"重大训练运行"。Rubin或许已准备好用于生产推理和小规模训练实验，但无法在2026年秋季支持前沿规模的训练。

OpenAI 大佬观点数据/训练

00:01

Artificial Intelligence News（RSS）

保险公司将AI战略转向核心风险承保

2026年Evident AI Index显示，保险公司正将AI嵌入直接影响承保纪律和资本配置的工作流。过去一年保险从业人员减少2.2%，AI专家增长32%，每50名员工即有一名AI专家。近40%公司设立AI高级主管。智能体AI采用率激增，新公开用例中四分之一涉及智能体编排（六个月前仅为二十分之一）。Zurich凭共享平台ZurichIQ从第12升至第4。Manulife、Generali、Intact Financial预计AI将产生超10亿美元回报。Allianz拥有业内最大AI人才池并注册900个用例。

数据/训练行业动态

6月16日

23:30

HuggingFace Daily Papers（社区热门论文）

ExpRL：探索性RL用于LLM中期训练

稀疏奖励RL提升LLM推理能力依赖模型初始覆盖范围。现有通过人工梳理推理轨迹的中期训练需手动指定学习内容。ExpRL提出自动化方式：利用大规模问答数据作为奖励脚手架——参考答案仅用于构建评分标准，LLM裁判对比模型推理轨迹与参考答案，输出过程级或结果级密集奖励。该方法强化稀疏最终奖励难以捕捉的中间步骤。在数学推理任务上，ExpRL比SFT、稀疏奖励GRPO和自蒸馏更强，并为后续稀疏奖励RL提供更好起点。混合领域实验表明可扩展至数学以外场景。

推理数据/训练论文/研究

22:30

HuggingFace Daily Papers（社区热门论文）

EgoPhys：从第一人称视频学习可变形物体的可泛化物理模型

EgoPhys是一个从第一人称RGB视频构建可变形物体物理数字孪生的框架。它通过将每个物体的逆物理解蒸馏成紧凑码本，实现对未见物体预测密集弹簧刚度场，无需测试时每弹簧优化。在重建、未来预测和零样本泛化上优于基线方法。研究团队还收集了涵盖多种可变形物体、场景和操作风格的第一人称交互数据集，并在真实xArm6机器人上验证：从单个人类玩耍视频初始化的数字孪生可作为内部世界表示辅助可变形物体规划。

具身智能数据/训练论文/研究

22:30

HuggingFace Daily Papers（社区热门论文）

HUG：基于流匹配的通用人类抓取模型

研究人员提出HUG，一种基于流匹配的模型，能从单张RGB-D图像生成多样化人类抓取姿态。团队利用智能眼镜收集了1M-HUG数据集（100万帧、27.8小时、6707个物体实例）。HUG融合RGB与深度观测，输出手腕平移、手腕旋转和MANO手部姿态，并可重定向至多种机器人手，实现零样本抓取。为标准化评估构建了HUG-Bench，含90个未见过物体（5种几何类别）。在30物体真实测试集上，HUG比SOTA基线高出23%和34%。代码、数据、基准、模型检查点和交互演示已发布。

具身智能数据/训练论文/研究

22:01

Nathan Lambert：Interconnects（RSS）

前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

DeepSeek 大佬观点开源生态推理

21:51

Nathan Lambert@natolambert

Nathan Lambert联合Finbarr Timbers发布新播客，调研GLM 5.1等模型后训练配方

Nathan Lambert与Finbarr Timbers合作推出新播客，系统调研GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5、Nemotron Ultra等模型的最新后训练方法。核心讨论包括：行业转向多教师在线策略蒸馏（MOPD）的原因；Olmo风格配方需改进的方向；后训练如何适配大型组织；以及在AGI早期阶段的职业建议。播客章节涵盖历史回顾、2026年模型配方（MiMo Flash、DeepSeek V4、GLM 5、Kimi K2.6等）及开放式后训练讨论。

DeepSeek 大佬观点数据/训练

21:18

TechCrunch：AI（RSS）

Probably 获 900 万美元种子轮，构建更可靠的 AI 错误检测系统

Probably 获得 Andreessen Horowitz 的 900 万美元种子轮融资，旨在构建严格错误检测系统，防止模型幻觉和事实错误，目标达到 99.99% 准确率。其首款产品是数据科学工具，能从复杂数据集快速生成答案，每个结果附带引用和审计追踪。工具通过确定性验证器系统（“数据科学机甲套装”）校验 LLM 初轮回答，仅返回与数据集匹配的结果。系统针对验证器进行了训练和优化；当前版本运行在比前沿模型弱四个等级的模型上，可在本地桌面硬件运行，大幅降低 token 成本。

推理数据/训练行业动态

21:01

IT之家（RSS）

微软CEO纳德拉警告：AI模型正掏空企业知识，少数巨头恐吞噬一切

微软CEO萨提亚·纳德拉在X上发文警告，AI模型正大量吸收企业知识，未来少数AI提供商可能拿走大部分经济价值，各行业将失去对自身知识资产的控制。他以全球化外包掏空工业经济作比，主张建立更开放、更分散的AI生态，让企业继续掌控学习系统。Snowflake CEO斯里达尔·拉马斯瓦米在2月播客中称，大型软件公司可能沦为AI大模型的数据来源；Box CEO亚伦·莱维在1月LinkedIn帖文中指出，当AI覆盖高层知识工作，公司差异化要靠上下文。

Microsoft 大佬观点数据/训练

20:59

François Chollet@fchollet

我们将创造强大AI开源且人人可用的未来的方法，是让AI在推理计算和（更重要的）训练数据需求方面大幅提高效率。这正是符号学习将实现的目标。

大佬观点推理数据/训练

16:28

HuggingFace Daily Papers（社区热门论文）

MMDiff：将冻结扩散Transformer扩展为多模态生成系统

MMDiff将冻结的扩散Transformer转化为多模态生成系统，仅用轻量解码器头部即可联合输出图像与任意组合的密集感知模态。研究发现感知信息沿去噪轨迹呈时间分布，多时间步特征融合配合空间变化聚合权重至关重要，可将语义分割结果提升28.7% mIoU（相比单时间步提取）。该方法还采用概念驱动的注意力提取实现可解释的空间引导，并证明冻结扩散特征与DINOv3等SOTA编码器互补且性能相当。仅训练轻量解码器，即在语义分割、显著目标检测和深度估计上取得强性能，并支持大规模合成数据生成。

多模态数据/训练论文/研究

16:28

HuggingFace Daily Papers（社区热门论文）

GD2PO：通过分组动态奖励解耦策略优化缓解多奖励冲突

大语言模型后训练强化学习需同时优化多个可能冲突的奖励维度。现有GDPO方法将整体分数分解为独立奖励组分别计算损失，但单个rollout在不同维度上可能产生正负相反的advantage，导致信号抵消。受DAPO启发，GD²PO引入冲突感知过滤机制，屏蔽奖励维度间严重不一致的rollout，防止信号抵消，同时保留并增强有效advantage幅度，加速学习。还采用查询级重加权动态调整各查询更新强度。在工具调用、人类偏好对齐等多奖励场景实验中，GD²PO显著优于现有基线。代码已开源。

智能体数据/训练论文/研究

16:28

HuggingFace Daily Papers（社区热门论文）

HABC：面向稀疏回合结果的分层优势加权在线RL微调方法

针对预训练VLA策略在线RL微调中回合结果仅含单一成功/失败二元标签的问题，HABC提出分层优势加权方法。它分别训练生存性与效率两个critic head，通过状态自适应门控合并优势，优先保证生存性，仅在成功确定时转向效率，并将合并结果转化为每步权重作用于actor loss。干预感知信用分配进一步限制结果标签于当前策略自主执行片段。在三个接触丰富的双手真实机器人任务上，HABC将成功率从监督微调基线的36%、44%、12%分别提升至92%、88%、38%。

具身智能数据/训练论文/研究

16:00

IT之家（RSS）

微软称保守假设下典型AI查询耗水量少于1滴水

微软6月15日博文引述《Joule》研究：典型AI查询耗电0.16–0.60瓦时（约40瓦电脑运行15–60秒），为先前文献的1/4–1/20；冷却用水0.0–0.067毫升，中位数约1/100茶匙，少于1滴。10亿次查询场景下基础耗电约0.7吉瓦时，经效率优化可降至约0.3吉瓦时；即使10%请求为长任务，能耗仍可下降过半。

数据/训练现象/趋势

13:27

HuggingFace Daily Papers（社区热门论文）

PauseRec：面向生成式推荐的轻量隐式推理范式

基于大语言模型（LLM）的生成式推荐（GR）使用语义ID（SID）表示物品，破坏了LLM的预训练自然语言推理接口。现有显式推理方法存在削弱世界知识表述、SID与自然语言token嵌入空间错位、依赖推理质量三个局限。PauseRec是一种轻量隐式推理范式，无需推理轨迹获取与对齐训练。相比标准显式CoT方法，PauseRec性能提升最高6.22%，训练GPU耗时减少65%，推理速度加快71.3%，成为更高效且有效的替代方案。

推理数据/训练论文/研究

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

12:27

HuggingFace Daily Papers（社区热门论文）

OneRank：面向多任务推荐的统一Transformer原生排序架构

OneRank是一种Transformer原生的多任务排序框架，消除编码器与预测器分离。前向通过任务条件信息选择、候选感知上下文化和受控跨任务交互自底向上学习任务特定表示；后向通过跨任务梯度隔离防止负迁移。采用动态匹配评分替代静态MLP评分器，实现上下文感知排序。大规模工业数据集上的离线和在线实验表明，OneRank优于基线且保持计算效率。

数据/训练论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

UniDDT：解耦扩散Transformer统一多模态理解与生成

UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码，并采用独立扩散解码器将扩散解码与文本解码解耦，以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构，利用生成与理解数据的相互依存关系。实验结果显示，视觉生成任务 GenEval 得分 0.87，DPG 得分 86.9；多模态理解任务 MME 得分 1699.5，SEEDbench 综合得分 76.5。

多模态数据/训练论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

TuneJury：开放的音乐生成偏好对齐奖励模型

TuneJury 是一个开放的实例级成对奖励模型，从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练，涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好，支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准，优于先前基线。引入 anchor calibration（事后、每系统的 Bradley-Terry 校准），以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。

多模态数据/训练论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

TIE：基于轨迹的掩码扩散语言模型集成框架

研究发现掩码扩散语言模型（MDLM）中，成功的生成在答案相关位置呈现稳定置信度动态，不可靠轨迹可通过注入其他模型的中间状态纠正。基于此，提出TIE（Trajectory-based Iterative Ensembling）框架，通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列，使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能，为MDLM集成提供了实用方案。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

轨迹级监督何时支持高效离线强化学习？

本文提出OPAC算法，从仅含轨迹级标签（标量回报）的离线数据中学习隐式奖励模型并优化策略。理论证明其高概率保证为tilde O(H^2C_{sa(π^star)}/n)并给出匹配下界。该框架可扩展至偏好反馈。进一步研究发现，当目标和监督均为轨迹级非线性聚合时，一般情形不可学习（全成功目标需Ω(2^H)条轨迹）；引入结构系数κ_μ(σ)和χ_μ(σ)后，广义OPAC可实现多项式样本复杂度。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信任正确的教师：面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD（在策略自蒸馏）虽能提供密集token级教师信号，但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏，通过软正确性感知门控和教师概率缩放改善信号质量：门控检查教师当前坐标预测能否在给定前缀下完成到真实框，否则降权；教师概率缩放用置信度校准监督强度。两个组件单独无效，组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv 多模态数据/训练论文/研究

07:59

IT之家（RSS）

AMD 收购 MEXT，为 AI 负载吃内存寻找降本新路径

6月15日，AMD宣布收购内存优化技术公司MEXT，旨在缓解数据中心内存瓶颈。MEXT通过内存分层将不常访问的数据从DRAM迁移至NAND闪存，利用闪存低成本扩大可用内存池。其预测性内存引擎借助AI模型分析访问模式，提前将可能调用的数据迁回DRAM，维持主内存级体验。该技术可提高内存利用率、减少对高价DRAM的依赖，降低总体拥有成本。

数据/训练行业动态部署/工程

07:19

Rohan Paul@rohanpaul_ai

Pythagoras-Prover 发布 4B 参数定理证明器及扩散模型概念验证版

Pythagoras-Prover 团队发布最小定理证明器 4B 版本及首个扩散模型概念验证版，均仅 4B 参数。在 MiniF2F 测试中，4B 模型以 86.1% Pass@32 超越 DeepSeek-Prover-V2-671B；32B 版本达 89.8% Pass@32 和 92.6% Pass@2024，创当前最佳成绩。核心在于数据效率：构造约 80 万 Lean 验证示例，按易到难训练，并采用 LoRA 微调避免全参数更新。模型上下文窗口为 8192 tokens。模型、数据及训练流水线将陆续开源。

Joshua Ong @ ICML: 🚀🚀 Introducing Pythagoras-Prover 🚀🚀 🔹 The smallest theorem prover to date - Pythagoras-Prover-4B 🔹 The first proof...

开源/仓库推理数据/训练模型发布

06:43

Nathan Lambert@natolambert

我发布了后训练课程中的另外3个视频！ 1. 第5讲：推理模型的崛起 2. 第6讲：DPO推导、直觉与实践 3. 读者关于第1-4讲的问答 rlhfbook dot com slash course 更多即将到来！

推理教程/实践数据/训练