全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1211 条

全部一手资讯 X 论文

标签「数据/训练」清除

5月8日周五

16:23Hugging Face：Blog（RSS）58精选MedQA：基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

14:16IT之家（RSS）61CoreWeave 2026 财年第一财季亏损 7.40 亿美元，同比亏损扩大 134.92%

11:22HuggingFace Daily Papers（社区热门论文）61无意义文本有助于推理：提示空间扰动拓宽探索范围

10:22HuggingFace Daily Papers（社区热门论文）66专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

10:22HuggingFace Daily Papers（社区热门论文）55Skill1：通过强化学习实现技能增强智能体的协同进化

10:22HuggingFace Daily Papers（社区热门论文）67UniPool：面向混合专家模型的全局共享专家池

08:16IT之家（RSS）60OpenAI 自研芯片项目遇阻：博通要求微软采购首批四成产能才愿出资

08:00HuggingFace Daily Papers（社区热门论文）49中训练阶段使用自生成数据提升语言模型强化学习效果

08:00HuggingFace Daily Papers（社区热门论文）46基于控制变量基线的大语言模型在线蒸馏稳定化方法

08:00HuggingFace Daily Papers（社区热门论文）50MC-RFM：基于混合曲率黎曼流匹配的几何感知少样本适应方法

08:00HuggingFace Daily Papers（社区热门论文）62FAAST：一种仅需前向传播的快速权重关联适应方法，用于测试时监督适应

08:00HuggingFace Daily Papers（社区热门论文）61单层解万象：理解大语言模型中的大规模激活现象

08:00HuggingFace Daily Papers（社区热门论文）56超越推理：强化学习解锁大语言模型中的参数化知识

08:00HuggingFace Daily Papers（社区热门论文）56语言模型自为评判者：基于执行者内部状态价值估计的强化学习

08:00HuggingFace Daily Papers（社区热门论文）51代码检索中的改写策略：何时及如何重写能提升性能？

08:00HuggingFace Daily Papers（社区热门论文）49可查询的LoRA：基于共享低秩更新原子与指令正则化的路由方法

08:00HuggingFace Daily Papers（社区热门论文）51SEIF：用于指令跟随的自进化强化学习

08:00HuggingFace Daily Papers（社区热门论文）64基于量规的在线策略蒸馏

08:00HuggingFace Daily Papers（社区热门论文）67以轨迹为师：基于能量导航蒸馏的少步离散流匹配

08:00HuggingFace Daily Papers（社区热门论文）53MatryoshkaLoRA：一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

08:00HuggingFace Daily Papers（社区热门论文）54AEM：面向多轮智能体强化学习的自适应熵调制方法

08:00HuggingFace Daily Papers（社区热门论文）55通过双层路由混合专家将持续学习扩展至300多个任务

08:00HuggingFace Daily Papers（社区热门论文）51各向异性模态对齐

08:00HuggingFace Daily Papers（社区热门论文）56快速字节潜在变换器

08:00HuggingFace Daily Papers（社区热门论文）54归一化轨迹模型

02:30Apple Machine Learning Research（RSS）69精选用于学习语义丰富视觉表征的文本条件JEPA

01:06Hacker News 热门（buzzing.cc 中文翻译）69借助 Unsloth 和 NVIDIA 加速大型语言模型的训练

5月7日周四

21:16IT之家（RSS）63法官裁定：英伟达相关脚本唯一用途就是协助实施版权侵权行为

16:16IT之家（RSS）52AMD：Instinct MI430X 显卡加速器 FP64 性能超英伟达 Rubin 六倍

16:16IT之家（RSS）46清华大学研发出全新锂硫电池：能量密度 549Wh/kg，无人机续航有望大提升

12:16IT之家（RSS）61OpenAI 携手英伟达等 5 大巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

11:22HuggingFace Daily Papers（社区热门论文）56PhysForge：为交互式虚拟世界生成基于物理的3D资产

10:22HuggingFace Daily Papers（社区热门论文）65D-OPSD：基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

08:04Hacker News 热门（buzzing.cc 中文翻译）65《深度学习理论》

08:04Hacker News 热门（buzzing.cc 中文翻译）52Show HN：《幻觉百科》

08:00HuggingFace Daily Papers（社区热门论文）48MobileEgo Anywhere：基于通用硬件的长时程自我中心数据开放基础设施

08:00HuggingFace Daily Papers（社区热门论文）44使用灯塔注意力进行长上下文预训练

08:00HuggingFace Daily Papers（社区热门论文）59高效预训练：令牌叠加训练法

08:00HuggingFace Daily Papers（社区热门论文）49信念空间动力学中可容许学习率步长的闭形式上界

08:00HuggingFace Daily Papers（社区热门论文）75精选反思强化学习对大语言模型推理的作用：是稀疏策略选择，而非能力学习

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月8日

16:23

Hugging Face：Blog（RSS）

精选58

MedQA：基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X（192 GB HBM3显存）和ROCm，通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本，约5分钟完成，仅更新约220万参数（占模型总参数的0.1443%），全程采用fp16精度，无需量化。HuggingFace生态（Transformers、PEFT、TRL、Accelerate）在ROCm上无缝运行，无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face 开源生态教程/实践数据/训练

推荐理由：一个月前的教程了，但如果你是 AMD 党想跑医疗微调，这篇把坑都踩完了，代码直接能复现，LoRA 适配器也挂在 Hub 上，拿来就能用。

14:16

IT之家（RSS）

61

CoreWeave 2026 财年第一财季亏损 7.40 亿美元，同比亏损扩大 134.92%

CoreWeave发布2026财年第一财季报告，营业总收入达20.78亿美元，同比大幅增长111.61%。然而，公司归母净利润亏损7.40亿美元，同比亏损扩大134.92%。尽管利润端承压，经营现金流大幅改善至29.84亿美元。公司收入积压订单高达994亿美元，并与Meta签署了价值210亿美元的新合作协议。为支持算力扩张，公司获得了英伟达20亿美元投资及85亿美元贷款融资。

数据/训练行业动态

11:22

HuggingFace Daily Papers（社区热门论文）

61

无意义文本有助于推理：提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”，本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列，对提示空间进行扰动，从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明，该方法显著优于使用原始提示的重采样策略。分析进一步证实，其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

66

专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环，其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是，谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后，人类未干预搜索过程。在总计1797次试验中，该循环使参数高尔夫的验证bpb降低0.81%，将NanoChat-D12 CORE提升38.7%，并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术，从而改进公开的初始方案。

智能体 arXiv 数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

55

Skill1：通过强化学习实现技能增强智能体的协同进化

Skill1 是一个统一训练单一策略的框架，旨在协同进化技能选择、使用与提炼三项能力，以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务，并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号：其低频趋势为技能选择提供反馈，高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明，Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化，消融实验显示移除任一反馈信号都会损害整体进化效果。

智能体数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

67

UniPool：面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家，导致参数量随深度线性增长。研究发现深层路由功能冗余，因此提出UniPool架构，采用一个全局共享的专家池供所有层访问，取代分层独立设计。通过池级辅助损失平衡专家使用，并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明，UniPool持续提升了验证损失。关键的是，共享池设计将池大小确立为深度缩放超参数：仅使用基线41.6%-66.7%专家参数的缩减池变体，性能达到或超越了传统分层MoE，证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究

08:16

IT之家（RSS）

60

OpenAI 自研芯片项目遇阻：博通要求微软采购首批四成产能才愿出资

OpenAI与博通联合研发AI芯片项目“Nexus”陷入僵局。博通要求微软承诺采购首批芯片约40%的产能，才愿为首期建设出资。项目首期需1.3吉瓦算力，成本约180亿美元；总规模达10吉瓦，旨在2030年前上线以减少对英伟达依赖。OpenAI视自研芯片为降低运营成本关键，但微软尚未同意采购。若微软采购未达标，OpenAI需自行寻找其他买家。此前OpenAI与英伟达的类似千亿美元合作也已无果。

Microsoft OpenAI 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

49

中训练阶段使用自生成数据提升语言模型强化学习效果

本文研究在中训练阶段引入自生成多样化数据对强化学习（RL）的增益。该方法基于波利亚解题策略，为每个问题生成多种正确答案变体并微调。理论分析表明，这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证，经此中训练初始化后再进行RL的模型，在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题，本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题，并引入一个控制变量基线（即价值函数）来稳定训练。该价值函数具有闭式解，即学生与教师模型间的逐令牌反向KL散度，无需额外计算。通过减去该基线，vOPD在保持梯度无偏的同时显著降低了方差。实验表明，在数学与科学推理任务上，vOPD性能持续优于原始在线蒸馏，并能匹配计算成本更高的全词表基线方法，实现了高效且稳定的训练。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

MC-RFM：基于混合曲率黎曼流匹配的几何感知少样本适应方法

MC-RFM提出一个轻量级混合曲率黎曼流匹配框架，用于冻结视觉骨干的少样本适应。它将适应特征表示为双曲与欧几里得空间的乘积流形，分别捕获层次化语义与局部判别性特征，并将适应过程建模为从冻结特征到支持集原型的任务条件连续传输。该方法完全基于缓存特征操作，在七个视觉基准、五种骨干和不同样本量设置下表现优异，尤其在Transformer骨干和细粒度数据集上提升显著。消融实验验证了混合曲率设计、任务条件等关键组件的有效性，表明少样本适应需在匹配下游任务结构的几何空间中建模特征移动。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

FAAST：一种仅需前向传播的快速权重关联适应方法，用于测试时监督适应

FAAST提出了一种仅需前向传播的关联适应方法，通过解析方式将标注样本单次编译为快速权重，无需依赖记忆或上下文。该方法实现了恒定时间推理，并将任务适应与预训练表征解耦。在图像分类和语言建模基准测试中，FAAST性能匹配或超过基于反向传播的适应方法，同时将适应时间减少90%以上；与基于记忆/上下文的适应方法相比性能相当，但内存使用量最高可节省95%。这为监督任务适应提供了一个高效、可扩展的解决方案，尤其适用于资源受限的模型。

arXiv 数据/训练端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

单层解万象：理解大语言模型中的大规模激活现象

研究揭示了大语言模型中大规模激活现象的起源，识别出一个普遍存在于不同模型家族中的“大规模涌现层”。该层中，RMSNorm与前馈网络参数共同触发了大规模激活，随后通过残差连接传播至更深层。这导致相关令牌表征在后续层中趋于僵化，降低了传递给注意力模块的隐藏表征多样性。为此，研究者提出一种简单有效的方法来降低此类表征的刚性。该方法在无需训练和微调两种设置下，均能持续提升模型在指令遵循与数学推理等任务上的性能，并通过选择性削弱注意力汇聚点的影响，从隐藏状态层面阐明了问题根源，为基于原理的缓解策略提供了新思路。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

超越推理：强化学习解锁大语言模型中的参数化知识

本研究在零样本、单跳、闭卷问答的严格设置下，探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明，仅使用二元正确性奖励进行训练，即可在多个模型和事实问答基准上带来约27%的平均相对性能提升，超越多种基线方法。机制分析发现，强化学习主要重新分配模型已有知识的概率质量，将正确答案从低概率区域移至可靠生成范围，而非学习新事实。数据归因研究进一步揭示，约18%的最困难训练样本（其答案在强化学习前的多次采样中从未出现）贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

语言模型自为评判者：基于执行者内部状态价值估计的强化学习

研究团队提出POISE方法，以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针，利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计，在线预测可验证奖励的期望值。其关键设计是跨轨迹构造，在保持梯度无偏的同时，仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性，降低了梯度方差，使学习更稳定，并省去了检测零优势提示的额外采样开销。在数学推理基准测试中，POISE以更少计算量达到了与DAPO相当的性能，其价值估计器性能接近独立的LLM规模价值模型，并能泛化至多种可验证任务。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

代码检索中的改写策略：何时及如何重写能提升性能？

本研究系统评估了风格化重述、自然语言增强伪代码和完整自然语言转录三种代码检索改写策略。研究发现，对查询和语料库进行联合的完整自然语言改写能带来最大收益，而仅改写语料库则在多数情况下会损害检索性能。研究引入了词元熵变化（Delta H）这一诊断指标，它能有效预测改写收益，可作为决定是否进行改写的低成本代理指标。分析指出，大语言模型改写最适合作为轻量级编码器处理代码主导查询时的补救层，对于强大编码器或自然语言为主的查询则收益递减。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

可查询的LoRA：基于共享低秩更新原子与指令正则化的路由方法

本文提出一种数据自适应的参数高效微调方法，以改进静态低秩适应（LoRA）的局限性。该方法用一组可查询的共享低秩更新原子取代每层独立的适配器，允许模型根据当前层状态和前面层的运行摘要，通过注意力机制动态检索并组合这些更新组件，从而在保持低秩瓶颈效率的同时，实现跨输入和跨层的动态、上下文感知的参数更新。此外，方法引入指令正则化，通过语言引导的先验偏置路由逻辑，使低秩变换更倾向于语义相关方向。实验表明，该方法在使用相近可训练参数量的情况下，相比标准LoRA能提升最终测试性能和训练稳定性。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

SEIF：用于指令跟随的自进化强化学习

指令跟随是大语言模型的基本能力，但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此，研究团队提出SEIF框架，通过自进化循环提升指令跟随能力。SEIF包含四个角色：生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower，以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化，使指令难度与模型能力相互促进。实验显示，SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现，有效训练策略是在早期充分训练以打下基础，后期适度训练以避免过拟合。相关代码与数据已开源。

开源/仓库推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

基于量规的在线策略蒸馏

针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题，本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率，仅需教师生成的响应即可工作，实现了黑盒兼容。ROPD通过对比师生响应差异，自动生成针对特定提示的量规，并据此对学生模型输出进行评分与在线策略优化。实验证明，该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法，样本效率最高可提升10倍，为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。

arXiv GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

67

以轨迹为师：基于能量导航蒸馏的少步离散流匹配

针对离散流匹配生成文本需数百步迭代的问题，本研究提出轨迹塑形离散流匹配方法。传统蒸馏中，由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”，在训练时评估并选择最连贯的候选序列来引导轨迹生成，此过程仅增加训练成本。在1.7亿参数语言建模任务中，经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍，且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度，包括使用更多数据或更大模型的方案。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

MatryoshkaLoRA：一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

针对低秩适应（LoRA）微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题，研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P，来相应地缩放其子秩，从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息，支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”（AURAC）评估指标。实验表明，该方法相比现有秩自适应方法能学习到更精确的表示，并在多个数据集上实现了更优的精度与性能权衡。代码已开源。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

AEM：面向多轮智能体强化学习的自适应熵调制方法

针对多轮任务中稀疏奖励导致的信用分配难题，本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级，以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理，并利用其重新缩放优势函数，通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明，AEM能持续提升多种强RL基线性能，集成至先进软件工程训练框架时可实现+1.4%的性能增益。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

通过双层路由混合专家将持续学习扩展至300多个任务

研究团队提出名为CaRE的持续学习模型，其核心是创新的双层路由混合专家（BR-MoE）机制。该机制通过动态激活任务特定路由器和专家网络，将判别性与综合性特征注入模型各层，有效平衡了学习的稳定性与可塑性。为评估长任务序列性能，团队发布了包含数百个任务的OmniBenchmark-1K数据集。实验表明，CaRE在经典任务序列（5-20个任务）及超长序列（100至300多个非重叠任务）上均大幅领先现有基线，成为首个可扩展至300多个任务的持续学习器。代码与数据集已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

各向异性模态对齐

多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练，但跨模态表示互换性受模态鸿沟阻碍。研究发现，模态鸿沟并非全局偏移，而是集中于少数主导方向的各向异性残差结构。基于此，提出各向异性模态对齐原则，设计几何校正框架AnisoAlign，利用目标模态内部几何先验对源模态表示进行有界校正，构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性，将模态鸿沟转化为可校正的结构化几何现象，为单模态数据训练多模态模型提供新对齐视角。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

快速字节潜在变换器

针对字节级语言模型自回归生成速度慢的问题，Byte Latent Transformer (BLT) 提出了新的训练与生成技术。其核心是最快的变体 BLT Diffusion (BLT-D)，它结合块级扩散目标与下一个字节预测损失，能在每个解码步骤并行生成多个字节，大幅减少前向传播次数。此外，受推测解码启发，研究提出了两种在速度与质量间权衡的扩展：BLT Self-speculation (BLT-S) 让局部解码器起草超出常规边界的字节后进行单次验证；BLT Diffusion+Verification (BLT-DV) 则在扩散生成后增加自回归验证步骤。这些方法在生成任务上的预估内存带宽成本可比原始 BLT 降低超过 50%，共同为字节级模型的实际应用扫清了关键障碍。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

归一化轨迹模型

针对扩散模型在少步采样时假设失效的问题，研究团队提出了归一化轨迹模型（NTM）。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流，其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器，支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏，仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中，NTM仅用四步采样就能匹配或超越现有强基线，并独特地保持了生成轨迹的精确似然。

图像生成数据/训练论文/研究

02:30

Apple Machine Learning Research（RSS）

精选69

用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构（TC-JEPA），通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器，对输入文本标记计算稀疏交叉注意力，从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比，TC-JEPA能够学习到语义更丰富的视觉表征，解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由：Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练，用稀疏交叉注意力减少预测不确定性，对多模态表征学习是个不错的思路补充，做视觉模型的值得一看。

01:06

Hacker News 热门（buzzing.cc 中文翻译）

69

借助 Unsloth 和 NVIDIA 加速大型语言模型的训练

Unsloth与NVIDIA合作推出优化方案，显著加速大型语言模型训练。该方案通过集成NVIDIA TensorRT-LLM等工具，使模型训练速度提升最高达5倍，内存占用减少达80%，同时保持模型性能无损。此举旨在降低大模型训练的计算成本与时间门槛，助力开发者更高效地进行模型迭代与应用部署。

教程/实践数据/训练

5月7日

21:16

IT之家（RSS）

63

法官裁定：英伟达相关脚本唯一用途就是协助实施版权侵权行为

美国联邦法官裁定，针对英伟达的人工智能间接侵权诉讼将继续推进。法官驳回了英伟达大部分驳回诉讼的请求，并认定其分发给客户、用于自动下载并预处理The Pile数据集的专属脚本“除协助实施侵权行为外，没有任何其他用途”。该裁决首次适用最高法院考克斯诉索尼案的新标准，认定英伟达脚本同时满足“诱导侵权”和“专为侵权设计”两项间接侵权判定标准。英伟达要求删除诉状中所有BitTorrent相关表述的申请也被否决。

政策/监管数据/训练

16:16

IT之家（RSS）

52

AMD：Instinct MI430X 显卡加速器 FP64 性能超英伟达 Rubin 六倍

AMD 预览了 Instinct MI400 系列中的 MI430X 加速器，该产品已获多款超算采用。与侧重AI的MI455X不同，MI430X兼顾人工智能与传统高性能计算工作负载，并原生支持FP64高精度数据格式。其FP64算力预计超过200 TFLOPs，是英伟达Rubin架构的六倍以上，有望成为有史以来性能最高的FP64 GPU。AMD强调，FP64高精度对于气候学、材料科学等领域的科学探索至关重要，能为基于AI的研究提供高保真基础，以捕获底层科学的真实结构。

产品更新数据/训练

16:16

IT之家（RSS）

46

清华大学研发出全新锂硫电池：能量密度 549Wh/kg，无人机续航有望大提升

清华大学深圳国际研究生院周光敏团队在《自然》发表研究，提出硫电化学“预分子介体”新策略。团队利用量子化学与机器学习，从196种候选分子中筛选出“4-三氟甲基-2-氯嘧啶”。该分子可在电池反应中被原位激活，重塑硫转化路径，将电荷转移阻抗降低75%，并使电池在1C倍率下稳定循环800圈后容量保持率达81.7%。制备的软包电池能量密度达549Wh/kg，在高硫载、贫电解液条件下性能优越，有望大幅提升无人机等设备的续航能力。

数据/训练论文/研究

12:16

IT之家（RSS）

61

OpenAI 携手英伟达等 5 大巨头发布 MRC 协议，重塑大规模 AI 训练网络架构

OpenAI联合AMD、博通、英特尔、微软和英伟达，通过开放计算项目（OCP）开源了多路径可靠连接（MRC）协议。该协议旨在解决大规模AI训练中的网络延迟和故障问题。MRC基于RoCE标准扩展，结合SRv6技术，采用多平面网络设计，仅需两层交换机即可连接约13.1万块GPU，降低了网络功耗与成本。其自适应数据包喷淋技术可将数据分散至数百条路径并行传输，避免核心拥塞。同时，协议采用SRv6源路由简化控制，使网络故障恢复时间从秒级缩短至微秒级。MRC已应用于NVIDIA GB200超级计算机及Oracle Cloud Infrastructure站点。

OpenAI 开源生态数据/训练行业动态

11:22

HuggingFace Daily Papers（社区热门论文）

56

PhysForge：为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈，现有方法多忽视功能性。本文提出PhysForge，一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段，视觉语言模型担任“物理架构师”，规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段，基于物理的扩散模型通过新颖的运动体素注入机制，合成高保真几何与精确运动学参数。实验证明，PhysForge能生成功能合理、可直接仿真的资产，为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv 具身智能多模态数据/训练

10:22

HuggingFace Daily Papers（社区热门论文）

65

D-OPSD：基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型（如Z-Image-Turbo）在持续监督微调中会损害其固有少步推理能力的问题，本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点，将训练构建为在线策略自蒸馏过程：模型同时扮演教师（以文本和图像多模态特征为条件）和学生（仅以文本特征为条件）双重角色，并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格，同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究

08:04

Hacker News 热门（buzzing.cc 中文翻译）

65

《深度学习理论》

一篇题为《深度学习理论》的文章在Hacker News上获得103点热度。文章探讨了深度学习的理论基础，旨在为这一复杂领域构建更系统的理解框架。尽管具体理论细节未在摘要中展开，但其核心目标指向解释深度神经网络为何有效以及如何工作，这反映了学术界和工业界对超越经验性实践、寻求坚实理论支撑的持续追求。

推理数据/训练论文/研究

08:04

Hacker News 热门（buzzing.cc 中文翻译）

52

Show HN：《幻觉百科》

名为《幻觉百科》的新网站Halupedia正式发布，这是一个专注于收集和记录人工智能生成内容中各类“幻觉”现象的在线百科。网站旨在系统化归类AI模型产生的事实错误、逻辑矛盾或虚构信息，为开发者和研究者提供参考案例以改善模型可靠性。目前该平台已获得106个Hacker News社区点赞，显示出技术社区对此类工具的关注。

产品更新数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

48

MobileEgo Anywhere：基于通用硬件的长时程自我中心数据开放基础设施

为解决VLA模型对长时程自我中心数据的需求与现有短时程数据集之间的矛盾，本文提出MobileEgo Anywhere框架。该框架利用智能手机传感器实现高精度位姿追踪，降低了数据采集的硬件门槛。主要贡献包括：发布了一个包含200小时多样化长时程轨迹的数据集，开源了移动数据采集应用，并提供了将原始数据转换为标准训练格式的完整处理流程。这实现了跨全球环境的大规模长时程数据获取，为机器人策略研究提供了关键数据支持。

arXiv 具身智能开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

44

使用灯塔注意力进行长上下文预训练

为克服因果变换器在超长序列训练中因SDPA注意力二次复杂度导致的计算瓶颈，研究团队提出了一种仅用于训练、可移除的新型注意力机制——灯塔注意力。该方法通过亚二次复杂度的序列自适应压缩/解压缩预处理、能并行处理查询/键/值的对称压缩策略，以及“灯塔预训练+短期完整注意力恢复”的两阶段流程，在保持因果性的同时提升效率。初步小规模LLM预训练实验表明，该方法在相同设置下能实现更快的总训练时间，并在恢复阶段后获得更低的最终损失。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

高效预训练：令牌叠加训练法

研究团队提出令牌叠加训练法，这是一种即插即用的高效预训练方法。该方法无需改动模型架构、并行策略等核心组件，通过将连续令牌合并为包并进行多热交叉熵目标训练，随后恢复标准训练的两阶段设计，显著提升了数据吞吐效率。在2.7亿至100亿参数的不同模型规模上验证表明，该方法具有高度鲁棒性，能持续优于基线模型的损失表现与下游任务结果。在同等损失条件下，该方法在100亿参数规模上实现了预训练总时间最多减少2.5倍的成效。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

信念空间动力学中可容许学习率步长的闭形式上界

研究将学习率步长从超参数提升为可计算量。在概率单纯形上，当更新被建模为投影前向步时，可容许性意味着在自然KL/Bregman几何中的收缩性。该模型表明，可容许步长的上界并非调参口号，而是一个明确的闭形公式。这一成果为优化算法提供了基于几何结构的理论步长界限，将步长选择从经验调优转向可计算的局部信念空间动力学。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

反思强化学习对大语言模型推理的作用：是稀疏策略选择，而非能力学习

研究发现，强化学习改进大语言模型推理时，并非教授新策略，而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上，且所提升的token始终位于基础模型前5个备选之中。基于此，研究者提出无需强化学习的ReasonMaxxer方法，仅在熵选通的决策点施加对比损失，仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中，该方法达到或超越了完整强化学习的性能，而训练仅需数十道题目、数分钟的单GPU时间，成本降低约三个数量级。

arXiv 推理数据/训练论文/研究

推荐理由：这篇论文直接挑战当前主流 RL 训练范式，认为 RL 只是在选择已有策略而非学习新能力，并给出千分之一成本就能追平的替代方案，做 reasoning 的同行可以认真读一下。

1…19 202122 23…31