全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

5月9日周六

00:34HuggingFace Daily Papers（社区热门论文）57StraTA：通过战略轨迹抽象激励智能体强化学习

00:34Hugging Face：Blog（RSS）72精选EMO：为涌现模块化预训练的专家混合模型

00:25Yuchen Jin63Databricks Genie数据智能体准确率突破91.6%

5月8日周五

23:47AK61新型扩散语言模型研究发布

23:47AK61MARBLE实现扩散模型多维度奖励平衡

19:29HuggingFace Daily Papers（社区热门论文）59BioTool：一个用于增强大语言模型生物医学能力的综合性工具调用数据集

16:23HuggingFace Daily Papers（社区热门论文）55TIDE：让每一层都知晓上下文之下的令牌身份

16:23Hugging Face：Blog（RSS）58精选MedQA：基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

14:16IT之家（RSS）61CoreWeave 2026 财年第一财季亏损 7.40 亿美元，同比亏损扩大 134.92%

11:22HuggingFace Daily Papers（社区热门论文）61无意义文本有助于推理：提示空间扰动拓宽探索范围

10:22HuggingFace Daily Papers（社区热门论文）66专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

10:22HuggingFace Daily Papers（社区热门论文）55Skill1：通过强化学习实现技能增强智能体的协同进化

10:22HuggingFace Daily Papers（社区热门论文）67UniPool：面向混合专家模型的全局共享专家池

08:16IT之家（RSS）60OpenAI 自研芯片项目遇阻：博通要求微软采购首批四成产能才愿出资

08:00HuggingFace Daily Papers（社区热门论文）49中训练阶段使用自生成数据提升语言模型强化学习效果

08:00HuggingFace Daily Papers（社区热门论文）46基于控制变量基线的大语言模型在线蒸馏稳定化方法

08:00HuggingFace Daily Papers（社区热门论文）50MC-RFM：基于混合曲率黎曼流匹配的几何感知少样本适应方法

08:00HuggingFace Daily Papers（社区热门论文）62FAAST：一种仅需前向传播的快速权重关联适应方法，用于测试时监督适应

08:00HuggingFace Daily Papers（社区热门论文）61单层解万象：理解大语言模型中的大规模激活现象

08:00HuggingFace Daily Papers（社区热门论文）56超越推理：强化学习解锁大语言模型中的参数化知识

08:00HuggingFace Daily Papers（社区热门论文）56语言模型自为评判者：基于执行者内部状态价值估计的强化学习

08:00HuggingFace Daily Papers（社区热门论文）51代码检索中的改写策略：何时及如何重写能提升性能？

08:00HuggingFace Daily Papers（社区热门论文）49可查询的LoRA：基于共享低秩更新原子与指令正则化的路由方法

08:00HuggingFace Daily Papers（社区热门论文）51SEIF：用于指令跟随的自进化强化学习

08:00HuggingFace Daily Papers（社区热门论文）64基于量规的在线策略蒸馏

08:00HuggingFace Daily Papers（社区热门论文）67以轨迹为师：基于能量导航蒸馏的少步离散流匹配

08:00HuggingFace Daily Papers（社区热门论文）53MatryoshkaLoRA：一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

08:00HuggingFace Daily Papers（社区热门论文）54AEM：面向多轮智能体强化学习的自适应熵调制方法

08:00HuggingFace Daily Papers（社区热门论文）55通过双层路由混合专家将持续学习扩展至300多个任务

08:00HuggingFace Daily Papers（社区热门论文）51各向异性模态对齐

08:00HuggingFace Daily Papers（社区热门论文）56快速字节潜在变换器

08:00HuggingFace Daily Papers（社区热门论文）54归一化轨迹模型

05:06SemiAnalysis50DeepSeek突破浮点运算非确定性难题

02:40Nathan Lambert63开放算法配方是高效利用算力的关键

02:30Apple Machine Learning Research（RSS）69精选用于学习语义丰富视觉表征的文本条件JEPA

01:06SemiAnalysis51芯片公司罕见低调宣传，参数竟被低估八倍

01:06Hacker News 热门（buzzing.cc 中文翻译）69借助 Unsloth 和 NVIDIA 加速大型语言模型的训练

00:31Chubby♨️57算力竞赛的核心：从硬件占有到消化效率的转变

00:10Nathan Lambert72探访中国AI实验室：资源有限下的LLM建设文化

5月7日周四

21:16IT之家（RSS）63法官裁定：英伟达相关脚本唯一用途就是协助实施版权侵权行为

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月9日

00:34

HuggingFace Daily Papers（社区热门论文）

57

StraTA：通过战略轨迹抽象激励智能体强化学习

研究提出战略轨迹抽象（StraTA）框架，将显式的轨迹级策略引入智能体强化学习，以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略，使后续动作基于该策略执行，并通过分层GRPO式训练设计联合优化策略生成与动作执行，辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明，StraTA在样本效率和最终性能上均稳定超越基线模型，在ALFWorld上达到93.1%的成功率，在WebShop上取得84.2%的成功率，在SciWorld上以63.5%的综合得分超越前沿闭源模型。

智能体数据/训练论文/研究

00:34

Hugging Face：Blog（RSS）

精选72

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face 开源生态数据/训练模型发布

推荐理由：EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化，仅用 12.5% 专家就能接近全模型性能，对需要按需加载的大模型部署是真正的突破。

00:25

Yuchen Jin@Yuchenj_UW

63

Databricks AI研究团队指出，构建数据智能体比代码智能体更困难，因为后者有可验证的测试，而前者需在海量表格、文档和仪表盘中寻找"真相"。其开发的Genie在企业数据分析任务中达到91.6%的准确率，远超领先代码智能体32%的表现。关键方法结合了专门知识搜索、并行思考与多LLM架构。据团队介绍，Genie已显著改变Databricks用户的数据工作方式，其准确率是通用智能体的三倍。

Matei Zaharia: Genie has transformed how Databricks users work with data, with 3x the accuracy of generic agents. We're sharing some of...

智能体数据/训练论文/研究

5月8日

23:47

AK@_akhaliq

61

连续潜在扩散语言模型 paper： https://huggingface.co/papers/2605.06548

数据/训练论文/研究

23:47

AK@_akhaliq

61

MARBLE 扩散RL的多维度奖励平衡论文： https://huggingface.co/papers/2605.06507

数据/训练论文/研究

19:29

HuggingFace Daily Papers（社区热门论文）

59

BioTool：一个用于增强大语言模型生物医学能力的综合性工具调用数据集

为提升大语言模型在生物医学领域的工具调用能力，研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具，包含7,040个经人工验证的高质量查询-API调用对，覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后，其在生物医学工具调用上的性能显著提升，甚至超越了GPT-5.1等先进商业模型。人类专家评估证实，集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。

智能体 arXiv 数据/训练论文/研究

16:23

HuggingFace Daily Papers（社区热门论文）

55

TIDE：让每一层都知晓上下文之下的令牌身份

研究指出，现代大语言模型普遍存在“单次令牌注入”设计缺陷，即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此，我们提出了TIDE方法，通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量，并通过一个深度条件软路由将其注入到每一层。理论与实验证明，TIDE能有效缓解上述问题，并在多种语言建模及下游任务中提升模型性能。

数据/训练论文/研究

16:23

Hugging Face：Blog（RSS）

精选58

MedQA：基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X（192 GB HBM3显存）和ROCm，通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本，约5分钟完成，仅更新约220万参数（占模型总参数的0.1443%），全程采用fp16精度，无需量化。HuggingFace生态（Transformers、PEFT、TRL、Accelerate）在ROCm上无缝运行，无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face 开源生态教程/实践数据/训练

推荐理由：一个月前的教程了，但如果你是 AMD 党想跑医疗微调，这篇把坑都踩完了，代码直接能复现，LoRA 适配器也挂在 Hub 上，拿来就能用。

14:16

IT之家（RSS）

61

CoreWeave 2026 财年第一财季亏损 7.40 亿美元，同比亏损扩大 134.92%

CoreWeave发布2026财年第一财季报告，营业总收入达20.78亿美元，同比大幅增长111.61%。然而，公司归母净利润亏损7.40亿美元，同比亏损扩大134.92%。尽管利润端承压，经营现金流大幅改善至29.84亿美元。公司收入积压订单高达994亿美元，并与Meta签署了价值210亿美元的新合作协议。为支持算力扩张，公司获得了英伟达20亿美元投资及85亿美元贷款融资。

数据/训练行业动态

11:22

HuggingFace Daily Papers（社区热门论文）

61

无意义文本有助于推理：提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”，本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列，对提示空间进行扰动，从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明，该方法显著优于使用原始提示的重采样策略。分析进一步证实，其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

66

专家智能体驱动的自动化研究开发出高效且非平凡的训练方案

研究构建了一个由外部测量驱动的封闭式自动研究循环，其核心是专家智能体。该循环产出包含提案、代码差异、实验和失败标签的可审计轨迹。关键发现是，谱系反馈能使智能体将评估结果转化为后续程序级的方案修改。在一次性设置后，人类未干预搜索过程。在总计1797次试验中，该循环使参数高尔夫的验证bpb降低0.81%，将NanoChat-D12 CORE提升38.7%，并将CIFAR-10 Airbench96的挂钟时间减少4.59%。循环能自主编写代码、提交实验、吸收反馈并组合已知技术，从而改进公开的初始方案。

智能体 arXiv 数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

55

Skill1：通过强化学习实现技能增强智能体的协同进化

Skill1 是一个统一训练单一策略的框架，旨在协同进化技能选择、使用与提炼三项能力，以共同优化任务完成目标。该策略通过查询技能库、重排序候选技能、在选定技能条件下执行任务，并从轨迹中提炼新技能。所有学习仅源于单一的任务结果反馈信号：其低频趋势为技能选择提供反馈，高频变化则指导技能提炼。在 ALFWorld 和 WebShop 环境上的实验表明，Skill1 超越了现有基于技能的方法和强化学习基线。训练动态证实了三项能力的协同进化，消融实验显示移除任一反馈信号都会损害整体进化效果。

智能体数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

67

UniPool：面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家，导致参数量随深度线性增长。研究发现深层路由功能冗余，因此提出UniPool架构，采用一个全局共享的专家池供所有层访问，取代分层独立设计。通过池级辅助损失平衡专家使用，并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明，UniPool持续提升了验证损失。关键的是，共享池设计将池大小确立为深度缩放超参数：仅使用基线41.6%-66.7%专家参数的缩减池变体，性能达到或超越了传统分层MoE，证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究

08:16

IT之家（RSS）

60

OpenAI 自研芯片项目遇阻：博通要求微软采购首批四成产能才愿出资

OpenAI与博通联合研发AI芯片项目“Nexus”陷入僵局。博通要求微软承诺采购首批芯片约40%的产能，才愿为首期建设出资。项目首期需1.3吉瓦算力，成本约180亿美元；总规模达10吉瓦，旨在2030年前上线以减少对英伟达依赖。OpenAI视自研芯片为降低运营成本关键，但微软尚未同意采购。若微软采购未达标，OpenAI需自行寻找其他买家。此前OpenAI与英伟达的类似千亿美元合作也已无果。

Microsoft OpenAI 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

49

中训练阶段使用自生成数据提升语言模型强化学习效果

本文研究在中训练阶段引入自生成多样化数据对强化学习（RL）的增益。该方法基于波利亚解题策略，为每个问题生成多种正确答案变体并微调。理论分析表明，这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证，经此中训练初始化后再进行RL的模型，在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题，本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题，并引入一个控制变量基线（即价值函数）来稳定训练。该价值函数具有闭式解，即学生与教师模型间的逐令牌反向KL散度，无需额外计算。通过减去该基线，vOPD在保持梯度无偏的同时显著降低了方差。实验表明，在数学与科学推理任务上，vOPD性能持续优于原始在线蒸馏，并能匹配计算成本更高的全词表基线方法，实现了高效且稳定的训练。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

MC-RFM：基于混合曲率黎曼流匹配的几何感知少样本适应方法

MC-RFM提出一个轻量级混合曲率黎曼流匹配框架，用于冻结视觉骨干的少样本适应。它将适应特征表示为双曲与欧几里得空间的乘积流形，分别捕获层次化语义与局部判别性特征，并将适应过程建模为从冻结特征到支持集原型的任务条件连续传输。该方法完全基于缓存特征操作，在七个视觉基准、五种骨干和不同样本量设置下表现优异，尤其在Transformer骨干和细粒度数据集上提升显著。消融实验验证了混合曲率设计、任务条件等关键组件的有效性，表明少样本适应需在匹配下游任务结构的几何空间中建模特征移动。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

FAAST：一种仅需前向传播的快速权重关联适应方法，用于测试时监督适应

FAAST提出了一种仅需前向传播的关联适应方法，通过解析方式将标注样本单次编译为快速权重，无需依赖记忆或上下文。该方法实现了恒定时间推理，并将任务适应与预训练表征解耦。在图像分类和语言建模基准测试中，FAAST性能匹配或超过基于反向传播的适应方法，同时将适应时间减少90%以上；与基于记忆/上下文的适应方法相比性能相当，但内存使用量最高可节省95%。这为监督任务适应提供了一个高效、可扩展的解决方案，尤其适用于资源受限的模型。

arXiv 数据/训练端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

单层解万象：理解大语言模型中的大规模激活现象

研究揭示了大语言模型中大规模激活现象的起源，识别出一个普遍存在于不同模型家族中的“大规模涌现层”。该层中，RMSNorm与前馈网络参数共同触发了大规模激活，随后通过残差连接传播至更深层。这导致相关令牌表征在后续层中趋于僵化，降低了传递给注意力模块的隐藏表征多样性。为此，研究者提出一种简单有效的方法来降低此类表征的刚性。该方法在无需训练和微调两种设置下，均能持续提升模型在指令遵循与数学推理等任务上的性能，并通过选择性削弱注意力汇聚点的影响，从隐藏状态层面阐明了问题根源，为基于原理的缓解策略提供了新思路。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

超越推理：强化学习解锁大语言模型中的参数化知识

本研究在零样本、单跳、闭卷问答的严格设置下，探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明，仅使用二元正确性奖励进行训练，即可在多个模型和事实问答基准上带来约27%的平均相对性能提升，超越多种基线方法。机制分析发现，强化学习主要重新分配模型已有知识的概率质量，将正确答案从低概率区域移至可靠生成范围，而非学习新事实。数据归因研究进一步揭示，约18%的最困难训练样本（其答案在强化学习前的多次采样中从未出现）贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

语言模型自为评判者：基于执行者内部状态价值估计的强化学习

研究团队提出POISE方法，以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针，利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计，在线预测可验证奖励的期望值。其关键设计是跨轨迹构造，在保持梯度无偏的同时，仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性，降低了梯度方差，使学习更稳定，并省去了检测零优势提示的额外采样开销。在数学推理基准测试中，POISE以更少计算量达到了与DAPO相当的性能，其价值估计器性能接近独立的LLM规模价值模型，并能泛化至多种可验证任务。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

代码检索中的改写策略：何时及如何重写能提升性能？

本研究系统评估了风格化重述、自然语言增强伪代码和完整自然语言转录三种代码检索改写策略。研究发现，对查询和语料库进行联合的完整自然语言改写能带来最大收益，而仅改写语料库则在多数情况下会损害检索性能。研究引入了词元熵变化（Delta H）这一诊断指标，它能有效预测改写收益，可作为决定是否进行改写的低成本代理指标。分析指出，大语言模型改写最适合作为轻量级编码器处理代码主导查询时的补救层，对于强大编码器或自然语言为主的查询则收益递减。

数据/训练编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

可查询的LoRA：基于共享低秩更新原子与指令正则化的路由方法

本文提出一种数据自适应的参数高效微调方法，以改进静态低秩适应（LoRA）的局限性。该方法用一组可查询的共享低秩更新原子取代每层独立的适配器，允许模型根据当前层状态和前面层的运行摘要，通过注意力机制动态检索并组合这些更新组件，从而在保持低秩瓶颈效率的同时，实现跨输入和跨层的动态、上下文感知的参数更新。此外，方法引入指令正则化，通过语言引导的先验偏置路由逻辑，使低秩变换更倾向于语义相关方向。实验表明，该方法在使用相近可训练参数量的情况下，相比标准LoRA能提升最终测试性能和训练稳定性。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

SEIF：用于指令跟随的自进化强化学习

指令跟随是大语言模型的基本能力，但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此，研究团队提出SEIF框架，通过自进化循环提升指令跟随能力。SEIF包含四个角色：生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower，以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化，使指令难度与模型能力相互促进。实验显示，SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现，有效训练策略是在早期充分训练以打下基础，后期适度训练以避免过拟合。相关代码与数据已开源。

开源/仓库推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

基于量规的在线策略蒸馏

针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题，本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率，仅需教师生成的响应即可工作，实现了黑盒兼容。ROPD通过对比师生响应差异，自动生成针对特定提示的量规，并据此对学生模型输出进行评分与在线策略优化。实验证明，该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法，样本效率最高可提升10倍，为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。

arXiv GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

67

以轨迹为师：基于能量导航蒸馏的少步离散流匹配

针对离散流匹配生成文本需数百步迭代的问题，本研究提出轨迹塑形离散流匹配方法。传统蒸馏中，由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”，在训练时评估并选择最连贯的候选序列来引导轨迹生成，此过程仅增加训练成本。在1.7亿参数语言建模任务中，经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍，且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度，包括使用更多数据或更大模型的方案。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

MatryoshkaLoRA：一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

针对低秩适应（LoRA）微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题，研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P，来相应地缩放其子秩，从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息，支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”（AURAC）评估指标。实验表明，该方法相比现有秩自适应方法能学习到更精确的表示，并在多个数据集上实现了更优的精度与性能权衡。代码已开源。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

AEM：面向多轮智能体强化学习的自适应熵调制方法

针对多轮任务中稀疏奖励导致的信用分配难题，本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级，以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理，并利用其重新缩放优势函数，通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明，AEM能持续提升多种强RL基线性能，集成至先进软件工程训练框架时可实现+1.4%的性能增益。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

通过双层路由混合专家将持续学习扩展至300多个任务

研究团队提出名为CaRE的持续学习模型，其核心是创新的双层路由混合专家（BR-MoE）机制。该机制通过动态激活任务特定路由器和专家网络，将判别性与综合性特征注入模型各层，有效平衡了学习的稳定性与可塑性。为评估长任务序列性能，团队发布了包含数百个任务的OmniBenchmark-1K数据集。实验表明，CaRE在经典任务序列（5-20个任务）及超长序列（100至300多个非重叠任务）上均大幅领先现有基线，成为首个可扩展至300多个任务的持续学习器。代码与数据集已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

各向异性模态对齐

多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练，但跨模态表示互换性受模态鸿沟阻碍。研究发现，模态鸿沟并非全局偏移，而是集中于少数主导方向的各向异性残差结构。基于此，提出各向异性模态对齐原则，设计几何校正框架AnisoAlign，利用目标模态内部几何先验对源模态表示进行有界校正，构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性，将模态鸿沟转化为可校正的结构化几何现象，为单模态数据训练多模态模型提供新对齐视角。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

快速字节潜在变换器

针对字节级语言模型自回归生成速度慢的问题，Byte Latent Transformer (BLT) 提出了新的训练与生成技术。其核心是最快的变体 BLT Diffusion (BLT-D)，它结合块级扩散目标与下一个字节预测损失，能在每个解码步骤并行生成多个字节，大幅减少前向传播次数。此外，受推测解码启发，研究提出了两种在速度与质量间权衡的扩展：BLT Self-speculation (BLT-S) 让局部解码器起草超出常规边界的字节后进行单次验证；BLT Diffusion+Verification (BLT-DV) 则在扩散生成后增加自回归验证步骤。这些方法在生成任务上的预估内存带宽成本可比原始 BLT 降低超过 50%，共同为字节级模型的实际应用扫清了关键障碍。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

归一化轨迹模型

针对扩散模型在少步采样时假设失效的问题，研究团队提出了归一化轨迹模型（NTM）。该模型将反向采样的每一步建模为具有精确似然训练的条件归一化流，其架构结合了步内的浅层可逆模块与跨轨迹的深度并行预测器，支持从零训练或由预训练流匹配模型初始化。NTM的精确轨迹似然使其能进行自蒸馏，仅需一个轻量级去噪器即可在四步内生成高质量样本。在文本到图像基准测试中，NTM仅用四步采样就能匹配或超越现有强基线，并独特地保持了生成轨迹的精确似然。

图像生成数据/训练论文/研究

05:06

SemiAnalysis@SemiAnalysis_

50

浮点运算不满足结合律！许多高性能计算核心会将工作负载分配到多个流多处理器上，并以非确定性顺序累加部分结果。许多AI实验室只能接受这一点，或为确定性付出巨大的性能代价。DeepSeek决定两者都不选。（1/4） 🧵

DeepSeek 数据/训练现象/趋势

02:40

Nathan Lambert@natolambert

63

由 @jacobcares 主导的研究表明，构建大语言模型的算力消耗很少集中在最终训练阶段，绝大部分算力实际用于开发算法配方。公开创建算法配方是确保研究界算力能推动新知识产出的重要杠杆。

Ai2: Today we're bringing new NSF OMAI compute online with NVIDIA Blackwell Ultra-powered systems, turning a $152M national i...

大佬观点开源生态数据/训练

02:30

Apple Machine Learning Research（RSS）

精选69

用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构（TC-JEPA），通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器，对输入文本标记计算稀疏交叉注意力，从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比，TC-JEPA能够学习到语义更丰富的视觉表征，解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由：Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练，用稀疏交叉注意力减少预测不确定性，对多模态表征学习是个不错的思路补充，做视觉模型的值得一看。

01:06

SemiAnalysis@SemiAnalysis_

51

我们已习惯芯片公司营销团队夸大参数规格，如今看到他们转而低调陈述反而令人耳目一新。 Cerebras官网就存在一例-- 他们将片上SRAM容量低估了整整八倍！ @cerebras 你们实在太过谦虚了！

数据/训练现象/趋势

01:06

Hacker News 热门（buzzing.cc 中文翻译）

69

借助 Unsloth 和 NVIDIA 加速大型语言模型的训练

Unsloth与NVIDIA合作推出优化方案，显著加速大型语言模型训练。该方案通过集成NVIDIA TensorRT-LLM等工具，使模型训练速度提升最高达5倍，内存占用减少达80%，同时保持模型性能无损。此举旨在降低大模型训练的计算成本与时间门槛，助力开发者更高效地进行模型迭代与应用部署。

教程/实践数据/训练

00:31

Chubby♨️@kimmonismus

57

算力竞赛的核心：从硬件占有到消化效率的转变

xAI与Anthropic在算力运用上呈现出镜像困境。xAI虽拥有全球顶尖的GPU集群，但其模型计算利用率仅约11%，凸显出将硬件转化为有效算力的挑战。相反，Anthropic面临需求远超供给的局面：其Claude收入年化已超300亿美元，百万美元级企业客户在两个月内从500家激增至1000家以上，新增的算力被立即转化为更高的使用限额和收入。这场竞赛的关键已非单纯比拼集群规模，而在于“算力消化效率”——即谁能最快速地将原始计算资源转化为可盈利的产品能力。稀缺资源正从GPU硬件本身，转向这种高效的转化能力。

Anthropic xAI 大佬观点数据/训练

00:10

Nathan Lambert@natolambert

72

走访多家中国顶尖AI实验室后，我深受触动：这里存在一种极其适合用较少资源构建LLM的文化，但这种文化发生在截然不同的生态系统中--参与企业更多，数据产业几乎空白等。完整报告：https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs

数据/训练现象/趋势

5月7日

21:16

IT之家（RSS）

63

法官裁定：英伟达相关脚本唯一用途就是协助实施版权侵权行为

美国联邦法官裁定，针对英伟达的人工智能间接侵权诉讼将继续推进。法官驳回了英伟达大部分驳回诉讼的请求，并认定其分发给客户、用于自动下载并预处理The Pile数据集的专属脚本“除协助实施侵权行为外，没有任何其他用途”。该裁决首次适用最高法院考克斯诉索尼案的新标准，认定英伟达脚本同时满足“诱导侵权”和“专为侵权设计”两项间接侵权判定标准。英伟达要求删除诉状中所有BitTorrent相关表述的申请也被否决。

政策/监管数据/训练

1…27 282930 31…43