5月13日

10:44

HuggingFace Daily Papers（社区热门论文）

AutoLLMResearch：训练智能体以自动化大语言模型实验配置--从低成本学习，优化高成本实验

为应对高成本大语言模型实验自动化配置的空白，本文提出智能体框架AutoLLMResearch。其核心是通过一个基于超百万GPU小时实验结果构建的多保真度环境LLMConfig-Gym进行训练，使智能体能够从低成本“低保真”实验中学习通用原则，并外推至昂贵的高保真场景，从而高效识别有潜力的配置方案。评估表明，该框架在多种强基线对比中展现出有效性、泛化性与可解释性，为现实世界中可扩展的LLM实验自动化提供了实用解决方案。

智能体 arXiv 数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

LychSim：面向视觉研究的可控交互式仿真框架

LychSim是一个基于Unreal Engine 5构建的可控交互式仿真框架，旨在降低现代仿真平台的高技术门槛。其核心设计包括：一个简化底层引擎复杂性的Python API；一个能生成具有多样化分布外视觉挑战的高保真环境，并提供丰富2D与3D真实标注的程序化数据管线；以及原生集成的模型上下文协议，可将仿真器转变为支持推理型大语言模型的动态闭环测试平台。该框架支持语义对齐的3D标注与自动场景修改，已成功应用于合成数据生成、基于强化学习的对抗性评估及语言驱动的交互式场景布局生成等多个下游任务。LychSim将公开提供完整源代码与多种数据标注。

开源生态数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越GRPO与策略蒸馏：语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则：在标注数据稀缺时，应将稀疏的序列级奖励用于强化上游大模型的探索能力，再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示，在固定部署学生模型为Qwen3-1.7B的情况下，先对8B教师模型进行强化学习改进，再通过稠密蒸馏传递至学生模型，其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略，而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

基于评分标准的强化学习中的奖励黑客问题研究

本研究探讨了基于评分标准的强化学习中的奖励黑客现象。研究通过跨模型评审小组评估发现，奖励黑客源于两种分歧：验证器失效与评分标准设计局限。实验表明，弱验证器会产生无法迁移的代理奖励增益，且利用行为在训练中加剧；更强的验证器能显著减少但无法完全消除此问题。此外，研究引入基于策略对数概率的自内化差距诊断工具，可追踪参考验证器质量。最终结果显示，即便使用强验证器，若评分标准未涵盖关键失败模式，仍会出现奖励黑客，导致在满足部分标准的同时，事实准确性、简洁性等整体质量下降。

安全/对齐数据/训练论文/研究

09:18

Tomer Tunguz 博客（VC 分析）

Theory 2026年度市场进入策略调查启动

Theory公司正式启动2026年度市场进入策略调查，旨在通过对比2022至2025年数据，分析初创企业在销售、营销等领域的演变。本次调查聚焦五个核心假设：人机协同的销售代表表现将优于纯AI或人类团队；AI可能拉大顶尖与末位团队的绩效差距；买方AI的采用比卖方AI更具颠覆性；AI效率提升可能主要导致人员编制缩减而非收入增长；创始人对AI的预期已随现实落地而下调。调查结果将在后续办公时间活动中公布，参与者可获得匿名原始数据。

大佬观点数据/训练

08:12

Nathan Lambert@natolambert

Jinja聊天模板一直感觉像是一个临时平衡，所以我们需要有人来接手，并尝试在社区内构建它。对此感到兴奋！

Prime Intellect: Introducing Renderers RL trainers work in tokens. Environments work in messages. Going back and forth corrupts sampled t...

智能体开源/仓库数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Delta注意力残差网络：通过增量路由改进跨层信息传递

针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题，本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态，而是关注每层子网络引入的增量变化（即输出差值）。这种增量表示结构更多样，能生成对比度更高的注意力分布，从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明，该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升，并可通过标准微调应用于预训练模型。

GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

基于语言模型先验从观测中学习POMDP世界模型

本文提出了Pinductor，一种利用大语言模型作为先验知识，从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型，再通过基于信念的似然分数进行迭代优化。实验表明，尽管使用的信息更少，Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法，并显著超越传统基线。研究还发现，其性能随LLM能力增强而提升，并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。

智能体具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调，以灌输严谨的证明搜索与自我检查行为；随后通过两阶段强化学习流程扩展这些能力，最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01，在仅使用约34万条短轨迹微调和200步强化学习后，能稳定处理超过10万token的长轨迹难题，并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现，同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv 推理数据/训练论文/研究

推荐理由：IMO 金牌级推理模型又多了一个，SU-01 的方法干净统一，特别在超长推理链上的稳定性是真正突破，做推理模型训练和竞赛级 AI 的可以认真读一下。

06:08

Epoch AI@EpochAIResearch

我们正在寻找一名研究员加入Epoch AI的数据中心追踪项目！您将帮助我们详细监测全球前沿AI数据中心的建设情况--通过卫星图像、许可证及其他信息来源，为政策制定者和公众提供参考。

数据/训练行业动态

05:44

HuggingFace Daily Papers（社区热门论文）

揭示策略蒸馏：何处有益、何处有害及原因

本研究针对策略蒸馏中监督信号的有效性不明确问题，引入一种免训练诊断框架，以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度，并开发可扩展的定向展开算法高效估算梯度，进而计算梯度对齐分数，量化特定蒸馏配置接近理想信号的程度。研究发现，蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性；在正确展开时，学生模型已表现良好，教师信号往往变得嘈杂。此外，最优蒸馏上下文共同取决于学生模型的能力和目标任务，不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。

推理数据/训练论文/研究

02:44

HuggingFace Daily Papers（社区热门论文）

PlantMarkerBench：一个用于评估基于文献的植物标记基因推理能力的多物种基准

研究团队发布了PlantMarkerBench，这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种，包含5,550个标注了证据有效性、类型和支持强度的句子实例，并定义了两项评估任务。测试显示，前沿模型在处理直接表达证据时表现尚可，但在功能、间接和弱支持证据上性能显著下降，且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。

推理数据/训练论文/研究

01:35

Replit ⠕@Replit

《2026年主街状况》报告显示，当前为小企业进行创建和建设的人数空前。报告由Codie Sanchez与Contrarian Thinking发布，深入分析了相关数据，并指出如Replit等工具正为此趋势提供动力。报告核心内容包括对美国小企业管理局融资数据的分析、对数百位企业买家的调查、美国企业所有权接班缺口的数据，以及对主街技术与AI应用的内部观察，同时探讨了技工行业与小企业的未来。

Contrarian Thinking: NOW LIVE: The 2026 State of Main Street report We had so much fun making this for the SMB community. Inside: >Analysis o...

数据/训练现象/趋势

00:44

HuggingFace Daily Papers（社区热门论文）

DeepRefine：基于强化学习的智能体知识库精炼

DeepRefine 是一种基于大语言模型的通用推理模型，旨在通过与知识库进行多轮交互，精炼其中存在的缺陷（如证据缺失、断言置信度低或指代模糊等问题），从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷，并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略，研究引入了“超越草案增益”奖励，并采用强化学习进行端到端训练。大量实验表明，该方法能在多个强基线模型上带来一致的下游性能提升。

智能体检索增强数据/训练论文/研究

00:01

elvis@omarsar0

Nous Research提出Lighthouse Attention：一种可移除的训练时注意力加速方案

Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时，通过一个无梯度的分层选择层对称压缩查询、键和值，从而包装标准SDPA注意力并保持因果性。关键优势在于，训练末期可通过简短恢复阶段完全移除该包装器，使得部署模型仍使用原始注意力机制，不增加任何推理开销。初步实验表明，它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同，该方法作为纯训练时优化，成功规避了这两大问题，若未来可扩展，将成为长上下文预训练的重要加速工具。

数据/训练论文/研究

5月12日

23:58

François Chollet@fchollet

符号学习不是编码代理的替代品，而是梯度下降和神经网络的替代品：一种低层级、完全通用、极具扩展性的全新学习基础。

大佬观点数据/训练

23:37

Artificial Intelligence News（RSS）

JBS Dev：关于不完美数据与人工智能最后一公里--从模型能力到成本可持续性

JBS Dev总裁Joe Rose指出，在部署生成式与代理AI系统时存在一个普遍误解，即认为数据必须完美无缺才能开展相关工作。文章结合AI Fieldbook近期内容，探讨了AI应用从模型能力提升到实现成本可持续性的实际挑战，强调在真实场景中应对不完美数据是突破AI落地“最后一公里”的关键。

数据/训练现象/趋势部署/工程

20:44

HuggingFace Daily Papers（社区热门论文）

ELF：嵌入式语言流

研究团队提出嵌入式语言流（ELF），这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同，ELF在绝大部分采样过程中保持在连续空间，仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术（如无分类器引导）。实验表明，ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型，并能以更少的采样步骤实现更优性能，为构建有效的连续扩散语言模型提供了新路径。

arXiv 数据/训练论文/研究

19:36

IT之家（RSS）

孙正义豪赌 AI：软银拟投千亿美元在法国建晶圆厂与数据中心

软银集团CEO孙正义正商讨在法国投资高达1000亿美元，建设专注于人工智能的半导体晶圆厂与数据中心。该计划是其“伊邪那岐计划”的延伸，旨在依托旗下Arm的芯片设计技术，打造独立的人工智能半导体生态体系。法国因其有利的监管环境和充足的核电产能被选为核心选址。软银预计自身出资约300亿美元，其余资金可能由中东主权财富基金支持。此举被视为孙正义构建AI商业帝国的关键一步，但也引发了市场对其财务风险的担忧。

数据/训练行业动态部署/工程

18:44

HuggingFace Daily Papers（社区热门论文）

Muon能微调Adam预训练的模型吗？

本研究探讨了在微调Adam预训练模型时，若将优化器直接切换为Muon会导致性能下降的问题，并将其归因于两者不同的隐式偏差造成的优化器不匹配。这种不匹配会破坏预训练知识，且其影响程度与参数更新强度成正比。实验表明，通过采用LoRA等参数高效微调方法来约束更新，可以有效缓解该问题。在语言和视觉任务中，LoRA显著缩小了全参数微调下Adam与Muon之间的性能差距。对LoRA秩、灾难性遗忘及变体的进一步研究证实，不匹配的严重程度确实与更新强度相关。相关代码已开源。

开源/仓库数据/训练论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

Alpha Blending假说：深度伪造检测中的合成捷径

本文提出Alpha Blending假说，认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹，而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法，仅使用真实人脸与自混合图像训练，在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测，AUROC指标提升至94.0%，达到最新最高水平。代码与模型将公开。

安全/对齐数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题，本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化，引入基于一致性相关系数的奖励机制，在批次层面提供基于比较的监督，使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中，该方法相比监督微调和现有回归方法取得了持续改进，尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

G-Zero：从零数据出发的开放式生成自我博弈框架

针对大语言模型在开放域任务中依赖外部评判导致的能力瓶颈与奖励破解问题，研究团队提出无需验证器的协同进化框架G-Zero。其核心是Hint-δ内在奖励机制，通过量化生成模型在有无自生成提示条件下预测结果的偏移，为自我改进提供信号。在此驱动下，提议模型持续生成挑战性查询与提示以针对生成模型的盲点，生成模型则内化这些提示引导的改进。理论分析表明，在理想条件下，该框架具有最佳迭代次优性保证。G-Zero完全从内部动态获取监督，绕开了外部评判者的能力上限，为不可验证领域的持续模型进化提供了可扩展且稳健的路径。

数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

大语言模型中的模型合并缩放定律

研究发现语言模型合并遵循一个紧凑的幂律定律，它将模型大小与专家数量相关联：模型容量越大，其性能下限越低；而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立，紧密契合不同架构与方法下的实测曲线，并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能，例如估算达到目标损失所需的专家数量，或在固定预算下权衡扩展基础模型与增加专家，从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。

arXiv 数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

叛逆学生：通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时，会覆盖其成功推理的路径，抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角：当学生模型在教师模型未预测的路径上成功推理时，这些标记被视为其自主推理的体现。基于此，团队推出了RLRT方法，该方法在GRPO基础上强化正确生成轨迹中的此类标记，将其定义为一种基于学生自身成功的有价值探索，而非均匀多样性探索。在多个版本的Qwen3模型上，RLRT均显著超越了传统自蒸馏和基于探索的基线方法，确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究

11:36

IT之家（RSS）

打破"技术黑箱"，上海 AI 实验室等攻克芯片核心材料光刻胶稳定制备难题

上海人工智能实验室联合厦门大学、苏州国家实验室等单位，基于“书生”科学大模型与平台，构建了“AI决策+自动化合成”闭环研发体系，成功创制出高纯度、高一致性的KrF光刻胶树脂。该技术突破了长期依赖国外供应商“黑箱能力”的瓶颈，实现了成品树脂金属杂质含量稳定低于10ppb、分子量分布PDI稳定在1.3以下的关键指标。这为芯片材料领域提供了一条可标准化、快速迭代的新路径，相关成果产业指标已达预期，即将进入客户端验证阶段。

数据/训练论文/研究

08:35

Epoch AI@EpochAIResearch

精选80

我们正在对FrontierMath的Tiers 1-4进行AI辅助审查。这已标记出约三分之一题目存在致命错误，且我们相信大多数标记是有效的。在完成全面人工审核后，我们将在修正的数据集上发布更新后的分数。

数据/训练评测/基准

推荐理由：FrontierMath 是衡量模型数学推理的核心基准，三分之一题目有致命错误这件事会让之前的所有满分评分变得可疑，做评估的人必须重新审视数据。

08:00

HuggingFace Daily Papers（社区热门论文）

将大型语言模型训练用于临床事件预测

本研究将Foresight Learning方法扩展至临床预测领域。核心创新在于，将MIMIC-III数据集中的纵向临床笔记转化为“上下文-问题-标签”三元组的训练样本，自动生成了涵盖用药、手术、死亡风险等多维度的6,900个预测实例。基于此训练的轻量级LoRA适配器，显著提升了模型的预测性能与校准能力，其预期校准误差从0.1269大幅降至0.0398，Brier分数从0.199降至0.145。该方法证明了无需人工构建结构化特征或专用分类器，即可从临床文本中提取可复用预测监督信号的可行路径。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

正交梯度投影用于缓解安全对齐税

大语言模型的安全后训练可能削弱其通用能力，产生“对齐税”。本研究将其视为持续学习问题：安全训练的梯度可能干扰已习得的通用能力方向。为此，我们提出正交梯度投影安全对齐方法。该方法从少量通用数据梯度中估计参考子空间，并在安全梯度更新时移除该空间的分量，从而在提升安全性的同时保留通用能力。实验证明，在SFT、DPO及SFT→DPO等流程中，该方法能显著改善安全与效用的权衡，例如在Qwen2.5-7B上平均性能增益从33.98%提升至42.74%。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于点互信息的推理强化学习反自蒸馏方法

研究发现现有自蒸馏方法在数学推理中效果不稳定，其根源在于“特权上下文”会过度强化解中已确定的结构化信息，同时削弱驱动多步推理的“思考性词元”权重。为此，本文提出反自蒸馏方法（AntiSD），通过反转优化方向，使学生模型主动远离教师分布，并结合熵触发门控机制，形成即插即用的改进方案。实验表明，在4B至30B参数模型上，AntiSD仅需更少训练步骤即可达到GRPO基线准确度，最终性能提升最高达11.5个百分点，为语言模型利用自身训练信号实现推理能力规模化提升提供了可行路径。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DocAtlas：跨80多种语言的多语言文档理解框架

DocAtlas是一个多语言文档理解框架，覆盖82种语言。它通过差异渲染与合成生成双流程，构建高保真OCR数据集与基准测试，产出统一结构化标注。研究评估16个模型，发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号，通过直接偏好优化实现了稳定的多语言适配，在域内和域外准确性上均实现提升，且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

地理空间基础模型缺乏统一评估标准

当前地理空间基础模型研究缺乏统一评估标准、训练测试协议与预训练控制，导致模型难以公平比较。对152篇论文的审计发现，同一模型在相同基准上存在显著结果分歧；不同研究预训练配置几乎没有重复；且近四成论文未公开模型权重。为此，文章提出六项具体建议，包括发布带许可证权重、共享核心评估框架、明确基线来源、报告结果方差等，以推动社区建立协作标准，促进该领域健康发展。

开源生态数据/训练论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

HölderPO：一种基于Hölder均值的政策优化框架

针对Group Relative Policy Optimisation (GRPO)中固定聚合机制导致的训练崩溃问题，本文提出HölderPO框架。该框架利用Hölder均值统一token级概率聚合，通过参数p连续控制梯度集中与方差界限。理论分析表明，较大的p集中梯度以增强稀疏信号，较小的p则限制方差。为克服静态配置的局限，我们设计了动态退火算法，在训练中自适应调整p。实验显示，HölderPO在多个数学基准测试中平均准确率达54.9%，相对GRPO提升7.2%，并在ALFWorld任务中实现93.8%的成功率，显著提高了稳定性和收敛性。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型推理中的自适应教师暴露自我蒸馏方法

研究发现，在LLM推理的自我蒸馏中，教师模型始终看到完整参考答案会导致师生能力不匹配，使学习目标过强。固定教师暴露程度并非最优，且不匹配性随教师所见信息增加而增长。为此，研究者提出自适应教师暴露方法（ATESD），通过一个轻量级Beta策略控制器，基于训练状态动态采样教师暴露比例，并使用基于未来改进的延迟学习进度奖励来优化控制器。在AIME 24/25和HMMT 25基准测试中，ATESD在Qwen3系列模型上均优于现有自我蒸馏和强化学习方法，取得了显著提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WriteSAE：用于循环状态矩阵缓存写入的稀疏自编码器

研究团队提出了WriteSAE，这是首个专门用于分解和编辑状态空间及混合循环语言模型矩阵缓存写入的稀疏自编码器，解决了传统残差SAE无法处理的领域。该方法将解码原子分解为原生写入形态，并提供每个token对数偏移的闭式解。在Qwen3.5-0.8B模型上的测试表明，原子替换在92.4%的触发案例中优于匹配范数消融，闭式解预测效果达R^2=0.98。在Mamba-2-370M模型上，替换成功率也达到88.1%。通过持续三位置安装，成功将贪婪解码下的中位目标延续率从33.3%提升至100%，首次实现了矩阵循环写入站点的行为级安装。

数据/训练论文/研究

07:49

Berryxia.AI@berryxia

CJ Zafir 为开源模型微调新手提供实用入门建议

CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始，推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro，基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型，掌握微调技能市场价值高，企业常愿支付高额费用定制个性化模型。

CJ Zafir: If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...

Hugging Face 开源生态教程/实践数据/训练

07:43

Hugging Face：Blog（RSS）

精选58

在AWS上进行基础模型训练与推理的核心构建模块

本文面向使用开源框架的机器学习工程师，阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件：配备多代NVIDIA GPU（如H100、H200及新一代Blackwell B200/B300）的大显存加速计算实例；用于集体通信的高带宽、低延迟网络（节点内NVLink与节点间EFA）；以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同，共同支撑预训练、后训练和推理工作负载，并可通过Prometheus/Grafana实现全栈可观测性。

开源生态教程/实践数据/训练部署/工程

推荐理由：这篇把AWS上训大模型的全套基础设施串了一遍，从GPU选型到网络存储再到Slurm/K8s编排，是做云端大规模训练的工程师的必读参考。

05:55

Hacker News 热门（buzzing.cc 中文翻译）

我在好莱坞工作。以前做电视的人现在都在训练人工智能

好莱坞电视制作行业出现显著转型，大量曾从事电视节目创作的专业人士现已转向训练人工智能系统。这一变化源于娱乐产业对AI技术的广泛整合，应用于内容生成、视觉特效和自动化制作等领域。传统影视工作者利用其创意经验参与AI模型训练，以提升效率并适应技术革新。行业趋势凸显了AI对就业结构的重塑，以及娱乐与科技融合的加速进程。

数据/训练现象/趋势

01:39

The Decoder：AI News（RSS）

Baidu的Ernie 5.1在性能比肩顶尖模型的同时，将预训练成本削减94%

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法，仅使用前代模型三分之一的参数量，其预训练成本仅为同类模型的6%，实现了94%的成本削减。在Search Arena排行榜上，Ernie 5.1位列全球第四，排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布