5月12日

07:43

Hugging Face：Blog（RSS）

精选58

本文面向使用开源框架的机器学习工程师，阐述了AWS如何为大规模基础模型的全生命周期提供核心基础设施。其核心是三大紧密集成的组件：配备多代NVIDIA GPU（如H100、H200及新一代Blackwell B200/B300）的大显存加速计算实例；用于集体通信的高带宽、低延迟网络（节点内NVLink与节点间EFA）；以及可扩展的分布式存储。这些基础设施与Slurm/Kubernetes等资源编排系统、PyTorch/JAX等ML框架协同，共同支撑预训练、后训练和推理工作负载，并可通过Prometheus/Grafana实现全栈可观测性。

开源生态教程/实践数据/训练部署/工程

推荐理由：这篇把AWS上训大模型的全套基础设施串了一遍，从GPU选型到网络存储再到Slurm/K8s编排，是做云端大规模训练的工程师的必读参考。

05:55

Hacker News 热门（buzzing.cc 中文翻译）

我在好莱坞工作。以前做电视的人现在都在训练人工智能

好莱坞电视制作行业出现显著转型，大量曾从事电视节目创作的专业人士现已转向训练人工智能系统。这一变化源于娱乐产业对AI技术的广泛整合，应用于内容生成、视觉特效和自动化制作等领域。传统影视工作者利用其创意经验参与AI模型训练，以提升效率并适应技术革新。行业趋势凸显了AI对就业结构的重塑，以及娱乐与科技融合的加速进程。

数据/训练现象/趋势

01:39

The Decoder：AI News（RSS）

Baidu的Ernie 5.1在性能比肩顶尖模型的同时，将预训练成本削减94%

百度发布其对话机器人Ernie的最新版本5.1。该模型采用“Once-For-All”方法，仅使用前代模型三分之一的参数量，其预训练成本仅为同类模型的6%，实现了94%的成本削减。在Search Arena排行榜上，Ernie 5.1位列全球第四，排名仅次于两个Claude Opus变体和GPT-5.5 Search。

搜索数据/训练模型发布

01:23

Hacker News 热门（buzzing.cc 中文翻译）

使用 Swift 训练大型语言模型（LLM），第一部分：将矩阵乘法性能从 Gflop/s 提升至 Tflop/s

文章探讨了在Swift语言中训练大型语言模型时，如何将矩阵乘法的性能从每秒千兆次浮点运算（Gflop/s）提升至每秒万亿次浮点运算（Tflop/s）。这是系列文章的第一部分，聚焦于通过优化技术实现计算性能的数量级飞跃，旨在展示Swift在高效执行核心机器学习运算方面的潜力。

教程/实践数据/训练编码

5月11日

18:34

IT之家（RSS）

影子图书馆再陷版权风暴，出版商要求彻底封杀安娜档案馆

多家知名出版商正寻求对影子图书馆安娜档案馆作出1950万美元的缺席判决，并申请一项永久禁令，要求二十余家国际域名注册机构、服务器托管商及服务提供商封禁该网站仅剩的三个域名访问入口。该网站被指控助长大规模盗版，并将图书用作AI训练素材。此前音乐公司已赢得针对该网站3.22亿美元的缺席判决，但禁令效果有限。出版商此次希望通过对.GL、.PK、.GD域名的全面封禁，彻底关停其服务。

数据/训练行业动态

15:34

IT之家（RSS）

消息称 AI 浪潮致互联网档案馆 / 维基百科维护成本暴涨：存储硬件涨价、爬虫持续消耗平台流量

AI浪潮推高存储硬件价格，导致互联网档案馆与维基百科维护成本激增。互联网档案馆因硬盘缺货或价高，正寻求捐助者支持；维基百科基金会也表示内存与硬盘供应紧张，资源分配需极度谨慎。此外，两家平台持续遭受AI爬虫无休止抓取，进一步推高了流量与运营成本。

数据/训练行业动态

10:34

IT之家（RSS）

消息称英伟达 Vera Rubin 平台 7 月向主要 AI 客户出货，下半年大规模量产

据报道，英伟达已敲定Vera Rubin AI平台最终生产方案，将分阶段上市。试产将于下月启动，首批产品计划7月出货至北美大型AI数据中心及云服务商，微软、谷歌、亚马逊、Meta和甲骨文等预计成为首批客户。该平台芯片采用台积电3nm工艺制造，富士康、广达、纬创资通等合作伙伴将于下半年启动全面量产，并在第三季度大规模出货。据悉，单个Vera Rubin AI服务器机柜价值约1.8亿美元，并配备强大的软件生态系统。

产品更新数据/训练部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

无监督过程奖励模型

本研究提出一种无需人类标注的无监督过程奖励模型（uPRM）训练方法。该方法基于大语言模型下一个token的概率设计评分函数，能够联合评估一批推理轨迹中首个错误步骤的可能位置，实现完全无监督训练。实验表明，uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%；作为测试时验证器，其性能与监督PRM相当，比多数投票基线高出最多6.9%；在强化学习中作为奖励信号，训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

研究揭示了表格数据生成增强中存在的“保真度-效用差距”，即仅追求分布真实性未必能提升下游模型性能。为此提出的TAP方法将扩散修复技术与轻量级策略相结合，该策略根据学习器状态动态引导生成高效用样本，并通过显式门控和保守窗口承诺控制安全注入。在七个真实数据集上的实验表明，在数据极度稀缺时，TAP显著优于现有生成基线，最高提升分类准确率15.6个百分点，降低回归任务RMSE达32%。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

BEACON：一个从游戏数据中学习行为指纹的多模态数据集

本文发布BEACON大规模多模态数据集，旨在通过竞技游戏《Valorant》的高认知与操作负荷场景，为连续身份验证提供细粒度行为信号。该数据集包含约430GB同步多模态数据，涵盖28名玩家79次会话、总计102.51小时的实战记录，采集了高频鼠标动态、击键事件、网络数据包、屏幕录像、硬件元数据及游戏配置上下文。BEACON利用战术射击游戏固有的高精度操作与认知压力，为行为生物识别的鲁棒性提供了严格测试环境，支持连续认证、行为画像、用户漂移及多模态表征学习的研究。数据集与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HAGE：通过强化学习驱动的加权图演化利用智能体记忆

本文提出HAGE，一种加权多关系记忆框架，将记忆检索重新定义为在统一关系图上进行查询条件化的顺序遍历。该框架将记忆组织为共享节点上的关系特定视图，每条边配有可训练的关系特征向量。面对查询时，基于大语言模型的分类器先识别关系意图，路由网络随后动态调整边嵌入的对应维度，遍历分数通过语义相似性与条件化边表示的学习组合计算。此外，HAGE引入基于强化学习的训练框架，共同优化路由行为与边表示。实验表明，相比现有先进系统，HAGE提升了长程推理准确性，并在准确性与效率间取得了更优平衡。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Urban-ImageNet：一个用于城市空间感知的大规模多模态数据集与评估框架

Urban-ImageNet是一个用于城市空间感知的大规模多模态数据集与评估基准，包含从2019年至2025年间在中国24个城市的61个地点从微博收集的超过200万张图像及配对文本。它提供1K、10K和100K规模的受控子集及完整语料库，基于HUSIC层次分类框架定义了10个类别，以区分激活与非激活公共空间、内外环境、住宿、消费、人像及非空间内容。基准支持城市场景语义分类、跨模态图文检索和实例分割三项任务。实验显示，模型在有监督场景分类上表现良好，但在跨模态检索和实例分割上更具挑战性；多尺度研究探讨了训练数据从1K增至100K时性能的变化，为AI系统感知城市空间提供了统一评估工具。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

IndustryBench：探究大语言模型的工业知识边界

研究团队发布IndustryBench，这是一个基于中国国家标准（GB/T）和工业产品记录构建的2049项中文工业采购问答基准，并提供了多语言对齐版本。构建中，基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题，凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现：最佳系统得分（0-3分制）仅为2.083分，提升空间巨大；“标准与术语”是普遍能力短板；扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数；安全违规检查会显著改变模型排名。研究表明，工业领域的大语言模型评估需基于源文本、具备安全意识，而非依赖简单的聚合准确率。

arXiv Hugging Face 推理数据/训练

推荐理由：工业采购场景下，LLM的准确率远不够用，而且推理模型越想越多反而越不安全，这个基准把幻觉和安全风险摆上了台面。

08:00

HuggingFace Daily Papers（社区热门论文）

RubricEM：超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架，将评分标准作为结构化策略执行、反馈与记忆共享的核心接口，以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识，并采用阶段结构化GRPO进行更密集的语义信用分配。同时，它训练一个共享骨干的反思元策略，将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异，超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体 MCP/工具数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

策略蒸馏的多重困境：失效机制与修复方案

研究发现，大型语言模型的后训练方法——策略蒸馏（OPD）与策略自蒸馏（OPSD）效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感；OPSD则在测试时缺乏实例特定特权信息时容易失效，但在系统提示等共享规则场景下有效。失效机制主要包括：师生分布不匹配、TopK反向KL梯度导致的优化不稳定，以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。

arXiv 推理数据/训练论文/研究

5月10日

21:33

IT之家（RSS）

Meta 拥抱 AI，员工遭监控与裁员双重压力

Meta宣布将监控数万名员工的电脑操作行为以训练AI模型，并要求全员使用AI工具且纳入绩效考核。同时，为对冲AI领域投入，公司计划裁员约8000人。此举引发员工强烈反对，认为监控侵犯隐私，裁员加剧了职场焦虑与士气低落。公司高管解释数据仅用于AI学习并有严格保护，但员工普遍担忧技术可能最终取代自身岗位。

Meta 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

零次模拟到真实机器人学习：反应式抓取的灵巧操作研究

本研究提出域随机化实例集（DRIS）方法，以提升机器人灵巧操作策略在模拟到真实环境中的迁移能力。传统域随机化每轮仅随机化一个模拟实例，对真实世界动态变化的覆盖有限。DRIS能同时处理一组随机实例，更全面地逼近不确定动态环境，使策略学习应对多种可能结果。理论分析与实验表明，即使实例数量较少（如10），该方法也能生成更鲁棒策略，减少真实场景微调需求。研究在高难度反应式抓取任务上验证，该任务使用无被动稳定性的平板，对噪声敏感。最终，策略展现出强鲁棒性，实现可靠的零次模拟到真实迁移。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

利用强化微调克服视觉持续学习中的灾难性遗忘

强化微调（RFT）相比监督微调更抗遗忘，但在视觉持续学习任务中仍有显著遗忘。通过分析发现，瓶颈在于“轨迹级漂移无意识”：即相同任务奖励下，不同轨迹的KL散度差异大，与遗忘强相关。为此，提出保留感知策略优化（RaPO）方法，通过轨迹级奖励塑形来缓解遗忘。该方法包含保留奖励和跨任务优势归一化（CTAN）两个核心组件，分别将漂移转化为奖励信号和跨任务稳定优化。实验证明，RaPO在五种视觉持续学习场景中显著减少了遗忘，同时保持了模型可塑性，性能领先。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LEAD：面向大语言模型的长度高效自适应动态推理

针对OpenAI o1等大型推理模型因能力提升而日益冗长、浪费算力与上下文资源的问题，现有基于静态奖励的方法难以平衡正确性与效率。研究者提出LEAD方法，通过在线自适应机制动态校准每一步的正确性与效率权衡，并依据模型自身正确推演为每个问题在线估计自适应目标长度，对称惩罚过度推理与过度压缩。在五个数学推理基准测试中，LEAD在基于强化学习的高效推理方法中取得了最高的准确率和准确率-效率分数，同时生成的输出比基础模型显著缩短。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于噪声追踪对的整流流离线偏好优化

针对文本到图像整流流模型，现有偏好数据集仅存储最终图像，无法描述其以特定先验噪声为索引的近似直线轨迹。本研究提出先验噪声感知偏好优化方法，通过保留生成胜出/落败图像时使用的配对先验噪声，将标准三元组扩展为六元组。利用整流流的直线特性，通过噪声-图像插值估计中间状态，从而约束轨迹估计空间并获得更紧致的代理优化目标。此外，引入动态正则化策略，根据奖励差距和训练进度自适应调整正则化强度，提升训练稳定性与样本效率。实验表明，该方法能持续改善偏好指标，同时显著降低训练计算量。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LoopUS：将预训练 LLM 重构为循环潜在精炼模型

LoopUS 是一种后训练框架，可将标准预训练大语言模型转换为循环架构，无需从头训练循环模型或进行破坏性改造。其核心是将模型重构为编码器、循环推理块和解码器，并包含四个关键组件：基于阶段化表征动态的块分解、抑制隐藏状态漂移的输入依赖选择性门、支持长递归范围内存高效学习的随机深度监督，以及用于自适应提前退出的置信度头。该框架通过稳定的潜在循环提升模型的推理性能，且不延长生成轨迹或增加额外训练成本。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

跨语言在线策略自蒸馏：提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法（COPSD），以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师：学生仅接收低资源语言问题，教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练，提供了密集监督，避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明，COPSD能持续提升不同规模模型的推理性能，显著优于GRPO基准，并改善了答案格式遵循与测试时缩放能力，对资源极少的语言效果尤为显著。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

通过语言表征塑造图式：扩展LLM智能的下一个前沿

研究指出自然语言有限的表达能力已成为大语言模型处理复杂问题的瓶颈，主张通过高级语言表征来塑造模型的知识图式是提升其智能的关键方向。论文提供了理论框架与实证证据，表明即使不改变模型参数或规模，精心设计的语言表征也能显著提升性能。实验证实，同一任务的不同语言表征会直接影响LLM的表现及其内部特征激活。这为未来研究开辟了通过优化语言表征设计来释放模型潜力的新路径。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

草稿本补丁：在字节级语言模型中解耦计算与补丁大小

基于补丁的字节级语言模型面临补丁大小与建模质量的权衡，其根源在于“补丁滞后”问题。本研究提出的“草稿本补丁”方法，通过在补丁内部插入临时草稿本，聚合已见字节并刷新补丁级上下文，从而缓解滞后。该方法利用下一字节预测熵触发草稿本，将计算选择性分配给信息密集区域，并允许事后调整推理时计算。在自然语言和代码实验中，该方法在相同补丁大小下提升了模型质量。例如，即使补丁大小为16字节，增强后的模型在下游评估中匹配或接近字节级基线，同时补丁的KV缓存缩小了16倍，推理计算减少了3-4倍。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

强化多模态模型在视觉退化下的推理鲁棒性

针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题，研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术，在避免损害清晰图像性能的前提下，有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明，该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

几何冲突：解释与控制大语言模型持续后训练中的遗忘

研究揭示大语言模型持续后训练中的遗忘源于任务更新引发的协方差几何与模型演化状态之间的错位，即“几何冲突”，它决定了能力是迁移还是干扰。基于此，团队提出了无需回放数据的Geometry-Conflict Wasserstein Merging（GCWM）方法。该方法通过高斯Wasserstein重心构建共享度量，并利用几何冲突门控进行几何感知校正。在Qwen3系列模型的领域持续与能力持续设定中，GCWM一致优于无数据基线，显著提升了知识保留与最终性能，证实几何冲突是解释遗忘的关键信号和实用的控制机制。

arXiv 数据/训练论文/研究

5月9日

11:29

IT之家（RSS）

MiniMax 不认马嘉祺？稀宇科技公布大模型"失语"原因：特定词元后训练不足导致

稀宇科技发布报告，解释其M2大模型无法正确输出“马嘉祺”的原因。问题根源在于分词器将该人名切分为“马”和“嘉祺”，而后者的训练数据极少，导致其参数被高频词元“挤压”，生成概率偏移。团队进一步扫描发现，约4.9%的词元存在类似退化，其中日语词元退化比例高达29.7%，这直接导致了模型在日语回答中混入俄语或韩语字符。修复方案是通过合成数据覆盖全词表进行强化训练，修复后模型参数稳定度显著提升，日语回答混入俄文字符的比例从47%降至1%。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

近确定性结构化输出在策略蒸馏中的外推悬崖

策略蒸馏（OPD）广泛用于大语言模型后训练。当奖励外推系数λ>1时，学生模型能在特定领域超越教师模型，但超过阈值λ*会违反结构化输出任务的格式契约。研究在伯努利简化中推导出闭式阈值λ*(p,b,c)，由教师模态概率、预热启动质量和重要性采样裁剪强度决定。超过λ*，外推固定点退出裁剪安全区域，训练从格式保持转变为格式崩溃。在亚马逊时尚数据集上，三项预先注册测试（细网格悬崖区间、预算扩展测试和小裁剪交叉预测）均落在预测区间内。将λ控制在略低于λ*，1.7B参数的Qwen3学生模型能达到8B参数SFT基线的领域内性能，参数量仅为五分之一。性能提升主要源于格式遵循：解析输出的NDCG@1指标在λ变化时保持平稳，而解析有效性在预测边界处发生剧变。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AdaPreLoRA：基于Adafactor预条件的低秩适应优化方法

现有LoRA优化器面临因雅可比矩阵秩缺失导致的因子空间更新求解不唯一问题。本研究提出AdaPreLoRA方法，通过采用Adafactor对角Kronecker预条件器处理权重空间，并在因子空间进行闭式求解，以O((m+n)r)内存开销生成更新。该方法在H_t加权范数下，构造出最接近预条件权重空间方向的LoRA近似。在GPT-2、Mistral-7B、Qwen2-7B及扩散模型个性化任务上的实验表明，AdaPreLoRA在保持与LoRA优化器相当峰值GPU内存的同时，取得了与代表性LoRA优化器相当或更优的性能。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

预测瓶颈无法发现因果结构（及其实际作用）

研究发现，仅通过下一步预测训练的Mamba模型，其简单读出操作看似能恢复格兰杰因果结构，但经系统证伪基准检验后，该因果发现主张不成立。线性瓶颈效果相当或更好；在合成与真实基准上，调优的Lasso及经典因果发现方法均优于该瓶颈；其干预数据优势主要源于样本量混淆，残余优势仅在非标准干预下出现，且同样存在于经典格兰杰方法中。最终保留下来的仅是一个狭窄的表征结果，而可复用的五阶段证伪基准及其对照实验成为主要贡献。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLiMba：在单张消费级GPU上为濒危罗曼语撒丁语适配30亿参数模型

研究团队基于Qwen2.5-3B-Instruct模型，在单张24GB消费级GPU上通过持续预训练与监督微调，开发出支持撒丁语的30亿参数模型LLiMba。训练语料包含1150万撒丁语词元及240万相关罗曼语文本。实验发现，持续预训练后模型在撒丁语困惑度降至6.76，并在所有FLORES-200翻译方向上超越基础模型。在五种微调配置中，rsLoRA r256在英译撒丁语任务中以28.5 BLEU值表现最佳。研究表明，适配器容量对低资源罗曼语适配的影响大于具体变体选择，且翻译指标虽能排序配置，但无法完全反映其定性行为的本质差异。

Hugging Face 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SlimQwen：探索大型混合专家模型预训练中的剪枝与蒸馏

本研究系统探索了在大规模预训练中对混合专家模型进行压缩的方法。关键发现包括：对预训练MoE模型进行结构化剪枝，在相同训练预算下始终优于从头训练目标架构；不同的一次性专家压缩方法经过大规模持续预训练后性能趋同，为此提出一种简单的部分保留专家合并策略以提升下游任务表现。结合知识蒸馏与语言建模损失优于单独使用蒸馏，特别是在知识密集型任务上，进一步提出的多令牌预测蒸馏方法能带来稳定增益。在训练令牌数相同的情况下，渐进式剪枝方案优于一次性压缩。综合这些方法，成功将Qwen3-Next-80A3B模型压缩至23A2B，同时保持了有竞争力的性能。

开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于超群相对策略优化拓展生物分子效用-多样性前沿

研究团队提出超群相对策略优化（SGRPO），以解决生物分子生成器因优化任务效用而导致生成候选分子过于集中的问题。该框架直接从集合层面构建多样性奖励：为每个条件采样候选分子超群，比较相同条件下的多样性，并通过留一法将群体奖励分配至单个生成轨迹，再与效用奖励结合。SGRPO不依赖特定生成器或评估指标，可灵活与不同GRPO风格方法集成。在多个生物分子设计任务上的评估表明，SGRPO能有效拓展效用-多样性的帕累托前沿，相对于基线方法取得更优的前沿水平指标，并有助于在训练后保持更广泛的生成分布覆盖。

开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从空口袋到电子密度：基于密度的GPT式药物设计

针对现有基于结构的药物设计方法依赖空结合口袋、忽略填充物信息的问题，本研究提出EDMolGPT新方法。该方法创新性地利用来自配体或溶剂的低分辨率电子密度作为生成条件，该密度可源于计算或冷冻电镜/X射线实验数据，能更真实地反映结合环境的构象灵活性。EDMolGPT采用仅解码器的自回归框架，直接从电子密度点云生成分子，有效减少了结构偏差并直接输出三维构象。在101个生物靶标上的评估验证了其有效性。

arXiv 数据/训练论文/研究

03:39

Apple Machine Learning Research（RSS）

精选66

Velox：学习4D几何与外观的表示

Velox提出一个学习4D对象潜在表示的框架，该表示具备描述性、压缩性与易获取性。它仅需非结构化动态点云作为输入，通过编码器将时空彩色点云压缩为动态形状标记，并利用两个互补解码器进行监督：4D表面解码器建模随时间变化的表面分布以捕捉几何信息，高斯解码器则负责外观重建。该方法在保持高保真度的同时提升了下游任务的效率。

多模态数据/训练论文/研究

推荐理由：苹果把动态点云的几何和外观塞进一个可压缩的latent space，思路干净但领域垂直，做3D视觉和AR的可以跟一下，其他人不用急着读。

03:34

HuggingFace Daily Papers（社区热门论文）

PianoCoRe：组合与精炼的钢琴 MIDI 数据集

PianoCoRe 是一个大规模钢琴 MIDI 数据集，整合并精炼了多个主要开源钢琴语料库。该数据集包含 483 位作曲家创作的 5,625 首曲目，共计 250,046 次演奏，总时长 21,763 小时。它以分层子集形式发布，支持从大规模分析、预训练到具有音符级乐谱对齐的表现力演奏建模等多种应用。其对齐子集 PianoCoRe-A 提供了目前最大的开源对齐集合，包含 157,207 次演奏与 1,591 份乐谱的对应关系。研究同时贡献了一个用于检测损坏与类乐谱转录的 MIDI 质量分类器，以及一个能清理时间对齐错误并插值缺失音符的对齐优化流程 RAScoP。分析表明，优化流程降低了时间噪声并消除了速度异常值。基于 PianoCoRe 训练的表现力演奏生成模型，相较于基于原始或更小数据集训练的模型，对未见曲目展现出更强的鲁棒性。

数据/训练论文/研究

00:34

HuggingFace Daily Papers（社区热门论文）

StraTA：通过战略轨迹抽象激励智能体强化学习

研究提出战略轨迹抽象（StraTA）框架，将显式的轨迹级策略引入智能体强化学习，以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略，使后续动作基于该策略执行，并通过分层GRPO式训练设计联合优化策略生成与动作执行，辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明，StraTA在样本效率和最终性能上均稳定超越基线模型，在ALFWorld上达到93.1%的成功率，在WebShop上取得84.2%的成功率，在SciWorld上以63.5%的综合得分超越前沿闭源模型。

智能体数据/训练论文/研究

00:34

Hugging Face：Blog（RSS）

精选72

EMO：为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型，通过端到端预训练使模块化结构直接从数据中涌现，无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集（即8个活跃专家中的部分），同时保持接近全模型的性能；当所有128个专家共同使用时，它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数，训练数据达1万亿令牌。与标准MoE相比，EMO通过文档级路由约束，鼓励专家形成领域专业化组，从而支持选择性使用而不导致严重性能下降，实现了可组合架构，优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face 开源生态数据/训练模型发布

推荐理由：EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化，仅用 12.5% 专家就能接近全模型性能，对需要按需加载的大模型部署是真正的突破。

5月8日

19:29

HuggingFace Daily Papers（社区热门论文）

BioTool：一个用于增强大语言模型生物医学能力的综合性工具调用数据集

为提升大语言模型在生物医学领域的工具调用能力，研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具，包含7,040个经人工验证的高质量查询-API调用对，覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后，其在生物医学工具调用上的性能显著提升，甚至超越了GPT-5.1等先进商业模型。人类专家评估证实，集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。

智能体 arXiv 数据/训练论文/研究

16:23

HuggingFace Daily Papers（社区热门论文）

TIDE：让每一层都知晓上下文之下的令牌身份

研究指出，现代大语言模型普遍存在“单次令牌注入”设计缺陷，即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此，我们提出了TIDE方法，通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量，并通过一个深度条件软路由将其注入到每一层。理论与实验证明，TIDE能有效缓解上述问题，并在多种语言建模及下游任务中提升模型性能。

数据/训练论文/研究