全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 1212 条

全部一手资讯 X 论文

标签「数据/训练」清除

5月27日周三

08:00HuggingFace Daily Papers（社区热门论文）54OR-Space：面向工业优化智能体的全生命周期工作区基准测试

03:31Tomer Tunguz 博客（VC 分析）58精选智能体重力：谁在运行你的智能体？

00:07TechCrunch：AI（RSS）54This Startup Is Betting India's Gig Economy Can Train the World's Robots

5月26日周二

21:19HuggingFace Daily Papers（社区热门论文）67CUA-Gym：为计算机使用智能体扩展可验证的训练环境与任务

20:12公众号：百度智能云（文心）44百度智能云发布具身智能Ego-Centric采集解决方案

12:18HuggingFace Daily Papers（社区热门论文）64On-Policy对抗流蒸馏用于自回归视频生成

12:11IT之家（RSS）62小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

11:18HuggingFace Daily Papers（社区热门论文）66Claw-Anything：评测能够广泛访问用户数字世界的全天候个人助手基准

10:18HuggingFace Daily Papers（社区热门论文）64DVAO：面向多奖励强化学习的动态方差自适应优势优化

08:00HuggingFace Daily Papers（社区热门论文）50SIA：通过Harness与权重更新实现自改进AI

08:00HuggingFace Daily Papers（社区热门论文）47信任区域Q伴随匹配

08:00HuggingFace Daily Papers（社区热门论文）39MERIT：用于音频相似度学习的解耦音乐表示

08:00HuggingFace Daily Papers（社区热门论文）54超越整体模型：深度多元时间序列预测的系统性组件级基准测试

08:00HuggingFace Daily Papers（社区热门论文）50并非所有分歧都可学习：在线策略蒸馏中的Token可教学性

08:00HuggingFace Daily Papers（社区热门论文）51密集检索器的位置偏见是内建的，还是从数据中学来的？

08:00HuggingFace Daily Papers（社区热门论文）64GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

08:00HuggingFace Daily Papers（社区热门论文）58利用稀疏自编码器的模型内部信号指导LLM后训练数据工程

08:00HuggingFace Daily Papers（社区热门论文）64少即是多：用于On-policy蒸馏的早期停止生成策略

06:58Hacker News 热门（buzzing.cc 中文翻译）40挪威采购2拍字节华为闪存用于LLM训练

04:36MarkTechPost（RSS）66使用 NVIDIA FLARE 在非独立同分布 CIFAR-10 上构建与比较 FedAvg 和 FedProx 联邦学习的分步指南

02:28Hacker News 热门（buzzing.cc 中文翻译）64优步首席运营官表示，越来越难以证明在"代币化"上的支出是合理的

00:00MiniMax：Blog（网页）59精选为什么MiniMax大语言模型无法说出"马嘉祺"？稀疏Token遗忘的内部调查

5月25日周一

23:11IT之家（RSS）54美光 HBM4 增产进展顺利，HBM4E 计划明年启动大规模生产

23:11IT之家（RSS）57过河拆桥？扎克伯格一边计划裁员，一边称"让 Meta 员工参与训练 AI 效果更好"

16:11IT之家（RSS）48特斯拉 FSD 学会了"躲警车"，主动减速变道

11:11IT之家（RSS）37既非活着、也非死去：美国初创公司 Bexorg 通过离体"缸中之脑"测试药物

08:00HuggingFace Daily Papers（社区热门论文）44当梯度冲突时：LLM Judge多目标提示优化的失败模式

08:00HuggingFace Daily Papers（社区热门论文）48提出 Unified Neural Scaling Laws （UNSL），统一建模多维度变化的深度神经网络缩放规律

08:00HuggingFace Daily Papers（社区热门论文）50可验证奖励强化学习中的时间调度策略

08:00HuggingFace Daily Papers（社区热门论文）60NSF-SciFy：从NSF奖项数据库中挖掘科学主张

08:00HuggingFace Daily Papers（社区热门论文）52CroCo：基于自生成响应的跨语言对比偏好调优

08:00HuggingFace Daily Papers（社区热门论文）56个性化先于存储：长期代理个性化记忆的基准测试与学习

02:57Hacker News 热门（buzzing.cc 中文翻译）58内存成本已占到人工智能芯片总成本的近三分之二

5月24日周日

21:57The Decoder：AI News（RSS）59字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

20:11IT之家（RSS）60英伟达 CFO：我们预判到内存价格会飙升，早已提前下单

08:00HuggingFace Daily Papers（社区热门论文）46NITP：用于大语言模型预训练的下一隐式Token预测方法

08:00HuggingFace Daily Papers（社区热门论文）54无需多视角生成的多视角一致3D高斯头部化身

08:00HuggingFace Daily Papers（社区热门论文）64神经网络在宽度、深度与时间中的生长

5月23日周六

22:09IT之家（RSS）63美光 CEO 梅赫罗特拉：内存短缺或持续至明年，新产能 2028 年才能大规模释放

15:09IT之家（RSS）56让机器人拥有"肌肉记忆"，智元推出新一代二阶段 BFM-2 基座模型

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月27日

08:00

HuggingFace Daily Papers（社区热门论文）

54

OR-Space：面向工业优化智能体的全生命周期工作区基准测试

OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试，旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式：从异构资产构建求解模型（Build）、根据需求修改现有模型（Revise）、以及基于工作区证据回答关于方案的问题（Explain）。它通过结合持久化工作区和面向生命周期的任务，评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。

智能体数据/训练论文/研究

03:31

Tomer Tunguz 博客（VC 分析）

精选58

智能体重力：谁在运行你的智能体？

在数据时代，数据重力是核心力量；而在智能体时代，智能体重力将扮演同样角色。智能体运行需要巨大算力，主要平台将激烈争夺以将其留在自家生态。平台上的智能体与数据越多，其智能体重力就越强。例如，Databricks在微软平台推出的某个功能，虽未明言此目的，却让用户更容易在Databricks中构建智能体，而非微软自家的Fabric。这可能使用户不知不觉间将高价值的智能体及数据工作负载迁移至该平台。因此，赢得并维持智能体重力，将成为智能体时代的核心竞争主题。

智能体大佬观点数据/训练

推荐理由：Tomer Tunguz 提出「Agent Gravity」概念，把数据平台竞争的逻辑从数据引力延伸到了代理引力，做 Infra 和做 Agent 的人都应该读一读，这可能会影响你对平台锁定的判断。

00:07

TechCrunch：AI（RSS）

54

This Startup Is Betting India's Gig Economy Can Train the World's Robots

由伯克利和斯坦福研究人员创立的初创公司 Human Archive，正在印度支付零工工人工资，让他们佩戴装有摄像头的帽子和传感器设备，以收集 AI 和机器人实验室竞相获取的现实世界物理训练数据。

具身智能数据/训练行业动态

5月26日

21:19

HuggingFace Daily Papers（社区热门论文）

67

CUA-Gym：为计算机使用智能体扩展可验证的训练环境与任务

针对计算机使用智能体（CUA）训练中可验证数据稀缺的问题，本文提出了CUA-Gym这一可扩展流水线，能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体，并通过协调器驱动执行与过滤。基于此流程，我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型，在OSWorld-Verified基准上分别达到62.1%和72.6%的分数，优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升，展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。

智能体 arXiv 开源生态数据/训练

20:12

公众号：百度智能云（文心）

44

百度智能云发布具身智能Ego-Centric采集解决方案

百度智能云发布具身智能Ego-Centric采集解决方案，以轻量化数采套件（120FPS、150°视场、毫米级定位、毫秒级同步）实现低门槛第一视角数据采集；首创无本体设计，通过RGB视频到三维手部姿态估计与动作重定向，达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台，覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业，并支持北京、上海、浙江、四川等国家创新中心。

产品更新具身智能数据/训练

12:18

HuggingFace Daily Papers（社区热门论文）

64

On-Policy对抗流蒸馏用于自回归视频生成

提出Adversarial Flow Distillation（AFD）框架，用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出，训练Bradley-Terry判别器以估计干净样本上的师生差异，并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新，无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明，AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量，同时保持整体效果，为蒸馏专有或异构视频生成器提供了实用路径。

数据/训练论文/研究

12:11

IT之家（RSS）

62

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架，首次将三维重建与视频生成深度耦合，打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在合成数据生成（已交付超10万 clips 数据）、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频

11:18

HuggingFace Daily Papers（社区热门论文）

66

Claw-Anything：评测能够广泛访问用户数字世界的全天候个人助手基准

当前大语言模型智能体作为全天候个人助手，只能访问用户数字世界的有限部分，限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题，它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示，GPT-5.5在该基准上的 pass@1 仅为34.5%，远低于其在之前基准上的表现，表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道，可产出2000个训练环境，并使基础模型性能提升23.7%。

智能体数据/训练论文/研究

10:18

HuggingFace Daily Papers（社区热门论文）

64

DVAO：面向多奖励强化学习的动态方差自适应优势优化

针对多奖励强化学习中，传统标量化方法（如奖励组合与优势组合）导致的训练不稳定或依赖静态超参数问题，本文提出动态方差自适应优势优化（DVAO）。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重，强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练，并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示，DVAO显著优于基线方法，在多目标帕累托前沿和训练稳定性上取得更优结果。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

SIA：通过Harness与权重更新实现自改进AI

SIA提出由语言模型智能体（Feedback-Agent）同时更新任务智能体的harness（工具、提示词、重试逻辑、搜索过程）和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上，结合两种杠杆均优于仅迭代脚手架：LawBench提升56.6%，GPU内核运行时间减少91.9%，去噪提升502%。Harness更新赋予智能体搜索与行动能力，权重更新则内化领域直觉。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

信任区域Q伴随匹配

QAM将离线策略强化学习转化为无记忆随机最优控制问题，但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度，优化信任区域参数λ，并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上，TRQAM在离线RL和离线到在线RL中均超越先前方法，离线RL成功率达68%，超过最强基线（46%）。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

MERIT：用于音频相似度学习的解耦音乐表示

MERIT 是一个用于学习解耦音乐表示的框架，旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题，MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略，以鼓励训练数据中出现单因素的变化。评估结果显示，MERIT 实现了强大的因子解耦性，每个表示头对其目标感知维度有强烈响应，而在其他维度上表现接近随机，这一特性在合成训练域和独立的真实世界音频中均成立。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

超越整体模型：深度多元时间序列预测的系统性组件级基准测试

本文提出了TSCOMP，首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估，分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库，支持自动化的组件选择，能够实现零样本模型构建。实验表明，基于该语料库的方法始终优于当前最优方法。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

并非所有分歧都可学习：在线策略蒸馏中的Token可教学性

在线策略蒸馏（OPD）利用教师模型的token级监督，对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出，原始的KL分歧是一个粗糙指标，它混合了“可学习分歧”和“不相容分歧”。为此，研究提出了“Token可教学性”概念来衡量信号的实际可学习性，并据此设计了轻量级的TA-OPD方法，仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中，TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法，将选择性蒸馏重新定义为筛选可学习的教师信号。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

密集检索器的位置偏见是内建的，还是从数据中学来的？

本研究探讨了密集检索器位置偏见的成因，聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集，并对8种架构的预训练模型进行微调，实验发现：偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上，位置平衡训练可降低57%–87%的位置敏感性，且检索性能具有竞争力。表示层分析表明，微调能重塑模型的位置偏好，但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素，平衡数据编排是一种有效的缓解策略。

arXiv 检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法，用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征，避免了成对比较或聚类，且具有训练无关性，适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效，为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

利用稀疏自编码器的模型内部信号指导LLM后训练数据工程

SAERL是一个面向大语言模型强化学习的数据工程框架，利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性，并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明，在通义千问（Qwen2.5-Math-1.5B）上，SAERL相比标准GRPO平均准确率提升3.00%，并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益，且SAE能跨模型系列和规模有效迁移，证明了模型内部信号作为后训练数据工程信号源的实用价值。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

少即是多：用于On-policy蒸馏的早期停止生成策略

研究发现在On-policy蒸馏中存在“离策略教师衰减”问题：当学生模型的早期轨迹作为上下文时，教师模型为后续token产生修正分数的能力会衰减。为此，本文提出早期停止生成策略，将生成的rollout限制在前几个响应token上。实验表明，该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能，并展现出更高的GPU效率和训练稳定性，尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应，这解释了其有效性的机制。

arXiv 数据/训练论文/研究

06:58

Hacker News 热门（buzzing.cc 中文翻译）

40

挪威采购2拍字节华为闪存用于LLM训练

根据报道，挪威采购了2拍字节（PB）的华为闪存存储设备。这批高性能存储设备将被用于支持大型语言模型（LLM）的训练工作。此举反映了AI模型开发对大规模、高吞吐量存储解决方案的持续需求。

数据/训练行业动态部署/工程

04:36

MarkTechPost（RSS）

66

使用 NVIDIA FLARE 在非独立同分布 CIFAR-10 上构建与比较 FedAvg 和 FedProx 联邦学习的分步指南

本教程展示如何使用 NVIDIA FLARE 框架构建一个联邦学习实验，以比较 FedAvg 和 FedProx 两种算法。实验在非独立同分布（non-IID）的 CIFAR-10 数据集上进行，通过狄利克雷分布划分客户端数据，以模拟现实联邦场景中的标签不平衡问题。内容涵盖如何利用 NVFlare Job API 来定义和启动联邦学习任务。

开源生态教程/实践数据/训练

02:28

Hacker News 热门（buzzing.cc 中文翻译）

64

优步首席运营官表示，越来越难以证明在"代币化"上的支出是合理的

数据/训练行业动态

00:00

MiniMax：Blog（网页）

精选59

为什么MiniMax大语言模型无法说出"马嘉祺"？稀疏Token遗忘的内部调查

MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”（如“马嘉祺”）。内部调查排除tokenizer对齐问题，发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复，并顺带解决了其他小语种混合问题。

数据/训练论文/研究

推荐理由：这种官方自己拆自己的技术调查不多见，把「低频token遗忘」从社区猜测一路推到SFT数据缺失导致lm_head漂移的根因，做模型训练的可以当案例看。

5月25日

23:11

IT之家（RSS）

54

美光 HBM4 增产进展顺利，HBM4E 计划明年启动大规模生产

数据/训练行业动态部署/工程

23:11

IT之家（RSS）

57

过河拆桥？扎克伯格一边计划裁员，一边称"让 Meta 员工参与训练 AI 效果更好"

Meta 宣布裁员约10%员工后，CEO扎克伯格在内部会议中透露，裁员前正利用员工工作数据训练内部AI模型。扎克伯格称，让Meta员工参与训练AI效果优于外包人员，能更快提升模型的代码能力。

Meta 数据/训练行业动态

16:11

IT之家（RSS）

48

特斯拉 FSD 学会了"躲警车"，主动减速变道

特斯拉FSD系统基于人类驾驶数据训练，现可模仿真人驾驶习惯。当发现高速公路中央隔离带停放警车时，系统会主动减速、变道并汇入车流，而非以每小时70英里（约112.7公里）限速驶过。该行为适用于所有停放车辆，是端到端神经网络学习的结果。

产品更新具身智能数据/训练

11:11

IT之家（RSS）

37

既非活着、也非死去：美国初创公司 Bexorg 通过离体"缸中之脑"测试药物

美国生物科技初创公司 Bexorg 研发了 BrainEx 维持系统，可对去世捐赠者的离体大脑进行24小时药物代谢测试。该系统通过人工血液维持大脑生理功能，并用麻醉剂抑制其电活动，使大脑处于生与死之间的模糊地带。过去五年，该公司已使用700多颗人脑研究帕金森症、阿兹海默症等疾病。目前，美国FDA已批准基于BrainEx数据开展药物临床试验。但该技术也存在局限性，例如神经活动被屏蔽可能影响血流预测。Bexorg目前正在开发机器学习系统，以期未来能用数字模型替代真实大脑进行测试。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

44

当梯度冲突时：LLM Judge多目标提示优化的失败模式

针对LLM Judge的多目标提示优化中，文本梯度方法无法借用多任务学习的冲突解决工具，因其产生自然语言评语而非数值向量。通过改变损失、梯度和优化器LLM之间跨任务信息共享程度，测试了五种分解模式。结果发现，10种配置中有6种优化从未优于初始提示。当梯度LLM同时处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。将各任务指令简单合并为单条提示使Spearman's rho下降-5.3%。这些结果识别出两种可分离的失败模式：优化时梯度稀释与推理时指令干扰。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

提出 Unified Neural Scaling Laws （UNSL），统一建模多维度变化的深度神经网络缩放规律

研究提出了一个称为统一神经缩放规律的功能形式，能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构，并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明，相比其他缩放规律的功能形式，UNSL 在该集合上的行为外推结果显著更准确。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

可验证奖励强化学习中的时间调度策略

本文指出，在大语言模型后训练的可验证奖励强化学习中，学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定，而本文引入时间维度，在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token，并逐渐转向一般化优化，从而使学习过程更稳定高效。实验表明，这种时间调度方法在数学和通用推理基准上实现了持续改进，并能引导更健康的策略演进。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

NSF-SciFy：从NSF奖项数据库中挖掘科学主张

NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集，包含来自40万篇摘要的280万条主张，涵盖所有科学与数学学科。提供了两个子集：材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案，并在非技术摘要生成、主张提取等三个下游任务上微调模型，获得显著提升，相对增益常超100%。代码与数据已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

CroCo：基于自生成响应的跨语言对比偏好调优

本研究提出CroCo方法，扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移，在包含14种高低资源语言的评估中，使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明，单语或多语配对设置均能提升多数任务性能，并防止监督微调导致的灾难性遗忘。具体而言，在结构化任务上，调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平；在开放式生成任务中，两个模型在全部11种评估语言上均优于基线。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

个性化先于存储：长期代理个性化记忆的基准测试与学习

现有基于大语言模型的记忆系统采用通用、静态策略，忽略了不同用户值得存储在记忆中的内容存在差异。为解决这一问题，研究引入 PerMemBench，首个用于评估个性化记忆系统的基准测试，并提出 session level storage gating 轻量级框架，通过选择性地为临时会话跳过记忆操作以实现记忆个性化。研究确认个性化在完美门控条件下能带来显著的记忆保留增益，但准确的门控仍是开放性挑战。

智能体数据/训练论文/研究

02:57

Hacker News 热门（buzzing.cc 中文翻译）

58

内存成本已占到人工智能芯片总成本的近三分之二

根据 epoch.ai 的数据，内存成本在AI芯片总成本中的占比已显著增长，目前接近三分之二。这一数据表明，在构建AI系统所需的硬件成本结构中，内存组件的重要性日益凸显，其成本占比已成为主要部分。该趋势反映了当前AI芯片发展过程中，对高速、大容量内存的依赖与需求正在不断加强。

数据/训练现象/趋势

5月24日

21:57

The Decoder：AI News（RSS）

59

字节跳动研究发现：向多模态大模型提问比转录文本更利于长文档训练

字节跳动 Seed 团队的研究表明，一个 7B 参数的多模态大模型在回答长篇、图像密集的文档问题时，比规模更大的模型表现更可靠。即使文档长度达到其训练时所见数据的四倍，该模型也能自主定位相关段落并准确作答。这种通过提问和检索进行学习的方式，优于传统上对页面内容进行转录的训练方法。

多模态数据/训练论文/研究

20:11

IT之家（RSS）

60

英伟达 CFO：我们预判到内存价格会飙升，早已提前下单

英伟达首席财务官科莱特·克雷斯表示，公司已预判到内存价格将因AI芯片需求激增而飙升，因此提前通过与供应商联合定制生产的方式备货。相比之下，其他企业后知后觉，面临内存短缺困境。据预估，仅英伟达未来的Rubin人工智能平台，2027年所需LPDDR内存规模（60亿GB）就将超过苹果与三星的需求总和。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

46

NITP：用于大语言模型预训练的下一隐式Token预测方法

标准的下一Token预测（NTP）仅使用输出logit空间的离散标签进行监督，这导致潜在表示空间约束不足。为解决此问题，本文提出了NITP方法，它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容，并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明，NITP能正则化优化过程，促进紧凑且结构化的表示几何。实验表明，在从0.5B到9B参数的密集与MoE模型上，NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上，NITP在MMLU-Pro上实现了5.7%的绝对提升，在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升，仅增加约2%的训练FLOPs且无额外推理成本。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

无需多视角生成的多视角一致3D高斯头部化身

本文提出MVCHead，一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型，无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块，通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖，以直接在3D表示中强制多视角一致性。同时，设计了一个SE(3)多视角评判器，在未观测真实多视角对的情况下，奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量，超越先前方法的纹理和几何一致性。此外，文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K，用于训练与评估。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

神经网络在宽度、深度与时间中的生长

该研究在循环卷积神经网络中，将宽度、深度和时间定义为可微分成本项，并与任务误差一同通过反向传播进行联合优化。通过施加不同压力，多样化的计算图在训练中自然涌现。研究发现，这三种资源可以相互权衡以达到特定准确率。网络规模随任务复杂度在三个维度上增长，并在输入被遮挡时自发增加循环步数。模型使用的时间与人类在物体识别任务中的反应时间存在相关性。

数据/训练论文/研究

5月23日

22:09

IT之家（RSS）

63

美光 CEO 梅赫罗特拉：内存短缺或持续至明年，新产能 2028 年才能大规模释放

美光CEO桑杰·梅赫罗特拉警告，全球存储芯片短缺可能持续至2026年之后，主要因AI需求增速远超行业扩产速度。存储行业正转向AI专用产品，美光已缩减消费级业务，集中资源发展利润更高的企业级市场。梅赫罗特拉指出，当前的供需失衡是长期结构性问题，行业新产能大规模释放至少要到2028年。美光计划2026年大幅提高资本支出，重点投资AI加速器所需的高带宽内存（HBM）。

数据/训练行业动态

15:09

IT之家（RSS）

56

让机器人拥有"肌肉记忆"，智元推出新一代二阶段 BFM-2 基座模型

智元于5月23日发布新一代二阶段运动控制基座模型BFM-2，其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下，自主完成高稳定性的动作插值与动态任务闭环，为具身智能提供可靠的运动基础。演示视频显示，搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。

具身智能数据/训练模型发布

1…13 141516 17…31