全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「数据/训练」清除

5月28日周四

13:28HuggingFace Daily Papers（社区热门论文）57ProRL：基于修正策略梯度估计的主动推荐强化学习框架

13:28HuggingFace Daily Papers（社区热门论文）65PEFT-Arena：从稳定性-可塑性视角理解参数高效微调

12:36Ethan Mollick55AI写作叙事特征研究揭示风格差异

12:28HuggingFace Daily Papers（社区热门论文）62长存平衡：基于信息瓶颈的树策略优化

12:28HuggingFace Daily Papers（社区热门论文）65GEM：生成式监督助力具身智能

11:28HuggingFace Daily Papers（社区热门论文）66多模态智能体推理的智能体探索性策略优化

11:28HuggingFace Daily Papers（社区热门论文）63从小弱点学习：面向小型计算机使用智能体的自动化领域特化

11:28HuggingFace Daily Papers（社区热门论文）60通过最优系数校准实现强化学习中的多Token预测联合训练

10:28HuggingFace Daily Papers（社区热门论文）70精选ResearchMath-14K：通过智能体扩展研究级数学

09:09MarkTechPost（RSS）52Sakana AI 提出 DiffusionBlocks：一种将残差网络转换为独立可训练去噪模块的分块训练框架

08:32meng shao60AI应用层的机会不在「通用智能体」，而在「工作流深处」

08:00HuggingFace Daily Papers（社区热门论文）44基于LLM的多模态音乐推荐系统

08:00HuggingFace Daily Papers（社区热门论文）56诊断答案正确的长链式推理训练轨迹中的有害延续

08:00HuggingFace Daily Papers（社区热门论文）56Draft-OPD：投机草稿模型的在线策略蒸馏

08:00HuggingFace Daily Papers（社区热门论文）64马尔可夫边界在表格预测中的应用：理论、实践与挑战

08:00HuggingFace Daily Papers（社区热门论文）50AnyMo：基于掩码建模的任意模态条件运动生成

08:00HuggingFace Daily Papers（社区热门论文）69多阶段适配器感知定向遗忘

08:00HuggingFace Daily Papers（社区热门论文）65LongDS：长期智能体数据分析能力的基准评测

08:00HuggingFace Daily Papers（社区热门论文）57探索面向模型专化的自主智能体数据工程

07:09SemiAnalysis55手写CUDA内核为何不敌自动生成版本

07:07Anthropic：Research（发表成果 · 网页）69精选社会科学中的编码智能体

05:27Emad59训练用自回归，推理用扩散模型

04:14IT之家（RSS）47Marvell 2027 财年第一财季归母净利润 3450 万美元，同比下降 80.61%

04:08Ars Technica：AI（RSS）66Nvidia CEO 希望台湾成为"AI革命"的中心，而非美国

04:08TechCrunch：AI（RSS）46薪资初创公司 Remote 称，其每位员工收入增长50%，且未增加员工数量

02:03Hacker News 热门（buzzing.cc 中文翻译）58PostHog 将使用您的数据来训练 AI 模型（默认已启用）

00:59Nathan Lambert51Trajectory成立获融资，构建持续学习平台

5月27日周三

22:20Hugging Face：Blog（RSS）61精选TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

21:07Artificial Intelligence News（RSS）26探讨 AI 智能体在外汇交易市场中的优势

20:27Berryxia.AI55MiniMax 发布 M2 论文，预告 M3 与 MSA 研究即将发布

17:19HuggingFace Daily Papers（社区热门论文）64在噪声中学习行动：通过噪声环境增强智能体鲁棒性

17:14IT之家（RSS）64华为郑俊谈中美 AI 竞争：模型整体水平差距仅 2.7%，今年 2 月以来中国模型的调用量持续碾压美国

16:14IT之家（RSS）43首批第三方 PCIe Gen6 SSD 将至：十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s

15:35Rohan Paul64美光：AI内存制造商市值破万亿，因AI的下一个短缺是内存而非模型

13:37MarkTechPost（RSS）59MEMO：一个无需修改大语言模型参数即可在新知识上训练专用记忆模型的模块化框架

12:13IT之家（RSS）75同事件精选AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain同一事件，精选展示《AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》

11:35公众号：面壁智能（MiniCPM）64精选AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

11:13IT之家（RSS）65最高法：研究制定涉 AI 案件和数据产权司法保护规范性文件

10:19HuggingFace Daily Papers（社区热门论文）68递归流匹配

10:19HuggingFace Daily Papers（社区热门论文）68空间基础模型基准测试 SpatialBench：你的模型是全能选手吗？

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月28日

13:28

HuggingFace Daily Papers（社区热门论文）

57

ProRL：基于修正策略梯度估计的主动推荐强化学习框架

针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷，研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差，以及忽略分解结构导致的高方差问题。ProRL引入两个机制：逐步奖励中心化通过减去期望奖励消除长度偏差，位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明，ProRL在三个真实数据集上显著优于现有先进方法。

数据/训练论文/研究

13:28

HuggingFace Daily Papers（社区热门论文）

65

PEFT-Arena：从稳定性-可塑性视角理解参数高效微调

PEFT-Arena是一个新的参数高效微调评估基准，它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现，不同微调方法展现出不同的稳定性-可塑性特征；在相似参数预算下，正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间（谱分析）和激活空间（表示失真度量）两个几何视角的分析，研究解释了这些差异，并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此，研究通过路径回溯案例展示了一种改进方法。

arXiv 数据/训练论文/研究

12:36

Ethan Mollick@emollick

55

关于AI写作的风格特征（如破折号等）已有大量讨论，但这篇论文关注的是AI叙事特征 AI与人类叙事之间存在引人入胜的差异，要求AI以不同风格写作并不能显著改变这一点 https://arxiv.org/abs/2604.03136

arXiv 数据/训练论文/研究

12:28

HuggingFace Daily Papers（社区热门论文）

62

长存平衡：基于信息瓶颈的树策略优化

该研究针对大语言模型在线强化学习中探索与利用的失衡问题，提出了新指标IB-Score，它基于信息瓶颈理论，量化了步级推理多样性与正确答案信息的权衡。分析表明，主流方法如GRPO难以维持此平衡。为此，论文提出IB-TPO框架，将IB-Score作为优化目标，并采用信息瓶颈引导的树采样策略，在相同token预算下可增加50%的轨迹。实验显示，该方法在标准基准上显著优于GRPO基线，性能提升2.9%至3.6%。代码已开源：https://github.com/alibaba/EfficientRL。

推理数据/训练论文/研究

12:28

HuggingFace Daily Papers（社区热门论文）

65

GEM：生成式监督助力具身智能

当前具身视觉语言模型（VLM）在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距，联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据，并附带高质量深度监督。实验表明，GEM 在多项具身基准测试中达到领先水平，其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。

arXiv 具身智能开源生态数据/训练

11:28

HuggingFace Daily Papers（社区热门论文）

66

多模态智能体推理的智能体探索性策略优化

针对视觉语言模型在工具使用任务中存在的“思考-行动差距”（工具调用尝试率仅约30%，且其中约40%问题的所有工具调用均错误），研究提出AXPO（AI 智能体探索性策略优化）方法。该方法在标准强化学习（如GRPO）流程中，针对工具调用全错的子批次，固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上，SFT+AXPO的平均性能优于SFT+GRPO（8B模型平均Pass@1和Pass@4均提升1.8个百分点）。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。

智能体 MCP/工具多模态数据/训练

11:28

HuggingFace Daily Papers（社区热门论文）

63

从小弱点学习：面向小型计算机使用智能体的自动化领域特化

针对小型开放计算机使用智能体在特定领域能力较弱且失败案例分布不均的问题，研究团队提出了LearnWeak框架。该框架利用一个更强的参考智能体，自动识别学生智能体在目标领域的弱点，并据此合成针对性任务以构建训练数据。LearnWeak进一步引入错误感知特化目标，能够区分规划与执行错误，实现更精确的行为更新。在OSWorld基准测试中，该方法使EvoCUA-8B和OpenCUA-7B模型在八个领域的平均性能分别提升了11.6和11.1个百分点。

智能体数据/训练论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

60

通过最优系数校准实现强化学习中的多Token预测联合训练

可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式，而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度，因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题，提出最优系数校准方法，能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中，OCC方法持续匹配或超越分离基线，改善了联合MTP-RL的训练性能。

arXiv 推理数据/训练论文/研究

10:28

HuggingFace Daily Papers（社区热门论文）

精选70

ResearchMath-14K：通过智能体扩展研究级数学

本文介绍了ResearchMath-14K，这是一个包含14,056个研究级数学问题的数据集，通过多智能体流程从学术资料中策划而成，是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning（包含220K条教师轨迹），发现语言模型存在回避行为，且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后，对参数规模为4B到30B的Qwen3模型进行微调，其平均得分比基础模型提高了9.2分，表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

arXiv 推理数据/训练论文/研究

推荐理由：这可能是目前数学推理方向最有价值的数据集之一，它暴露了模型编造引用的问题，过滤后微调还能涨点，做数学推理的团队应该立刻拉下来试试。

09:09

MarkTechPost（RSS）

52

Sakana AI 提出 DiffusionBlocks：一种将残差网络转换为独立可训练去噪模块的分块训练框架

Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络（Residual Networks）的层更新过程解释为反向扩散（reverse diffusion）的去噪步骤，从而将其转换为一系列可以独立训练的块。

数据/训练论文/研究部署/工程

08:32

meng shao@shao__meng

60

AI应用层的机会不在「通用智能体」，而在「工作流深处」

a16z 合伙人指出，AI应用层仍有巨大机会，但机会不在模型实验室押注的“黄砖路”上。这条路径指用最强模型加简单编排做通用AI工具，与实验室正面竞争胜算极低。真正的机会在“Oz的其他地方”——复杂、垂直、多步骤的工作流。其价值不仅来自模型，更来自确保输出可信、合规、可运营的系统脚手架。应用公司相比实验室的优势在于：能构建专属的数据学习飞轮、跨模型管理与优化成本，并吸收监管复杂度。核心结论：模型层可替换，但深度集成的工作系统不可替代。

Joe Schmidt IV: http://x.com/i/article/2059491657683443712

智能体大佬观点数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

44

基于LLM的多模态音乐推荐系统

研究提出一个基于LLM的多模态音乐推荐框架，在LastFM-1K数据集上融合三类信号：预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展，集成SASRec、BERT4Rec、GRU4Rec等编码器，并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线，内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现，简单拼接多模态特征并不总能带来叠加提升，并开放了一个大规模音乐推荐多模态基准。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

诊断答案正确的长链式推理训练轨迹中的有害延续

本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现，即使推理轨迹答案正确，其在结论后仍继续的推理部分也可能对训练产生有害影响，导致微调结果显著不同。这种现象被定义为“有害延续”，其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后，基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut（HCC），作为近似有害延续边界的轻量级代理方法。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

Draft-OPD：投机草稿模型的在线策略蒸馏

本文提出Draft-OPD，一种用于改进投机解码中草稿模型的在线策略蒸馏方法。针对现有监督微调方法（如EAGLE3、DFlash）存在的离线数据与推理状态不匹配问题，Draft-OPD采用目标模型辅助的序列展开，从验证步骤暴露的错误位置进行重放学习。这使草稿模型能从目标模型对其提议的接受和拒绝反馈中优化。实验表明，该方法对各类思考模型实现了超过5倍的无损加速，相比EAGLE-3和DFlash分别取得了23%和13%的性能提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

马尔可夫边界在表格预测中的应用：理论、实践与挑战

在标准图模型下，马尔可夫边界是使目标变量条件独立于其他特征的最小特征子集。本文在包含3450个任务的合成基准SCM3K上评估发现，直接将模型限制在理论“神谕”边界特征上，通常能显著提升预测性能，且特征空间越大越稀疏时改进越明显。然而，通过因果发现算法自动恢复边界再训练的常规流程效果不佳。原因有三：现有发现算法优化结构而非预测、误报与漏报的预测代价严重不对称，以及优于全特征的特征集远不止精确边界一种。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

AnyMo：基于掩码建模的任意模态条件运动生成

提出OmniHuMo大规模高质量数据集，包含超过5000小时运动数据与320万序列，提供文本、语音、音乐和轨迹等多模态精准标注。基于此构建AnyMo统一多模态框架，结合Residual FSQ运动分词器与可扩展的掩码建模Transformer，支持任意模态组合下的高保真实时运动生成，并能灵活控制运动的空间与风格属性。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

多阶段适配器感知定向遗忘

当前机器遗忘评估存在结构性偏差，测试“为什么”类因果知识的问题在主流基准中占比极低（不足1.3%）。为此，研究提出5WBENCH基准，其包含5,000个样本，均匀覆盖“5W”类别，使因果遗忘失败首次变得可量化。分析表明，现有方法无法在“为什么”类问题上同时实现高遗忘与高保留，因为这类问题涉及多跳推理链（44%）和超过40个token的答案跨度。研究提出MAAT框架，该方法在LoRA适配器权重上进行三阶段操作，结合梯度投影上升、SVD秩维剪枝、任务向量取反和混合KL-隐藏状态保留修复，是首个在因果知识上实现高遗忘与高保留平衡的方法。

arXiv 安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

LongDS：长期智能体数据分析能力的基准评测

该研究引入LongDS基准，评估AI智能体在长期、多轮数据分析任务中维护动态分析状态的能力。该基准包含68个源自真实Kaggle笔记本的任务，覆盖6个领域，共计2225轮次，任务设计围绕状态演化模式（如反事实扰动、回滚）。对五个前沿模型的评估显示，最佳模型的平均准确率仅为48.45%，其性能从早期轮次到晚期轮次下降近47个百分点，且长期错误是主要失败原因，占比52%-69%。研究指出，单纯增加智能体的交互步骤并不能有效提升性能，关键瓶颈在于正确维护随时间演变的分析状态。

智能体 arXiv GitHub 数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

57

探索面向模型专化的自主智能体数据工程

大语言模型在通用任务上表现强劲，但在适应专业领域时往往缺乏高质量领域数据。现有方法依赖人工设计的工作流，本研究正式提出“自主智能体数据工程”这一新任务，旨在评估LLM作为自主数据工程师执行端到端数据整理流程以实现模型专化的能力。实验表明，GPT-5.2作为自主数据工程师，通过智能体驱动的迭代数据适配，构建训练课程使学生模型性能提升57.29%。研究将自主数据工程确立为一种可量化的能力，为智能体驱动的模型专化指明了路径，代码将于 https://github.com/zjunlp/DataAgent 发布。

智能体数据/训练论文/研究

07:09

SemiAnalysis@SemiAnalysis_

55

GPU性能仍有提升空间。在大规模手动调整CUDA内核时，几乎不可能弥合理论峰值与实际吞吐量之间的差距。那么，为什么手写CUDA内核会输给自动生成的版本？ Makora的Mohamed Abdelfattah有一个解决方案：https://youtu.be/ukzACWrk0W0?si=whrH_WsHltmF_J7B

教程/实践数据/训练部署/工程

07:07

Anthropic：Research（发表成果 · 网页）

精选69

社会科学中的编码智能体

一项针对1260名定量社会科学家的调查显示，虽然81%的受访者用过AI聊天机器人，但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异：以男性名字命名的研究者使用率是女性研究者的两倍；顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请，但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观，但对重塑整个社会科学领域持保留态度。这是一项初步调查，更深入研究仍在进行中。

智能体 Anthropic 数据/训练论文/研究

推荐理由：Anthropic 这份调查把编码代理在社科领域的真实渗透率摸清了，只有 20% 的研究者真在用，而且男女、校际差距比 AI 聊天工具大得多，做学术工具的可以认真看看。

05:27

Emad@EMostaque

59

训练时使用自回归，推理时将权重转换为扩散模型。

David: Most researchers agree that autoregression is best when memory bandwidth is cheap and diffusion is best when FLOPS are c...

大佬观点开源生态数据/训练

04:14

IT之家（RSS）

47

Marvell 2027 财年第一财季归母净利润 3450 万美元，同比下降 80.61%

数据/训练行业动态

04:08

Ars Technica：AI（RSS）

66

Nvidia CEO 希望台湾成为"AI革命"的中心，而非美国

Nvidia CEO 表示，Nvidia 将每年投资 1500 亿美元，旨在将台湾打造为“AI中心”。

数据/训练行业动态部署/工程

04:08

TechCrunch：AI（RSS）

46

薪资初创公司 Remote 称，其每位员工收入增长50%，且未增加员工数量

薪资服务商 Remote 近期年经常性收入（ARR）突破3亿美元，并实现现金流转正。这一增长得益于采用AI技术，使该公司每位员工产生的收入提升了50%，且此过程中未扩充团队规模。

数据/训练行业动态部署/工程

02:03

Hacker News 热门（buzzing.cc 中文翻译）

58

PostHog 将使用您的数据来训练 AI 模型（默认已启用）

数据分析平台 PostHog 宣布将使用用户数据训练其 AI 模型，且该功能默认为启用状态。用户需主动操作以退出此计划。

数据/训练行业动态

00:59

Nathan Lambert@natolambert

51

创业公司Trajectory宣布成立，并获得Conviction、Bessemer、Radical Ventures、Jeff Dean及李飞飞等投资的1500万美元融资。该公司旨在构建持续学习平台，利用产品使用数据中的信号，帮助企业对大规模智能体模型进行持续后训练，使其性能超越前沿模型。目前，Trajectory已与Harvey、Decagon AI、Mercor、Rogo AI等AI原生公司建立合作，部分已进入生产环境。团队成员来自DeepMind、OpenAI、Apple、Meta Superintelligence等顶级机构。其理念是AI产品将通过每一次用户交互（如修正、重试、编辑）持续变得更智能。

Ronak Malde: Today, @MichaelElabd, @QuantumArjun, and I are excited to announce Trajectory. We are a research lab and product company...

智能体数据/训练行业动态

5月27日

22:20

Hugging Face：Blog（RSS）

精选61

TRL 新增 Delta Weight Sync：通过 Hub Bucket 传输权重变化，每步从 1.2 GB 降至 20-35 MB

异步强化学习中，训练器每步需将完整模型权重（如1T参数checkpoint约1 TB）传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点，仅将变化的权重编码为稀疏safetensors文件，上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上，每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景：训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中，权重通过单个Hub bucket流动，无需共享集群、RDMA或VPN。

Hugging Face 教程/实践数据/训练部署/工程

推荐理由：异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了，带宽直接省了两个数量级，还给了可运行的TRL分支，做RL训练的可以直接上手试。

21:07

Artificial Intelligence News（RSS）

26

探讨 AI 智能体在外汇交易市场中的优势

外汇市场正从纯粹依赖直觉，转向一个由速度、数据和精确性塑造的领域。在日常交易中使用自动化系统（如 AI 交易机器人），可以在市场波动中保持交易纪律，这是手动交易难以做到的。交易的每一次入场和出场都可以基于明确的规则，而非个人情绪。

教程/实践数据/训练

20:27

Berryxia.AI@berryxia

55

MiniMax 发布 M2 论文，预告 M3 与 MSA 研究即将发布

MiniMax 在开源 M2 模型半年后，系统性发布了其背后所有工作的论文，详细阐述了设计思路、训练细节与系统架构。此前，其开源系统 CISPO、Forge RL System 和 Self-Evolution 已被社区广泛采用，且多版模型发布后曾登顶 HuggingFace 排行榜。与此同时，MiniMax 官方宣布已为下一代模型 M3 做好准备，并且 MSA 论文也即将发布。

RyanLee: Recently, we took time to consolidate all of the work behind M2 and published it here: our M2 paper on arXiv It's been j...

开源生态数据/训练论文/研究

17:19

HuggingFace Daily Papers（社区热门论文）

64

在噪声中学习行动：通过噪声环境增强智能体鲁棒性

现有大语言模型智能体在理想化基准测试中表现良好，但在具有固有随机性和缺陷的真实环境中部署时，性能常会下降。研究提出了NoisyAgent训练框架，旨在缩小这一差距。该框架通过模拟真实场景中的“用户噪声”（交互的歧义性）和“工具噪声”（工具执行失败）两类噪声源来增强智能体。训练过程中，噪声被策略性地施加于部分训练轮次，并随着模型适应而逐步增加难度。实验表明，该方法在噪声和动态环境中持续提升了智能体的鲁棒性，且在理想化基准测试上也获得了性能增益，证明了建模交互缺陷对于弥合训练与现实部署差距的重要性。

智能体 arXiv 数据/训练论文/研究

17:14

IT之家（RSS）

64

华为郑俊谈中美 AI 竞争：模型整体水平差距仅 2.7%，今年 2 月以来中国模型的调用量持续碾压美国

华为技术有限公司金融系统部CTO郑俊表示，根据斯坦福最新报告，中国AI模型整体水平仅落后美国2.7%。自2025年2月以来，中国模型的调用量持续超过美国模型。主要原因有二：国内开源模型能力大幅提升，已逼近美国闭源模型水平；中国依托基础设施优势，包括算力和电力资源，使国产AI模型具备更强的价格经济性。

大佬观点开源生态数据/训练

16:14

IT之家（RSS）

43

首批第三方 PCIe Gen6 SSD 将至：十铨 T-CREATE MASTER Ai I6E 顺序读可达 28GB/s

十铨科技将在Computex 2026展出一系列存储器新品。核心产品是面向AI训练、超大规模推理等高性能计算场景的T-CREATE MASTER Ai I6E固态硬盘。作为首批第三方PCIe Gen6 SSD，它采用EDSFF E1.S规格，顺序读取速度可达28GB/s。面向消费市场，将发布以碳纤维设计为核心的CARBON STYLE系列，涵盖DELTA RGB DDR5、XTREEM DDR5内存及基于群联E37T主控的Z54E固态硬盘。此外，整合微型风扇与水冷系统的T-FORCE LIQUID II SSD散热器、CQDIMM版本的T-CREATE EXPERT AI内存条等新品也将亮相。

产品更新数据/训练部署/工程

15:35

Rohan Paul@rohanpaul_ai

64

美光：AI内存制造商市值破万亿，因AI的下一个短缺是内存而非模型

美光市值已突破1万亿美元，一年前其市值还仅为700亿美元。这一飞跃的核心驱动力是AI发展对高带宽内存（HBM）的迫切需求。尽管GPU备受关注，但HBM已成为确保GPU持续高效工作的关键部件。随着AI智能体的兴起，无法快速将数据送达芯片已成为新的系统瓶颈，使得内存成为AI增长背后的关键约束。行业的焦点正从单一的逻辑芯片性能，转向整体数据流能否跟上AI推理和智能体工作负载的需求。此外，瑞银将其目标价从535美元大幅上调至1625美元，认为其长期供应协议可能平滑盈利的周期性波动。

数据/训练现象/趋势

13:37

MarkTechPost（RSS）

59

MEMO：一个无需修改大语言模型参数即可在新知识上训练专用记忆模型的模块化框架

新加坡国立大学、麻省理工学院及A*STAR的研究团队提出了MEMO框架。该框架可以将新的语料库知识编码到一个独立的、可训练的MEMORY模型中，从而让大语言模型获得新知识，而无需修改其原始参数。

数据/训练论文/研究

12:13

IT之家（RSS）

同事件精选75

AI 制造 AI：面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练，其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体 Hugging Face 开源/仓库开源生态

同一事件，精选展示《AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》

推荐理由：全球首个AI独立编写的训练框架，零人类代码，并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通，做模型训练的团队都该去fork一下，复现过程本身就是一堂课。

11:35

公众号：面壁智能（MiniCPM）

精选64

AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain，全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%，节省10%算力；在华为昇腾上完整跑通预训练，并训出MiniCPM5-1B模型，综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

推荐理由：面壁这波把 AI 写代码从玩具推进到了生产车间，ForgeTrain 跑得比英伟达 Megatron 还快 10%，而且直接在昇腾上训出了 MiniCPM5-1B，国产算力跟 AI 自举这两条线在这一刻交汇了，做训练的可以认真看看。

11:13

IT之家（RSS）

65

最高法：研究制定涉 AI 案件和数据产权司法保护规范性文件

最高人民法院表示，将针对数字经济新业态，研究制定涉人工智能案件和数据产权司法保护的规范性文件，并完善数据权属、数据交易、AI 生成等方面的裁判规则。

政策/监管数据/训练

10:19

HuggingFace Daily Papers（社区热门论文）

68

递归流匹配

递归流匹配（RecFM）是一种用于预测复杂时空动态的生成式框架。该模型通过强制自一致性来对齐跨离散化尺度的轨迹，从而减少离散化误差并提升物理任务的各项性能。据称，这是首个能够为科学系统实现高保真度一步与少步（2-4步）动态生成的方法，其性能可与最先进的多步求解器相媲美。在多个科学基准测试中，RecFM 实现了最高 20 倍于领先扩散模型的速度提升，同时提高了预测精度。与基础流匹配相比，其均方误差降低了超过 15%。

arXiv 推理数据/训练论文/研究

10:19

HuggingFace Daily Papers（社区热门论文）

68

空间基础模型基准测试 SpatialBench：你的模型是全能选手吗？

空间基础模型虽在标准数据集上表现优异，但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此，研究者提出了跨范式、多领域的基准测试 SpatialBench，包含19个数据集、546个场景，覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估，发现当前模型尚未达到“全能”水平。研究表明，全上下文注意力能最大化精度，有界内存策略可提升长序列扩展能力，且在具身任务中，严格的领域对齐与数据质量远比单纯增加数据量更重要。此外，研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。

arXiv 具身智能多模态数据/训练

1…18 192021 22…43