8月5日

23:57

Jim Fan@DrJimFan

精选

NVIDIA发布DreamGen引擎（GR00T Dreams），将Sora/Veo等视频生成模型用作神经物理引擎，通过微调模型、模拟并行世界、恢复伪动作、训练基础模型四步流程，为机器人生成大规模合成训练数据。人形机器人仅凭单一拾放任务即可学会倾倒、折叠等22种新行为，在新动词和陌生环境中实现零样本泛化（成功率分别达43%和28%）。相比传统图形引擎，该方法以恒定计算成本处理可变形物体、流体等复杂交互，团队计划数周内完全开源。

Jim Fan: What if robots could dream inside a video generative model? Introducing DreamGen, a new engine that scales up robot lear...

具身智能视频论文/研究

推荐理由：NVIDIA提出用视频生成模型为机器人“造梦”合成训练数据，实现零样本技能泛化

7月11日

07:33

Saining Xie@sainingxie

对于所有任务中稳定训练的三个最重要超参数是 lr、bs 和 beta2。随着时间推移，我们已经建立了关于如何调整它们的良好直觉，但这篇文章分析性地、令人信服地阐述了这一切。

Micah Goldblum: 🚨 Did you know that small-batch vanilla SGD without momentum (i.e. the first optimizer you learn about in intro ML) is ...

数据/训练论文/研究

7月1日

01:06

Saining Xie@sainingxie

@jiacheng_chen_ 和 @sanghyunwoo1219 在基于3D的视觉合成方面的工作很棒（演示也很棒！）

Sanghyun Woo: Introducing BlenderFusion: Reassemble your visual elements-objects, camera, and background-to compose a new visual narra...

图像生成论文/研究

5月20日

21:29

Jim Fan@DrJimFan

精选

DreamGen：让机器人在视频生成模型中"做梦"合成训练数据

DreamGen让机器人在视频生成模型中"做梦"合成训练数据。通过微调Sora等模型生成海量神经轨迹（逼真视频+动作标签），机器人从单一拾取放置任务泛化到倾倒、折叠等22种新行为。在NVIDIA总部咖啡厅测试中，人形机器人对新动词零样本成功率从0%提升至43%，新环境达28%。相比传统图形引擎，无需手工建模即可处理流体、可变形物体等复杂场景，整个pipeline将于近期完全开源。

具身智能视频论文/研究

推荐理由：NVIDIA 提出 DreamGen：让机器人在视频生成模型中「做梦」合成训练数据，实现强零样本泛化，将开源

2月18日

15:04

DeepSeek@deepseek_ai

精选

NSA：硬件对齐的稀疏注意力新机制

NSA是一种硬件对齐且原生可训练的稀疏注意力机制，专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略，结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化，NSA在加速推理、降低预训练成本的同时不损失性能，在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。

DeepSeek 推理论文/研究部署/工程

推荐理由：DeepSeek 推出硬件对齐稀疏注意力 NSA，长上下文训练推理双提速，预训练成本显著降低