# 最优 batch size 是 1（在特定定义下）

- 来源：Yann LeCun (@ylecun)
- 发布时间：2025-07-12 05:08
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1yxbf01msslc3997dybz0
- 原文链接：https://x.com/ylecun/status/1943779482516828305

## AI 摘要

Micah Goldblum 指出，batch size 为 1 的无动量 vanilla SGD（入门 ML 的首个优化器）在 LLM 预训练中，per-FLOP 速度几乎与 AdamW 相当。

## 正文

The optimal batch size is 1
（For suitable definitions of "optimal"）

### 引用推文

> Micah Goldblum：🚨 Did you know that small-batch vanilla SGD without momentum (i.e. the first optimizer you learn about in intro ML) is virtually as fast as AdamW for LLM pretr...
