# 斯坦福团队研究：未过滤数据训练大模型，效果可能优于清洗数据

- 来源：向阳乔木 (@vista8)
- 发布时间：2026-06-03 11:27
- AIHOT 分数：58
- AIHOT 链接：https://aihot.virxact.com/items/cmpxinapu04cqslck8bxbl8ci
- 原文链接：https://x.com/vista8/status/2062013298741252183

## AI 摘要

斯坦福团队研究发现，使用未过滤Common Crawl数据训练模型时，在计算量充足下效果可能优于清洗后数据，结论呈现模型规模依赖性：小模型（15M）上过滤数据全面领先，但大模型（330M、1B）未过滤数据在充分训练后反而超越过滤版本，原因是大模型参数容量足够大，可在训练中自行隔离噪声与有效信息。

## 正文

今天读到斯坦福大学研究团队的一个论文，有点跟直觉不一样。

把没过滤的Common Crawl数据喂给大模型，发现计算量足够大时，不过滤数据效果反而比清洗后的数据效果好。

在 15M 小模型上，过滤数据全面领先，未过滤的很差。

但当模型规模达到 330M 和 1B 时，情况完全反转，未过滤的在充分训练后超越了所有过滤版本。

小模型怕垃圾，大模型不怕。

模型大，秩（参数量）多，就有足够空间把垃圾和有用信息隔离开。

论文解读和原始PDF见评论区