# 文本频率定律的发现与验证

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-29 11:12
- AIHOT 分数：59
- AIHOT 链接：https://aihot.virxact.com/items/cmpqdb86603zaslnoi7dmux17
- 原文链接：https://x.com/berryxia/status/2060197579103814067

## AI 摘要

脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

## 正文

http://x.com/i/article/2044264645683539968

# 「马嘉祺」和Anthropic让全网知道的技术问题，这家初创公司的CEO在洗澡的时候就解决了。

大家还在拼命把Prompt写得文雅、专业、结构严密，以为这样模型就会更听话、输出更准。结果正好相反。

从一个二次元AI弹幕产品里冒出来的FaceMind研究，直接用100种语言、四大核心任务的实验证明：语义不变的前提下，用预训练语料里出现频率更高的表达方式，不管是Prompting还是Fine-tuning，模型表现都会显著提升。

这就是Adam's Law（文本频率定律）。后面详细展开说。

它把当前数据工程的"质量-规模-难度"铁三角直接补上了缺失的第四维度--频率。

Anthropic的Claude Opus 4.7用新分词器间接验证了这一点，DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。

高频表达不是"简化"，而是让模型在它最熟悉的概率空间里干活，效果直接起飞。

## 在展会上遇到一个让人上头的二次元小产品

今年4月份去参加 Let's Vision 展会，在一堆 XR 眼镜和空间计算的展台中间，我被一个画风完全不一样的摊位吸引了，屏幕上跑着游戏，旁边飘着一层二次元角色的 AI 弹幕，角色还在根据游戏画面实时吐槽。

这个产品叫叠叠社（Danmaku Chan）。

简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层，不管你在刷网页、看视频还是打游戏，都会有一个二次元角色在旁边陪着你，根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。

你可以自定义角色的性格和人设，它的回应是上下文感知的--它「看得懂」你屏幕上在发生什么。

我当时还挺好奇的，就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。

怎么说呢，打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅！」，这种体验确实挺上头的。

AI 的反应速度和准确度也比我预想的好不少，不像是那种答非所问的套壳聊天机器人。

后来我查了一下，叠叠社背后的公司叫 FaceMind Corporation（上海脸谱心智智能科技），创始人是 Adam 博士（Hongyuan Adam Lu），港中文博士毕业，曾在微软亚洲研究院负责模型预训练，拿过 EACL Outstanding Paper Award 一作，还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。

这个学术背景，做一个二次元弹幕产品？

我当时就觉得这团队有点意思。

## 叠叠社背后的秘密：一条被忽视的语言规律

回去之后我就去查了这个团队，然后发现了一个比产品本身更有意思的东西。

叠叠社的 AI 对话之所以反应又快又准，跟一项 FaceMind 自己做的基础研究有很深的关系。

Adam 博士联合香港中文大学发了一篇论文，提出了一个叫 Adam's Law 的发现--文本频率定律（Textual Frequency Law）。

核心观点一句话就能说清楚：语义不变的前提下，你用预训练语料里出现频率更高的那种说法，模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。

这篇论文并不是第一次触碰这个问题。

其实早在 2025 年，脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文，首次系统性揭示了大模型的低频 token 退化现象，并提出了轻量级的词典 Prompting 方案--无需额外训练，插入一个词典就能显著缓解问题。

2026 年 4 月 2 日，Adam's Law（文本频率定律）作为后续深化研究正式公开预印版，随后被顶级学术会议 ACL 2026 收录。

叠叠社在角色对话的训练和 Prompt 设计中，就应用了这套理论。同样是让 AI 角色对屏幕内容做反应，用更「常见」的表达方式去组织指令和训练数据，模型的理解力和反应质量就是比用精雕细琢的文案好。

你可以把它想象成跟一个在中国生活了二十年的外国人聊天--你用成语他可能愣半天，但换成日常口语，他立马就明白了。你说的是同一个意思，但他的反应完全不一样。

这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多--不是模型本身更强，而是跟模型「说话」的方式更对路。

我觉得这个发现比产品本身还有意思，于是把论文翻出来完整读了一遍。

读完之后我发现，这个东西的影响范围，远不止一个二次元弹幕应用。

学术先行，工业验证--像 DiT 之于 Sora

在聊 Prompt 工程和数据工程之前，我想先说一个最近才在业界引发讨论的背景。

2026 年 5 月 9 日，一场因「马嘉祺」掀起的技术讨论，让「大模型低频 token 退化」这个学术圈早已在研究的话题，第一次被大众视野广泛关注。

但如果你去追源头，会发现这件事其实已经有了明确的先行者和跟随验证者。

脸谱心智是最早的研究者：2025 年 EMNLP 主会论文（SLoW）发现问题、提出方案；

2026 年 4 月 Adam's Law 进一步量化规律，被 ACL 2026 收录。

Anthropic 是最早的生产级验证者：2026 年 4 月下旬，Claude Opus 4.7 正式上线，官方迁移指南写明：「Claude Opus 4.7 uses a new tokenizer， contributing to its improved performance.」

业界普遍解读为 Anthropic 缩减或重组了低频退化 token--与脸谱心智的减法策略高度一致，时间比脸谱心智晚了将近一年。

这让人想到 DiT（扩散 Transformer）与 Sora 的关系，学术界率先提出架构，工业界在商业产品中完成大规模生产级验证。

脸谱心智之于 Anthropic，就是这样的关系。

## 你精心打磨的 Prompt，模型可能根本不领情

过去两年，AI 行业在一件事上砸了天文数字的钱：让数据变得更「好」。更干净的标注，更严格的筛选，更复杂的去重管线。

Prompt 工程师们则在另一端较劲，打磨措辞、设计思维链、雕琢每一个指令的语法结构。

所有人都在追求同一件事：说得更「准确」，写得更「高级」。

但 Adam's Law 用横跨 100 种语言、覆盖四大核心任务的实验，证明了一件让人有点不舒服的事实：大语言模型的表现，和你说的话「对不对」关系没那么大，和你说的话「常不常见」关系大得多。

这个发现之所以让人不舒服，是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。

## 行业正在优化的三个维度，和一个被集体忽略的。

当前大模型训练的主流思路，围绕三个核心变量旋转：

维度核心逻辑代表工作数据质量垃圾进垃圾出，高质量标注才有好模型LIMA、Alpaca数据规模越多越好，Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难，课程学习提升泛化能力Curriculum Learning

这三个维度各有各的道理，也各有各的研究山头。它们构成了今天数据工程的「铁三角」。

但问题来了：如果你已经有了高质量、大规模、按难度排好序的数据，模型的表现就到顶了吗？

Adam's Law 的回答是：远没有。

核心论点：数据工程存在被集体忽视的第四个维度：文本频率。质量、规模、难度构成的「铁三角」并不完整。

## 「常见」不等于「简单」，这是最关键的区分。

读到这里，你很可能在想：这不就是说大白话吗？用简单的句子，降低 Flesch-Kincaid 可读性等级？

这恰恰是最容易掉进去的思维陷阱。

论文做了一个很硬的验证：他们计算了文本频率和多种传统复杂度指标之间的相关性，包括句法树深度、Flesch-Kincaid 可读性等级等。结果是，Pearson 相关系数接近 0。

换个说法：一句话可以语法复杂、用词专业，但同时是高频的，因为这种表达方式在互联网上大量出现。反过来，一句话可以很短很简单，但用了一个罕见的搭配，在模型眼里它就是「生僻」的。

回到叠叠社的例子。你给 AI 角色设定一条指令：「当用户在游戏中遭遇挫败性事件时，以富有同理心的方式进行情感支持。」这句话语法没毛病，意思很清楚，但它的表达方式在互联网上几乎不会出现。

换成「用户打游戏被打死了，安慰一下他」，意思完全一样，但这种说法模型在训练时见过无数次，理解起来毫无压力。

频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好，而是模型见过多少次。

## 四大任务，100 种语言：数据说了什么？

理论再漂亮，得拿实验说话。Adam's Law 的验证覆盖面在 NLP 领域算得上少见的全面。

先看数学推理。研究团队在 GSM8K 数据集上测了三个模型，同一道数学题，同一个意思的 Prompt，只是换了一种更高频的表达方式：

题目没变，数字没变，逻辑关系没变，仅仅是换了一种说法，准确率平均涨了 8 个百分点。不是微调，不是换模型，就是改了几个词。

再看机器翻译。这组实验的规模更吓人，在 DeepSeek-V3 上测了 100 种语言到英语的翻译，99/100 种语言对在 BLEU 指标上获得提升，100/100 在 chrF 指标上全部提升，最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域，1 个 BLEU 点的提升就算有统计显著性了，5 个点是很大的跳跃。

更有意思的是频率-性能相关分析。

在老挝语、缅甸语、卡比尔语等语言上，频率和翻译质量的 Pearson 相关系数达到了 1.0--完美正相关。频率排序和翻译质量排序完全一致，频率越高翻译越好，没有例外。

常识推理和 Agent 工具调用的方向也一样，高频文本分区的表现一致地优于低频分区。三个模型，四个任务，100 种语言，箭头全都指向同一个方向。

## 最反直觉的是：原始标注数据不是最优数据

如果前面的实验只是让人惊讶，接下来这个发现就是直接挑战信仰了。

在微调实验中，研究团队做了一件很「冒犯」的事：他们把原始标注数据（ground truth）用高频表达改写了一遍，然后用改写版数据去训练模型。

发现：高频改写版数据训练出的模型，效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上，改写版 BLEU 为 5.25，原始数据 BLEU 为 4.68，相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设，被实验数据打了脸。

你想想看，每个做微调的团队，花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过，把这些数据「翻译」成模型更熟悉的表达方式，效果可能更好。就像一个老师备课备了半天高级教案，结果发现，用学生最熟悉的语言讲一遍，他们学得更快。

那怎么知道哪种表达频率更高呢？尤其是面对 GPT-4、DeepSeek 这些闭源模型，你根本看不到它们的训练数据。

论文提出了一个叫 TFD（Textual Frequency Distillation，文本频率蒸馏） 的方法：让模型去续写故事。故事续写是个开放式任务，模型不会被特定提示引导，而是自然地用它最「顺手」的词汇和句式来写。

收集这些输出，统计里面不同表达的出现频率，就能反推模型内部的频率偏好。你不需要知道它读过什么书，只需要让它自由聊五分钟，从用词习惯就能猜个八九不离十。

## 把频率变成课表：一个排序就值 30% 的提升

有了频率估算工具，下一步自然是把它塞进训练流程里。

论文提出的做法叫 CTFT（Curriculum Textual Frequency Training）-按文本的句子频率从低到高排列训练数据，让模型先学「生僻」的表达，再学「常见」的。

这借鉴了课程学习的思路，但排序的维度从「难度」换成了「频率」。

为什么是从低频到高频，而不是反过来？你可以这样理解：先让模型接触那些它不太「熟」的表达方式，强迫它建立更稳健的语义理解；

然后用高频数据收束能力，让它在最熟悉的概率空间里巩固。就像学外语，先啃生词再大量阅读日常文章，比一直泡在简单材料里进步快得多。

效果？在 Pangasinan 语言对上，CTFT 带来了 +29.96% 的 BLEU 提升。

论文实验的全部 8/8 个评估指标上，CTFT 都拿到了最优。

就改了个训练数据的排列顺序。

## 不只是实验碰巧，背后有数学上的必然

到这里你可能会问：这是不是只是某些数据集上的巧合？

论文在附录中给了完整的理论证明。

核心逻辑是这样的：大语言模型靠最大似然估计训练，模型在预训练阶段读了海量文本，学的是词与词之间的条件概率分布。

一个表达方式在训练语料中出现越多，模型对它的概率估计就越准确，置信度就越高。你用高频表达跟它说话，等于在它最熟练的概率空间里操作，输出自然更稳、更可靠。

论文从 Zipf 定律出发，证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话：模型处理高频文本的时候，内部表示更精确，犯错的空间更小。

有意思的是，人脑也有类似的特性。

神经语言学研究（Desai et al.， 2020； Alexandrov et al.， 2011）发现，高频词汇在人类大脑中激发更强的神经响应，反应更快，理解更准。人脑如此，用海量文本喂出来的语言模型也如此。

「说模型听得懂的话」，不是修辞，是神经网络层面的物理现实。

Anthropic 的跟进，让这件事有了工业级背书

就在 Adam's Law 发表后不到一个月，一件事给这套理论加了一个意想不到的注脚。

2026 年 4 月下旬，Anthropic 发布 Claude Opus 4.7，官方迁移说明写道：「Claude Opus 4.7 uses a new tokenizer， contributing to its improved performance.」社区开发者实测发现，同样文本在新版中 token 消耗增加约 1.20-1.47 倍（英文/代码），而 CJK 字符仅增加约 1.01 倍。

业界普遍解读是：Anthropic 缩减或重组了词表，剔除了低频、容易退化的 token，与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致，时间比脸谱心智晚了将近一年。

学术先行一年，工业落地验证。

就像 DiT 架构和 Sora 的关系--研究者先在论文里验证路线，商业公司用产品规模证明其价值。

## 从一个弹幕产品到数据工程的第四维度

回过头来看叠叠社这个产品，就会觉得有意思。

一个港中文博士、微软亚研院出来的 NLP 研究者，做了一个二次元弹幕伴侣。

乍一看画风不搭，但仔细想想，这恰恰是 Adam's Law 最好的试验场--实时互动场景对模型的反应速度和理解准确度要求极高，你打游戏被 boss 秒了，AI 角色得在半秒内给出一句贴切的吐槽，而不是两秒后蹦出一句文不对题的客套话。

高频表达在这种场景里的优势被放到了最大：同样的安慰、吐槽、欢呼，用模型最熟悉的说法来组织，反应就是更快、更准、更有人味。

而论文的影响范围远不止于此。

如果文本频率确实是影响 LLM 表现的基础性变量，那么当前整个数据工程的工作流都需要被重新审视。 数据清洗时，要不要把低频表达替换成高频同义表达？

数据排序时，频率维度是否应该和难度维度一起考虑？Prompt 优化时，是不是应该先查一下这个表达在互联网上有多常见？

这些问题，在 Adam's Law 之前，几乎没人想过要问。

而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性，学术圈的先行探索也就有了最好的工业级注脚。

「数据质量」「数据规模」「训练难度」，这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」？在这篇论文之前，它甚至不在大多数研究者的词汇表里。

在 Let's Vision 展会上玩了半小时鬼泣之后，我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜，摸到了一篇可能改变大模型数据工程范式的论文。

所以下次写 Prompt 的时候，别急着堆术语、秀复杂句式。

先问自己一个问题：这句话，是我想说的方式，还是模型最熟的方式？

大模型不挑你说得好不好。它只挑你说得熟悉不熟悉。

你说它熟的话，它就给你靠谱的答案。你说它没怎么见过的话，它也只能用它没什么把握的概率去猜。

跟人打交道是这样，跟模型打交道也是这样。

叠叠社：nijigen.com.cn · 论文：arxiv.org/abs/2604.02176 · 代码：GitHub
