文本频率定律的发现与验证 · AI HOT
Berryxia.AI @berryxia 59
2026-05-29 11:12 ·34天前
AI 摘要 脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。
Berryxia.AI @berryxia · X 2026-05-29 11:12 · 34天前
在 X 看原推 · x.com AI 摘要 脸谱心智(FaceMind)的研究发现,在保持语义不变的前提下,使用大模型预训练语料中出现频率更高的表达方式,能显著提升模型表现。该规律被命名为Adam’s Law(文本频率定律)。核心实验显示:在数学推理任务中,仅换用高频表述可使准确率平均提升;在机器翻译任务中,使用DeepSeek-V3测试100种语言到英语的翻译,绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器,被业界视为对低频token退化问题的间接验证。
其实早在 2025 年,脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文,首次系统性揭示了大模型的低频 token 退化现象,并提出了轻量级的词典 Prompting 方案--无需额外训练,插入一个词典就能显著缓解问题。
2026 年 4 月 2 日,Adam's Law(文本频率定律)作为后续深化研究正式公开预印版,随后被顶级学术会议 ACL 2026 收录。
叠叠社在角色对话的训练和 Prompt 设计中,就应用了这套理论。同样是让 AI 角色对屏幕内容做反应,用更「常见」的表达方式去组织指令和训练数据,模型的理解力和反应质量就是比用精雕细琢的文案好。
你可以把它想象成跟一个在中国生活了二十年的外国人聊天--你用成语他可能愣半天,但换成日常口语,他立马就明白了。你说的是同一个意思,但他的反应完全不一样。
这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多--不是模型本身更强,而是跟模型「说话」的方式更对路。
我觉得这个发现比产品本身还有意思,于是把论文翻出来完整读了一遍。
读完之后我发现,这个东西的影响范围,远不止一个二次元弹幕应用。
在聊 Prompt 工程和数据工程之前,我想先说一个最近才在业界引发讨论的背景。
2026 年 5 月 9 日,一场因「马嘉祺」掀起的技术讨论,让「大模型低频 token 退化」这个学术圈早已在研究的话题,第一次被大众视野广泛关注。
但如果你去追源头,会发现这件事其实已经有了明确的先行者和跟随验证者。
脸谱心智是最早的研究者:2025 年 EMNLP 主会论文(SLoW)发现问题、提出方案;
2026 年 4 月 Adam's Law 进一步量化规律,被 ACL 2026 收录。
Anthropic 是最早的生产级验证者:2026 年 4 月下旬,Claude Opus 4.7 正式上线,官方迁移指南写明:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」
业界普遍解读为 Anthropic 缩减或重组了低频退化 token--与脸谱心智的减法策略高度一致,时间比脸谱心智晚了将近一年。
这让人想到 DiT(扩散 Transformer)与 Sora 的关系,学术界率先提出架构,工业界在商业产品中完成大规模生产级验证。
脸谱心智之于 Anthropic,就是这样的关系。
你精心打磨的 Prompt,模型可能根本不领情 过去两年,AI 行业在一件事上砸了天文数字的钱:让数据变得更「好」。更干净的标注,更严格的筛选,更复杂的去重管线。
Prompt 工程师们则在另一端较劲,打磨措辞、设计思维链、雕琢每一个指令的语法结构。
所有人都在追求同一件事:说得更「准确」,写得更「高级」。
但 Adam's Law 用横跨 100 种语言、覆盖四大核心任务的实验,证明了一件让人有点不舒服的事实:大语言模型的表现,和你说的话「对不对」关系没那么大,和你说的话「常不常见」关系大得多。
这个发现之所以让人不舒服,是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。
行业正在优化的三个维度,和一个被集体忽略的。 维度核心逻辑代表工作数据质量垃圾进垃圾出,高质量标注才有好模型LIMA、Alpaca数据规模越多越好,Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难,课程学习提升泛化能力Curriculum Learning
这三个维度各有各的道理,也各有各的研究山头。它们构成了今天数据工程的「铁三角」。
但问题来了:如果你已经有了高质量、大规模、按难度排好序的数据,模型的表现就到顶了吗?
核心论点:数据工程存在被集体忽视的第四个维度:文本频率。质量、规模、难度构成的「铁三角」并不完整。
「常见」不等于「简单」,这是最关键的区分。 读到这里,你很可能在想:这不就是说大白话吗?用简单的句子,降低 Flesch-Kincaid 可读性等级?
论文做了一个很硬的验证:他们计算了文本频率和多种传统复杂度指标之间的相关性,包括句法树深度、Flesch-Kincaid 可读性等级等。结果是,Pearson 相关系数接近 0。
换个说法:一句话可以语法复杂、用词专业,但同时是高频的,因为这种表达方式在互联网上大量出现。反过来,一句话可以很短很简单,但用了一个罕见的搭配,在模型眼里它就是「生僻」的。
回到叠叠社的例子。你给 AI 角色设定一条指令:「当用户在游戏中遭遇挫败性事件时,以富有同理心的方式进行情感支持。」这句话语法没毛病,意思很清楚,但它的表达方式在互联网上几乎不会出现。
换成「用户打游戏被打死了,安慰一下他」,意思完全一样,但这种说法模型在训练时见过无数次,理解起来毫无压力。
频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好,而是模型见过多少次。
四大任务,100 种语言:数据说了什么? 理论再漂亮,得拿实验说话。Adam's Law 的验证覆盖面在 NLP 领域算得上少见的全面。
先看数学推理。研究团队在 GSM8K 数据集上测了三个模型,同一道数学题,同一个意思的 Prompt,只是换了一种更高频的表达方式:
题目没变,数字没变,逻辑关系没变,仅仅是换了一种说法,准确率平均涨了 8 个百分点。不是微调,不是换模型,就是改了几个词。
再看机器翻译。这组实验的规模更吓人,在 DeepSeek-V3 上测了 100 种语言到英语的翻译,99/100 种语言对在 BLEU 指标上获得提升,100/100 在 chrF 指标上全部提升,最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域,1 个 BLEU 点的提升就算有统计显著性了,5 个点是很大的跳跃。
在老挝语、缅甸语、卡比尔语等语言上,频率和翻译质量的 Pearson 相关系数达到了 1.0--完美正相关。频率排序和翻译质量排序完全一致,频率越高翻译越好,没有例外。
常识推理和 Agent 工具调用的方向也一样,高频文本分区的表现一致地优于低频分区。三个模型,四个任务,100 种语言,箭头全都指向同一个方向。
最反直觉的是:原始标注数据不是最优数据 如果前面的实验只是让人惊讶,接下来这个发现就是直接挑战信仰了。
在微调实验中,研究团队做了一件很「冒犯」的事:他们把原始标注数据(ground truth)用高频表达改写了一遍,然后用改写版数据去训练模型。
发现:高频改写版数据训练出的模型,效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上,改写版 BLEU 为 5.25,原始数据 BLEU 为 4.68,相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设,被实验数据打了脸。
你想想看,每个做微调的团队,花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过,把这些数据「翻译」成模型更熟悉的表达方式,效果可能更好。就像一个老师备课备了半天高级教案,结果发现,用学生最熟悉的语言讲一遍,他们学得更快。
那怎么知道哪种表达频率更高呢?尤其是面对 GPT-4、DeepSeek 这些闭源模型,你根本看不到它们的训练数据。
论文提出了一个叫 TFD(Textual Frequency Distillation,文本频率蒸馏) 的方法:让模型去续写故事。故事续写是个开放式任务,模型不会被特定提示引导,而是自然地用它最「顺手」的词汇和句式来写。
收集这些输出,统计里面不同表达的出现频率,就能反推模型内部的频率偏好。你不需要知道它读过什么书,只需要让它自由聊五分钟,从用词习惯就能猜个八九不离十。
把频率变成课表:一个排序就值 30% 的提升 有了频率估算工具,下一步自然是把它塞进训练流程里。
论文提出的做法叫 CTFT(Curriculum Textual Frequency Training)-按文本的句子频率从低到高排列训练数据,让模型先学「生僻」的表达,再学「常见」的。
这借鉴了课程学习的思路,但排序的维度从「难度」换成了「频率」。
为什么是从低频到高频,而不是反过来?你可以这样理解:先让模型接触那些它不太「熟」的表达方式,强迫它建立更稳健的语义理解;
然后用高频数据收束能力,让它在最熟悉的概率空间里巩固。就像学外语,先啃生词再大量阅读日常文章,比一直泡在简单材料里进步快得多。
效果?在 Pangasinan 语言对上,CTFT 带来了 +29.96% 的 BLEU 提升。
论文实验的全部 8/8 个评估指标上,CTFT 都拿到了最优。
不只是实验碰巧,背后有数学上的必然 到这里你可能会问:这是不是只是某些数据集上的巧合?
核心逻辑是这样的:大语言模型靠最大似然估计训练,模型在预训练阶段读了海量文本,学的是词与词之间的条件概率分布。
一个表达方式在训练语料中出现越多,模型对它的概率估计就越准确,置信度就越高。你用高频表达跟它说话,等于在它最熟练的概率空间里操作,输出自然更稳、更可靠。
论文从 Zipf 定律出发,证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话:模型处理高频文本的时候,内部表示更精确,犯错的空间更小。
神经语言学研究(Desai et al., 2020; Alexandrov et al., 2011)发现,高频词汇在人类大脑中激发更强的神经响应,反应更快,理解更准。人脑如此,用海量文本喂出来的语言模型也如此。
「说模型听得懂的话」,不是修辞,是神经网络层面的物理现实。
Anthropic 的跟进,让这件事有了工业级背书
就在 Adam's Law 发表后不到一个月,一件事给这套理论加了一个意想不到的注脚。
2026 年 4 月下旬,Anthropic 发布 Claude Opus 4.7,官方迁移说明写道:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」社区开发者实测发现,同样文本在新版中 token 消耗增加约 1.20-1.47 倍(英文/代码),而 CJK 字符仅增加约 1.01 倍。
业界普遍解读是:Anthropic 缩减或重组了词表,剔除了低频、容易退化的 token,与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致,时间比脸谱心智晚了将近一年。
就像 DiT 架构和 Sora 的关系--研究者先在论文里验证路线,商业公司用产品规模证明其价值。
从一个弹幕产品到数据工程的第四维度 一个港中文博士、微软亚研院出来的 NLP 研究者,做了一个二次元弹幕伴侣。
乍一看画风不搭,但仔细想想,这恰恰是 Adam's Law 最好的试验场--实时互动场景对模型的反应速度和理解准确度要求极高,你打游戏被 boss 秒了,AI 角色得在半秒内给出一句贴切的吐槽,而不是两秒后蹦出一句文不对题的客套话。
高频表达在这种场景里的优势被放到了最大:同样的安慰、吐槽、欢呼,用模型最熟悉的说法来组织,反应就是更快、更准、更有人味。
如果文本频率确实是影响 LLM 表现的基础性变量,那么当前整个数据工程的工作流都需要被重新审视。 数据清洗时,要不要把低频表达替换成高频同义表达?
数据排序时,频率维度是否应该和难度维度一起考虑?Prompt 优化时,是不是应该先查一下这个表达在互联网上有多常见?
这些问题,在 Adam's Law 之前,几乎没人想过要问。
而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性,学术圈的先行探索也就有了最好的工业级注脚。
「数据质量」「数据规模」「训练难度」,这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」?在这篇论文之前,它甚至不在大多数研究者的词汇表里。
在 Let's Vision 展会上玩了半小时鬼泣之后,我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜,摸到了一篇可能改变大模型数据工程范式的论文。
所以下次写 Prompt 的时候,别急着堆术语、秀复杂句式。
先问自己一个问题:这句话,是我想说的方式,还是模型最熟的方式?
你说它熟的话,它就给你靠谱的答案。你说它没怎么见过的话,它也只能用它没什么把握的概率去猜。
叠叠社:nijigen.com.cn · 论文:arxiv.org/abs/2604.02176 · 代码:GitHub
在展会上遇到一个让人上头的二次元小产品 今年4月份去参加 Let's Vision 展会,在一堆 XR 眼镜和空间计算的展台中间,我被一个画风完全不一样的摊位吸引了,屏幕上跑着游戏,旁边飘着一层二次元角色的 AI 弹幕,角色还在根据游戏画面实时吐槽。
简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层,不管你在刷网页、看视频还是打游戏,都会有一个二次元角色在旁边陪着你,根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。
你可以自定义角色的性格和人设,它的回应是上下文感知的--它「看得懂」你屏幕上在发生什么。
我当时还挺好奇的,就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。
怎么说呢,打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅!」,这种体验确实挺上头的。
AI 的反应速度和准确度也比我预想的好不少,不像是那种答非所问的套壳聊天机器人。
后来我查了一下,叠叠社背后的公司叫 FaceMind Corporation(上海脸谱心智智能科技),创始人是 Adam 博士(Hongyuan Adam Lu),港中文博士毕业,曾在微软亚洲研究院负责模型预训练,拿过 EACL Outstanding Paper Award 一作,还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。
叠叠社背后的秘密:一条被忽视的语言规律 回去之后我就去查了这个团队,然后发现了一个比产品本身更有意思的东西。
叠叠社的 AI 对话之所以反应又快又准,跟一项 FaceMind 自己做的基础研究有很深的关系。
Adam 博士联合香港中文大学发了一篇论文,提出了一个叫 Adam's Law 的发现--文本频率定律(Textual Frequency Law)。
核心观点一句话就能说清楚:语义不变的前提下,你用预训练语料里出现频率更高的那种说法,模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。
其实早在 2025 年,脸谱心智就已经在顶级学术会议 EMNLP 主会上作为第一作者、第一机构发表了名为 SLoW 的先驱性论文,首次系统性揭示了大模型的低频 token 退化现象,并提出了轻量级的词典 Prompting 方案--无需额外训练,插入一个词典就能显著缓解问题。
2026 年 4 月 2 日,Adam's Law(文本频率定律)作为后续深化研究正式公开预印版,随后被顶级学术会议 ACL 2026 收录。
叠叠社在角色对话的训练和 Prompt 设计中,就应用了这套理论。同样是让 AI 角色对屏幕内容做反应,用更「常见」的表达方式去组织指令和训练数据,模型的理解力和反应质量就是比用精雕细琢的文案好。
你可以把它想象成跟一个在中国生活了二十年的外国人聊天--你用成语他可能愣半天,但换成日常口语,他立马就明白了。你说的是同一个意思,但他的反应完全不一样。
这就解释了为什么叠叠社的角色互动感觉比同类产品「灵」很多--不是模型本身更强,而是跟模型「说话」的方式更对路。
我觉得这个发现比产品本身还有意思,于是把论文翻出来完整读了一遍。
读完之后我发现,这个东西的影响范围,远不止一个二次元弹幕应用。
在聊 Prompt 工程和数据工程之前,我想先说一个最近才在业界引发讨论的背景。
2026 年 5 月 9 日,一场因「马嘉祺」掀起的技术讨论,让「大模型低频 token 退化」这个学术圈早已在研究的话题,第一次被大众视野广泛关注。
但如果你去追源头,会发现这件事其实已经有了明确的先行者和跟随验证者。
脸谱心智是最早的研究者:2025 年 EMNLP 主会论文(SLoW)发现问题、提出方案;
2026 年 4 月 Adam's Law 进一步量化规律,被 ACL 2026 收录。
Anthropic 是最早的生产级验证者:2026 年 4 月下旬,Claude Opus 4.7 正式上线,官方迁移指南写明:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」
业界普遍解读为 Anthropic 缩减或重组了低频退化 token--与脸谱心智的减法策略高度一致,时间比脸谱心智晚了将近一年。
这让人想到 DiT(扩散 Transformer)与 Sora 的关系,学术界率先提出架构,工业界在商业产品中完成大规模生产级验证。
脸谱心智之于 Anthropic,就是这样的关系。
你精心打磨的 Prompt,模型可能根本不领情 过去两年,AI 行业在一件事上砸了天文数字的钱:让数据变得更「好」。更干净的标注,更严格的筛选,更复杂的去重管线。
Prompt 工程师们则在另一端较劲,打磨措辞、设计思维链、雕琢每一个指令的语法结构。
所有人都在追求同一件事:说得更「准确」,写得更「高级」。
但 Adam's Law 用横跨 100 种语言、覆盖四大核心任务的实验,证明了一件让人有点不舒服的事实:大语言模型的表现,和你说的话「对不对」关系没那么大,和你说的话「常不常见」关系大得多。
这个发现之所以让人不舒服,是因为它直接动摇了 AI 工程界几乎所有人默认的一个前提。
行业正在优化的三个维度,和一个被集体忽略的。 维度核心逻辑代表工作数据质量垃圾进垃圾出,高质量标注才有好模型LIMA、Alpaca数据规模越多越好,Scaling Law 说了算Chinchilla、LLaMA训练难度从易到难,课程学习提升泛化能力Curriculum Learning
这三个维度各有各的道理,也各有各的研究山头。它们构成了今天数据工程的「铁三角」。
但问题来了:如果你已经有了高质量、大规模、按难度排好序的数据,模型的表现就到顶了吗?
核心论点:数据工程存在被集体忽视的第四个维度:文本频率。质量、规模、难度构成的「铁三角」并不完整。
「常见」不等于「简单」,这是最关键的区分。 读到这里,你很可能在想:这不就是说大白话吗?用简单的句子,降低 Flesch-Kincaid 可读性等级?
论文做了一个很硬的验证:他们计算了文本频率和多种传统复杂度指标之间的相关性,包括句法树深度、Flesch-Kincaid 可读性等级等。结果是,Pearson 相关系数接近 0。
换个说法:一句话可以语法复杂、用词专业,但同时是高频的,因为这种表达方式在互联网上大量出现。反过来,一句话可以很短很简单,但用了一个罕见的搭配,在模型眼里它就是「生僻」的。
回到叠叠社的例子。你给 AI 角色设定一条指令:「当用户在游戏中遭遇挫败性事件时,以富有同理心的方式进行情感支持。」这句话语法没毛病,意思很清楚,但它的表达方式在互联网上几乎不会出现。
换成「用户打游戏被打死了,安慰一下他」,意思完全一样,但这种说法模型在训练时见过无数次,理解起来毫无压力。
频率是一个独立于「难度」「质量」「长度」之外的全新维度。它描述的不是文本好不好,而是模型见过多少次。
四大任务,100 种语言:数据说了什么? 理论再漂亮,得拿实验说话。Adam's Law 的验证覆盖面在 NLP 领域算得上少见的全面。
先看数学推理。研究团队在 GSM8K 数据集上测了三个模型,同一道数学题,同一个意思的 Prompt,只是换了一种更高频的表达方式:
题目没变,数字没变,逻辑关系没变,仅仅是换了一种说法,准确率平均涨了 8 个百分点。不是微调,不是换模型,就是改了几个词。
再看机器翻译。这组实验的规模更吓人,在 DeepSeek-V3 上测了 100 种语言到英语的翻译,99/100 种语言对在 BLEU 指标上获得提升,100/100 在 chrF 指标上全部提升,最高单语言对 BLEU 涨了超过 5 个点。在机器翻译领域,1 个 BLEU 点的提升就算有统计显著性了,5 个点是很大的跳跃。
在老挝语、缅甸语、卡比尔语等语言上,频率和翻译质量的 Pearson 相关系数达到了 1.0--完美正相关。频率排序和翻译质量排序完全一致,频率越高翻译越好,没有例外。
常识推理和 Agent 工具调用的方向也一样,高频文本分区的表现一致地优于低频分区。三个模型,四个任务,100 种语言,箭头全都指向同一个方向。
最反直觉的是:原始标注数据不是最优数据 如果前面的实验只是让人惊讶,接下来这个发现就是直接挑战信仰了。
在微调实验中,研究团队做了一件很「冒犯」的事:他们把原始标注数据(ground truth)用高频表达改写了一遍,然后用改写版数据去训练模型。
发现:高频改写版数据训练出的模型,效果超过了用原始标注数据训练的模型。在 Kabuverdianu 语言对上,改写版 BLEU 为 5.25,原始数据 BLEU 为 4.68,相对提升 +12.17%。「原始数据就是最好的数据」这个行业默认假设,被实验数据打了脸。
你想想看,每个做微调的团队,花大量时间和金钱标注数据、清洗数据、筛选数据。他们从来没有想过,把这些数据「翻译」成模型更熟悉的表达方式,效果可能更好。就像一个老师备课备了半天高级教案,结果发现,用学生最熟悉的语言讲一遍,他们学得更快。
那怎么知道哪种表达频率更高呢?尤其是面对 GPT-4、DeepSeek 这些闭源模型,你根本看不到它们的训练数据。
论文提出了一个叫 TFD(Textual Frequency Distillation,文本频率蒸馏) 的方法:让模型去续写故事。故事续写是个开放式任务,模型不会被特定提示引导,而是自然地用它最「顺手」的词汇和句式来写。
收集这些输出,统计里面不同表达的出现频率,就能反推模型内部的频率偏好。你不需要知道它读过什么书,只需要让它自由聊五分钟,从用词习惯就能猜个八九不离十。
把频率变成课表:一个排序就值 30% 的提升 有了频率估算工具,下一步自然是把它塞进训练流程里。
论文提出的做法叫 CTFT(Curriculum Textual Frequency Training)-按文本的句子频率从低到高排列训练数据,让模型先学「生僻」的表达,再学「常见」的。
这借鉴了课程学习的思路,但排序的维度从「难度」换成了「频率」。
为什么是从低频到高频,而不是反过来?你可以这样理解:先让模型接触那些它不太「熟」的表达方式,强迫它建立更稳健的语义理解;
然后用高频数据收束能力,让它在最熟悉的概率空间里巩固。就像学外语,先啃生词再大量阅读日常文章,比一直泡在简单材料里进步快得多。
效果?在 Pangasinan 语言对上,CTFT 带来了 +29.96% 的 BLEU 提升。
论文实验的全部 8/8 个评估指标上,CTFT 都拿到了最优。
不只是实验碰巧,背后有数学上的必然 到这里你可能会问:这是不是只是某些数据集上的巧合?
核心逻辑是这样的:大语言模型靠最大似然估计训练,模型在预训练阶段读了海量文本,学的是词与词之间的条件概率分布。
一个表达方式在训练语料中出现越多,模型对它的概率估计就越准确,置信度就越高。你用高频表达跟它说话,等于在它最熟练的概率空间里操作,输出自然更稳、更可靠。
论文从 Zipf 定律出发,证明了高频句子在交叉熵损失函数中产生更低的负对数似然损失。翻译成人话:模型处理高频文本的时候,内部表示更精确,犯错的空间更小。
神经语言学研究(Desai et al., 2020; Alexandrov et al., 2011)发现,高频词汇在人类大脑中激发更强的神经响应,反应更快,理解更准。人脑如此,用海量文本喂出来的语言模型也如此。
「说模型听得懂的话」,不是修辞,是神经网络层面的物理现实。
Anthropic 的跟进,让这件事有了工业级背书
就在 Adam's Law 发表后不到一个月,一件事给这套理论加了一个意想不到的注脚。
2026 年 4 月下旬,Anthropic 发布 Claude Opus 4.7,官方迁移说明写道:「Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance.」社区开发者实测发现,同样文本在新版中 token 消耗增加约 1.20-1.47 倍(英文/代码),而 CJK 字符仅增加约 1.01 倍。
业界普遍解读是:Anthropic 缩减或重组了词表,剔除了低频、容易退化的 token,与脸谱心智从 2025 年 EMNLP 开始倡导的「减法策略」方向完全一致,时间比脸谱心智晚了将近一年。
就像 DiT 架构和 Sora 的关系--研究者先在论文里验证路线,商业公司用产品规模证明其价值。
从一个弹幕产品到数据工程的第四维度 一个港中文博士、微软亚研院出来的 NLP 研究者,做了一个二次元弹幕伴侣。
乍一看画风不搭,但仔细想想,这恰恰是 Adam's Law 最好的试验场--实时互动场景对模型的反应速度和理解准确度要求极高,你打游戏被 boss 秒了,AI 角色得在半秒内给出一句贴切的吐槽,而不是两秒后蹦出一句文不对题的客套话。
高频表达在这种场景里的优势被放到了最大:同样的安慰、吐槽、欢呼,用模型最熟悉的说法来组织,反应就是更快、更准、更有人味。
如果文本频率确实是影响 LLM 表现的基础性变量,那么当前整个数据工程的工作流都需要被重新审视。 数据清洗时,要不要把低频表达替换成高频同义表达?
数据排序时,频率维度是否应该和难度维度一起考虑?Prompt 优化时,是不是应该先查一下这个表达在互联网上有多常见?
这些问题,在 Adam's Law 之前,几乎没人想过要问。
而当 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造间接证明了这条路线的正确性,学术圈的先行探索也就有了最好的工业级注脚。
「数据质量」「数据规模」「训练难度」,这三个词你在每一篇 AI 论文的 Related Work 里都能看到。但「文本频率」?在这篇论文之前,它甚至不在大多数研究者的词汇表里。
在 Let's Vision 展会上玩了半小时鬼泣之后,我以为自己只是发现了一个有趣的二次元产品。结果顺藤摸瓜,摸到了一篇可能改变大模型数据工程范式的论文。
所以下次写 Prompt 的时候,别急着堆术语、秀复杂句式。
先问自己一个问题:这句话,是我想说的方式,还是模型最熟的方式?
你说它熟的话,它就给你靠谱的答案。你说它没怎么见过的话,它也只能用它没什么把握的概率去猜。
叠叠社:nijigen.com.cn · 论文:arxiv.org/abs/2604.02176 · 代码:GitHub