Berryxia.AI@berryxia

2026-05-29 11:12·34天前

AI 摘要

脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

http://x.com/i/article/2044264645683539968

「马嘉祺」和Anthropic让全网知道的技术问题，这家初创公司的CEO在洗澡的时候就解决了。

大家还在拼命把Prompt写得文雅、专业、结构严密，以为这样模型就会更听话、输出更准。结果正好相反。

从一个二次元AI弹幕产品里冒出来的FaceMind研究，直接用100种语言、四大核心任务的实验证明：语义不变的前提下，用预训练语料里出现频率更高的表达方式，不管是Prompting还是Fine-tuning，模型表现都会显著提升。

这就是Adam's Law（文本频率定律）。后面详细展开说。

它把当前数据工程的"质量-规模-难度"铁三角直接补上了缺失的第四维度--频率。

Anthropic的Claude Opus 4.7用新分词器间接验证了这一点，DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。

高频表达不是"简化"，而是让模型在它最熟悉的概率空间里干活，效果直接起飞。

在展会上遇到一个让人上头的二次元小产品

今年4月份去参加 Let's Vision 展会，在一堆 XR 眼镜和空间计算的展台中间，我被一个画风完全不一样的摊位吸引了，屏幕上跑着游戏，旁边飘着一层二次元角色的 AI 弹幕，角色还在根据游戏画面实时吐槽。

这个产品叫叠叠社（Danmaku Chan）。

简单说就是一个「AI 二次元伴侣」。它会以弹幕的形式悬浮在你的屏幕上层，不管你在刷网页、看视频还是打游戏，都会有一个二次元角色在旁边陪着你，根据你屏幕上的内容实时做出反应、发弹幕、跟你互动。

你可以自定义角色的性格和人设，它的回应是上下文感知的--它「看得懂」你屏幕上在发生什么。

我当时还挺好奇的，就跟摊位上的小姐姐聊了一阵。然后脸皮厚的香鱼直接坐下来玩了半小时的鬼泣。

怎么说呢，打鬼泣的时候旁边一直有个二次元角色在弹幕里给你加油助威、吐槽你被 boss 打飞、你打出连击的时候还会发「好帅！」，这种体验确实挺上头的。

AI 的反应速度和准确度也比我预想的好不少，不像是那种答非所问的套壳聊天机器人。

后来我查了一下，叠叠社背后的公司叫 FaceMind Corporation（上海脸谱心智智能科技），创始人是 Adam 博士（Hongyuan Adam Lu），港中文博士毕业，曾在微软亚洲研究院负责模型预训练，拿过 EACL Outstanding Paper Award 一作，还当过 ACL、EMNLP 这些 NLP 顶会的领域主席。

这个学术背景，做一个二次元弹幕产品？

我当时就觉得这团队有点意思。

叠叠社背后的秘密：一条被忽视的语言规律

回去之后我就去查了这个团队，然后发现了一个比产品本身更有意思的东西。

叠叠社的 AI 对话之所以反应又快又准，跟一项 FaceMind 自己做的基础研究有很深的关系。

Adam 博士联合香港中文大学发了一篇论文，提出了一个叫 Adam's Law 的发现--文本频率定律（Textual Frequency Law）。

核心观点一句话就能说清楚：语义不变的前提下，你用预训练语料里出现频率更高的那种说法，模型在 Prompting 和 Fine-tuning 上的表现就会显著提升。

Berryxia.AI@berryxia · X

59导出 Markdown

2026-05-29 11:12·34天前

在 X 看原推· x.com

AI 摘要

http://x.com/i/article/2044264645683539968

「马嘉祺」和Anthropic让全网知道的技术问题，这家初创公司的CEO在洗澡的时候就解决了。

大家还在拼命把Prompt写得文雅、专业、结构严密，以为这样模型就会更听话、输出更准。结果正好相反。

这就是Adam's Law（文本频率定律）。后面详细展开说。

它把当前数据工程的"质量-规模-难度"铁三角直接补上了缺失的第四维度--频率。

Anthropic的Claude Opus 4.7用新分词器间接验证了这一点，DeepSeek、Qwen、GPT-4o、o1这些模型在实际使用中也默默吃这一套。

高频表达不是"简化"，而是让模型在它最熟悉的概率空间里干活，效果直接起飞。

「马嘉祺」和Anthropic让全网知道的技术问题，这家初创公司的CEO在洗澡的时候就解决了。

在展会上遇到一个让人上头的二次元小产品

叠叠社背后的秘密：一条被忽视的语言规律

「马嘉祺」和Anthropic让全网知道的技术问题，这家初创公司的CEO在洗澡的时候就解决了。

你精心打磨的 Prompt，模型可能根本不领情

行业正在优化的三个维度，和一个被集体忽略的。

「常见」不等于「简单」，这是最关键的区分。

四大任务，100 种语言：数据说了什么？

最反直觉的是：原始标注数据不是最优数据

把频率变成课表：一个排序就值 30% 的提升

不只是实验碰巧，背后有数学上的必然

从一个弹幕产品到数据工程的第四维度

在展会上遇到一个让人上头的二次元小产品

叠叠社背后的秘密：一条被忽视的语言规律

你精心打磨的 Prompt，模型可能根本不领情

行业正在优化的三个维度，和一个被集体忽略的。

「常见」不等于「简单」，这是最关键的区分。

四大任务，100 种语言：数据说了什么？

最反直觉的是：原始标注数据不是最优数据

把频率变成课表：一个排序就值 30% 的提升

不只是实验碰巧，背后有数学上的必然

从一个弹幕产品到数据工程的第四维度