别再给AI拽高级词汇了,FaceMind团队用实验证明,高频表达能让模型表现更好。这个发现简单反直觉,但能立刻改变你写Prompt的习惯,下次先想想这话模型见过几次。
FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam’s Law(文本频率定律),它为数据工程补上了“频率”这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。
别特么给AI拽"高级词汇""冷门词"了!!
大家还在拼命把Prompt写得文雅、专业、结构严密,以为这样模型就会更听话、输出更准,结果正好相反。
FaceMind团队用100种语言、四大核心任务的实验直接证明:语义完全不变的前提下,用预训练语料里出现频率更高的表达方式,不管是Prompting还是Fine-tuning,模型表现都会显著提升。
这就是Adam's Law--文本频率定律。
它把当前数据工程的"质量-规模-难度"铁三角,直接补上了缺失的第四维度:频率。
高频表达不是"简化",而是让模型在它最熟悉的概率空间里干活,效果直接起飞。
下次写Prompt的时候,别再追求多高级、多优雅了,先问自己一句:这句话模型在训练语料里见过多少次?