karminski-牙医@karminski3

2026-07-03 07:24·3小时前

AI 摘要

该测试通过内置提示词让本地小模型进行角色扮演，再由旗舰大模型评分并多次运行取平均，以评估写文能力。结果显示 Gemma4-31B 在所有项目中表现最佳，Qwen3.6-27B 位列第二，平均差距约 5%。测试发现这些模型普遍在“内心独白”任务上表现不佳，可能与参数量小及框架是否支持多 Agent 隔离有关。测试基于英文，作者未开源但已集成到角色扮演框架 plottery 中，用户可接入自选 API 测试。

哪个本地大模型写文更强？我终于找到了一个测试！

玩各种角色卡或者用AI写文是不是感觉巨浪费token？我找了半天终于发现了这个测试！小模型写文（角色扮演）测试. 这个测试跑分的模型都能本地部署.

测试方法很简单，内置一系列提示词，然后让大模型根据脚本进行角色扮演，然后让一个旗舰级别的大模型来评分，评判项目覆盖很全面，比如小模型是否忽略了场景中的事实.

由于角色扮演的输出有很强的主观性，所以输出很难有固定答案，因此也只能用大模型来充当评委了. 评分则采用多次运行来尽可能抹平模型随机性带来的问题.

从评分来看， Gemma4-31B 拔得头筹，各个测试项目都表现得很好，不过注意一个现象是，这些测试模型普遍任务的内心独白写不好. 我觉得这个一个的确是模型的能力不行（毕竟只有31B，还不如有的旗舰模型的激活参数大），另外一点则是测试作者并没有披露它的这个角色扮演框架是不是多Agent的，通常每个角色使用多Agent隔离可以最大程度避免内心独白穿帮或者出戏的情况，再不济也需要上思维链才比较好.

排行榜第二则是 Qwen3.6-27B，总体来看与Gemma4-31B平均差距在5%左右. 不过测试应该都是用英文的，不确定中文会不会好一些. 另外作者虽然没开源，但是他的角色扮演框架plottery是内置了这个测试的，所以如果你有自己喜欢的大模型API，也可以自己接进去测试一下看看哪方面有弱点. 不过测试参考意义更大一些，毕竟有的模型单纯因为文风比较好就足够了.