该测试通过内置提示词让本地小模型进行角色扮演,再由旗舰大模型评分并多次运行取平均,以评估写文能力。结果显示 Gemma4-31B 在所有项目中表现最佳,Qwen3.6-27B 位列第二,平均差距约 5%。测试发现这些模型普遍在“内心独白”任务上表现不佳,可能与参数量小及框架是否支持多 Agent 隔离有关。测试基于英文,作者未开源但已集成到角色扮演框架 plottery 中,用户可接入自选 API 测试。
哪个本地大模型写文更强? 我终于找到了一个测试!
玩各种角色卡或者用AI写文是不是感觉巨浪费token? 我找了半天终于发现了这个测试! 小模型写文(角色扮演)测试. 这个测试跑分的模型都能本地部署.
测试方法很简单, 内置一系列提示词, 然后让大模型根据脚本进行角色扮演, 然后让一个旗舰级别的大模型来评分, 评判项目覆盖很全面, 比如小模型是否忽略了场景中的事实.
由于角色扮演的输出有很强的主观性,所以输出很难有固定答案, 因此也只能用大模型来充当评委了. 评分则采用多次运行来尽可能抹平模型随机性带来的问题.
从评分来看, Gemma4-31B 拔得头筹, 各个测试项目都表现得很好, 不过注意一个现象是, 这些测试模型普遍任务的内心独白写不好. 我觉得这个一个的确是模型的能力不行(毕竟只有31B, 还不如有的旗舰模型的激活参数大), 另外一点则是测试作者并没有披露它的这个角色扮演框架是不是多Agent的, 通常每个角色使用多Agent隔离可以最大程度避免内心独白穿帮或者出戏的情况, 再不济也需要上思维链才比较好.
排行榜第二则是 Qwen3.6-27B, 总体来看与Gemma4-31B平均差距在5%左右. 不过测试应该都是用英文的, 不确定中文会不会好一些. 另外作者虽然没开源, 但是他的角色扮演框架plottery是内置了这个测试的, 所以如果你有自己喜欢的大模型API, 也可以自己接进去测试一下看看哪方面有弱点. 不过测试参考意义更大一些, 毕竟有的模型单纯因为文风比较好就足够了.