# 本地大模型写文测试：Gemma4-31B 位列榜首

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-07-03 07:24
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmr45kdbd00rmsl3giq3pyppt
- 原文链接：https://x.com/karminski3/status/2072823713180057954

## AI 摘要

该测试通过内置提示词让本地小模型进行角色扮演，再由旗舰大模型评分并多次运行取平均，以评估写文能力。结果显示 Gemma4-31B 在所有项目中表现最佳，Qwen3.6-27B 位列第二，平均差距约 5%。测试发现这些模型普遍在“内心独白”任务上表现不佳，可能与参数量小及框架是否支持多 Agent 隔离有关。测试基于英文，作者未开源但已集成到角色扮演框架 plottery 中，用户可接入自选 API 测试。

## 正文

哪个本地大模型写文更强？ 我终于找到了一个测试！

玩各种角色卡或者用AI写文是不是感觉巨浪费token？ 我找了半天终于发现了这个测试！ 小模型写文（角色扮演）测试. 这个测试跑分的模型都能本地部署.

测试方法很简单， 内置一系列提示词， 然后让大模型根据脚本进行角色扮演， 然后让一个旗舰级别的大模型来评分， 评判项目覆盖很全面， 比如小模型是否忽略了场景中的事实.

由于角色扮演的输出有很强的主观性，所以输出很难有固定答案， 因此也只能用大模型来充当评委了. 评分则采用多次运行来尽可能抹平模型随机性带来的问题.

从评分来看， Gemma4-31B 拔得头筹， 各个测试项目都表现得很好， 不过注意一个现象是， 这些测试模型普遍任务的内心独白写不好. 我觉得这个一个的确是模型的能力不行（毕竟只有31B， 还不如有的旗舰模型的激活参数大）， 另外一点则是测试作者并没有披露它的这个角色扮演框架是不是多Agent的， 通常每个角色使用多Agent隔离可以最大程度避免内心独白穿帮或者出戏的情况， 再不济也需要上思维链才比较好.

排行榜第二则是 Qwen3.6-27B， 总体来看与Gemma4-31B平均差距在5%左右. 不过测试应该都是用英文的， 不确定中文会不会好一些. 另外作者虽然没开源， 但是他的角色扮演框架plottery是内置了这个测试的， 所以如果你有自己喜欢的大模型API， 也可以自己接进去测试一下看看哪方面有弱点. 不过测试参考意义更大一些， 毕竟有的模型单纯因为文风比较好就足够了.

> #大模型角色扮演 #大模型角色扮演评测 #qwen36 #gemma4

作者的网站在这里： http://plottery.app
