MiniMax-M3 实测:前端适配 KCORES2026p2,空间理解、建模精度、美学表现优秀,颜色运用佳;复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型,略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量,规划突出。使用经验:M3 偏好长推理,单次输出可达 64k token,适合嵌入带 plan 模式的 Coding Agent,需做好 prompt 编排,避免大量 tool call;执行约束不足,需增加代码级 harness 闭环。
给大家带来 MiniMax-M3 实测!
本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结.
来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了.
后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh).
Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。
下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考:
我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理.
在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用.