karminski-牙医@karminski3

2026-06-04 18:10·28天前

AI 摘要

MiniMax-M3 实测：前端适配 KCORES2026p2，空间理解、建模精度、美学表现优秀，颜色运用佳；复杂需求如光追引擎需迭代。后端得分超 deepseek-v4-pro 及国产模型，略逊 GPT-5.4-Pro (xhigh)。Agent 能力达榜单第二接单量，规划突出。使用经验：M3 偏好长推理，单次输出可达 64k token，适合嵌入带 plan 模式的 Coding Agent，需做好 prompt 编排，避免大量 tool call；执行约束不足，需增加代码级 harness 闭环。

给大家带来 MiniMax-M3 实测！

本次测试包含了复杂前端，后端 Agentic Coding， Agent 能力测试，以及我的使用经验总结.

来看结论：前端能力上，可以完全适配 KCORES2026p2 的前端测试题目，无论是空间理解，建模精确度，场景美学都十分在线，其中我最满意的是美学部分，它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对（比如光追引擎），需要迭代一下就可以了.

后端能力测试这次也是突飞猛进，得分超过了 deepseek-v4-pro 和其他一众国产大模型，略逊于 GPT-5.4-Pro（xhigh）.

Agent 能力上表现同样亮眼，达成了榜单第二的接单量，证明它的规划能力特别强。

下面是我在测试和实际使用中，总结出来的 M3 使用经验，供大家参考：

我的体感是 M3 特别喜欢推理，它可以单次执行超长的推理.

在咱们的这些前端测试中，它最长的输出甚至达到了我规定的 64k token上限，所以，不要上来就写一个超级复杂的 prompt 让它执行，而是需要先把需求形成 plan，然后让 agent 蜂群去执行，这样才能得到理想的效果，所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用.

如果把它嵌入到 Agent 框架中使用，那么 prompt 编排就一定要做好，不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的.

本次 M3 相比之前的 2.7 版本有了大幅度的提升，模型偏好上来看， M3 是一个规划能力极强的模型，所以特别适合用在一些规划性质的 Agent 框架中，比如任务拆分，日程管理，流程设计等.

而本次暴露出来的不足则是执行过程中约束不够强，比如 prompt 中设置的复杂规则，一定要增加代码级别的 harness 闭环流程来进行约束，而不能只靠模型本身来管理自己的行为.

#minimaxm3 #minimax #agenticcoding #aiagent #harness