MiniMax 发布了其大版本号模型升级 MiniMax M3。该模型标配 1M 超长上下文,采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构,在 100 万上下文下每 token 计算量降至约上一代的 1/20。M3 从训练起即融合了原生多模态能力。在基准测试中,其取得了 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2% 等成绩。此外,其 API 推出小于 512k 调用的限时七天五折优惠。模型权重与技术报告预计约 10 天后发布。
MiniMax 这次终于发布了他们的大版本号模型升级 MiniMax M3。
主要是三个核心能力:
- 标配了 1M 的超长上下文
- 采用新的 MSA(MoE with Segment-wise Attention)稀疏注意力架构
- 从训练起就融合了原生多模态能力,包括强化了文本、图片、视频和桌面操作这些多模态的训练。
MSA 超上下文在算力和速度上更可落地,在 100 万上下文下每 token 计算量只有上一代的约 1/20。。
所以他们这一次的价格也比较给力,Token Plan 更新了新的价格。
在 API 上,小于512k 的 API 现在有为期 7 天的限时五折。