13个大语言模型参加2026数学高考，GPT 5.5等并列第一

2026-06-08 11:55·24天前·卡尔的AI沃茨

AI 摘要

13个大语言模型（GPT 5.5 Thinking、DeepSeek-v4 Pro、Gemini 3.1 Pro Thinking、Claude Opus 4.8 Max、Kimi 2.6 Thinking、Sonnet 4.6 Thinking、GLM 5.1、豆包 Thinking、Qwen 3.7 Plus Thinking、MiniMax M3、元宝 Thinking、Mimo-2.5-pro、Grok）用2026年全国一卷数学高考题进行测试，统一以LaTeX格式输入、关闭联网、不干扰作答。GPT 5.5、DeepSeek-v4 Pro、Gemini 3.1 Pro和Claude Opus 4.8并列第一，得分接近144分；Kimi 2.6以微小差距位居第二梯队；元宝118分；Mimo和Grok得分最低。大部分模型在多选题和长解答题上出现漏条件、读图错误、过度泛化等问题，甚至出现拒答或搜索答案的行为。

公众号正文需在微信内阅读，站内仅提供摘要。

公众号：卡尔的AI沃茨

38导出 Markdown