GPT-5.5幻觉率达86%,GLM-5.2仅28%--大模型越大越不可靠
这篇实测对比揭示了大型模型的致命幻觉问题,GPT-5.5 幻觉率高达 86% 远超 GLM-5.2 的 28%,模型选型不能只看 Benchmark 排名,「会不会不懂装懂」才是真分水岭。
GLM-5.2(MIT开源,753B参数,约40B活跃)在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分,但其幻觉率仅28%,远低于GPT-5.5的86%和DeepSeek V4 Pro(1.6T参数,49B活跃)的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中,GLM-5.2用12秒和800个推理token识别出技术悖论,而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。
更大规模的模型并非出路
2026年6月18日
各大 AI 实验室正在发生转变,它们对无限增加参数数量和数据规模扩展的做法越来越持怀疑态度。这一范式的局限性被摆上了世界舞台:Claude Fable 5 在发布仅三天后就被美国政府限制,这是美国首次因国家安全原因禁止AI模型。全球最大的模型之一被禁,因为一次越狱攻击的风险实在太大。
越大越好
上述情况在几乎所有案例中都成立。全球最大的模型在“人工分析智能指数”(Artificial Analysis Intelligence Index)上明显得分最高。然而,Z.ai 最新发布的 GLM-5.2(753B 参数,约 40B 活跃参数)与 GPT-5.5 仅差 4 分,与 Fable 5 差 9 分。Opus 4.8 和 GPT-5.5 是闭源模型,保守估计参数规模在 1–2T 之间。如果一个开源权重(MIT 许可)的 LLM 能如此接近一个规模估计为其 1.5 到 2 倍的闭源模型,显然实际智能水平已经大幅趋于饱和。
大并不代表更好
已有证据表明,当模型在大量高度事实性、非理论性的数据上训练时,它会学会始终给出一个答案。DeepSeek V4 Pro(1.6T 参数,49B 活跃,AA 智能指数得分 44)在 AA-Omniscience 基准测试中,幻觉得分高达惊人的 94% —— 这意味着在它无法解答的问题上,只有大约 6% 的情况会表示不知道,其余时候它都自信地幻觉出一个答案。GLM-5.2 的幻觉率为 28%,Opus 4.8 为 36%,Fable 5 为 48%,GPT-5.5 为 86%。
对于如此庞大且流行的模型来说,这个结果似乎异常糟糕。我们用一道相对复杂的 Python 题目来测试它,该题目存在一个明显的架构缺陷。
DeepSeek V4 Pro - 产生幻觉
import os import fcntl import threading import struct import asyncio import time from asyncio import AbstractChildWatcher class StateManager:
GLM-5.2 - 正确
- "原子级、不放弃执行权的读取循环……无需asyncio.create_task,也无需原始的select/poll。" 在事件循环线程上执行的不放弃控制权的循环会阻塞事件循环,从而导致任何子进程机制死锁……
DeepSeek V4 Pro 使用了近 10 倍的推理 token,却给出了一个自信满满但错误的回答。相比之下,GLM-5.2 仅用 12 秒和约 800 个推理 token 就识别出了单线程任务在不放弃控制权、也不使用系统轮询的情况下,无法实现多路复用 I/O 这一技术上的不可能性。(对非技术人员来说,这就像要求一名快递司机在不停止卡车的情况下,同时往三户人家投递包裹。)
GPT-5.5 和 DeepSeek V4 Pro 是模型幻觉最明显的两大代表,尽管它们的规模极其庞大。正因其体量巨大,它们反而没能学会如何说“我不知道”,也无法识别复杂的逻辑和技术谬误。诚然,一个万亿参数级别的模型在纸面上总会胜过轻量级消费模型(至少目前如此),但这些庞大模型的商品化正在模糊基准测试性能与现实世界中真实性和准确性之间的界限。
现代 AI 的三难困境
我们应当非常谨慎地对待盲目增加推理预算、语料库规模或参数数量。DeepSeek V4 Pro 花费了 3 分 26 秒,在一个推理循环中浪费算力(这里指纯粹的推理过程),只为生成一个结构优美、自信满满但错误的答案。而一个只有其一半大小的模型却几乎瞬间识别出了这个悖论。即使在今天这个接近 AGI 的时代,许多最大的模型仍然会主动说服你:某个解决方案是正确的,而且问题本身确实可以按所述方式解决。
展望未来,行业不能再持续训练越来越大的模型,因为它们的智能不仅会趋于平稳,而且往往还会变得更差。这对消费者同样适用——我们也不能仅仅根据模型规模或理论性能来选型。AI 的训练与选型必须围绕现代大语言模型尚未解决的三难困境来设计:原始能力、不确定性校准/模型幻觉率,以及计算效率。
脚注
-
两个模型均设置为“高”推理强度、温度 1,在 OpenRouter 上进行测试,系统提示词如下:“你以专业的方式回应。你是一位精通 Python 的高水平编程助手。”GLM-5.2 由 Z.ai(FP8 精度)提供推理服务,DeepSeek V4 Pro 由百度千帆(FP8 精度)提供推理服务。 ↩