本文对Gemma 3系列模型(1B-27B参数)上的线性探针欺骗检测方法进行系统测试。研究发现,该探针在干净数据上AUROC可达0.998以上,但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设:单一线性方向、多维子空间、凸锥包及熵代理假设,均被拒绝(如单方向假设AUROC仅0.61-0.80)。然而,经过风格数据增强训练的探针(维度k≥5)在未见过的风格上能恢复近乎完美的检测能力(平均AUROC 0.979-0.983),且此模式在4B和27B模型上均成立,表明探针的脆弱性源于训练数据分布狭窄,而非模型规模局限。