12:51

HuggingFace Daily Papers（社区热门论文）

对Gemma 3大语言模型欺骗检测探针的"压力测试"：性能、鲁棒性与欺骗表征的几何结构

本文对Gemma 3系列模型（1B-27B参数）上的线性探针欺骗检测方法进行系统测试。研究发现，该探针在干净数据上AUROC可达0.998以上，但在8种文本风格变换下性能崩溃。文章检验了四种欺骗信号的几何编码假设：单一线性方向、多维子空间、凸锥包及熵代理假设，均被拒绝（如单方向假设AUROC仅0.61-0.80）。然而，经过风格数据增强训练的探针（维度k≥5）在未见过的风格上能恢复近乎完美的检测能力（平均AUROC 0.979-0.983），且此模式在4B和27B模型上均成立，表明探针的脆弱性源于训练数据分布狭窄，而非模型规模局限。

Google 安全/对齐论文/研究

12:19

HuggingFace Daily Papers（社区热门论文）

MobileMoE：扩展设备端混合专家系统

MobileMoE是一系列面向设备端部署的大语言模型，采用混合专家架构，其活动参数规模为0.3-0.9B，总参数量为1.3-5.3B。该研究在移动设备内存与算力约束下，确定了“中等稀疏度结合细粒度共享专家”的最优架构设计。通过涵盖预训练、中期训练、指令微调与量化感知训练的四阶段流程，MobileMoE在14个基准测试中，以2-4倍更少的推理FLOPs达到或超越了领先的设备端密集模型性能，并以最多60%更少的参数量匹配或超过了先进的OLMoE-1B-7B模型。在商用智能手机上，其预填充和解码速度分别比密集基线MobileLLM-Pro快1.8-3.8倍和2.2-3.4倍。

推理端侧论文/研究

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

基于策略内知识边界增强的智能体强化学习

本文研究智能体强化学习在训练工具使用大语言模型时出现的问题，即导致冗余工具调用增加和模糊模型知识边界。现有基于奖励塑造的方法会引发奖励黑客问题。为此，提出AKBE方法，通过双路径（使用工具与不使用工具）滚动动态探测模型知识边界，定义是否需要工具及最少工具调用次数，并通过比较正确性构建监督信号以引导高效工具使用。在七个问答基准测试中，AKBE将任务准确率平均提升1.85，减少18%工具调用，工具生产力提高25%，且无准确率-效率权衡。

智能体 GitHub 论文/研究

推荐理由：让Agent学会「什么时候不用工具」是比单纯提高准确率更难的活，这篇用一个巧妙的双路径对比方法把这事做成了，直接降18%工具调用还涨点，做Agent的可以抄代码了。

11:19

HuggingFace Daily Papers（社区热门论文）

精选70

MRT：用于大规模分层图像生成与编辑的掩码区域Transformer

MRT是一个20B参数的掩码区域扩散模型，专为多层透明图像生成与编辑设计。它在超过1000万个多语言设计样本上训练，统一了文本到图层、图像到图层和图层到图层三项任务。模型通过选择性token掩码实现灵活的图层生成与编辑，并引入溢出感知画布图层以处理边界不一致问题，支持半透明背景合成。此外，应用扩散蒸馏实现了8步实时生成。实验表明，MRT在所有任务上显著优于先前先进方法与商业系统。用户研究显示，其图像到图层质量优于同期Qwen-Image-Layered模型，推理速度快10-100倍，GPU内存消耗降低50-90%。

图像生成多模态论文/研究

推荐理由：首次把分层图像生成统一到 20B 遮罩扩散框架，溢出画布层的设计挺巧，让图层可以超出边界编辑，蒸馏后能实时跑，做设计工具的团队该仔细读读。

11:19

HuggingFace Daily Papers（社区热门论文）

精选72

超越最终答案：审计多智能体工业工作流中的轨迹级模型幻觉

提出了Trajel，一个用于审计多智能体工业工作流中轨迹级模型幻觉的数据集和评估框架。它基于专家标注的智能体轨迹，引入了五种幻觉分类：事实性、引用性、逻辑性、程序性和范围性。基准测试表明，现有基准遗漏了最常见故障模式，近半数幻觉轨迹涉及多种类型。自动化检测器尽管二分类准确度高，但仍会误判最微妙的类型。轨迹感知的检测显著优于标准的事后验证，表明基于分类法的评估对于更安全的智能体部署是必要的。

智能体安全/对齐论文/研究

推荐理由：现有的幻觉测试只看最终答案，但真正危险的错误往往埋在中间步骤。Trajel把多智能体工业流程的每一步都审计了，发现近一半故障同时包含多种幻觉类型，做智能体安全的人该换评估方式了。