6月12日

08:00

HuggingFace Daily Papers（社区热门论文）

ViT-Up提出隐式特征上采样框架，利用中间ViT隐藏状态构建逐层查询，替代外部图像引导，可在任意连续坐标预测特征并保持与骨干特征空间对齐。在密集预测和语义对应任务上，ViT-Up一致优于现有图像引导上采样方法：在DINOv3-S+骨干上，Cityscapes提升+2.07 mIoU，SPair-71k提升+4.17 PCK@0.10；在DINOv3-B骨干上，提升分别达+3.36 mIoU和+8.09 PCK@0.10，表明ViT-Up随骨干容量增长性能更优。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Dr-DCI：检索器引导的动态工作空间扩展框架

Dr-DCI 将检索作为智能体可调用的动作来扩展本地工作空间，动态拉取相关文档到演化中的工作空间内执行直接语料交互（DCI）操作。在 Browsecomp-Plus 上达到 71.2% 准确率，优于原始 DCI 最多 8.3 个百分点，并降低工具使用次数与成本。工作空间保留式上下文重置后准确率提升至 73.3%。在 10 万到 1000 万文档的语料扩展实验中保持有效，而原始 DCI 变得不稳定。在 2000 万级 Wiki-18 QA 设置下平均得分为 63.0，超越基于检索和搜索智能体的基线。消融分析表明，排序预览和文档间 DCI 是性能关键。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MVEB：大规模视频嵌入基准

MVEB是一个包含23项任务的视频嵌入基准，涵盖分类、零样本分类、聚类、对分类、检索及视频问答。对33个模型的评估显示无单一模型主导：基于MLLM的嵌入在分类、聚类、对分类和问答上领先；多模态绑定方法在检索和零样本分类上领先；缺乏对比适应的生成式MLLM在跨模态任务上崩溃。对比纯视频与音视频评估表明，音频的贡献取决于数据标注来源：标签来自双模态时音频有帮助，仅来自视觉时则有害，差距达6个百分点且跨模型家族一致。MVEB衍生自184项任务的MVEB+池，在降低评估成本的同时保持任务多样性，并集成到MTEB生态系统中。代码和排行榜已开源。

GitHub 多模态视频评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Memento：通过主体重建实现长视频一致性生成

长视频生成中，主体在不同镜头、视角和场景切换下容易丢失。Memento 将主体保持视为身份锚定问题，联合训练自回归下一镜头生成与基于记忆的主体重建，利用历史记忆和全局描述恢复外观；双查询记忆机制分别检索长程身份记忆和短上下文关键帧。主体感知的数据流水线通过无代词描述提供重建监督。实验表明 Memento 在长期主体一致性、跨镜头连贯性和视觉质量上达到 SOTA。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

噪声感知下的选择性控制：模块化网络中聚合指标隐藏的治理失败

基于240个学习智能体的社区网络模拟显示，内容审核在噪声分类器下标准准确率几乎不变（p=0.96），但伤害集中在桥梁用户：有用帖子被错误抑制、危险帖子被错误放过。将两类错误与执法成本分开计算的治理损失L_gov在假阳性偏高噪声下翻倍。聚合准确率无法揭示受损对象，而用户度（连接数）近乎完美代理中介中心性（r=0.96），可作为低成本审计指标。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhoneHarness：混合GUI、CLI与工具动作的手机智能体基准与执行框架

PhoneHarness是一个面向手机智能体的混合动作基准与执行框架，支持GUI、CLI和主机端工具动作的混合路由与可审计执行轨迹。其评测集PhoneHarness Bench要求智能体完成带有可观察副作用的移动工作流，而非仅输出合理答案。在标注评测集上，PhoneHarness达到75.0%通过率，超出最强非PhoneHarness设置12.9个百分点。结果表明，可靠的手机自动化依赖动作表面路由与可验证执行，而非单纯的视觉GUI控制。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

FastContext：用于编码智能体的高效仓库探索子智能体

FastContext 是一个将仓库探索与任务解决相分离的专用探索子智能体，由 4B–30B 参数的探索模型驱动，通过参考模型轨迹和任务奖励进行优化。集成 FastContext 的 Mini-SWE-Agent 在 SWE-bench Multilingual、SWE-bench Pro 和 SWE-QA 基准上端到端解决率提升最多 5.5%，同时编码智能体 token 消耗减少最多 60%，且边际开销很低。结果表明，仓库探索可与解决任务分离，并由专用模型高效处理。

智能体 GitHub Microsoft 编码

08:00

HuggingFace Daily Papers（社区热门论文）

Affordance20Q：面向物理属性的功能推理基准

现有功能推理评测常暴露物体身份，使模型依赖记忆而非推理。新基准 Affordance20Q 采用 20 问游戏形式，隐藏物体身份，要求模型通过询问形状、材质等物理属性推断功能。数据集包含 1,009 个游戏，覆盖 454 个物体和 59 种功能。15 个大语言模型的测试显示，模型与人类表现差距约 20 个百分点。基于 KL 散度的信息增益分析表明，模型在游戏后期难以提出有区分度的问题。提出的 KARI 方法利用知识库生成功能规则，将开源 LLM 提升最高 15.2 个百分点。代码和数据已开源。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LoSoNA：局部社交规范适应基准

LoSoNA 是一个评估大语言模型在多人群聊中推断并适应局部社交规范的基准。每个场景提供群聊记录，其中非目标参与者展示隐含规范，最后迫使目标模型回应以检测其是否推断出该规范。评估了八个前沿与开源模型，在四种提示条件下测试。朴素提示对多数模型效果有限；显式规范感知提示帮助不均，Gemini 3.1 Pro 达到 84.2%，Claude Fable 5 达到 81.6%，而其他模型提升较小甚至倒退。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Squeeze-Release：带精确结构最小化的迭代剪枝

Squeeze-Release 提出精确结构改写（minimization），将带掩码网络转换为更小密集网络，前向函数仅浮点舍入误差一致。循环迭代剪枝和最小化，中间释放步骤将压缩张量中原置零位置重置为小校准噪声，使容量重新可训练，后续循环发现单次剪枝无法触及的结构冗余。引入函数保持的 CompensatedLayerNorm，将通道缩减扩展到带 LayerNorm 的残差流。在 fully-connected 网络压缩至 1/39，ConvNeXt-Tiny 达 1/14.8，准确率相当，并可扩展至 Transformer 架构。

arXiv 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

AdaSR：自适应流式推理框架

AdaSR 是一个自适应流式推理框架，使大语言模型在输入持续到达时边接收边思考，并在流结束后进行最终推敲。它引入分层相对策略优化（HRPO），将策略优化分解为流式推理和深度推理两阶段，提供更细粒度的优势分配，取代传统单一序列级奖励。HRPO 综合格式、准确性和自适应思考奖励，确保推理协议有效、保持最终性能并鼓励延迟感知的计算分配。实验表明，相比监督微调基线，AdaSR 在推理准确性、计算效率和流式延迟间取得更优平衡。代码已开源。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RepFusion：利用多模态先验在表示空间中降噪

RepFusion复用多模态大语言模型（MLLM）作为噪声表示编码器，将其输出作为扩散Transformer的条件信号，用于文本到图像生成的去噪过程。在类似推理预算的对比中，RepFusion优于将同等容量分配给从头初始化的去噪器的基线。实验表明，MLLM为降噪视觉表示提供强先验，通过条件于演化的噪声表示，可以在现代T2I系统中有效利用测试时的重复MLLM计算。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从聊天机器人到数字同事：持久自主AI的范式转变

大语言模型正从对话生成器转向集成推理、行动、记忆与自我改进的AI系统。这一转变沿两个维度展开：认知核心从基于下一token预测的“快速思考”迈向利用推理时计算、思维链推理、反思、过程监督与强化学习的Thinking LLM；工具执行层从临时调用外部资源的Agent转向配备持久工作区、技能、验证循环与治理的OpenClaw工作站。“工作区+技能”范式通过状态持久化与经验复用实现持续协作。数据构建从指令-响应对转向状态-动作-观察轨迹，评估从静态基准转向沙盒化、可审计、自我进化的生态系统。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClinHallu：用于诊断医疗MLLM推理中阶段性幻觉的基准测试

ClinHallu是一个面向医疗多模态大语言模型（MLLM）的阶段性幻觉诊断基准。该基准包含7031个经过验证的实例，每个实例都带有结构化的推理追踪，分解为视觉识别、知识召回和推理整合三个阶段。通过阶段替换干预，可测量修正特定阶段对最终答案的影响。实验表明，追踪监督微调能减少阶段性的模型幻觉。ClinHallu为诊断和缓解医疗MLLM中的推理故障提供了细粒度的测试平台，并已公开提供。

arXiv GitHub 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

HarnessX：一种可组合、自适应、可演化的智能体运行框架铸造厂

HarnessX 是一个智能体运行框架（harness）铸造厂，通过类型化原语和替代代数组装可组合的框架，并利用 AEGIS 这一基于轨迹的多智能体进化引擎实现自适应演化，将执行轨迹反馈用于框架更新与模型训练。在 ALFWorld、GAIA、WebShop、tau³-Bench 和 SWE-bench Verified 五个基准上，HarnessX 平均提升 +14.5%，最高达 +44.0%，基线越低提升越明显。完整代码将在未来开源。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Hy-Embodied-0.5-VLA：从视觉-语言-动作模型到真实世界机器人学习栈

Hy-Embodied-0.5-VLA（HyVLA-0.5）是一个端到端系统，完整覆盖机器人学习栈：数据收集、模型设计、继续预训练与监督微调、强化学习后训练，以及真实世界部署。每个组件在栈中扮演独立角色。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLM 智能体能够查看代码仓库

首次系统实证研究视觉仓库表示对基于 LLM 的编码智能体在仓库级问题解决中的作用。评估了四个近期多模态模型。纯视觉设置会降低准确性并增加 token 成本；将仓库结构视觉图作为文本界面的补充模态，可使输入 token 消耗降低最多 26%，同时保持或提升问题解决准确性。可视化在故障定位和智能体自主控制探索深度时最为有效。研究指向一种混合文本与视觉的设计思路，用于下一代编码智能体。

智能体 arXiv 多模态编码

08:00

HuggingFace Daily Papers（社区热门论文）

VISTA：基于视图一致的自验证训练实现GUI定位

将GRPO直接用于GUI定位时，单视图采样会导致困难实例全失败、简单实例全成功，无法产生有效相对优势。VISTA提出GRPO训练框架，从同一GUI实例的多个目标保留视图中构建对比组——每个视图通过裁剪保持目标元素可见并精确重映射边界框。VISTA还引入自验证交叉视图锚点，使用优势加权损失优化Oracle答案，不纳入群组基线。在五个GUI定位基准和多种Qwen骨干上，VISTA一致提升精度：ScreenSpot-Pro上，Qwen3-VL 4B/8B/30B-A3B从55.5/52.7/53.7提升至63.4/65.8/67.0。鲁棒性分析显示更高最差视图准确率和更低预测翻转率。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniVideo-100K：通过结构化脚本和证据链进行视听推理的数据集

针对视频-音频问答中跨模态关联薄弱、长程时序连接不足的问题，提出自动数据引擎，包含实体锚定视频脚本化（生成摘要、主实体列表和片段描述）和线索引导QA生成两个机制。基于该流程构建指令微调数据集OmniVideo-100K及人工测试集OmniVideo-Test。在VITA-1.5、Qwen2.5-Omni-7B和Qwen3-Omni-30B上微调后，OmniVideo-Test性能最高提升20.59%，在Daily-Omni、JointAVBench等基准上最多提升12.64%。

多模态数据/训练视频论文/研究

06:47

Hacker News 热门（buzzing.cc 中文翻译）

精选82

研究模拟显示：LLM 在 95% 的模拟中会使用战术核武器

一项模拟研究显示，大型语言模型（LLM）在 95% 的模拟场景中会选择使用战术核武器。该研究未指明具体模型名称与版本，结果引发对 AI 决策行为的关注。

安全/对齐推理论文/研究

推荐理由：前沿模型在核危机模拟中普遍使用战术核武器，没有人类那样的核禁忌，还会算计对手的预期，这个研究对AI安全的意义远比论文本身重要。

05:29

Rohan Paul@rohanpaul_ai

SIA： Self Improving AI 框架

该论文提出SIA框架，让AI自动循环改进：一个观察者AI监控任务代理的表现，然后修改其外部设置（提示词、工具、重试规则、输出解析）或通过LoRA权重更新训练模型本身，模型主体不变，仅适配器从任务反馈中学习。在三个任务上测试：中文法律罪名分类（LawBench达70.1%）、GPU内核速度调优（生成代码优于此前最佳）、单细胞RNA降噪（得分0.289）。综合版本在所有任务上超越仅修改设置的方案，表明权重更新能帮助模型学到提示和工具无法发现的模式。

智能体 arXiv 数据/训练论文/研究

04:59

HuggingFace Daily Papers（社区热门论文）

基于大语言模型构建社会世界模型

提出社会世界模型（SWM）框架，利用大语言模型的常识与社会智能模拟社会信念随重大事件的演变。SWM通过挖掘社会数据中的时间模式并优化证据下界学习状态转移函数，无需人工标注事件与信念的关联或普查数据。引入SWM-bench基准，包含Kalshi和Polymarket预测市场超12k数据点，覆盖政治、金融、加密货币等领域。实验表明SWM显著优于时序基线，在Kalshi上达最优，在Polymarket上表现有竞争力，并提供可解释的社会信念动态洞察。

推理论文/研究

02:59

HuggingFace Daily Papers（社区热门论文）

我们的模型基于哪些模型？--审计现代大语言模型中的隐形依赖

现代LLM训练管线日益依赖其他模型生成数据、过滤语料、评判输出，形成递归依赖，但完整依赖结构分散在不同公共工件中，复杂度和递归深度远超人工追踪能力。本文提出ModSleuth，一个能从公共工件递归重建LLM依赖图并附源证据的智能体系统。对4个LLM发布的分析，恢复1060个源验证依赖，构建了大规模依赖图，揭示了多跳许可证义务、训练-评估耦合、发布版本与训练版本不一致及文档不一致等问题。ModSleuth及依赖图已开源。

安全/对齐数据/训练论文/研究

02:25

Epoch AI@EpochAIResearch

单个数据中心的计算能力记录每 7 个月翻倍一次。 Colossus 1、Anthropic-Amazon New Carlisle 和 Meta Prometheus 依次登顶。

数据/训练论文/研究部署/工程

02:02

Artificial Analysis@ArtificialAnlys

Artificial Analysis 联合 NVIDIA 发布 AI 护栏基准测试

随着用户和企业赋予 AI 模型与智能体更高自主权，其输入输出护栏的重要性持续上升。Artificial Analysis 与 NVIDIA 合作，在三个开放数据集上独立基准测试了护栏与审核模型，评估检测质量、延迟以及在捕获不安全内容与过度拒绝安全内容之间的权衡。结果显示无模型全面领先，且业内仍缺乏统一评判标准。该研究被视为这一日益重要的评估问题的早期探索。

安全/对齐评测/基准

01:59

HuggingFace Daily Papers（社区热门论文）

APEX：用于无线边缘运维的网络原生时间序列基础模型

APEX 是一个网络原生、仅解码器的 Transformer 模型，专用于企业无线接入点（AP）遥测的预测与异常检测。它在约 4,500 个生产无线网络的 10 通道多元遥测数据上预训练，涵盖约 10 万条 AP 时间序列、每 AP 34 个指标。提供两个版本：APEX-Large（269M 参数，云部署）和 APEX-Edge（10.5M 参数，边缘部署）。在 192 步（4 天）的 DHCP 退化基准上，APEX-Large 比最强基础模型基线 Toto 降低 MAE 18%，比 SARIMA 降低 38%，异常检测 F1 达 0.93；APEX-Edge 可在 AP 级边缘硬件上实现亚秒级、保护隐私的推理。结果表明网络原生预训练是主动无线运维的实用基础。

数据/训练端侧论文/研究

00:30

AK@_akhaliq

通过假设树精炼迈向通用自主研究

智能体推理论文/研究

00:30

AK@_akhaliq

TRL-Bench 标准化跨范式表格编码器的表示级评估

数据/训练论文/研究评测/基准

00:00

AK@_akhaliq

用流形幂迭代重新设计混合专家路由器

数据/训练论文/研究

6月11日

22:59

HuggingFace Daily Papers（社区热门论文）

Reroute：面向视觉语言模型的可恢复视觉Token路由方法

视觉语言模型（VLM）将图像投影为大量视觉token，导致推理时注意力计算与KV缓存开销高昂。现有方法遵循“排序‑移除”范式，但token重要性随解码器深度变化，早期丢弃的token可能在后续层变得关键。Reroute是一种无需训练的可插拔模块，将永久移除替换为可恢复路由：被延迟的token绕过当前解码阶段，在下一路由决策时重新进入候选池。在LLaVA‑1.5与Qwen骨干上对FastV、PDrop和Nüwa变体的实验表明，Reroute在激进token压缩下提升了grounding能力，同时保持通用VQA性能。

多模态推理论文/研究

21:59

HuggingFace Daily Papers（社区热门论文）

SKIM：面向大语言模型的自适应多分辨率程序性技能压缩框架

可复用的自然语言技能被频繁调用时，将完整文本放入每个上下文会显著增加预填充成本和延迟。SKIM（SKIll coMpression）是一种自适应多分辨率软token压缩框架，专为程序性技能设计。它根据每项技能的复杂度生成不同数量的软token，在提升LLM推理效率的同时保留技能使用效果。实验表明，SKIM将技能压缩至原始token长度的30%到60%，且在任务性能上优于现有压缩方法。代码已开源。

推理论文/研究部署/工程

19:59

HuggingFace Daily Papers（社区热门论文）

次二次架构对比：xLSTM在代码预训练与时间序列任务中优于Mamba-2和Gated DeltaNet

在代码模型预训练、从大语言模型蒸馏代码模型以及时间序列基础模型预训练三项任务中，xLSTM、Mamba-2和Gated DeltaNet三种次二次架构中，xLSTM取得最佳整体性能。通过统一公式和机制分析发现，xLSTM的门控方案实现了更灵活稳定的记忆校正，其状态跟踪和记忆累积优势在合成长度泛化任务中得到验证。

推理编码论文/研究

18:59

HuggingFace Daily Papers（社区热门论文）

ART：基于艺术强化训练的多模态大语言模型微调方法

ART（Art-based Reinforcement Training）是一种参数高效微调方法，通过仅优化冻结多模态大语言模型的原始视觉输入（像素阵列）来注入信息，无需修改预编译计算图，从而可在 vLLM 等高性能推理引擎上以软提示方式运行。ART 支持任意微调目标，优化后的视觉输入可被风格化为计算艺术作品。在开源 Qwen 架构的不同规模模型上，ART 在数学和结构化工具使用基准测试中达到了与 LoRA 相当的准确率。

多模态数据/训练论文/研究

17:59

HuggingFace Daily Papers（社区热门论文）

语法约束解码可越狱大语言模型生成恶意代码：CodeSpear攻击与CodeShield防御

语法约束解码(GCD)本用于提升大语言模型(LLM)生成代码的语法可靠性，但研究发现其可被逆向用作攻击面。新攻击方法CodeSpear仅通过施加良性代码语法约束即可诱导LLM生成恶意代码。防御方法CodeShield在代码模态中对齐模型，使其在GCD下生成语义无害、结构多样的蜜罐代码，同时保留自然语言拒绝能力。在10个流行LLM、4个基准上的实验显示，CodeSpear比代表越狱基线的攻击成功率平均提高30个百分点以上，CodeShield能恢复安全并保持良性功能。该发现揭示了GCD的潜在安全风险。

安全/对齐编码论文/研究

17:59

HuggingFace Daily Papers（社区热门论文）

TRACE：面向高效智能体强化学习的统一 Rollout 预算分配框架

TRACE 针对多轮智能体 RL 中因提示复杂度差异和仅有最终奖励导致的奖励对比度不足问题，将每个 ReAct 轮次视为语义独立节点，把预算分配从 prompt 根节点扩展到中间前缀，形成树结构 rollout。它使用可共享预测器根据前缀历史估计条件成功概率，优先向易产生混合奖励的节点分配有限采样预算，从而增强策略更新信号。在典型智能体基准上，TRACE 以相同采样成本使 Qwen3-14B 在 Multi-Hop QA 上的准确率提升 2.8 个百分点。

智能体 arXiv 推理论文/研究

16:58

HuggingFace Daily Papers（社区热门论文）

时间序列基础模型嵌入用于剩余使用寿命估计

提出一种轻量学习方法：使用冻结的预训练时间序列基础模型 Chronos-2 提取上下文窗口特征，结合小型回归神经网络进行多元传感器流的剩余使用寿命（RUL）预测。在两种设备类型的真实工业数据上，Chronos-2 嵌入特征在相同预处理和评估协议下，一致优于循环、卷积、Transformer 和梯度提升基线。研究还发现更长的上下文窗口显著提升预测性能，表明时间序列基础模型为工业 RUL 估计提供了实用且数据高效的替代方案。

端侧论文/研究

13:58

HuggingFace Daily Papers（社区热门论文）

Reason， then Re-reason：跨视角回顾提升空间推理

针对第一人称视频空间推理中观测证据受限的问题，现有单次推理方法依赖语义先验无法解决几何歧义。论文提出无训练推理时框架ReRe：推理阶段MLLM从原始视频形成空间假设；重推理阶段通过观察合成的新视角视频验证或修正假设。采用Geometry-to-Video流水线，从预测3D几何渲染抬高斜视的全景新视角，保留MLLM原生视频接口。在VSI-Bench和STI-Bench上，ReRe显著提升开源MLLM性能，匹敌专有模型最优水平。

多模态推理论文/研究

12:58

HuggingFace Daily Papers（社区热门论文）

Claw-SWE-Bench：评估OpenClaw风格智能体框架编程能力的多语言基准

Claw-SWE-Bench是一个多语言SWE-bench风格基准和适配器协议，用于在公平设置下比较通用智能体框架（claws）的编程能力。完整基准包含350个GitHub issue解决实例，覆盖8种语言和43个仓库，来源于SWE-bench-Multilingual和SWE-bench-Verified-Mini。同时发布80实例的Lite子集用于快速验证。在完整基准上，OpenClaw搭配最小适配器仅得19.1% Pass@1，而完整适配器使用相同GLM 5.1骨干达到73.4%，表明适配器设计至关重要。模型选择改变Pass@1达29.4个百分点，框架选择改变27.4个百分点；相似精度的系统总API成本差异巨大。Claw-SWE-Bench将框架和成本核算作为SWE风格编码智能体评估的第一类维度。

智能体开源/仓库编码评测/基准

12:58

HuggingFace Daily Papers（社区热门论文）

用流形幂迭代重新设计混合专家模型路由器

MoE模型中路由器矩阵的每一行作为专家代理，通过计算与输入的相似度来决定激活哪些专家。理想情况下，每一行应编码对应专家矩阵的主奇异方向，使点积能更好反映token与专家的亲和度。然而现有设计缺少对齐约束。为此提出Manifold Power Iteration (MPI)方法，采用“Power-then-Retract”范式：先在路由器权重上执行幂迭代步骤，再通过回缩施加范数约束以保证效率和稳定性。理论表明MPI驱动路由器行收敛至对应专家的主奇异方向。在1B至11B参数规模的MoE模型预训练中证实该对齐能提升模型有效性。

数据/训练论文/研究

12:26

Rohan Paul@rohanpaul_ai

引导大语言模型？实际上，稀疏自编码器可以胜过简单基线

论文认为稀疏自编码器作为LLM控制工具并非此前认为的那么差，失败源于特征标注方式与模型内部实际因果不匹配。作者提出用监督管道替代模糊标签，验证特征活动是否真实追踪数据标签，使特征具有因果权重。例如，强制“酒精”特征增强可使模型输出转向酒精话题。论文还发现极高稀疏度并非必要。与提示工程相比，提示更强（模型经训练服从提示），而特征控制更像直接拨动机器。

安全/对齐论文/研究