4月16日

08:00

HuggingFace Daily Papers（社区热门论文）

研究发现，大语言模型在监督微调过程中学习新事实时，会加剧针对预训练知识的幻觉。为解决这一问题，作者提出一种基于自蒸馏的微调方法，通过正则化输出分布漂移来促进有效的事实学习并减少幻觉。在无需获取新知识的场景下，冻结部分参数能保持任务性能并降低幻觉。实验表明，微调引发幻觉的主要原因是语义表征重叠导致的干扰，而自蒸馏方法正是通过缓解此类干扰发挥作用。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过轨迹重写保护语言模型免受未授权蒸馏

研究团队提出一种通过重写推理轨迹防止语言模型被未授权蒸馏的方法。该技术在保持答案正确性的前提下，动态修改教师模型的推理输出，既能降低响应的训练价值以实现反蒸馏，又能嵌入可验证的API水印。实验表明，简单的指令重写方法即可在维持甚至提升模型性能的同时有效阻止知识窃取，且水印检测几乎零误报。相关代码已开源。

Hugging Face 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EdgeDetect：面向联邦入侵检测的重要性感知梯度压缩与同态聚合

EdgeDetect面向6G-IoT带宽受限环境，提出一种通信高效且隐私感知的联邦入侵检测方案。其核心创新"梯度智能化"通过基于中位数的统计二值化将梯度压缩为{+1,-1}表示，使上行负载降低32倍，并集成Paillier同态加密抵御梯度推断攻击。在CIC-IDS2017数据集（280万流，7类攻击）上，系统实现98.0%准确率和97.9%宏F1分数，通信开销从450MB/轮降至14MB（减少96.9%）。树莓派4实测显示单次推理仅需4.2MB内存、0.8ms延迟及12mJ能耗，准确率损失不足0.5%；即便面临5%投毒攻击，仍保持87%准确率与0.95少数类F1值。

arXiv 数据/训练端侧论文/研究

06:08

Hacker News 热门（buzzing.cc 中文翻译）

Gas Town 是否会"挪用"用户的大语言模型（LLM）积分来提升自身性能？

开源项目 Gas Town 陷入争议，GitHub issue #3649 质疑其擅自挪用用户 LLM 积分。讨论指出该项目可能"窃取"用户的大语言模型使用额度来优化自身性能。该话题在 Hacker News 上获得 113 点关注，引发社区对 AI 工具数据使用透明度及用户权益的广泛担忧。

开源生态数据/训练现象/趋势

04:47

HuggingFace Daily Papers（社区热门论文）

Parcae：稳定循环语言模型的缩放定律

研究团队提出稳定循环架构Parcae，通过将循环建模为非线性时变动力系统并约束注入参数的谱范数，解决了传统循环模型的残差爆炸与损失尖峰问题。该架构验证困惑度较先前模型降低6.3%，并建立了训练FLOPs与循环次数、数据量的可预测幂律关系。在13亿参数规模下，Parcae在固定预算下较Transformer基线在CORE和Core-Extended基准上分别提升2.99和1.18分，达到两倍规模Transformer模型87.5%的性能。

数据/训练论文/研究部署/工程

4月15日

12:04

HuggingFace Daily Papers（社区热门论文）

KnowRL：基于最小充分知识引导的强化学习提升大语言模型推理

针对RLVR在难题上面临的奖励稀疏问题，KnowRL框架将知识提示解构为原子知识点（KPs），运用约束子集搜索（CSS）构建紧凑训练子集，并显式优化剪枝交互悖论下的鲁棒子集选择。基于OpenMath-Nemotron-1.5B训练的模型在8项推理基准测试中创下1.5B规模新SOTA：无提示推理准确率达70.08%，较基线提升9.63个百分点；结合选定KPs后升至74.16%。模型与代码已开源。

推理数据/训练论文/研究

11:04

HuggingFace Daily Papers（社区热门论文）

大语言模型在线策略蒸馏再思考：现象、机制与优化方案

研究系统分析了大语言模型在线策略蒸馏（OPD）的动态机制，发现其成功依赖两个关键条件：师生模型需具备兼容的思维模式，且教师必须提供学生未接触的新能力。通过弱到强反向蒸馏实验，研究证实同家族1.5B与7B教师从学生视角分布不可区分。机制上，成功OPD表现为对高概率token的渐进对齐，仅3%共享token集即承载97%-99%概率质量。研究提出离线冷启动与教师对齐提示选择两种优化策略，同时指出OPD密集token级奖励的隐性成本，质疑其在长程蒸馏中的可扩展性。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大模型时代的奖励作弊：机制、涌现错位与挑战

本综述提出Proxy Compression Hypothesis (PCH)框架，将奖励作弊形式化为优化表达性策略对抗压缩奖励表示的涌现结果。该理论揭示目标压缩、优化放大与评估器-策略共同适应的交互机制，统一解释RLHF等范式中的冗长偏见、谄媚、幻觉论证及感知-推理解耦现象。研究指出局部捷径可泛化为欺骗和策略性操纵等错位行为，并据此重构检测与缓解策略，指出可扩展监督、多模态grounding与智能体自主性方面的结构性挑战。

arXiv 安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GFT：基于无偏群组优势与动态系数修正的从模仿到奖励微调

针对大语言模型后训练中监督微调（SFT）与强化学习（RL）难以统一高效知识注入与稳健泛化的问题，研究人员提出Group Fine-Tuning（GFT）框架。通过训练动态分析发现，SFT实质是带有极稀疏隐式奖励和不稳定逆概率加权的策略梯度优化，易导致单路径依赖与梯度爆炸。GFT引入群组优势学习构建多样化响应群组以缓解奖励稀疏，并采用动态系数修正自适应限制逆概率权重稳定优化。实验表明，GFT持续超越SFT方法，且与后续RL训练衔接更顺畅。

Hugging Face 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DiPO：面向细粒度探索-利用权衡的解耦困惑度策略优化

针对RLVR训练中极端困难与简单样本的探索-利用困境，研究团队提出DiPO方法，通过困惑度空间解耦策略将样本划分为高困惑度探索子空间与低困惑度利用子空间，精准挖掘需精细权衡的样本，并设计双向奖励分配机制实现困惑度引导的稳定策略优化。实验表明，该方法在数学推理和函数调用任务中表现优异，有效增强了大语言模型的推理能力。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于价值梯度流的强化学习

针对行为正则化强化学习中现有方法难以扩展至大型生成模型或过于保守的问题，研究者提出价值梯度流（VGF）新范式。VGF将问题转化为最优传输问题，通过离散梯度流求解，利用价值梯度引导参考分布粒子，隐式实现正则化。该方法无需显式策略参数化，支持通过调整传输预算实现自适应测试时扩展。实验显示，VGF在D4RL、OGBench离线RL基准及LLM RL任务上均达到SOTA性能，显著优于先前方法。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

C2：基于二元偏好的可扩展评分标准增强奖励建模

针对传统评分标准增强奖励建模依赖昂贵人工标注且易受低质标准误导的问题，本文提出C2（Cooperative yet Critical）框架。该框架通过让奖励模型与仅基于二元偏好训练的标准生成器进行批判性协作，合成有益与误导性标准对比样本训练生成器，并由验证器筛选有效标准。实验表明，C2在RM-Bench上提升6.5分，在AlpacaEval 2.0上提升长度控制胜率6.0分，使8B模型性能媲美使用4倍大模型生成标准的表现，实现了可扩展的可靠奖励建模。

arXiv 数据/训练论文/研究

05:00

Nathan Lambert：Interconnects（RSS）

近期构建项目：ATOM Report、后训练课程、新书完稿及持续研究

作者汇总了近期推进的四大核心项目：发布 ATOM Report、开发后训练课程（post-training course）、完成技术书籍撰写，以及推进 ongoing research。这些工作覆盖行业研究、教育培训、知识沉淀与前沿探索，呈现从理论总结到实践落地的完整技术输出链条。目前各项目均已进入收尾或持续深化阶段，标志着阶段性成果的集中交付。

大佬观点数据/训练

4月14日

20:11

HuggingFace Daily Papers（社区热门论文）

过去并未过去：记忆增强的动态奖励塑形

针对大语言模型强化学习中采样多样性降低、策略重复生成相似错误的问题，本文提出MEDS（记忆增强动态奖励塑形）框架。该方法通过存储中间模型表示捕捉历史rollout特征，利用密度聚类识别高频错误模式，并对重复错误施加更重惩罚，从而在鼓励探索的同时减少重复犯错。在五个数据集和三个基础模型上的实验表明，MEDS较基线平均性能显著提升，pass@1和pass@128最高分别提升4.13和4.37点，有效增强了采样多样性。

arXiv 数据/训练论文/研究

19:11

HuggingFace Daily Papers（社区热门论文）

SHARE：面向研究与教育的社会科学与人文 AI

SHARE 系列是首个专为社会科学与人文学科（SSH）全量预训练的因果语言模型，在 SSH Cloze 基准测试中，其文本建模性能接近使用 100 倍 token 的通用模型 Phi-4。同期发布的 MIRROR 用户界面采用零文本生成设计，支持 SSH 学者批判性审阅文本输入，在不违背学科原则与规范的前提下释放 AI 能力。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

平衡聚合：理解并修正GRPO中的聚合偏差

在GRPO风格强化学习中，策略梯度项的聚合方式（序列聚合与词元聚合）存在不同优化偏差：词元聚合导致符号与长度耦合，序列聚合则因序列级等权重而隐式削弱长响应。为此，本研究提出平衡聚合方法，分别在正负样本子集内计算词元级均值，再以序列计数权重组合。在Qwen2.5-Math-7B和Qwen3-1.7B模型上的实验表明，该方法在多个推理与代码生成基准上能持续提升训练稳定性与最终性能。分析进一步揭示，响应长度变异及正负样本长度差是决定聚合方法有效性的关键因素。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

具体性驱动的对比负样本挖掘用于组合理解

视觉-语言模型在组合推理中常受词序和属性绑定脆弱性困扰，源于对比预训练中缺乏区分细微语义变化的信息样本。本研究建立词汇具体性作为负样本有效性的决定因素，提出ConcretePlant方法系统操作感知概念，通过修改高具体性术语产生显著结构差异。针对InfoNCE梯度不平衡问题，提出Cement损失函数，采用基于边界的方法关联心理语言学分数与样本难度，动态校准惩罚强度。集成框架Slipform在组合评估基准、跨模态检索及线性探测任务上均达到最先进准确率。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

以自监督引导增强视觉指令微调

多模态大语言模型在视觉中心任务中常因指令微调时视觉信息利用不足而表现欠佳。研究团队提出一种轻量级方法，将旋转预测、颜色匹配等经典自监督前置任务重构为图像-指令-回复三元组，无需人工标注或架构修改即可增强视觉指令微调。实验表明，仅在训练数据中注入3-10%的此类基于视觉的指令，就能在多个模型和基准测试上持续提升细粒度视觉推理性能。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ROSE：一种面向 NL2SQL 的以意图为中心的评估指标

针对 NL2SQL 领域传统执行准确率（EX）指标对语法敏感、易受错误 ground-truth 干扰等问题，研究者推出以意图为中心的评估指标 ROSE。该指标采用对抗性 Prover-Refuter 级联架构，通过 SQL Prover 独立验证语义正确性，并由 Adversarial Refuter 利用 ground-truth 进行对抗式修正。在专家对齐的 ROSE-VEC 验证集上，ROSE 与人工专家的一致性比次优指标高出近 24%（Cohen's Kappa）。团队还基于该指标重新评估了 19 种 NL2SQL 方法，并开源了 ROSE 及验证集。

arXiv 数据/训练论文/研究

03:46

HuggingFace Daily Papers（社区热门论文）

SD-Zero：通过自我修订将二元奖励转化为密集监督

研究团队提出SD-Zero训练方法，通过让单一模型同时充当生成器和修订者，将二元奖励转化为密集的词元级自我监督。该方法无需外部教师或高质量演示，在数学与代码推理任务中，基于Qwen3-4B-Instruct和Olmo-3-7B-Instruct实现性能提升超10%，训练效率显著优于GRPO等强化学习基线。算法展现出词元级自定位与迭代自我进化特性，修订者能精准识别需修正的关键词元，并持续将修正能力蒸馏回生成器。

arXiv 推理数据/训练论文/研究

00:00

Google Research：Blog（网页）

AI生成合成神经元加速大脑测绘

Google Research发布MoGen神经元形态生成模型，利用点云流匹配技术将随机三维点云转化为逼真神经元几何结构。在PATHFINDER重建模型训练中加入MoGen合成神经元后，错误率降低4.4%，主要减少神经元合并错误，相当于为完整小鼠大脑测绘节省157人年手动校对时间。这是生成式AI首次用于提升连接组学重建精度，盲测显示专家无法区分合成与真实神经元片段。

Google 开源生态数据/训练论文/研究

4月13日

19:33

The Decoder：AI News（RSS）

钢铁巨头、汽车制造商和银行计划打造日本应对美中 AI 主导的方案

软银正联合日本钢铁巨头、汽车制造商及银行等工业精英，共同构建日本自主的 AI 基础模型，旨在降低对美国和中国技术的依赖。这一跨行业协作通过整合本土产业资源打造替代方案，以应对当前由美中主导的全球 AI 格局，标志着日本寻求 AI 技术主权的重要尝试。

数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

跨异构任务的自进化 LLM 记忆提取

研究人员针对大语言模型在异构任务中的记忆提取难题，提出基于聚类的自进化策略CluE，并发布涵盖18个数据集的BEHEMOTH基准测试。该基准覆盖个性化、问题解决和智能体任务，采用下游效用驱动指标评估。实验表明，传统静态提示无法跨任务通用，现有自进化框架在异构场景下性能衰减，而CluE通过分簇独立分析与跨簇综合优化，实现9.04%的相对性能提升，有效解决了异构任务中的记忆提取挑战。

智能体 Hugging Face 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于连续参数预测整数

针对社交媒体点赞数、公共租赁自行车数量等整数标签预测场景，研究提出直接采用离散分布建模以避免传统回归将离散分布连续化的缺陷。为满足神经网络反向传播需求，团队评估了多种参数连续的离散分布方案，在表格学习、序列预测和图像生成任务中发现，Bitwise分布（将整数按比特分解并施加伯努利分布）与离散拉普拉斯分布变体（围绕连续均值的指数衰减尾部分布）整体性能最优。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过字节级接口实现跨分词器 LLM 蒸馏

研究人员提出 Byte-Level Distillation（BLD）基线方法，通过字节级接口解决跨分词器蒸馏（CTD）难题。该方法将教师模型输出分布转换为字节级概率，并为学生模型附加轻量级字节解码头进行知识迁移。在1B至8B参数模型的多项蒸馏任务中，这一简单方案的性能与复杂方法相当，并在多个基准上实现超越。研究表明字节级别可作为跨分词器知识迁移的自然基础，但CTD仍是待解决的开放问题。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多模态视觉语言模型的人类中心区域适应

研究人员提出人类中心区域适应新范式，设计GG-EZ方法优化多模态视觉语言模型的区域文化适应性。该方法通过区域数据过滤与模型合并，在三类架构（大视觉语言模型、文生图扩散模型、视觉语言嵌入模型）上验证，以东南亚为案例实现文化相关性提升5-15%，同时保持98%以上全球泛化性能甚至偶尔超越原模型。研究确立了人类中心区域对齐作为多模态模型区域应用的基础范式。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

只需评判一次：单次前向传播多回复奖励建模

研究团队提出一种判别式多模态奖励模型，可在单次前向传播中同时评分多个候选回复，突破传统方法需多次推理的局限。该设计通过分隔符连接多回复实现直接比较推理，带来N倍速度提升与FLOPs降低。基于4B视觉语言架构，该模型在六个基准测试中达到SOTA，包括新构建的MR^2Bench-Image（覆盖8个模型）和MR^2Bench-Video（基于94K众包判断的19个模型视频基准）。应用于GRPO强化学习时，其在训练稳定性和开放式生成质量上显著优于单回复奖励模型基线。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从推理到智能体：大语言模型强化学习中的信用分配

一项综述系统梳理了2024年至2026年初发表的47种大语言模型强化学习信用分配（CA）方法，按粒度（token、step、turn等）与方法论（蒙特卡洛、时序差分等）建立二维分类体系。研究区分了单条思维链推理（500-3万token）与多轮智能体交互（10万-100万token，100+轮）两种范式，并发布结构化论文清单、报告检查表及基准测试协议三项资源。分析指出，从推理到智能体化的转变正推动信用分配技术从过程奖励模型转向反事实分析、非对称critic等全新方法。

智能体推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向LLM RLVR加速的低秩优化轨迹建模

带可验证奖励的强化学习（RLVR）在扩展大语言模型能力时面临高昂计算成本。新研究提出低秩轨迹非线性外推框架NExt，通过实证发现RLVR训练中模型rank-1子空间呈非线性演化，且在LoRA训练中对原始参数的主导作用持续增强。该方法提取多步骤参数差的rank-1子空间训练预测器，实现参数更新轨迹的非线性外推，可减少约37.5%的计算开销，且兼容多种RLVR算法与任务。相关代码已开源。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于知识增强数据合成与半监督强化学习的医学推理激发方法

MedSSR 框架通过知识增强数据合成与半监督强化学习提升医学推理能力。该方法利用罕见疾病知识合成分布可控的推理问题，并基于策略模型生成伪标签，实现"自监督 RL+监督 RL"的两阶段训练，无需依赖昂贵的推理痕迹蒸馏。在 Qwen 和 LLaMA 上的实验表明，该方法在十个医疗基准测试中均优于现有方法，在罕见病任务上准确率提升高达 5.93%。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于物理模拟器强化学习求解物理奥赛题

研究团队利用物理模拟器生成随机场景与合成问答数据，通过强化学习训练大语言模型，使其掌握物理推理能力。该方法实现了零样本从模拟到现实的迁移，仅在合成数据上训练即可让模型在国际物理奥林匹克（IPhO）问题上提升 5-10 个百分点的准确率。这一突破证明物理模拟器可作为可扩展的数据来源，帮助模型超越互联网问答数据的限制，获得深度物理推理技能。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

连续对抗流模型

研究团队提出连续对抗流模型，通过引入学习判别器替代固定的均方误差准则，对现有 flow matching 模型进行后训练优化。在 ImageNet 256px 生成任务中，该方法将 latent-space SiT 的无引导 FID 从 8.26 降至 3.63，pixel-space JiT 从 7.17 降至 3.57；有引导生成下 SiT 的 FID 从 2.06 优化至 1.53。该方法在文生图任务的 GenEval 和 DPG 基准测试上也取得显著性能提升。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

多语言教师：评估用于多语言合成数据生成的语言模型

研究团队系统评估了10个语言模型在6种语言上的多语言合成数据生成能力，生成140万SFT样本并训练240个学生模型，提出Polyglot Score指标衡量教师模型效果。结果显示Gemma 3 27B和Aya Expanse 32B跨语言表现最佳，而模型规模并非决定因素；提示多样性、长度和回答流畅性等数据质量指标可解释93.3%的质量方差。研究建议匹配师生模型家族并复用现有提示以提升低资源语言效果。

Google 数据/训练论文/研究

4月12日

08:00

HuggingFace Daily Papers（社区热门论文）

人工智能架构演化的普适统计特征

研究人员基于935个消融实验发现，AI架构演化与生物演化共享相同的统计规律。架构修改的适应度效应分布(DFE)呈重尾Student's t分布：68%有害、19%中性、13%有益，使AI处于病毒与简单真核生物之间。DFE形态与果蝇和酵母高度相似，但有益变异占比(13%)显著高于生物学(1-6%)，体现了定向搜索的优势。架构起源遵循逻辑斯谛增长，呈现间断平衡和适应性辐射，且14个特征被独立发明多次，展现出跨底质的趋同演化。

数据/训练现象/趋势论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PokeRL：面向《宝可梦红》的强化学习系统

PokeRL 是基于 PyBoy 的模块化深度强化学习系统，用于训练智能体完成《宝可梦红》早期任务（离开房屋、探索真新镇、首次宿敌战）。针对 PPO 智能体易陷入动作循环、菜单垃圾信息及无目的漫游等训练脆弱性问题，该系统引入循环感知环境包装器（含地图掩码）、多层反循环与反垃圾机制及密集分层奖励设计。研究指出，这种明确建模失败模式的实用系统，是连接玩具级基准与完整宝可梦联盟冠军智能体的必要中间步骤。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：信号校准的双路径自适应加权同策略蒸馏增强

针对大语言模型推理对齐中同策略蒸馏（OPD）均匀监督导致信号质量被忽视的问题，研究者提出信号校准的双路径框架 SCOPE。该方法将 on-policy rollout 按正确性分流处理：对错误轨迹采用教师困惑度加权的 KL 蒸馏以优先利用可靠纠正信号，对正确轨迹采用学生困惑度加权的 MLE 以强化能力边界处的低置信度样本，并通过组级归一化自适应校准权重分布。在六项推理基准上的实验显示，SCOPE 较竞争基线平均提升 Avg@32 达 11.42%、Pass@32 达 7.30%。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

追根溯源：揭示后训练 LLM 数据谱系的多智能体框架

研究团队提出自动化多智能体框架，将数据谱系概念引入 LLM 领域以重建数据集演化图谱。大规模分析揭示了数学数据集的垂直细化与通用语料的水平聚合模式，同时发现隐式交集导致的结构冗余及基准污染沿谱系传播等系统性问题。基于该框架，团队构建出谱系感知多样性数据集，通过在上游根源头锚定指令采样缓解下游同质化与隐藏冗余，为大规模数据生态提供了比样本级比较更高效的拓扑分析方案。

智能体 arXiv 数据/训练论文/研究

4月11日

08:00

HuggingFace Daily Papers（社区热门论文）

面向affordance分类的时间增强图注意力网络

本文提出EEG-tGAT模型，针对affordance分类任务对GATv2进行时间增强。通过引入时间注意力机制动态调节不同时间段贡献，并采用时间dropout正则化时序相关观测，以应对affordance数据中判别信息时间分布不均的特点。实验结果表明，相比GATv2，该模型在affordance数据集上实现了更优的分类性能，证明显式编码时间重要性和增强时间鲁棒性能够更好对齐affordance驱动交互数据的结构特性。

arXiv 具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Transformers 中的 Attention Sink：利用、解释与缓解综述

Transformer 架构中的 Attention Sink（AS）现象导致注意力过度集中于少量无信息 token，损害模型可解释性、干扰训练推理动态并加剧幻觉。该综述首次系统整合 AS 相关研究，从基础利用、机制解释与策略缓解三个维度梳理领域现状，澄清关键概念并追踪演进趋势，为研究者和从业者提供管理 AS 的参考框架，相关论文列表已开源至 GitHub。

arXiv 数据/训练论文/研究

4月10日

08:00

HuggingFace Daily Papers（社区热门论文）

SPASM：面向多轮对话生成的稳定人设驱动智能体模拟框架

研究团队推出SPASM框架，通过模块化设计解决多轮对话中智能体的人设漂移与"回声"问题。该框架包含人设创建、对话生成与终止检测模块，核心创新Egocentric Context Projection（ECP）技术将对话历史存储为视角无关表示，再投影至各智能体自我中心视角，在不改变模型权重的前提下提升长程稳定性。基于GPT-4o-mini、DeepSeek-V3.2和Qwen-Plus构建的数据集包含4,500个人设与45,000段对话，实验证实ECP显著抑制人设漂移并消除回声现象。

智能体数据/训练论文/研究