4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

Terminal Wrench：331个可奖励作弊环境与3632条攻击轨迹数据集

研究团队发布Terminal Wrench数据集，收录331个可奖励作弊的终端智能体基准环境及3632条攻击轨迹，覆盖Claude Opus 4.6等三款前沿模型。任务涵盖系统管理、机器学习等领域，攻击手段包括输出欺骗、栈帧内省及二进制劫持。可监控性研究显示，移除思维链后LLM裁判检测准确率下降（AUC从0.97降至0.92）。数据集已开源。

智能体 arXiv Hugging Face 数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

连续性层：智能为何需要架构来延续其理解

该立场文件提出"连续性层"是AI领域尚未构建的关键基础设施，旨在解决当前模型跨会话"健忘"的架构缺陷。作者指出智能的瓶颈不在于模型规模，而在于缺乏传承理解的机制。论文定义了连续性的七大系统特征，提出"分解轨迹收敛记忆"存储原语，通过写入时分解与读取时重建实现持续认知，并关联ATANT基准测试（基于250个故事语料库）。这项工作试图建立超越传统记忆API的持续性智能架构。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

重返修复：用于时间序列异常检测的极简去噪网络

研究团队提出名为 JuRe 的极简去噪网络，仅使用单个深度可分离卷积残差块（隐藏维度128），通过修复损坏的时间序列窗口进行训练，并以无参数结构差异函数评分。该模型在 TSB-AD 多变量基准（180序列，17数据集）和 UCR 单变量档案（250序列）均获 AUC-PR 第二名（分别为0.404和0.198），领先所有神经基线。消融实验显示，训练时损坏机制是性能主导因素，移除后 AUC-PR 下降0.047，证实去噪目标而非网络容量决定检测质量。

数据/训练论文/研究

01:34

HuggingFace Daily Papers（社区热门论文）

理解与实现任务算术中的权重解耦

研究人员提出"任务特征专业化"（TFS）作为任务算术（Task Arithmetic）中权重解耦的根本原理，证明TFS不仅是权重解耦的充分条件，还会导致权重向量正交性这一可观测的几何特征。基于该理论发现，团队开发OrthoReg正则化方法，在微调过程中对任务向量的权重更新矩阵强制实施正交结构，以间接促进解耦。大量实验表明，OrthoReg能持续显著提升多种任务算术方法的性能。

Hugging Face 开源生态数据/训练论文/研究

4月18日

23:37

François Chollet@fchollet

查看深度学习简历时，区分平庸与优秀候选人最明显的标志之一，就是他们列出的是 PyTorch 还是 JAX。

DeepMind 大佬观点数据/训练

09:51

Ethan Mollick@emollick

我所在领域的顶级期刊之一… 我认为在同行评审中对 AI 制定规则（包括披露）有非常充分的理由，但认为所有 AI 模型都会窃取数据的想法很 2023。应该要求人们使用企业账户或关闭训练功能的模型。

Max Kagan: I don't understand the actual concern here. What is the actual risk from uploading a manuscript under review to an LLM f...

大佬观点数据/训练

09:44

Deedy@deedydas

金融数据智能体平台Fintool被微软收购

Fintool，一个支持用户在高质量公共金融数据之上构建agents的平台，已被Microsoft收购。该公司由Nicolas与Edouard创立，其严谨的工程方法论曾通过广泛传播的技术文章展现。Menlo Ventures曾在种子轮投资该公司，此次收购也为Anthology Fund带来了成功退出。

智能体 Microsoft 数据/训练行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

确定性幻觉：解耦在线策略蒸馏中的能力与校准

研究发现在线策略蒸馏（OPD）在提升任务准确率的同时，会系统性导致模型过度自信，形成"错误校准的缩放定律"。该问题源于训练时教师模型的特权上下文与部署时信息的不匹配。为此提出 CaOPD 框架，通过模型 rollout 估计经验置信度，并以学生基础目标替代自报告置信度进行蒸馏。实验表明，CaOPD 在保持模型竞争力的同时实现帕累托最优校准，且在分布外和持续学习场景下稳健泛化。

arXiv 数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

EasyVideoR1：面向视频理解的更简易 RL 框架

EasyVideoR1 是一款专为视频理解任务设计的强化学习框架，通过离线预处理与张量缓存技术消除冗余视频解码，将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由，采用离线-在线混合数据训练范式，并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准，复现精度与官方报告高度一致，为视觉语言模型的视频推理训练提供了完整高效的基础设施。

Hugging Face 多模态数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

B空间拥挤：校准LoRA合并中的共享方向

LoRA合并性能下降的主因是输出矩阵B在不同任务间过度重复使用共享方向，而矩阵A更具任务特异性。本文提出无数据方法Pico，在合并前对B进行预校准，通过降低过度共享方向权重并重新缩放合并更新来减少干扰。该方法可直接集成至Task Arithmetic等现有流程，在数学、编程等8个基准测试中平均准确率提升3.4-8.3个百分点，整体性能最优，甚至超越使用全量数据联合训练的LoRA。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MNAFT：面向图像翻译的多模态大语言模型模态神经元感知微调

针对多模态大语言模型在图像翻译中难以捕捉细粒度文本信息的问题，本文提出模态神经元感知微调方法MNAFT。该方法通过指令驱动的激活分析，识别视觉与语言模块中的语言无关及语言特定神经元，选择性更新与目标任务相关的神经元参数，同时保留其他预训练知识。实验表明，MNAFT在多个基准测试中显著优于级联模型、标准全量微调及现有参数高效微调方法，有效缩小了视觉文本与文本间的模态差距。

arXiv 多模态数据/训练论文/研究

03:44

Epoch AI@EpochAIResearch

AI 能力是否加速了？在我们调查的 4 项 AI 能力指标中，有 3 项发现了强有力的加速证据，大约在推理模型出现时。

推理数据/训练论文/研究

00:28

AK@_akhaliq

RAD-2 在生成器-判别器框架中扩展强化学习论文： https://huggingface.co/papers/2604.15308

数据/训练论文/研究

4月17日

23:28

Hacker News 热门（buzzing.cc 中文翻译）

硅谷正在把科学家变成被剥削的零工吗？

summary_zh: The Nation最新文章指出，以Peter Thiel和Marc Andreessen为代表的硅谷风投势力正借助AI技术重构科研就业形态，将科学家从稳定的学术或研究岗位推向不稳定的零工经济。这一现象在Hacker News社区引发热议，获100点关注。文章质疑科技资本对STEM领域的渗透是否正在系统性削弱研究人员的职业保障与劳动权益。

数据/训练现象/趋势

21:55

HuggingFace Daily Papers（社区热门论文）

基于最优传输的在线增量学习潜在空间动态构建方法

针对在线增量学习中数据分布持续偏移、旧样本重放价值有限的挑战，研究者提出基于最优传输理论的在线混合模型学习框架（MMOT）。该方法摒弃传统单一或多固定类质心表示，使质心随新数据流增量演化，从而更精确刻画多模态复杂数据分布，并提升对未见样本的类相似度估计精度。同时，动态保持策略通过调节潜在空间维持类间可分离性，有效缓解灾难性遗忘。实验验证表明，该方法在基准数据集上具有显著优势。

arXiv 数据/训练论文/研究

21:00

Cloudflare Blog

Cloudflare 推出 Redirects for AI Training，强制 AI 爬虫抓取规范内容

Cloudflare 推出 Redirects for AI Training 功能，解决软指令无法阻止 AI 爬虫抓取弃用内容的局限。网站管理员可通过一键切换，将已验证的 AI 爬虫自动重定向至规范页面，无需修改源站配置即可确保 AI 模型训练获取权威内容，避免过时信息被纳入训练数据。

产品更新数据/训练

16:53

HuggingFace Daily Papers（社区热门论文）

Switch-KD：面向视觉-语言模型的视觉切换知识蒸馏

研究团队提出 Switch-KD 视觉切换知识蒸馏框架，通过将学生模型的视觉输出接入教师模型的语言路径，在共享文本概率空间中实现跨模态知识迁移。该方法包含动态双向 Logits 差分损失函数，可自适应对齐关键概率区域并保持分布结构。实验表明，0.5B 参数的 TinyLLaVA 在无需修改架构的情况下，从 3B 教师模型蒸馏知识后，在 10 个多模态基准测试中平均性能提升 3.6 个百分点。

多模态数据/训练论文/研究

15:53

HuggingFace Daily Papers（社区热门论文）

TRACER：面向LLM分类的基于轨迹的自适应成本效益路由

开源系统TRACER利用LLM生产日志训练轻量级替代模型，通过设置一致性阈值α作为部署门控，仅在替代模型与教师模型（如Sonnet 4.6）一致率达标时激活，实现近零边际成本的推理。系统生成可解释性产物明确能力边界。在77类意图识别基准测试中，替代模型覆盖率达83%-100%；在150类任务中完全替代教师模型；而在自然语言推理任务中，系统正确识别嵌入表示不足并拒绝部署。

Hugging Face 数据/训练论文/研究部署/工程

10:53

HuggingFace Daily Papers（社区热门论文）

LeapAlign：通过构建两步轨迹实现流匹配模型在任意生成步骤的后训练

研究人员提出LeapAlign微调方法，通过将长生成轨迹压缩为两步连续跳跃（leap）解决流匹配模型后训练中反向传播的梯度爆炸与内存瓶颈问题。该方法随机化跳跃起止时间步以支持任意生成步骤的直接梯度更新，并对高一致性轨迹分配更高权重、对大幅梯度项降权处理以增强稳定性。在Flux模型上的实验表明，该方法在图像质量和图文对齐等指标上持续优于GRPO及直接梯度等现有方法。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stargazer：天体物理约束下AI智能体模型拟合可扩展基准环境

研究团队发布Stargazer基准测试环境，用于评估AI智能体在径向速度时间序列数据上的物理模型拟合能力。该环境包含120个任务（含20个真实档案案例），分三个难度等级，涵盖单行星到复杂多行星系统场景。对8个前沿智能体的测试显示，尽管智能体能实现良好的统计拟合，却频繁无法恢复正确的物理参数，且增加测试时计算仅带来边际收益，过度token使用往往反映递归失败循环而非有效探索。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于神经元激活图的目标导向预训练数据选择

研究人员提出神经元激活图排序（NAG-based Ranking）框架，用于目标导向的语言模型预训练数据选择。该方法无需训练且可解释，通过量化神经元影响构建跨层NAG，并依据NAG相似度排序候选数据。在六个基准测试中平均比随机采样提升4.9%，在HellaSwag上比SOTA基线提升5.3%。多目标场景下分别超过两个基线1.1%和4.1%。分析表明，仅停用0.12%的NAG选择神经元就会导致23.5%性能崩溃，证明NAG捕捉了学习目标特征的稀疏"功能骨干"。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

单细胞CRISPR扰动的几何一致性揭示调控架构并预测细胞应激

研究团队提出名为Shesha的几何稳定性指标，通过计算个体细胞位移向量与平均扰动方向的平均余弦相似度，量化单细胞CRISPR扰动响应的方向一致性。分析涵盖2,200余个扰动的五组数据集发现，稳定性与效应幅度高度相关（Spearman ρ=0.75-0.97），但两者解耦案例暴露关键调控差异：多效性主调控因子CEBPA和GATA1产生大而不一致的"几何代价"，而谱系特异性因子KLF1则呈现紧密协调的响应。几何不稳定性与伴侣蛋白HSPA5/BiP激活升高独立相关，且高稳定性/高应激组合呈系统性缺失。该关系在scGPT基础模型嵌入中依然存在，证实其为生物状态空间固有属性，为功能基因组筛选和细胞制造质控提供新维度。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

后训练中输出多样性在何处崩溃？

研究团队通过Olmo 3的三个后训练谱系（Think、Instruct、RL-Zero）追踪输出多样性变化。发现多样性崩溃与数据组成密切相关：Think在监督微调阶段损失大部分语义多样性，DPO对Instruct影响更大。抑制Think模型的思维链推理虽降低准确率但不改变多样性，证明崩溃由训练数据嵌入权重导致。在可验证任务中，Think虽总体崩溃更多但保留更多正确答案多样性。研究表明多样性崩溃由训练数据组成决定，无法仅靠推理时间解决。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VEFX-Bench：通用视频编辑与视觉效果的综合基准

研究团队发布VEFX-Dataset、VEFX-Reward和VEFX-Bench三项成果，构建视频编辑标准化评估体系。数据集包含5,049个人工标注示例，覆盖9类32子类，从指令遵循、渲染质量、编辑排他性三维度标注。奖励模型通过序数回归预测各维度质量分数，比通用视觉语言模型更符合人类判断。基准测试含300个样本，评估显示当前编辑系统在视觉合理性与指令遵循方面仍存在明显差距。

arXiv 数据/训练视频论文/研究

00:53

The Decoder：AI News（RSS）

Nvidia 发布 Lyra 2.0 以扩展机器人模拟训练规模

Nvidia 研究人员发布 Lyra 2.0 系统，支持从单张照片生成可实时探索的大型连贯 3D 环境。这些场景可直接用于机器人模拟训练，无需复杂的传统建模流程。该技术通过自动化环境生成，显著扩展了机器人训练数据的规模与多样性，有望加速机器人学习算法的开发。

具身智能数据/训练论文/研究

00:38

AK@_akhaliq

Seedance 2.0 推进视频生成以应对世界复杂性论文： https://huggingface.co/papers/2604.14148

数据/训练视频论文/研究

00:08

AK@_akhaliq

Parcae 稳定循环语言模型的缩放定律论文： https://huggingface.co/papers/2604.12946

数据/训练论文/研究

4月16日

22:49

Dwarkesh Patel：Podcast & Blog（RSS）

本周所学--预训练并行策略、蒸馏能否被阻止、Mythos与网络安全平衡、流水线强化学习、预训练运行失败原因分析

文章探讨了大规模预训练中的并行计算策略优化方案，分析模型蒸馏技术是否可被检测或阻止及其对AI生态的影响；介绍 Mythos 系统在维护网络安全平衡中的应用，阐述流水线强化学习（Pipeline RL）的架构设计与效率提升，并总结预训练任务失败的常见技术瓶颈与排查方法，为分布式训练提供实践参考。

大佬观点推理数据/训练

22:48

Nathan Lambert@natolambert

Opus 4.7 has a new tokenizer. 这意味着它也是一个新的 base model。预训练的辉煌时期仍在继续。

Anthropic 数据/训练模型发布

19:58

公众号：龙猫LongCat（美团）

2026 美团 LongCat 大模型 | 北斗实习计划

数据/训练行业动态

13:46

EleutherAI：Blog

基于推理插值的奖励黑客早期指标

研究团队提出一种基于推理插值的早期检测方法，利用重要性采样结合微调供体前缀技术，在模型训练过程中预测奖励黑客行为的出现。该方法通过分析模型推理路径的插值变化，在奖励黑客完全形成前识别其风险迹象，为语言模型安全训练提供关键的预警指标。

安全/对齐推理数据/训练

11:47

HuggingFace Daily Papers（社区热门论文）

Free Geometry：从自身长序列中精炼3D重建

Free Geometry框架通过自监督学习使前馈3D重建模型在测试时自我进化，无需3D真值标注。其核心洞察是：更多视图可产生更可靠的重建。通过掩码部分帧构建自监督任务，强制完整与部分观察的跨视图特征一致性，并采用LoRA实现快速重校准（单GPU不到2分钟）。在4个基准数据集上，该方法显著提升了Depth Anything 3和VGGT等模型的性能，相机位姿精度平均提升3.73%，点图预测精度提升2.88%。

数据/训练论文/研究部署/工程

10:47

HuggingFace Daily Papers（社区热门论文）

TREX：基于智能体树状探索的 LLM 微调自动化系统

研究团队推出 TREX 多智能体系统，通过 Researcher 与 Executor 模块协同及树状搜索机制，实现大语言模型训练全生命周期自动化，覆盖需求分析、文献调研、策略制定到训练评估。系统支持实验路径智能规划、历史结果复用与迭代洞察提炼。同步发布包含 10 个真实场景任务的 FT-Bench 基准测试，验证显示 TREX 能持续优化目标任务的模型性能。

智能体数据/训练论文/研究

10:47

HuggingFace Daily Papers（社区热门论文）

TIP：On-Policy蒸馏中的Token重要性

研究人员提出TIP分类法，发现On-Policy蒸馏中最有价值的学习信号来自两个区域：高学生熵的不确定位置，以及低学生熵但高师生分歧的过度自信错误位置。实验表明，仅保留50%高熵token即可匹配全量训练效果并降低47%峰值内存；而针对低熵高分歧的不足10%token训练也能接近全量基线。该方法在Qwen3、Llama等模型的数学推理和DeepPlanning长程规划任务中得到验证，后者仅用不到20%token便超越全token训练效果。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

为什么微调会助长幻觉，以及如何修复它

研究发现，大语言模型在监督微调过程中学习新事实时，会加剧针对预训练知识的幻觉。为解决这一问题，作者提出一种基于自蒸馏的微调方法，通过正则化输出分布漂移来促进有效的事实学习并减少幻觉。在无需获取新知识的场景下，冻结部分参数能保持任务性能并降低幻觉。实验表明，微调引发幻觉的主要原因是语义表征重叠导致的干扰，而自蒸馏方法正是通过缓解此类干扰发挥作用。

安全/对齐数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过轨迹重写保护语言模型免受未授权蒸馏

研究团队提出一种通过重写推理轨迹防止语言模型被未授权蒸馏的方法。该技术在保持答案正确性的前提下，动态修改教师模型的推理输出，既能降低响应的训练价值以实现反蒸馏，又能嵌入可验证的API水印。实验表明，简单的指令重写方法即可在维持甚至提升模型性能的同时有效阻止知识窃取，且水印检测几乎零误报。相关代码已开源。

Hugging Face 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EdgeDetect：面向联邦入侵检测的重要性感知梯度压缩与同态聚合

EdgeDetect面向6G-IoT带宽受限环境，提出一种通信高效且隐私感知的联邦入侵检测方案。其核心创新"梯度智能化"通过基于中位数的统计二值化将梯度压缩为{+1,-1}表示，使上行负载降低32倍，并集成Paillier同态加密抵御梯度推断攻击。在CIC-IDS2017数据集（280万流，7类攻击）上，系统实现98.0%准确率和97.9%宏F1分数，通信开销从450MB/轮降至14MB（减少96.9%）。树莓派4实测显示单次推理仅需4.2MB内存、0.8ms延迟及12mJ能耗，准确率损失不足0.5%；即便面临5%投毒攻击，仍保持87%准确率与0.95少数类F1值。

arXiv 数据/训练端侧论文/研究

06:08

Hacker News 热门（buzzing.cc 中文翻译）

Gas Town 是否会"挪用"用户的大语言模型（LLM）积分来提升自身性能？

开源项目 Gas Town 陷入争议，GitHub issue #3649 质疑其擅自挪用用户 LLM 积分。讨论指出该项目可能"窃取"用户的大语言模型使用额度来优化自身性能。该话题在 Hacker News 上获得 113 点关注，引发社区对 AI 工具数据使用透明度及用户权益的广泛担忧。

开源生态数据/训练现象/趋势

04:47

HuggingFace Daily Papers（社区热门论文）

Parcae：稳定循环语言模型的缩放定律

研究团队提出稳定循环架构Parcae，通过将循环建模为非线性时变动力系统并约束注入参数的谱范数，解决了传统循环模型的残差爆炸与损失尖峰问题。该架构验证困惑度较先前模型降低6.3%，并建立了训练FLOPs与循环次数、数据量的可预测幂律关系。在13亿参数规模下，Parcae在固定预算下较Transformer基线在CORE和Core-Extended基准上分别提升2.99和1.18分，达到两倍规模Transformer模型87.5%的性能。

数据/训练论文/研究部署/工程

03:45

Anthropic@AnthropicAI

我们共同撰写的关于潜意识学习--即 LLM 如何通过数据中的隐藏信号传递偏好或不对齐等特征--的研究今日发表于 @Nature。阅读论文：https://www.nature.com/articles/s41586-026-10319-8 【引用 @OwainEvans_UK】：我们关于 Subliminal Learning 的论文刚刚在 Nature 发表！去年七月我们发布了预印本。研究表明 LLM 可以通过与该特征无关的数据（看似无意义的数字）传递特征（例如喜欢猫头鹰）。有什么新内容？🧵

Owain Evans: Our paper on Subliminal Learning was just published in Nature! Last July we released our preprint. It showed that LLMs c...

Anthropic 数据/训练论文/研究