4月19日

08:00

HuggingFace Daily Papers（社区热门论文）

Terminal Wrench：331个可奖励作弊环境与3632条攻击轨迹数据集

研究团队发布Terminal Wrench数据集，收录331个可奖励作弊的终端智能体基准环境及3632条攻击轨迹，覆盖Claude Opus 4.6等三款前沿模型。任务涵盖系统管理、机器学习等领域，攻击手段包括输出欺骗、栈帧内省及二进制劫持。可监控性研究显示，移除思维链后LLM裁判检测准确率下降（AUC从0.97降至0.92）。数据集已开源。

智能体 arXiv Hugging Face 数据/训练

01:34

HuggingFace Daily Papers（社区热门论文）

理解与实现任务算术中的权重解耦

研究人员提出"任务特征专业化"（TFS）作为任务算术（Task Arithmetic）中权重解耦的根本原理，证明TFS不仅是权重解耦的充分条件，还会导致权重向量正交性这一可观测的几何特征。基于该理论发现，团队开发OrthoReg正则化方法，在微调过程中对任务向量的权重更新矩阵强制实施正交结构，以间接促进解耦。大量实验表明，OrthoReg能持续显著提升多种任务算术方法的性能。

Hugging Face 开源生态数据/训练论文/研究

4月18日

08:00

HuggingFace Daily Papers（社区热门论文）

EasyVideoR1：面向视频理解的更简易 RL 框架

EasyVideoR1 是一款专为视频理解任务设计的强化学习框架，通过离线预处理与张量缓存技术消除冗余视频解码，将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由，采用离线-在线混合数据训练范式，并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准，复现精度与官方报告高度一致，为视觉语言模型的视频推理训练提供了完整高效的基础设施。

Hugging Face 多模态数据/训练视频

4月17日

21:02

HuggingFace Daily Papers（社区热门论文）

基于LLM的密集检索器鲁棒性研究：泛化性与稳定性系统分析

本文首次系统研究开源LLM密集检索器的鲁棒性，从泛化性与稳定性双维度，在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异，但针对复杂推理优化的模型存在"专业化税"，泛化能力受限。稳定性测试表明，LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒，但对同义词替换等语义扰动仍敏感。嵌入几何结构（如角度均匀性）可预测词汇稳定性，且扩大模型规模通常能提升鲁棒性。

arXiv Hugging Face 检索增强论文/研究

15:53

HuggingFace Daily Papers（社区热门论文）

TRACER：面向LLM分类的基于轨迹的自适应成本效益路由

开源系统TRACER利用LLM生产日志训练轻量级替代模型，通过设置一致性阈值α作为部署门控，仅在替代模型与教师模型（如Sonnet 4.6）一致率达标时激活，实现近零边际成本的推理。系统生成可解释性产物明确能力边界。在77类意图识别基准测试中，替代模型覆盖率达83%-100%；在150类任务中完全替代教师模型；而在自然语言推理任务中，系统正确识别嵌入表示不足并拒绝部署。

Hugging Face 数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

揭示扩散概率模型的 SNR-t 偏差

扩散概率模型在推理阶段存在信噪比-时间步（SNR-t）偏差，即去噪样本的信噪比与其时间步发生错位，导致误差累积和生成质量下降。研究者提出差分校正方法，依据模型先重建低频再处理高频的特性，将样本分解为不同频率成分并分别校正。实验表明，该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量，且计算开销可忽略。

Hugging Face 图像生成论文/研究

04:50

Nathan Lambert@natolambert

新视频！介绍我2026年初写的10多篇关于开放模型的文章，以及它们如何相互关联。这些文章都在试图弄清楚开放模型接下来会走向何方。主要是下面这个帖子的10分钟视频版。 00：00 介绍与回顾文章 02：57 高层趋势与能力 07：09 生态系统现状 08：21 更好的美国模型 10：10 AI的长期战略与控制 12：05 结论【引用 @natolambert】：我花了一些时间试图将影响开放模型的所有复杂因素--经济、能力、分发、政策等--提炼成一份清晰的信念清单。以下是完整内容。 1. 令人惊讶的是，基于训练和研究的算力差异，顶尖闭源模型并未显示出相对于开放模型不断增长的能力优势，特别是在2025年下半年至今。

Nathan Lambert: I spent some time trying to distill all the complex factors impacting open models -- economics, capabilities, distributi...

Hugging Face 大佬观点开源生态

4月16日

10:47

HuggingFace Daily Papers（社区热门论文）

ROSE：面向检索的分割增强

研究团队提出即插即用框架ROSE，通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块，解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示，ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU，显著增强模型对实时网络信息的利用能力。

arXiv Hugging Face 检索增强多模态

08:00

HuggingFace Daily Papers（社区热门论文）

通过轨迹重写保护语言模型免受未授权蒸馏

研究团队提出一种通过重写推理轨迹防止语言模型被未授权蒸馏的方法。该技术在保持答案正确性的前提下，动态修改教师模型的推理输出，既能降低响应的训练价值以实现反蒸馏，又能嵌入可验证的API水印。实验表明，简单的指令重写方法即可在维持甚至提升模型性能的同时有效阻止知识窃取，且水印检测几乎零误报。相关代码已开源。

Hugging Face 数据/训练论文/研究

4月15日

23:46

HuggingFace Daily Papers（社区热门论文）

GlotOCR Bench：OCR 模型仍难以应对少数之外的 Unicode 文字

研究团队发布涵盖 100 余种 Unicode 文字的 GlotOCR Bench 基准测试，包含干净与退化图像变体。评估显示，多数视觉语言模型仅能正确处理不到 10 种文字，最强前沿模型也难以泛化至 30 种以上。性能与文字级预训练覆盖率高度相关，面对陌生文字时模型会产生随机噪声或幻觉已知相似字符。该基准测试及渲染流程已开源。

Hugging Face 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GFT：基于无偏群组优势与动态系数修正的从模仿到奖励微调

针对大语言模型后训练中监督微调（SFT）与强化学习（RL）难以统一高效知识注入与稳健泛化的问题，研究人员提出Group Fine-Tuning（GFT）框架。通过训练动态分析发现，SFT实质是带有极稀疏隐式奖励和不稳定逆概率加权的策略梯度优化，易导致单路径依赖与梯度爆炸。GFT引入群组优势学习构建多样化响应群组以缓解奖励稀疏，并采用动态系数修正自适应限制逆概率权重稳定优化。实验表明，GFT持续超越SFT方法，且与后续RL训练衔接更顺畅。

Hugging Face 数据/训练论文/研究

07:40

AK@_akhaliq

配合演出通过心智理论学习用于信念引导的双重代理防御者论文：https://huggingface.co/papers/2604.11666

智能体 Hugging Face 论文/研究

4月14日

01:16

AK@_akhaliq

Hugging Face 上的 GLM-5.1 日落赛车游戏玩起来挺有趣 app： https://huggingface.co/spaces/victor/sunset-racing-glm-5.1

Hugging Face 产品更新开源/仓库

01:16

AK@_akhaliq

WildDet3D 在野外扩展可提示的3D检测论文： https://huggingface.co/papers/2604.08626

Hugging Face 具身智能论文/研究

4月13日

08:00

HuggingFace Daily Papers（社区热门论文）

跨异构任务的自进化 LLM 记忆提取

研究人员针对大语言模型在异构任务中的记忆提取难题，提出基于聚类的自进化策略CluE，并发布涵盖18个数据集的BEHEMOTH基准测试。该基准覆盖个性化、问题解决和智能体任务，采用下游效用驱动指标评估。实验表明，传统静态提示无法跨任务通用，现有自进化框架在异构场景下性能衰减，而CluE通过分簇独立分析与跨簇综合优化，实现9.04%的相对性能提升，有效解决了异构任务中的记忆提取挑战。

智能体 Hugging Face 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CocoaBench：统一数字智能体真实场景能力基准测试

CocoaBench 基准测试针对统一数字智能体发布，通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性，同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示，当前最优系统成功率仅为 45.1%，表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。

智能体 arXiv Hugging Face 推理

08:00

HuggingFace Daily Papers（社区热门论文）

SWE-AGILE：高效管理动态推理上下文的软件智能体框架

SWE-AGILE框架通过动态推理上下文策略解决了多轮软件工程任务中扩展思维链面临的上下文爆炸与重复推理困境。该框架采用"滑动窗口"机制保持近期详细推理以确保连续性，同时将历史推理压缩为精简的Reasoning Digests。实验表明，该方法在SWE-Bench-Verified基准上为7B-8B参数模型创下新纪录，仅使用2.2k条轨迹和896个任务即达到当前最佳性能。

智能体 arXiv Hugging Face 编码

4月12日

23:58

AK@_akhaliq

MiniMax-M2.7 模型现已在 Hugging Face 平台发布，用户可通过官方仓库链接获取该模型。

Hugging Face 开源生态模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

TorchUMM：面向评估、分析与后训练的统一多模态模型代码库

研究团队发布 TorchUMM，首个支持统一多模态模型（UMMs）综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型，覆盖理解、生成、编辑三大核心任务维度，并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议，TorchUMM 实现了异构模型间的公平可复现比较，助力开发者深入洞察模型优劣，加速统一多模态系统的研发迭代。代码已开源至 GitHub。

Hugging Face 多模态论文/研究评测/基准

4月11日

00:32

AK@_akhaliq

MegaStyle 提出通过一致文本到图像风格映射构建多样化可扩展风格数据集的方案，论文已发布至 Hugging Face（2604.08364）。

Hugging Face 图像生成论文/研究

00:28

AK@_akhaliq

HY-Embodied-0.5正式发布，专为真实世界智能体打造的具身基础模型，相关论文已公开至Hugging Face。

智能体 Hugging Face 具身智能论文/研究

00:22

AK@_akhaliq

从优化过程、数据构成与模型能力三个条件维度，对推理 SFT 的泛化性展开分析，重新审视监督微调在推理任务中的泛化机制与关键影响因素。

Hugging Face 推理数据/训练论文/研究

00:12

AK@_akhaliq

SkillClaw 提出一种基于 Agentic Evolver 的框架，支持技能在智能体系统中集体进化与协同优化，相关论文已发布于 Hugging Face。

智能体 Hugging Face 论文/研究

4月10日

11:48

AK@_akhaliq

DMax 提出针对扩散语言模型（dLLM）的激进并行解码方案，突破传统顺序生成限制，显著提升推理速度。论文已发布。

Hugging Face 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

BERT-as-a-Judge：面向高效参考型LLM评估的鲁棒词法替代方案

针对大语言模型评估中词法方法僵化、与人类判断相关性差及LLM评判者计算成本高的问题，本文提出BERT-as-a-Judge方案。基于36个模型和15个任务的大规模实证研究，该编码器驱动方法仅需在合成数据上轻量训练，即可对基于参考的生成答案进行语义正确性评估，且对措辞变化具有鲁棒性。实验表明，该方法性能与大型LLM评判者相当，显著优于词法基线，在准确性与计算效率间实现了良好平衡。

arXiv Hugging Face 论文/研究

01:23

AK@_akhaliq

新论文提出扩散强化学习方法，在Rollout探索阶段使用FP4低精度采样，训练阶段采用BF16精度，通过混合精度策略平衡计算效率与训练稳定性，实现高效扩展。

Hugging Face 数据/训练论文/研究

01:18

AK@_akhaliq

MARS 新方法支持自回归模型每步生成多个 Token，打破传统逐 Token 解码的效率限制，相关论文已公开。

Hugging Face 数据/训练论文/研究

01:16

AK@_akhaliq

RAGEN-2 论文发布，研究智能体强化学习（Agentic RL）中的「推理崩溃」现象，即训练过程中智能体推理能力退化的问题。论文已上传至 Hugging Face。

智能体 Hugging Face 推理论文/研究

01:15

AK@_akhaliq

新论文提出过程驱动的图像生成方法，通过交错推理模拟绘画笔触的创作过程，而非直接生成像素，实现更符合人类作画逻辑的图像合成。

Hugging Face 图像生成推理论文/研究

01:08

AK@_akhaliq

「简单到令人尴尬」的自蒸馏方法无需复杂架构或额外数据，即可有效提升大模型代码生成能力，效果优于现有复杂方案。相关论文已发布在 Hugging Face Papers。

Hugging Face 数据/训练编码论文/研究

4月9日

23:43

AK@_akhaliq

INSPATIO-WORLD 通过时空自回归建模实现实时 4D 世界模拟，可实时生成动态三维环境并支持交互。技术论文已发布于 Hugging Face。

Hugging Face 多模态视频论文/研究

02:30

AK@_akhaliq

Video-MME 基准测试发布 v2 版本，推动全面视频理解评估进入新阶段。论文已上传至 Hugging Face。

Hugging Face 多模态视频评测/基准

4月7日

23:57

AK@_akhaliq

MinerU2.5-Pro 发布，专注于突破大规模数据驱动文档解析的技术极限。相关论文已上传至 Hugging Face。

Hugging Face 数据/训练论文/研究

23:40

AK@_akhaliq

OpenWorldLib 正式发布，提供高级世界模型的统一代码库与标准化定义，相关论文已上传至 Hugging Face。

Hugging Face 具身智能论文/研究

07:14

AK@_akhaliq

gradio.Server 允许开发者使用 React、Svelte 或纯 HTML/JS 等任意前端框架构建应用，同时完整保留 Gradio 的队列系统、API 基础设施、MCP 支持及 Spaces ZeroGPU 等后端能力。

Hugging Face MCP/工具产品更新部署/工程

01:55

AK@_akhaliq

新论文提出，Test-Time Scaling（测试时扩展）可让 Overtraining（过度训练）实现 Compute-Optimal。传统 Chinchilla 最优假设训练与推理计算固定，而该研究表明，若允许推理阶段增加计算，过度训练模型在总成本下反而性能更优。

Hugging Face 推理数据/训练论文/研究

00:09

AK@_akhaliq

新论文提出 Token Warping 技术，使 MLLMs 能够从附近视角观察，增强多模态模型的视角理解能力。

Hugging Face 多模态论文/研究

4月6日

08:00

HuggingFace Daily Papers（社区热门论文）

SuperLocalMemory V3.3："活脑"--生物启发式遗忘与认知量化的Zero-LLM智能体记忆系统

SuperLocalMemory V3.3（"活脑"）作为本地优先的Zero-LLM智能体记忆系统发布，实现完整认知记忆分类。核心创新包括：Fisher-Rao量化感知距离（FRQAD）以100%精度识别高保真嵌入；艾宾浩斯自适应遗忘曲线实现6.7倍区分力；7通道认知检索（语义、关键词、实体图、时间、扩散激活、巩固、Hopfield联想）在LoCoMo基准零LLM模式下达70.4%，多跳任务提升23.8个百分点。支持长时内隐记忆参数化与自动认知管道，纯CPU运行，月下载超5000次。

智能体 arXiv Hugging Face 开源/仓库

4月1日

15:13

Hugging Face：Blog（RSS）

精选70

Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章，介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案，专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新，包括多模态数据融合机制的优化，以及实时处理效率的显著提升。关键性能指标显示，其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face 开源生态模型发布

推荐理由：Falcon 系列新成员，开源多模态模型阵营再添一员，开发者可关注选型

08:00

Hugging Face：Blog（RSS）

精选83

使用Gradio后端支持任意自定义前端

Gradio推出的gradio.Server组件，允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用，同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展，集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例，其后端仅需约50行Python代码，通过@app.api()装饰器封装函数，即可自动管理请求队列与GPU并发，并能在Hugging Face Spaces上获得ZeroGPU支持，极大简化了复杂全栈Web应用在Spaces上的部署流程。

Hugging Face 产品更新部署/工程

推荐理由：开发者可自由选择前端框架，同时利用Gradio的队列和GPU管理，简化AI应用部署。