AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 222 条
全部一手资讯X论文
标签「Hugging Face」清除
5月9日周六
02:34Hugging Face:Blog(RSS)52CyberSecQwen-4B 发布:防御性网络安全专用小模型
00:34Hugging Face:Blog(RSS)72精选EMO:为涌现模块化预训练的专家混合模型
5月8日周五
16:23Hugging Face:Blog(RSS)58精选MedQA:基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型
08:00HuggingFace Daily Papers(社区热门论文)56ModelLens:从海量模型中为你的任务寻找最佳模型
5月7日周四
03:22Hugging Face:Blog(RSS)65精选vLLM V0 到 V1:在线强化学习中优先确保后端行为正确性
5月6日周三
17:22Hugging Face:Blog(RSS)47Open ASR 排行榜引入私有数据集以对抗基准过度优化
5月1日周五
08:00HuggingFace Daily Papers(社区热门论文)51面向定制化多模态角色扮演
08:00HuggingFace Daily Papers(社区热门论文)56LASE:用于印度语系跨文字身份保护的语言对抗性说话人编码
08:00HuggingFace Daily Papers(社区热门论文)55Themis:训练稳健的多语言代码奖励模型以实现灵活的多标准评分
4月30日周四
18:10IT之家(RSS)61看穿大模型的"小心思":阿里千问开源可解释性模块 Qwen-Scope
01:39Hugging Face:Blog(RSS)62精选AI评估正成为新的算力瓶颈
00:39Hugging Face:Blog(RSS)50DeepInfra 登陆 Hugging Face 推理服务提供商 🔥
4月29日周三
17:33IT之家(RSS)65腾讯混元开源手机端离线翻译模型 Hy-MT1.5-1.8B-1.25bit,仅 440MB
11:19蚂蚁 inclusionAI:HuggingFace 新模型51inclusionAI/Ling-2.6-1T
08:00HuggingFace Daily Papers(社区热门论文)53大原子模型与语言模型的智能体融合加速超导体发现
4月23日周四
08:00HuggingFace Daily Papers(社区热门论文)55Memanto:面向长周期智能体的类型化语义记忆与信息论检索系统
4月22日周三
23:13HuggingFace Daily Papers(社区热门论文)RDP LoRA:大语言模型参数高效适应的几何驱动识别方法
11:10HuggingFace Daily Papers(社区热门论文)TEMPO:扩展大型推理模型的测试时训练规模
08:00HuggingFace Daily Papers(社区热门论文)面向长程任务的协同进化LLM决策与技能库智能体
4月21日周二
08:00HuggingFace Daily Papers(社区热门论文)CreativeGame:面向机制感知的创意游戏生成
4月19日周日
08:00HuggingFace Daily Papers(社区热门论文)Terminal Wrench:331个可奖励作弊环境与3632条攻击轨迹数据集
01:34HuggingFace Daily Papers(社区热门论文)理解与实现任务算术中的权重解耦
4月18日周六
08:00HuggingFace Daily Papers(社区热门论文)EasyVideoR1:面向视频理解的更简易 RL 框架
4月17日周五
21:02HuggingFace Daily Papers(社区热门论文)基于LLM的密集检索器鲁棒性研究:泛化性与稳定性系统分析
15:53HuggingFace Daily Papers(社区热门论文)TRACER:面向LLM分类的基于轨迹的自适应成本效益路由
08:00HuggingFace Daily Papers(社区热门论文)揭示扩散概率模型的 SNR-t 偏差
4月16日周四
10:47HuggingFace Daily Papers(社区热门论文)ROSE:面向检索的分割增强
08:00HuggingFace Daily Papers(社区热门论文)通过轨迹重写保护语言模型免受未授权蒸馏
4月15日周三
23:46HuggingFace Daily Papers(社区热门论文)GlotOCR Bench:OCR 模型仍难以应对少数之外的 Unicode 文字
08:00HuggingFace Daily Papers(社区热门论文)GFT:基于无偏群组优势与动态系数修正的从模仿到奖励微调
4月13日周一
08:00HuggingFace Daily Papers(社区热门论文)跨异构任务的自进化 LLM 记忆提取
08:00HuggingFace Daily Papers(社区热门论文)CocoaBench:统一数字智能体真实场景能力基准测试
08:00HuggingFace Daily Papers(社区热门论文)SWE-AGILE:高效管理动态推理上下文的软件智能体框架
4月12日周日
08:00HuggingFace Daily Papers(社区热门论文)TorchUMM:面向评估、分析与后训练的统一多模态模型代码库
4月10日周五
08:00HuggingFace Daily Papers(社区热门论文)BERT-as-a-Judge:面向高效参考型LLM评估的鲁棒词法替代方案
4月6日周一
08:00HuggingFace Daily Papers(社区热门论文)SuperLocalMemory V3.3:"活脑"--生物启发式遗忘与认知量化的Zero-LLM智能体记忆系统
4月1日周三
15:13Hugging Face:Blog(RSS)70精选Falcon Perception
08:00Hugging Face:Blog(RSS)83精选使用Gradio后端支持任意自定义前端
3月31日周二
16:23Hugging Face:Blog(RSS)83精选以165美元成本训练25个物种的mRNA语言模型:构建从结构预测到密码子优化的AI流程
08:00Hugging Face:Blog(RSS)58TRL v1.0:与领域同步发展的后训练库
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月9日
02:34
Hugging Face:Blog(RSS)
52
CyberSecQwen-4B 发布:防御性网络安全专用小模型

CyberSecQwen-4B 是基于 Qwen3-4B-Instruct-2507 微调的 4B 参数防御性网络安全模型,在 CTI-Bench 上以半参数(4B vs 8B)对标 Cisco Foundation-Sec-Instruct-8B:CTI-MCQ 得分 0.5868,领先 8.7 个百分点;CTI-RCM 得分 0.6664,保留后者 97.3% 的准确率。可运行于单张 12 GB 消费级 GPU,训练使用 AMD Instinct MI300X,LoRA 微调(r=64, lr=5e-5),数据来自 MITRE/NVD 的 2021 CVE→CWE 映射及合成分析师问答,以 Apache-2.0 许可发布。专为需本地部署的敏感安全场景设计。

Hugging Face安全/对齐开源生态模型发布
00:34
Hugging Face:Blog(RSS)
精选72
EMO:为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由:EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化,仅用 12.5% 专家就能接近全模型性能,对需要按需加载的大模型部署是真正的突破。
5月8日
16:23
Hugging Face:Blog(RSS)
精选58
MedQA:基于AMD ROCm与LoRA微调Qwen3-1.7B的临床问答模型

该项目使用AMD Instinct MI300X(192 GB HBM3显存)和ROCm,通过LoRA微调Qwen3-1.7B模型实现医学问答。训练仅用2000条MedMCQA样本,约5分钟完成,仅更新约220万参数(占模型总参数的0.1443%),全程采用fp16精度,无需量化。HuggingFace生态(Transformers、PEFT、TRL、Accelerate)在ROCm上无缝运行,无需修改代码即可直接替代CUDA。模型已上传至HuggingFace Hub并提供在线Demo。

Hugging Face开源生态教程/实践数据/训练

推荐理由:一个月前的教程了,但如果你是 AMD 党想跑医疗微调,这篇把坑都踩完了,代码直接能复现,LoRA 适配器也挂在 Hub 上,拿来就能用。
08:00
HuggingFace Daily Papers(社区热门论文)
56
ModelLens:从海量模型中为你的任务寻找最佳模型

开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。

arXivHugging Face多模态开源生态
5月7日
03:22
Hugging Face:Blog(RSS)
精选65
vLLM V0 到 V1:在线强化学习中优先确保后端行为正确性

为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后,在线强化学习训练结果与 V0 参考运行一致,团队优先修复后端行为而非调整 RL 目标。关键修复包括:将日志概率模式设为 processed_logprobs 以匹配采样器分布;禁用 V1 特有的前缀缓存和异步调度等运行时默认值;调整权重更新路径以匹配 V0 的缓存保留行为;并确保 rollout 后端使用 fp32 精度的 lm_head 进行最终投影。这些措施消除了策略比率均值偏差,使 V1 在 KL 散度、熵等指标上与 V0 达成一致。

Hugging Face推理教程/实践部署/工程

推荐理由:vLLM V1迁移时踩的四个坑全在这里,从logprob语义到fp32投影头,修完才调RL目标,做在线RL的团队可以直接抄这份配置清单。
5月6日
17:22
Hugging Face:Blog(RSS)
47
Open ASR 排行榜引入私有数据集以对抗基准过度优化

Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集,涵盖多种口音及脚本式/会话式语音,总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing(针对基准的过度优化)或测试集污染风险。默认平均 WER 仍基于公开数据集计算,用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器,UI 代码和评估脚本已开源。自 2023 年 9 月上线以来,该榜单访问量已超过 71 万次。

Hugging Face产品更新开源/仓库评测/基准
5月1日
08:00
HuggingFace Daily Papers(社区热门论文)
51
面向定制化多模态角色扮演

本文提出定制化多模态角色扮演任务,旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制,并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集,并开发了名为UniCharacter的两阶段训练框架,包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例,模型即可习得目标角色特征,并在文本与图像生成中展现一致的角色表现,训练约需100 GPU小时。实验表明,该方法显著优于现有方案,消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。

arXivHugging Face多模态数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
56
LASE:用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face开源生态论文/研究语音
08:00
HuggingFace Daily Papers(社区热门论文)
55
Themis:训练稳健的多语言代码奖励模型以实现灵活的多标准评分

针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题,研究团队构建了Themis-CodeRewardBench基准,用于在5个偏好维度和8种编程语言上评估模型,并分析了50多个现有模型。为改进模型,团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference(含超35万个偏好对),并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型,支持灵活的多标准评分。实验表明,模型具有正向缩放趋势,在多样化偏好训练下展现出强大的跨语言迁移能力,验证了多标准训练对可靠代码奖励建模的重要性。

Hugging Face数据/训练论文/研究
4月30日
18:10
IT之家(RSS)
61
看穿大模型的"小心思":阿里千问开源可解释性模块 Qwen-Scope

阿里千问开源可解释性模块 Qwen-Scope,该模块基于 Qwen3 和 Qwen3.5 系列模型训练,通过稀疏自编码器提取可解释特征以分析大模型内在机制。开源权重覆盖 7 个大模型,包含 14 组稀疏自编码器,训练数据规模达 0.5B 词元。Qwen-Scope 能实现推理结果的定向控制、数据分类与合成、模型训练优化及评估冗余分析,在数据合成中使训练能效比提升约 15 倍。

Hugging Face安全/对齐开源/仓库
01:39
Hugging Face:Blog(RSS)
精选62
AI评估正成为新的算力瓶颈

AI评估成本已突破关键阈值,正重塑其可及性。Holistic Agent Leaderboard花费约4万美元运行了2万多次智能体推演,单次前沿模型测试成本可达2829美元。研究显示,相同任务成本差异可达33倍,脚手架选择是核心成本驱动因素。虽然静态基准可通过压缩技术实现百倍成本缩减,但智能体评估因轨迹长、噪声大而压缩有限。高支出未必带来更好结果:例如在GAIA测试中,2828美元方案准确率28.5%,而1686美元方案反达57.6%。当评估包含模型训练时,成本将完全超越常规API框架。

Hugging Face现象/趋势评测/基准

推荐理由:这篇把分散的评估成本数据拉通了算总账,曾经便宜的评测现在动辄上万美元,独立评估正被价格挤出牌桌,做Agent的人必须意识到排行榜的代价。
00:39
Hugging Face:Blog(RSS)
50
DeepInfra 登陆 Hugging Face 推理服务提供商 🔥

DeepInfra 作为高性能、低成本的推理服务提供商,现已在 Hugging Face 平台正式上线。该服务支持众多开源模型,包括 LLaMA、Mistral 等系列,并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号,显著降低了 AI 模型部署与调用的门槛,进一步推动了开源人工智能技术的普及与应用。

Hugging Face行业动态部署/工程
4月29日
17:33
IT之家(RSS)
65
腾讯混元开源手机端离线翻译模型 Hy-MT1.5-1.8B-1.25bit,仅 440MB

腾讯混元开源了手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,其体积仅440MB,可在手机本地离线运行。该模型支持33种语言及1056个翻译方向,基于1.8B参数原型通过极致量化压缩实现。其1.25-bit版本采用稀疏高效三值量化技术,将原始3.3GB模型大幅缩减。官方称其翻译质量优于谷歌翻译等主流系统,并提供了2-bit和1.25-bit两种量化方案以适配不同机型。模型完全离线工作,不收集用户数据,相关资源已全面开源。

arXivHugging Face模型发布端侧
11:19
蚂蚁 inclusionAI:HuggingFace 新模型
51
inclusionAI/Ling-2.6-1T

inclusionAI 发布了 Ling-2.6-1T 模型,这是一个包含 1 万亿参数的大型语言模型。该模型基于开源与开放科学理念构建,旨在推动人工智能技术的进步与民主化。新模型在多项基准测试中展现出更强的语言理解与生成能力,同时提供了更高效的推理性能。这一发布标志着开源社区在规模化 AI 模型开发上的重要进展,为研究者和开发者提供了可访问的高性能工具。

Hugging Face开源生态模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
53
大原子模型与语言模型的智能体融合加速超导体发现

研究团队提出名为ElementsClaw的智能体框架,通过协同大型原子模型与大型语言模型来加速材料发现。该框架利用微调自10亿参数原子模型Elements的工具进行原子尺度计算,并借助LLM进行高层语义推理,将材料发现转向集成化、人机交互模式。在超导体搜索中,该框架仅用28个GPU小时便筛选了240万种晶体,识别出6.8万个高置信度候选材料,将已知超导体空间扩大了数个数量级。它不仅成功识别出文献中隐藏的超导体,更发现了四种经实验验证的新型超导体,其中Zr3ScRe8和HfZrRe4的转变温度分别为6.8K和6.7K。

智能体arXivHugging Face论文/研究
4月23日
08:00
HuggingFace Daily Papers(社区热门论文)
55
Memanto:面向长周期智能体的类型化语义记忆与信息论检索系统

本文提出Memanto,一种用于智能体AI的通用记忆层,挑战了实现高保真记忆必须依赖复杂知识图的传统假设。该系统集成了包含13个预定义类别的类型化语义记忆架构、自动冲突解决与时间版本管理,其核心由无需索引的Moorcheh信息论搜索引擎驱动,可在低于90毫秒延迟内实现确定性检索,且完全无数据摄入延迟。在LongMemEval和LoCoMo基准测试中,Memanto分别以89.8%和87.1%的准确率取得最优结果,超越所有基于混合图与向量检索的系统,仅需单次查询、无摄入成本并显著降低运行复杂度。

智能体Hugging Face论文/研究部署/工程
4月22日
23:13
HuggingFace Daily Papers(社区热门论文)
RDP LoRA:大语言模型参数高效适应的几何驱动识别方法

研究团队提出RDP LoRA方法,将大语言模型隐藏状态演化建模为高维几何轨迹,利用Ramer-Douglas-Peucker算法无训练地识别表征路径关键断点,并直接作为层选择信号。在Qwen3-8B-Base的LoRA微调实验中,仅需适配13个RDP选择的层,便在MMLU-Math上达到81.67%准确率,显著优于全层适配的79.32%和随机选择的75.56%,证明几何轨迹分析可优化参数高效微调中的层选择决策。

Hugging Face数据/训练论文/研究
11:10
HuggingFace Daily Papers(社区热门论文)
TEMPO:扩展大型推理模型的测试时训练规模

TEMPO框架通过期望最大化算法形式化测试时训练过程,交替进行策略优化与周期性critic重新校准,解决了现有方法中自我奖励信号漂移导致的性能瓶颈和多样性崩溃问题。该方法在OLMO3和Qwen3模型家族上验证,使OLMO3-7B在AIME 2024上的准确率从33.0%提升至51.1%,Qwen3-14B从42.3%提升至65.8%,同时保持高生成多样性,实现了测试时计算的有效扩展。

Hugging Face推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
面向长程任务的协同进化LLM决策与技能库智能体

针对大语言模型在长程交互环境中难以持续决策的问题,本文提出COSPLAY协同进化框架。该框架包含两个互相促进的模块:LLM决策智能体从可学习技能库检索技能指导行动生成;技能库智能体则从智能体无标签轨迹中持续发现、提取和更新可重用技能。在六个游戏环境测试中,基于8B基础模型的COSPLAY在单人游戏基准上较四个前沿LLM基线实现25.1%的平均奖励提升,在多人社交推理场景中也保持竞争力。

智能体arXivHugging Face推理
4月21日
08:00
HuggingFace Daily Papers(社区热门论文)
CreativeGame:面向机制感知的创意游戏生成

研究团队推出CreativeGame多智能体系统,实现HTML5游戏的迭代式生成与进化。该系统通过程序化信号奖励、谱系范围记忆、运行时验证及机制引导规划四者耦合,将游戏机制作为可规划、追踪的显式对象而非事后描述。系统已积累71个存储谱系、88个保存节点及774条全局机制档案,代码量达6181行。真实4代演化案例表明,机制级创新可在后期版本中涌现,支持通过显式机制变化观察渐进演化过程。

智能体arXivHugging Face编码
4月19日
08:00
HuggingFace Daily Papers(社区热门论文)
Terminal Wrench:331个可奖励作弊环境与3632条攻击轨迹数据集

研究团队发布Terminal Wrench数据集,收录331个可奖励作弊的终端智能体基准环境及3632条攻击轨迹,覆盖Claude Opus 4.6等三款前沿模型。任务涵盖系统管理、机器学习等领域,攻击手段包括输出欺骗、栈帧内省及二进制劫持。可监控性研究显示,移除思维链后LLM裁判检测准确率下降(AUC从0.97降至0.92)。数据集已开源。

智能体arXivHugging Face数据/训练
01:34
HuggingFace Daily Papers(社区热门论文)
理解与实现任务算术中的权重解耦

研究人员提出"任务特征专业化"(TFS)作为任务算术(Task Arithmetic)中权重解耦的根本原理,证明TFS不仅是权重解耦的充分条件,还会导致权重向量正交性这一可观测的几何特征。基于该理论发现,团队开发OrthoReg正则化方法,在微调过程中对任务向量的权重更新矩阵强制实施正交结构,以间接促进解耦。大量实验表明,OrthoReg能持续显著提升多种任务算术方法的性能。

Hugging Face开源生态数据/训练论文/研究
4月18日
08:00
HuggingFace Daily Papers(社区热门论文)
EasyVideoR1:面向视频理解的更简易 RL 框架

EasyVideoR1 是一款专为视频理解任务设计的强化学习框架,通过离线预处理与张量缓存技术消除冗余视频解码,将训练吞吐量提升1.47倍。该框架支持11种视频及图像任务类型的统一奖励路由,采用离线-在线混合数据训练范式,并实现双模态联合训练与独立像素预算配置。其异步评估系统覆盖22个主流视频理解基准,复现精度与官方报告高度一致,为视觉语言模型的视频推理训练提供了完整高效的基础设施。

Hugging Face多模态数据/训练视频
4月17日
21:02
HuggingFace Daily Papers(社区热门论文)
基于LLM的密集检索器鲁棒性研究:泛化性与稳定性系统分析

本文首次系统研究开源LLM密集检索器的鲁棒性,从泛化性与稳定性双维度,在覆盖30个数据集的4项基准上评估。发现指令微调模型虽整体优异,但针对复杂推理优化的模型存在"专业化税",泛化能力受限。稳定性测试表明,LLM检索器对拼写错误和语料库投毒攻击比仅编码器基线更鲁棒,但对同义词替换等语义扰动仍敏感。嵌入几何结构(如角度均匀性)可预测词汇稳定性,且扩大模型规模通常能提升鲁棒性。

arXivHugging Face检索增强论文/研究
15:53
HuggingFace Daily Papers(社区热门论文)
TRACER:面向LLM分类的基于轨迹的自适应成本效益路由

开源系统TRACER利用LLM生产日志训练轻量级替代模型,通过设置一致性阈值α作为部署门控,仅在替代模型与教师模型(如Sonnet 4.6)一致率达标时激活,实现近零边际成本的推理。系统生成可解释性产物明确能力边界。在77类意图识别基准测试中,替代模型覆盖率达83%-100%;在150类任务中完全替代教师模型;而在自然语言推理任务中,系统正确识别嵌入表示不足并拒绝部署。

Hugging Face数据/训练论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
揭示扩散概率模型的 SNR-t 偏差

扩散概率模型在推理阶段存在信噪比-时间步(SNR-t)偏差,即去噪样本的信噪比与其时间步发生错位,导致误差累积和生成质量下降。研究者提出差分校正方法,依据模型先重建低频再处理高频的特性,将样本分解为不同频率成分并分别校正。实验表明,该方法在 IDDPM、ADM、DDIM、EDM、PFGM++、FLUX 等 8 种模型及多分辨率数据集上均显著改善生成质量,且计算开销可忽略。

Hugging Face图像生成论文/研究
4月16日
10:47
HuggingFace Daily Papers(社区热门论文)
ROSE:面向检索的分割增强

研究团队提出即插即用框架ROSE,通过引入互联网检索增强生成、文本与视觉提示增强及WebSense智能调度四大模块,解决多模态大语言模型在分割训练数据外新颖实体与需实时信息新兴实体时的知识滞后问题。同步构建的NEST基准测试用于评估此类场景。实验显示,ROSE在NEST基准上较Gemini-2.0 Flash检索基线提升19.2 gIoU,显著增强模型对实时网络信息的利用能力。

arXivHugging Face检索增强多模态
08:00
HuggingFace Daily Papers(社区热门论文)
通过轨迹重写保护语言模型免受未授权蒸馏

研究团队提出一种通过重写推理轨迹防止语言模型被未授权蒸馏的方法。该技术在保持答案正确性的前提下,动态修改教师模型的推理输出,既能降低响应的训练价值以实现反蒸馏,又能嵌入可验证的API水印。实验表明,简单的指令重写方法即可在维持甚至提升模型性能的同时有效阻止知识窃取,且水印检测几乎零误报。相关代码已开源。

Hugging Face数据/训练论文/研究
4月15日
23:46
HuggingFace Daily Papers(社区热门论文)
GlotOCR Bench:OCR 模型仍难以应对少数之外的 Unicode 文字

研究团队发布涵盖 100 余种 Unicode 文字的 GlotOCR Bench 基准测试,包含干净与退化图像变体。评估显示,多数视觉语言模型仅能正确处理不到 10 种文字,最强前沿模型也难以泛化至 30 种以上。性能与文字级预训练覆盖率高度相关,面对陌生文字时模型会产生随机噪声或幻觉已知相似字符。该基准测试及渲染流程已开源。

Hugging Face多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
GFT:基于无偏群组优势与动态系数修正的从模仿到奖励微调

针对大语言模型后训练中监督微调(SFT)与强化学习(RL)难以统一高效知识注入与稳健泛化的问题,研究人员提出Group Fine-Tuning(GFT)框架。通过训练动态分析发现,SFT实质是带有极稀疏隐式奖励和不稳定逆概率加权的策略梯度优化,易导致单路径依赖与梯度爆炸。GFT引入群组优势学习构建多样化响应群组以缓解奖励稀疏,并采用动态系数修正自适应限制逆概率权重稳定优化。实验表明,GFT持续超越SFT方法,且与后续RL训练衔接更顺畅。

Hugging Face数据/训练论文/研究
4月13日
08:00
HuggingFace Daily Papers(社区热门论文)
跨异构任务的自进化 LLM 记忆提取

研究人员针对大语言模型在异构任务中的记忆提取难题,提出基于聚类的自进化策略CluE,并发布涵盖18个数据集的BEHEMOTH基准测试。该基准覆盖个性化、问题解决和智能体任务,采用下游效用驱动指标评估。实验表明,传统静态提示无法跨任务通用,现有自进化框架在异构场景下性能衰减,而CluE通过分簇独立分析与跨簇综合优化,实现9.04%的相对性能提升,有效解决了异构任务中的记忆提取挑战。

智能体Hugging Face数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
CocoaBench:统一数字智能体真实场景能力基准测试

CocoaBench 基准测试针对统一数字智能体发布,通过人工设计的长程任务评估其灵活组合视觉、搜索与编程能力的实战表现。该基准采用自动评估函数确保跨架构评测的可靠性,同步推出的 CocoaAgent 提供轻量级脚手架以实现模型间的公平对比。测试结果显示,当前最优系统成功率仅为 45.1%,表明现有智能体在推理规划、工具使用及视觉定位等关键环节仍有显著提升空间。

智能体arXivHugging Face推理
08:00
HuggingFace Daily Papers(社区热门论文)
SWE-AGILE:高效管理动态推理上下文的软件智能体框架

SWE-AGILE框架通过动态推理上下文策略解决了多轮软件工程任务中扩展思维链面临的上下文爆炸与重复推理困境。该框架采用"滑动窗口"机制保持近期详细推理以确保连续性,同时将历史推理压缩为精简的Reasoning Digests。实验表明,该方法在SWE-Bench-Verified基准上为7B-8B参数模型创下新纪录,仅使用2.2k条轨迹和896个任务即达到当前最佳性能。

智能体arXivHugging Face编码
4月12日
08:00
HuggingFace Daily Papers(社区热门论文)
TorchUMM:面向评估、分析与后训练的统一多模态模型代码库

研究团队发布 TorchUMM,首个支持统一多模态模型(UMMs)综合评估、分析与后训练的开源代码库。该框架兼容多种架构范式与规模等级的模型,覆盖理解、生成、编辑三大核心任务维度,并整合新旧数据集以系统评估感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议,TorchUMM 实现了异构模型间的公平可复现比较,助力开发者深入洞察模型优劣,加速统一多模态系统的研发迭代。代码已开源至 GitHub。

Hugging Face多模态论文/研究评测/基准
4月10日
08:00
HuggingFace Daily Papers(社区热门论文)
BERT-as-a-Judge:面向高效参考型LLM评估的鲁棒词法替代方案

针对大语言模型评估中词法方法僵化、与人类判断相关性差及LLM评判者计算成本高的问题,本文提出BERT-as-a-Judge方案。基于36个模型和15个任务的大规模实证研究,该编码器驱动方法仅需在合成数据上轻量训练,即可对基于参考的生成答案进行语义正确性评估,且对措辞变化具有鲁棒性。实验表明,该方法性能与大型LLM评判者相当,显著优于词法基线,在准确性与计算效率间实现了良好平衡。

arXivHugging Face论文/研究
4月6日
08:00
HuggingFace Daily Papers(社区热门论文)
SuperLocalMemory V3.3:"活脑"--生物启发式遗忘与认知量化的Zero-LLM智能体记忆系统

SuperLocalMemory V3.3("活脑")作为本地优先的Zero-LLM智能体记忆系统发布,实现完整认知记忆分类。核心创新包括:Fisher-Rao量化感知距离(FRQAD)以100%精度识别高保真嵌入;艾宾浩斯自适应遗忘曲线实现6.7倍区分力;7通道认知检索(语义、关键词、实体图、时间、扩散激活、巩固、Hopfield联想)在LoCoMo基准零LLM模式下达70.4%,多跳任务提升23.8个百分点。支持长时内隐记忆参数化与自动认知管道,纯CPU运行,月下载超5000次。

智能体arXivHugging Face开源/仓库
4月1日
15:13
Hugging Face:Blog(RSS)
精选70
Falcon Perception

Technology Innovation Institute 在 Hugging Face 平台发布了一篇博客文章,介绍了其 Falcon Perception 系统。该系统是一种先进的感知技术方案,专注于提升机器对复杂环境的理解与交互能力。文章阐述了其核心架构的更新,包括多模态数据融合机制的优化,以及实时处理效率的显著提升。关键性能指标显示,其在标准基准测试中的准确率与响应速度均有突破。

Hugging Face开源生态模型发布

推荐理由:Falcon 系列新成员,开源多模态模型阵营再添一员,开发者可关注选型
08:00
Hugging Face:Blog(RSS)
精选83
使用Gradio后端支持任意自定义前端

Gradio推出的gradio.Server组件,允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用,同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展,集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例,其后端仅需约50行Python代码,通过@app.api()装饰器封装函数,即可自动管理请求队列与GPU并发,并能在Hugging Face Spaces上获得ZeroGPU支持,极大简化了复杂全栈Web应用在Spaces上的部署流程。

Hugging Face产品更新部署/工程

推荐理由:开发者可自由选择前端框架,同时利用Gradio的队列和GPU管理,简化AI应用部署。
3月31日
16:23
Hugging Face:Blog(RSS)
精选83
以165美元成本训练25个物种的mRNA语言模型:构建从结构预测到密码子优化的AI流程

OpenMed团队构建了一个覆盖蛋白质结构预测、序列设计和密码子优化的端到端AI流程。在密码子优化环节,CodonRoBERTa-large-v2模型以4.10的困惑度和0.40的斯皮尔曼CAI相关性显著优于其他架构。研究将训练扩展至25个物种,仅用55个GPU小时训练了4个生产级模型,并建立了独特的物种条件化系统,实现了从蛋白质概念到合成就绪DNA序列的快速转化。完整代码与实验结果已开源。

Hugging Face开源生态数据/训练论文/研究

推荐理由:低成本开源生物AI管道,可加速蛋白质工程和药物开发。
08:00
Hugging Face:Blog(RSS)
58
TRL v1.0:与领域同步发展的后训练库

Hugging Face 正式发布 TRL v1.0,这是一个专为大语言模型后训练设计的开源库。该版本整合了 SFT、RLHF 等多种高效微调技术,提供从监督微调到人类反馈强化学习的完整工具链。新库支持与 Transformers、PEFT 等主流框架无缝集成,显著简化了模型对齐流程。此次更新旨在降低大语言模型微调门槛,推动AI技术民主化,使开发者能够更便捷地提升模型在对话、安全等方面的性能表现。

Hugging Face开源/仓库数据/训练
‹ 上一页
123456
下一页 ›