全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态论文 · 62 条

全部一手资讯 X 论文

标签「Hugging Face」清除

6月26日周五

23:56AK40ViQ：任意分辨率文本对齐视觉量化

6月24日周三

11:55HuggingFace Daily Papers（社区热门论文）49EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

10:49HuggingFace Daily Papers（社区热门论文）61OpenThoughts-Agent：开源数据流水线训练智能体模型

6月23日周二

15:13HuggingFace Daily Papers（社区热门论文）75精选HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

6月20日周六

08:00HuggingFace Daily Papers（社区热门论文）57BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

6月19日周五

10:47HuggingFace Daily Papers（社区热门论文）49FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

6月18日周四

08:00HuggingFace Daily Papers（社区热门论文）65StylisticBias：少数视觉线索主导MLLM社会偏见

6月17日周三

10:33HuggingFace Daily Papers（社区热门论文）50UniAR：共享语境-视觉分词器是实现统一的关键

08:00HuggingFace Daily Papers（社区热门论文）49ACIE：基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

08:00HuggingFace Daily Papers（社区热门论文）58LOCUS：美国地方法规语料库

6月16日周二

09:59Berkeley RDI：Blog（AI 安全与评测）83精选伯克利RDI发布Agents' Last Exam基准

6月12日周五

14:00HuggingFace Daily Papers（社区热门论文）77同事件精选MiniMax Sparse Attention（MSA）块状稀疏注意力同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

6月10日周三

03:55Hugging Face：Blog（RSS）67精选Hugging Face 博客发布语音智能体代码切换基准测试

00:36HuggingFace Daily Papers（社区热门论文）47FlowBP：一种面向Flow Matching的奖励反向传播设计空间探索框架

00:16AK51SpatialWorld：多模态智能体空间推理基准

6月5日周五

23:47HuggingFace Daily Papers（社区热门论文）68Code2LoRA：超网络生成适配器助力代码语言模型应对软件演化

08:00HuggingFace Daily Papers（社区热门论文）52PaperFlow：跨每日论文流的画像、推荐与自适应框架

6月3日周三

00:15AK60VLMs是否知道何时不回答空间问题

6月2日周二

20:40HuggingFace Daily Papers（社区热门论文）71精选NLP领域2018-2025年人类标注报告实践的大规模审计

6月1日周一

14:00OpenClaw🦞72精选联合NVIDIA开源ClawHub技能安全扫描数据集

5月30日周六

01:14Fei-Fei Li83精选GPIC：大规模视觉生成基准数据集发布

5月29日周五

11:35公众号：面壁智能（MiniCPM）61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

5月28日周四

17:47公众号：通义实验室（千问）54通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

12:28HuggingFace Daily Papers（社区热门论文）65LiveBrowseComp：搜索智能体是在真正搜索，还是在验证既有知识？

11:28HuggingFace Daily Papers（社区热门论文）66HRBench：混合推理大语言模型思考模式切换策略的评测与理解

08:00HuggingFace Daily Papers（社区热门论文）56Domino：从自回归草拟中解耦因果建模的推测解码框架

08:00HuggingFace Daily Papers（社区热门论文）53通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

01:20Hugging Face：Blog（RSS）70精选ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

5月22日周五

16:15HuggingFace Daily Papers（社区热门论文）62TransitLM：用于无地图公交路线生成的大规模数据集与基准测试

10:14HuggingFace Daily Papers（社区热门论文）60伯尼尼：基于潜在语义规划的视频扩散模型

5月20日周三

22:08HuggingFace Daily Papers（社区热门论文）65用于高效全能模态大语言模型的阶段自适应Token选择

08:00HuggingFace Daily Papers（社区热门论文）67GenEvolve：基于工具协调视觉经验蒸馏的自我进化图像生成代理

5月19日周二

08:00HuggingFace Daily Papers（社区热门论文）58思维轨迹：理解真实世界LLM交互中的用户思维

5月18日周一

08:00HuggingFace Daily Papers（社区热门论文）46SENSE：基于卫星的能量合成促进可持续环境

5月16日周六

23:54Berryxia.AI63具身智能新前沿：世界行动模型综述发布

5月15日周五

01:46HuggingFace Daily Papers（社区热门论文）71精选EVA-Bench：端到端语音智能体评估新框架

5月14日周四

08:00HuggingFace Daily Papers（社区热门论文）52FINESSE-Bench：面向大语言模型的金融领域知识与技术分析层级基准测试套件

5月12日周二

17:59AK63数学家构建基准测试评估LLM研究级数学能力

08:00HuggingFace Daily Papers（社区热门论文）48DocAtlas：跨80多种语言的多语言文档理解框架

08:00HuggingFace Daily Papers（社区热门论文）64Orthrus：基于双视图扩散的内存高效并行令牌生成

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月26日

23:56

AK@_akhaliq

40

ViQ 文本对齐的视觉量化表示，支持任意分辨率。

Hugging Face 图像生成多模态论文/研究

6月24日

11:55

HuggingFace Daily Papers（社区热门论文）

49

EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时，单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功，导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段：多异构智能体并行探索产生多样化轨迹；第三方智能体对比分析减少归纳偏差；执行组通过共识机制验证候选经验，仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上，EDV 持续超越强基线，验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体 Hugging Face 开源/仓库论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

61

OpenThoughts-Agent：开源数据流水线训练智能体模型

OpenThoughts-Agent（OT-Agent）项目提出一套完全开源的数据 curation 流水线，专门用于训练智能体模型。研究团队通过 100 余项对照消融实验，系统探索了任务来源与多样性的影响，并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后，模型在 7 项智能体基准测试中平均准确率为 44.8%，比现有最强的开源数据智能体模型 Nemotron-Terminal-32B（40.9%）高 3.9 个百分点。训练数据展现出强扩展性，同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体 Hugging Face 开源生态数据/训练

6月23日

15:13

HuggingFace Daily Papers（社区热门论文）

精选75

HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准，将现有检索套件重建为小型数据集（Nano-sets），涵盖 35 个基准、551 个任务和 43 种语言，采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体（降维、量化等）在同一条件下对比。在 55 个模型上，整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR（完整版）的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测，而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face 检索增强论文/研究

推荐理由：有了这个轻量级基准，做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置，而且排名与完整评测高度一致，是工程选型的高性价比工具。

6月20日

08:00

HuggingFace Daily Papers（社区热门论文）

57

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

6月19日

10:47

HuggingFace Daily Papers（社区热门论文）

49

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像，保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架，将LoRA作为风格与内容的组合锚点，通过生成-过滤流程构建大规模三元组数据。针对内容泄漏，采用两阶段课程学习：注意力级增强约束抑制风格参考泄漏，频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

Hugging Face 图像生成开源生态论文/研究

6月18日

08:00

HuggingFace Daily Papers（社区热门论文）

65

StylisticBias：少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型（MLLM）属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸，每张创建约50个单属性变体，共约25K图像，通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中，年龄和体型主导身份层面效应，时尚风格等视觉线索引发最大属性层面偏移；约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXiv Hugging Face 安全/对齐论文/研究

6月17日

10:33

HuggingFace Daily Papers（社区热门论文）

50

UniAR：共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架，用单个离散视觉分词器作为理解与生成的共享桥梁，使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化，保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码，缩短视觉序列长度并加速生成；扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习，UniAR 在图像生成和编辑上达最优，在多模态理解基准上也有竞争力。

arXiv Hugging Face 图像生成多模态

08:00

HuggingFace Daily Papers（社区热门论文）

49

ACIE：基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

患者上下文涉及数百份异构文档与数千个结构化数据点，但文档级元数据缺失，标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此，研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线，它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中，核医学医生对每个提取值与其引用来源进行核对，在7326次判断中接受了96.5%的提取结果，各类型接受率介于80%至99%之间。

智能体 Hugging Face 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

LOCUS：美国地方法规语料库

LOCUS语料库包含来自9,239个城市和县的原始法规，并提供覆盖美国3,144个县中最大的2,309个县的标准化访问层，涵盖多数人口。项目利用OCR处理多种文档格式，将此前碎片化、仅供人工浏览的地方法规转化为机器可读资源。团队训练了基于ModernBERT的分类器和评分器，用于分析法规不透明性和家长主义等此前难以大规模研究的维度。LOCUS-v1及衍生模型已公开发布。

Hugging Face 数据/训练论文/研究

6月16日

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

6月12日

14:00

HuggingFace Daily Papers（社区热门论文）

同事件精选77

MiniMax Sparse Attention（MSA）块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA，基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块，Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上，MSA 与 GQA 性能持平，1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核，H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHub Hugging Face 开源/仓库推理

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍，而且直接开源了高效CUDA kernel和模型，做agent和代码仓库级推理的团队可以赶紧试试。

6月10日

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

00:36

HuggingFace Daily Papers（社区热门论文）

47

FlowBP：一种面向Flow Matching的奖励反向传播设计空间探索框架

针对文本到图像Flow Matching模型与人类偏好对齐时，完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题，FlowBP提出统一代理轨迹框架，将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择，并实例化三个变体：FlowBP-Sparse（稀疏Euler重建）、FlowBP-Bridge（受控桥耦合）和FlowBP-Lagrange（高阶跳跃求积）。三者通过活跃集大小限制内存，梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，三个变体在偏好、质量和组合指标上均优于直接梯度基线。

Hugging Face 图像生成数据/训练论文/研究

00:16

AK@_akhaliq

51

SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力

智能体 Hugging Face 多模态论文/研究

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

68

Code2LoRA：超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架，可生成仓库专属的 LoRA 适配器，在推理时零 token 开销注入仓库知识。它支持两种模式：Code2LoRA-Static 将单一仓库快照转为适配器，适合稳定代码库；Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器，适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中，Code2LoRA-Static 跨仓库 exact match 达 63.8%，仓库内达 66.2%，持平逐仓库 LoRA 上界；演化任务中，Code2LoRA-Evo 跨仓库 exact match 达 60.3%，比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXiv Hugging Face 开源生态编码

08:00

HuggingFace Daily Papers（社区热门论文）

52

PaperFlow：跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架：Profiling从异构冷启动证据构建维护结构化学术画像；Recommending在固定展示预算下通过多信号聚合排序每日论文流；Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准，包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录，并设计了盲人评估协议。实验对比五种基线，PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXiv Hugging Face 论文/研究

6月3日

00:15

AK@_akhaliq

60

视觉语言模型知道何时不回答空间问题吗（以及为什么）？

Hugging Face 多模态论文/研究

6月2日

20:40

HuggingFace Daily Papers（社区热门论文）

精选71

NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线，其在Annotated-gold数据集（41篇论文，72个标注任务）上与人工裁决的一致性（Krippendorff's alpha）达到0.606。基于此，研究构建了Annotated-llm数据集，涵盖ACL会议论文，从1603篇论文中提取了2667个标注任务。分析发现，论文常报告招募策略、标注者专长等操作细节，但经常遗漏评估标注效度所需的关键信息，如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡，并提出了一个可扩展的框架和最低报告标准。

arXiv Hugging Face 数据/训练论文/研究

推荐理由：NLP论文里的标注环节一直是个黑箱，这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍，值得每个做数据和评估的人细看。

6月1日

14:00

OpenClaw🦞@openclaw

精选72

与 @nvidia 合作，我们开源了一个包含 67，453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

智能体 Hugging Face 安全/对齐论文/研究

推荐理由：OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果，一半被标风险但真正恶意的不到千分之三，不同扫描器几乎没共识。做 agent 安全的应该看看。

5月30日

01:14

Fei-Fei Li@drfeifei

精选83

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face 图像生成数据/训练论文/研究

推荐理由：李飞飞都来站台，这个数据集不简单。完全允许商业用途是关键，对做视觉生成的团队来说，终于有了一个不用再为版权头疼的超级训练库。

5月29日

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条X：面壁智能 OpenBMB (@OpenBMB)

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

5月28日

17:47

公众号：通义实验室（千问）

54

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXiv Hugging Face 图像生成多模态

12:28

HuggingFace Daily Papers（社区热门论文）

65

LiveBrowseComp：搜索智能体是在真正搜索，还是在验证既有知识？

研究揭示基于LLM的搜索智能体存在“内在知识依赖”：在BrowseComp基准测试中，智能体在无需工具时仍能回答高达44.5%的问题，超过半数的搜索查询源于模型内部假设而非检索线索，移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此，研究引入深度搜索基准LiveBrowseComp，包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上，所有智能体的闭卷准确率低于2%，搜索增强得分显著下降，且先前模型排名不再可靠。

智能体 arXiv Hugging Face 搜索

11:28

HuggingFace Daily Papers（社区热门论文）

66

HRBench：混合推理大语言模型思考模式切换策略的评测与理解

本研究提出了HRBench，一个统一的评测框架，用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族（基于提示的选择、外部路由、推测执行）与四种训练方式（免训练、SFT、离线RL、在线RL）两个维度设计空间，形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型，以及数学、科学、代码等5个推理基准上，重新实现了12余种现有方法并进行评估。分析表明，不同策略在有效性与效率的权衡中特点各异，且策略偏好随模型规模和任务领域变化。

GitHub Hugging Face 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

Domino：从自回归草拟中解耦因果建模的推测解码框架

Domino是一种用于加速大语言模型推理的推测解码框架，它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布，随后应用一个轻量级的Domino头，利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程，论文提出了基础锚定训练课程，先强化并行骨干，再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明，Domino在Transformers后端下实现了高达5.49倍的端到端加速，在SGLang服务下实现了高达5.8倍的吞吐量加速。

arXiv Hugging Face 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m，一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量，支持8,192 token的上下文窗口。该模型不进行完整预训练，而是采用三阶段适配流水线训练：构建优化的土耳其语分词器、克隆并适配教师模型权重，以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数，在单个GPU上训练约4小时，成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型，并在TR-MTEB的26个任务中排名靠前，实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face 检索增强开源/仓库论文/研究

01:20

Hugging Face：Blog（RSS）

精选70

ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

智能体 Hugging Face 评测/基准

关联讨论 1 条X：通义千问 / Qwen (@Alibaba_Qwen)

推荐理由：IT运维这事儿，AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%，开源模型GLM-5.1却用五分之一成本拿到40%，企业场景性价比可能不在闭源那边。

5月22日

16:15

HuggingFace Daily Papers（社区热门论文）

62

TransitLM：用于无地图公交路线生成的大规模数据集与基准测试

TransitLM是首个支持绕过地图依赖的公交路线规划数据集，包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练，也设立了三项互补的评估任务。实验表明，基于该数据集训练的大语言模型能高准确率地生成结构合理的路线，并能隐式地将GPS坐标匹配至站点，无需显式地图。这证明公交路线规划可完全从数据中学习，实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。

Hugging Face 数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

60

伯尼尼：基于潜在语义规划的视频扩散模型

本文提出了Bernini，一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作：MLLM负责在ViT嵌入空间预测目标语义表示，扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入，模型引入了分段感知三维旋转位置编码，并结合思维链推理，显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化，在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face 多模态视频论文/研究

5月20日

22:08

HuggingFace Daily Papers（社区热门论文）

65

用于高效全能模态大语言模型的阶段自适应Token选择

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXiv Hugging Face 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

67

GenEvolve：基于工具协调视觉经验蒸馏的自我进化图像生成代理

GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹，代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同，GenEvolve通过对比同一请求的多个轨迹，将优劣差异提炼为结构化视觉经验，并仅提供给特权教师分支。借鉴策略自蒸馏思想，这些经验为学生代理提供了密集的token级监督，从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准，实验表明该方法达到了最先进的性能。

智能体 Hugging Face 图像生成论文/研究

5月19日

08:00

HuggingFace Daily Papers（社区热门论文）

58

思维轨迹：理解真实世界LLM交互中的用户思维

本文发布了首个大规模数据集ThoughtTrace，该数据集首次将真实世界的人机多轮对话与用户的自述思维（即发送提示的原因和对助手回复的反应）进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明，这些思维捕捉了长周期、主题多样的交互，且与消息本身语义不同，前沿LLM难以从对话中准确推断。研究证实，思维数据可用于改进推理时的用户行为预测，并通过思维引导的改写为个性化助手训练提供细粒度对齐信号，为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。

Hugging Face 数据/训练论文/研究

5月18日

08:00

HuggingFace Daily Papers（社区热门论文）

46

SENSE：基于卫星的能量合成促进可持续环境

针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题，本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型，联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制，并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明，SENSE生成的图像视觉保真度高，且符合物理标准。该模型能利用少量标注数据生成合成数据集，显著提升了下游预测任务的性能并降低了误差，为城市可持续规划提供了新方案。

GitHub Hugging Face 图像生成开源/仓库

5月16日

23:54

Berryxia.AI@berryxia

63

具身智能新前沿：世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿，其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型，超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议，并提供了发展时间线图，对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face 具身智能论文/研究

5月15日

01:46

HuggingFace Daily Papers（社区热门论文）

精选71

EVA-Bench：端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架，解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真，并提出了衡量任务完成度、音频保真度的EVA-A指标，以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集，采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现，无系统能在两项核心指标上同时超过0.5，峰值与可靠性能差距显著，且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face 论文/研究评测/基准语音

推荐理由：EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分，还开源了 213 个企业场景，做语音助手的团队该认真看看。

5月14日

08:00

HuggingFace Daily Papers（社区热门论文）

52

FINESSE-Bench：面向大语言模型的金融领域知识与技术分析层级基准测试套件

针对现有金融基准测试在评估大语言模型（LLM）专业能力上的局限性，研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA（特许金融分析师）等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现，并提出了基于LLM-as-Judge范式的自动化评分方案，为实质性评估LLM的金融专业能力提供了新工具。

Hugging Face 数据/训练论文/研究

5月12日

17:59

AK@_akhaliq

63

Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

Hugging Face 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

DocAtlas：跨80多种语言的多语言文档理解框架

DocAtlas是一个多语言文档理解框架，覆盖82种语言。它通过差异渲染与合成生成双流程，构建高保真OCR数据集与基准测试，产出统一结构化标注。研究评估16个模型，发现低资源语言存在性能差距。利用渲染生成的真值作为正向信号，通过直接偏好优化实现了稳定的多语言适配，在域内和域外准确性上均实现提升，且未损害基础语言性能。最佳模型变体DocAtlas-DeepSeek较最强基线提升1.7%。

Hugging Face 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

Orthrus：基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架，将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块，构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存：自回归头负责上下文预填充以构建准确表示，扩散头则执行并行令牌生成。通过严格的共识机制，Orthrus 在保证无损推理的前提下，仅增加 O(1) 内存开销与极少参数量，即实现了最高 7.8 倍的生成加速。

arXiv Hugging Face 推理论文/研究

‹ 上一页

12