5月20日

22:08

HuggingFace Daily Papers（社区热门论文）

全能模态大语言模型在处理交织的视频与音频token时，固定比例的剪枝方法无法适应跨模态重要性随网络深度的动态变化。为此，本文提出无需训练的阶段自适应token选择方法SEATS。该方法在模型输入前通过注意力加权进行去冗余，在模型内部逐层动态分配模态保留配额，并在跨模态融合完成后移除所有剩余非文本token。实验在Qwen2.5-Omni和Qwen3-Omni模型上验证，仅保留10%的视觉和音频token，即可实现9.3倍FLOPs削减与4.8倍预填充加速，同时保持96.3%的原始性能。

arXiv Hugging Face 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

GenEvolve：基于工具协调视觉经验蒸馏的自我进化图像生成代理

GenEvolve是一个旨在让图像生成代理自我进化的框架。该框架将每次生成过程建模为工具协调轨迹，代理通过收集证据、选择资源并组合生成技能来完成任务。与主要依赖图像级奖励的方法不同，GenEvolve通过对比同一请求的多个轨迹，将优劣差异提炼为结构化视觉经验，并仅提供给特权教师分支。借鉴策略自蒸馏思想，这些经验为学生代理提供了密集的token级监督，从而帮助其内化更优的搜索与构建能力。研究还构建了配套的数据集与评测基准，实验表明该方法达到了最先进的性能。

智能体 Hugging Face 图像生成论文/研究

03:03

Hugging Face：Blog（RSS）

OlmoEarth v1.1：更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族，将计算成本降低最多 3 倍，同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率（10m、20m、60m）的 token 合并为单个 token，大幅缩短输入序列长度，从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸，权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face 开源/仓库数据/训练模型发布

5月19日

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face 检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

08:00

HuggingFace Daily Papers（社区热门论文）

思维轨迹：理解真实世界LLM交互中的用户思维

本文发布了首个大规模数据集ThoughtTrace，该数据集首次将真实世界的人机多轮对话与用户的自述思维（即发送提示的原因和对助手回复的反应）进行配对。数据集包含来自20个语言模型的1058名用户、2155段对话及10174条思维标注。分析表明，这些思维捕捉了长周期、主题多样的交互，且与消息本身语义不同，前沿LLM难以从对话中准确推断。研究证实，思维数据可用于改进推理时的用户行为预测，并通过思维引导的改写为个性化助手训练提供细粒度对齐信号，为人机交互的深层认知研究与构建更懂用户的助手奠定了基础。

Hugging Face 数据/训练论文/研究

5月18日

23:52

Hugging Face：Blog（RSS）

精选68

PaddleOCR 3.5：使用Transformers后端运行OCR和文档解析任务

PaddleOCR 发布 3.5 版本，正式将 Transformers 确立为运行 PP-OCRv5 及 PaddleOCR-VL 1.5 模型的可选推理后端之一。此次更新引入了更灵活的 engine 与 engine_config 参数，允许开发者自主选择后端并配置数据类型、设备等选项。其核心价值在于，显著降低了将文档处理能力集成至以 Transformers 为中心的主流开发栈（如 RAG、智能体、文档AI）的门槛，使开发者能更便捷地利用现有生态，减少集成阻力，从而专注于下游应用构建。

Hugging Face 检索增强产品更新多模态

推荐理由：PaddleOCR 3.5 最大的变化不是新模型，而是终于能跑在 Transformers 上了，做 RAG 和文档智能的开发者可以少写一堆胶水代码。

08:00

HuggingFace Daily Papers（社区热门论文）

SENSE：基于卫星的能量合成促进可持续环境

针对现有城市建筑能耗建模多为预测性、缺乏生成能力且数据稀缺的问题，本文提出了一个名为SENSE的统一生成式框架。该框架能够基于可控扩散模型，联合合成逼真的城市卫星图像以及与之对齐的高质量建筑能耗与高度图。其通过道路网络和城市密度指标进行条件控制，并利用大型视觉模型在潜在空间生成标注信息。在纽约等四个城市的实验表明，SENSE生成的图像视觉保真度高，且符合物理标准。该模型能利用少量标注数据生成合成数据集，显著提升了下游预测任务的性能并降低了误差，为城市可持续规划提供了新方案。

GitHub Hugging Face 图像生成开源/仓库

5月17日

00:51

Ant Ling@AntLingAGI

精选76

蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式："high"模式用于快速智能体循环，"xhigh"模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体 Hugging Face 开源生态推理

推荐理由：蚂蚁把1T推理模型以MIT许可开源，还专门为Agent循环做了高低推理双模式，做开源Agent的团队直接多了一个强力基座可选。

5月16日

23:54

Berryxia.AI@berryxia

具身智能新前沿：世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿，其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型，超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议，并提供了发展时间线图，对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face 具身智能论文/研究

15:42

IT之家（RSS）

蚂蚁集团百灵开源万亿级思考模型 Ring-2.6-1T，支持 high 与 xhigh 两种推理强度

蚂蚁集团百灵大模型开源了面向复杂任务的万亿级思考模型 Ring-2.6-1T。该模型创新性地引入了可调节推理强度机制，提供 high 和 xhigh 两种模式。high 模式适用于高频 Agent 工作流，具有低 Token 开销和快速多步执行能力，适合多轮交互与工具协作；xhigh 模式则为数学、科研及复杂逻辑分析等高难任务提供更充分的思考深度。开发者可根据任务需求灵活选择，以平衡效果、速度与成本。模型已在 Hugging Face 和 ModelScope 平台开放。

Hugging Face 开源生态推理模型发布

00:22

SenseTime@SenseTime_AI

SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容，包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面，模型在BizGenEval（困难版）和IGenBench（Q-ACC）两项基准测试上表现突出，相比其基础U1模型分别提升了6.8分和18.2分。目前，该模型已在Hugging Face平台开源，并提供了超过100个多样化的生成示例，供开发者和研究者参考与试用。

Hugging Face 图像生成模型发布

5月15日

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face 多模态开源/仓库模型发布

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

01:46

HuggingFace Daily Papers（社区热门论文）

精选71

EVA-Bench：端到端语音智能体评估新框架

EVA-Bench是一个端到端语音智能体评估框架，解决了模拟真实对话与测量全范围语音故障两大挑战。它通过动态多轮机器对话和自动验证进行仿真，并提出了衡量任务完成度、音频保真度的EVA-A指标，以及评估对话体验的EVA-X指标。框架包含三个领域的213个场景及鲁棒性测试集，采用区分峰值与可靠能力的测量方法。在12个系统的测试中发现，无系统能在两项核心指标上同时超过0.5，峰值与可靠性能差距显著，且口音与噪声扰动暴露出明显的鲁棒性缺陷。该框架已开源。

Hugging Face 论文/研究评测/基准语音

推荐理由：EVA-Bench 把语音代理评估从「能对话就行」推进到「对话质量+鲁棒性」的全维度打分，还开源了 213 个企业场景，做语音助手的团队该认真看看。

5月14日

22:45

Hugging Face：Blog（RSS）

精选59

解锁连续批处理中的异步性

在连续批处理中，同步方式导致CPU与GPU交替工作，造成闲置浪费。测试显示，使用8B模型生成8K令牌时，GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载，让CPU准备下一批次（N+1）的同时，GPU计算当前批次（N），从而消除闲置间隙。这可通过CUDA流实现操作并发，无需更改内核或模型，仅需协调硬件执行顺序。理论上，该方法可将总生成时间从300.6秒减少至228秒，实现24%的免费加速。相关技术已集成到transformers库的连续批处理中，显著提升推理性能。

Hugging Face 推理教程/实践部署/工程

推荐理由：文章手把手拆解了异步批处理如何用CUDA流和事件消除CPU与GPU的互相等待，把推理吞吐提升22%，搞推理优化的工程师值得细读。

08:00

HuggingFace Daily Papers（社区热门论文）

FINESSE-Bench：面向大语言模型的金融领域知识与技术分析层级基准测试套件

针对现有金融基准测试在评估大语言模型（LLM）专业能力上的局限性，研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA（特许金融分析师）等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现，并提出了基于LLM-as-Judge范式的自动化评分方案，为实质性评估LLM的金融专业能力提供了新工具。

Hugging Face 数据/训练论文/研究

5月13日

08:49

Berryxia.AI@berryxia

Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face 检索增强多模态开源生态

08:49

Berryxia.AI@berryxia

Jina同步发布MLX格式嵌入模型，端侧AI部署迎来新趋势

Jina在其新版嵌入模型发布首日，即同步提供了全套MLX格式变体，改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标，背后应有自动化流程支持。这一动向反映了MLX生态的崛起：Qwen、DeepSeek等主流模型官方开始集成MLX，Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性，尤其适合在Mac的M系列统一内存上运行，为本地RAG等场景提供了理想的端侧AI解决方案。

Berryxia.AI: https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

Hugging Face 开源/仓库模型发布现象/趋势

5月12日