6月15日

05:06

MarkTechPost（RSS）

该教程演示如何在不下载完整多 TB 语料库的前提下，通过 HuggingFace 的 load_dataset 流式接口加载 FineWeb sample-10BT 子集的 3000 条文档，检查其 schema 及 url、language、language_score、token_count 等元数据字段，并复现 FineWeb 的质量过滤流程（Gopher / C4 / FineWeb 自定义规则）、采用 MinHash 进行近似重复检测、用 GPT-2 tokenizer 验证 token 计数，最后生成域名、语言分数、文档长度和 tokenizer 效率等统计图表。

Hugging Face 教程/实践数据/训练

01:59

Hacker News 热门（buzzing.cc 中文翻译）

精选72

里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5，在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子，指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face 开源/仓库模型发布评测/基准

推荐理由：一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7，这让人重新审视谁在参与前沿模型竞争。如果结果可复现，可能是今年最意外的黑马。

6月13日

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

精选62

inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型，输入截图与自然语言指令，输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上，SSPro 得分 64.2（相比 GRPO-4B 提升 2.0），SSV2 得分 93.8（下降 0.4），OSWorld-G 得分 61.2（提升 1.3），OSWorld-G-R 得分 69.7（提升 0.5）。模型已开源在 HuggingFace，推荐使用提示词并返回 [x,y] 格式坐标。

智能体 Hugging Face 多模态模型发布

推荐理由：蚂蚁 inclusionAI 开源了一款 GUI 定位模型，基于 Qwen3.5 微调，在接地基准上小幅提升，关键是提供了自验证训练方法，做桌面自动化的可以直接下载用。

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/VISTA-9B：基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型，输入截图与自然语言指令，输出0-1000归一化坐标。采用VISTA（视图一致自验证）方法，含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分，超越Qwen3.5-9B与GRPO-9B基线。模型已开源，可通过HuggingFace加载使用。

智能体 Hugging Face 多模态模型发布

00:00

Hugging Face：Blog（RSS）

精选74

olmo-eval：面向模型开发循环的评估工作台

olmo-eval 是基于 OLMES 标准构建的评估工作台，专为 LLM 持续开发中的反复评测场景设计。相比 OLMES，它减少了新增评测的实现工作量，支持 agentic 和多轮评测作为一等用例，并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构，模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同，olmo-eval 聚焦开发阶段快速迭代，可逐问题对比检查点输出以区分真实改进与噪声。

Hugging Face 产品更新开源生态评测/基准

推荐理由：做模型训练的人会感谢这个工具，它把评估从一次性打分变成能持续对比的流程，按题对比两个 checkpoint 的功能很实用，但如果你不训模型，这篇可以跳过。

6月12日

21:18

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选77

Kimi K2.7-Code：具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型，相比同类模型拥有更高的模型 token 效率，能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体 Hugging Face 推理模型发布

同一事件，精选展示《6倍速！Kimi K2.7 Code 高速版已上线》

推荐理由：Kimi K2.7-Code 把推理 token 砍掉 30%，在长程编码任务上有实打实的提升，是编码智能体赛道的一个有力信号，做代码 Agent 的可以盯一下。

19:36

IT之家（RSS）

月之暗面开源 Kimi K2.7 Code 编程模型，预告 6 倍速高速版

月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6，长上下文编程指令遵循和长程任务性能提升，过度思考倾向改善，平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%；Agent 基准提升约 10%。即日起通过 Kimi API 调用，输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6，模型需开启思考模式。预告高速版（输出约 180 Token/s），6 月 15 日可调用，6x 速度仅需 2x 价格。

Hugging Face 模型发布编码

17:35

IT之家（RSS）

商汤开源 SenseNova U1 图文交错生成增强版模型：支持多页连续创作，角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化，支持绘本、故事书、多页 PPT 等连续内容创作，解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善，以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face 图像生成多模态模型发布

14:00

HuggingFace Daily Papers（社区热门论文）

同事件精选77

MiniMax Sparse Attention（MSA）块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA，基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块，Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上，MSA 与 GQA 性能持平，1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核，H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHub Hugging Face 开源/仓库推理

同一事件，精选展示《MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型》

推荐理由：MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍，而且直接开源了高效CUDA kernel和模型，做agent和代码仓库级推理的团队可以赶紧试试。

01:17

Hacker News 热门（buzzing.cc 中文翻译）

精选72

DeepSeek-R1 的开源实现

DeepSeek-R1 的开源复现项目已在 GitHub 发布，在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。

Hugging Face 开源/仓库推理模型发布

推荐理由：Hugging Face 把 DeepSeek-R1 的完整训练管线拆解得清清楚楚，从数据蒸馏到 GRPO 强化学习都开源了，还放出了复现的模型和数据集。想理解或自己训练推理模型的开发者，这大概是目前最实用的路线图。

6月11日

18:59

Hugging Face：Blog（RSS）

PyTorch 剖析系列（二）：从 nn.Linear 到融合 MLP

本部分将手写 matmul-add 对替换为 nn.Linear（bias=True），堆叠三层 Linear 与激活函数构成多层感知机（MLP）块，在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm，将 bias 加法作为 epilogue 融合进矩阵乘法核，避免额外 HBM 访问；transpose 操作（aten::t）仅改写 CPU 端张量元数据（shape 和 stride），不启动 GPU 核。

Hugging Face 教程/实践部署/工程

03:56

Ars Technica：AI（RSS）

Google DeepMind 发布 DiffusionGemma，本地 AI 推理速度提升 4 倍

Google DeepMind 发布 DiffusionGemma，一款利用扩散模型加速文本输出的新模型，本地 AI 推理速度达到传统模型的 4 倍。

Google Hugging Face 开源生态推理

6月10日

05:55

Hugging Face：Blog（RSS）

精选74

将 GitHub CI 迁移到 Hugging Face Jobs

本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行，以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接，将 GitHub Actions 的 job 转为临时自托管运行器：GitHub App 监听 workflow_job.queued webhook，dispatcher Space 验证后启动对应硬件（CPU 或 t4-small、h200 等 GPU）的 HF Job，由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地，CPU 作业时间减少约 30%，并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。

Hugging Face 教程/实践部署/工程

推荐理由：HF 直接把 CI 桥接器开源了出来，教你把 GitHub Actions 迁到 HF Jobs 上跑 GPU 测试，ML 项目终于可以低成本配上显卡 CI，步骤清晰到能直接抄作业。

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

00:36

HuggingFace Daily Papers（社区热门论文）

FlowBP：一种面向Flow Matching的奖励反向传播设计空间探索框架

针对文本到图像Flow Matching模型与人类偏好对齐时，完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题，FlowBP提出统一代理轨迹框架，将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择，并实例化三个变体：FlowBP-Sparse（稀疏Euler重建）、FlowBP-Bridge（受控桥耦合）和FlowBP-Lagrange（高阶跳跃求积）。三者通过活跃集大小限制内存，梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，三个变体在偏好、质量和组合指标上均优于直接梯度基线。

Hugging Face 图像生成数据/训练论文/研究

6月9日

19:55

Hugging Face：Blog（RSS）

精选76

一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space，从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像，再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点（.ply），自动完成坐标系校正、取景、压缩为.ksplat（体积缩小约3倍），并构建基于Three.js的滚动切换、拖拽旋转查看器，最终部署为静态Space。整个过程无需客户端库，每个Space通过agents.md暴露可调用API。

智能体 Hugging Face MCP/工具多模态

推荐理由：Hugging Face 把 agents.md 做成每个 Space 的标准说明书，agent 能直接读懂并链式调用图像和 3D 模型，这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了，做 AI 工具链的可以立刻照着试。

17:55

Hugging Face：Blog（RSS）

精选68

NeuroBait：微调AI助手，为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手，旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA（r=16, alpha=16）在Unsloth上训练3个epoch，学习率2e-4，最大序列长度2048，使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space（ZeroGPU），使用Gradio和标准transformers+peft，运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单，而是根据用户上下文给出3-6句温暖流畅的回复，引导用户找到一件微小可立即执行的动作，从而激发多巴胺、降低启动阻力。

Hugging Face 教程/实践数据/训练

推荐理由：对ADHD群体来说，这是一次真正从需求出发的AI尝试。它不做计划列表，而是用一个温暖的动感火花打破僵局，让AI从理论走向陪伴。如果你或身边人容易'卡住'，可以试试这个Space。

6月8日

21:50

Hugging Face：Blog（RSS）

精选62

开源社区支持 OpenEnv 用于智能体强化学习

今日，Hugging Face 宣布 OpenEnv 项目进一步开放，由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调，并获得 PyTorch Foundation、vLLM、SkyRL（UCB）等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具，定位为训练器与环境间的互操作层，标准化环境的发布、部署和消费，但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API（reset()、step()、state()），支持 HTTP、WebSocket、Docker 打包，并将 MCP 作为一等公民，使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证，以推动开源智能体 RL 基础建设。

智能体 Hugging Face MCP/工具 Meta

推荐理由：开源社区在 agent RL 环境上终于开始合流，Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准，不做奖励框架，只做插线板。搞开源 agent 训练的人，这是少有的统一基础设施的机会。

19:50

Hugging Face：Blog（RSS）

精选74

Pakistan Notice Helper：一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具，帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入，返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语，乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型（通过 llama.cpp + CUDA），在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B（质量高但成本高）和 MiniCPM-V 4.6 Q8（速度慢且不稳定），最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face 多模态教程/实践

推荐理由：一个只有4B的小模型，把巴基斯坦本地诈骗文案分析得明明白白，比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具，这才是AI落地的真节奏。

6月7日

18:50

Hugging Face：Blog（RSS）

精选70

Her · हेर - Claude Code 会话分析工具

Her（हेर）是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后，Her 用自然语言重建每轮交互，标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器，并结合 Anthropic 与社区最佳实践给出改进建议（仅在有明确可修复模式时）。内置“Ask Her”问答功能，支持单会话与跨会话项目分析。工具不调用第三方 AI API，使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行，评估引擎完全确定，模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库，自动识别会话中使用的工具，并对部署工具、数据库客户端等执行活动进行标记提醒。

智能体 Hugging Face 产品更新编码

推荐理由：每次 Claude Code 跑完都留下一堆 JSON，没人看。Her 用一个本地小模型帮你分析会话，钱花在哪、有没有危险操作一目了然，还不把数据传出去，是个务实的小工具。

13:34

MarkTechPost（RSS）

NVIDIA garak 教程：构建完整的防御性 LLM 红队工作流，支持自定义探针和检测器

NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流，包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率，审查被标记的输出，并通过自定义探针和检测器扩展 garak 功能，最后以 AVID 格式导出结构化漏洞报告。

Hugging Face 开源生态教程/实践

03:50

Hugging Face：Blog（RSS）

精选66

五个实验室，五个心智：用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型（gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B）驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包，而非模型本身。通过容忍性JSON解析层，添加模型只需一条配置。信息隔离确保内幕标志不在提示词中，扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价，真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器，可通过结构化、提示词和微调弥补。

智能体 Hugging Face 教程/实践

推荐理由：不是那种「我用 GPT 写了个游戏」的浅显分享，真在四个小模型上跑出了博弈感，里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Job Searcher

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

19:48

Hugging Face：Blog（RSS）

精选58

Persona Atlas：Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索，生成公众人物的资料、事实清单和风格假设，然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量，从而在向量空间中对不同人物进行距离比较，并基于十个特质锚点绘制热力图。前端采用 Gradio，提供研究、比较和检查代理完整追溯三个标签页，预设多个人物角色，无需 token 即可直接体验。

智能体 Hugging Face 开源/仓库

推荐理由：把苏格拉底和乔布斯放在一起比思维方式，这个实验更像智力玩具，但背后用小模型跑 agent 搜索做嵌入比较的流程，做角色扮演的人可以学研究方法。

06:47

Hugging Face：Blog（RSS）

精选74

用Qwen2.5-3B构建多智能体经济体：工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体，每个智能体独立运行，通过vLLM部署在Modal，以Gradio为交互窗口。3B模型在100%调用中输出有效JSON，但经济判断能力弱。通过设计稀缺性（食物品种限制、易腐坏、冬季燃料危机）和优化提示词（禁止买入自产物品、给出示例）提升决策质量。15轮模拟中，蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体 Hugging Face 教程/实践部署/工程

推荐理由：我觉得这是近期最诚实的小模型工程复盘，把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了，比看十篇论文有实操价值。

6月5日

23:47

HuggingFace Daily Papers（社区热门论文）

Code2LoRA：超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架，可生成仓库专属的 LoRA 适配器，在推理时零 token 开销注入仓库知识。它支持两种模式：Code2LoRA-Static 将单一仓库快照转为适配器，适合稳定代码库；Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器，适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中，Code2LoRA-Static 跨仓库 exact match 达 63.8%，仓库内达 66.2%，持平逐仓库 LoRA 上界；演化任务中，Code2LoRA-Evo 跨仓库 exact match 达 60.3%，比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXiv Hugging Face 开源生态编码

08:00

HuggingFace Daily Papers（社区热门论文）

PaperFlow：跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架：Profiling从异构冷启动证据构建维护结构化学术画像；Recommending在固定展示预算下通过多信号聚合排序每日论文流；Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准，包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录，并设计了盲人评估协议。实验对比五种基线，PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXiv Hugging Face 论文/研究

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

6月4日

23:42

Hugging Face：Blog（RSS）

精选66

Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI，使其同时服务人类用户和编码智能体（Claude Code、Codex 等）。CLI 通过环境变量自动检测智能体驱动，输出紧凑无截断的 TSV 格式，避免 ANSI 和交互提示，大幅降低 token 消耗。复杂多步任务中，不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起，Hugging Face 追踪 Hub 智能体流量，Claude Code 约 4 万用户、近 4900 万次请求，Codex 紧随其后。

Hugging Face MCP/工具产品更新编码

推荐理由：HF CLI 现在会自动检测 agent 并切换输出，复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub，这是必读的升级指南。

6月3日

22:41

Hugging Face：Blog（RSS）

为 Reachy Mini 添加 MCP 工具

Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具（如搜索、天气），并自动启用至当前 profile 的 tools.txt 中。内置工具（头部动作、跳舞、表情、摄像头等）仍为本地 Python 代码，远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用，不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力，便于发布、共享和迭代，无需修改应用本身。支持 install、list、remove 等子命令。

Hugging Face MCP/工具产品更新具身智能

21:41

Hugging Face：Blog（RSS）

精选55

DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR（结构化OCR模型）在巴西葡萄牙语文档提取任务中，使用直接偏好优化（DPO）作为监督微调（SFT）后的第二训练阶段。SFT无法直接惩罚文本退化（重复循环），而DPO以模型自身失败输出（退化循环）作为负样本进行偏好训练，使所有测试模型族的文本退化率平均降低59.4%，最高达87.6%（如Nanonets-OCR2-3B从1.61%降至0.20%）。传统DPO多用于聊天对齐，该工作将其扩展至客观的OCR任务，证明DPO可针对性修复特定失败模式。

Hugging Face 教程/实践数据/训练

推荐理由：DPO 不只能对齐，这篇直接用模型自身的垃圾输出当反例，把 OCR 的重复错误平均降了 59%。思路不复杂，但告诉做结构化生成的工程师：训练数据里最该保留的就是模型犯的错。

13:09

IT之家（RSS）

智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互（Rich Interaction）”。这是行业首个聚焦物理交互的开源具身数据集，系统记录机器人与真实物理世界之间复杂、高密度的交互过程，面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”，目前已在 Hugging Face 平台开放下载。

Hugging Face 具身智能开源/仓库数据/训练

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

20:40

HuggingFace Daily Papers（社区热门论文）

精选71

NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线，其在Annotated-gold数据集（41篇论文，72个标注任务）上与人工裁决的一致性（Krippendorff's alpha）达到0.606。基于此，研究构建了Annotated-llm数据集，涵盖ACL会议论文，从1603篇论文中提取了2667个标注任务。分析发现，论文常报告招募策略、标注者专长等操作细节，但经常遗漏评估标注效度所需的关键信息，如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡，并提出了一个可扩展的框架和最低报告标准。

arXiv Hugging Face 数据/训练论文/研究

推荐理由：NLP论文里的标注环节一直是个黑箱，这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍，值得每个做数据和评估的人细看。

19:34

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选61

蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型（总参约 1T，激活 63B）。它由 Ling-2.0-1T-base 升级而来，采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构，经约 9.6T token 的迁移预训练、持续预训练和中训练，上下文窗口从 4K 分阶段扩展至 256K。在 MMLU（86.82）、SimpleQA、LongBenchv2（43.54）等基准上超越前代。该模型仅供研究（继续预训练、微调、蒸馏等），不直接提供对话功能。

Hugging Face 开源生态推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K，对于研究长上下文和 MoE 的团队是个有价值的基座，但它是未对齐的预训练模型，不能直接当对话助手用。

5月29日

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face 教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

09:21

IT之家（RSS）

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体 Hugging Face 多模态模型发布

关联讨论 3 条

5月28日

17:47

公众号：通义实验室（千问）

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXiv Hugging Face 图像生成多模态

17:12

MarkTechPost（RSS）

Perplexity AI 开源 Unigram 分词器，实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低，同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face 开源/仓库部署/工程