6月28日

03:25

Hugging Face：Blog（RSS）

精选62

HuggingFace Jobs 支持一条命令启动 vLLM 服务器，用于测试、评估或批量生成。使用 hf jobs run 命令，指定官方 vllm/vllm-openai 镜像、GPU flavor（如 a10g-large）、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问，每次请求需携带 HF token 作为 bearer token（仅限有读权限的用户）。示例部署了 Qwen/Qwen3-4B（多 GPU 需 --tensor-parallel-size）。a10g-large 价格为 $1.50/小时，按分钟计费，可通过 hf jobs cancel 停止。

Hugging Face 教程/实践部署/工程

推荐理由：这是一条命令在HF上启动vLLM的完整教程，适合快速测试模型的开发者，但方案完全绑定Hugging Face平台，通用性有限。

6月26日

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

6月25日

00:15

Hugging Face：Blog（RSS）

精选61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20–470 m³）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face 评测/基准语音

推荐理由：远场语音的‘实验室-生产’性能差终于有了量化指标，这个排行榜把 ASR 的真实世界鲁棒性公开化，做语音产品的团队该看看。

6月24日

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 5 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

02:26

Hugging Face：Blog（RSS）

精选64

在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：这个Chrome提案让不同网站的AI模型共享缓存，对用Transformers.js的Web开发者是切实的性能改进，但还只是早期实验。

6月23日

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

6月22日

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

6月18日

23:47

Hugging Face：Blog（RSS）

精选70

超越 LoRA：如何选择最佳参数高效微调技术？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA（98.4%）；外部站点 10,000 个检查点中 95.0% 是 LoRA；GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

Hugging Face 教程/实践数据/训练

推荐理由：HuggingFace 的 PEFT 团队用公平基准把 LoRA 拉下神坛，图像生成任务上 OFT 表现更好，而且切换只需改一行配置。对微调选型有实打实的参考价值，但数据集有限，别全信。

21:47

Hugging Face：Blog（RSS）

精选74

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌，做 agent 工具链的人应该马上看这个标杆。

00:43

Hugging Face：Blog（RSS）

ARD 规范发布：让智能体搜索工具、技能与其他智能体

微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API（POST /search），使智能体运行时通过自然语言搜索发现能力，无需预装。Hugging Face 推出参考实现 Discover Tool，集成 Hub 语义搜索与 Agent Skills，覆盖数千个 Skills、ML 应用和 MCP 服务器；支持 CLI（hf discover search）、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。

Hugging Face MCP/工具产品更新开源生态

关联讨论 1 条

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face 具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。

09:20

公众号：智谱（GLM）

GLM-5.2上线并开源：专注Coding与长程任务

智谱今日发布并开源GLM-5.2，在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计，实现1M无损上下文，支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%，超过GPT-5.5（1%）和Opus 4.7（11%）；Terminal-Bench 2.1上比Opus 4.8低4%，较GLM-5.1提升17.5%。引入思考档位控制，Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍，改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源，API已上线并纳入GLM Coding Plan。

智能体 Hugging Face 模型发布编码

关联讨论 10 条

6月16日

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

01:25

LMSYS：Blog（Chatbot Arena 团队）

精选67

下一代投机解码：DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token，在 Qwen 3.5 397B-A17B（BF16）的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face 推理模型发布部署/工程

推荐理由：DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐，再加上 SGLang Spec V2 引擎优化，推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人，可以直接用这个组合试试。

6月13日

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

精选62

inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型，输入截图与自然语言指令，输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上，SSPro 得分 64.2（相比 GRPO-4B 提升 2.0），SSV2 得分 93.8（下降 0.4），OSWorld-G 得分 61.2（提升 1.3），OSWorld-G-R 得分 69.7（提升 0.5）。模型已开源在 HuggingFace，推荐使用提示词并返回 [x,y] 格式坐标。

智能体 Hugging Face 多模态模型发布

推荐理由：蚂蚁 inclusionAI 开源了一款 GUI 定位模型，基于 Qwen3.5 微调，在接地基准上小幅提升，关键是提供了自验证训练方法，做桌面自动化的可以直接下载用。

13:17

蚂蚁 inclusionAI：HuggingFace 新模型

inclusionAI/VISTA-9B：基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型，输入截图与自然语言指令，输出0-1000归一化坐标。采用VISTA（视图一致自验证）方法，含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分，超越Qwen3.5-9B与GRPO-9B基线。模型已开源，可通过HuggingFace加载使用。

智能体 Hugging Face 多模态模型发布

00:00

Hugging Face：Blog（RSS）

精选74

olmo-eval：面向模型开发循环的评估工作台

olmo-eval 是基于 OLMES 标准构建的评估工作台，专为 LLM 持续开发中的反复评测场景设计。相比 OLMES，它减少了新增评测的实现工作量，支持 agentic 和多轮评测作为一等用例，并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构，模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同，olmo-eval 聚焦开发阶段快速迭代，可逐问题对比检查点输出以区分真实改进与噪声。

Hugging Face 产品更新开源生态评测/基准

推荐理由：做模型训练的人会感谢这个工具，它把评估从一次性打分变成能持续对比的流程，按题对比两个 checkpoint 的功能很实用，但如果你不训模型，这篇可以跳过。

6月11日

18:59

Hugging Face：Blog（RSS）

PyTorch 剖析系列（二）：从 nn.Linear 到融合 MLP

本部分将手写 matmul-add 对替换为 nn.Linear（bias=True），堆叠三层 Linear 与激活函数构成多层感知机（MLP）块，在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm，将 bias 加法作为 epilogue 融合进矩阵乘法核，避免额外 HBM 访问；transpose 操作（aten::t）仅改写 CPU 端张量元数据（shape 和 stride），不启动 GPU 核。

Hugging Face 教程/实践部署/工程

6月10日

05:55

Hugging Face：Blog（RSS）

精选74

将 GitHub CI 迁移到 Hugging Face Jobs

本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行，以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接，将 GitHub Actions 的 job 转为临时自托管运行器：GitHub App 监听 workflow_job.queued webhook，dispatcher Space 验证后启动对应硬件（CPU 或 t4-small、h200 等 GPU）的 HF Job，由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地，CPU 作业时间减少约 30%，并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。

Hugging Face 教程/实践部署/工程

推荐理由：HF 直接把 CI 桥接器开源了出来，教你把 GitHub Actions 迁到 HF Jobs 上跑 GPU 测试，ML 项目终于可以低成本配上显卡 CI，步骤清晰到能直接抄作业。

03:55

Hugging Face：Blog（RSS）

精选67

Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言，基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统，包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现：代码切换的转录成本因语言对和模型而异；ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face 评测/基准语音

推荐理由：如果你在给多语言客户做语音Agent，这篇博客直接把主流ASR的code-switching能力测了一遍，ElevenLabs Scribe V2目前最强，还开源了数据集，拿来就能测自己的模型。

6月9日

19:55

Hugging Face：Blog（RSS）

精选76

一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space，从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像，再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点（.ply），自动完成坐标系校正、取景、压缩为.ksplat（体积缩小约3倍），并构建基于Three.js的滚动切换、拖拽旋转查看器，最终部署为静态Space。整个过程无需客户端库，每个Space通过agents.md暴露可调用API。

智能体 Hugging Face MCP/工具多模态

推荐理由：Hugging Face 把 agents.md 做成每个 Space 的标准说明书，agent 能直接读懂并链式调用图像和 3D 模型，这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了，做 AI 工具链的可以立刻照着试。

17:55

Hugging Face：Blog（RSS）

精选68

NeuroBait：微调AI助手，为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手，旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA（r=16, alpha=16）在Unsloth上训练3个epoch，学习率2e-4，最大序列长度2048，使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space（ZeroGPU），使用Gradio和标准transformers+peft，运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单，而是根据用户上下文给出3-6句温暖流畅的回复，引导用户找到一件微小可立即执行的动作，从而激发多巴胺、降低启动阻力。

Hugging Face 教程/实践数据/训练

推荐理由：对ADHD群体来说，这是一次真正从需求出发的AI尝试。它不做计划列表，而是用一个温暖的动感火花打破僵局，让AI从理论走向陪伴。如果你或身边人容易'卡住'，可以试试这个Space。

6月8日

21:50

Hugging Face：Blog（RSS）

精选62

开源社区支持 OpenEnv 用于智能体强化学习

今日，Hugging Face 宣布 OpenEnv 项目进一步开放，由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调，并获得 PyTorch Foundation、vLLM、SkyRL（UCB）等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具，定位为训练器与环境间的互操作层，标准化环境的发布、部署和消费，但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API（reset()、step()、state()），支持 HTTP、WebSocket、Docker 打包，并将 MCP 作为一等公民，使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证，以推动开源智能体 RL 基础建设。

智能体 Hugging Face MCP/工具 Meta

推荐理由：开源社区在 agent RL 环境上终于开始合流，Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准，不做奖励框架，只做插线板。搞开源 agent 训练的人，这是少有的统一基础设施的机会。

19:50

Hugging Face：Blog（RSS）

精选74

Pakistan Notice Helper：一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具，帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入，返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语，乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型（通过 llama.cpp + CUDA），在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B（质量高但成本高）和 MiniCPM-V 4.6 Q8（速度慢且不稳定），最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face 多模态教程/实践

推荐理由：一个只有4B的小模型，把巴基斯坦本地诈骗文案分析得明明白白，比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具，这才是AI落地的真节奏。

6月7日

18:50

Hugging Face：Blog（RSS）

精选70

Her · हेर - Claude Code 会话分析工具

Her（हेर）是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后，Her 用自然语言重建每轮交互，标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器，并结合 Anthropic 与社区最佳实践给出改进建议（仅在有明确可修复模式时）。内置“Ask Her”问答功能，支持单会话与跨会话项目分析。工具不调用第三方 AI API，使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行，评估引擎完全确定，模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库，自动识别会话中使用的工具，并对部署工具、数据库客户端等执行活动进行标记提醒。

智能体 Hugging Face 产品更新编码

推荐理由：每次 Claude Code 跑完都留下一堆 JSON，没人看。Her 用一个本地小模型帮你分析会话，钱花在哪、有没有危险操作一目了然，还不把数据传出去，是个务实的小工具。

03:50

Hugging Face：Blog（RSS）

精选66

五个实验室，五个心智：用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型（gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B）驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包，而非模型本身。通过容忍性JSON解析层，添加模型只需一条配置。信息隔离确保内幕标志不在提示词中，扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价，真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器，可通过结构化、提示词和微调弥补。

智能体 Hugging Face 教程/实践

推荐理由：不是那种「我用 GPT 写了个游戏」的浅显分享，真在四个小模型上跑出了博弈感，里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。

6月6日

23:48

Hugging Face：Blog（RSS）

精选65

Job Searcher

Hugging Face 发布 Job Searcher，一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后，系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询，通过 JobSpy 抓取职位，再对学生模型 Qwen3-8B（8B 参数）进行 LoRA 微调，对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space，使用 llama.cpp 实现流式输出。项目开源。

智能体 Hugging Face 教程/实践数据/训练

推荐理由：这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上，做模型定制和部署的开发者能直接抄作业，尤其是推理部署踩的坑（ZeroGPU 上下文重用）很实用。

19:48

Hugging Face：Blog（RSS）

精选58

Persona Atlas：Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索，生成公众人物的资料、事实清单和风格假设，然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量，从而在向量空间中对不同人物进行距离比较，并基于十个特质锚点绘制热力图。前端采用 Gradio，提供研究、比较和检查代理完整追溯三个标签页，预设多个人物角色，无需 token 即可直接体验。

智能体 Hugging Face 开源/仓库

推荐理由：把苏格拉底和乔布斯放在一起比思维方式，这个实验更像智力玩具，但背后用小模型跑 agent 搜索做嵌入比较的流程，做角色扮演的人可以学研究方法。

06:47

Hugging Face：Blog（RSS）

精选74

用Qwen2.5-3B构建多智能体经济体：工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体，每个智能体独立运行，通过vLLM部署在Modal，以Gradio为交互窗口。3B模型在100%调用中输出有效JSON，但经济判断能力弱。通过设计稀缺性（食物品种限制、易腐坏、冬季燃料危机）和优化提示词（禁止买入自产物品、给出示例）提升决策质量。15轮模拟中，蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体 Hugging Face 教程/实践部署/工程

推荐理由：我觉得这是近期最诚实的小模型工程复盘，把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了，比看十篇论文有实操价值。

6月5日

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

6月4日

23:42

Hugging Face：Blog（RSS）

精选66

Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI，使其同时服务人类用户和编码智能体（Claude Code、Codex 等）。CLI 通过环境变量自动检测智能体驱动，输出紧凑无截断的 TSV 格式，避免 ANSI 和交互提示，大幅降低 token 消耗。复杂多步任务中，不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起，Hugging Face 追踪 Hub 智能体流量，Claude Code 约 4 万用户、近 4900 万次请求，Codex 紧随其后。

Hugging Face MCP/工具产品更新编码

推荐理由：HF CLI 现在会自动检测 agent 并切换输出，复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub，这是必读的升级指南。

6月3日

22:41

Hugging Face：Blog（RSS）

为 Reachy Mini 添加 MCP 工具

Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具（如搜索、天气），并自动启用至当前 profile 的 tools.txt 中。内置工具（头部动作、跳舞、表情、摄像头等）仍为本地 Python 代码，远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用，不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力，便于发布、共享和迭代，无需修改应用本身。支持 install、list、remove 等子命令。

Hugging Face MCP/工具产品更新具身智能

21:41

Hugging Face：Blog（RSS）

精选55

DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR（结构化OCR模型）在巴西葡萄牙语文档提取任务中，使用直接偏好优化（DPO）作为监督微调（SFT）后的第二训练阶段。SFT无法直接惩罚文本退化（重复循环），而DPO以模型自身失败输出（退化循环）作为负样本进行偏好训练，使所有测试模型族的文本退化率平均降低59.4%，最高达87.6%（如Nanonets-OCR2-3B从1.61%降至0.20%）。传统DPO多用于聊天对齐，该工作将其扩展至客观的OCR任务，证明DPO可针对性修复特定失败模式。

Hugging Face 教程/实践数据/训练

推荐理由：DPO 不只能对齐，这篇直接用模型自身的垃圾输出当反例，把 OCR 的重复错误平均降了 59%。思路不复杂，但告诉做结构化生成的工程师：训练数据里最该保留的就是模型犯的错。

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

19:34

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选61

蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型（总参约 1T，激活 63B）。它由 Ling-2.0-1T-base 升级而来，采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构，经约 9.6T token 的迁移预训练、持续预训练和中训练，上下文窗口从 4K 分阶段扩展至 256K。在 MMLU（86.82）、SimpleQA、LongBenchv2（43.54）等基准上超越前代。该模型仅供研究（继续预训练、微调、蒸馏等），不直接提供对话功能。

Hugging Face 开源生态推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K，对于研究长上下文和 MoE 的团队是个有价值的基座，但它是未对齐的预训练模型，不能直接当对话助手用。

5月29日

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face 教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

5月28日

17:47

公众号：通义实验室（千问）

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXiv Hugging Face 图像生成多模态