6月30日

05:35

Hacker News 热门（buzzing.cc 中文翻译）

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列，包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%，Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口，MIT 许可证，全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体 Hugging Face 开源生态模型发布

6月28日

16:10

The Decoder：AI News（RSS）

精选70

新浪开源VibeThinker-3B：推理可压缩，事实知识不能

新浪发布仅3B参数的VibeThinker-3B，在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型，LiveCodeBench超越所有20B以下模型，LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B，经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

Hugging Face 开源生态推理模型发布

推荐理由：VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型，推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。

15:28

MarkTechPost（RSS）

在Colab中构建Fable 5 Traces工作流：解析工具调用、审计数据与训练基线

本教程使用Hugging Face上的Fable 5 Traces数据集，在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式，以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出，构建关键词搜索辅助，并训练纯Python朴素贝叶斯基线，评估trace上下文能否预测助手的输出类型与工具使用。

智能体 Hugging Face 教程/实践

13:07

MarkTechPost（RSS）

Liquid AI 发布 LFM2.5-230M 开源文本模型，支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 设备端推理

Liquid AI 推出 LFM2.5-230M，230M 参数开源文本模型，基于 LFM2 架构，开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理，内存占用 293–375 MB。Galaxy S25 Ultra 上达 213 tok/s，Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71，领先 Qwen3.5-0.8B（59.94）和 Gemma 3 1B IT（63.49）；CaseReportBench 临床数据提取得分 22.51。上下文窗口 32768 tokens，预训练于 19 万亿 tokens。专为数据提取和工具调用设计，不适用于数学推理、代码生成或创意写作。

Hugging Face 模型发布端侧

03:25

Hugging Face：Blog（RSS）

精选62

一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器，用于测试、评估或批量生成。使用 hf jobs run 命令，指定官方 vllm/vllm-openai 镜像、GPU flavor（如 a10g-large）、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问，每次请求需携带 HF token 作为 bearer token（仅限有读权限的用户）。示例部署了 Qwen/Qwen3-4B（多 GPU 需 --tensor-parallel-size）。a10g-large 价格为 $1.50/小时，按分钟计费，可通过 hf jobs cancel 停止。

Hugging Face 教程/实践部署/工程

推荐理由：这是一条命令在HF上启动vLLM的完整教程，适合快速测试模型的开发者，但方案完全绑定Hugging Face平台，通用性有限。

6月27日

08:05

MarkTechPost（RSS）

NVIDIA Open-SWE-Traces：构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集，解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹，标准化多轮对话，解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性，筛选高质量轨迹形成监督微调子集。

Hugging Face 教程/实践数据/训练编码

6月26日

15:59

IT之家（RSS）

高通与 Hugging Face 扩大合作，构建端到云 AI 开发生态

高通与 Hugging Face 宣布扩大合作，携手构建从端到云无缝衔接的 AI 开发生态。Hugging Face 的 AI 存储和推理服务将适配高通 Dragonfly“飞龙”数据中心解决方案。其生态中百万量级 AI 模型将通过智能体接入高通平台，加速在芯片终端与数据中心机架上的部署。Hugging Face 还向使用高通芯片的客户提供 PRO 专业版访问权限。双方计划共同支持分布式 AI 框架，使智能体在端、云平台之间灵活流转。

Hugging Face 开源生态端侧行业动态

00:16

Hugging Face：Blog（RSS）

精选65

OLMo Hybrid vs Transformer：混合模型在实义词上优势明显，但重复短语上几无优势

通过对比7B参数的OLMo 3（Transformer）与OLMo Hybrid（混合架构），实验发现混合模型在大多数token上预测损失更低：对名词、动词、形容词等实义词优势明显（loss gap约0.04），功能词上gap约0.02，且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号（如}）上，混合模型的优势几乎消失，Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face 开源生态推理论文/研究

推荐理由：OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里，优势在名词动词等意义词，但在重复 token 上接近消失，这份洞察对做模型架构的人很有启发性。

6月25日

00:15

Hugging Face：Blog（RSS）

精选61

FFASR 排行榜发布：真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR（Far-Field ASR）排行榜，这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据，涵盖 14 种房间（20–470 m³）和三个信噪比级别（远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB），加上近场干燥条件，共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率（WER）和实时因子（RTFx，在 NVIDIA L4 GPU 上评估）。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face 评测/基准语音

推荐理由：远场语音的‘实验室-生产’性能差终于有了量化指标，这个排行榜把 ASR 的真实世界鲁棒性公开化，做语音产品的团队该看看。

6月24日

23:29

Hacker News 热门（buzzing.cc 中文翻译）

Krea 2 技术报告

Krea 2 是一系列基础模型，兼顾审美多样性与创意控制。采用扩散 Transformer（DiT）架构，集成 iREPA、改进 VAE 和 Qwen3-VL，通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统，支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十，独立实验室模型中排名第二。

Hugging Face 图像生成多模态开源生态

关联讨论 1 条

12:42

IT之家（RSS）

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日，阿里巴巴千问发布 Qwen-AgentWorld，首个原生语言世界模型，提供 35B-A3B 与 397B-A17B 两种规模，单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹，经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源，可从 Hugging Face 和 ModelScope 获取。

智能体 Hugging Face 模型发布

11:55

HuggingFace Daily Papers（社区热门论文）

EDV：逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时，单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功，导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段：多异构智能体并行探索产生多样化轨迹；第三方智能体对比分析减少归纳偏差；执行组通过共识机制验证候选经验，仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上，EDV 持续超越强基线，验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体 Hugging Face 开源/仓库论文/研究

11:54

Qwen：Blog Retrieval（API）

精选81

Qwen-AgentWorld：面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld，一个以环境建模为训练目标的原生语言世界模型，在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域（Web、OS、Android）共七个域。模型使用超 1000 万条真实交互轨迹训练，在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量，超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练，也可作为统一智能体基础模型，经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体 arXiv Hugging Face MCP/工具

关联讨论 5 条

推荐理由：Qwen把世界模型做成了一个可开源的通用产品，覆盖七域，做agent RL的可以直接拿它仿真训练，可控性甚至超过真实环境，做agent的团队应该认真看看。

10:49

HuggingFace Daily Papers（社区热门论文）

OpenThoughts-Agent：开源数据流水线训练智能体模型

OpenThoughts-Agent（OT-Agent）项目提出一套完全开源的数据 curation 流水线，专门用于训练智能体模型。研究团队通过 100 余项对照消融实验，系统探索了任务来源与多样性的影响，并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后，模型在 7 项智能体基准测试中平均准确率为 44.8%，比现有最强的开源数据智能体模型 Nemotron-Terminal-32B（40.9%）高 3.9 个百分点。训练数据展现出强扩展性，同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体 Hugging Face 开源生态数据/训练

03:37

MarkTechPost（RSS）

Datalab 发布 lift：9B 开放权重视觉模型，依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift，用于结构化提取。输入 JSON Schema，返回匹配的 JSON 对象，可直接读取 PDF 和图像，支持多页文档一次性处理并跨页取值。提供本地（HuggingFace）和远程（vLLM）两种推理模式，后者推荐用于生产。代码采用 Apache 2.0，权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%，中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding，逐 token 约束输出结构但不保证语义正确；每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face 多模态开源生态模型发布

02:26

Hugging Face：Blog（RSS）

精选64

在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：这个Chrome提案让不同网站的AI模型共享缓存，对用Transformers.js的Web开发者是切实的性能改进，但还只是早期实验。

6月23日

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

15:13

HuggingFace Daily Papers（社区热门论文）

精选75

HAKARI-Bench：统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准，将现有检索套件重建为小型数据集（Nano-sets），涵盖 35 个基准、551 个任务和 43 种语言，采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体（降维、量化等）在同一条件下对比。在 55 个模型上，整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR（完整版）的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测，而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face 检索增强论文/研究

推荐理由：有了这个轻量级基准，做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置，而且排名与完整评测高度一致，是工程选型的高性价比工具。

08:01

Simon Willison 博客

Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行

Moebius 0.2B轻量级图像修补模型（自称10B级性能）原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式，通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域，点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face，前端代码托管于GitHub Pages并启用自动部署。整个移植过程（含环境准备、模型转换、UI构建、部署）在Claude Code辅助下完成，作者还使用Claude.ai进行可行性调研。

Hugging Face 教程/实践端侧编码

6月22日

22:11

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face 多模态模型发布部署/工程

推荐理由：OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

6月20日

08:00

HuggingFace Daily Papers（社区热门论文）

BioMatrix：首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构，通过统一token化方案将分子序列（SMILES/SELFIES）、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间，所有模态均以下一个token预测目标生成。模型基于Qwen3（1.7B和4B），在3044亿tokens上预训练。在80项下游任务中，BioMatrix在77项上达到最优或竞争力水平。

Hugging Face 多模态数据/训练论文/研究

6月19日

18:51

MarkTechPost（RSS）

Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型：稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base，通过将因果注意力改为双向注意力实现双向编码，支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上，ColBERT 版 NDCG@10 为 0.605，Embedding 版为 0.577，均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens，文档调优至 512 tokens。提供 GGUF 格式，MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face 检索增强搜索模型发布

10:56

MarkTechPost（RSS）

精选75

Salesforce CodeGen教程：生成、验证并重排序Python函数（含单元测试与安全检查）

本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型（支持350M、2B、codegen2-1B、codegen25-7b等版本），通过自然语言提示生成Python函数，随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力，不仅完成代码补全，还能评估、筛选和组织生成结果。

Hugging Face 开源生态教程/实践编码

推荐理由：这篇教程把CodeGen从单纯补全变成一个带安全检查、单元测试和候选重排序的工程化代码生成管道，读完能直接套用到日常写代码里，对想落地的开发者非常友好。

10:47

HuggingFace Daily Papers（社区热门论文）

FreeStyle：基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像，保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架，将LoRA作为风格与内容的组合锚点，通过生成-过滤流程构建大规模三元组数据。针对内容泄漏，采用两阶段课程学习：注意力级增强约束抑制风格参考泄漏，频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

Hugging Face 图像生成开源生态论文/研究

6月18日

23:47

Hugging Face：Blog（RSS）

精选70

超越 LoRA：如何选择最佳参数高效微调技术？

参数高效微调（PEFT）技术中，LoRA 占据绝对主导：Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA（98.4%）；外部站点 10,000 个检查点中 95.0% 是 LoRA；GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术，并开始建立基准测试：在数学数据集上对 LLM 进行思维链推理微调，以帮助用户做出更优选择。

Hugging Face 教程/实践数据/训练

推荐理由：HuggingFace 的 PEFT 团队用公平基准把 LoRA 拉下神坛，图像生成任务上 OFT 表现更好，而且切换只需改一行配置。对微调选型有实打实的参考价值，但数据集有限，别全信。

21:47

Hugging Face：Blog（RSS）

精选74

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌，做 agent 工具链的人应该马上看这个标杆。

11:43

HuggingFace Daily Papers（社区热门论文）

精选74

Sumi：从头训练的7B开源均匀扩散语言模型

Sumi（日语“墨”）是一个完全开源的7B参数均匀扩散语言模型，从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当，但在常识推理benchmark上略逊，教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方（含公开语料数据混合说明），为社区提供首个大规模均匀扩散模型的基准参考。

arXiv Hugging Face 开源生态数据/训练

推荐理由：Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型，填补了社区在这方向的研究空白，做扩散语言模型的人终于有个可以摸的起点。

11:14

Hacker News 热门（buzzing.cc 中文翻译）

精选70

cuTile Rust：安全无数据竞争的 GPU 内核系统

cuTile Rust 是一个基于 tile 的 GPU 编程系统，允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制，在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割，不可变张量共享，启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上，逐元素操作达 7 TB/s（约 91% 峰值带宽），GEMM 达 2 PFlop/s（约 92% 密集 f16 峰值）。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s，在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。

arXiv Hugging Face 开源/仓库开源生态

推荐理由：用Rust的所有权模型保证GPU内核无数据竞争，性能还能达到峰值的92%，这个方向可能是安全GPU编程的未来，系统编程和推理引擎开发者值得一试。

08:00

HuggingFace Daily Papers（社区热门论文）

StylisticBias：少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型（MLLM）属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸，每张创建约50个单属性变体，共约25K图像，通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中，年龄和体型主导身份层面效应，时尚风格等视觉线索引发最大属性层面偏移；约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXiv Hugging Face 安全/对齐论文/研究

00:43

Hugging Face：Blog（RSS）

ARD 规范发布：让智能体搜索工具、技能与其他智能体

微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API（POST /search），使智能体运行时通过自然语言搜索发现能力，无需预装。Hugging Face 推出参考实现 Discover Tool，集成 Hub 语义搜索与 Agent Skills，覆盖数千个 Skills、ML 应用和 MCP 服务器；支持 CLI（hf discover search）、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。

Hugging Face MCP/工具产品更新开源生态

关联讨论 1 条

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face 具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。