AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Hugging Face」清除
7月1日周三
02:36AK49Claude Code 与 hf-claude 的 open-fusion
00:36AK40Ornith-1.0-35B 现可于 Claude Code 使用
6月30日周二
05:35Hacker News 热门(buzzing.cc 中文翻译)61Ornith-1.0:用于代理编码的自改进开源模型
6月29日周一
23:57SenseTime35商汤 SenseNova-U1-8B-MoT 可生成高质量信息图
03:03AK46百度Unlimited-OCR登顶HuggingFace模型榜
6月28日周日
22:56Nathan Lambert59前沿模型"氛围监管"酿成真实可怕后果
16:10The Decoder:AI News(RSS)70精选新浪开源VibeThinker-3B:推理可压缩,事实知识不能
15:28MarkTechPost(RSS)63在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线
13:07MarkTechPost(RSS)65Liquid AI 发布 LFM2.5-230M 开源文本模型,支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 设备端推理
03:25Hugging Face:Blog(RSS)62精选一条命令在HF Jobs上启动vLLM服务器
6月27日周六
21:59AK56hf-claude 为 Claude Code 引入超百款开源模型
08:05MarkTechPost(RSS)67NVIDIA Open-SWE-Traces:构建监督微调数据--轨迹解析、补丁分析与 token 预算
6月26日周五
23:56AK40ViQ:任意分辨率文本对齐视觉量化
22:58SenseTime60商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集
15:59IT之家(RSS)48高通与 Hugging Face 扩大合作,构建端到云 AI 开发生态
12:43MiniMax (official)44MiniMax M3 现支持 NVFP4 格式
01:55AK41hf-claude中glm5.2为Ornith-1.0-9B构建Gradio应用
00:16Hugging Face:Blog(RSS)65精选OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势
6月25日周四
11:22AK38GLM 5.2 超300次请求仅34美元
10:18Berryxia.AI74PaddleOCR PP-OCRv6 上架 HuggingFace
07:22AK11glm-5.2 为 Krea-2-Turbo 开发 Gradio 工作流
00:15Hugging Face:Blog(RSS)61精选FFASR 排行榜发布:真实远场条件下 ASR 评测
6月24日周三
23:29Hacker News 热门(buzzing.cc 中文翻译)78Krea 2 技术报告
12:42IT之家(RSS)66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld
11:55HuggingFace Daily Papers(社区热门论文)49EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
10:49HuggingFace Daily Papers(社区热门论文)61OpenThoughts-Agent:开源数据流水线训练智能体模型
09:19AK42hf-claude 与 GLM 5.2 兼容良好
03:37MarkTechPost(RSS)68Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON
03:21Hao AI Lab73精选FastWan-QAD:单卡5090上1.8秒生成5秒视频
02:26Hugging Face:Blog(RSS)64精选在 Transformers.js 中实验提议的跨源存储 API
6月23日周二
18:11Baidu Inc.71百度开源Unlimited OCR:3B总参数、500M激活,单次前向传播可转录40+页
16:12Hugging Face:Blog(RSS)59精选我们用免费本地模型对 OpenClaw 仓库进行实时分类
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
15:13HuggingFace Daily Papers(社区热门论文)75精选HAKARI-Bench:统一条件下比较检索架构与效率设置的轻量级基准
08:01Simon Willison 博客60Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行
01:12Berryxia.AI66百度开源Unlimited-OCR:可一次性处理数百页文档
6月22日周一
23:42SenseTime50商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力
22:11Hugging Face:Blog(RSS)69精选PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
02:36Rohan Paul57LOCALUS-v1 美国法律数据集发布
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
02:36
AK@_akhaliq
49
在 Claude Code 中使用 hf-claude 进行 open-fusion。
AnthropicHugging Face开源/仓库编码
00:36
AK@_akhaliq
40
Ornith-1.0-35B 现在可以通过 hf-claude 在 Claude Code 中使用。
Hugging Face产品更新编码
6月30日
05:35
Hacker News 热门(buzzing.cc 中文翻译)
61
Ornith-1.0:用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体Hugging Face开源生态模型发布
6月29日
23:57
SenseTime@SenseTime_AI
35
商汤 SenseNova-U1-8B-MoT 可生成高质量信息图

商汤推出 SenseNova-U1-8B-MoT-Infographic 模型,能够生成工作室级别的高密度信息图,此前这类工作流程缓慢且昂贵。YouTuber CAPITAL R 制作了演示视频,模型已在 HuggingFace 上线,GitHub 页面展示示例图片,并开放 Discord 社区。

GitHubHugging Face图像生成模型发布
03:03
AK@_akhaliq
46
baidu/Unlimited-OCR 现在在 HuggingFace 上排名第一
Hugging Face开源生态行业动态
6月28日
22:56
Nathan Lambert@natolambert
59
这是真实的,也是前沿模型氛围监管的可怕后果。

clem 🤗: Getting regulated by a government because your model is "too dangerous" is the best marketing (especially for enterprise...

Hugging Face大佬观点安全/对齐政策/监管
16:10
The Decoder:AI News(RSS)
精选70
新浪开源VibeThinker-3B:推理可压缩,事实知识不能

新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。

Hugging Face开源生态推理模型发布

推荐理由:VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型,推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。
15:28
MarkTechPost(RSS)
63
在Colab中构建Fable 5 Traces工作流:解析工具调用、审计数据与训练基线

本教程使用Hugging Face上的Fable 5 Traces数据集,在Google Colab中搭建轻量环境并手动下载JSONL文件。流程包括预览原始agent trace示例、规范化工具调用与文本输出、审计数据结构、检测密钥模式,以及可视化输出类型、工具、源根目录和文本长度等分布。还创建了安全的no-CoT聊天/SFT导出,构建关键词搜索辅助,并训练纯Python朴素贝叶斯基线,评估trace上下文能否预测助手的输出类型与工具使用。

智能体Hugging Face教程/实践
13:07
MarkTechPost(RSS)
65
Liquid AI 发布 LFM2.5-230M 开源文本模型,支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 设备端推理

Liquid AI 推出 LFM2.5-230M,230M 参数开源文本模型,基于 LFM2 架构,开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理,内存占用 293–375 MB。Galaxy S25 Ultra 上达 213 tok/s,Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71,领先 Qwen3.5-0.8B(59.94)和 Gemma 3 1B IT(63.49);CaseReportBench 临床数据提取得分 22.51。上下文窗口 32768 tokens,预训练于 19 万亿 tokens。专为数据提取和工具调用设计,不适用于数学推理、代码生成或创意写作。

Hugging Face模型发布端侧
03:25
Hugging Face:Blog(RSS)
精选62
一条命令在HF Jobs上启动vLLM服务器

HuggingFace Jobs 支持一条命令启动 vLLM 服务器,用于测试、评估或批量生成。使用 hf jobs run 命令,指定官方 vllm/vllm-openai 镜像、GPU flavor(如 a10g-large)、暴露端口 8000 并设置超时。服务器启动后可通过 OpenAI 兼容 API 访问,每次请求需携带 HF token 作为 bearer token(仅限有读权限的用户)。示例部署了 Qwen/Qwen3-4B(多 GPU 需 --tensor-parallel-size)。a10g-large 价格为 $1.50/小时,按分钟计费,可通过 hf jobs cancel 停止。

Hugging Face教程/实践部署/工程

推荐理由:这是一条命令在HF上启动vLLM的完整教程,适合快速测试模型的开发者,但方案完全绑定Hugging Face平台,通用性有限。
6月27日
21:59
AK@_akhaliq
56
hf-claude 让你在 Claude Code 中使用超过 100 个开源模型,包括 GLM 5.2、MiniMax-M3、DeepSeek V4 Pro。
Hugging Face产品更新编码
08:05
MarkTechPost(RSS)
67
NVIDIA Open-SWE-Traces:构建监督微调数据--轨迹解析、补丁分析与 token 预算

本文介绍如何从 Hugging Face 流式加载 nvidia/Open-SWE-Traces 数据集,解析 openhands、sweagent 等智能体与 minimax_m25、qwen35_122b 模型的轨迹,标准化多轮对话,解析最终代码补丁并统计新增/删除行数、文件扩展名分布。构建分析 DataFrame 考察轨迹长度、工具调用、补丁规模、语言分布及解决结果。基于成功标签、MAX_SFT_TOKENS=32000 的 token 限制、语言过滤和补丁可用性,筛选高质量轨迹形成监督微调子集。

Hugging Face教程/实践数据/训练编码
6月26日
23:56
AK@_akhaliq
40
ViQ 文本对齐的视觉量化表示,支持任意分辨率。
Hugging Face图像生成多模态论文/研究
22:58
SenseTime@SenseTime_AI
60
商汤 SenseNova U1 完整训练代码开源并发布 smoke-test 数据集

商汤开源 SenseNova U1 完整训练代码,提供可检查、可修改、可重建的完整训练栈。同步发布 smoke-test 数据集,覆盖 t2i、it2i、多图输入、交错生成、多模态理解、视频理解、纯语言续写 7 种任务类型。用户可基于该 schema 用自有数据微调 U1,或验证数据格式及端到端测试 pipeline。数据集已上架 HuggingFace,代码托管于 GitHub。

GitHubHugging Face开源/仓库数据/训练
15:59
IT之家(RSS)
48
高通与 Hugging Face 扩大合作,构建端到云 AI 开发生态

高通与 Hugging Face 宣布扩大合作,携手构建从端到云无缝衔接的 AI 开发生态。Hugging Face 的 AI 存储和推理服务将适配高通 Dragonfly“飞龙”数据中心解决方案。其生态中百万量级 AI 模型将通过智能体接入高通平台,加速在芯片终端与数据中心机架上的部署。Hugging Face 还向使用高通芯片的客户提供 PRO 专业版访问权限。双方计划共同支持分布式 AI 框架,使智能体在端、云平台之间灵活流转。

Hugging Face开源生态端侧行业动态
12:43
MiniMax (official)@MiniMax_AI
44
开源权重生态的更多好选择。感谢 @NVIDIAAI 使 MiniMax M3 可在 NVFP4 中使用。

NVIDIA AI: @QuantCapitalX @MiniMax_AI https://huggingface.co/nvidia/MiniMax-M3-NVFP4

Hugging Face开源/仓库开源生态部署/工程
01:55
AK@_akhaliq
41
在 hf-claude 中使用 glm 5.2 为 Ornith-1.0-9B 构建 Gradio 服务器应用。
Hugging Face教程/实践部署/工程
00:16
Hugging Face:Blog(RSS)
精选65
OLMo Hybrid vs Transformer:混合模型在实义词上优势明显,但重复短语上几无优势

通过对比7B参数的OLMo 3(Transformer)与OLMo Hybrid(混合架构),实验发现混合模型在大多数token上预测损失更低:对名词、动词、形容词等实义词优势明显(loss gap约0.04),功能词上gap约0.02,且在需上下文推理的代词指代上更好。但在重复出现的n-gram和闭合括号(如})上,混合模型的优势几乎消失,Transformer凭借注意力机制更擅长从输入中直接检索精确信息。

Hugging Face开源生态推理论文/研究

推荐理由:OLMo 团队的 token 级别分析让人看清混合模型到底强在哪里,优势在名词动词等意义词,但在重复 token 上接近消失,这份洞察对做模型架构的人很有启发性。
6月25日
11:22
AK@_akhaliq
38
通过 HF 推理提供商的 hf-claude,超过 300 次 GLM 5.2 请求仅花费 34 美元。
Hugging Face其他部署/工程
10:18
Berryxia.AI@berryxia
74
PaddleOCR PP-OCRv6 上架 HuggingFace

PaddleOCR 的 PP-OCRv6(对应 PaddleOCR 3.7)正式上线 HuggingFace,精度进一步提升,并新增 transformers 和 ONNX Runtime 两个推理后端。用户可通过统一 API 在不同后端之间无缝切换,无需大幅修改代码。PP-OCRv6 是工业界广泛使用的开源 OCR 方案,此次上架 HF 并支持多后端,降低了工程接入门槛,尤其利好希望在 transformers 生态中直接使用高性能 OCR 的开发者。

Cheng Cui: PP-OCRv6 is now on @HuggingFace! 🎉 Not just better accuracy- PaddleOCR 3.7 also adds transformers & ONNX Runtime backen...

Hugging Face产品更新多模态开源生态
07:22
AK@_akhaliq
11
glm-5.2 在 hf-claude 中,正在为 Krea-2-Turbo 开发一个 gradio 工作流。
Hugging Face其他
00:15
Hugging Face:Blog(RSS)
精选61
FFASR 排行榜发布:真实远场条件下 ASR 评测

Treble Technologies 与 Hugging Face 联合推出 FFASR(Far-Field ASR)排行榜,这是首个开源社区驱动的真实远场声学条件 ASR 评测基准。传统近场评测无法反映混响、背景噪声和麦克风距离带来的性能下降。FFASR 使用混合波模拟引擎生成声学数据,涵盖 14 种房间(20–470 m³)和三个信噪比级别(远场高 SNR >14 dB、中 SNR 8–12 dB、低 SNR <6 dB),加上近场干燥条件,共四类条件决定主排名。另有实验室实测/模拟验证轨道和移动声源 beta 版。性能指标同时报告词错误率(WER)和实时因子(RTFx,在 NVIDIA L4 GPU 上评估)。未来将支持多说话人场景、麦克风阵列和回声消除。

Hugging Face评测/基准语音

推荐理由:远场语音的‘实验室-生产’性能差终于有了量化指标,这个排行榜把 ASR 的真实世界鲁棒性公开化,做语音产品的团队该看看。
6月24日
23:29
Hacker News 热门(buzzing.cc 中文翻译)
78
Krea 2 技术报告

Krea 2 是一系列基础模型,兼顾审美多样性与创意控制。采用扩散 Transformer(DiT)架构,集成 iREPA、改进 VAE 和 Qwen3-VL,通过预训练、中期训练、SFT、偏好优化和 RL 多阶段流水线训练。构建提示词扩展器和风格参考系统,支持从文本和图像输入进行可控探索。模型权重与推理代码以宽松许可证开源。在 Artificial Analysis 文本到图像排行榜中位列前十,独立实验室模型中排名第二。

Hugging Face图像生成多模态开源生态
关联讨论 1 条X:Krea AI (@krea_ai)
12:42
IT之家(RSS)
66
阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。

智能体Hugging Face模型发布
11:55
HuggingFace Daily Papers(社区热门论文)
49
EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体Hugging Face开源/仓库论文/研究
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 5 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
10:49
HuggingFace Daily Papers(社区热门论文)
61
OpenThoughts-Agent:开源数据流水线训练智能体模型

OpenThoughts-Agent(OT-Agent)项目提出一套完全开源的数据 curation 流水线,专门用于训练智能体模型。研究团队通过 100 余项对照消融实验,系统探索了任务来源与多样性的影响,并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后,模型在 7 项智能体基准测试中平均准确率为 44.8%,比现有最强的开源数据智能体模型 Nemotron-Terminal-32B(40.9%)高 3.9 个百分点。训练数据展现出强扩展性,同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体Hugging Face开源生态数据/训练
09:19
AK@_akhaliq
42
hf-claude 与 GLM 5.2 兼容良好 hf extensions 安装 hf-claude
Hugging Face教程/实践部署/工程
03:37
MarkTechPost(RSS)
68
Datalab 发布 lift:9B 开放权重视觉模型,依据 Schema 从 PDF 提取结构化 JSON

Datalab 推出 9B 参数开放权重视觉模型 lift,用于结构化提取。输入 JSON Schema,返回匹配的 JSON 对象,可直接读取 PDF 和图像,支持多页文档一次性处理并跨页取值。提供本地(HuggingFace)和远程(vLLM)两种推理模式,后者推荐用于生产。代码采用 Apache 2.0,权重使用修改版 OpenRAIL-M。在 225 份文档基准上 field accuracy 达 90.2%,中位延迟 9.5 秒/文档。核心机制为 schema-constrained decoding,逐 token 约束输出结构但不保证语义正确;每个字段允许 null 以实现模型放弃。不支持 enum、anyOf/oneOf、$ref、additionalProperties 等结构。

Hugging Face多模态开源生态模型发布
03:21
Hao AI Lab@haoailab
精选73
FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

GitHubHugging Face模型发布端侧

推荐理由:单张 RTX 5090 上 1.8 秒生成 5 秒视频,把消费级延迟压到了‘即时生成’的临界点,做短视频和互动应用的开发者可以认真把这个模型放进技术栈。
02:26
Hugging Face:Blog(RSS)
精选64
在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案,旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现,但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face开源生态教程/实践部署/工程

推荐理由:这个Chrome提案让不同网站的AI模型共享缓存,对用Transformers.js的Web开发者是切实的性能改进,但还只是早期实验。
6月23日
18:11
Baidu Inc.@Baidu_Inc
71
百度开源Unlimited OCR,专为一次性读取长文档设计。模型总参数量3B,仅激活500M,在OmniDocBench v1.5和v1.6上取得端到端SOTA。核心创新为参考滑动窗口注意力(R-SWA),模拟人类抄书过程,保持源、近期上下文和后续焦点,同时软遗忘无关信息。凭借恒定KV缓存大小和更低注意力成本,可在单次前向传播中转录40+页,不丢失上下文也不减速。模型已开源至GitHub和Hugging Face。

Baidu AI: We're open-sourcing Unlimited OCR - built to read long documents in one pass. With 3B total parameters and only 500M act...

Hugging Face多模态模型发布
16:12
Hugging Face:Blog(RSS)
精选59
我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。

智能体Hugging Face开源生态教程/实践

推荐理由:Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案,包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队,这是一套可直接借鉴的 recipe。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
15:13
HuggingFace Daily Papers(社区热门论文)
精选75
HAKARI-Bench:统一条件下比较检索架构与效率设置的轻量级基准

HAKARI-Bench 是一个轻量级检索基准,将现有检索套件重建为小型数据集(Nano-sets),涵盖 35 个基准、551 个任务和 43 种语言,采用统一格式实现模型无关比较。它支持 BM25、稠密、稀疏、晚交互和重排序五种检索家族及其效率变体(降维、量化等)在同一条件下对比。在 55 个模型上,整体排名与 MTEB retrieval v2、MMTEB v2 retrieval 及 English BEIR(完整版)的 Spearman 相关系数均高于 0.97。HAKARI-Bench 不取代全面评测,而是用于快速模型选择、回归检测和探索质量-效率帕累托前沿。代码、数据和排行榜以 MIT 许可证开源。

Hugging Face检索增强论文/研究

推荐理由:有了这个轻量级基准,做检索的开发者不用再跑整套 MTEB 就能快速筛选嵌入模型和效率配置,而且排名与完整评测高度一致,是工程选型的高性价比工具。
08:01
Simon Willison 博客
60
Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行

Moebius 0.2B轻量级图像修补模型(自称10B级性能)原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式,通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域,点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face,前端代码托管于GitHub Pages并启用自动部署。整个移植过程(含环境准备、模型转换、UI构建、部署)在Claude Code辅助下完成,作者还使用Claude.ai进行可行性调研。

Hugging Face教程/实践端侧编码
01:12
Berryxia.AI@berryxia
66
百度开源Unlimited-OCR:可一次性处理数百页文档

百度PaddlePaddle在HuggingFace发布Unlimited-OCR,核心创新R-SWA(Reference Sliding Window Attention)使解码时KV Cache保持恒定,避免随页数爆炸。该模型可一次性处理数百页文档,速度和稳定性优于逐页处理。在OmniDocBench上得分93%,比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底,直接理解整篇文档结构与布局。

Adina Yakup: Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable spee...

DeepSeekHugging Face多模态开源/仓库
6月22日
23:42
SenseTime@SenseTime_AI
50
商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1,展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文,感谢YouTuber xCreate对SenseNova U1模型的详细拆解,重点展示其文本-图像交错推理(text-image interleaved reasoning)和信息图表(infographic)生成能力。推文附有逐步指南,指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHubHugging Face图像生成多模态
22:11
Hugging Face:Blog(RSS)
精选69
PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

Hugging Face多模态模型发布部署/工程

推荐理由:OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
02:36
Rohan Paul@rohanpaul_ai
57
一个庞大的法律数据集刚刚在 Huggingface 上发布。 研究人员首次使用 AI 收集、运行光学字符识别、处理并构建了全美每一条法律的数据库。 那就是 220 万条法律。 LocalLaws/LOCUS-v1 - Hugging Face 上的数据集。
Hugging Face开源/仓库数据/训练
‹ 上一页
123…9
下一页 ›