AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Hugging Face」清除
6月12日周五
17:35IT之家(RSS)69商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"
14:00HuggingFace Daily Papers(社区热门论文)77同事件精选MiniMax Sparse Attention(MSA)块状稀疏注意力同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
01:17Hacker News 热门(buzzing.cc 中文翻译)72精选DeepSeek-R1 的开源实现
6月11日周四
18:59Hugging Face:Blog(RSS)46PyTorch 剖析系列(二):从 nn.Linear 到融合 MLP
03:56Ars Technica:AI(RSS)65Google DeepMind 发布 DiffusionGemma,本地 AI 推理速度提升 4 倍
01:23Rohan Paul64Apodex-1.0-H 发布多智能体深度研究团队
00:43fofr69DiffusionGemma:一次性选词提速4倍
6月10日周三
05:55Hugging Face:Blog(RSS)74精选将 GitHub CI 迁移到 Hugging Face Jobs
03:55Hugging Face:Blog(RSS)67精选Hugging Face 博客发布语音智能体代码切换基准测试
00:36HuggingFace Daily Papers(社区热门论文)47FlowBP:一种面向Flow Matching的奖励反向传播设计空间探索框架
00:16AK51SpatialWorld:多模态智能体空间推理基准
00:05fofr63我用智能体加速Gemma,感觉像骄傲的家长
6月9日周二
19:55Hugging Face:Blog(RSS)76精选一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊
17:55Hugging Face:Blog(RSS)68精选NeuroBait:微调AI助手,为ADHD大脑点燃多巴胺火花
6月8日周一
21:50Hugging Face:Blog(RSS)62精选开源社区支持 OpenEnv 用于智能体强化学习
21:46OpenBMB54面壁智能与HuggingFace合作举办Build Small黑客松
19:50Hugging Face:Blog(RSS)74精选Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具
6月7日周日
18:50Hugging Face:Blog(RSS)70精选Her · हेर - Claude Code 会话分析工具
13:34MarkTechPost(RSS)67NVIDIA garak 教程:构建完整的防御性 LLM 红队工作流,支持自定义探针和检测器
03:50Hugging Face:Blog(RSS)66精选五个实验室,五个心智:用小模型构建多模型金融剧情游戏
6月6日周六
23:48Hugging Face:Blog(RSS)65精选Job Searcher
19:48Hugging Face:Blog(RSS)58精选Persona Atlas:Hugging Face 上的开源人物思维映射工具
06:47Hugging Face:Blog(RSS)74精选用Qwen2.5-3B构建多智能体经济体:工程报告
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)68Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化
08:00HuggingFace Daily Papers(社区热门论文)52PaperFlow:跨每日论文流的画像、推荐与自适应框架
03:43Hugging Face:Blog(RSS)78精选Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全
6月4日周四
23:42Hugging Face:Blog(RSS)66精选Hugging Face 为编码智能体重塑 hf CLI 输出格式
23:16SenseTime69商汤SenseNova U1开源统一文本图像模型
6月3日周三
22:41Hugging Face:Blog(RSS)46为 Reachy Mini 添加 MCP 工具
22:39SenseTime73同事件精选商汤开源SenseNova U1:视觉理解推理生成一体模型同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
21:41Hugging Face:Blog(RSS)55精选DharmaOCR 利用 DPO 将文本退化率降低 59.4%
13:09IT之家(RSS)52智元开源行业首个聚焦物理交互的具身数据集
03:06向阳乔木70论文图表生成框架Harness的架构与实践
00:15AK60VLMs是否知道何时不回答空间问题
6月2日周二
22:40Hugging Face:Blog(RSS)73精选Holo3.1:快速本地计算机使用智能体
20:40HuggingFace Daily Papers(社区热门论文)71精选NLP领域2018-2025年人类标注报告实践的大规模审计
19:34蚂蚁 inclusionAI:HuggingFace 新模型61同事件精选蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
12:35SenseTime73同事件精选商汤 SenseNova U1 发布信息图专用模型同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
12:35SenseTime71商汤发布 SenseNova U1 信息图表增强模型
01:11Artificial Analysis77NVIDIA Cosmos 3 荣登开放权重模型图像与视频生成双榜榜首
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月12日
17:35
IT之家(RSS)
69
商汤开源 SenseNova U1 图文交错生成增强版模型:支持多页连续创作,角色风格不"跑偏"

商汤科技开源日日新 SenseNova U1 系列新成员 U1-8B-MoT-Interleaved 图文交错增强版模型。该模型面向图文交错创作与生成场景强化,支持绘本、故事书、多页 PPT 等连续内容创作,解决了多轮生成后角色形象飘移、画风断裂、图文脱节等痛点。核心升级包括叙事一致性与角色连贯性提升、图文对应关系增强、视觉质量改善,以及新增多页 PPT 自动生成能力。模型已开源。

Hugging Face图像生成多模态模型发布
14:00
HuggingFace Daily Papers(社区热门论文)
同事件精选77
MiniMax Sparse Attention(MSA)块状稀疏注意力

MiniMax 提出块状稀疏注意力 MSA,基于 GQA 构建。轻量级 Index Branch 为每个 GQA 组独立选择 Top‑k KV 块,Main Branch 仅对选中块执行精确块稀疏注意力。在 109B 参数多模态模型上,MSA 与 GQA 性能持平,1M 上下文下每 token 注意力计算减少 28.4 倍。配合协同设计的 GPU 内核,H800 上实现 14.2 倍 prefill 和 7.6 倍 decoding 端到端加速。推理内核与基于 MSA 的多模态模型已公开发布。

GitHubHugging Face开源/仓库推理
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:MiniMax这个稀疏注意力把长上下文推理计算砍掉28倍,而且直接开源了高效CUDA kernel和模型,做agent和代码仓库级推理的团队可以赶紧试试。
01:17
Hacker News 热门(buzzing.cc 中文翻译)
精选72
DeepSeek-R1 的开源实现

DeepSeek-R1 的开源复现项目已在 GitHub 发布,在 Hacker News 上获得 101 个积分。该项目旨在以开源方式复现 DeepSeek-R1 模型。

Hugging Face开源/仓库推理模型发布

推荐理由:Hugging Face 把 DeepSeek-R1 的完整训练管线拆解得清清楚楚,从数据蒸馏到 GRPO 强化学习都开源了,还放出了复现的模型和数据集。想理解或自己训练推理模型的开发者,这大概是目前最实用的路线图。
6月11日
18:59
Hugging Face:Blog(RSS)
46
PyTorch 剖析系列(二):从 nn.Linear 到融合 MLP

本部分将手写 matmul-add 对替换为 nn.Linear(bias=True),堆叠三层 Linear 与激活函数构成多层感知机(MLP)块,在 NVIDIA A100 GPU 上剖析。Profile trace 显示 nn.Linear 内部调用 aten::addmm,将 bias 加法作为 epilogue 融合进矩阵乘法核,避免额外 HBM 访问;transpose 操作(aten::t)仅改写 CPU 端张量元数据(shape 和 stride),不启动 GPU 核。

Hugging Face教程/实践部署/工程
03:56
Ars Technica:AI(RSS)
65
Google DeepMind 发布 DiffusionGemma,本地 AI 推理速度提升 4 倍

Google DeepMind 发布 DiffusionGemma,一款利用扩散模型加速文本输出的新模型,本地 AI 推理速度达到传统模型的 4 倍。

GoogleHugging Face开源生态推理
01:23
Rohan Paul@rohanpaul_ai
64
Apodex-1.0-H 发布多智能体深度研究团队

Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。

Apodex: Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...

智能体Hugging Face产品更新推理
00:43
fofr@fofrAI
69
DiffusionGemma,大语言模型一次性选出所有词。速度快4倍。 你可以从这里获取权重和说明开始使用: https://huggingface.co/google/diffusiongemma-26B-A4B-it
GoogleHugging Face推理模型发布
6月10日
05:55
Hugging Face:Blog(RSS)
精选74
将 GitHub CI 迁移到 Hugging Face Jobs

本文介绍了如何将 GitHub Actions 的 CI 作业迁移到 Hugging Face Jobs 上运行,以解决 GitHub Actions 速度慢、缺乏 GPU 支持等问题。通过使用 huggingface/jobs-actions 桥接,将 GitHub Actions 的 job 转为临时自托管运行器:GitHub App 监听 workflow_job.queued webhook,dispatcher Space 验证后启动对应硬件(CPU 或 t4-small、h200 等 GPU)的 HF Job,由 ephemeral runner 执行 CI 并上报结果。作者基于 Trackio 项目实际落地,CPU 作业时间减少约 30%,并新增了 GPU 测试套件。文章分步说明了复制 dispatcher Space、创建并安装 GitHub App、配置 webhook 和 HF_TOKEN 的具体步骤。

Hugging Face教程/实践部署/工程

推荐理由:HF 直接把 CI 桥接器开源了出来,教你把 GitHub Actions 迁到 HF Jobs 上跑 GPU 测试,ML 项目终于可以低成本配上显卡 CI,步骤清晰到能直接抄作业。
03:55
Hugging Face:Blog(RSS)
精选67
Hugging Face 博客发布语音智能体代码切换基准测试

Hugging Face 博客发布针对语音智能体处理代码切换语音的基准测试。数据集覆盖西班牙语‑英语、法语‑英语、加拿大法语‑英语和德语‑英语四对语言,基于人力资源与IT服务管理场景构建。采用词错误率、语义词错误率和答案错误率三项指标评估七种ASR系统,包括AssemblyAI Universal 3-Pro、Deepgram Nova 3 Multilang、ElevenLabs Scribe V2、Gemini 3 Flash、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3和OpenAI Whisper Large V3 Turbo。主要发现:代码切换的转录成本因语言对和模型而异;ElevenLabs Scribe V2、Gemini 3 Flash和AssemblyAI Universal 3-Pro在所有指标上表现最佳。数据集和测试框架通过AU-Harness开源发布。

Hugging Face评测/基准语音

推荐理由:如果你在给多语言客户做语音Agent,这篇博客直接把主流ASR的code-switching能力测了一遍,ElevenLabs Scribe V2目前最强,还开源了数据集,拿来就能测自己的模型。
00:36
HuggingFace Daily Papers(社区热门论文)
47
FlowBP:一种面向Flow Matching的奖励反向传播设计空间探索框架

针对文本到图像Flow Matching模型与人类偏好对齐时,完整采样轨迹无法存储及跨步雅可比积导致梯度膨胀的问题,FlowBP提出统一代理轨迹框架,将反向轨迹本身作为设计对象。该框架分离奖励模型输入、活跃集、积分权重和桥耦合四个选择,并实例化三个变体:FlowBP-Sparse(稀疏Euler重建)、FlowBP-Bridge(受控桥耦合)和FlowBP-Lagrange(高阶跳跃求积)。三者通过活跃集大小限制内存,梯度链至多含一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,三个变体在偏好、质量和组合指标上均优于直接梯度基线。

Hugging Face图像生成数据/训练论文/研究
00:16
AK@_akhaliq
51
SpatialWorld 评测多模态智能体在真实世界任务中的交互式空间推理能力
智能体Hugging Face多模态论文/研究
00:05
fofr@fofrAI
63
我让我的 foffee 智能体帮忙加速 Gemma。我感觉自己像个骄傲的家长。 https://huggingface.co/spaces/gemma-challenge/gemma-dashboard

Google Gemma: Introducing the Fast Gemma Challenge with Hugging Face Over the next few days, dozens of agents will collaborate to make...

智能体GoogleHugging Face开源生态
6月9日
19:55
Hugging Face:Blog(RSS)
精选76
一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space,从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像,再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点(.ply),自动完成坐标系校正、取景、压缩为.ksplat(体积缩小约3倍),并构建基于Three.js的滚动切换、拖拽旋转查看器,最终部署为静态Space。整个过程无需客户端库,每个Space通过agents.md暴露可调用API。

智能体Hugging FaceMCP/工具多模态

推荐理由:Hugging Face 把 agents.md 做成每个 Space 的标准说明书,agent 能直接读懂并链式调用图像和 3D 模型,这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了,做 AI 工具链的可以立刻照着试。
17:55
Hugging Face:Blog(RSS)
精选68
NeuroBait:微调AI助手,为ADHD大脑点燃多巴胺火花

NeuroBait是基于Google gemma-3-12b-it微调的AI对话助手,旨在帮助ADHD患者克服“知道该做什么但无法开始”的执行功能障碍。采用16-bit LoRA(r=16, alpha=16)在Unsloth上训练3个epoch,学习率2e-4,最大序列长度2048,使用单张H100 80GB GPU。数据集为基于真实ADHD场景手工合成的少量数据。部署于Hugging Face Space(ZeroGPU),使用Gradio和标准transformers+peft,运行时以4-bit NF4加载基础模型并应用LoRA适配器。NeuroBait不生成待办清单,而是根据用户上下文给出3-6句温暖流畅的回复,引导用户找到一件微小可立即执行的动作,从而激发多巴胺、降低启动阻力。

Hugging Face教程/实践数据/训练

推荐理由:对ADHD群体来说,这是一次真正从需求出发的AI尝试。它不做计划列表,而是用一个温暖的动感火花打破僵局,让AI从理论走向陪伴。如果你或身边人容易'卡住',可以试试这个Space。
6月8日
21:50
Hugging Face:Blog(RSS)
精选62
开源社区支持 OpenEnv 用于智能体强化学习

今日,Hugging Face 宣布 OpenEnv 项目进一步开放,由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调,并获得 PyTorch Foundation、vLLM、SkyRL(UCB)等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具,定位为训练器与环境间的互操作层,标准化环境的发布、部署和消费,但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API(reset()、step()、state()),支持 HTTP、WebSocket、Docker 打包,并将 MCP 作为一等公民,使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证,以推动开源智能体 RL 基础建设。

智能体Hugging FaceMCP/工具Meta

推荐理由:开源社区在 agent RL 环境上终于开始合流,Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准,不做奖励框架,只做插线板。搞开源 agent 训练的人,这是少有的统一基础设施的机会。
21:46
OpenBMB@OpenBMB
54
面壁智能与HuggingFace合作举办Build Small黑客松

面壁智能(OpenBMB)与HuggingFace合作举办的Build Small黑客松正式上线,鼓励开发者使用OpenBMB模型构建应用。官方列举四大用例:MiniCPM-V 4.6用于自动化金融文档分析;MiniCPM5-1B轻量端侧模型驱动AI桌面宠物;MiniCPM-o 4.5全模态实时视频分析;VoxCPM2语音克隆。活动设有$10,000 OpenBMB特别奖。

Hugging Face多模态开源生态行业动态
19:50
Hugging Face:Blog(RSS)
精选74
Pakistan Notice Helper:一款面向本地安全问题的轻量 AI 工具

Pakistan Notice Helper 是一款安全工具,帮助巴基斯坦用户在点击链接、拨打电话、分享 OTP 或支付前识别可疑消息。它接受文本或截图输入,返回风险等级、简短解释、可见警示标志和安全下一步建议。工具支持英文和乌尔都语,乌尔都模式采用从右向左布局并全界面翻译。最终部署选用 Qwen3.5 4B Q8 模型(通过 llama.cpp + CUDA),在 10 个测试用例中通过了所有高风险诈骗和截图场景。此前曾测试 Qwen3.6 27B(质量高但成本高)和 MiniCPM-V 4.6 Q8(速度慢且不稳定),最终选择了精度、速度和成本平衡的 4B 模型。项目受限于 hackathon 的 32B 模型上限规则。

Hugging Face多模态教程/实践

推荐理由:一个只有4B的小模型,把巴基斯坦本地诈骗文案分析得明明白白,比那些参数大但看不懂乌尔都语的通用模型实用得多。做给特定地区特定问题的小工具,这才是AI落地的真节奏。
6月7日
18:50
Hugging Face:Blog(RSS)
精选70
Her · हेर - Claude Code 会话分析工具

Her(हेर)是专为 Claude Code 设计的会话分析工具。用户上传 .jsonl 文件后,Her 用自然语言重建每轮交互,标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示 token 消耗、所用工具、子智能体、技能和 MCP 服务器,并结合 Anthropic 与社区最佳实践给出改进建议(仅在有明确可修复模式时)。内置“Ask Her”问答功能,支持单会话与跨会话项目分析。工具不调用第三方 AI API,使用 Nemotron-Mini-4B-Instruct 模型在 Hugging Face ZeroGPU 上运行,评估引擎完全确定,模型仅负责文本生成与建议。Her 内置 Homebrew、npm、PyPI 主流 CLI 工具数据库,自动识别会话中使用的工具,并对部署工具、数据库客户端等执行活动进行标记提醒。

智能体Hugging Face产品更新编码

推荐理由:每次 Claude Code 跑完都留下一堆 JSON,没人看。Her 用一个本地小模型帮你分析会话,钱花在哪、有没有危险操作一目了然,还不把数据传出去,是个务实的小工具。
13:34
MarkTechPost(RSS)
67
NVIDIA garak 教程:构建完整的防御性 LLM 红队工作流,支持自定义探针和检测器

NVIDIA garak 教程演示了端到端的防御性 LLM 红队工作流,包括框架设置、插件发现、模拟运行、在 Hugging Face 生成器上对真实模型进行扫描以及多探针评估。流程随后分析安全评分与攻击成功率,审查被标记的输出,并通过自定义探针和检测器扩展 garak 功能,最后以 AVID 格式导出结构化漏洞报告。

Hugging Face开源生态教程/实践
03:50
Hugging Face:Blog(RSS)
精选66
五个实验室,五个心智:用小模型构建多模型金融剧情游戏

Thousand Token Wood v2使用四个不同实验室的小模型(gpt-oss-20b、MiniCPM3-4B、Nemotron-Mini-4B及微调Qwen 0.5B)驱动金融模拟游戏的智能体。核心发现是异构服务层摩擦在于vLLM 0.22.1需CUDA工具包,而非模型本身。通过容忍性JSON解析层,添加模型只需一条配置。信息隔离确保内幕标志不在提示词中,扫描测试验证无泄露。记忆用情绪摘要截断避免淹没。微调0.5B模型实现0%自成交、100%有效报价,真相防火墙零泄露。小模型是可靠格式生成器但不可靠推理器,可通过结构化、提示词和微调弥补。

智能体Hugging Face教程/实践

推荐理由:不是那种「我用 GPT 写了个游戏」的浅显分享,真在四个小模型上跑出了博弈感,里面 vLLM 踩坑和防火墙测试方法可以直接抄作业。
6月6日
23:48
Hugging Face:Blog(RSS)
精选65
Job Searcher

Hugging Face 发布 Job Searcher,一个基于 AI 的求职搜索工具。用户上传简历并设定偏好后,系统使用教师模型 DeepSeek V4 Pro 生成 LinkedIn 搜索查询,通过 JobSpy 抓取职位,再对学生模型 Qwen3-8B(8B 参数)进行 LoRA 微调,对每个职位从技能匹配、经验相关性、教育背景、行业领域契合度和资历对齐五个维度给出评分和推理。训练在 Modal 平台单张 A100 上完成。推理部署于 Hugging Face ZeroGPU Space,使用 llama.cpp 实现流式输出。项目开源。

智能体Hugging Face教程/实践数据/训练

推荐理由:这个 hackathon 项目把教师蒸馏和 LoRA 微调 8B 模型的流程全部开源在 HF 上,做模型定制和部署的开发者能直接抄作业,尤其是推理部署踩的坑(ZeroGPU 上下文重用)很实用。
19:48
Hugging Face:Blog(RSS)
精选58
Persona Atlas:Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索,生成公众人物的资料、事实清单和风格假设,然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量,从而在向量空间中对不同人物进行距离比较,并基于十个特质锚点绘制热力图。前端采用 Gradio,提供研究、比较和检查代理完整追溯三个标签页,预设多个人物角色,无需 token 即可直接体验。

智能体Hugging Face开源/仓库

推荐理由:把苏格拉底和乔布斯放在一起比思维方式,这个实验更像智力玩具,但背后用小模型跑 agent 搜索做嵌入比较的流程,做角色扮演的人可以学研究方法。
06:47
Hugging Face:Blog(RSS)
精选74
用Qwen2.5-3B构建多智能体经济体:工程报告

开发者用Qwen2.5-3B构建了五人森林生物多智能体经济体,每个智能体独立运行,通过vLLM部署在Modal,以Gradio为交互窗口。3B模型在100%调用中输出有效JSON,但经济判断能力弱。通过设计稀缺性(食物品种限制、易腐坏、冬季燃料危机)和优化提示词(禁止买入自产物品、给出示例)提升决策质量。15轮模拟中,蜜价从10跌至3、柴价从4涨至7、财富基尼系数从0.14扩至0.38。项目展示了小模型可靠格式化与不可靠推理之间的工程填补。

智能体Hugging Face教程/实践部署/工程

推荐理由:我觉得这是近期最诚实的小模型工程复盘,把为什么不换大模型、怎么靠提示修正推理、怎样设计系统稀缺性讲透了,比看十篇论文有实操价值。
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
68
Code2LoRA:超网络生成适配器助力代码语言模型应对软件演化

Code2LoRA 是一种超网络框架,可生成仓库专属的 LoRA 适配器,在推理时零 token 开销注入仓库知识。它支持两种模式:Code2LoRA-Static 将单一仓库快照转为适配器,适合稳定代码库;Code2LoRA-Evo 通过 GRU 隐藏状态随代码 diff 更新适配器,适合演化中的活跃开发。团队构建了含 604 个 Python 仓库的 RepoPeftBench 基准。静态任务中,Code2LoRA-Static 跨仓库 exact match 达 63.8%,仓库内达 66.2%,持平逐仓库 LoRA 上界;演化任务中,Code2LoRA-Evo 跨仓库 exact match 达 60.3%,比单一共享 LoRA 高 5.2 个百分点。代码和数据集已开源。

arXivHugging Face开源生态编码
08:00
HuggingFace Daily Papers(社区热门论文)
52
PaperFlow:跨每日论文流的画像、推荐与自适应框架

PaperFlow提出三阶段框架:Profiling从异构冷启动证据构建维护结构化学术画像;Recommending在固定展示预算下通过多信号聚合排序每日论文流;Adapting根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究定义了纵向用户-天基准,包含24个模拟用户、50个每日论文流、1200个用户-天片段、20,727篇论文和497,448条记录,并设计了盲人评估协议。实验对比五种基线,PaperFlow在oracle排序、行为对齐和盲评分数上均最优。

arXivHugging Face论文/研究
03:43
Hugging Face:Blog(RSS)
精选78
Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。

Hugging Face多模态安全/对齐开源/仓库

推荐理由:Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」,自定义策略和推理 trace 让企业能审计决策,做安全平台的值得细看。
6月4日
23:42
Hugging Face:Blog(RSS)
精选66
Hugging Face 为编码智能体重塑 hf CLI 输出格式

Hugging Face 重新设计 hf CLI,使其同时服务人类用户和编码智能体(Claude Code、Codex 等)。CLI 通过环境变量自动检测智能体驱动,输出紧凑无截断的 TSV 格式,避免 ANSI 和交互提示,大幅降低 token 消耗。复杂多步任务中,不使用 CLI 的智能体 token 消耗最高达 hf CLI 的 6 倍。2026 年 4 月起,Hugging Face 追踪 Hub 智能体流量,Claude Code 约 4 万用户、近 4900 万次请求,Codex 紧随其后。

Hugging FaceMCP/工具产品更新编码

推荐理由:HF CLI 现在会自动检测 agent 并切换输出,复杂任务上 token 消耗比 curl/SDK 节省 2-6 倍。如果你在用 Claude Code 或 Codex 操作 Hugging Face Hub,这是必读的升级指南。
23:16
SenseTime@SenseTime_AI
69
商汤SenseNova U1开源统一文本图像模型

商汤SenseTime发布SenseNova U1,一个原生理解和生成文本与图像的统一模型。该模型已开源,用户可自行运行。被@gurru_tech称赞“令人印象深刻”。提供在线演示平台SenseNova Studio、HuggingFace模型、GitHub代码及Discord社区。

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
6月3日
22:41
Hugging Face:Blog(RSS)
46
为 Reachy Mini 添加 MCP 工具

Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具(如搜索、天气),并自动启用至当前 profile 的 tools.txt 中。内置工具(头部动作、跳舞、表情、摄像头等)仍为本地 Python 代码,远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用,不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力,便于发布、共享和迭代,无需修改应用本身。支持 install、list、remove 等子命令。

Hugging FaceMCP/工具产品更新具身智能
22:39
SenseTime@SenseTime_AI
同事件精选73
商汤开源SenseNova U1:视觉理解推理生成一体模型

商汤(SenseTime)开源SenseNova U1模型,宣称实现“看、思考、创作”一体——从一张普通运动鞋图片直接生成营销视觉效果。该模型代表了架构上的范式转变。用户可通过SenseNova Studio、HuggingFace和GitHub尝试使用。

GitHubHugging Face图像生成多模态
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤把理解、推理、创作塞进一个模型,而且直接开源,做视觉营销的可以不用再拼凑工具链了。
21:41
Hugging Face:Blog(RSS)
精选55
DharmaOCR 利用 DPO 将文本退化率降低 59.4%

4月发布的DharmaOCR(结构化OCR模型)在巴西葡萄牙语文档提取任务中,使用直接偏好优化(DPO)作为监督微调(SFT)后的第二训练阶段。SFT无法直接惩罚文本退化(重复循环),而DPO以模型自身失败输出(退化循环)作为负样本进行偏好训练,使所有测试模型族的文本退化率平均降低59.4%,最高达87.6%(如Nanonets-OCR2-3B从1.61%降至0.20%)。传统DPO多用于聊天对齐,该工作将其扩展至客观的OCR任务,证明DPO可针对性修复特定失败模式。

Hugging Face教程/实践数据/训练

推荐理由:DPO 不只能对齐,这篇直接用模型自身的垃圾输出当反例,把 OCR 的重复错误平均降了 59%。思路不复杂,但告诉做结构化生成的工程师:训练数据里最该保留的就是模型犯的错。
13:09
IT之家(RSS)
52
智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。

Hugging Face具身智能开源/仓库数据/训练
03:06
向阳乔木@vista8
70
论文图表生成框架Harness的架构与实践

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。

Hugging Face图像生成多模态教程/实践
00:15
AK@_akhaliq
60
视觉语言模型知道何时不回答空间问题吗(以及为什么)?
Hugging Face多模态论文/研究
6月2日
22:40
Hugging Face:Blog(RSS)
精选73
Holo3.1:快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列,旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸,并首次发布量化检查点,包括 FP8、Q4 GGUF 和 NVFP4,以优化本地推理。在 AndroidWorld 基准测试中,35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上,NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升,并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议,可在第三方智能体框架中部署。

智能体Hugging Face开源/仓库模型发布

推荐理由:Holo3.1 把计算机使用代理从桌面扩展到了移动端,还首次放出了量化版,让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。
20:40
HuggingFace Daily Papers(社区热门论文)
精选71
NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。

arXivHugging Face数据/训练论文/研究

推荐理由:NLP论文里的标注环节一直是个黑箱,这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍,值得每个做数据和评估的人细看。
19:34
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选61
蚂蚁 inclusionAI 开源万亿参数 MoE 基座模型 Ling-2.6-1T-base

Ling-2.6-1T-base 是蚂蚁 inclusionAI 开源的万亿参数 MoE 基座模型(总参约 1T,激活 63B)。它由 Ling-2.0-1T-base 升级而来,采用 Lightning Attention 与 MLA 以 7:1 混合的线性注意力架构,经约 9.6T token 的迁移预训练、持续预训练和中训练,上下文窗口从 4K 分阶段扩展至 256K。在 MMLU(86.82)、SimpleQA、LongBenchv2(43.54)等基准上超越前代。该模型仅供研究(继续预训练、微调、蒸馏等),不直接提供对话功能。

Hugging Face开源生态推理模型发布
同一事件,精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》
推荐理由:Ling-2.6 用混合线性注意力把万亿 MoE 基座模型的上下文能力推到了 256K,对于研究长上下文和 MoE 的团队是个有价值的基座,但它是未对齐的预训练模型,不能直接当对话助手用。
12:35
SenseTime@SenseTime_AI
同事件精选73
感谢使用我们的模型来创建这些复杂的图表和图表。 看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face图像生成开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:SenseNova U1 这波信息图特化不是刷分,+18.2 Q-ACC 证明模型真的懂了排版,做汇报、做图表的可以直接上 Hugging Face 扒下来用。
12:35
SenseTime@SenseTime_AI
71
将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多:https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
01:11
Artificial Analysis@ArtificialAnlys
77
NVIDIA Cosmos 3 荣登开放权重模型图像与视频生成双榜榜首

NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。

Hugging Face多模态开源生态模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
‹ 上一页
12345…9
下一页 ›