6月3日

03:06

向阳乔木@vista8

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作，包含四个协作角色：设计者生成视觉方案，执行者渲染图像或代码，验证者输出带定位的诊断报告，修订者据此修改规格文档 S。作者参考该框架进行了简化实践，写成一个技能包，其中使用了 GPT-image-2 进行生图，并整合了 URL 抓取功能，可直接生成配图。

Hugging Face 图像生成多模态教程/实践

00:15

AK@_akhaliq

视觉语言模型知道何时不回答空间问题吗（以及为什么）？

Hugging Face 多模态论文/研究

6月2日

12:35

SenseTime@SenseTime_AI

同事件精选73

感谢使用我们的模型来创建这些复杂的图表和图表。看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face 图像生成开源生态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：SenseNova U1 这波信息图特化不是刷分，+18.2 Q-ACC 证明模型真的懂了排版，做汇报、做图表的可以直接上 Hugging Face 扒下来用。

12:35

SenseTime@SenseTime_AI

将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多：https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face 图像生成多模态模型发布

关联讨论 1 条

01:11

Artificial Analysis@ArtificialAnlys

NVIDIA Cosmos 3 荣登开放权重模型图像与视频生成双榜榜首

NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中，同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构，结合自回归推理器与扩散生成器，提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中，Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问（Qwen）Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相（Wan）2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词，可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源，采用 OpenMDW 1.1 许可，提供权重、代码、精选数据集和微调方案。

Hugging Face 多模态开源生态模型发布

关联讨论 10 条

6月1日

23:43

🚨 AI News | TestingCatalog@testingcatalog

MiniMax M3模型现已集成至Atomic Chat。在一项测试中，Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图，并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示，该任务消耗输入6，920模型token，生成输出9，933模型token，总成本仅为$0.028。此外，MiniMax计划于下周在HuggingFace发布M3模型。

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

Hugging Face 多模态模型发布编码

23:34

SenseTime@SenseTime_AI

同事件精选67

SenseNova新模型解决AI图表生成难题

大多数AI模型在生成图表时存在数值错误（如负值显示为正）、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic（SenseNova-U1）专为解决此类图表生成问题而设计，能够生成准确的图表，并支持实时调整设计和布局。项目在Hugging Face提供了模型，并在GitHub展示了效果案例。

GitHub Hugging Face 图像生成模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：大部分AI生成的图表都有标注错误或比例失调，商汤这个模型专攻信息图准确性，对常做图表的产品人和分析师来说值得一试。

22:12

OpenBMB@OpenBMB

快速提醒：Build Small黑客松报名将于6月3日截止！ 🏆总现金奖金：约4万美元其中1万美元为@OpenBMB特别奖，授予使用#MiniCPM模型的最佳项目。别错过！立即注册：https://huggingface.co/build-small-hackathon 我们强烈推荐使用MiniCPM模型--它们小巧、强大，非常适合本次黑客松。让我们一起构建精彩项目！🤗🚀

Hugging Face 端侧行业动态

21:12

OpenBMB@OpenBMB

同事件精选78

OpenBMB发布UltraData两大开源数据集，登顶HuggingFace趋势榜

OpenBMB联合清华NLP与Modelbest发布两个开源数据集：Ultra-FineWeb-L3（预训练合成数据）包含600B+ tokens（超400B英文、200B+中文），是迄今最大开源中文预训练合成数据集；UltraData-SFT-2605（后训练SFT数据）包含15M+样本，是中国首个开源且包含思考与非思考标注的大规模SFT数据集，覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建，并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Hugging Face 开源/仓库数据/训练

同一事件，精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据》

推荐理由：面壁开源了两个王炸数据集，预训练的 600B+ token 中文合成数据史上最大，SFT 那边 1500 万条带思考链的指令更是头一回见，做中文基础模型的可以无脑下载了。

14:00

OpenClaw🦞@openclaw

精选72

与 @nvidia 合作，我们开源了一个包含 67，453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

智能体 Hugging Face 安全/对齐论文/研究

推荐理由：OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果，一半被标风险但真正恶意的不到千分之三，不同扫描器几乎没共识。做 agent 安全的应该看看。

04:55

Artificial Analysis@ArtificialAnlys

HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型，包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev，以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上，Dev-2604版本在所有开源权重模型中排名第一，生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中，HiDream-O1-Image是排名第二高的开源模型，仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供，价格分别为$10/1k images和$5/1k images。

Hugging Face 图像生成开源生态模型发布

5月30日

01:14

Fei-Fei Li@drfeifei

精选83

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face 图像生成数据/训练论文/研究

推荐理由：李飞飞都来站台，这个数据集不简单。完全允许商业用途是关键，对做视觉生成的团队来说，终于有了一个不用再为版权头疼的超级训练库。

00:15

AK@_akhaliq

81k 模型可通过 HuggingFace 推理 API 使用

Hugging Face 产品更新开源生态部署/工程

5月29日

08:32

Berryxia.AI@berryxia

Hugging Face的创始人Victor M使用Opus 4.8，通过three.js构建并通过了这个波音747飞机的测试，我一会试试能不能复刻一个类似的场景，试试Opus的能力如何！

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

Anthropic Hugging Face 大佬观点编码

00:06

SenseTime@SenseTime_AI

同事件精选65

SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于：增强了文本的准确性与可读性，减少了重复和不自然的放大；改进了布局的一致性与合理性，背景更稳定；提升了图表与示意图的渲染质量；并新增了学术内容的渲染支持。

Hugging Face 图像生成多模态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这个8B信息图生成模型升级了，文本和布局都更稳，对常做数据图表和学术配图的人算个实用的小迭代，没有到改变游戏规则的程度。

5月26日

20:30

Tencent Hy@TencentHunyuan

同事件精选70

腾讯 Hy-MT2 开源，HuggingFace 排行榜登顶

腾讯的 Hy-MT2 模型基于 Apache License 2.0 开源，可用于研究、商业使用、微调和衍生品，无任何限制。其两个变体在 Hugging Face 趋势排行榜上分别位居 #1 和 #4，鼓励社区克隆、分叉和反馈以推动迭代。

Hugging Face 开源生态行业动态

同一事件，精选展示《腾讯开源Hy-MT2多语言翻译模型》

推荐理由：腾讯把Hy-MT2改成Apache 2.0许可证，商用衍生都没问题，之前因为许可犹豫的人现在可以放心用了，模型在Hugging Face trending霸榜，值得重新评估。

10:59

Tencent Hy@TencentHunyuan

腾讯混元新翻译模型双榜亮眼，小程序发布

腾讯混元发布翻译模型 Hy-MT2，在 Hugging Face 开源模型趋势排行榜上表现突出：1.8B 版本排名第一，30B-A3B（MoE）版本排名第四，下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序，支持语音输入与离线翻译，并可自定义翻译风格与指令。模型代码与权重已开源。

Hugging Face 开源生态模型发布

关联讨论 2 条

5月25日

08:17

karminski-牙医@karminski3

比刷arXiv更高效：PapersWithCode一站式获取AI论文与代码

介绍了一个由HuggingFace开源团队成员开发的网站PapersWithCode，该网站能实时收录最新的AI论文和GitHub代码库。它提供了优秀的导航功能，支持按领域浏览论文，并能直接展示模型的benchmark数据和HuggingFace页面，为AI从业者提供了高效的一站式信息聚合服务。

Hugging Face 搜索教程/实践

04:48

Nathan Lambert@natolambert

当前AI进步常被归因于少数算力雄厚的实验室。推文指出，社会动态、政策、技术扩散（diffusion）等其他因素同样深刻影响AI演进，且此领域存在未被充分重视的影响力机遇。开放科学与开放模型是应对方向之一。文中引用观点指出，通往AGI的预训练工作高度集中于OpenAI、Google、Meta等巨头，算力差距的残酷现实是，AGI关键路径上的问题现需巨大算力门槛。

Aidan Clark: If you want to work on pretraining-for-AGI, join OpenAI, Google, Meta or the Anthropic/XAI/Cursor supergroup. The bitter...

Hugging Face 大佬观点开源生态

5月22日

14:47

小互@xiaohu

网易有道开源双模型，聚焦工程精度与落地成本

网易有道开源Confucius4双模型，包括一个专注数学视觉推理的多模态模型，以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重，而非仅提供API，强调在工程精度和实际部署成本上的投入，而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHub Hugging Face 多模态开源生态

5月20日

22:08

Berryxia.AI@berryxia

PaddleOCR 3.5支持Hugging Face生态

PaddleOCR 3.5版本正式支持Transformers作为推理后端。更新后，PP-OCRv5和PaddleOCR-VL 1.5模型可在Hugging Face生态内直接运行，实现了与主流Transformer技术栈的无缝集成。此举解决了此前将OCR工具整合进RAG或Document AI项目时需要额外搭建服务栈的繁琐问题，大幅降低了开发门槛，让OCR能力更自然地融入现有AI应用开发流程。

PaddlePaddle: 🚀 PaddleOCR 3.5: Transformers Backend Support Now Live! We're excited to share that PaddleOCR 3.5 now supports Hugging ...

Hugging Face 开源/仓库部署/工程

5月17日

00:51

Ant Ling@AntLingAGI

精选76

蚂蚁集团发布万亿参数推理模型Ring-2.6-1T，专为现实世界智能体工作流构建。该模型采用MIT许可，上下文长度通过YaRN技术从128K扩展至256K，并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式："high"模式用于快速智能体循环，"xhigh"模式用于深度推理，旨在实现更好的成本与性能平衡。模型已开源，欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体 Hugging Face 开源生态推理

推荐理由：蚂蚁把1T推理模型以MIT许可开源，还专门为Agent循环做了高低推理双模式，做开源Agent的团队直接多了一个强力基座可选。

5月16日

23:54

Berryxia.AI@berryxia

具身智能新前沿：世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿，其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型，超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议，并提供了发展时间线图，对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face 具身智能论文/研究

00:22

SenseTime@SenseTime_AI

SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容，包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面，模型在BizGenEval（困难版）和IGenBench（Q-ACC）两项基准测试上表现突出，相比其基础U1模型分别提升了6.8分和18.2分。目前，该模型已在Hugging Face平台开源，并提供了超过100个多样化的生成示例，供开发者和研究者参考与试用。

Hugging Face 图像生成模型发布

5月13日

08:49

Berryxia.AI@berryxia

Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni，能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸，分别具有1.57B和0.95B参数，并支持Matryoshka截断技术。关键优势在于完全向后兼容：现有jina-embeddings-v5-text的索引无需重新构建，可直接替换为v5-omni，在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲，小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face 检索增强多模态开源生态

08:49

Berryxia.AI@berryxia

Jina同步发布MLX格式嵌入模型，端侧AI部署迎来新趋势

Jina在其新版嵌入模型发布首日，即同步提供了全套MLX格式变体，改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标，背后应有自动化流程支持。这一动向反映了MLX生态的崛起：Qwen、DeepSeek等主流模型官方开始集成MLX，Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性，尤其适合在Mac的M系列统一内存上运行，为本地RAG等场景提供了理想的端侧AI解决方案。

Berryxia.AI: https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

Hugging Face 开源/仓库模型发布现象/趋势

5月12日

17:59

AK@_akhaliq

Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

Hugging Face 推理论文/研究

07:49

Berryxia.AI@berryxia

CJ Zafir 为开源模型微调新手提供实用入门建议

CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始，推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro，基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型，掌握微调技能市场价值高，企业常愿支付高额费用定制个性化模型。

CJ Zafir: If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...

Hugging Face 开源生态教程/实践数据/训练

06:58

Artificial Analysis@ArtificialAnlys

清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分，成为2B参数以下开源模型中得分最高的，刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%，领先同类小模型。模型支持文本、图像和视频输入，并具有极高的令牌效率，运行测试仅需540万输出令牌，远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当，处于较低水平。

Hugging Face 多模态模型发布端侧

5月11日

22:20

向阳乔木@vista8

MACE模型登顶Huggingface：MoE架构驱动音乐生成舞蹈视频

本周Huggingface排行榜上，MACE论文暂时位列第一。该研究采用混合专家（MoE）架构，实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。

Hugging Face 多模态视频论文/研究

18:39

SenseTime@SenseTime_AI

精选72

SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行，并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流，并对其图像生成能力进行了真实场景测试。模型支持8步快速推理，生成速度极快，应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHub Hugging Face 图像生成模型发布

推荐理由：商汤把新模型U1的ComfyUI部署流程完整放出，还有实测视频，想在自己机器上跑国产图像模型的开发者可以直接抄作业了。

06:45

Berryxia.AI@berryxia

这个太方便了啊！！！搞科研读论文的不要错过啦！如何安装Hugging face的CLI？ curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了！支持arxiv和hugging face…

向阳乔木: 如果你喜欢到Huggingface读最新的AI论文。可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文...

Hugging Face 开源/仓库教程/实践

01:33

Ant Ling@AntLingAGI

Ant Ling 2.6 1T的架构设计被@rasbt在其最新更新中收录和推荐。团队对此表示欣喜，并邀请社区通过Hugging Face页面和Discord频道提供反馈与参与讨论。@rasbt在推文中提到，他计划深入探讨一些最有趣的架构组件，并询问是否遗漏了其他重要架构。团队表示将持续发布更多更新。

Sebastian Raschka: Back from a little family break! Lots has happened, and I'm planning to do a deeper dive into the most interesting archi...

Hugging Face 开源生态行业动态

5月10日

23:14

向阳乔木@vista8

Hugging Face 开源生态教程/实践

02:27

AK@_akhaliq

MiniCPM-o 4.5 迈向实时全双工全模态交互论文： https://huggingface.co/papers/2604.27393

Hugging Face 多模态论文/研究语音

5月8日

23:47

AK@_akhaliq

MiA-Signature 近似全局激活以促进长上下文理解论文： https://huggingface.co/papers/2605.06416

Hugging Face 推理论文/研究

23:47

AK@_akhaliq

SkillOS 自我进化智能体的学习技能管理论文： https://huggingface.co/papers/2605.06614

智能体 Hugging Face 论文/研究

23:35

Berryxia.AI@berryxia

13个账号投放575个恶意AI插件，毒化技能生态

Hugging Face和ClawHub平台出现大规模恶意AI技能投放攻击。攻击者仅通过13个账号上传了超过575个伪装成有用工具的恶意插件，这些插件针对Windows和macOS系统，实际会安装木马、挖矿程序或信息窃取器。攻击采用隐藏命令和间接提示注入等技术绕过安全检测。此事件暴露了AI技能生态系统的根本性安全风险：用户在急切赋予AI代理更多能力时，往往随意安装未经验证的技能，导致最基本的信任链条被轻易击溃，使整个生态成为巨大的攻击面。真正的危险并非源于AI本身，而在于用户过于随意地交出了系统权限。

The Hacker News: ⚠️ Attackers poisoned Hugging Face & ClawHub (OpenClaw) with 575+ malicious skills from just 13 accounts. 🔸 Fake helpfu...