6月1日

23:43

🚨 AI News | TestingCatalog@testingcatalog

MiniMax M3模型现已集成至Atomic Chat。在一项测试中，Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图，并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示，该任务消耗输入6，920模型token，生成输出9，933模型token，总成本仅为$0.028。此外，MiniMax计划于下周在HuggingFace发布M3模型。

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

Hugging Face 多模态模型发布编码

23:34

SenseTime@SenseTime_AI

同事件精选67

SenseNova新模型解决AI图表生成难题

大多数AI模型在生成图表时存在数值错误（如负值显示为正）、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic（SenseNova-U1）专为解决此类图表生成问题而设计，能够生成准确的图表，并支持实时调整设计和布局。项目在Hugging Face提供了模型，并在GitHub展示了效果案例。

GitHub Hugging Face 图像生成模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：大部分AI生成的图表都有标注错误或比例失调，商汤这个模型专攻信息图准确性，对常做图表的产品人和分析师来说值得一试。

22:12

OpenBMB@OpenBMB

快速提醒：Build Small黑客松报名将于6月3日截止！ 🏆总现金奖金：约4万美元其中1万美元为@OpenBMB特别奖，授予使用#MiniCPM模型的最佳项目。别错过！立即注册：https://huggingface.co/build-small-hackathon 我们强烈推荐使用MiniCPM模型--它们小巧、强大，非常适合本次黑客松。让我们一起构建精彩项目！🤗🚀

Hugging Face 端侧行业动态

21:12

OpenBMB@OpenBMB

同事件精选78

OpenBMB发布UltraData两大开源数据集，登顶HuggingFace趋势榜

OpenBMB联合清华NLP与Modelbest发布两个开源数据集：Ultra-FineWeb-L3（预训练合成数据）包含600B+ tokens（超400B英文、200B+中文），是迄今最大开源中文预训练合成数据集；UltraData-SFT-2605（后训练SFT数据）包含15M+样本，是中国首个开源且包含思考与非思考标注的大规模SFT数据集，覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建，并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Hugging Face 开源/仓库数据/训练

同一事件，精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据》

推荐理由：面壁开源了两个王炸数据集，预训练的 600B+ token 中文合成数据史上最大，SFT 那边 1500 万条带思考链的指令更是头一回见，做中文基础模型的可以无脑下载了。

14:00

OpenClaw🦞@openclaw

精选72

与 @nvidia 合作，我们开源了一个包含 67，453 个 @huggingface 上 ClawHub 技能安全扫描的数据集： - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

智能体 Hugging Face 安全/对齐论文/研究

推荐理由：OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果，一半被标风险但真正恶意的不到千分之三，不同扫描器几乎没共识。做 agent 安全的应该看看。

04:55

Artificial Analysis@ArtificialAnlys

HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型，包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev，以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上，Dev-2604版本在所有开源权重模型中排名第一，生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中，HiDream-O1-Image是排名第二高的开源模型，仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供，价格分别为$10/1k images和$5/1k images。

Hugging Face 图像生成开源生态模型发布

5月30日

01:14

Fei-Fei Li@drfeifei

精选83

我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋！🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face 图像生成数据/训练论文/研究

推荐理由：李飞飞都来站台，这个数据集不简单。完全允许商业用途是关键，对做视觉生成的团队来说，终于有了一个不用再为版权头疼的超级训练库。

00:15

AK@_akhaliq

81k 模型可通过 HuggingFace 推理 API 使用

Hugging Face 产品更新开源生态部署/工程

5月29日

19:30

Hugging Face：Blog（RSS）

精选71

PyTorch 性能分析系列（一）：torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇，从最简单的矩阵乘法加偏置操作出发，逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系，以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行，面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face 教程/实践部署/工程

推荐理由：PyTorch profiling 的陡峭学习曲线劝退了很多人，这篇用从零开始的方式把 trace 拆解得明明白白，想做性能优化的同学该收藏。

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

09:21

IT之家（RSS）

阶跃星辰开源 Step 3.7 Flash 模型，最高生成速度每秒 400 Tokens

智能体 Hugging Face 多模态模型发布

关联讨论 3 条

08:32

Berryxia.AI@berryxia

Hugging Face的创始人Victor M使用Opus 4.8，通过three.js构建并通过了这个波音747飞机的测试，我一会试试能不能复刻一个类似的场景，试试Opus的能力如何！

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

Anthropic Hugging Face 大佬观点编码

00:06

SenseTime@SenseTime_AI

同事件精选65

SenseNova信息图表生成模型升级：文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于：增强了文本的准确性与可读性，减少了重复和不自然的放大；改进了布局的一致性与合理性，背景更稳定；提升了图表与示意图的渲染质量；并新增了学术内容的渲染支持。

Hugging Face 图像生成多模态模型发布

同一事件，精选展示《商汤发布信息图生成模型升级，增强多项核心能力》

推荐理由：商汤这个8B信息图生成模型升级了，文本和布局都更稳，对常做数据图表和学术配图的人算个实用的小迭代，没有到改变游戏规则的程度。

5月28日