AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Hugging Face」清除
6月1日周一
23:43🚨 AI News | TestingCatalog58MiniMax M3已上线Atomic Chat
23:34SenseTime67同事件精选SenseNova新模型解决AI图表生成难题同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
22:12OpenBMB53Build Small黑客松报名6月3日截止
21:12OpenBMB78同事件精选OpenBMB发布UltraData两大开源数据集,登顶HuggingFace趋势榜同一事件,精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5‑1B核心数据》
14:00OpenClaw🦞72精选联合NVIDIA开源ClawHub技能安全扫描数据集
04:55Artificial Analysis74HiDream发布O1-Image系列文生图模型
5月30日周六
01:14Fei-Fei Li83精选GPIC:大规模视觉生成基准数据集发布
00:15AK58HuggingFace 推理 API 已提供 81k 模型
5月29日周五
19:30Hugging Face:Blog(RSS)71精选PyTorch 性能分析系列(一):torch.profiler 入门指南
11:35公众号:面壁智能(MiniCPM)61精选面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据
09:21IT之家(RSS)71阶跃星辰开源 Step 3.7 Flash 模型,最高生成速度每秒 400 Tokens
08:32Berryxia.AI39Hugging Face创始人用Opus 4.8构建波音747模型
00:06SenseTime65同事件精选SenseNova信息图表生成模型升级:文本、布局与图表质量全面增强同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
5月28日周四
17:47公众号:通义实验室(千问)54通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准
17:12MarkTechPost(RSS)67Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍
12:28HuggingFace Daily Papers(社区热门论文)65LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?
11:28HuggingFace Daily Papers(社区热门论文)66HRBench:混合推理大语言模型思考模式切换策略的评测与理解
08:00HuggingFace Daily Papers(社区热门论文)56Domino:从自回归草拟中解耦因果建模的推测解码框架
08:00HuggingFace Daily Papers(社区热门论文)53通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语
01:20Hugging Face:Blog(RSS)70精选ITBench-AA:前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%
00:20Hugging Face:Blog(RSS)72精选Reachy Mini 实现完全本地化语音交互
5月27日周三
22:20Hugging Face:Blog(RSS)61精选TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB
12:13IT之家(RSS)75同事件精选AI 制造 AI:面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》
11:13IT之家(RSS)49Hugging Face 推出双足机器人:开源、低成本、3D 打印
01:37Ars Technica:AI(RSS)57可3D打印的人形双腿让机器人实验更加自由
5月26日周二
20:30Tencent Hy70同事件精选腾讯 Hy-MT2 开源,HuggingFace 排行榜登顶同一事件,精选展示《腾讯开源Hy-MT2多语言翻译模型》
11:35公众号:面壁智能(MiniCPM)59面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B
10:59Tencent Hy69腾讯混元新翻译模型双榜亮眼,小程序发布
5月25日周一
18:49蚂蚁 inclusionAI:HuggingFace 新模型71同事件精选<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型69同事件精选蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
18:48蚂蚁 inclusionAI:HuggingFace 新模型68同事件精选inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
08:17karminski-牙医57比刷arXiv更高效:PapersWithCode一站式获取AI论文与代码
04:48Nathan Lambert64AI发展不止于算力,社会因素影响同样关键
5月23日周六
12:14美团 LongCat:HuggingFace 新模型49美团-LongCat/WBench权重模型
00:16Hugging Face:Blog(RSS)50专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API
5月22日周五
16:15HuggingFace Daily Papers(社区热门论文)62TransitLM: 用于无地图公交路线生成的大规模数据集与基准测试
14:47小互71网易有道开源双模型,聚焦工程精度与落地成本
10:14HuggingFace Daily Papers(社区热门论文)60伯尼尼:基于潜在语义规划的视频扩散模型
00:07美团 LongCat:HuggingFace 新模型73精选LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架
5月20日周三
22:08Berryxia.AI68PaddleOCR 3.5支持Hugging Face生态
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
23:43
🚨 AI News | TestingCatalog@testingcatalog
58
MiniMax M3模型现已集成至Atomic Chat。在一项测试中,Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图,并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示,该任务消耗输入6,920模型token,生成输出9,933模型token,总成本仅为$0.028。此外,MiniMax计划于下周在HuggingFace发布M3模型。

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

Hugging Face多模态模型发布编码
23:34
SenseTime@SenseTime_AI
同事件精选67
SenseNova新模型解决AI图表生成难题

大多数AI模型在生成图表时存在数值错误(如负值显示为正)、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic(SenseNova-U1)专为解决此类图表生成问题而设计,能够生成准确的图表,并支持实时调整设计和布局。项目在Hugging Face提供了模型,并在GitHub展示了效果案例。

GitHubHugging Face图像生成模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:大部分AI生成的图表都有标注错误或比例失调,商汤这个模型专攻信息图准确性,对常做图表的产品人和分析师来说值得一试。
22:12
OpenBMB@OpenBMB
53
快速提醒:Build Small黑客松报名将于6月3日截止! 🏆总现金奖金:约4万美元 其中1万美元为@OpenBMB特别奖,授予使用#MiniCPM模型的最佳项目。 别错过!立即注册:https://huggingface.co/build-small-hackathon 我们强烈推荐使用MiniCPM模型--它们小巧、强大,非常适合本次黑客松。 让我们一起构建精彩项目!🤗🚀
Hugging Face端侧行业动态
21:12
OpenBMB@OpenBMB
同事件精选78
OpenBMB发布UltraData两大开源数据集,登顶HuggingFace趋势榜

OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Hugging Face开源/仓库数据/训练
同一事件,精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据》
推荐理由:面壁开源了两个王炸数据集,预训练的 600B+ token 中文合成数据史上最大,SFT 那边 1500 万条带思考链的指令更是头一回见,做中文基础模型的可以无脑下载了。
14:00
OpenClaw🦞@openclaw
精选72
与 @nvidia 合作,我们开源了一个包含 67,453 个 @huggingface 上 ClawHub 技能安全扫描的数据集: - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security
智能体Hugging Face安全/对齐论文/研究

推荐理由:OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果,一半被标风险但真正恶意的不到千分之三,不同扫描器几乎没共识。做 agent 安全的应该看看。
04:55
Artificial Analysis@ArtificialAnlys
74
HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Hugging Face图像生成开源生态模型发布
5月30日
01:14
Fei-Fei Li@drfeifei
精选83
我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face图像生成数据/训练论文/研究

推荐理由:李飞飞都来站台,这个数据集不简单。完全允许商业用途是关键,对做视觉生成的团队来说,终于有了一个不用再为版权头疼的超级训练库。
00:15
AK@_akhaliq
58
81k 模型可通过 HuggingFace 推理 API 使用
Hugging Face产品更新开源生态部署/工程
5月29日
19:30
Hugging Face:Blog(RSS)
精选71
PyTorch 性能分析系列(一):torch.profiler 入门指南

本文是 PyTorch profiling 系列的开篇,从最简单的矩阵乘法加偏置操作出发,逐步讲解如何使用 torch.profiler 进行性能分析。涵盖 profiler 设置、导出统计表格与 Chrome trace、解读 CPU 和 GPU 活动的时序关系,以及 torch.compile 对底层 CUDA kernel 调用链的影响。实验基于 NVIDIA A100-SXM4-80GB GPU 运行,面向基本掌握 PyTorch 但缺乏 profiling 经验的读者。

Hugging Face教程/实践部署/工程

推荐理由:PyTorch profiling 的陡峭学习曲线劝退了很多人,这篇用从零开始的方式把 trace 拆解得明明白白,想做性能优化的同学该收藏。
11:35
公众号:面壁智能(MiniCPM)
精选61
面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集:Ultra-FineWeb-L3(超600B Tokens,中文200B+,为当前最大中文预训练合成数据集)和UltraData-SFT-2605(国内首个千万级同时含深思考与非思考标注的SFT数据集)。两者基于UltraData数据分级治理体系构建,在MiniCPM5-1B训练流程中得到完全验证,覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace,免费开放。

Hugging Face开源/仓库数据/训练端侧

推荐理由:填补了中文大规模合成数据空白,三年前还在用英文数据做中文模型的日子可以翻篇了,做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。
09:21
IT之家(RSS)
71
阶跃星辰开源 Step 3.7 Flash 模型,最高生成速度每秒 400 Tokens
智能体Hugging Face多模态模型发布
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)公众号:阶跃星辰(Step)
08:32
Berryxia.AI@berryxia
39
Hugging Face的创始人Victor M使用Opus 4.8,通过three.js构建并通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

AnthropicHugging Face大佬观点编码
00:06
SenseTime@SenseTime_AI
同事件精选65
SenseNova信息图表生成模型升级:文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Hugging Face图像生成多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这个8B信息图生成模型升级了,文本和布局都更稳,对常做数据图表和学术配图的人算个实用的小迭代,没有到改变游戏规则的程度。
5月28日
17:47
公众号:通义实验室(千问)
54
通义实验室发布Qwen-Image-Bench:56项细粒度创作评测基准

通义实验室推出文生图评测基准Qwen-Image-Bench,由专业艺术家团队开发,将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger,与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt,每条覆盖至少4项考点。结果显示,当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显,世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

arXivHugging Face图像生成多模态
17:12
MarkTechPost(RSS)
67
Perplexity AI 开源 Unigram 分词器,实现 p50 延迟相比 Hugging Face tokenizers Crate 降低 5 倍

Perplexity AI 开源了一款重写的 Unigram 分词器。该分词器在 p50 延迟上相比 Hugging Face tokenizers Crate 实现了 5 倍的降低,同时能够将生产环境的 CPU 使用率降低 5-6 倍。

Hugging Face开源/仓库部署/工程
12:28
HuggingFace Daily Papers(社区热门论文)
65
LiveBrowseComp:搜索智能体是在真正搜索,还是在验证既有知识?

研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。

智能体arXivHugging Face搜索
11:28
HuggingFace Daily Papers(社区热门论文)
66
HRBench:混合推理大语言模型思考模式切换策略的评测与理解

本研究提出了HRBench,一个统一的评测框架,用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族(基于提示的选择、外部路由、推测执行)与四种训练方式(免训练、SFT、离线RL、在线RL)两个维度设计空间,形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型,以及数学、科学、代码等5个推理基准上,重新实现了12余种现有方法并进行评估。分析表明,不同策略在有效性与效率的权衡中特点各异,且策略偏好随模型规模和任务领域变化。

GitHubHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
Domino:从自回归草拟中解耦因果建模的推测解码框架

Domino是一种用于加速大语言模型推理的推测解码框架,它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布,随后应用一个轻量级的Domino头,利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程,论文提出了基础锚定训练课程,先强化并行骨干,再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端下实现了高达5.49倍的端到端加速,在SGLang服务下实现了高达5.8倍的吞吐量加速。

arXivHugging Face推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
通过跨语言分词器手术和离线蒸馏适配多语言嵌入模型至土耳其语

本文介绍了embeddingmagibu-200m,一款专注于土耳其语的句子嵌入模型。它能生成768维L2归一化向量,支持8,192 token的上下文窗口。该模型不进行完整预训练,而是采用三阶段适配流水线训练:构建优化的土耳其语分词器、克隆并适配教师模型权重,以及使用预计算向量进行离线知识蒸馏。学生模型约200M参数,在单个GPU上训练约4小时,成本为5-20美元。它在STSbTR基准上性能超越了作为教师的300M参数模型,并在TR-MTEB的26个任务中排名靠前,实现了有竞争力的性价比。所有模型权重、分词器及训练工具均已开源。

Hugging Face检索增强开源/仓库论文/研究
01:20
Hugging Face:Blog(RSS)
精选70
ITBench-AA:前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示,所有前沿大模型得分均未超过50%。Claude Opus 4.7(自适应推理,最大努力)以47%领先,GPT-5.5(xhigh)和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍,但更长的轨迹并不转化为更高准确率,过度调查的模型会因提交误报而受罚。在成本方面,开源模型Gemma 4 31B(Reasoning)以每任务$0.14的成本获得37%得分,优于成本更高但得分更低的闭源模型。

智能体Hugging Face评测/基准
关联讨论 1 条X:通义千问 / Qwen (@Alibaba_Qwen)
推荐理由:IT运维这事儿,AI还是新手。ITBench-AA这份基准把Claude Opus 4.7逼到47%,开源模型GLM-5.1却用五分之一成本拿到40%,企业场景性价比可能不在闭源那边。
00:20
Hugging Face:Blog(RSS)
精选72
Reachy Mini 实现完全本地化语音交互

Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互,无需依赖云端。该方案采用级联流水线架构,对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问(Qwen3-TTS)作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理,保障了隐私且无 API 费用。

智能体Hugging Face教程/实践语音

推荐理由:小众硬件的本地语音实战,但HF这套开源管线证明端到端对话已完全可用,所有组件都可自由替换,想做本地化语音助手的人可以照抄。
5月27日
22:20
Hugging Face:Blog(RSS)
精选61
TRL 新增 Delta Weight Sync:通过 Hub Bucket 传输权重变化,每步从 1.2 GB 降至 20-35 MB

异步强化学习中,训练器每步需将完整模型权重(如1T参数checkpoint约1 TB)传输给推理引擎。TRL新增PR利用相邻RL优化步骤间约99%的bf16权重比特相同的特点,仅将变化的权重编码为稀疏safetensors文件,上传至Hugging Face Bucket并通知vLLM获取。在Qwen3-0.6B上,每步传输从1.2 GB降至20–35 MB。实验还展示了完全分离的训练场景:训练器、vLLM和Wordle环境分别位于不同机器和Hugging Face Space中,权重通过单个Hub bucket流动,无需共享集群、RDMA或VPN。

Hugging Face教程/实践数据/训练部署/工程

推荐理由:异步RL训练中权重同步的瓶颈被HuggingFace用稀疏增量方案解决了,带宽直接省了两个数量级,还给了可运行的TRL分支,做RL训练的可以直接上手试。
12:13
IT之家(RSS)
同事件精选75
AI 制造 AI:面壁智能开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学与OpenBMB开源社区发布了ForgeTrain框架。该框架是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。面壁智能已使用ForgeTrain在华为昇腾芯片上完成了其新一代「小钢炮」模型MiniCPM5-1B的预训练,其综合性能在AA榜单上位列2B规模以下Top 1。ForgeTrain框架代码及用于制造该框架的Agent Harness工具链已完全开源。

智能体Hugging Face开源/仓库开源生态
同一事件,精选展示《AI 制造 AI:面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain》
推荐理由:全球首个AI独立编写的训练框架,零人类代码,并且真的在国产芯片上训出了领先模型。'AI造AI'的闭环第一次被完整打通,做模型训练的团队都该去fork一下,复现过程本身就是一堂课。
11:13
IT之家(RSS)
49
Hugging Face 推出双足机器人:开源、低成本、3D 打印

Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。

Hugging Face具身智能开源/仓库开源生态
01:37
Ars Technica:AI(RSS)
57
可3D打印的人形双腿让机器人实验更加自由

Hugging Face 推出一款售价为 $2,500 的双足机器人项目,旨在为构建者和研究人员提供支持。该项目的核心设计为人形腿部,并且其部件支持可3D打印。

Hugging Face产品更新具身智能
5月26日
20:30
Tencent Hy@TencentHunyuan
同事件精选70
腾讯 Hy-MT2 开源,HuggingFace 排行榜登顶

腾讯的 Hy-MT2 模型基于 Apache License 2.0 开源,可用于研究、商业使用、微调和衍生品,无任何限制。其两个变体在 Hugging Face 趋势排行榜上分别位居 #1 和 #4,鼓励社区克隆、分叉和反馈以推动迭代。

Hugging Face开源生态行业动态
同一事件,精选展示《腾讯开源Hy-MT2多语言翻译模型》
推荐理由:腾讯把Hy-MT2改成Apache 2.0许可证,商用衍生都没问题,之前因为许可犹豫的人现在可以放心用了,模型在Hugging Face trending霸榜,值得重新评估。
11:35
公众号:面壁智能(MiniCPM)
59
面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B,一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分,超越所有2B以下参数模型,包括Qwen3.5-2B(16.3分),验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB,可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain(全球首个完全由AI编写,训练速度比Megatron快10%)在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案,支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face开源生态推理模型发布
10:59
Tencent Hy@TencentHunyuan
69
腾讯混元新翻译模型双榜亮眼,小程序发布

腾讯混元发布翻译模型 Hy-MT2,在 Hugging Face 开源模型趋势排行榜上表现突出:1.8B 版本排名第一,30B-A3B(MoE)版本排名第四,下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序,支持语音输入与离线翻译,并可自定义翻译风格与指令。模型代码与权重已开源。

Hugging Face开源生态模型发布
关联讨论 2 条IT之家(RSS)X:腾讯混元 (@TencentHunyuan)
5月25日
18:49
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选71
<中文标题>SingGuard: 策略自适应多模态护栏模型族开源</中文标题>

<中文摘要>SingGuard 是一个策略自适应的多模态护栏模型族,包含 Sing-Guard-4b 和 Sing-Guard-8b 两个版本。它将安全策略作为运行时输入而非固定分类,部署团队可自定义自然语言规则而无需重训练模型。支持文本、图像、图文、多语言以及查询端与响应端的安全评估,提供快速和快慢结合两种推理模式。在涵盖多模态安全、纯图像安全、文本查询/响应安全、多语言查询/响应安全六大类基准上取得平均 SOTA 表现。模型已开源至 HuggingFace 和 ModelScope。</中文摘要>

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁的 SingGuard 把安全策略变成了运行时输入,意味着审核规则可以随时改而不必重训模型,这对做内容安全的产品人是真省事,值得跟进。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选69
蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族(版本 Sing-Guard-8b),支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入,部署团队可基于默认分类或自定义自然语言规则评估内容,无需重新训练模型。模型内置 fast-slow 动态推理流程:首 token 路由快速输出安全信号,需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能,并已开源至 HuggingFace 与 ModelScope。

Hugging Face多模态安全/对齐开源/仓库
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:蚂蚁集团开源的多模态内容审核模型,最大亮点是运行时动态注入安全策略而不需重训,对需要灵活定制审核规则的团队是低门槛的高分工程实现。
18:48
蚂蚁 inclusionAI:HuggingFace 新模型
同事件精选68
inclusionAI 发布 Sing-Guard-2b:策略自适应多模态大模型安全护栏

inclusionAI 开源了 Sing-Guard 模型家族,版本包括 Sing-Guard-2b 和 Sing-Guard-8b。该模型将安全策略作为运行时输入,支持文本、图像、图文及多语言场景的查询侧

Hugging Face多模态安全/对齐模型发布
同一事件,精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》
推荐理由:SingGuard把安全策略变成运行时输入,不用再为新规则重新训练模型,这对需要频繁调整审核标准的团队来说是个实用的发布。
08:17
karminski-牙医@karminski3
57
比刷arXiv更高效:PapersWithCode一站式获取AI论文与代码

介绍了一个由HuggingFace开源团队成员开发的网站PapersWithCode,该网站能实时收录最新的AI论文和GitHub代码库。它提供了优秀的导航功能,支持按领域浏览论文,并能直接展示模型的benchmark数据和HuggingFace页面,为AI从业者提供了高效的一站式信息聚合服务。

Hugging Face搜索教程/实践
04:48
Nathan Lambert@natolambert
64
当前AI进步常被归因于少数算力雄厚的实验室。推文指出,社会动态、政策、技术扩散(diffusion)等其他因素同样深刻影响AI演进,且此领域存在未被充分重视的影响力机遇。开放科学与开放模型是应对方向之一。文中引用观点指出,通往AGI的预训练工作高度集中于OpenAI、Google、Meta等巨头,算力差距的残酷现实是,AGI关键路径上的问题现需巨大算力门槛。

Aidan Clark: If you want to work on pretraining-for-AGI, join OpenAI, Google, Meta or the Anthropic/XAI/Cursor supergroup. The bitter...

Hugging Face大佬观点开源生态
5月23日
12:14
美团 LongCat:HuggingFace 新模型
49
美团-LongCat/WBench权重模型

美团开源了用于WBench评估框架的预训练模型权重仓库,将这些权重整合至单一仓库,旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途,所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南,具体模型许可证详见LICENSE_NOTICE.md文件。

Hugging Face开源/仓库数据/训练
00:16
Hugging Face:Blog(RSS)
50
专业化胜过规模:Dharma 发布 DharmaOCR,3B 专用模型在 OCR 基准上超越商业前沿 API

4月,Dharma 发布 DharmaOCR——一对 3B 参数专用小语言模型,用于结构化 OCR,同时开源基准与论文。在巴西葡萄牙语 OCR 基准上,该 3B 专用模型通过全微调实现综合得分 0.911,超过所有测试的商业前沿 API(Claude Opus 4.6 0.833、Gemini 3.1 Pro 0.820、GPT-5.4 0.750)。每百万页成本仅为 Claude Opus 4.6 的约 1/52,质量与成本均占据 Pareto 前沿。结果表明:当训练数据与部署任务充分对齐时,参数规模不再是决定性变量,专业化微调能以极低代价实现更高性能。

arXivHugging Face数据/训练现象/趋势
5月22日
16:15
HuggingFace Daily Papers(社区热门论文)
62
TransitLM: 用于无地图公交路线生成的大规模数据集与基准测试

TransitLM是首个支持绕过地图依赖的公交路线规划数据集,包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练,也设立了三项互补的评估任务。实验表明,基于该数据集训练的大语言模型能高准确率地生成结构合理的路线,并能隐式地将GPS坐标匹配至站点,无需显式地图。这证明公交路线规划可完全从数据中学习,实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。

Hugging Face数据/训练论文/研究
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
10:14
HuggingFace Daily Papers(社区热门论文)
60
伯尼尼:基于潜在语义规划的视频扩散模型

本文提出了Bernini,一个用于视频生成与编辑的统一框架。该框架创新性地将多模态大语言模型与扩散模型分工协作:MLLM负责在ViT嵌入空间预测目标语义表示,扩散模型则依据此语义规划及文本特征合成像素。为处理多视觉输入,模型引入了分段感知三维旋转位置编码,并结合思维链推理,显著提升了从理解到生成的转化能力。该架构支持模块化训练与轻量协同优化,在多项视频生成与编辑基准测试中均取得最优表现。

Hugging Face多模态视频论文/研究
00:07
美团 LongCat:HuggingFace 新模型
精选73
LongCat-Video-Avatar-1.5:升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5,一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器,显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性,并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术,模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准,通过大规模主观评分与专家分析,验证了其在多项关键维度上的优异性能。

Hugging Face图像生成多模态开源/仓库
关联讨论 1 条IT之家(RSS)
推荐理由:美团把数字人模型升级到1.5版,换了Whisper做音频编码,唇形同步比之前自然不少,而且开源了训练代码,做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。
5月20日
22:08
Berryxia.AI@berryxia
68
PaddleOCR 3.5支持Hugging Face生态

PaddleOCR 3.5版本正式支持Transformers作为推理后端。更新后,PP-OCRv5和PaddleOCR-VL 1.5模型可在Hugging Face生态内直接运行,实现了与主流Transformer技术栈的无缝集成。此举解决了此前将OCR工具整合进RAG或Document AI项目时需要额外搭建服务栈的繁琐问题,大幅降低了开发门槛,让OCR能力更自然地融入现有AI应用开发流程。

PaddlePaddle: 🚀 PaddleOCR 3.5: Transformers Backend Support Now Live! We're excited to share that PaddleOCR 3.5 now supports Hugging ...

Hugging Face开源/仓库部署/工程
‹ 上一页
123456…9
下一页 ›