AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 122 条
全部一手资讯X论文
标签「Hugging Face」清除
向阳乔木@vista8 · 6月3日70

读了今天Huggingface最热论文,关于如何让AI生成论文图表的Harness框架。 框架会围绕一个共享的结构化规格文档 S。 ① 设计者 D:根据 S 生成可执行的视觉方案 ② 执行者 E:将方案渲染成图像(或代码) ③ 验证者 V:输出带有具体问题定位的诊断报告 ④ 修订者 R:将诊断转化为结构化操作,直接修改 S 中的对应字段 参考并简化,写了一个Skill: 设计者(生图提示词) 执行者(Codex调用GPT-image-2生图) 验收者(审美评判,这个可能不靠谱) 另外整合了抓取Skill,只需要提供URL就能生成配图,哪怕是 X URL。 生成效果如下:

译Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。

AK@_akhaliq · 6月3日60

Seeing Isn't Knowing Do VLMs Know When Not to Answer Spatial Questions (and Why)?

译视觉语言模型知道何时不回答空间问题吗(以及为什么)?

SenseTime@SenseTime_AI · 6月2日73

Thanks for using our model to create these complex charts and diagrams. It's great to see challenging information transformed into clear, accurate, and readable visuals. That's what we aim for. 😄

译感谢使用我们的模型来创建这些复杂的图表和图表。 看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

SenseTime@SenseTime_AI · 6月2日71

Turning complex information into accurate charts and diagrams. That's 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰. Learn more: https://x.com/SenseTime_AI/status/2061465029959209106?s=20

译将复杂信息转化为准确的图表和示意图。这就是 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰。了解更多:https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Artificial Analysis@ArtificialAnlys · 6月2日77

NVIDIA's Cosmos 3 lands at #1 among open weights models in both Text to Image and Image to Video on the Artificial Analysis Leaderboards! Cosmos 3 is a family of omnimodal world models for Physical AI from @nvidia, unifying language, image, video, audio and action in a single Mixture-of-Transformers architecture that pairs an autoregressive reasoner with a diffusion generator. The family comes in four variants: base Nano (16B: 8B reasoner tower + 8B generator tower) and Super (64B: 32B reasoner tower + 32B generator tower) models, with the Super model also having Text2Image and Image2Video fine-tuned variants, which are the versions listed in the Artificial Analysis Arena Leaderboards. Cosmos3-Super-Text2Image (agentic) runs through an agentic prompt-upsampling harness, and takes the #1 open weights spot in Text to Image, surpassing HiDream-O1-Image-Dev-2604, Alibaba's Qwen Image Max 2512 and Black Forest Labs' FLUX.2 [dev]. Cosmos3-Super-Image2Video takes #1 open weights in Image to Video (No Audio), ahead of Lightricks' LTX-2, and Alibaba's Wan 2.2 A14B. Cosmos 3 generators take structured JSON prompts rather than plain text, so prompt upsampling is needed to reproduce these results. This upsampling can be handled by an external harness or by the model's own reasoner branch, so it can also run self-contained. Cosmos 3 is fully open under the OpenMDW 1.1 license, shipping with weights, code, curated datasets and fine-tuning recipes available on @huggingface. First-party and third-party APIs are expected over the next few weeks, with pricing to follow. See the thread below for example generations and a link to try Cosmos 3 in our arena 🧵

译NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。

🚨 AI News | TestingCatalog@testingcatalog · 6月1日58

MiniMax M3 is now live inside Atomic Chat 👀 Atomic tested M3 on a task to read a hand-drawn napkin sketch, write the game logic, build the UI, and ship a playable HTML platformer in one pass. All this for $0.028 🤖

译MiniMax M3模型现已集成至Atomic Chat。在一项测试中,Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图,并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示,该任务消耗输入6,920模型token,生成输出9,933模型token,总成本仅为$0.028。此外,MiniMax计划于下周在HuggingFace发布M3模型。

SenseTime@SenseTime_AI · 6月1日67

𝗚𝗲𝘁𝘁𝗶𝗻𝗴 𝗰𝗵𝗮𝗿𝘁𝘀 𝗮𝗻𝗱 𝗱𝗶𝗮𝗴𝗿𝗮𝗺𝘀 𝗿𝗶𝗴𝗵𝘁 𝘄𝗶𝘁𝗵 #𝗔𝗜 📊 Most AI models still struggle with these data visuals — negatives shown as positives, bar positions off, element relationships scrambled. 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮‐𝗨𝟭‐𝟴𝗕‐𝗠𝗼𝗧‐𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 breaks through that barrier. Generate accurate visuals, then tweak the design and layout on the fly. See the difference and try it yourself: See the difference and try it yourself: 🤗 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️ Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub@github @huggingface @github

译大多数AI模型在生成图表时存在数值错误(如负值显示为正)、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic(SenseNova-U1)专为解决此类图表生成问题而设计,能够生成准确的图表,并支持实时调整设计和布局。项目在Hugging Face提供了模型,并在GitHub展示了效果案例。

OpenBMB@OpenBMB · 6月1日53

Just a quick reminder: Build Small Hackathon sign-up closes on June 3! 🏆Total cash prizes: ~$40K $10K @OpenBMB Special Awards for the best projects using #MiniCPM models. Don’t miss out! Register now:https://huggingface.co/build-small-hackathon We highly recommend using MiniCPM models — they’re small, powerful, and perfect for this hackathon. Let’s build something awesome together!🤗🚀

译快速提醒:Build Small黑客松报名将于6月3日截止! 🏆总现金奖金:约4万美元 其中1万美元为@OpenBMB特别奖,授予使用#MiniCPM模型的最佳项目。 别错过!立即注册:https://huggingface.co/build-small-hackathon 我们强烈推荐使用MiniCPM模型——它们小巧、强大,非常适合本次黑客松。 让我们一起构建精彩项目!🤗🚀

OpenBMB@OpenBMB · 6月1日78

🏆 Big news! UltraData just hit #1 AND #2 on HuggingFace Trending worldwide! 🎉 Released by OpenBMB × @TsinghuaNLP × Modelbest — two massive open-source datasets now free for everyone: 🔥 Ultra-FineWeb-L3 (web pretraining synthetic data) → 600B+ tokens (400B+ English, 200B+ Chinese) → Largest open-source Chinese pretraining synthetic dataset to date → Built to maximize learnability per token 🔥 UltraData-SFT-2605 (post-training SFT data) → China's first open-source 15M+ SFT dataset with both thinking & non-thinking annotations → Covers math, code, knowledge & instruction-following → Fully traceable data pipeline 🧱 Both built on the UltraData L0–L4 five-tier data management framework, validated end-to-end on MiniCPM5-1B training. Free to download now 👇 https://huggingface.co/datasets/openbmb/Ultra-FineWeb-L3 https://huggingface.co/datasets/openbmb/UltraData-SFT-2605 #OpenSource #LLM #AI #HuggingFace #MiniCPM #UltraData

译OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

OpenClaw🦞@openclaw · 6月1日72

In collaboration with @nvidia, we’re open-sourcing a dataset of security scans for 67,453 ClawHub skills on @huggingface: - NVIDIA SkillSpector flagged 1/2 for agentic risk - Only 0.31% were malicious - No two scanners agreed on more than 8.5% of risks https://openclaw.ai/blog/openclaw-nvidia-skill-security

译与 @nvidia 合作,我们开源了一个包含 67,453 个 @huggingface 上 ClawHub 技能安全扫描的数据集: - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security

Artificial Analysis@ArtificialAnlys · 6月1日74

HiDream-O1-Image-Dev-2604 debuts as the leading open weights Text to Image model in the Artificial Analysis Image Arena, with the base HiDream-O1-Image and HiDream-O1-Image-Dev also available open weights but landing lower on the leaderboard @HiDream_AI's O1-Image family spans three models: the 8B HiDream-O1-Image, its distilled HiDream-O1-Image-Dev, and HiDream-O1-Image-Dev-2604, a fine-tune of Dev with a prompt-enhancement pipeline, previously listed pseudonymously as Peanut. The base and Dev models accept text plus up to 10 image inputs, spanning generation and instruction-based image editing. On the Artificial Analysis Text to Image Arena, HiDream-O1-Image-Dev-2604 leads all open weights models, delivering quality similar to proprietary models like ByteDance's Seedream 4.0 and Black Forest Labs' FLUX.2 [max]. In Image Editing, HiDream-O1-Image is the second-highest open weights model, behind only Tencent's HunyuanImage 3.0 Instruct. Weights and the full inference pipeline (including HiDream's prompt refiner used during evaluation for HiDream-O1-Image-Dev-2604) are open-source on Hugging Face and GitHub under the MIT license. HiDream-O1-Image and HiDream-O1-Image-Dev are also available across third-party API providers including Fal, priced on Fal at $10/1k images and $5/1k images respectively. Congratulations to @HiDream_ai on the releases! See below for comparisons between the HiDream-O1-Image family and other leading models in the Artificial Analysis Image Arena 🧵

译HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Fei-Fei Li@drfeifei · 5月30日83

I’m very excited by this new benchmark dataset for visual generation that is suitable for the modern era of large scale generative models!🤩

译我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

AK@_akhaliq · 5月30日58

81k models available through huggingface inference api

译81k 模型可通过 HuggingFace 推理 API 使用

Berryxia.AI@berryxia · 5月29日39

hugging face的创始人Victor M使用Opus 4.8 使用three.js 构建通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

译Hugging Face的创始人Victor M使用Opus 4.8,通过three.js构建并通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

SenseTime@SenseTime_AI · 5月29日65

𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github

译SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Tencent Hy@TencentHunyuan · 5月26日70

🚀 Open-source upgrade unlocked. Tencent Hy-MT2 is now under Apache License 2.0 — maximum freedom for research, commercial use, fine-tuning, and derivatives. No strings attached.😎😎😎 Proud to push model weights back to the community. Our two variants are currently sitting at #1 and #4 on the Hugging Face trending leaderboard. Clone, fork, break things, ship feedback. The iteration loop is live.🔥 Let’s keep building the frontier together. #Tencent #Hy #HyMT2 #Apache2 #HuggingFace #OpenSourceA

译腾讯的 Hy-MT2 模型基于 Apache License 2.0 开源,可用于研究、商业使用、微调和衍生品,无任何限制。其两个变体在 Hugging Face 趋势排行榜上分别位居 #1 和 #4,鼓励社区克隆、分叉和反馈以推动迭代。

Tencent Hy@TencentHunyuan · 5月26日69

🙏 Thank you all for the incredible love and support! Our latest Tencent Hunyuan translation models are on fire on Hugging Face: 🥰Hy-MT2-1.8B ranks #1 🥰Hy-MT2-30B-A3B ranks #4 on the open-source model trending leaderboard, with over 7K downloads already! To make it even easier for everyone, we’ve launched the Tencent Hy Translation WeChat mini-program, built on Hy-MT2. It supports voice input and offline translation, plus powerful customization of translation styles and instructions — delivering results that better match your expectations and feel far more practical. Try it out and share your feedback with us — we’d love to hear from you! Models on HF: https://huggingface.co/tencent/Hy-MT2-1.8B https://huggingface.co/tencent/Hy-MT2-30B-A3B GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2 #HyMT2 #TencentHunyuan #OpenSource

译腾讯混元发布翻译模型 Hy-MT2,在 Hugging Face 开源模型趋势排行榜上表现突出:1.8B 版本排名第一,30B-A3B(MoE)版本排名第四,下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序,支持语音输入与离线翻译,并可自定义翻译风格与指令。模型代码与权重已开源。

karminski-牙医@karminski3 · 5月25日57

我找到了比浏览arXiv更有效的方法! 对AI感兴趣或者Aides领域的工程师/研究员估计每周都会抽出来时间阅读最新的论文或者github repo当作一手信息源, 但是大家通常都是要么在社交媒体看到了比较火热的论文, 或者干脆去 arXiv 一篇篇找着看. 有没有每天起床就能看到昨天最火的论文或者repo的地方? 有了老铁们! HuggingFace 开源团队成员搞了个网站 PapersWithCode 就像字面意思, 论文和代码. 这个网站会实时收录新的论文和Github repo, 所以还在用龙虾/爱马仕自己聚合信息流的同学也不用把旧有的扔掉, 直接抓他们的网站就行了. 另外网站的导航功能做得非常好, 不仅能看到当天的最火论文, 甚至还能按照领域浏览论文, 比如我搜了一下 RAG 相关的, 即使现在充斥着"RAG已死"的论调, 但是 RAG相关的研究也是有的. 他们的体验做的非常好, 甚至比如查看最新的模型, 他还能展示模型的 benchmark 数据, 模型的 HuggingFace 地址等等. 基本是AI领域的究极"网址导航"了 #arxiv #github

译介绍了一个由HuggingFace开源团队成员开发的网站PapersWithCode,该网站能实时收录最新的AI论文和GitHub代码库。它提供了优秀的导航功能,支持按领域浏览论文,并能直接展示模型的benchmark数据和HuggingFace页面,为AI从业者提供了高效的一站式信息聚合服务。

Nathan Lambert@natolambert · 5月25日64

Something that's squashed in this is that other things impact the evolution of AI than just the few labs with mega compute. There are many social dynamics, policy, diffusion, etc and there's a substantial unaddressed opportunity for impact here. Open science/models one way.

译当前AI进步常被归因于少数算力雄厚的实验室。推文指出,社会动态、政策、技术扩散(diffusion)等其他因素同样深刻影响AI演进,且此领域存在未被充分重视的影响力机遇。开放科学与开放模型是应对方向之一。文中引用观点指出,通往AGI的预训练工作高度集中于OpenAI、Google、Meta等巨头,算力差距的残酷现实是,AGI关键路径上的问题现需巨大算力门槛。

小互@xiaohu · 5月22日71

网易有道今天开源了 Confucius4 双模型: 一个做数学视觉推理,一个做语音克隆 有的公司在卷参数规模,有道这次卷的是工程精度和落地成本 开源直接放的是完整权重,不是只给 API 诚意满满 多模态:http://huggingface.co/netease-youdao/Confucius4 语音:http://github.com/netease-youdao/Confucius4-TTS

译网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

Berryxia.AI@berryxia · 5月20日68

兄弟们,这个PaddleOCR更新可以啊. 直接弥补了之前模型的不足没有使用LLM推理! 这次PaddleOCR这次直接把Hugging Face生态彻底打通了! PaddlePaddle官方刚刚宣布:PaddleOCR 3.5正式支持Transformers作为推理后端。 PP-OCRv5和PaddleOCR-VL 1.5模型,现在可以直接在Hugging Face生态里跑起来。 以前想把PaddleOCR塞进RAG或者Document AI项目,还得自己搭一套服务栈,折腾半天。 Hugging Face团队也亲自参与了这波合作。 OCR工具和主流Transformer生态,终于从两条平行线变成了一条路。 Blog在这里:https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers 这样对于输出的结果可以更加精准和可靠,不然还得依赖LLM来补齐。

译PaddleOCR 3.5版本正式支持Transformers作为推理后端。更新后,PP-OCRv5和PaddleOCR-VL 1.5模型可在Hugging Face生态内直接运行,实现了与主流Transformer技术栈的无缝集成。此举解决了此前将OCR工具整合进RAG或Document AI项目时需要额外搭建服务栈的繁琐问题,大幅降低了开发门槛,让OCR能力更自然地融入现有AI应用开发流程。

Ant Ling@AntLingAGI · 5月17日76

Thanks @AdinaYakup and the @huggingface community for the continued recognition! We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!

译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:“high”模式用于快速智能体循环,“xhigh”模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Berryxia.AI@berryxia · 5月16日63

兄弟们,具身智能这下真的靠点谱了啊! 具身智能(Embodied AI)下一个真正的大前沿来了。 HuggingPapers刚刚推送了一篇重磅综述:《World Action Models: The Next Frontier in Embodied AI》 这是第一篇系统定义「World Action Models(WAMs)」的论文。 WAMs 的核心是:同时预测未来世界状态 + 生成真实可执行动作的具身基础模型。 它不再是单纯“想想就行”的语言模型,而是真正能理解物理世界、预测变化、并采取行动的智能体。 论文系统梳理了当前所有WAMs的架构设计、数据生态系统和评估协议,还附了一张2024-2026年的完整发展时间线图,一目了然。 Project page:https://openmoss.github.io/Awesome-WAM/ Paper:https://huggingface.co/papers/2605.12090 如果你在做机器人、具身Agent、物理世界AI或者世界模型,这篇综述来得正是时候。

译HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿,其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型,超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议,并提供了发展时间线图,对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

SenseTime@SenseTime_AI · 5月16日62

📢📢 𝗜𝗻𝘁𝗿𝗼𝗱𝘂𝗰𝗶𝗻𝗴 𝗮𝗻 𝗲𝗻𝗵𝗮𝗻𝗰𝗲𝗱 𝗺𝗼𝗱𝗲𝗹 𝗳𝗼𝗿 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻! 📊 Posters, charts, recipe cards, postcards — even arXiv-style pages — all from 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰. 🚀 +6.8 / +18.2 on BizGenEval (hard) / IGenBench (Q-ACC) over base U1, plus 100+ diverse showcases. 🤗 http://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼️Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md Try it out — we'd love to see what you build! @huggingface

译SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。

Berryxia.AI@berryxia · 5月13日65

兄弟们!Jina 今天直来了个大 的! Jina-embeddings-v5-omni 来了! 这是他们首个真正支持 text + image + audio + video 的统一 Embedding 模型!(多模态的EMB~!) 两个尺寸: Small(1.57B,1024维,32K 上下文) Nano(0.95B,768维,8K 上下文) 还支持 Matryoshka 截断到 32 维,超级灵活。 最爽的是完全向后兼容:你原来的 v5-text 索引不用动,直接换成 omni 就能开始搜图片、音频、视频了!同一向量空间,无需 reindexing。 性能也很猛,小模型就打平甚至超越好几个参数量大几倍的开源模型。 现在已经在 Hugging Face、Jina API、Elastic Inference Service 上架了。 这波多模态 embedding 真的要爽了兄弟们! 你们已经在做多模态 RAG 或者多媒体搜索了吗?😂

译Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Berryxia.AI@berryxia · 5月13日65

Mac用户大喜啊!苹果端侧模型的优势又来了! 今天还看到Jina直接原生框架支持了MLX了! 以前开源 embedding 模型发布节奏一般是这样: Day 0:放 PyTorch 原版 Day 7-30:社区有人转 GGUF Day 30-90:有人想起来转 MLX 大部分时候:MLX 版本永远不会有,得自己 mlx_lm.convert Jina 这次是和原版同一天发布 MLX 变体,而且是全套——nano/small × 4 个任务变体 = 8 个 MLX 模型。 这意味着: MLX 已经被 Jina 当成很重要的部署目标,不是社区可选项 他们内部应该有 MLX pipeline,不是手工转的。 这背后的趋势,最近半年同类产品都有这些动作。 Qwen3、DeepSeek、Llama 系列官方 release 都开始带 MLX 变体。 Hugging Face 自己加了 MLX 作为一级 framework tag(和 PyTorch、JAX 并列) mlx-community 的下载量已经不输 GGUF 在某些细分领域 Apple 自己的 Foundation Models 也是 MLX 路线 embedding 这个赛道尤其适合 MLX: 模型小(1-2B 很完美啊!,正好塞进 M 系列统一内存) 推理频繁但每次量小(不像 LLM 是长 generation) 本地 RAG / 个人知识库场景天然在 Mac 上。

译Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。

AK@_akhaliq · 5月12日63

Soohak A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

译Soohak 一个由数学家策划的基准测试,用于评估LLMs的研究级数学能力

Berryxia.AI@berryxia · 5月12日65

刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子,看下来觉得这波建议特别实在。 他直接说,如果你也喜欢玩开源模型 fine-tuning,那先听听这些: 从 1B、2B、4B、8B 这些小模型开始练手,别一上来就冲 27B 以上。 云 GPU 用 Google Colab Pro 就够了,A100 80GB 一小时才 0.6 美元左右,小模型完全够用。 数据集自己造,用 Codex 5.5 先规划,再配 DeepSeek v4 Pro 生成每一行数据。 底座模型推荐 Unsloth 的 instruct 版本,Hugging Face 上直接拉,fine-tuning 笔记也用他们的做参考,直接丢给 Codex 让它帮你改成你想要的配置。 他建议花一天时间把这些东西过一遍:SFT、RL 训练(GRPO、DPO、PPO 这些)、LoRA / QLoRA、量化类型、本地推理引擎(llama.cpp)、KV cache 和 prompt cache。 他说就直接上手吧,Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。 最后他还提到,未来技术会越来越往 5B 到 15B 的 Expert Language Models 走,并非一味堆通用大模型,所以 fine-tuning 这门手艺现在学特别值。 很多公司愿意花 5 万美元以上,让你帮他们用自家数据训个性化模型。 整条帖子的意思就是:fine-tuning 其实谁都能入门,调模型、测模型、用模型,慢慢就能把这变成一份靠谱的事业。 感兴趣的可以看看,还挺有意思。

译CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

Artificial Analysis@ArtificialAnlys · 5月12日62

OpenBMB, a Tsinghua University / ModelBest open weights collaboration, has released MiniCPM-V 4.6 1.3B Instruct, a tiny, non-reasoning model that scores 13 on the Artificial Analysis Intelligence Index This model sits 3 points ahead of Qwen3.5 0.8B (Non-reasoning, 10) and 2 points behind Qwen3.5 2B (Non-reasoning, 15) on the Intelligence Index, establishing a new Pareto-optimal point on our Intelligence vs. Total Parameters chart. Tiny models are useful for efficient inference and on-device use cases. MiniCPM-V 4.6 1.3B Instruct is a vision-language model that supports text, image, and video input with text output. @OpenBMB is a China-based lab jointly founded in 2022 by Tsinghua University’s NLP Lab and ModelBest Inc. The model’s weights have been released under an Apache 2.0 license on Hugging Face. Key results: ➤ At 1.3B parameters, MiniCPM-V 4.6 1.3B Instruct scores 13 on the Artificial Analysis Intelligence Index, the highest for any open weights model under 2B parameters. The next-most-intelligent open weights model at comparable scale is Qwen3.5 0.8B (Reasoning, 11) and used 43x as many tokens to run the Intelligence Index; Qwen3.5 2B which scores 16 (Reasoning) and 15 (Non-reasoning) requires 1.7x as many parameters (2.27B). MiniCPM-V 4.6 1.3B Instruct also tops sub-2B open weights on MMMU-Pro, scoring 38%. ➤ MiniCPM-V 4.6 1.3B Instruct extends the open weights Pareto frontier for Intelligence vs. Total Parameters. Because the model is dense, total and active parameter counts are both 1.3B, so it pushes both frontiers. The next-most-intelligent sub-2B model (Qwen3.5 0.8B (Reasoning), 11) lands 2 points behind, despite also using a reasoning mode. ➤ MiniCPM-V 4.6 1.3B Instruct is highly token efficient, and used just 5.4M output tokens to run the Intelligence Index, ~19x fewer than Qwen3.5 0.8B (Non-reasoning, 101M) and ~43x fewer than Qwen3.5 0.8B (Reasoning, 233M). This is the lowest output token count measured for any open weights model under 4B total parameters scoring 10 or above on the Index (next-lowest is Ministral 3 3B at 15.5M). ➤ MiniCPM-V 4.6 1.3B Instruct supports native multimodal input, including text, image, and video, and scores 38% on MMMU-Pro. This is the highest visual reasoning score measured for any open weights model under 2B parameters, ahead of LFM2.5-VL-1.6B (27%) and Qwen3.5 0.8B (Non-reasoning, 26%). Video input at this parameter scale is uncommon. ➤ Knowledge recall is low, in line with other sub-2B models. AA-Omniscience is -85, in the typical range for sub-2B non-reasoning models (Qwen3.5 0.8B (Non-reasoning) at -89, Exaone 4.0 1.2B (Non-reasoning) at -83), and 2 points behind Qwen3.5 2B (Non-reasoning) at -83 (1.7x the parameter count). Additional model details: ➤ Size: 1.3B total parameters (dense) ➤ Context window: 262K ➤ Precision: BF16 ➤ License: Apache 2.0 ➤ Providers: No confirmed providers on release

译清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分,成为2B参数以下开源模型中得分最高的,刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%,领先同类小模型。模型支持文本、图像和视频输入,并具有极高的令牌效率,运行测试仅需540万输出令牌,远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当,处于较低水平。

向阳乔木@vista8 · 5月11日56

本周Huggingface暂时第一名的论文:MACE 用MoE构架做音乐驱动舞蹈视频。 哈哈哈,感觉抖音AI跳舞视频估计要更真了。 https://blog.qiaomu.ai/ai-dancing-to-music

译本周Huggingface排行榜上,MACE论文暂时位列第一。该研究采用混合专家(MoE)架构,实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。

SenseTime@SenseTime_AI · 5月11日72

𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮 𝗨𝟭 𝗶𝘀 𝗻𝗼𝘄 𝗿𝘂𝗻𝗻𝗮𝗯𝗹𝗲 𝗼𝗻 𝗖𝗼𝗺𝗳𝘆𝗨𝗜. Highly recognised by reviewers — including REBEL AI, who put together a great hands-on walkthrough of the 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝘄𝗼𝗿𝗸𝗳𝗹𝗼𝘄, with 𝗿𝗲𝗮𝗹-𝘄𝗼𝗿𝗹𝗱 𝘁𝗲𝘀𝘁𝘀 𝗼𝗳 𝘁𝗵𝗲 𝗺𝗼𝗱𝗲𝗹'𝘀 𝗶𝗺𝗮𝗴𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀. • 8-step turbo inference — ultra-fast generation • Portraits, surreal art, text signage, creature design & more Watch Video: https://www.youtube.com/watch?v=SYJhzEdN1S0 Try it yourself: 𝗛𝘂𝗴𝗴𝗶𝗻𝗴 𝗙𝗮𝗰𝗲: https://huggingface.co/collections/sensenova/sensenova-u1 𝗚𝗶𝘁𝗛𝘂𝗯: https://github.com/OpenSenseNova/SenseNova-U1 𝗗𝗶𝘀𝗰𝗼𝗿𝗱: https://discord.gg/cxkwXWjp

译SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

Berryxia.AI@berryxia · 5月11日60

这个太方便了啊!!! 搞科研读论文的不要错过啦! 如何安装Hugging face的CLI? curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了! 支持arxiv和hugging face…

Ant Ling@AntLingAGI · 5月11日44

It was quite a delight to get Ant Ling 2.6 1T's Architecture featured in @rasbt 's latest update🤝. We welcome feedback and discussions on our HF page https://huggingface.co/collections/inclusionAI/ling-26 as well as our Discord channel https://discord.gg/jQtDsU5J6C Stay tuned for more updates! 🤠

译Ant Ling 2.6 1T的架构设计被@rasbt在其最新更新中收录和推荐。团队对此表示欣喜,并邀请社区通过Hugging Face页面和Discord频道提供反馈与参与讨论。@rasbt在推文中提到,他计划深入探讨一些最有趣的架构组件,并询问是否遗漏了其他重要架构。团队表示将持续发布更多更新。

向阳乔木@vista8 · 5月10日59

如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文URL] 同时支持arxiv网站和Huggingface paper的URL。

AK@_akhaliq · 5月10日56

MiniCPM-o 4.5 Towards Real-Time Full-Duplex Omni-Modal Interaction paper: https://huggingface.co/papers/2604.27393

译MiniCPM-o 4.5 迈向实时全双工全模态交互 论文: https://huggingface.co/papers/2604.27393

AK@_akhaliq · 5月8日61

MiA-Signature Approximating Global Activation for Long-Context Understanding paper: https://huggingface.co/papers/2605.06416

译MiA-Signature 近似全局激活以促进长上下文理解 论文: https://huggingface.co/papers/2605.06416

AK@_akhaliq · 5月8日60

SkillOS Learning Skill Curation for Self-Evolving Agents paper: https://huggingface.co/papers/2605.06614

译SkillOS 自我进化智能体的学习技能管理 论文: https://huggingface.co/papers/2605.06614

Berryxia.AI@berryxia · 5月8日63

从头到尾比我们吃预制菜狠多了! 然后一发赚不到的行踪。 13个账号就把AI技能市场彻底毒穿了,575个恶意插件正伪装成你的最佳帮手,等着把电脑变成黑客的私人提款机。 Hugging Face和ClawHub上这些工具看起来能让AI代理瞬间变强,实际却针对Windows和macOS偷偷安装木马、矿工和窃取器,还用隐藏命令跟间接提示注入完全绕过检测。 大家现在都急着给代理装各种技能,以为自己在加速解放双手干大事。 结果最基础的信任链条已经被轻松击溃,黑客用这么点资源就把整个生态变成了最大攻击面。 AI时代真正的危险,从来不是机器多聪明,而是我们把权限交得太随意。

译Hugging Face和ClawHub平台出现大规模恶意AI技能投放攻击。攻击者仅通过13个账号上传了超过575个伪装成有用工具的恶意插件,这些插件针对Windows和macOS系统,实际会安装木马、挖矿程序或信息窃取器。攻击采用隐藏命令和间接提示注入等技术绕过安全检测。此事件暴露了AI技能生态系统的根本性安全风险:用户在急切赋予AI代理更多能力时,往往随意安装未经验证的技能,导致最基本的信任链条被轻易击溃,使整个生态成为巨大的攻击面。真正的危险并非源于AI本身,而在于用户过于随意地交出了系统权限。

AK@_akhaliq · 5月7日62

RLDX-1 Technical Report paper: https://huggingface.co/papers/2605.03269

译RLDX-1 技术报告 论文:https://huggingface.co/papers/2605.03269

AK@_akhaliq · 5月7日58

Stream-R1 Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation paper: https://huggingface.co/papers/2605.03849

译Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏 论文: https://huggingface.co/papers/2605.03849

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月3日
03:06
向阳乔木@vista8
70
论文图表生成框架Harness的架构与实践

Hugging Face 上一篇热门论文介绍了名为 Harness 的 AI 论文图表生成框架。该框架围绕一个共享的结构化规格文档 S 运作,包含四个协作角色:设计者生成视觉方案,执行者渲染图像或代码,验证者输出带定位的诊断报告,修订者据此修改规格文档 S。作者参考该框架进行了简化实践,写成一个技能包,其中使用了 GPT-image-2 进行生图,并整合了 URL 抓取功能,可直接生成配图。

Hugging Face图像生成多模态教程/实践
00:15
AK@_akhaliq
60
视觉语言模型知道何时不回答空间问题吗(以及为什么)?
Hugging Face多模态论文/研究
6月2日
12:35
SenseTime@SenseTime_AI
同事件精选73
感谢使用我们的模型来创建这些复杂的图表和图表。 看到具有挑战性的信息被转化为清晰、准确和可读的视觉效果真是太棒了。这就是我们的目标。😄

The AI Colony: SenseNova U1 just released an infographic-specialized version and +18.2 on IGenBench Q-ACC isn't a rounding error. It me...

Hugging Face图像生成开源生态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:SenseNova U1 这波信息图特化不是刷分,+18.2 Q-ACC 证明模型真的懂了排版,做汇报、做图表的可以直接上 Hugging Face 扒下来用。
12:35
SenseTime@SenseTime_AI
71
将复杂信息转化为准确的图表和示意图。这就是 SenseNova-U1-8B-MoT-Infographic。了解更多:https://x.com/SenseTime_AI/status/2061465029959209106?s=20

Future Stacked: AI-generated infographics with garbled text have been a running joke. SenseNova U1's new infographic-enhanced model fina...

Hugging Face图像生成多模态模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
01:11
Artificial Analysis@ArtificialAnlys
77
NVIDIA Cosmos 3 荣登开放权重模型图像与视频生成双榜榜首

NVIDIA 的 Cosmos 3 全模态世界模型在 Artificial Analysis 排行榜的开放权重类别中,同时夺得文本生成图像和图像生成视频两项第一。该模型基于 Mixture-of-Transformers 架构,结合自回归推理器与扩散生成器,提供 16B 参数的 Nano 和 64B 参数的 Super 等变体。其中,Cosmos3-Super-Text2Image 与 Cosmos3-Super-Image2Video 版本分别超越了 HiDream-O1-Image-Dev-2604、通义千问(Qwen)Image Max 2512、FLUX.2 [dev] 以及 LTX-2、万相(Wan)2.2 A14B 等模型。Cosmos 3 的生成器接受结构化 JSON 提示词,可通过外部工具或模型自身的推理器分支进行提示词上采样。该模型完全开源,采用 OpenMDW 1.1 许可,提供权重、代码、精选数据集和微调方案。

Hugging Face多模态开源生态模型发布
关联讨论 10 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)Hugging Face:Blog(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
6月1日
23:43
🚨 AI News | TestingCatalog@testingcatalog
58
MiniMax M3模型现已集成至Atomic Chat。在一项测试中,Atomic Chat使用M3模型读取了一张手绘的涂鸦风格平台跳跃游戏草图,并一次性完成了游戏逻辑编写、界面绘制以及最终交付一个可运行的独立HTML游戏。测试数据显示,该任务消耗输入6,920模型token,生成输出9,933模型token,总成本仅为$0.028。此外,MiniMax计划于下周在HuggingFace发布M3模型。

atomic.chat: MiniMax M3 turned a napkin sketch into a playable game We handed MiniMax M3 a hand-drawn draft of a Doodle Jump style pl...

Hugging Face多模态模型发布编码
23:34
SenseTime@SenseTime_AI
同事件精选67
SenseNova新模型解决AI图表生成难题

大多数AI模型在生成图表时存在数值错误(如负值显示为正)、柱状图位置偏移、元素关系混乱等问题。SenseNova-U1-8B-MoT-Infographic(SenseNova-U1)专为解决此类图表生成问题而设计,能够生成准确的图表,并支持实时调整设计和布局。项目在Hugging Face提供了模型,并在GitHub展示了效果案例。

GitHubHugging Face图像生成模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:大部分AI生成的图表都有标注错误或比例失调,商汤这个模型专攻信息图准确性,对常做图表的产品人和分析师来说值得一试。
22:12
OpenBMB@OpenBMB
53
快速提醒:Build Small黑客松报名将于6月3日截止! 🏆总现金奖金:约4万美元 其中1万美元为@OpenBMB特别奖,授予使用#MiniCPM模型的最佳项目。 别错过!立即注册:https://huggingface.co/build-small-hackathon 我们强烈推荐使用MiniCPM模型--它们小巧、强大,非常适合本次黑客松。 让我们一起构建精彩项目!🤗🚀
Hugging Face端侧行业动态
21:12
OpenBMB@OpenBMB
同事件精选78
OpenBMB发布UltraData两大开源数据集,登顶HuggingFace趋势榜

OpenBMB联合清华NLP与Modelbest发布两个开源数据集:Ultra-FineWeb-L3(预训练合成数据)包含600B+ tokens(超400B英文、200B+中文),是迄今最大开源中文预训练合成数据集;UltraData-SFT-2605(后训练SFT数据)包含15M+样本,是中国首个开源且包含思考与非思考标注的大规模SFT数据集,覆盖数学、代码、知识和指令遵循。两者均基于UltraData L0-L4框架构建,并在MiniCPM5-1B训练中完成验证。数据集已在HuggingFace免费开放。

Hugging Face开源/仓库数据/训练
同一事件,精选展示《面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集,公开MiniCPM5-1B核心数据》
推荐理由:面壁开源了两个王炸数据集,预训练的 600B+ token 中文合成数据史上最大,SFT 那边 1500 万条带思考链的指令更是头一回见,做中文基础模型的可以无脑下载了。
14:00
OpenClaw🦞@openclaw
精选72
与 @nvidia 合作,我们开源了一个包含 67,453 个 @huggingface 上 ClawHub 技能安全扫描的数据集: - NVIDIA SkillSpector 标记出 1/2 的智能体风险 - 仅 0.31% 为恶意 - 没有两个扫描器在超过 8.5% 的风险上达成一致 https://openclaw.ai/blog/openclaw-nvidia-skill-security
智能体Hugging Face安全/对齐论文/研究

推荐理由:OpenClaw 和 NVIDIA 开源了 6.7 万个 agent skill 的扫描结果,一半被标风险但真正恶意的不到千分之三,不同扫描器几乎没共识。做 agent 安全的应该看看。
04:55
Artificial Analysis@ArtificialAnlys
74
HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Hugging Face图像生成开源生态模型发布
5月30日
01:14
Fei-Fei Li@drfeifei
精选83
我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩

Keshigeyan Chandrasegaran: 1/ Introducing GPIC: a Giant Permissive Image Corpus and benchmark for visual generation! 🚀100M VLM-captioned image-tex...

Hugging Face图像生成数据/训练论文/研究

推荐理由:李飞飞都来站台,这个数据集不简单。完全允许商业用途是关键,对做视觉生成的团队来说,终于有了一个不用再为版权头疼的超级训练库。
00:15
AK@_akhaliq
58
81k 模型可通过 HuggingFace 推理 API 使用
Hugging Face产品更新开源生态部署/工程
5月29日
08:32
Berryxia.AI@berryxia
39
Hugging Face的创始人Victor M使用Opus 4.8,通过three.js构建并通过了这个波音747飞机的测试,我一会试试能不能复刻一个类似的场景,试试Opus的能力如何!

Victor M: wow... 6 months later, Opus 4.8 nails the boeing747-using-THREEJS-primitives benchmark. Single prompt (in ultracode effo...

AnthropicHugging Face大佬观点编码
00:06
SenseTime@SenseTime_AI
同事件精选65
SenseNova信息图表生成模型升级:文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Hugging Face图像生成多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这个8B信息图生成模型升级了,文本和布局都更稳,对常做数据图表和学术配图的人算个实用的小迭代,没有到改变游戏规则的程度。
5月26日
20:30
Tencent Hy@TencentHunyuan
同事件精选70
腾讯 Hy-MT2 开源,HuggingFace 排行榜登顶

腾讯的 Hy-MT2 模型基于 Apache License 2.0 开源,可用于研究、商业使用、微调和衍生品,无任何限制。其两个变体在 Hugging Face 趋势排行榜上分别位居 #1 和 #4,鼓励社区克隆、分叉和反馈以推动迭代。

Hugging Face开源生态行业动态
同一事件,精选展示《腾讯开源Hy-MT2多语言翻译模型》
推荐理由:腾讯把Hy-MT2改成Apache 2.0许可证,商用衍生都没问题,之前因为许可犹豫的人现在可以放心用了,模型在Hugging Face trending霸榜,值得重新评估。
10:59
Tencent Hy@TencentHunyuan
69
腾讯混元新翻译模型双榜亮眼,小程序发布

腾讯混元发布翻译模型 Hy-MT2,在 Hugging Face 开源模型趋势排行榜上表现突出:1.8B 版本排名第一,30B-A3B(MoE)版本排名第四,下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序,支持语音输入与离线翻译,并可自定义翻译风格与指令。模型代码与权重已开源。

Hugging Face开源生态模型发布
关联讨论 2 条IT之家(RSS)X:腾讯混元 (@TencentHunyuan)
5月25日
08:17
karminski-牙医@karminski3
57
比刷arXiv更高效:PapersWithCode一站式获取AI论文与代码

介绍了一个由HuggingFace开源团队成员开发的网站PapersWithCode,该网站能实时收录最新的AI论文和GitHub代码库。它提供了优秀的导航功能,支持按领域浏览论文,并能直接展示模型的benchmark数据和HuggingFace页面,为AI从业者提供了高效的一站式信息聚合服务。

Hugging Face搜索教程/实践
04:48
Nathan Lambert@natolambert
64
当前AI进步常被归因于少数算力雄厚的实验室。推文指出,社会动态、政策、技术扩散(diffusion)等其他因素同样深刻影响AI演进,且此领域存在未被充分重视的影响力机遇。开放科学与开放模型是应对方向之一。文中引用观点指出,通往AGI的预训练工作高度集中于OpenAI、Google、Meta等巨头,算力差距的残酷现实是,AGI关键路径上的问题现需巨大算力门槛。

Aidan Clark: If you want to work on pretraining-for-AGI, join OpenAI, Google, Meta or the Anthropic/XAI/Cursor supergroup. The bitter...

Hugging Face大佬观点开源生态
5月22日
14:47
小互@xiaohu
71
网易有道开源双模型,聚焦工程精度与落地成本

网易有道开源Confucius4双模型,包括一个专注数学视觉推理的多模态模型,以及一个用于语音克隆的TTS模型。此次开源直接提供完整权重,而非仅提供API,强调在工程精度和实际部署成本上的投入,而非单纯追求参数规模。模型已发布于HuggingFace和GitHub平台。

GitHubHugging Face多模态开源生态
5月20日
22:08
Berryxia.AI@berryxia
68
PaddleOCR 3.5支持Hugging Face生态

PaddleOCR 3.5版本正式支持Transformers作为推理后端。更新后,PP-OCRv5和PaddleOCR-VL 1.5模型可在Hugging Face生态内直接运行,实现了与主流Transformer技术栈的无缝集成。此举解决了此前将OCR工具整合进RAG或Document AI项目时需要额外搭建服务栈的繁琐问题,大幅降低了开发门槛,让OCR能力更自然地融入现有AI应用开发流程。

PaddlePaddle: 🚀 PaddleOCR 3.5: Transformers Backend Support Now Live! We're excited to share that PaddleOCR 3.5 now supports Hugging ...

Hugging Face开源/仓库部署/工程
5月17日
00:51
Ant Ling@AntLingAGI
精选76
蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:"high"模式用于快速智能体循环,"xhigh"模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理

推荐理由:蚂蚁把1T推理模型以MIT许可开源,还专门为Agent循环做了高低推理双模式,做开源Agent的团队直接多了一个强力基座可选。
5月16日
23:54
Berryxia.AI@berryxia
63
具身智能新前沿:世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿,其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型,超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议,并提供了发展时间线图,对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face具身智能论文/研究
00:22
SenseTime@SenseTime_AI
62
SenseNova发布增强版信息图表生成模型SenseNova-U1-8B-MoT-Infographic

SenseNova近日推出专为信息图表生成设计的增强模型SenseNova-U1-8B-MoT-Infographic。该模型能够根据指令生成多种视觉格式内容,包括海报、图表、食谱卡、明信片以及学术风格的arXiv页面等。在性能方面,模型在BizGenEval(困难版)和IGenBench(Q-ACC)两项基准测试上表现突出,相比其基础U1模型分别提升了6.8分和18.2分。目前,该模型已在Hugging Face平台开源,并提供了超过100个多样化的生成示例,供开发者和研究者参考与试用。

Hugging Face图像生成模型发布
5月13日
08:49
Berryxia.AI@berryxia
65
Jina发布首个统一多模态Embedding模型v5-omni

Jina发布了其首个统一的多模态Embedding模型jina-embeddings-v5-omni,能够处理文本、图像、音频和视频。模型提供Small和Nano两种尺寸,分别具有1.57B和0.95B参数,并支持Matryoshka截断技术。关键优势在于完全向后兼容:现有jina-embeddings-v5-text的索引无需重新构建,可直接替换为v5-omni,在同一向量空间内实现对多媒体内容的搜索。该模型性能强劲,小尺寸即可媲美或超越参数量更大的开源模型。目前已上线Hugging Face、Jina API和Elastic Inference Service。

Jina AI: jina-embeddings-v5-omni is here! Our first universal embedding model for text, images, audio, and video. Available in tw...

Hugging Face检索增强多模态开源生态
08:49
Berryxia.AI@berryxia
65
Jina同步发布MLX格式嵌入模型,端侧AI部署迎来新趋势

Jina在其新版嵌入模型发布首日,即同步提供了全套MLX格式变体,改变了以往社区缓慢移植的节奏。这表明MLX已被视为核心部署目标,背后应有自动化流程支持。这一动向反映了MLX生态的崛起:Qwen、DeepSeek等主流模型官方开始集成MLX,Hugging Face将其提升为一级框架标签。嵌入模型因其体积小、推理频繁的特性,尤其适合在Mac的M系列统一内存上运行,为本地RAG等场景提供了理想的端侧AI解决方案。

Berryxia.AI: https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

Hugging Face开源/仓库模型发布现象/趋势
5月12日
17:59
AK@_akhaliq
63
Soohak 一个由数学家策划的基准测试,用于评估LLMs的研究级数学能力
Hugging Face推理论文/研究
07:49
Berryxia.AI@berryxia
65
CJ Zafir 为开源模型微调新手提供实用入门建议

CJ Zafir 为开源模型微调新手提供了系统建议。入门应从 1B、2B 等小参数模型开始,推荐使用 Google Colab Pro 等低成本云 GPU 服务。数据集构建可结合 Codex 5.5 与 DeepSeek v4 Pro,基础模型建议选用 Hugging Face 上的 Unsloth instruct 版本。关键学习内容包括 SFT、RL 训练、LoRA/QLoRA、量化及本地推理引擎等。未来技术趋势正转向 5B 至 15B 参数的专家模型,掌握微调技能市场价值高,企业常愿支付高额费用定制个性化模型。

CJ Zafir: If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start ...

Hugging Face开源生态教程/实践数据/训练
06:58
Artificial Analysis@ArtificialAnlys
62
清华大学与ModelBest合作发布MiniCPM-V 4.6 1.3B Instruct多模态小模型

清华大学与ModelBest合作的OpenBMB发布了MiniCPM-V 4.6 1.3B Instruct模型。这款仅13亿参数的多模态小模型在Artificial Analysis智能指数上获得13分,成为2B参数以下开源模型中得分最高的,刷新了该规模模型的帕累托前沿。它在MMMU-Pro视觉推理基准上也达到38%,领先同类小模型。模型支持文本、图像和视频输入,并具有极高的令牌效率,运行测试仅需540万输出令牌,远低于对比模型。其权重已在Hugging Face以Apache 2.0许可证开源。知识回忆能力与其他2B以下模型相当,处于较低水平。

Hugging Face多模态模型发布端侧
5月11日
22:20
向阳乔木@vista8
56
MACE模型登顶Huggingface:MoE架构驱动音乐生成舞蹈视频

本周Huggingface排行榜上,MACE论文暂时位列第一。该研究采用混合专家(MoE)架构,实现了根据音乐生成舞蹈视频的任务。这一技术进展被认为将显著提升类似抖音平台上AI舞蹈视频的真实感与表现力。

Hugging Face多模态视频论文/研究
18:39
SenseTime@SenseTime_AI
精选72
SenseNova U1图像生成模型登陆ComfyUI平台

SenseNova U1图像生成模型现已在ComfyUI上可运行,并获得包括REBEL AI在内的评测者高度认可。REBEL AI发布的实践教程展示了该模型的部署工作流,并对其图像生成能力进行了真实场景测试。模型支持8步快速推理,生成速度极快,应用场景涵盖人像、超现实艺术、文字标志和生物设计等。相关资源已在Hugging Face、GitHub和Discord平台开放。

GitHubHugging Face图像生成模型发布

推荐理由:商汤把新模型U1的ComfyUI部署流程完整放出,还有实测视频,想在自己机器上跑国产图像模型的开发者可以直接抄作业了。
06:45
Berryxia.AI@berryxia
60
这个太方便了啊!!! 搞科研读论文的不要错过啦! 如何安装Hugging face的CLI? curl -LsSf http://hf.co/cli/install.sh | bash 直接开干就完了! 支持arxiv和hugging face…

向阳乔木: 如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read [论文编号或论文...

Hugging Face开源/仓库教程/实践
01:33
Ant Ling@AntLingAGI
44
Ant Ling 2.6 1T的架构设计被@rasbt在其最新更新中收录和推荐。团队对此表示欣喜,并邀请社区通过Hugging Face页面和Discord频道提供反馈与参与讨论。@rasbt在推文中提到,他计划深入探讨一些最有趣的架构组件,并询问是否遗漏了其他重要架构。团队表示将持续发布更多更新。

Sebastian Raschka: Back from a little family break! Lots has happened, and I'm planning to do a deeper dive into the most interesting archi...

Hugging Face开源生态行业动态
5月10日
23:14
向阳乔木@vista8
59
如果你喜欢到Huggingface读最新的AI论文。 可以安装官方的cli: curl -LsSf https://hf.co/cli/install.sh | bash 安装好以后,提示词: hf papers read 【论文编号或论文URL】 同时支持arxiv网站和Huggingface paper的URL。
Hugging Face开源生态教程/实践
02:27
AK@_akhaliq
56
MiniCPM-o 4.5 迈向实时全双工全模态交互 论文: https://huggingface.co/papers/2604.27393
Hugging Face多模态论文/研究语音
5月8日
23:47
AK@_akhaliq
61
MiA-Signature 近似全局激活以促进长上下文理解 论文: https://huggingface.co/papers/2605.06416
Hugging Face推理论文/研究
23:47
AK@_akhaliq
60
SkillOS 自我进化智能体的学习技能管理 论文: https://huggingface.co/papers/2605.06614
智能体Hugging Face论文/研究
23:35
Berryxia.AI@berryxia
63
13个账号投放575个恶意AI插件,毒化技能生态

Hugging Face和ClawHub平台出现大规模恶意AI技能投放攻击。攻击者仅通过13个账号上传了超过575个伪装成有用工具的恶意插件,这些插件针对Windows和macOS系统,实际会安装木马、挖矿程序或信息窃取器。攻击采用隐藏命令和间接提示注入等技术绕过安全检测。此事件暴露了AI技能生态系统的根本性安全风险:用户在急切赋予AI代理更多能力时,往往随意安装未经验证的技能,导致最基本的信任链条被轻易击溃,使整个生态成为巨大的攻击面。真正的危险并非源于AI本身,而在于用户过于随意地交出了系统权限。

The Hacker News: ⚠️ Attackers poisoned Hugging Face & ClawHub (OpenClaw) with 575+ malicious skills from just 13 accounts. 🔸 Fake helpfu...

Hugging FaceMCP/工具安全/对齐
5月7日
23:04
AK@_akhaliq
62
RLDX-1 技术报告 论文:https://huggingface.co/papers/2605.03269
Hugging Face论文/研究
23:04
AK@_akhaliq
58
Stream-R1 面向流式视频生成的可靠性-困惑度感知奖励蒸馏 论文: https://huggingface.co/papers/2605.03849
Hugging Face多模态视频论文/研究
‹ 上一页
1234
下一页 ›