AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Hugging Face」清除
6月20日周六
08:00HuggingFace Daily Papers(社区热门论文)57BioMatrix:首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型
6月19日周五
23:24SenseTime45商汤 SenseNova U1 实现文本-图像交错生成
18:51MarkTechPost(RSS)62Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型
10:56MarkTechPost(RSS)75精选Salesforce CodeGen教程:生成、验证并重排序Python函数(含单元测试与安全检查)
10:47HuggingFace Daily Papers(社区热门论文)49FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成框架
07:24Artificial Analysis55AA-Briefcase 基准发布:评估模型长期知识工作智能体能力
00:56Z.ai37GLM-5.2 限时免费:HuggingFace 推理提供商可用
00:17AYi74GLM-5.2 发布:开源模型压缩84%至238GB本地运行
6月18日周四
23:55AK41GLM-5.2 多平台免费使用 6 小时
23:47Hugging Face:Blog(RSS)70精选超越 LoRA:如何选择最佳参数高效微调技术?
21:47Hugging Face:Blog(RSS)74精选AI 智能体够格吗?在自有工具上评测开源模型
11:43HuggingFace Daily Papers(社区热门论文)74精选Sumi:从头训练的7B开源均匀扩散语言模型
11:14Hacker News 热门(buzzing.cc 中文翻译)70精选cuTile Rust:安全无数据竞争的 GPU 内核系统
08:00HuggingFace Daily Papers(社区热门论文)65StylisticBias:少数视觉线索主导MLLM社会偏见
00:43Hugging Face:Blog(RSS)71ARD 规范发布:让智能体搜索工具、技能与其他智能体
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
18:39Hugging Face:Blog(RSS)66精选Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人
10:33HuggingFace Daily Papers(社区热门论文)50UniAR:共享语境-视觉分词器是实现统一的关键
09:20公众号:智谱(GLM)81GLM-5.2上线并开源:专注Coding与长程任务
08:35Berryxia.AI73GLM-5.2 开源发布:MIT 协议、1M 上下文、强化长程 Agent 能力
08:00HuggingFace Daily Papers(社区热门论文)49ACIE:基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因
08:00HuggingFace Daily Papers(社区热门论文)58LOCUS:美国地方法规语料库
02:24Chubby♨️83GLM-5.2 发布:1M 上下文窗口,MIT 开源权重
02:16🚨 AI News | TestingCatalog77GLM-5.2 发布:1M 上下文窗口,开源权重,DeepSWE SOTA 46.2%
6月16日周二
09:59Berkeley RDI:Blog(AI 安全与评测)83精选伯克利RDI发布Agents' Last Exam基准
01:25LMSYS:Blog(Chatbot Arena 团队)67精选下一代投机解码:DFlash 与 Spec V2
6月15日周一
23:49IT之家(RSS)69MiniMax M3 模型正式开源:原生多模态、百万上下文
05:06MarkTechPost(RSS)65FineWeb 流式加载、过滤、去重、分词与大规模网络语料库分析实践教程
01:59Hacker News 热门(buzzing.cc 中文翻译)72精选里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7
6月14日周日
01:12SemiAnalysis66MiniMax M3 上线 HuggingFace 并接入 InferenceX
6月13日周六
13:17蚂蚁 inclusionAI:HuggingFace 新模型62精选inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型
13:17蚂蚁 inclusionAI:HuggingFace 新模型71inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型
12:15MiniMax (official)78MiniMax M3 权重开源,回应 Anthropic 出口管制
02:43MiniMax (official)69MiniMax M3 现可本地运行
00:42🚨 AI News | TestingCatalog51NVIDIA 为 MiniMax M3 提供免费测试端点
00:00Hugging Face:Blog(RSS)74精选olmo-eval:面向模型开发循环的评估工作台
6月12日周五
22:12MiniMax (official)81同事件精选MiniMax M3 开源权重模型发布,已上架 HuggingFace同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
21:41🚨 AI News | TestingCatalog57Kimi K2.7 Code 开源发布,编码与智能体性能提升
21:18Hacker News 热门(buzzing.cc 中文翻译)77同事件精选Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
19:36IT之家(RSS)69月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月20日
08:00
HuggingFace Daily Papers(社区热门论文)
57
BioMatrix:首个原生整合分子与蛋白质序列、结构与语言的多模态基础模型

BioMatrix采用单一解码器架构,通过统一token化方案将分子序列(SMILES/SELFIES)、分子结构、蛋白质序列、蛋白质结构和自然语言映射到共享离散token空间,所有模态均以下一个token预测目标生成。模型基于Qwen3(1.7B和4B),在3044亿tokens上预训练。在80项下游任务中,BioMatrix在77项上达到最优或竞争力水平。

Hugging Face多模态数据/训练论文/研究
6月19日
23:24
SenseTime@SenseTime_AI
45
商汤 SenseNova U1 实现文本-图像交错生成

商汤 SenseNova U1 具备行业首创的文本-图像交错生成能力。用户上传客厅照片后,U1 可瞬间将其风格转变为温馨阅读角。该演示由 @eigi_and_ai 完成。U1 现已通过 SenseNova Studio、HuggingFace 模型库、GitHub 源码及 Discord 社区开放体验。

GitHubHugging Face其他图像生成
18:51
MarkTechPost(RSS)
62
Liquid AI 发布 LFM2.5-Embedding-350M 与 LFM2.5-ColBERT-350M 双向编码检索模型

Liquid AI 本周发布两款 350M 参数检索模型:稠密双编码器 LFM2.5-Embedding-350M 和后期交互模型 LFM2.5-ColBERT-350M。二者基于 LFM2.5-350M-Base,通过将因果注意力改为双向注意力实现双向编码,支持阿拉伯语、德语、英语等 11 种语言的单语与跨语言搜索。在 NanoBEIR 多语言检索上,ColBERT 版 NDCG@10 为 0.605,Embedding 版为 0.577,均优于 Qwen3-Embedding-0.6B。在 MKQA-11 问答 Recall@20 上分别为 0.694 和 0.691。上下文窗口 32,768 tokens,文档调优至 512 tokens。提供 GGUF 格式,MacBook Pro M4 Max 上查询延迟低于 10 ms。模型以 LFM Open License v1.0 发布在 Hugging Face。

Hugging Face检索增强搜索模型发布
10:56
MarkTechPost(RSS)
精选75
Salesforce CodeGen教程:生成、验证并重排序Python函数(含单元测试与安全检查)

本教程实现一个基于Salesforce CodeGen的端到端代码生成工作流。从HuggingFace加载CodeGen模型(支持350M、2B、codegen2-1B、codegen25-7b等版本),通过自然语言提示生成Python函数,随后进行函数提取、语法检查、静态安全检查、单元测试验证、best-of-N候选重排序、多步程序合成、提示词实验、基准可视化及导出。展示了CodeGen作为结构化代码生成流水线的能力,不仅完成代码补全,还能评估、筛选和组织生成结果。

Hugging Face开源生态教程/实践编码

推荐理由:这篇教程把CodeGen从单纯补全变成一个带安全检查、单元测试和候选重排序的工程化代码生成管道,读完能直接套用到日常写代码里,对想落地的开发者非常友好。
10:47
HuggingFace Daily Papers(社区热门论文)
49
FreeStyle:基于社区LoRA挖掘的风格-内容双参考生成框架

风格-内容双参考生成旨在合成图像,保留内容参考的结构语义并采用风格参考的样式。FreeStyle提出基于社区LoRA挖掘的可扩展双参考生成框架,将LoRA作为风格与内容的组合锚点,通过生成-过滤流程构建大规模三元组数据。针对内容泄漏,采用两阶段课程学习:注意力级增强约束抑制风格参考泄漏,频率感知RoPE调制策略应对双参考阶段的位置对应泄漏。引入覆盖风格参考与双参考生成的基准,包含风格不变内容对齐分数(CAS)和基于VLM的拒绝分数。实验表明模型在风格对齐、内容保留和泄漏抑制间取得强平衡。

Hugging Face图像生成开源生态论文/研究
07:24
Artificial Analysis@ArtificialAnlys
55
AA-Briefcase 基准发布:评估模型长期知识工作智能体能力

Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。

智能体AnthropicHugging Face推理
00:56
Z.ai@Zai_org
37
智谱推出 GLM-5.2 模型,在 Hugging Face Inference Providers 上限时免费使用,主推文称持续5小时(引用称6小时)。支持提供商包括 Zai、Together AI、Novita、Fireworks、DeepInfra。该模型可搭配 Pi、opencode、Codex、Claude Code 等编程智能体,体现开源模型已迎头赶上。

Victor M: Open source MUST win 🔥 GLM-5.2 is free when used with Hugging Face Inference Providers and for every available provider...

Hugging Face开源生态行业动态
00:17
AYi@AYi_AInotes
74
GLM-5.2 发布开源权重,MIT 许可。原 1.5TB 模型经 84% 压缩至 238GB,可在 256GB Mac 或同档硬件本地运行,保留 82% 性能。拥有 1M 上下文窗口,编码和智能体任务显著提升。提供两种推理力度:GLM-5.2 (max) 极限推理,GLM-5.2 (high) 平衡性能与 token 效率。API 定价与 GLM-5.1 相同。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布
6月18日
23:55
AK@_akhaliq
41
GLM-5.2 在 Hugging Face Inference Providers 上通过 Zai、Together AI、Novita、Fireworks、DeepInfra 免费提供,持续 6 小时 可搭配 Pi、opencode、Codex、Claude Code 或任何编码智能体进行设置。
Hugging Face产品更新部署/工程
23:47
Hugging Face:Blog(RSS)
精选70
超越 LoRA:如何选择最佳参数高效微调技术?

参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。

Hugging Face教程/实践数据/训练

推荐理由:HuggingFace 的 PEFT 团队用公平基准把 LoRA 拉下神坛,图像生成任务上 OFT 表现更好,而且切换只需改一行配置。对微调选型有实打实的参考价值,但数据集有限,别全信。
21:47
Hugging Face:Blog(RSS)
精选74
AI 智能体够格吗?在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌,做 agent 工具链的人应该马上看这个标杆。
11:43
HuggingFace Daily Papers(社区热门论文)
精选74
Sumi:从头训练的7B开源均匀扩散语言模型

Sumi(日语“墨”)是一个完全开源的7B参数均匀扩散语言模型,从零开始在1.5T模型token上预训练。它在知识、推理和编程评测中与同等token预算的自回归模型表现相当,但在常识推理benchmark上略逊,教育密集型数据混合可能是原因之一。Sumi开放模型权重、检查点及完整训练配方(含公开语料数据混合说明),为社区提供首个大规模均匀扩散模型的基准参考。

arXivHugging Face开源生态数据/训练

推荐理由:Sumi 是第一个完全从零预训练的大规模均匀扩散语言模型,填补了社区在这方向的研究空白,做扩散语言模型的人终于有个可以摸的起点。
11:14
Hacker News 热门(buzzing.cc 中文翻译)
精选70
cuTile Rust:安全无数据竞争的 GPU 内核系统

cuTile Rust 是一个基于 tile 的 GPU 编程系统,允许用 Rust 编写内存安全、无数据竞争的内核。它通过 #[cutile::module] 宏将内核 AST 嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。可变张量在启动前分割,不可变张量共享,启动器在 GPU 工作期间保持所有权。在 NVIDIA B200 上,逐元素操作达 7 TB/s(约 91% 峰值带宽),GEMM 达 2 PFlop/s(约 92% 密集 f16 峰值)。基于 cuTile Rust 构建的 Grout 推理引擎在 RTX 5090 上解码 Qwen3-4B 达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目处于早期研究阶段。

arXivHugging Face开源/仓库开源生态

推荐理由:用Rust的所有权模型保证GPU内核无数据竞争,性能还能达到峰值的92%,这个方向可能是安全GPU编程的未来,系统编程和推理引擎开发者值得一试。
08:00
HuggingFace Daily Papers(社区热门论文)
65
StylisticBias:少数视觉线索主导MLLM社会偏见

StylisticBias 是一个用于评估多模态大语言模型(MLLM)属性级社会偏见的可控基准。研究团队生成500张逼真基础人脸,每张创建约50个单属性变体,共约25K图像,通过固定身份、逐次改变单一视觉属性来测量特定线索如何影响模型判断。在6个MLLM、25个二元社会判断场景中,年龄和体型主导身份层面效应,时尚风格等视觉线索引发最大属性层面偏移;约15个属性解释了近80%的总变异。模型在与社会经济和外貌语义对齐的判断中敏感性最强。StylisticBias基准及代码、数据集已开源。

arXivHugging Face安全/对齐论文/研究
00:43
Hugging Face:Blog(RSS)
71
ARD 规范发布:让智能体搜索工具、技能与其他智能体

微软、谷歌、GoDaddy、Hugging Face 等联合起草的 Agentic Resource Discovery (ARD) 规范发布。该开放标准定义静态清单 ai-catalog.json 和动态注册表 API(POST /search),使智能体运行时通过自然语言搜索发现能力,无需预装。Hugging Face 推出参考实现 Discover Tool,集成 Hub 语义搜索与 Agent Skills,覆盖数千个 Skills、ML 应用和 MCP 服务器;支持 CLI(hf discover search)、REST API 或 MCP Server 按 media type 筛选运行时状态为 RUNNING 的 Space 或 MCP 标签条目。

Hugging FaceMCP/工具产品更新开源生态
关联讨论 1 条Google Developers Blog(RSS)
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
18:39
Hugging Face:Blog(RSS)
精选66
Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

Hugging Face产品更新具身智能开源生态

推荐理由:AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里,代码几乎不变就能从模拟切到物理机器人,对具身智能开发者是省掉胶水代码的实用工具。
10:33
HuggingFace Daily Papers(社区热门论文)
50
UniAR:共享语境-视觉分词器是实现统一的关键

UniAR 提出统一多模态自回归框架,用单个离散视觉分词器作为理解与生成的共享桥梁,使模型直接解释自身生成的视觉 token。该框架融合预训练视觉编码器、多级特征融合与无查找按位量化,保留高层语义与低层细节。并行按位预测联合输出空间分组的多级视觉编码,缩短视觉序列长度并加速生成;扩散解码器从离散 token 重建高保真图像。经预训练、监督微调与强化学习,UniAR 在图像生成和编辑上达最优,在多模态理解基准上也有竞争力。

arXivHugging Face图像生成多模态
09:20
公众号:智谱(GLM)
81
GLM-5.2上线并开源:专注Coding与长程任务

智谱今日发布并开源GLM-5.2,在前端开发盲测系统Code Arena上取得全球可用模型第一。该模型专为长程任务设计,实现1M无损上下文,支持跨越数天的任务执行。在FrontierSWE上仅比Claude Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);Terminal-Bench 2.1上比Opus 4.8低4%,较GLM-5.1提升17.5%。引入思考档位控制,Coding能力介于Opus 4.7与4.8之间。提出IndexShare架构降低单位FLOPs至2.9倍,改进MTP层提升接受长度20%。已在华为昇腾等国产算力平台适配。模型权重以MIT协议开源,API已上线并纳入GLM Coding Plan。

智能体Hugging Face模型发布编码
关联讨论 10 条X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)X:硅基流动 SiliconFlow (@SiliconFlowAI)Simon Willison 博客The Decoder:AI News(RSS)X:智谱 Z.ai (@Zai_org)Nathan Lambert:Interconnects(RSS)智谱:研究(网页内嵌数据)公众号:智谱(GLM)Hugging Face:Blog(RSS)
08:35
Berryxia.AI@berryxia
73
GLM-5.2 开源发布:MIT 协议、1M 上下文、强化长程 Agent 能力

GLM-5.2 以 MIT 协议开源权重,支持 1M 上下文窗口。相比 GLM-5.1,在 Coding、Tool use、Reasoning 上明显提升,尤其在长程 Agent 任务(大规模代码实现、自动化研究、性能优化、复杂调试)中更稳定。提供 Max 和 High 两种推理模式,分别侧重极致性能与 Token 效率平衡。API 价格与上一代相同。社区已在 DeepSWE 等基准上验证其能力。此外,Slide 生成、长文档处理和角色扮演等任务也有进步。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

智能体Hugging Face开源/仓库模型发布
08:00
HuggingFace Daily Papers(社区热门论文)
49
ACIE:基于智能体RAG的可配置临床信息提取--什么有效、什么失效及原因

患者上下文涉及数百份异构文档与数千个结构化数据点,但文档级元数据缺失,标准RAG在处理时间推理、跨文档依赖等任务时表现不佳。为此,研究者在埃森大学医学中心部署了ACIE——一个本地部署的智能体RAG流水线,它可推理完整患者上下文并将每个回答锚定在源段落中供临床医生验证。在一项独立的回顾性淋巴瘤登记研究中,核医学医生对每个提取值与其引用来源进行核对,在7326次判断中接受了96.5%的提取结果,各类型接受率介于80%至99%之间。

智能体Hugging Face检索增强论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
58
LOCUS:美国地方法规语料库

LOCUS语料库包含来自9,239个城市和县的原始法规,并提供覆盖美国3,144个县中最大的2,309个县的标准化访问层,涵盖多数人口。项目利用OCR处理多种文档格式,将此前碎片化、仅供人工浏览的地方法规转化为机器可读资源。团队训练了基于ModernBERT的分类器和评分器,用于分析法规不透明性和家长主义等此前难以大规模研究的维度。LOCUS-v1及衍生模型已公开发布。

Hugging Face数据/训练论文/研究
02:24
Chubby♨️@kimmonismus
83
GLM-5.2 作为开放权重模型发布,采用 MIT 许可,拥有 1M 上下文窗口。提供两种推理模式:max(极限推理)和 high(平衡性能与 token 效率)。在编码和智能体任务上有显著提升,专为大规模实现、自动化研究、性能优化和复杂调试训练。API 定价与 GLM-5.1 保持一致。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布
02:16
🚨 AI News | TestingCatalog@testingcatalog
77
ZAI 在 Hugging Face 上发布 GLM-5.2,采用 MIT 开源许可,API 定价与 GLM-5.1 相同。模型支持 1M 上下文窗口,提供两种推理努力级别:max(极致性能)和 high(平衡性能与 token 效率)。在编程和 AI 智能体任务上有显著提升,具备长程任务能力。DeepSWE 基准得分 46.2%,创下开源权重模型的 SOTA 纪录。

Z.ai: Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...

Hugging Face开源生态推理模型发布
6月16日
09:59
Berkeley RDI:Blog(AI 安全与评测)
精选83
伯克利RDI发布Agents' Last Exam基准

2026年6月,伯克利RDI发布Agents’ Last Exam(ALE)基准,包含1,500余项源于真实工作的任务,覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示:在最困难层级成功率均为0%;整体任务表现接近,但单任务成本差异巨大(Fable 5约$15.70,GPT-5.5约$3.80,Composer 2.5约$1.33)。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体arXivHugging Face开源生态

推荐理由:在Fable 5发布后,Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平,最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。
01:25
LMSYS:Blog(Chatbot Arena 团队)
精选67
下一代投机解码:DFlash 与 Spec V2

Z Lab、Modal 与 SGLang 团队联合发布 DFlash 投机解码模型和 SGLang 的默认 Spec V2 引擎。DFlash 采用块扩散+KV 注入并行生成整块 draft token,在 Qwen 3.5 397B-A17B(BF16)的 HumanEval 数据集上、并发 1 时吞吐量达到基线的 4.3

Hugging Face推理模型发布部署/工程

推荐理由:DFlash 用并行起草和 KV 注入实现了实测 4.3 倍吞吐,再加上 SGLang Spec V2 引擎优化,推理加速不再是纸上谈兵。做 LLM 部署和推理服务的人,可以直接用这个组合试试。
6月15日
23:49
IT之家(RSS)
69
MiniMax M3 模型正式开源:原生多模态、百万上下文

MiniMax 于 6 月 12 日开源 MiniMax M3 模型权重并发布 MSA 技术论文。M3 是原生多模态旗舰模型,总参数 428B,激活参数 23B,为首个从 Step 0 开始多模态混合训练的开源模型。在 Artificial Analysis 综合智能指数上获全球开源最高排名。输出速度从约 30 TPS 提升至约 80 TPS,后续还将提速 30-40%。M3 在编码与智能体评测中达行业顶尖水平,具备自主任务拆解、工具调用与多步推理能力,上下文支持百万级别。

arXivHugging Face多模态开源生态
05:06
MarkTechPost(RSS)
65
FineWeb 流式加载、过滤、去重、分词与大规模网络语料库分析实践教程

该教程演示如何在不下载完整多 TB 语料库的前提下,通过 HuggingFace 的 load_dataset 流式接口加载 FineWeb sample-10BT 子集的 3000 条文档,检查其 schema 及 url、language、language_score、token_count 等元数据字段,并复现 FineWeb 的质量过滤流程(Gopher / C4 / FineWeb 自定义规则)、采用 MinHash 进行近似重复检测、用 GPT-2 tokenizer 验证 token 计数,最后生成域名、语言分数、文档长度和 tokenizer 效率等统计图表。

Hugging Face教程/实践数据/训练
01:59
Hacker News 热门(buzzing.cc 中文翻译)
精选72
里约热内卢市政府 AI 模型 Rio3.5 在基准测试中击败 Qwen3.7

里约热内卢市政府开发的 AI 模型 Rio3.5,在近期基准测试中超越了 Qwen3.7。该消息源自 Hacker News 上的一篇帖子,指出 Rio3.5 在多项评测中表现优于 Qwen3.7。目前尚未公开具体的测试细节或基准名称。

Hugging Face开源/仓库模型发布评测/基准

推荐理由:一个市政府 IT 部门训练的模型在基准测试中击败了 Qwen3.7,这让人重新审视谁在参与前沿模型竞争。如果结果可复现,可能是今年最意外的黑马。
6月14日
01:12
SemiAnalysis@SemiAnalysis_
66
MiniMax M3 上线 HuggingFace 并接入 InferenceX

MiniMax M3 模型已上线 HuggingFace 并集成至 InferenceX。M3 总参数量约 428B,激活参数约 23B。得益于 Inferact 工程支持,M3 在 NVIDIA B300 Blackwell Ultra 上通过 vLLM 实现 Day 0 优化推理。Inferact 还发布了 EAGLE3 heads 以进一步加速。团队正在 InferenceX 上基准测试 Day 0 MI355X 性能。

Hugging Face推理模型发布
6月13日
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
精选62
inclusionAI 发布 VISTA-4B GUI 定位视觉语言模型

VISTA-4B 是基于 Qwen3.5-4B 骨干的 GUI 定位模型,输入截图与自然语言指令,输出归一化 0-1000 坐标。训练采用视图一致 GRPO 和自验证交叉视图锚定。在 GUI 定位基准上,SSPro 得分 64.2(相比 GRPO-4B 提升 2.0),SSV2 得分 93.8(下降 0.4),OSWorld-G 得分 61.2(提升 1.3),OSWorld-G-R 得分 69.7(提升 0.5)。模型已开源在 HuggingFace,推荐使用提示词并返回 [x,y] 格式坐标。

智能体Hugging Face多模态模型发布

推荐理由:蚂蚁 inclusionAI 开源了一款 GUI 定位模型,基于 Qwen3.5 微调,在接地基准上小幅提升,关键是提供了自验证训练方法,做桌面自动化的可以直接下载用。
13:17
蚂蚁 inclusionAI:HuggingFace 新模型
71
inclusionAI/VISTA-9B:基于VISTA训练的GUI定位视觉语言模型

VISTA-9B是基于Qwen3.5 9B骨干训练的GUI定位模型,输入截图与自然语言指令,输出0-1000归一化坐标。采用VISTA(视图一致自验证)方法,含view-consistent GRPO与self-verified cross-view anchoring。在SSPro、SSV2、OSWorld-G、OSWorld-G-R上分别取得69.2、95.8、68.1、75.5分,超越Qwen3.5-9B与GRPO-9B基线。模型已开源,可通过HuggingFace加载使用。

智能体Hugging Face多模态模型发布
12:15
MiniMax (official)@MiniMax_AI
78
MiniMax 宣布其 M3 模型的权重已开源(HuggingFace 链接)。此前,Anthropic 因美国以国家安全为由发布出口管制指令,被迫立即禁用 Fable 5 和 Mythos 5 模型,禁止任何外国国民访问(包括外国员工)。MiniMax 以"M3 would never"暗讽其模型不受此类限制,并强调权重已开放。

Anthropic: The US government, citing national security authorities, has issued an export control directive to suspend all access to...

Hugging Face开源生态模型发布
关联讨论 12 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:OpenRouter (@OpenRouter)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
02:43
MiniMax (official)@MiniMax_AI
69
MiniMax-M3 是一款拥有 428B(23B 激活)参数、1M 上下文的新开源模型,性能与 Gemini 3.1 Pro 相当。可在 138GB 内存/显存上运行动态 2-bit GGUF 版本,或 165GB 上运行 3-bit 版本。在 @UnslothAI 的帮助下,今天即可本地运行 M3。

Unsloth AI: MiniMax M3 can now be run locally!🔥 MiniMax-M3 is a new 428B (23B active) open model with 1M context that performs on p...

Hugging Face开源生态模型发布
00:42
🚨 AI News | TestingCatalog@testingcatalog
51
NVIDIA ❤️ MiniMax MiniMax M3 权重现已在 @huggingface 上发布,NVIDIA 在其平台上提供免费端点用于测试。 测试时间到 👀

NVIDIA AI: Congrats to the @MiniMax_AI team on the release of MiniMax M3, a long-context multimodal model for text, image, and vide...

Hugging Face多模态开源/仓库模型发布
00:00
Hugging Face:Blog(RSS)
精选74
olmo-eval:面向模型开发循环的评估工作台

olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。

Hugging Face产品更新开源生态评测/基准

推荐理由:做模型训练的人会感谢这个工具,它把评估从一次性打分变成能持续对比的流程,按题对比两个 checkpoint 的功能很实用,但如果你不训模型,这篇可以跳过。
6月12日
22:12
MiniMax (official)@MiniMax_AI
同事件精选81
MiniMax 发布开源权重模型 M3,约 428B 总参数、23B 激活参数,已上传 HuggingFace。该模型融合三种前沿能力:编码与智能体方面达 59.0% SWE-Bench Pro、66.0% Terminal Bench 2.1、34.8% SWE-fficiency、28.8% KernelBench Hard、74.2% MCP Atlas;采用 MiniMax 稀疏注意力将上下文窗口扩展至 1M token;原生多模态。同步上线 MiniMax Code 工具及 API 平台。权重与技术报告预计约 10 天后发布。

MiniMax (official): Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier:...

Hugging Face多模态推理模型发布
同一事件,精选展示《MiniMax M3:前沿编码、100万token上下文与原生多模态一体模型》
推荐理由:开放权重模型首次把编码 Agent 和多模态拉满,SWE-bench Pro 59% 逼近专有前沿,附带稀疏注意力 1M 上下文。做代码工具和 Agent 的团队应该都盯上它了。
21:41
🚨 AI News | TestingCatalog@testingcatalog
57
KIMI AI🔥: 一个新的开源"Kimi K2.7 Code"模型已在 API 和 Huggingface 上发布! > 相比 K2.6,编码与智能体性能提升 > 推理效率 > 长时域编码 测试时间 👀

Kimi.ai: 🔗 Weights & code: https://huggingface.co/moonshotai/Kimi-K2.7-Code

Hugging Face开源生态推理模型发布
21:18
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选77
Kimi K2.7-Code:具有更高模型 token 效率的开源编码模型

Kimi K2.7-Code 是一个开源编码模型,相比同类模型拥有更高的模型 token 效率,能够用更少的 token 完成相同的代码生成任务。模型已在 HuggingFace 上发布。

智能体Hugging Face推理模型发布
同一事件,精选展示《6倍速!Kimi K2.7 Code 高速版已上线》
推荐理由:Kimi K2.7-Code 把推理 token 砍掉 30%,在长程编码任务上有实打实的提升,是编码智能体赛道的一个有力信号,做代码 Agent 的可以盯一下。
19:36
IT之家(RSS)
69
月之暗面开源 Kimi K2.7 Code 编程模型,预告 6 倍速高速版

月之暗面发布并开源 Kimi K2.7 Code 编程模型。相比 K2.6,长上下文编程指令遵循和长程任务性能提升,过度思考倾向改善,平均 token 消耗减少 30%。Kimi Code Bench v2 提升 21.8%、Program-Bench 提升 11%、MLS Bench Lite 提升 31.5%;Agent 基准提升约 10%。即日起通过 Kimi API 调用,输入 6.5 元/百万 token、输出 27 元、缓存输入 1.3 元。非编程任务仍推荐 K2.6,模型需开启思考模式。预告高速版(输出约 180 Token/s),6 月 15 日可调用,6x 速度仅需 2x 价格。

Hugging Face模型发布编码
‹ 上一页
1234…9
下一页 ›