6月25日

00:15

Hugging Face：Blog（RSS）

精选66

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调

NVIDIA NeMo AutoModel 是基于 Transformers v5 的开源库，添加 Expert Parallelism、DeepEP 融合 all-to-all 调度和 TransformerEngine 内核。在 MoE 模型微调中，相比原生 v5，训练吞吐量提升 3.4–3.7 倍，GPU 内存减少 29–32%，仅需改动一行 import。在 16 节点 128 张 H100 上全微调 Nemotron 3 Ultra 550B A55B 时，v5 因内存不足无法运行，而 AutoModel 凭借 EP=64 专家并行使训练可行。单节点 30B MoE 模型（如 Qwen3-30B-A3B）同样获得可量化的性能优势。

开源/仓库教程/实践数据/训练

推荐理由：英伟达的 NeMo AutoModel 把 MoE 模型微调速度提高了三倍多，内存省了近三分之一，代码只需改一行 import，做训练的可以立刻升级。

6月23日

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

6月18日

21:47

Hugging Face：Blog（RSS）

精选74

AI 智能体够格吗？在自有工具上评测开源模型

Hugging Face 发布面向 AI 智能体使用场景的基准测试框架，以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动，通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率，而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍（最高 6 倍），该框架旨在验证类似优化对 transformers 的效果。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 这波实验打破了我的直觉——为大型模型优化的 CLI+Skill 方案反而让小模型正确率暴跌，做 agent 工具链的人应该马上看这个标杆。

04:12

GitHub Blog

精选61

GitHub 发布 CC0-1.0 开源多语言仓库级数据集，覆盖 README、Issue 和 PR

GitHub 推出一个新的仓库级数据集，采用 CC0-1.0 许可证，旨在帮助研究人员和开发者发现跨 README、Issue 和 Pull Request 的多语言开发者内容，加速多语言 AI 开发。

GitHub 开源/仓库数据/训练

推荐理由：GitHub 发布了一个多语言开发者内容数据集，CC0 许可，对于训练跨语言代码模型和辅助翻译有直接价值，做多语言 Copilot 的团队应该会关注。

6月17日

15:36

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁集团 GitHub 新建仓库 inclusionAI/asystem，内容暂未公开

蚂蚁集团在 GitHub 上新建仓库 inclusionAI/asystem。目前仓库仅包含 docs、.nojekyll 和 CNAME 等基础文件，尚无代码或详细说明，具体功能与项目目标尚未披露。

开源/仓库开源生态

6月16日

10:40

公众号：蚂蚁百灵（Ling）

同事件精选79

蚂蚁百灵发布 Ling & Ring 2.6 技术报告

蚂蚁百灵发布 Ling & Ring 2.6 技术报告，系统公开 Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T 的架构、预训练、后训练及 Agent 强化学习细节。三款模型采用 Hybrid Linear Attention 架构，将 Lightning Attention 与 MLA 以 7:1 比例结合。Ling-2.6-flash 在 4×H20 硬件上解码速度达 340 tokens/s，Ling-2.6-1T 在 Artificial Analysis Intelligence Index 上 token efficiency 较前代提升约 4 倍。Ring-2.6-1T high 在 PinchBench 得 87.60，ClawEval 得 63.82。三款模型均已开源。

智能体开源/仓库推理模型发布

同一事件，精选展示《蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T》

推荐理由：蚂蚁百灵2.6技术报告首次公开Hybrid Linear Attention与KPop Agent RL细节，开源模型在OpenClaw登顶，把万亿模型从聊天拉到真实工作流，做Agent应用的值得细读。

03:59

GitHub Blog

GitHub 发布新开源数据集，加速多语言 AI 研究与开发

GitHub 在 CC0-1.0 许可下发布了一个仓库级数据集，涵盖多语言开发者内容，包括 README、issue 和 pull request。该数据集旨在帮助研究者和开发者发现并利用跨语言的技术文档与社区讨论，以推动多语言 AI 的构建与优化。

GitHub 开源/仓库数据/训练

6月11日

16:50

公众号：腾讯混元

精选78

腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库，推出五大核心算子。Attention 采用运行时动态负载调度，长文本最高加速 2.95x，端到端 QPM 提升 17%；Router GEMM 以双 BF16 组合实现 FP32 精度，对比 CuBLAS FP32 最高提速 3.22x；FusedMoE 相对 vLLM、SGLang 性能提升 1.2x～1.6x；Fused AllReduce+Norm 对比主流方案最高提速 1.68x；Sampler 将解码采样融合为 2 个 CUDA Kernel，相对 vLLM 提速 4.0x～7.5x。所有能力均来自生产实践并完全开源。

产品更新开源/仓库推理部署/工程

推荐理由：腾讯混元把推理全链路的瓶颈都加速了一遍，Sampler 算子比 vLLM 快 4-7 倍，Attention 动态调度根治长尾延迟，这套开源算子库可以直接用，做推理部署的可以抄作业。

6月9日

22:34

Google DeepMind：Blog（RSS）

同事件精选80

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

Google 多模态开源/仓库推理

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验，开源 + Apache 2.0，本地部署门槛又压低了。

10:28

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁 inclusionAI 开源 AReno：单节点加速强化学习后训练工具包

蚂蚁 inclusionAI 在 GitHub 上开源了 AReno，一个易用且快速的工具包，可在单节点上扩展强化学习后训练（RL post-training）。

开源/仓库数据/训练

6月8日

21:50

Hugging Face：Blog（RSS）

精选62

开源社区支持 OpenEnv 用于智能体强化学习

今日，Hugging Face 宣布 OpenEnv 项目进一步开放，由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调，并获得 PyTorch Foundation、vLLM、SkyRL（UCB）等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具，定位为训练器与环境间的互操作层，标准化环境的发布、部署和消费，但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API（reset()、step()、state()），支持 HTTP、WebSocket、Docker 打包，并将 MCP 作为一等公民，使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证，以推动开源智能体 RL 基础建设。

智能体 Hugging Face MCP/工具 Meta

推荐理由：开源社区在 agent RL 环境上终于开始合流，Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准，不做奖励框架，只做插线板。搞开源 agent 训练的人，这是少有的统一基础设施的机会。

6月6日

19:48

Hugging Face：Blog（RSS）

精选58

Persona Atlas：Hugging Face 上的开源人物思维映射工具

Persona Atlas 是一个运行在 Hugging Face Inference Providers 上的开源项目。它通过工具调用代理执行真实网络搜索，生成公众人物的资料、事实清单和风格假设，然后让该人物回答十个关于身份、伦理等开放式问题。每个回答被转化为嵌入向量，从而在向量空间中对不同人物进行距离比较，并基于十个特质锚点绘制热力图。前端采用 Gradio，提供研究、比较和检查代理完整追溯三个标签页，预设多个人物角色，无需 token 即可直接体验。

智能体 Hugging Face 开源/仓库

推荐理由：把苏格拉底和乔布斯放在一起比思维方式，这个实验更像智力玩具，但背后用小模型跑 agent 搜索做嵌入比较的流程，做角色扮演的人可以学研究方法。

6月5日

10:24

公众号：龙猫LongCat（美团）

ACL'26美团技术团队6篇论文入选：聚焦大模型评测与推理优化

美团技术团队在ACL'26上分享6篇论文，涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务，有效性达78.55%；SOP-Maze基于真实业务构建397个流程实例，测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板；AMO-Bench含50道高难度数学题，最强模型准确率仅52.4%；The Evolution of Thought提出推理完成点（RCP）检测器减少冗余生成；MASPO通过软高斯门控等优化推理后训练，提升Avg@32和Pass@32；FLR将隐式推理分解为多维偏好因子，平均提升3.2%。

开源/仓库推理论文/研究评测/基准

03:43

Hugging Face：Blog（RSS）

精选78

Nemotron 3.5 Content Safety：面向全球企业AI的可定制多模态安全

Nemotron 3.5 Content Safety基于Gemma 3 4B IT，提供128K上下文窗口，支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行，允许企业用自然语言定义专属安全规则；THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言，并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架（13核心类别+10细分类别）。同步发布多模态、多语言安全数据集，可在8GB+ VRAM GPU上实时部署。

Hugging Face 多模态安全/对齐开源/仓库

推荐理由：Nemotron 3.5 把内容安全从「单模态英文」拉到「多语言多模态可定制」，自定义策略和推理 trace 让企业能审计决策，做安全平台的值得细看。

00:53

LMSYS：Blog（Chatbot Arena 团队）

精选77

Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务

Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数，基于 Qwen3-4B 骨干，支持 100 种语言（内部评测覆盖 111 种），在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感（20+种）、风格、韵律（语速/音高/停顿）及音效。模型支持流式合成，文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计，统一调度 AR 解码与轻量计算，实现低延迟推理。

开源/仓库教程/实践语音部署/工程

推荐理由：Higgs v3 把多语言和实时可控制整合进一个流式 TTS 模型，SGLang-Omni 为它搭好了多阶段推理的底座，做语音 Agent 的可以直接抄作业，这比多数论文落地快半拍。

6月4日

20:42

Hugging Face：Blog（RSS）

精选65

EVA-Bench Data 2.0 发布：覆盖三大领域、121 个工具、213 个场景

EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理（CSM）、企业 IT 服务管理（ITSM）和医疗 HR 服务交付（HRSD）三个领域，共涵盖 121 个工具、213 个场景，场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则，包含单意图、多意图（最多 4 个意图）和对抗性呼叫类型。所有三个数据集已开源，可通过 load_dataset 从 Hugging Face 直接下载。后续将推出多语言扩展。

开源/仓库论文/研究评测/基准

推荐理由：语音代理评测缺的就是这种真实场景的数据集，EVA-Bench 2.0 把航空、IT、医疗三个最棘手的领域打包了，生成流水线也开源，做评测的可以直接拿来用。

02:49

Google Research：Blog（网页）

精选72

洪水韧性新篇章：Google 开源水文建模框架

Google Research 在 GitHub 开源了其水文建模框架，这是一个基于 PyTorch 的 Python 包，采用与 Flood Hub 河段洪水预报相同的模型架构和训练数据。该框架允许研究者和预报员训练 AI 洪水预报模型、添加新模型与数据，并已与捷克水文气象研究所（CHMI）等合作测试。开放模型架构和训练管线旨在让各国气象水文部门在保留数据完全控制权的同时，整合基于 AI 的洪水预报。

Google 开源/仓库开源生态数据/训练

推荐理由：谷歌开源的水文模型框架，是少数真正能救命的AI应用。不是秀参数，而是把工具直接塞给一线预报员，让他们用本地数据训练。务实，值得给赞。

6月2日

22:40

Hugging Face：Blog（RSS）

精选73

Holo3.1：快速本地计算机使用智能体

Holo3.1 是基于 Qwen 模型家族的计算机使用智能体系列，旨在提升在桌面、网页和移动环境中的鲁棒性。新模型提供 0.8B、4B、9B 和 35B-A3B 四种尺寸，并首次发布量化检查点，包括 FP8、Q4 GGUF 和 NVFP4，以优化本地推理。在 AndroidWorld 基准测试中，35B-A3B 模型得分从 67% 提升至 79.3%。在 DGX Spark 上，NVFP4 量化相比 BF16 实现 1.74 倍 token 吞吐量提升，并将平均步骤时间从 6.8 秒缩短至 3.3 秒。模型支持函数调用协议，可在第三方智能体框架中部署。

智能体 Hugging Face 开源/仓库模型发布

推荐理由：Holo3.1 把计算机使用代理从桌面扩展到了移动端，还首次放出了量化版，让本地运行真正快了起来。想做 GUI 自动化的开发者可以立刻跑起来了。

6月1日

11:39

MiniMax：Blog（网页）

精选83

MiniMax M3：前沿编码、100万token上下文与原生多模态一体模型

MiniMax M3 是一个开源前沿模型，具备先进的编码与AI智能体能力。它支持100万token的超长上下文窗口，并采用名为MSA（MiniMax Sparse Attention）的新型稀疏注意力架构。该架构使模型在100万token上下文下的每token计算成本降至前代的1/20，预填充速度提升9倍以上，解码速度提升15倍以上。在SWE-Bench Pro编码基准上，MiniMax M3得分59.0%，超越GPT-5.5和Gemini 3.1 Pro，性能接近Opus 4.7。该模型可通过MiniMax Code、Token Plan和API服务使用。

多模态开源/仓库推理模型发布

关联讨论 12 条

推荐理由：MiniMax M3 把开源模型的编码能力推到了 GPT-5.5 和 Opus 4.7 这条线上，还附带 1M 上下文和原生多模态，这是开源社区真正能打的前沿选项，做 Agent 的值得立刻跑一下。

03:46

Claude Code：GitHub Releases（RSS）

v2.1.159

v2.1.159 版本更新包含内部基础设施改进，未引入任何面向用户的功能变更。此次更新预计不会影响现有功能或用户接口。

Anthropic 产品更新开源/仓库编码

5月29日

11:35

公众号：面壁智能（MiniCPM）

精选61

面壁智能联合清华、OpenBMB开源最大中文预训练合成数据集及千万级SFT数据集，公开MiniCPM5-1B核心数据

面壁智能联合清华大学、OpenBMB发布并开源两大数据集：Ultra-FineWeb-L3（超600B Tokens，中文200B+，为当前最大中文预训练合成数据集）和UltraData-SFT-2605（国内首个千万级同时含深思考与非思考标注的SFT数据集）。两者基于UltraData数据分级治理体系构建，在MiniCPM5-1B训练流程中得到完全验证，覆盖预训练退火到后训练SFT全链路。已上线UltraData网站与HuggingFace，免费开放。

Hugging Face 开源/仓库数据/训练端侧

关联讨论 1 条

推荐理由：填补了中文大规模合成数据空白，三年前还在用英文数据做中文模型的日子可以翻篇了，做端侧模型的可以直接拿这份数据跑一版 MiniCPM5-1B 级别的效果。

5月28日

22:07

公众号：腾讯混元

Hy-Memory 发布：为 Openclaw 打造的记忆插件

腾讯混元推出 Hy-Memory，一款为 Openclaw 长期协作型 Agent 设计的记忆插件。它采用 6 层记忆框架、System1/System2 双系统及演化链技术，解决 Agent 长期使用中的记忆漂移与碎片化问题。在 LongMemEval 上得分 85.2，在偏好、时序推理、知识更新维度领先；PersonaMem 评测超越所有竞品。相比其他方案，记忆数量降低 70%+，单条信息密度高 45%+，token 消耗降低 35%，写入速度为 Graphiti 的 8 倍，支持本地嵌入式存储，安装仅需一行命令，提供 Lite/Pro/Ultra 三档。

智能体产品更新开源/仓库

18:47

Mistral AI：News（网页）

精选55

塑造产业的物理AI研究

Mistral AI通过收购Emmi AI，强化其在推动AI研究前沿与工业工程解决方案方面的投入。其目标是为航空航天、汽车、半导体和能源等塑造物理世界的核心产业构建基础性物理AI模型，以加速工程开发。此项研究基于一系列已发表的突破性成果，包括：用于模拟超音速湍流的3D机翼CFD数据集、计算流体动力学基础模型的前瞻综述、应用于汽车与航空的AB-UPT模型，以及用于聚变等离子体湍流模拟的GyroSwin模型。此前已开源的UPT（通用物理Transformer）和NeuralDEM等成果也为此研究奠定了基础。

开源/仓库论文/研究

推荐理由：Mistral 把物理 AI 定为下个重点，从流体仿真到核聚变等离子体都有论文支撑。搞工业仿真的团队值得跟进，但这次没有新模型发布，更多是路线宣示而非新突破。

5月27日

11:35

公众号：面壁智能（MiniCPM）

精选64

AI 制造 AI：面壁智能发布并开源全球首个完全由 AI 编写的生产级训练框架 ForgeTrain

面壁智能联合清华大学、OpenBMB发布ForgeTrain，全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。在英伟达H100上训练速度超越Megatron 10%，节省10%算力；在华为昇腾上完整跑通预训练，并训出MiniCPM5-1B模型，综合性能在AA榜单2B规模以下Top1。框架及Agent Harness工具链一并开源。

开源/仓库数据/训练部署/工程

关联讨论 1 条

推荐理由：面壁这波把 AI 写代码从玩具推进到了生产车间，ForgeTrain 跑得比英伟达 Megatron 还快 10%，而且直接在昇腾上训出了 MiniCPM5-1B，国产算力跟 AI 自举这两条线在这一刻交汇了，做训练的可以认真看看。

5月26日

11:56

公众号：通义实验室（千问）

通义实验室发布 AgentScope 2.0，从透明开发转向系统工程

通义实验室发布 AgentScope 2.0，从关注“如何构建智能体”转向“如何让智能体可靠运行”。2.0 继续支持 Qwen、Anthropic、DeepSeek、Gemini、OpenAI 等模型，并扩展 Grok、Moonshot 支持。核心升级包括：模型层引入统一重试与备用模型机制；消息模块重构为 Content Block 并引入事件系统；引入权限系统控制工具调用、文件读写和命令执行；上下文管理实现结构化压缩与工具结果自动截断；新增 Middleware 机制；Workspace 抽象执行环境，统一本地文件系统、Docker 容器、E2B 云沙箱等；Agent Service 合并至主库。Python 版已升级至 2.0，TypeScript 版已正式发布。

智能体 MCP/工具产品更新开源/仓库

5月25日

18:48

蚂蚁 inclusionAI：HuggingFace 新模型

同事件精选69

蚂蚁 inclusionAI 发布策略自适应多模态安全护栏模型 Sing-Guard-8b

SingGuard 是蚂蚁 inclusionAI 推出的策略自适应多模态大语言模型安全护栏模型族（版本 Sing-Guard-8b），支持纯文本、纯图像、图文混合、多语言查询与回复的安全评估。其核心设计将安全策略作为运行时输入，部署团队可基于默认分类或自定义自然语言规则评估内容，无需重新训练模型。模型内置 fast-slow 动态推理流程：首 token 路由快速输出安全信号，需深度推理时继续生成更精确的最终判断。在涵盖多模态安全、纯图像安全、文本查询与回复安全、多语言查询与回复安全的六大基准测试上取得平均 SOTA 性能，并已开源至 HuggingFace 与 ModelScope。

Hugging Face 多模态安全/对齐开源/仓库

同一事件，精选展示《蚂蚁 inclusionAI 开源多模态安全护栏模型 SingGuard》

推荐理由：蚂蚁集团开源的多模态内容审核模型，最大亮点是运行时动态注入安全策略而不需重训，对需要灵活定制审核规则的团队是低门槛的高分工程实现。

5月23日

12:14

美团 LongCat：HuggingFace 新模型

美团-LongCat/WBench权重模型

美团开源了用于WBench评估框架的预训练模型权重仓库，将这些权重整合至单一仓库，旨在方便社区快速部署WBench评估环境。该权重仅重新分发用于学术研究和评估用途，所有权利归属原作者。用户可参考WBench GitHub获取安装与评估指南，具体模型许可证详见LICENSE_NOTICE.md文件。

Hugging Face 开源/仓库数据/训练

5月22日

00:07

美团 LongCat：HuggingFace 新模型

精选73

LongCat-Video-Avatar-1.5：升级版音频驱动数字人视频生成框架

美团LongCat团队发布了LongCat-Video-Avatar-1.5，一个专注于音频驱动数字人视频生成的开源框架。其核心升级在于采用Whisper-Large音频编码器，显著优化了唇部动态的流畅度与自然度。该版本实现了精准的唇形同步、全身时序稳定性以及长视频中的身份一致性，并能泛化应用于动漫、动物及多人交互等复杂场景。通过基于DMD2的步蒸馏技术，模型仅需8步即可高效推理。团队还构建了一个涵盖多场景、多语言的人工评估基准，通过大规模主观评分与专家分析，验证了其在多项关键维度上的优异性能。

Hugging Face 图像生成多模态开源/仓库

关联讨论 1 条

推荐理由：美团把数字人模型升级到1.5版，换了Whisper做音频编码，唇形同步比之前自然不少，而且开源了训练代码，做电商直播和虚拟博主的朋友可以直接拿过来跟商业方案掰手腕。

5月20日

03:03

Hugging Face：Blog（RSS）

OlmoEarth v1.1：更高效的地球观测模型家族

OlmoEarth v1.1 是新一代地球观测模型家族，将计算成本降低最多 3 倍，同时保持与 v1 相近的性能。通过将 Sentinel‑2 不同分辨率（10m、20m、60m）的 token 合并为单个 token，大幅缩短输入序列长度，从而减少预训练、微调和推理所需算力。提供 Base、Tiny、Nano 三种尺寸，权重与训练代码已开源。该模型已在红树林变化追踪、森林退化成因分类、国家级作物图绘制等任务中得到验证。

Hugging Face 开源/仓库数据/训练模型发布

5月19日

23:01

Hugging Face：Blog（RSS）

精选60

引入 Ettin Reranker 系列

Hugging Face 发布六个 Ettin Reranker 重排序模型（17m、32m、68m、150m、400m、1b），基于 Ettin ModernBERT 编码器，蒸馏 self-mxbai-rerank-large-v2 分数训练，在 MTEB(eng, v2) Retrieval 达各自规模 SOTA。模型以 Sentence Transformers CrossEncoder 接口提供，三行代码可调用。同时发布 train-sentence-transformers Agent Skill（v5.5.0），允许 AI 编码智能体在用户数据上微调模型。训练配方、数据集和脚本已全部开源。

Hugging Face 检索增强开源/仓库搜索

推荐理由：从17M到1B的全尺寸reranker家族，每个量级都是SOTA，而且训练数据和代码全开放，做搜索和RAG的开发者可以无痛替换旧模型。

5月18日

22:52

Hugging Face：Blog（RSS）

精选64

Hugging Face 推出开放 AI 智能体排行榜（Open Agent Leaderboard）

Hugging Face 发布开放 AI 智能体排行榜，用于比较完整智能体系统而非仅底层模型，并同时报告成功率和每次任务成本。排行榜统一了六项已有基准测试（SWE-Bench Verified、BrowseComp+、AppWorld、tau2-Bench Airline & Retail、tau2-Bench Telecom），覆盖代码修复、网络研究、个人任务、客服和技术支持。通过统一协议，各智能体系统以相同接口连接所有基准。结果显示相同模型搭配不同智能体系统会产生显著不同的分数和成本。配套 Exgentic 框架用于运行和复现评估，相关论文开源。

智能体开源/仓库评测/基准

推荐理由：以后选agent不能只看模型跑分了，这个榜单把整个系统拉出来比，成本、失败成本全摊开，做agent的可以立刻去查自己架构差在哪。

5月15日

11:02

蚂蚁 inclusionAI：HuggingFace 新模型

精选56

蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

Hugging Face 多模态开源/仓库模型发布

推荐理由：蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

5月14日

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 4 条

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

19:58

公众号：龙猫LongCat（美团）

美团 LongCat 开源 General 365：树立推理评测新标尺

开源/仓库推理评测/基准

5月13日

11:45

公众号：面壁智能（MiniCPM）

新一代「小钢炮」来袭！1.3B 模型性能效率双杀，MiniCPM-V 4.6 正式开源

多模态开源/仓库模型发布端侧

5月11日

22:54

Runway：News（网页）

精选68

告别编写YAML：使用confingy配置机器学习系统

Runway开源了Python库confingy，旨在解决机器学习系统配置的长期痛点。该库允许开发者用纯Python代码（支持懒加载、类型检查和序列化）替代传统YAML配置文件，从而摆脱YAML作为图灵完备领域特定语言所带来的维护困境。confingy无需重构现有代码，即可满足跟踪构造函数参数、避免实例化昂贵对象（如大语言模型）等核心需求，有效改善了因复杂YAML配置导致的无法跳转定义、类型提示失效和重构困难等开发体验问题。

开源/仓库部署/工程

推荐理由：Runway把自家ML训练的YAML坑填平了，开源了confingy。如果你还在用YAML管实验参数，这可能是今年最该装的pip包。

03:43

Hugging Face：Blog（RSS）

精选74

MachinaCheck：基于AMD MI300X构建多智能体CNC可制造性分析系统

MachinaCheck是一款基于多智能体AI的系统，旨在革新小型CNC机加工车间的报价分析流程。传统上，车间经理需花费30-60分钟手动分析图纸，而该系统在上传STEP文件及材料、公差等简单输入后，能在30秒内生成完整的可制造性报告，明确指出零件能否制造、所需工具及生产前需采取的行动。其核心在AMD MI300X加速卡上本地运行Qwen 2.5 7B模型，利用192GB HBM3显存确保客户设计数据无需离开本地，满足了制造业对数据隐私的严格要求。系统采用五组件流水线，结合精确的几何特征提取与LLM的制造知识推理，最终输出结构化报告。

智能体 Hugging Face 开源/仓库端侧

推荐理由：虽然是hackathon项目，但用多Agent做CNC可行性分析，把推理全压在本地AMD显卡上保护图纸隐私，还给了可跑的代码和Space，制造业AI落地就该这么直接。

5月6日

17:22

Hugging Face：Blog（RSS）

Open ASR 排行榜引入私有数据集以对抗基准过度优化

Hugging Face 的 Open ASR Leaderboard 加入了来自 Appen Inc. 和 DataoceanAI 的高质量私有英语 ASR 数据集，涵盖多种口音及脚本式/会话式语音，总时长约 28.7 小时。数据集保持私有以降低 benchmaxxing（针对基准的过度优化）或测试集污染风险。默认平均 WER 仍基于公开数据集计算，用户可通过切换查看私有数据集影响。标准化采用基于 Whisper 的标准化器，UI 代码和评估脚本已开源。自 2023 年 9 月上线以来，该榜单访问量已超过 71 万次。

Hugging Face 产品更新开源/仓库评测/基准

4月29日

19:07

公众号：通义实验室（千问）

FlashQLA：让 Qwen 的注意力层跑得更快

开源/仓库推理部署/工程

09:00

公众号：蚂蚁百灵（Ling）

Ling-2.6-flash 正式开源

Ling-2.6-flash 今日正式开源，同步提供 BF16、FP8、INT4 等多个版本。该模型两周前以匿名身份登陆 OpenRouter，一周前正式发布并开放为期一周的免费 API 调用服务。过去两周内，团队基于开发者反馈进行多轮优化，改善了中英文自然切换能力，并提升了主流 Coding 框架的适配效果。开发者可通过 Hugging Face 和 ModelScope 获取模型。

开源/仓库开源生态模型发布