6月9日

22:34

Google DeepMind：Blog（RSS）

同事件精选80

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

Google 多模态开源/仓库推理

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验，开源 + Apache 2.0，本地部署门槛又压低了。

10:28

蚂蚁 inclusionAI：GitHub 新仓库

蚂蚁 inclusionAI 开源 AReno：单节点加速强化学习后训练工具包

蚂蚁 inclusionAI 在 GitHub 上开源了 AReno，一个易用且快速的工具包，可在单节点上扩展强化学习后训练（RL post-training）。

开源/仓库数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

WebChallenger：不依赖模型规模、通过架构设计提升自主网页导航的智能体框架

WebChallenger 围绕核心模块 PageMem（从 DOM 确定性构建的带摘要语义层次页面结构）设计三种机制：分而治之的观测管线（让智能体扫读摘要、仅提取任务相关区域细节）、轻量级网站探索与记忆系统（遍历一次网站即可复用页面与元素行为地图）、以及将多步交互压缩为单步智能体动作的工作流。使用未经微调的开源模型，在 WebArena 上达 56.3%、VisualWebArena 48.7%、Online-Mind2Web 51.0%、WorkArena 70.9%，接近前沿闭源系统但成本极低。代码已开源。

智能体 GitHub 开源/仓库论文/研究

6月8日

21:50

Hugging Face：Blog（RSS）

精选62

开源社区支持 OpenEnv 用于智能体强化学习

今日，Hugging Face 宣布 OpenEnv 项目进一步开放，由 Meta-PyTorch、Reflection、Unsloth 等组成的委员会协调，并获得 PyTorch Foundation、vLLM、SkyRL（UCB）等机构支持。OpenEnv 是创建终端、浏览器等智能体执行环境的工具，定位为训练器与环境间的互操作层，标准化环境的发布、部署和消费，但不定义奖励或训练循环。它基于客户端/服务器架构提供 Gymnasium 风格 API（reset()、step()、state()），支持 HTTP、WebSocket、Docker 打包，并将 MCP 作为一等公民，使环境在模拟和生产模式下行为一致。未来将聚焦任务集对接数据集、外部奖励、Harness 集成及自动验证，以推动开源智能体 RL 基础建设。

智能体 Hugging Face MCP/工具 Meta

推荐理由：开源社区在 agent RL 环境上终于开始合流，Meta、Nvidia、Hugging Face 等联合推动 OpenEnv 成为接口标准，不做奖励框架，只做插线板。搞开源 agent 训练的人，这是少有的统一基础设施的机会。