6月9日

22:34

Google DeepMind：Blog（RSS）

同事件精选80

Google DeepMind 发布 Gemma 4 12B：统一的无编码器多模态模型

Gemma 4 12B 是 Google DeepMind 最新推出的中等规模多模态模型，采用无编码器统一架构，原生支持音频输入。其基准测试性能接近 26B MoE 模型，但内存占用不到一半，仅需 16GB 显存或统一内存即可在消费级笔记本上本地运行。模型内置多 token 预测（MTP）drafter 以降低延迟，基于 Apache 2.0 开源许可发布，已累计超过 1.5 亿次下载。

Google 多模态开源/仓库推理

同一事件，精选展示《通过 Gemma 4 将 AI 推向边缘和设备端》

推荐理由：统一无编码器架构让 12B 模型在消费级笔记本上跑出接近 26B 的多模态 Agent 体验，开源 + Apache 2.0，本地部署门槛又压低了。

19:55

Hugging Face：Blog（RSS）

精选76

一个Agent如何通过链式调用两个HuggingFace Space构建3D巴黎画廊

一个编码Agent调用HuggingFace上的两个Space，从零构建了展示巴黎地标3D高斯散点图的交互式画廊。Agent先用ideogram-ai/ideogram4生成每个纪念碑的黑色背景图像，再通过VAST-AI/TripoSplat从单张图像重建3D高斯散点（.ply），自动完成坐标系校正、取景、压缩为.ksplat（体积缩小约3倍），并构建基于Three.js的滚动切换、拖拽旋转查看器，最终部署为静态Space。整个过程无需客户端库，每个Space通过agents.md暴露可调用API。

智能体 Hugging Face MCP/工具多模态

推荐理由：Hugging Face 把 agents.md 做成每个 Space 的标准说明书，agent 能直接读懂并链式调用图像和 3D 模型，这篇用 3D 巴黎画廊 demo 告诉你这事儿已经跑通了，做 AI 工具链的可以立刻照着试。

15:55

HuggingFace Daily Papers（社区热门论文）

光学推理（Optical Reasoning）：将图像作为独立推理媒介，token效率达文本1.96倍

光学推理（Optical Reasoning）提出将图像作为语言和多模态任务的独立推理媒介，包含基于印刷字体与基于图形两种变体，分别优化视觉布局和图文结构化组织。在数学、科学及交错模态推理基准上，光学推理匹配甚至超越传统文本推理，同时语言任务减少推理token 28.57%，多模态任务减少16%，token效率达到文本推理的1.96倍，证明图像能高效编码推理过程并提供统一的视觉推理画布。

多模态推理论文/研究

15:26

IT之家（RSS）

谷歌 AI Plus 订阅计划降价：月费降至5美元，存储翻倍至400GB

谷歌宣布 Google AI Plus 套餐月费从8美元降至5美元，存储空间从200GB翻倍至400GB。该套餐于2026年1月推出，提供 Gemini 3 Pro、Nano Banana Pro 和 Deep Research 等功能，使用额度较 AI Pro 更严格。Google I/O 2026后新增 AI 邮件工具、Daily Brief 智能体（可总结用户当天安排）及视频生成模型 Gemini Omni。现有用户将陆续获得新增存储空间，下期账单反映新价格。

Google 产品更新多模态

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

OmniGameArena：面向VLM游戏智能体的统一UE5基准与改善动态

OmniGameArena是一个基于十二个Unreal Engine 5新构建游戏的实时基准，涵盖单人（7个）、PvP（3个）和合作（2个）模式，提供统一动作接口。除冷启动排行榜分数外，还引入Improvement Dynamics Curve (IDC)，一种智能体反射评估机制：通过工具调用反射大语言模型自动优化技能提示词，追踪多轮反射中的分数变化以及习得技能在任务变体上的泛化表现。论文报告了12个VLM智能体在冷启动排行榜上的表现，以及4个顶级智能体在IDC下的指标。

智能体多模态论文/研究

推荐理由：在 UE5 里直接测 agent 的自我改进，这个思路让游戏 benchmark 从一次性的刷榜变成动态成长观测，对做多模态 agent 的团队是个新标尺。