开发者@patloeber分享了一套完全本地的Coding Agent方案,核心是Pi Agent框架与Gemma 4 26B A4B模型。Gemma 4因原生支持function calling和thinking mode,首次真正适合作为Agent;其MoE架构在质量与速度间取得平衡。Pi框架设计极简,仅提供read、write等四个核心工具以节省宝贵的上下文窗口。文中强调了上下文长度与显存的权衡,并给出安全警告:本地模型可能产生危险命令幻觉,建议至少安装permission-gate等扩展进行防护。
用 Gemma 4 + Pi Agent 在本地跑一个 Coding Agent
@patloeber 搭建了一个 100% 本地 Coding Agent: LM Studio(模型服务) + Gemma 4 26B A4B(Q4_K_M 量化)+ Pi(终端 Agent)
模型选型:为什么是 Gemma 4 26B A4B
Gemma 4 相比前代有三个关键升级,使其首次真正适合做 Agent: · 原生 function calling · 支持 system prompt · 具备 thinking mode
26B A4B:MoE 架构,总参数 26B,每 token 只激活 4B。质量接近大模型,速度接近小模型。
尽管激活只有 4B,但 26B 全量必须加载到显存(路由需要),所以显存占用仍按 26B Dense 模型估算。
不同显存量化建议: · Q4_K_M:18 GB,平衡推荐 · Q6_K:24 GB,更高质量 · Q8_0:28 GB,接近原版