向阳乔木@vista8

2026-05-14 10:55·48天前

AI 摘要

开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题，提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度，将简单问题路由至廉价模型，复杂任务则分配给更强模型，且路由决策在本地完成，不消耗Token。通过增量发送与缓存命中机制，实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息，支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能，显著提升了使用效率与经济性。

前段时间小龙虾、Hermes爆火，一个特别大的痛点就是太烧Token了。

关于怎么省Token，很多人研究了很多方法，比如用qmd等本地语义搜索，换便宜模型等。

最近刷到一个开源项目@OpenSquilla，把省Token这件事儿做得很不错。

核心逻辑：智能模型路由 + 本地向量检索

简单问题，用便宜模型，复杂任务，用更厉害的模型。智能路由本地完成，不消耗Token，换模型也是自动判断，不需要手动切。

后台还有模型调用成本统计，随时查看用了哪些模型，花了多少钱。

连续对话，让它写个抓取 Paulgraham 最新文章脚本，只消耗了5500 Token。

完成后会显示 COMBO ×2 ，像游戏的连击反馈，有意思，哈哈哈

相比完整重发，每轮只增量发送，缓存命中机制也实际传输 token 减少了 90%+

记忆系统做得也不错，快到上下文上限时，子 Agent 筛除关键内容再压缩，支持BM25 + 向量混合检索。

自动整理白天对话，第二天也能记得上下文，让 Cron job 定时抓新闻、跑任务，很省心。

安全上也有考量，高风险工具跑在沙箱里，按来源直接不明工具、Skill调用。