开源项目OpenSquilla针对大语言模型应用Token消耗过高的问题,提出了智能模型路由与本地向量检索相结合的解决方案。系统能自动判断任务复杂度,将简单问题路由至廉价模型,复杂任务则分配给更强模型,且路由决策在本地完成,不消耗Token。通过增量发送与缓存命中机制,实际传输Token减少了90%以上。其记忆系统能在上下文将满时自动筛选并压缩关键信息,支持混合检索。项目还具备成本统计、安全沙箱、支持OpenClaw一键迁移及定时任务等功能,显著提升了使用效率与经济性。
前段时间小龙虾、Hermes爆火,一个特别大的痛点就是太烧Token了。
关于怎么省Token,很多人研究了很多方法,比如用qmd等本地语义搜索,换便宜模型等。
最近刷到一个开源项目@OpenSquilla,把省Token这件事儿做得很不错。
核心逻辑:智能模型路由 + 本地向量检索
简单问题,用便宜模型,复杂任务,用更厉害的模型。 智能路由本地完成,不消耗Token,换模型也是自动判断,不需要手动切。
后台还有模型调用成本统计,随时查看用了哪些模型,花了多少钱。
连续对话,让它写个抓取 Paulgraham 最新文章脚本,只消耗了5500 Token。
完成后会显示 COMBO ×2 ,像游戏的连击反馈,有意思,哈哈哈
相比完整重发,每轮只增量发送,缓存命中机制也实际传输 token 减少了 90%+
记忆系统做得也不错,快到上下文上限时,子 Agent 筛除关键内容再压缩,支持BM25 + 向量混合检索。
自动整理白天对话,第二天也能记得上下文,让 Cron job 定时抓新闻、跑任务,很省心。