# Qwen3.6-27B在Iterative-Contextual-Refinements框架下超越Anthropic Fable5

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-06-15 07:27
- AIHOT 分数：53
- AIHOT 链接：https://aihot.virxact.com/items/cmqefz2rn01u0slunkbzvdnzh
- 原文链接：https://x.com/karminski3/status/2066301480609751089

## AI 摘要

Iterative-Contextual-Refinements框架使Qwen3.6-27B在CGRE测试中获95.5分，超越Anthropic Fable5(Mythos)的94.1分。该框架通过BFS探索多种方案（如KMP、滑动窗口）、DFS结合性能工具迭代优化代码，以及路由统筹形成闭环，克服小模型易陷入局部最优的弱点。代价是token消耗增加25-40倍。框架与论文已开源。

## 正文

27B小模型挑战Fable 5？ 还成功了？

劲爆消息， 在 Iterative-Contextual-Refinements 这个框架的加持下， Qwen3.6-27B 跑分超过了 Anthropic Fable5！

真的不是做梦吗？ 还是跑分没输过， 实战没赢过？

于是赶紧看了一下这个框架， 发现设计的很有启发性， 能学到很多东西， 给大家详细讲下.

这个框架主要提升的是软件性能优化， 即如何才能让代码性能更高. 大家如果还记得我那个 vector-db-bench， 给大模型提供了火焰图， perf， 各种测试 tool_call 让大模型自己迭代去优化代码性能.

而这个框架更进了一步， 它瞄准了小模型的最核心弱点， 参数量不足导致的"脑残"， 即小模型更容易长上下文衰退或陷入局部最优.

于是这个框架出手了， 先针对技术方案， 它搞了个BFS探索模式， 在写代码的 plan 过程， 让小模型自己提出多种解决方案， 比如写个字符串匹配， 小模型直接搞了个O（N^2）的暴力搜索， 而这一步它的Agent会让小模型思考， 你能想到哪些可能的解决方案？ 于是就拓展了小模型的视野， KMP， 滑动窗口等技术方案没准就出来了.

然后就是写代码的过程中使用的DFS模式， 它会借助Agent让小模型借助代码性能测试工具不断跑分， 然后让小模型反思， 有哪些性能热点可以优化， 然后进行优化.

最后， 他还有个统筹全局的路由， 不但负责在BFS/DFS过程中选取最佳的技术方案， 而且还会在DFS过程中， 总结模型优化过程中面临的问题， 再反馈到BFS过程， 告诉模型， 需要注意xxx优化是有价值的， xxx优化面临xxx问题. 从而形成优化闭环， 解决掉模型陷入死胡同不断仰卧起坐的问题.

最后， 在框架加持下， Qwen3.6-27B 在 CGRE 测试得到了95.5分， 成功超越了 Fable5（Mythos） 的94.1分！ 我只能说这真的是 Agentic 工程的胜利了！ 不要模型写的不好就无脑怪模型， 也要看看是不是Agent本身有问题.

那么代价是什么呢？ 当然就AI硬通货是 token 了， 这个框架正是用了25-40x的token消耗完成了这一壮举. 值得学习.

框架：http://github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements
论文：http://arxiv.org/abs/2605.15222

#mythos #fable5
