Antirez用几千行C代码把DeepSeek V4 Flash塞进128G Mac,本地跑1M上下文coding agent,这才是真正的AI民主化时刻,开发者必试。
Redis创始人Antirez开源了专为DeepSeek V4 Flash设计的原生推理引擎ds4。该引擎仅用几千行C代码,通过三项关键技术:对MoE专家进行不对称2-bit量化、将KV Cache移至高速SSD突破内存限制、为Apple Silicon进行纯Metal原生优化,成功在128GB MacBook Pro上流畅运行具备1M上下文窗口的模型,实测达27 tok/s。此举将原本依赖云端GPU集群的前沿AI能力,通过极致工程优化 democratize 至个人设备,展现了开源社区推动技术平民化的强大潜力。
Damn,Redis创始人用一个C文件,干翻了大厂烧几十亿的GPU集群。
Antirez,那个写出Redis的传奇黑客,昨天开源了ds4。
一个专门为DeepSeek V4 Flash写的原生推理引擎,只有几千行C代码。
它做到了一件很多人都觉得不可能的事: 把拥有1M上下文窗口、能跑完整coding agent循环的准前沿模型,完整跑在一台普通的128GB MacBook Pro上。
YC CEO Garry Tan看完直接转发,只说了一句话: "正在下载… 1M上下文+可用的coding agent能力,全在一台128GB MacBook上,这太疯狂了🤯"
这已经不是一个普通的量化项目那么简单了铁汁们, 属于顶级黑客用极致的系统工程,把闭源实验室烧几十亿才能玩的东西,压到了每个人的笔记本里。
他的三个黑客级操作,每一个都颠覆了行业常识:
1. 不对称2-bit量化: 只对MoE里占90%体积的专家部分做2-bit压缩,所有关键路径保持全精度。 质量损失极小,Antirez本人亲测"coding agent工作良好,能可靠调用工具"。
2. 把KV Cache扔到SSD: 很多人都觉得KV Cache必须放内存,1M上下文会直接炸掉128GB内存。 他直接把KV Cache搬到了苹果的高速SSD上,用磁盘当扩展内存,彻底突破了硬件天花板。
3. 纯Metal原生优化: 没有任何多余的封装, 没有通用框架的开销, 所有代码只为Apple Silicon写, 只为DeepSeek V4 Flash写。
实测性能:M3 Max 128GB上稳定27 tok/s。
不算快,但对本地跑agent循环来说,完全够用了。
你不用再给OpenAI付API费,不用再担心数据泄露,不用再忍受网络延迟。
所有的AI能力,完完全全在你自己的电脑里。
卧槽,这才是真正的革命, 过去AI的权力攥在少数几家大厂手里,他们有GPU集群,定价格,甚至说删就删。