karminski-牙医@karminski3

2026-06-22 16:28·10天前

AI 摘要

买MacStudio运行大模型性价比不高。以M3 Ultra 96G（32999元）为例，运行Qwen3.6-27B 4bit量化版并开投机解码，速度约65 token/s。设备成本换算成API调用（GLM-5.2，每百万token 28元）可买约1178M token，需连续运行209天才能回本。512G版（108749元）运行量化GLM-5.2速度仅17 token/s，回本约7年。模型每1.5个月更新，建议普通用户买coding plan或租卡。已有Mac或显卡者，闲置时跑模型才划算。

想买Mac运行大模型？这是劝退贴

其实估算方法很简单，现在买 MacStudio 哪怕运行 Qwen3.6-27B 4bit 量化版本，然后开 DFlash 使用Qwen的内置投机解码，也就飙到 65token/s. 而现在普遍大模型都能跑到 40 token/s.

如果专门买 MacStudio M3 Ultra 96G 运行大模型，如果把设备售价（32999）换算成使用API，以 GLM-5.2 为例，每百万token 28块，一台 MacStudio 的价格大概能买到 32999/28 = 1178M token.

而为了输出这些token，买到的 MacStudio 运行 Qwen3.6-27B 要持续运行 209天. 也就是说回本周期至少是200天不间断运行. 然后运行模型才是纯赚.

这还是没算电费和不直接买API而是买套餐的情况.而且，最重要的是这还是在运行一个只有27B的小模型.

如果真的买512G的 MacStudio （108749，而且好像已经断货了），然后运行量化版本的 GLM-5.2，速度就会跌到只有 17 token/s，回本周期大概在 7 年左右…

对于现在1.5个月模型就发新版本的情况下，普通用户自用是绝对不划算的. 所以大部分用户买 coding plan 会更划算，如果像我一样要测新模型，直接租卡也会比直接买划算很多.

当然，如果你本身就有Mac或者显卡，那么空闲的时候（比如睡觉的时候）让它跑大模型运行任务，反而是划算的.

#本地大模型 #mac #qwen36 #glm52

推理教程/实践端侧

在 X 查看原推导出 Markdown

karminski-牙医@karminski3 · X

54导出 Markdown