Qwen 3.6 27B 跑在了我的 MacBook 上，这次没崩

同一句 prompt：“用 pnpm 建一个六边形扫雷游戏。”

MoE 版本跑得飞快。但它把"建 npm 包"这条核心指令吞了，塞回来一个 index.html。

Dense 27B 慢了整整三倍。但它建了项目、配了 package.json、写了能跑的代码。一次通过。

过去两年，MoE 一直被视为本地模型的默认路线。逻辑很直——模型太大塞不进显存，那就每次只激活一小部分参数。Mixtral 这么干，DeepSeek 这么干，Qwen 这次也做了 MoE 版：35B 的总参数量，每次只激活 3B，llama.cpp 上跑到 105 tok/s——比很多云 API 还快。

速度上来了，指令遵循掉的却不是一个量级。你让它建项目，它写个 HTML 应付。你让它配依赖，它直接忽略。MoE 为速度牺牲掉的，恰恰是"理解你到底要我干什么"这个内核。

Dense 27B 走了条笨路：全部参数全程参与推理。Q8_0 量化后在 M5 Max 上 32 tok/s，Nvidia 消费卡上能到 50 tok/s。不够快，但够真。代码质量、多步骤任务、对模糊指令的拆解——MoE 版和 Dense 版之间，隔着一道能不能干活的鸿沟。

01-moe-vs-dense

有人在 AI 开发者聚会上当场出 prompt：做一个蜡烛店落地页。几分钟跑出完整页面——响应式、默认样式体面、全部功能都在。云端模型做这些毫不稀奇。特别之处在于：它在你的机器上跑，开源权重，离线可用，代码不出你的硬盘。

所以推荐直接走 llama.cpp，跳过 Ollama 中间层。下载 GGUF 量化文件，一行命令起 server：

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

然后在 OpenCode 里配个 provider 就直接用。64GB MacBook 跑 Q8_0，32GB 换 Q4_K_M，24GB Nvidia 卡也能塞进去。

本地编码模型的竞争单位已经从参数榜、跑分、tok/s，变成了一个更朴素的指标——你告诉它"建一个 npm 包"，它到底给你建了没有。看走眼成本很高：过去一年不少开发者试了本地模型又放弃，大概率碰上的就是跑分漂亮但指令遵循掉链子的 MoE 版本。它跟 Dense 27B 在 benchmark 上的分差几乎可以忽略，真干活时的差距却是一道天堑。

模型跑起来的时候风扇狂转、键盘区烫手。以前本地模型最尴尬的地方是跑分好看、一干活就露馅。现在终于有模型到了"真干活时发烫"的水平——对一台写代码的机器来说，发热说明它在干活。

如果说之前对本地模型的感觉还是"好像有戏"，Qwen 3.6 27B 是第一个让人觉得"能用了"的具体答案。在你自己的电脑上跑起来，把活干完了。