本地模型终于能干活了

一台 2022 年的 M2 Mac，64GB 内存，没外接 GPU——跑 Gemma 4 做 agentic coding，重构、写单测、从零搭项目骨架，前沿模型约 75% 的准确率和速度。

不是"跑起来了"，是"能干活了"。

6 个月前这些事本地模型几乎做不了。现在判断标准该换了——别再追问"什么时候追上前沿"，换一个实际得多的问题：

这个任务做完，我还会不会丢给 API 模型复查一遍？

不会，本地就够了。

它现在能干什么？

Boykis 在 M2 上实测：Notebook 拆成多模块 repo、补 type hints、校对博客、写单测、从零起手让 agent 搭一个双塔推荐模型——代码能跑。最后一项她去年不敢相信。

llama.cpp 作者 Georgi Gerganov 用 Qwen3.6-27B，过去一个半月每天都在用，原话是"非常强的本地编程模型"。

她的判断标准就是开头那句话：GPT-OSS 是第一个让她大幅减少复核次数的，Gemma 4 让她只在复杂推理时才切回 API。

什么时候本地够用？

不需要背排行榜。

本地能干的：重构、补类型标注、写单测、校对文档、重写逻辑、解释不熟悉的代码。一句话——做完你本来就会 review 一遍的任务，本地就够了。

该用 API 的：需要实时信息、context 超长（跨 10+ 文件的大项目级重构）、精度要求极高且犯错代价大（生产 SQL / 并发 / 安全）、复杂多模态推理。

自测：列今天你用 AI 辅助的任务，做完有多少次又用 API 过了一遍？超过一半 → 本地还不够；不到 1/3 → 可以切了。

怎么搭

推理服务器：LM Studio，下载 gemma-4-12b-qat，暴露 localhost:1234/v1

Agent harness：Pi，models.json 指向本地：

"lmstudio": {
  "baseUrl": "http://host.docker.internal:1234/v1",
  "api": "openai-completions",
  "apiKey": "not-needed",
  "models": [{
    "id": "google/gemma-4-12b-qat",
    "input": ["text", "image"]
  }]
}

Docker 沙箱：Pi 跑容器里，只给 bash（不能执行 Python、不能浏览网页），models.json 和 workspace 挂载进去。

完整 Compose + 启动脚本 Boykis 已公开在原文，可以直接复制下来改。

谁该试，谁不用动？

该试的：公司下调了 token 预算、代码不能出公司、厌倦了代理和 API key 轮换、个人项目不想走账单。

不用动的：跨大项目重构（context window 硬瓶颈）、重度多模态/实时搜索、只有 16GB 内存。

本地模型不是在追前沿。它只是在你的工作流里找一个适合它的位置。这个位置可能比你以为的多。花 30 分钟把三件套搭起来，跑一遍今天的任务试试——你可能会发现，很多事你早就不需要等 API 排队了。