本地模型终于能干活了
一台 2022 年的 M2 Mac,64GB 内存,没外接 GPU——跑 Gemma 4 做 agentic coding,重构、写单测、从零搭项目骨架,前沿模型约 75% 的准确率和速度。
不是"跑起来了",是"能干活了"。
6 个月前这些事本地模型几乎做不了。现在判断标准该换了——别再追问"什么时候追上前沿",换一个实际得多的问题:
这个任务做完,我还会不会丢给 API 模型复查一遍?
不会,本地就够了。
它现在能干什么?
Boykis 在 M2 上实测:Notebook 拆成多模块 repo、补 type hints、校对博客、写单测、从零起手让 agent 搭一个双塔推荐模型——代码能跑。最后一项她去年不敢相信。
llama.cpp 作者 Georgi Gerganov 用 Qwen3.6-27B,过去一个半月每天都在用,原话是"非常强的本地编程模型"。
她的判断标准就是开头那句话:GPT-OSS 是第一个让她大幅减少复核次数的,Gemma 4 让她只在复杂推理时才切回 API。
什么时候本地够用?
不需要背排行榜。
本地能干的:重构、补类型标注、写单测、校对文档、重写逻辑、解释不熟悉的代码。一句话——做完你本来就会 review 一遍的任务,本地就够了。
该用 API 的:需要实时信息、context 超长(跨 10+ 文件的大项目级重构)、精度要求极高且犯错代价大(生产 SQL / 并发 / 安全)、复杂多模态推理。
自测:列今天你用 AI 辅助的任务,做完有多少次又用 API 过了一遍?超过一半 → 本地还不够;不到 1/3 → 可以切了。
怎么搭
推理服务器:LM Studio,下载 gemma-4-12b-qat,暴露 localhost:1234/v1
Agent harness:Pi,models.json 指向本地:
"lmstudio": {
"baseUrl": "http://host.docker.internal:1234/v1",
"api": "openai-completions",
"apiKey": "not-needed",
"models": [{
"id": "google/gemma-4-12b-qat",
"input": ["text", "image"]
}]
}
Docker 沙箱:Pi 跑容器里,只给 bash(不能执行 Python、不能浏览网页),models.json 和 workspace 挂载进去。
完整 Compose + 启动脚本 Boykis 已公开在原文,可以直接复制下来改。
谁该试,谁不用动?
该试的:公司下调了 token 预算、代码不能出公司、厌倦了代理和 API key 轮换、个人项目不想走账单。
不用动的:跨大项目重构(context window 硬瓶颈)、重度多模态/实时搜索、只有 16GB 内存。
本地模型不是在追前沿。它只是在你的工作流里找一个适合它的位置。这个位置可能比你以为的多。花 30 分钟把三件套搭起来,跑一遍今天的任务试试——你可能会发现,很多事你早就不需要等 API 排队了。
<!-- diagram:setup-overview -->