正在刊行长文 · Essay
2026-06-17所有内容
随机比特 · Random Bits

本地模型终于能干活了

2026-06-17AI Engineering / Systemsrbits.uk

本地模型终于能干活了

一台 2022 年的 M2 Mac,64GB 内存,没外接 GPU——跑 Gemma 4 做 agentic coding,重构、写单测、从零搭项目骨架,前沿模型约 75% 的准确率和速度。

不是"跑起来了",是"能干活了"。

6 个月前这些事本地模型几乎做不了。现在判断标准该换了——别再追问"什么时候追上前沿",换一个实际得多的问题:

这个任务做完,我还会不会丢给 API 模型复查一遍?

不会,本地就够了。


它现在能干什么?

Boykis 在 M2 上实测:Notebook 拆成多模块 repo、补 type hints、校对博客、写单测、从零起手让 agent 搭一个双塔推荐模型——代码能跑。最后一项她去年不敢相信。

llama.cpp 作者 Georgi Gerganov 用 Qwen3.6-27B,过去一个半月每天都在用,原话是"非常强的本地编程模型"。

她的判断标准就是开头那句话:GPT-OSS 是第一个让她大幅减少复核次数的,Gemma 4 让她只在复杂推理时才切回 API。


什么时候本地够用?

不需要背排行榜。

本地能干的:重构、补类型标注、写单测、校对文档、重写逻辑、解释不熟悉的代码。一句话——做完你本来就会 review 一遍的任务,本地就够了。

该用 API 的:需要实时信息、context 超长(跨 10+ 文件的大项目级重构)、精度要求极高且犯错代价大(生产 SQL / 并发 / 安全)、复杂多模态推理。

自测:列今天你用 AI 辅助的任务,做完有多少次又用 API 过了一遍?超过一半 → 本地还不够;不到 1/3 → 可以切了。


怎么搭

推理服务器:LM Studio,下载 gemma-4-12b-qat,暴露 localhost:1234/v1

Agent harness:Pi,models.json 指向本地:

"lmstudio": {
  "baseUrl": "http://host.docker.internal:1234/v1",
  "api": "openai-completions",
  "apiKey": "not-needed",
  "models": [{
    "id": "google/gemma-4-12b-qat",
    "input": ["text", "image"]
  }]
}

Docker 沙箱:Pi 跑容器里,只给 bash(不能执行 Python、不能浏览网页),models.json 和 workspace 挂载进去。

完整 Compose + 启动脚本 Boykis 已公开在原文,可以直接复制下来改。


谁该试,谁不用动?

该试的:公司下调了 token 预算、代码不能出公司、厌倦了代理和 API key 轮换、个人项目不想走账单。

不用动的:跨大项目重构(context window 硬瓶颈)、重度多模态/实时搜索、只有 16GB 内存。


本地模型不是在追前沿。它只是在你的工作流里找一个适合它的位置。这个位置可能比你以为的多。花 30 分钟把三件套搭起来,跑一遍今天的任务试试——你可能会发现,很多事你早就不需要等 API 排队了。

<!-- diagram:setup-overview -->

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。