本地跑 Gemma 4，Token 自由从此开始

上个月我的 Claude API 账单是 487 块。其实没干什么大事——每天让 Agent 帮我跑跑数据清洗、写写文档初稿、做做代码审查。但 token 是按量计费的，用着用着就像出租车计价器一样停不下来。

相信很多开发者都有同感：明明本地就有一台不错的电脑，却每天在给云端"交租"。

Gemma 4 发布后，我花了一个下午把它装到了本地。现在同样的工作负载，月成本从 487 块降到了一度电。这篇聊聊我是怎么做到的，以及"token 自由"这件事为什么比你想的更近。

你的 token 焦虑，不是错觉

用云端 API 久了，你一定养成过这些习惯：prompt 能短就短，system message 反复精简，跑 Agent 之前先算一遍预估费用，非必要不开 streaming 因为"万一跑飞了 token 烧得更快"。

这些"省 token"的本能反应，本质上在限制你的想象力。

你不敢让 Agent 暴力遍历整个代码库做重构，因为一次可能吃掉几十万 token；你不敢把公司的一千份合同全量灌进 RAG 做检索，因为嵌入一次就要几百块；你甚至不敢在开发阶段大量试错，因为每次试错都在烧钱。

但如果 token 不要钱呢？

先说结论：Gemma 4 的 27B 版本，在代码生成和逻辑推理上已经接近 GPT-4 早期版本的水平。这不是客气话——Google DeepMind 这次在训练数据和架构上下了真功夫，尤其是多语言和长上下文的能力提升非常明显。

更关键的是，它对量化非常友好。所谓量化，就是把模型里的浮点数精度从 32-bit 压到 4-bit，体积缩小到原来的四分之一，性能损耗极小。量化后的 Gemma 4 27B 只需要 16GB 内存就能流畅运行——一台 M2 MacBook Pro 或者一张 RTX 4060 就够了。

换句话说，你桌上那台"打游戏都嫌卡"的电脑，跑 Gemma 4 可能绰绰有余。

<figure><img src=“images/lm-studio-gemma-performance.png” /><figcaption>不同硬件配置下运行 Gemma 4 的实际表现</figcaption></figure>

如果你之前被 Python 虚拟环境、CUDA 版本和 cmake 编译这些东西劝退过，可以把那些记忆清零了。

现在的流程是这样的：

第一步，下载 LM Studio（lmstudio.ai），装好就是一个普通桌面软件。它底层跑的是 llama.cpp，但你完全不需要碰命令行。

第二步，在搜索框输入"Gemma 4"，软件会自动连 Hugging Face 帮你找模型。你会看到一堆 .gguf 文件，名字里带 Q4_K_M 的就是 4-bit 量化版——右边会直接告诉你需要多少内存，不超标就放心下载。

第三步，点"加载"，等它读进内存（通常不到一分钟），就可以开聊了。Apple Silicon 的 Mac 默认走 Metal 加速，PC 用户记得在右侧面板打开 GPU Offload，把模型层卸载到显卡上跑。

实测 4-bit 量化版推理速度在 15-25 tokens/s 左右。这个速度是什么概念？大约是你正常阅读速度的两到三倍——你还没读完上一句，下一句就已经生成好了。日常对话、代码补全、文档改写完全够用。

光聊天当然不够。LM Studio 内置了一个 OpenAI 兼容的 API 服务器，点一下"Start Server"，你的电脑就变成了一个免费的 API 后端，地址是 http://localhost:1234/v1。

这意味着你手里所有用 OpenAI API 的工具——VS Code 的 AI 补全插件、沉浸式翻译、Cursor、甚至你自己写的 Python 脚本——把 API 地址改成 localhost:1234，API Key 随便填一个字符串（本地不验证），它们就能无缝切到本地 Gemma 4。

一样的工具，一样的体验，但数据全程不出你的电脑，token 用多少都不花一分钱。

我现在的工作流是这样的：日常开发和文档处理走本地 Gemma 4，只有需要最强推理能力（比如复杂的多步骤架构决策）的时候才调云端 Claude。这样一来，API 账单直接砍了三分之二，而体感效率几乎没有下降。

<figure><img src=“images/local-vs-cloud-privacy.png” /><figcaption>云端 API vs 本地模型：数据流向与成本对比</figcaption></figure>

当 token 不再是约束条件，你做事的方式会变。

你会开始让 Agent 做那些以前"太贵了不值得"的事情：全量扫描项目里的每一个文件做代码审查、把整个知识库嵌入做私有搜索引擎、让 AI 帮你写三版初稿然后挑最好的那个、给每一次 git commit 都自动生成详细的 review 报告。

这不是"省钱"，是"解锁"。就像当年从按分钟计费的拨号上网换成包月宽带——你不是省了电话费，你是获得了一种全新的使用互联网的方式。在那之前，你不会想到可以挂着 BT 下载，不会想到可以在线看视频，因为每一分钟都在计费。

Gemma 4 + LM Studio 就是开发者的"AI 宽带"。硬件门槛已经低到一台普通笔记本就够，部署门槛已经低到完全不需要任何命令行经验。

如果你还在每个月心疼 API 账单，或者因为数据合规不敢把敏感数据传到云端，又或者你只是想在飞机和高铁上也能正常用 AI 干活，现在就是最好的入场时机。

你现在每月在 AI API 上花多少钱？装了本地模型之后还愿意花这个钱吗？评论区聊聊。