← 随机比特 / 所有内容

running gemma 4 locally with lm studio

2026-04-06 · 随机比特

本地跑 Gemma 4,Token 自由从此开始

上个月我的 Claude API 账单是 487 块。其实没干什么大事——每天让 Agent 帮我跑跑数据清洗、写写文档初稿、做做代码审查。但 token 是按量计费的,用着用着就像出租车计价器一样停不下来。

相信很多开发者都有同感:明明本地就有一台不错的电脑,却每天在给云端"交租"。

Gemma 4 发布后,我花了一个下午把它装到了本地。现在同样的工作负载,月成本从 487 块降到了一度电。这篇聊聊我是怎么做到的,以及"token 自由"这件事为什么比你想的更近。

你的 token 焦虑,不是错觉

用云端 API 久了,你一定养成过这些习惯:prompt 能短就短,system message 反复精简,跑 Agent 之前先算一遍预估费用,非必要不开 streaming 因为"万一跑飞了 token 烧得更快"。

这些"省 token"的本能反应,本质上在限制你的想象力。

你不敢让 Agent 暴力遍历整个代码库做重构,因为一次可能吃掉几十万 token;你不敢把公司的一千份合同全量灌进 RAG 做检索,因为嵌入一次就要几百块;你甚至不敢在开发阶段大量试错,因为每次试错都在烧钱。

但如果 token 不要钱呢?

Gemma 4:不是玩具,是正经能干活的本地模型

先说结论:Gemma 4 的 27B 版本,在代码生成和逻辑推理上已经接近 GPT-4 早期版本的水平。这不是客气话——Google DeepMind 这次在训练数据和架构上下了真功夫,尤其是多语言和长上下文的能力提升非常明显。

更关键的是,它对量化非常友好。所谓量化,就是把模型里的浮点数精度从 32-bit 压到 4-bit,体积缩小到原来的四分之一,性能损耗极小。量化后的 Gemma 4 27B 只需要 16GB 内存就能流畅运行——一台 M2 MacBook Pro 或者一张 RTX 4060 就够了。

换句话说,你桌上那台"打游戏都嫌卡"的电脑,跑 Gemma 4 可能绰绰有余。

<figure><img src=“images/lm-studio-gemma-performance.png” /><figcaption>不同硬件配置下运行 Gemma 4 的实际表现</figcaption></figure>

三分钟部署:下载 LM Studio,搜 Gemma 4,点一下

如果你之前被 Python 虚拟环境、CUDA 版本和 cmake 编译这些东西劝退过,可以把那些记忆清零了。

现在的流程是这样的:

第一步,下载 LM Studio(lmstudio.ai),装好就是一个普通桌面软件。它底层跑的是 llama.cpp,但你完全不需要碰命令行。

第二步,在搜索框输入"Gemma 4",软件会自动连 Hugging Face 帮你找模型。你会看到一堆 .gguf 文件,名字里带 Q4_K_M 的就是 4-bit 量化版——右边会直接告诉你需要多少内存,不超标就放心下载。

第三步,点"加载",等它读进内存(通常不到一分钟),就可以开聊了。Apple Silicon 的 Mac 默认走 Metal 加速,PC 用户记得在右侧面板打开 GPU Offload,把模型层卸载到显卡上跑。

实测 4-bit 量化版推理速度在 15-25 tokens/s 左右。这个速度是什么概念?大约是你正常阅读速度的两到三倍——你还没读完上一句,下一句就已经生成好了。日常对话、代码补全、文档改写完全够用。

杀手锏:一键变身你的私人 API 服务器

光聊天当然不够。LM Studio 内置了一个 OpenAI 兼容的 API 服务器,点一下"Start Server",你的电脑就变成了一个免费的 API 后端,地址是 http://localhost:1234/v1

这意味着你手里所有用 OpenAI API 的工具——VS Code 的 AI 补全插件、沉浸式翻译、Cursor、甚至你自己写的 Python 脚本——把 API 地址改成 localhost:1234,API Key 随便填一个字符串(本地不验证),它们就能无缝切到本地 Gemma 4。

一样的工具,一样的体验,但数据全程不出你的电脑,token 用多少都不花一分钱。

我现在的工作流是这样的:日常开发和文档处理走本地 Gemma 4,只有需要最强推理能力(比如复杂的多步骤架构决策)的时候才调云端 Claude。这样一来,API 账单直接砍了三分之二,而体感效率几乎没有下降。

<figure><img src=“images/local-vs-cloud-privacy.png” /><figcaption>云端 API vs 本地模型:数据流向与成本对比</figcaption></figure>

Token 自由改变的不只是账单

当 token 不再是约束条件,你做事的方式会变。

你会开始让 Agent 做那些以前"太贵了不值得"的事情:全量扫描项目里的每一个文件做代码审查、把整个知识库嵌入做私有搜索引擎、让 AI 帮你写三版初稿然后挑最好的那个、给每一次 git commit 都自动生成详细的 review 报告。

这不是"省钱",是"解锁"。就像当年从按分钟计费的拨号上网换成包月宽带——你不是省了电话费,你是获得了一种全新的使用互联网的方式。在那之前,你不会想到可以挂着 BT 下载,不会想到可以在线看视频,因为每一分钟都在计费。

Gemma 4 + LM Studio 就是开发者的"AI 宽带"。硬件门槛已经低到一台普通笔记本就够,部署门槛已经低到完全不需要任何命令行经验。

如果你还在每个月心疼 API 账单,或者因为数据合规不敢把敏感数据传到云端,又或者你只是想在飞机和高铁上也能正常用 AI 干活,现在就是最好的入场时机。

你现在每月在 AI API 上花多少钱?装了本地模型之后还愿意花这个钱吗?评论区聊聊。