一台 2022 年的 Mac，跑得动 26B 的模型——可它根本没在算 26B

本地大模型这一年，从"能跑"悄悄变成了"好用"。

有人用一台 2022 年的 M2 Mac、64G 内存，把开源模型挂上 agent 干活——重构、跑 lint、写单测、起项目脚手架，做到接近前沿模型七成五的水平，已经很少需要回头找云端 API 核对。

反直觉的地方在这：把它抬过这条可用线的，主要不是硬件的功劳——是另外几样东西凑齐了。拆开看。

先泼盆冷水：你的电脑没变强，是模型本身变聪明了

过去本地模型不好用，核心就是笨：同一道题，云端答得对，本地答得歪。你不敢信它，每件事都得回去跟 API 对一遍，那还不如直接用 API。

这一年变的是模型本身。前沿模型的能力，通过蒸馏和更干净的训练数据，一层层"漏"进了开源权重。开源模型不再是缩水版玩具，而是把大模型的判断力学了个七七八八。

有个开发者说得直接：到了某个开源模型，她发现自己"不再需要回头核对"了。质变发生在模型脑子里，跟你的机箱没关系。

这才是有意思的地方。一个标着 26B 的模型，听上去得吃掉一台工作站，却能跑在几年前的笔记本上。秘密在三层。

它根本没在算 26B。 现在很多开源模型是 MoE（混合专家）结构。型号叫 gemma-4-26b-a4b，那个 a4b 是关键：26B 是总参数，但每次前向推理只激活其中约 4B。

打个比方，这是一座 26 层的图书馆，可你每查一个问题，只点亮相关的那 4 层、其余的灯都关着。知识容量按 26B 算，算力开销按 4B 算——这是它能在小机器上跑起来的第一刀。

26B 总参数只激活 4B

压成 4-bit，它还没变笨。 权重默认是高精度的，直接砍到 4-bit 一般会掉点。QAT（量化感知训练）换了个思路：训练时就让模型假装自己是 4-bit 在学，提前适应低精度。

等于从一开始就照着 4-bit 的身材长，而不是事后硬压、压坏了再将就。体积砍掉一大半，质量几乎不动。型号后面那个 qat，就是这个意思。

内存喂得动，靠的是没有独显那道墙。 这层最容易被忽略，却最致命。本地推理最吃内存的，其实是 KV cache——对话越长、上下文越多，它涨得越凶，能从几个 G 一路飙到几十 G。

传统 PC 上，模型得塞进独显的 VRAM，几十 G 的缓存直接撑爆。苹果的统一内存把 CPU 和 GPU 的内存合成一池，64G 全可调用，模型权重加那几十 G 的 KV cache 挤进同一块。本地模型撑爆，十次有九次栽在这块缓存上。

所以"26B"这个数字单拎出来，几乎没意义。

判断一个本地模型在你机器上行不行，看四样实在的：激活参数多大（定算力开销，别只看总参数）；有没有用 QAT（定压完掉不掉点）；内存是统一内存吗、够不够喂 KV cache（定上下文能开多长）；以及它的开源质量追平到哪了（定你敢不敢回头核对）。

四样都对上，一台旧笔记本也能把活接住。缺一样，参数堆得再高，也只是个跑得动、却不敢用的玩具。