一台 2022 年的 Mac,跑得动 26B 的模型——可它根本没在算 26B
本地大模型这一年,从"能跑"悄悄变成了"好用"。
有人用一台 2022 年的 M2 Mac、64G 内存,把开源模型挂上 agent 干活——重构、跑 lint、写单测、起项目脚手架,做到接近前沿模型七成五的水平,已经很少需要回头找云端 API 核对。
反直觉的地方在这:把它抬过这条可用线的,主要不是硬件的功劳——是另外几样东西凑齐了。拆开看。
先泼盆冷水:你的电脑没变强,是模型本身变聪明了
过去本地模型不好用,核心就是笨:同一道题,云端答得对,本地答得歪。你不敢信它,每件事都得回去跟 API 对一遍,那还不如直接用 API。
这一年变的是模型本身。前沿模型的能力,通过蒸馏和更干净的训练数据,一层层"漏"进了开源权重。开源模型不再是缩水版玩具,而是把大模型的判断力学了个七七八八。
有个开发者说得直接:到了某个开源模型,她发现自己"不再需要回头核对"了。质变发生在模型脑子里,跟你的机箱没关系。
那一台旧 Mac,凭什么扛得住一个 26B 的模型
这才是有意思的地方。一个标着 26B 的模型,听上去得吃掉一台工作站,却能跑在几年前的笔记本上。秘密在三层。
它根本没在算 26B。 现在很多开源模型是 MoE(混合专家)结构。型号叫 gemma-4-26b-a4b,那个 a4b 是关键:26B 是总参数,但每次前向推理只激活其中约 4B。
打个比方,这是一座 26 层的图书馆,可你每查一个问题,只点亮相关的那 4 层、其余的灯都关着。知识容量按 26B 算,算力开销按 4B 算——这是它能在小机器上跑起来的第一刀。

压成 4-bit,它还没变笨。 权重默认是高精度的,直接砍到 4-bit 一般会掉点。QAT(量化感知训练)换了个思路:训练时就让模型假装自己是 4-bit 在学,提前适应低精度。
等于从一开始就照着 4-bit 的身材长,而不是事后硬压、压坏了再将就。体积砍掉一大半,质量几乎不动。型号后面那个 qat,就是这个意思。
内存喂得动,靠的是没有独显那道墙。 这层最容易被忽略,却最致命。本地推理最吃内存的,其实是 KV cache——对话越长、上下文越多,它涨得越凶,能从几个 G 一路飙到几十 G。
传统 PC 上,模型得塞进独显的 VRAM,几十 G 的缓存直接撑爆。苹果的统一内存把 CPU 和 GPU 的内存合成一池,64G 全可调用,模型权重加那几十 G 的 KV cache 挤进同一块。本地模型撑爆,十次有九次栽在这块缓存上。
所以"26B"这个数字单拎出来,几乎没意义。
判断一个本地模型在你机器上行不行,看四样实在的:激活参数多大(定算力开销,别只看总参数);有没有用 QAT(定压完掉不掉点);内存是统一内存吗、够不够喂 KV cache(定上下文能开多长);以及它的开源质量追平到哪了(定你敢不敢回头核对)。
四样都对上,一台旧笔记本也能把活接住。缺一样,参数堆得再高,也只是个跑得动、却不敢用的玩具。
