正在刊行长文 · Essay
2026-06-17所有内容
随机比特 · Random Bits

一台 2022 年的 Mac 跑得动 26B 模型——而且它根本没在算 26B

2026-06-17AI Engineering / Systemsrbits.uk
一台 2022 年的 Mac 跑得动 26B 模型——而且它根本没在算 26B

一台 2022 年的 Mac,跑得动 26B 的模型——可它根本没在算 26B

本地大模型这一年,从"能跑"悄悄变成了"好用"。

有人用一台 2022 年的 M2 Mac、64G 内存,把开源模型挂上 agent 干活——重构、跑 lint、写单测、起项目脚手架,做到接近前沿模型七成五的水平,已经很少需要回头找云端 API 核对。

反直觉的地方在这:把它抬过这条可用线的,主要不是硬件的功劳——是另外几样东西凑齐了。拆开看。

先泼盆冷水:你的电脑没变强,是模型本身变聪明了

过去本地模型不好用,核心就是笨:同一道题,云端答得对,本地答得歪。你不敢信它,每件事都得回去跟 API 对一遍,那还不如直接用 API。

这一年变的是模型本身。前沿模型的能力,通过蒸馏和更干净的训练数据,一层层"漏"进了开源权重。开源模型不再是缩水版玩具,而是把大模型的判断力学了个七七八八。

有个开发者说得直接:到了某个开源模型,她发现自己"不再需要回头核对"了。质变发生在模型脑子里,跟你的机箱没关系。

那一台旧 Mac,凭什么扛得住一个 26B 的模型

这才是有意思的地方。一个标着 26B 的模型,听上去得吃掉一台工作站,却能跑在几年前的笔记本上。秘密在三层。

它根本没在算 26B。 现在很多开源模型是 MoE(混合专家)结构。型号叫 gemma-4-26b-a4b,那个 a4b 是关键:26B 是总参数,但每次前向推理只激活其中约 4B。

打个比方,这是一座 26 层的图书馆,可你每查一个问题,只点亮相关的那 4 层、其余的灯都关着。知识容量按 26B 算,算力开销按 4B 算——这是它能在小机器上跑起来的第一刀。

26B 总参数只激活 4B

压成 4-bit,它还没变笨。 权重默认是高精度的,直接砍到 4-bit 一般会掉点。QAT(量化感知训练)换了个思路:训练时就让模型假装自己是 4-bit 在学,提前适应低精度。

等于从一开始就照着 4-bit 的身材长,而不是事后硬压、压坏了再将就。体积砍掉一大半,质量几乎不动。型号后面那个 qat,就是这个意思。

内存喂得动,靠的是没有独显那道墙。 这层最容易被忽略,却最致命。本地推理最吃内存的,其实是 KV cache——对话越长、上下文越多,它涨得越凶,能从几个 G 一路飙到几十 G。

传统 PC 上,模型得塞进独显的 VRAM,几十 G 的缓存直接撑爆。苹果的统一内存把 CPU 和 GPU 的内存合成一池,64G 全可调用,模型权重加那几十 G 的 KV cache 挤进同一块。本地模型撑爆,十次有九次栽在这块缓存上。

所以"26B"这个数字单拎出来,几乎没意义。

判断一个本地模型在你机器上行不行,看四样实在的:激活参数多大(定算力开销,别只看总参数);有没有用 QAT(定压完掉不掉点);内存是统一内存吗、够不够喂 KV cache(定上下文能开多长);以及它的开源质量追平到哪了(定你敢不敢回头核对)。

四样都对上,一台旧笔记本也能把活接住。缺一样,参数堆得再高,也只是个跑得动、却不敢用的玩具。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。