有人在 1998 年的 iMac G3 上跑通了大模型，用了 32MB 内存

前两天在 Reddit 的 LocalLLaMA 节点上，看到一个非常有意思的帖子。有个老哥发帖说，他硬生生在一台 1998 年的 iMac G3 上，跑通了本地的 LLM 推理。

当时我就精神了。熟悉数码产品的朋友可能知道，iMac G3 就是乔布斯回归苹果后推出的那台经典半透明果冻电脑。它在当时的卖点是把人们连上初代的互联网。而这台电脑的配置，放在今天看简直寒酸得可怜：233MHz 的 PowerPC 处理器，加上区区 32MB 内存。

相比之下，你现在手里随便一台两三千块钱的手机，内存至少是它的两百多倍，处理器运算能力更是它的几十倍不止。这台快三十岁的古董机，别说跑 AI 模型，连随便打开一个带图片的现代网页都会直接卡死。

但这位老哥就是在这种配置下，成功让终端吐出了模型生成的文字。

这个帖子发出来之后直接爆了，迅速拿了 1300 多个赞。评论区有一条最高赞留言，我觉得把这件事的性质概括得特别精准：“这绝对是花了极大的热情，去做了一件完全没用事情的典范。”

另一位网友的回复也很有意思。他说他在工作里已经不得不做太多有用的事，所以业余时间就喜欢搞这种纯粹没用的硬核项目。也有懂行的人留言说，当你对底层架构了解到这种程度时，做这事虽然不难，但看着它跑起来依然非常有成就感。

说实话，在这个 iMac G3 上跑出来的模型，输出一个词大概要等很久很久，而且生成的质量也绝对谈不上什么正儿八经的实用价值。但在这种看似“没用”的极客狂欢背后，我看到了一件非常重要的事情：大模型的硬件门槛，正在以超出所有人预期的速度往下砸。

这老哥到底是怎么把一个需要巨量算力的庞然大物，塞进只有 32MB 内存里的？

说人话就是：把模型往死里压缩，连一丁点空间都不放过。

这里得稍微科普一下模型的体积是怎么算的。正常情况下，一个 7B 级别的大模型，如果用半精度（float16）格式运行，大概需要占用 14GB 的内存。因为每个神经元的权重都是一个带有小数点的精确数字，占用的空间很大。

后来，为了能在普通显卡上跑，大家搞出了量化技术，把复杂的浮点数砍掉，变成粗糙的整数。从 8-bit 量化一路砍到 4-bit，模型大小直接缩水到了 4GB 左右。当时大家觉得能把 14GB 的东西压到 4GB，已经是工程优化的极限了，再压模型就要彻底变成智障。

但开源社区的极客们根本不管这些。最近，非常主流的开源推理框架 llama.cpp 刚刚合并了一个底层代码的修改（PR编号 21273），正式支持了 Q1_0 级别的 1-bit 量化。最初提交这个改动的 PrismML 团队，就是为了跑他们自己研发的 Bonsai 1-bit 模型。

1-bit 量化的概念其实很简单。模型里每一个决定权重的数字，不再是复杂的刻度，而变成了一个非黑即白的开关。它要么是 0，要么是 1。在他们的算法里，每 128 个权重共享一个缩放比例，然后权重本身只记录方向，0 代表反向，1 代表正向。

这硬生生把模型体积压缩到了极致。相当于把原来厚厚一本百科全书的信息量，暴力抽编成了一张只写着对错的便签纸。加上推理引擎在内存管理上的疯狂抠字眼，最终让这个只需要极小内存的微型模型，勉强挤进了上个世纪的电脑内存里。

当然，这种极限压缩的代价很明显。你牺牲了模型的精确回复能力和部分常识储备，换来的是它能在任何破铜烂铁上跑起来。

如果跳出这个单点事件，把时间线拉长看，你会发现大模型门槛的降维打击过程，快得让人有点发懵。

回到 2023 年初，那时候你想在本地跑一个说得过去的大模型，标配是服务器级别的硬件。大家讨论的都是公司要买多少张 A100 显卡，普通人如果显存不到 24GB 根本连碰都不敢碰。那是六位数起步的算力游戏。

到了 2024 年，门槛被苹果的统一内存架构重重地踢了一脚。一台稍微顶配一点的 MacBook，因为内存和显存是通用的，就能稳稳当当地跑起 70B 级别的大模型。那会儿，跑模型的设备终于从冷冰冰的机房，搬到了个人开发者的办公桌上。

时间来到 2025 年，各种端侧优化的技术开始大面积爆发。像谷歌推出的 LiteRT-LM 这种专门针对移动端优化的推理框架，让 16GB 甚至 8GB 内存的消费级手机和普通的轻薄笔记本，也能毫不费力跑起本地 AI。

现在是 2026 年。我们看到连 1998 年 32MB 内存的古董机都能被拿来强行跑通 LLM。从服务器到个人电脑，从个人电脑到手机，再到快三十年前的电子垃圾，每一步都是硬件门槛的暴降。

除了前面说的暴力量化技术，这里面还有很多工程层面的神仙操作在支撑。

比如这两年很火的投机解码技术。它的逻辑很巧妙：用一个极小的模型快速猜接下来会输出什么词，然后再用稍微大一点的主模型去批量验证这些词对不对。

这就好比写报告时，让实习生先用极快的速度打个草稿，总监最后只需要扫一眼签个字就行。这样一来，不仅整体推理速度大幅提升，对设备的内存带宽和瞬间算力的要求也变得非常低。同时各个模型厂商也在拼命给架构瘦身，大家都在比拼怎么在极小参数量的限制下，把模型的逻辑推理能力彻底榨干。

我的看法是，这台 iMac G3 的跑通实验虽然只是一个极限挑战，但它证明了本地运行大模型的天花板和底线已经被彻底打碎。

昨天我在公众号写了篇《三分钟部署 Gemma 4》的教程，主要讲的是实操。而今天聊这个，是想讲讲它背后的必然性。为什么现在随便一个人花三分钟就能在电脑上跑起模型？其实就是因为底层的工程技术，已经默默帮你把曾经高不可攀的门槛全部铲平了。

以前大家普遍觉得，AI 永远是一种云端的特权，是科技巨头手里的魔法黑盒。你需要一直保持联网，可能需要交订阅费，甚至还要时刻担心聊天记录会不会被平台拿去当免费的训练语料。

但现在情况完全变了。既然这种旧时光里的老电脑都能被硬生生唤醒跑模型，那就说明你手头那些正在抽屉里吃灰的旧手机、旧平板，其实都有潜力变成一台完全离线的个人专属 AI 终端。你的现有设备大概率已经能跑得很溜了。

这是把大模型的所有权，真正交还给个人。技术进步最迷人的地方，从来都不是在实验室里跑了多高的分数，而是最终以低廉到几乎可以忽略的成本，落到普通人的生活里。

未来本地跑模型不会挑剔设备，它就是软件运行的一种默认状态。

聊到这，我特别想问一句，你现在手头上还能正常开机、而且你觉得算得上古董的最老设备，是什么配置？

数据来源：Reddit r/LocalLLaMA、llama.cpp GitHub

有人在 1998 年 32MB 内存的 iMac G3 上跑通了 LLM——不实用，但揭示了大模型硬件门槛下降的惊人速度。