有人在 1998 年的 iMac G3 上跑通了大模型,用了 32MB 内存
前两天在 Reddit 的 LocalLLaMA 节点上,看到一个非常有意思的帖子。有个老哥发帖说,他硬生生在一台 1998 年的 iMac G3 上,跑通了本地的 LLM 推理。
当时我就精神了。熟悉数码产品的朋友可能知道,iMac G3 就是乔布斯回归苹果后推出的那台经典半透明果冻电脑。它在当时的卖点是把人们连上初代的互联网。而这台电脑的配置,放在今天看简直寒酸得可怜:233MHz 的 PowerPC 处理器,加上区区 32MB 内存。
相比之下,你现在手里随便一台两三千块钱的手机,内存至少是它的两百多倍,处理器运算能力更是它的几十倍不止。这台快三十岁的古董机,别说跑 AI 模型,连随便打开一个带图片的现代网页都会直接卡死。
但这位老哥就是在这种配置下,成功让终端吐出了模型生成的文字。
这个帖子发出来之后直接爆了,迅速拿了 1300 多个赞。评论区有一条最高赞留言,我觉得把这件事的性质概括得特别精准:“这绝对是花了极大的热情,去做了一件完全没用事情的典范。”
另一位网友的回复也很有意思。他说他在工作里已经不得不做太多有用的事,所以业余时间就喜欢搞这种纯粹没用的硬核项目。也有懂行的人留言说,当你对底层架构了解到这种程度时,做这事虽然不难,但看着它跑起来依然非常有成就感。
说实话,在这个 iMac G3 上跑出来的模型,输出一个词大概要等很久很久,而且生成的质量也绝对谈不上什么正儿八经的实用价值。但在这种看似“没用”的极客狂欢背后,我看到了一件非常重要的事情:大模型的硬件门槛,正在以超出所有人预期的速度往下砸。
<!-- diagram:compare -->
这老哥到底是怎么把一个需要巨量算力的庞然大物,塞进只有 32MB 内存里的?
说人话就是:把模型往死里压缩,连一丁点空间都不放过。
这里得稍微科普一下模型的体积是怎么算的。正常情况下,一个 7B 级别的大模型,如果用半精度(float16)格式运行,大概需要占用 14GB 的内存。因为每个神经元的权重都是一个带有小数点的精确数字,占用的空间很大。
后来,为了能在普通显卡上跑,大家搞出了量化技术,把复杂的浮点数砍掉,变成粗糙的整数。从 8-bit 量化一路砍到 4-bit,模型大小直接缩水到了 4GB 左右。当时大家觉得能把 14GB 的东西压到 4GB,已经是工程优化的极限了,再压模型就要彻底变成智障。
但开源社区的极客们根本不管这些。最近,非常主流的开源推理框架 llama.cpp 刚刚合并了一个底层代码的修改(PR编号 21273),正式支持了 Q1_0 级别的 1-bit 量化。最初提交这个改动的 PrismML 团队,就是为了跑他们自己研发的 Bonsai 1-bit 模型。
1-bit 量化的概念其实很简单。模型里每一个决定权重的数字,不再是复杂的刻度,而变成了一个非黑即白的开关。它要么是 0,要么是 1。在他们的算法里,每 128 个权重共享一个缩放比例,然后权重本身只记录方向,0 代表反向,1 代表正向。
这硬生生把模型体积压缩到了极致。相当于把原来厚厚一本百科全书的信息量,暴力抽编成了一张只写着对错的便签纸。加上推理引擎在内存管理上的疯狂抠字眼,最终让这个只需要极小内存的微型模型,勉强挤进了上个世纪的电脑内存里。
当然,这种极限压缩的代价很明显。你牺牲了模型的精确回复能力和部分常识储备,换来的是它能在任何破铜烂铁上跑起来。
<!-- diagram:timeline -->
如果跳出这个单点事件,把时间线拉长看,你会发现大模型门槛的降维打击过程,快得让人有点发懵。
回到 2023 年初,那时候你想在本地跑一个说得过去的大模型,标配是服务器级别的硬件。大家讨论的都是公司要买多少张 A100 显卡,普通人如果显存不到 24GB 根本连碰都不敢碰。那是六位数起步的算力游戏。
到了 2024 年,门槛被苹果的统一内存架构重重地踢了一脚。一台稍微顶配一点的 MacBook,因为内存和显存是通用的,就能稳稳当当地跑起 70B 级别的大模型。那会儿,跑模型的设备终于从冷冰冰的机房,搬到了个人开发者的办公桌上。
时间来到 2025 年,各种端侧优化的技术开始大面积爆发。像谷歌推出的 LiteRT-LM 这种专门针对移动端优化的推理框架,让 16GB 甚至 8GB 内存的消费级手机和普通的轻薄笔记本,也能毫不费力跑起本地 AI。
现在是 2026 年。我们看到连 1998 年 32MB 内存的古董机都能被拿来强行跑通 LLM。从服务器到个人电脑,从个人电脑到手机,再到快三十年前的电子垃圾,每一步都是硬件门槛的暴降。
除了前面说的暴力量化技术,这里面还有很多工程层面的神仙操作在支撑。
比如这两年很火的投机解码技术。它的逻辑很巧妙:用一个极小的模型快速猜接下来会输出什么词,然后再用稍微大一点的主模型去批量验证这些词对不对。
这就好比写报告时,让实习生先用极快的速度打个草稿,总监最后只需要扫一眼签个字就行。这样一来,不仅整体推理速度大幅提升,对设备的内存带宽和瞬间算力的要求也变得非常低。同时各个模型厂商也在拼命给架构瘦身,大家都在比拼怎么在极小参数量的限制下,把模型的逻辑推理能力彻底榨干。
我的看法是,这台 iMac G3 的跑通实验虽然只是一个极限挑战,但它证明了本地运行大模型的天花板和底线已经被彻底打碎。
昨天我在公众号写了篇《三分钟部署 Gemma 4》的教程,主要讲的是实操。而今天聊这个,是想讲讲它背后的必然性。为什么现在随便一个人花三分钟就能在电脑上跑起模型?其实就是因为底层的工程技术,已经默默帮你把曾经高不可攀的门槛全部铲平了。
以前大家普遍觉得,AI 永远是一种云端的特权,是科技巨头手里的魔法黑盒。你需要一直保持联网,可能需要交订阅费,甚至还要时刻担心聊天记录会不会被平台拿去当免费的训练语料。
但现在情况完全变了。既然这种旧时光里的老电脑都能被硬生生唤醒跑模型,那就说明你手头那些正在抽屉里吃灰的旧手机、旧平板,其实都有潜力变成一台完全离线的个人专属 AI 终端。你的现有设备大概率已经能跑得很溜了。
这是把大模型的所有权,真正交还给个人。技术进步最迷人的地方,从来都不是在实验室里跑了多高的分数,而是最终以低廉到几乎可以忽略的成本,落到普通人的生活里。
未来本地跑模型不会挑剔设备,它就是软件运行的一种默认状态。
聊到这,我特别想问一句,你现在手头上还能正常开机、而且你觉得算得上古董的最老设备,是什么配置?
数据来源:Reddit r/LocalLLaMA、llama.cpp GitHub