Karpathy 用 $100 造了个 ChatGPT:2019 年这件事要花 $43,000
发布平台: 公众号(随机比特) 字数目标: ~2000 字 润色时间: 2026-03-10T07:10:00+08:00 选题评分: 9.45/10 来源: https://github.com/karpathy/nanochat
$43,000 和 $48,差了将近千倍。
这不是打折活动。是 7 年时间,AI 这个行业悄悄发生的事。
上周,Andrej Karpathy 在 GitHub 放出了一个叫 nanochat 的项目。
简介只有一句话:“The best ChatGPT that $100 can buy.”
Karpathy 是谁
如果你不熟悉这个名字,说人话版本是:他是那种"把最复杂的东西做成最简单的东西"的人。
OpenAI 联合创始人之一,后来去特斯拉当了几年 AI 总监,主导了 FSD(自动驾驶)的感知系统。然后又回来做了一段时间的 OpenAI 研究员。
但他最广为人知的,是做教学工具。nanoGPT,一个几百行 PyTorch 代码就能从零训练 GPT 的项目,是很多人入门 LLM 的第一个实验。
nanochat 是 nanoGPT 的进化版。不只是训练,而是一整套管线:数据处理、预训练、微调、评估、推理、再加一个 ChatGPT 式的聊天界面。
$48 是怎么算出来的
2019 年,OpenAI 训练 GPT-2(1.6B 参数)花了大约 $43,000。
这笔钱当时是什么概念?大多数研究团队或初创公司,根本没办法为了一次实验花这么多。训练大模型是大公司的专利。
现在呢?
nanochat 的 speedrun 排行榜上,当前最快记录是 2.02 小时,达到同等 GPT-2 能力(DCLM CORE 评分)。按 8×H100 节点大约 $24/小时算,总花费约 $48。用 spot 实例可以再省 30-60%。
<!-- diagram:timeline -->
7 年之间,几件事同时发生:
- H100 比 2019 年的 V100 快了好几倍
- 训练算法持续优化(better learning rate schedule、更好的初始化、batch size tuning)
- 开源训练数据集越来越成熟(nanochat 最新用了 NVIDIA ClimbMix)
- 开源社区协作优化——speedrun 排行榜本身就是一种加速器
这 7 年,$43,000 → $48,是整个 AI 基础设施栈集体进化的结果。
nanochat 怎么用
说实话,门槛不低——你还是需要一台 8×H100 的 GPU 节点。
但这件事本身变简单了。你不需要从零写训练代码,不需要配置几十个超参数。
整个流程就一个脚本:
bash runs/speedrun.sh
nanochat 设计了一个叫 --depth 的参数,对应 transformer 的层数。GPT-2 级别大约是 depth=26。其他所有超参——宽度、学习率、训练步数——都会自动算出来。
跑完之后,一个命令启动聊天界面:
python -m scripts.chat_web
然后你就能跟自己训练的模型聊天了。问它为什么天是蓝的,让它写首诗,或者问它"你是谁"——这时候它会开始胡说(这是 pretrain 模型的正常表现,叫 hallucination)。
<!-- diagram:compare -->
覆盖的内容不少:tokenization、pretraining、finetuning、evaluation、inference,外加一个 web UI。想深入研究哪个阶段,代码都在那,而且是最简化版本,没有工程包袱。
这代表什么
我不想说"人人都有 ChatGPT"这种话,因为不准确。
$48 能训练出来的东西,能力上对标的是 GPT-2——一个 2019 年的模型,不能联网,不懂代码,写出来的东西经常语义跑偏。跟 GPT-4o、Claude 3.5 之间,还有巨大的鸿沟。
但这件事的意义,不在于"我现在拥有了一个 ChatGPT"。
在于:LLM 的完整生命周期,从数据到训练到推理,已经可以在 $100 以内跑通一遍了。
对这些人特别有用:
- 想搞清楚 LLM 内部到底怎么运转的
- 在学校/公司做 AI 研究,需要受控实验环境的
- 想在自己的数据上微调一个小模型,不依赖 API 的
- 就是想试试"能不能训练出来一个东西"的
Karpathy 做这件事,有一种一贯的动机:他想让"理解 AI"这件事变得更平易近人。nanoGPT 是这样,nanochat 也是。
怎么上手
如果你想试试,步骤很简单:
- 找一家 GPU 云服务商,开一台 8×H100 节点(Karpathy 自己用 Lambda Labs,也可以用 CoreWeave、Vast.ai)
- 克隆 nanochat:
git clone https://github.com/karpathy/nanochat - 跑
bash runs/speedrun.sh(大约 2-3 小时) - 跑完后
python -m scripts.chat_web,访问节点 IP + 端口
省钱 tips:
- 用 spot 实例,按需配置可节省 30-60%(实际价格取决于供应商和节点类型)
- 跑完记得关机,按小时计费
有问题可以去 nanochat GitHub 的 Discussions,或者 Karpathy 的 Discord 频道 #nanochat。
最后
7 年前,训练 GPT-2 是一件要花 $43,000 的事,只有大公司才玩得起。
现在,$48,一个下午,任何人都能跑一遍。
这不是说 AI 已经"民主化"了——真正先进的模型依然在 OpenAI、Anthropic、Google 手里。
但这条线已经在移动。nanochat 是一个很好的证明。
项目地址: https://github.com/karpathy/nanochat
来源: GitHub Trending(2026-03-10) / karpathy/nanochat README
这篇文章基于公开资料写成。nanochat 是开源项目,MIT 协议。