Karpathy 用 $100 造了个 ChatGPT：2019 年这件事要花 $43,000

发布平台: 公众号（随机比特） 字数目标: ~2000 字 润色时间: 2026-03-10T07:10:00+08:00 选题评分: 9.45/10 来源: https://github.com/karpathy/nanochat

$43,000 和 $48，差了将近千倍。

这不是打折活动。是 7 年时间，AI 这个行业悄悄发生的事。

上周，Andrej Karpathy 在 GitHub 放出了一个叫 nanochat 的项目。

简介只有一句话：“The best ChatGPT that $100 can buy.”

Karpathy 是谁

如果你不熟悉这个名字，说人话版本是：他是那种"把最复杂的东西做成最简单的东西"的人。

OpenAI 联合创始人之一，后来去特斯拉当了几年 AI 总监，主导了 FSD（自动驾驶）的感知系统。然后又回来做了一段时间的 OpenAI 研究员。

但他最广为人知的，是做教学工具。nanoGPT，一个几百行 PyTorch 代码就能从零训练 GPT 的项目，是很多人入门 LLM 的第一个实验。

nanochat 是 nanoGPT 的进化版。不只是训练，而是一整套管线：数据处理、预训练、微调、评估、推理、再加一个 ChatGPT 式的聊天界面。

$48 是怎么算出来的

2019 年，OpenAI 训练 GPT-2（1.6B 参数）花了大约 $43,000。

这笔钱当时是什么概念？大多数研究团队或初创公司，根本没办法为了一次实验花这么多。训练大模型是大公司的专利。

现在呢？

nanochat 的 speedrun 排行榜上，当前最快记录是 2.02 小时，达到同等 GPT-2 能力（DCLM CORE 评分）。按 8×H100 节点大约 $24/小时算，总花费约 $48。用 spot 实例可以再省 30-60%。

7 年之间，几件事同时发生：

H100 比 2019 年的 V100 快了好几倍
训练算法持续优化（better learning rate schedule、更好的初始化、batch size tuning）
开源训练数据集越来越成熟（nanochat 最新用了 NVIDIA ClimbMix）
开源社区协作优化——speedrun 排行榜本身就是一种加速器

这 7 年，$43,000 → $48，是整个 AI 基础设施栈集体进化的结果。

nanochat 怎么用

说实话，门槛不低——你还是需要一台 8×H100 的 GPU 节点。

但这件事本身变简单了。你不需要从零写训练代码，不需要配置几十个超参数。

整个流程就一个脚本：

bash runs/speedrun.sh

nanochat 设计了一个叫 --depth 的参数，对应 transformer 的层数。GPT-2 级别大约是 depth=26。其他所有超参——宽度、学习率、训练步数——都会自动算出来。

跑完之后，一个命令启动聊天界面：

python -m scripts.chat_web

然后你就能跟自己训练的模型聊天了。问它为什么天是蓝的，让它写首诗，或者问它"你是谁"——这时候它会开始胡说（这是 pretrain 模型的正常表现，叫 hallucination）。

覆盖的内容不少：tokenization、pretraining、finetuning、evaluation、inference，外加一个 web UI。想深入研究哪个阶段，代码都在那，而且是最简化版本，没有工程包袱。

这代表什么

我不想说"人人都有 ChatGPT"这种话，因为不准确。

$48 能训练出来的东西，能力上对标的是 GPT-2——一个 2019 年的模型，不能联网，不懂代码，写出来的东西经常语义跑偏。跟 GPT-4o、Claude 3.5 之间，还有巨大的鸿沟。

但这件事的意义，不在于"我现在拥有了一个 ChatGPT"。

在于：LLM 的完整生命周期，从数据到训练到推理，已经可以在 $100 以内跑通一遍了。

对这些人特别有用：

想搞清楚 LLM 内部到底怎么运转的
在学校/公司做 AI 研究，需要受控实验环境的
想在自己的数据上微调一个小模型，不依赖 API 的
就是想试试"能不能训练出来一个东西"的

Karpathy 做这件事，有一种一贯的动机：他想让"理解 AI"这件事变得更平易近人。nanoGPT 是这样，nanochat 也是。

怎么上手

如果你想试试，步骤很简单：

找一家 GPU 云服务商，开一台 8×H100 节点（Karpathy 自己用 Lambda Labs，也可以用 CoreWeave、Vast.ai）
克隆 nanochat：git clone https://github.com/karpathy/nanochat
跑 bash runs/speedrun.sh（大约 2-3 小时）
跑完后 python -m scripts.chat_web，访问节点 IP + 端口

省钱 tips：

用 spot 实例，按需配置可节省 30-60%（实际价格取决于供应商和节点类型）
跑完记得关机，按小时计费

有问题可以去 nanochat GitHub 的 Discussions，或者 Karpathy 的 Discord 频道 #nanochat。

最后

7 年前，训练 GPT-2 是一件要花 $43,000 的事，只有大公司才玩得起。

现在，$48，一个下午，任何人都能跑一遍。

这不是说 AI 已经"民主化"了——真正先进的模型依然在 OpenAI、Anthropic、Google 手里。

但这条线已经在移动。nanochat 是一个很好的证明。

项目地址: https://github.com/karpathy/nanochat

这篇文章基于公开资料写成。nanochat 是开源项目，MIT 协议。