← 随机比特 / 所有内容

Karpathy 用 $100 重新训练了一个 GPT-2 级别的模型,并能像 ChatGPT 一样聊天——2019 年需要 $43,000 做的事,现在 $48 就够了。

2026-03-10 · 随机比特

Karpathy 用 $100 造了个 ChatGPT:2019 年这件事要花 $43,000

发布平台: 公众号(随机比特) 字数目标: ~2000 字 润色时间: 2026-03-10T07:10:00+08:00 选题评分: 9.45/10 来源: https://github.com/karpathy/nanochat


$43,000 和 $48,差了将近千倍。

这不是打折活动。是 7 年时间,AI 这个行业悄悄发生的事。

上周,Andrej Karpathy 在 GitHub 放出了一个叫 nanochat 的项目。

简介只有一句话:“The best ChatGPT that $100 can buy.”


Karpathy 是谁

如果你不熟悉这个名字,说人话版本是:他是那种"把最复杂的东西做成最简单的东西"的人。

OpenAI 联合创始人之一,后来去特斯拉当了几年 AI 总监,主导了 FSD(自动驾驶)的感知系统。然后又回来做了一段时间的 OpenAI 研究员。

但他最广为人知的,是做教学工具。nanoGPT,一个几百行 PyTorch 代码就能从零训练 GPT 的项目,是很多人入门 LLM 的第一个实验。

nanochat 是 nanoGPT 的进化版。不只是训练,而是一整套管线:数据处理、预训练、微调、评估、推理、再加一个 ChatGPT 式的聊天界面。


$48 是怎么算出来的

2019 年,OpenAI 训练 GPT-2(1.6B 参数)花了大约 $43,000

这笔钱当时是什么概念?大多数研究团队或初创公司,根本没办法为了一次实验花这么多。训练大模型是大公司的专利。

现在呢?

nanochat 的 speedrun 排行榜上,当前最快记录是 2.02 小时,达到同等 GPT-2 能力(DCLM CORE 评分)。按 8×H100 节点大约 $24/小时算,总花费约 $48。用 spot 实例可以再省 30-60%。

<!-- diagram:timeline -->

7 年之间,几件事同时发生:

这 7 年,$43,000 → $48,是整个 AI 基础设施栈集体进化的结果。


nanochat 怎么用

说实话,门槛不低——你还是需要一台 8×H100 的 GPU 节点。

但这件事本身变简单了。你不需要从零写训练代码,不需要配置几十个超参数。

整个流程就一个脚本:

bash runs/speedrun.sh

nanochat 设计了一个叫 --depth 的参数,对应 transformer 的层数。GPT-2 级别大约是 depth=26。其他所有超参——宽度、学习率、训练步数——都会自动算出来。

跑完之后,一个命令启动聊天界面:

python -m scripts.chat_web

然后你就能跟自己训练的模型聊天了。问它为什么天是蓝的,让它写首诗,或者问它"你是谁"——这时候它会开始胡说(这是 pretrain 模型的正常表现,叫 hallucination)。

<!-- diagram:compare -->

覆盖的内容不少:tokenization、pretraining、finetuning、evaluation、inference,外加一个 web UI。想深入研究哪个阶段,代码都在那,而且是最简化版本,没有工程包袱。


这代表什么

我不想说"人人都有 ChatGPT"这种话,因为不准确。

$48 能训练出来的东西,能力上对标的是 GPT-2——一个 2019 年的模型,不能联网,不懂代码,写出来的东西经常语义跑偏。跟 GPT-4o、Claude 3.5 之间,还有巨大的鸿沟。

但这件事的意义,不在于"我现在拥有了一个 ChatGPT"。

在于:LLM 的完整生命周期,从数据到训练到推理,已经可以在 $100 以内跑通一遍了。

对这些人特别有用:

Karpathy 做这件事,有一种一贯的动机:他想让"理解 AI"这件事变得更平易近人。nanoGPT 是这样,nanochat 也是。


怎么上手

如果你想试试,步骤很简单:

  1. 找一家 GPU 云服务商,开一台 8×H100 节点(Karpathy 自己用 Lambda Labs,也可以用 CoreWeave、Vast.ai
  2. 克隆 nanochat:git clone https://github.com/karpathy/nanochat
  3. bash runs/speedrun.sh(大约 2-3 小时)
  4. 跑完后 python -m scripts.chat_web,访问节点 IP + 端口

省钱 tips:

有问题可以去 nanochat GitHub 的 Discussions,或者 Karpathy 的 Discord 频道 #nanochat。


最后

7 年前,训练 GPT-2 是一件要花 $43,000 的事,只有大公司才玩得起。

现在,$48,一个下午,任何人都能跑一遍。

这不是说 AI 已经"民主化"了——真正先进的模型依然在 OpenAI、Anthropic、Google 手里。

但这条线已经在移动。nanochat 是一个很好的证明。


项目地址: https://github.com/karpathy/nanochat

来源: GitHub Trending(2026-03-10) / karpathy/nanochat README


这篇文章基于公开资料写成。nanochat 是开源项目,MIT 协议。